Inhaltsverzeichnis 1 Grundlagen 1.1 Mathematische Sprache . 1.2 Beweistechniken . . . . . 1.3 Mengen . . . . . . . . . 1.4 Abbildungen . . . . . . . 1.5 Natürliche Zahlen N und . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vollständige Induktion 2 Zahlen 2.1 Die Gruppe der ganzen Zahlen Z . . . . . . 2.2 Der Körper der rationalen Zahlen Q . . . . . 2.3 Der Körper der reellen Zahlen R . . . . . . . 2.4 Mächtigkeit von Mengen und Abzählbarkeit 2.5 Rechnerarithmetik . . . . . . . . . . . . . . 2.6 Der Körper der komplexen Zahlen C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 7 12 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 23 25 28 35 38 42 3 Konvergenz, Folgen und Reihen 3.1 Konvergenz . . . . . . . . . . . . . . . . . . . . 3.2 Bestimmung von Konvergenz und Grenzwerten . 3.3 Häufungspunkte und Teilfolgen . . . . . . . . . 3.4 Reihen . . . . . . . . . . . . . . . . . . . . . . . 3.5 Konvergenzkriterien für Reihen . . . . . . . . . 3.6 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 50 53 54 57 59 . . . . . 61 61 62 65 67 70 . . . . . 73 74 76 78 81 84 4 Stetigkeit 4.1 Intervalle . . . . . . . . . . . . . . . 4.2 Folgenstetigkeit . . . . . . . . . . . 4.3 -δ-Stetigkeit . . . . . . . . . . . . 4.4 Rechenregeln für stetige Funktionen 4.5 Zwischenwertsatz . . . . . . . . . . . . . . . 5 Differentiation 5.1 Ableitung von Funktionen . . . . . . 5.2 Ableitung als lineare Approximation 5.3 Ableitungsregeln . . . . . . . . . . . 5.4 Extrema und Mittelwertsatz . . . . . 5.5 Taylorreihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Inhaltsverzeichnis 5.6 Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Integration 6.1 Zerlegungen und Flächeninhalte . . . . . . . . . . 6.2 Riemann-Integral . . . . . . . . . . . . . . . . . . 6.3 Hauptsatz der Differential- und Integralrechnung . 6.4 Integrationsregeln . . . . . . . . . . . . . . . . . . 6.4.1 Partielle Integration . . . . . . . . . . . . 6.4.2 Substitutionsregeln . . . . . . . . . . . . . 6.5 Quadraturformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Vektorräume 7.1 Der n-dimensionale reelle Raum Rn . . . . . . . . . . 7.2 Raum von Folgen und Funktionen . . . . . . . . . . . 7.3 Allgemeine Definition von Vektorräumen . . . . . . . 7.4 Linearkombination, Span und lineare Unabhängigkeit 7.5 Basis und Dimension . . . . . . . . . . . . . . . . . . 8 Lineare Abbildungen und Matrizen 8.1 Matrizen . . . . . . . . . . . . . 8.2 Lineare Abbildungen . . . . . . 8.3 Lineare Gleichungssysteme . . . 8.4 Gauß-Elimination . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 . . . . . . . 95 95 97 104 105 106 106 107 . . . . . 113 113 117 120 121 125 . . . . 131 131 132 135 137 1 Grundlagen 1.1 Mathematische Sprache Möchte man mathematische Sachverhalte ausdrücken, so verwendet man dafür eine Sprache, die präziser in seiner Aussagekraft ist als dies zum Beispiel in der Alltagssprache üblich ist. Dadurch sollen mathematische Zusammenhänge übersichtlich und kompakt darstellbar sein und vor allem sollen mathematische Aussagen beweisbar werden. Es hat sich dazu ein gebräuchlicher Zeichenvorrat entwickelt, der neben weiteren grundlegenden Begriffen im Folgenden vorgestellt werden soll. Mathematische Aussagen Eine mathematische Aussage ist ein Satz, der wahr oder falsch sein kann. So ist zum Beispiel der Satz „Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“ eine Aussage, die wahr ist. Zwei Dinge sind bei der Betrachtung von Aussagen wichtig: (i) Eine Aussage ist immer ein ganzer Satz. Aussagen der Form „x2 + 3“ sind nur Terme, deren Wahrheitsgehalt sich nicht ermitteln lässt. (ii) Eine Aussage ist immer entweder wahr oder falsch („Tertium non datur“; Prinzip des ausgeschlossenen Dritten). Dabei ist durchaus möglich, dass noch nicht bekannt ist, ob eine Aussage wahr oder falsch ist (z.B. da noch kein Beweis gefunden ist). Aussagen werden gewöhlich mit lateinischen Großbuchstaben bezeichnet. Man verwendet bei der Angabe das Definitionssymbol := („ist definiert durch“). Zudem können Aussagen auch von Variablen abhängen. Durch Einsetzen eines konkreten Wertes für die Variable kann dann der Wahrheitsgehalt der so entstandenen Aussage ermittelt werden. Dadurch lassen sich ganze Klassen von Aussagen kompakt angeben. Beispiele 1.1 (i) A := „Die Summe einer ganzen Zahl mit sich selbst ergibt eine gerade Zahl.“ (ii) B(n) := „n + n ist eine gerade Zahl.“ (iii) C(n) := „n2 + 2n = 8“ (iv) D := „2 = 3“ 3 1 Grundlagen A w f w f B w w f f A∧B w f f f A∨B w w w f A xor B f w w f A w f ¬A f w Tabelle 1.1: Wahrheitstafeln (w: wahr; f: falsch) Hierbei ist sowohl A als auch B(n) für alle natürlichen Zahlen eine wahre Aussage. Die Gültigkeit von C(n) hängt vom gewählten n ab und D ist falsch. Kombination und Folgerung von Aussagen In der Alltagssprache ist es üblich Aussagen zu verneinen oder durch die Wörter „und“, „oder“, etc. zu neuen Aussagen zusammenzusetzen. Dies wird auch bei mathematischen Aussagen gemacht. Die dabei entstehenden zusammengesetzten Aussagen sind wiederum Aussagen, die wahr oder falsch sein können. Die Verknüpfungen werden mathematisch präzise über Wahrheitstafeln definiert. Seien A, B Aussagen, dann schreibt man: (i) A ∧ B: „A und B sind wahr“ (Konjunktion) (ii) A ∨ B: „A oder B ist wahr“ (Disjunktion) (iii) ¬A: „A ist falsch / A gilt nicht“ (Negation) (iv) A xor B: „Entweder A oder B ist wahr“ (Kontravalenz) Je nach Wahrheitsbelegung der ursprünglichen Aussagen besitzt die zusammengesetzte Aussage einen Wahrheitswert gemäß Tabelle 1.1. Wesentlich sind die Punkte: (i) A ∧ B ist genau nur dann wahr, wenn beide Aussagen A und B wahr sind. (ii) A ∨ B ist wahr, sobald mindestens eine der Aussagen A oder B wahr ist. Es dürfen dabei auch beide Aussagen wahr sein (inklusive oder ). (iii) A xor B ist wahr, wenn genau nur eine der Aussagen A oder B wahr ist. Sind A und B wahr, dann wird die Zusammensetzung falsch (exklusives oder ). Folgt aus A die Gültigkeit der Aussage B („Wenn A gilt, dann gilt auch B“ (Implikation)), so schreibt man dies als A ⇒ B. In diesem Fall bezeichnet man die Aussage A als hinreichend für die Gültigkeit von B. Verliert die Aussage B immer ihre Gültigkeit, sobald A nicht gültig ist (¬A ⇒ ¬B), so bezeichnet man A als notwendig für B. 4 1.2 Beweistechniken Man beachte, dass es bei der Folgerung A ⇒ B jedoch zwei Möglichkeiten gibt: - A ist wahr, B ist wahr - das ist der übliche, gewünschte Fall der Schlussfolgerung. - A ist falsch, B ist wahr oder falsch - d.h., aus einer falschen Aussage lässt sich alles schlussfolgern. Um auszudrücken, dass zwei Aussagen A, B gleichwertig sind („A gilt genau dann, wenn B gilt“ (Äquivalenz)), schreibt man A ⇔ B. Quantoren Oftmals möchte man Aussagen tätigen, die von äußeren Parametern abhängen. Dabei stellt sich dann zum Beispiel die Frage, ob die Aussage für alle möglichen Parameter gültig ist oder ob überhaupt ein Parameter existiert, für den diese Aussage gültig wird. Dies lässt sich über sogenannte Quantoren ausdrücken, die sich wie folgt lesen: (i) ∀: „für alle“ (ii) ∃: „es existiert (mindestens) ein“ (iii) ∃!: „es existiert genau ein“ (iv) @: „es existiert kein“ Beispiel 1.2 Sei B(n) := „n + n ist eine gerade Zahl.“ und C(n) := „n2 + 2n = 8“. (i) D := „∀n : B(n)“ (ii) E := „∃n : C(n)“ (iii) F := „∀n : C(n)“ Die beiden Aussagen D, E sind beide wahr. Hingegen ist die Aussage F falsch. 1.2 Beweistechniken In der Mathematik geht man davon aus, dass es gewissse Aussagen gibt, die gültig sind. Diese nennt man Axiome. Ausgehend von diesen Grundwahrheiten werden dann alle weiteren Aussagen gefolgert. Für die Schlussfolgerungen gibt es ein paar grundlegende Techniken, die sich oft anwenden lassen. Direkter Beweis Die einfachste Form des Beweises ist die direkte Schlussfolgerung. Dabei wird ausgehend von als wahr bekannten (bzw. als Axiom vorausgesetzen) Aussagen eine weitere wahre Aussage gefolgert. Dazu ein Beispiel: 5 1 Grundlagen Satz 1.3 (Quadratzahlen von geraden Zahlen sind gerade) Sei n eine gerade natürliche Zahl. Dann ist auch n2 eine gerade natürliche Zahl. Beweis. Sei A := „n eine gerade natürliche Zahl“. Daraus wird nun gezeigt, dass sich durch eine Kette von Implikationen die Aussage B := „n2 eine gerade natürliche Zahl“ folgern lässt. n gerade ⇒ Es gibt eine natürliche Zahl m mit n = 2 · m ⇒ n2 = (2 · m)2 = 4 · m2 = 2 · (2 · m2 ) ⇒ n2 gerade. Äquivalenzbeweis Ein Äquivalenzbeweis dient dazu die Gleichheit zweier Aussagen zu zeigen: A ⇔ B. Dies wird dadurch bewiesen, dass man einen direkten Beweis in beide Richtungen ausführt: Man zeigt sowohl A ⇒ B als auch B ⇒ A. Hieraus sieht man die Gleichheit der Aussagen. Beweis durch Kontraposition Möchte man A ⇒ B zeigen, so kann man stattdessen auch die äquivalente Aussage ¬B ⇒ ¬A zeigen, denn es gilt: (A ⇒ B) ⇔ (¬B ⇒ ¬A). Dazu ein Beispiel: Satz 1.4 Sei n2 eine gerade natürliche Zahl. Dann ist auch n eine gerade natürliche Zahl. Beweis. Sei A := „n2 eine gerade natürliche Zahl“ und B := „n eine gerade natürliche Zahl“. Anstatt A ⇒ B zu folgern, wird nun ¬B ⇒ ¬A gezeigt. ¬B = n ist eine ungerade natürliche Zahl ⇒ Es gibt eine natürliche Zahl m mit n = 2 · m + 1 ⇒ n2 = (2 · m + 1)2 = 4 · m2 + 4 · m + 1 = 2 · (2 · m2 + 2 · m) + 1 ⇒ n2 ist eine ungerade natürliche Zahl = ¬A 6 1.3 Mengen Widerspruchsbeweis (indirekter Schluss) Hier nimmt man an, dass die Aussage A ⇒ B, die man eigentlich beweisen möchte, nicht gilt. Die Negation von A ⇒ B lautet A ∧ ¬B. Hieraus leitet man nun einen Widerspruch her, d.h. dass damit dann gleichzeitig auch eine Aussage C und dessen Gegenteil ¬C gelten muss. Da dies nicht sein kann, muss die Annahme der Nagation falsch gewesen sein und somit die zu beweisende Aussage gelten. Satz 1.5 (Euklid) Es gibt unendlich viele Primzahlen. Beweis. Der Beweis wird durch einen Widerspruch geführt. Angenommen, es gäbe nur endlich viele Primzahlen. Dann lassen sich diese als p1 , p2 , . . . , pn auflisten und daraus eine neue Zahl M := p1 ·p2 ·. . .·pn bilden. Da M durch jede der Primzahlen teilbar ist, ist jedoch M +1 durch keine der Primzahlen teilbar und somit selbst eine Primzahl. Die Zahl M + 1 ist somit eine weitere Primzahl, die nicht in p1 , . . . , pn vorkommt - Widerspruch. Somit muss die Annahme, dass es nur endlich viele Primzahlen gibt, falsch gewesen sein. Eine weitere, sehr wichtige Beiweistechnik ist der Induktionsbeweis, mit dem man Aussagen beweisen kann, die von den natürlichen Zahlen abhängen. Auf Grund der Wichtigkeit der Induktion wird diese im weiteren Verlauf gesondert behandelt. 1.3 Mengen Einer der grundlegenden Begriffe der Mathematik ist die Menge. Die folgende intuitive Beschreibung stammt von G. Cantor. Definition 1.6 (Menge (Cantor, 1885)) Eine Menge ist eine wohldefinierte Zusammenfassung verschiedener Objekte zu einem Ganzen. Die Objekte in einer Menge werden Elemente genannt. Gemäß der Definition sind alle Elemente einer Menge von einander unterschiedlich. Üblicherweise werden Mengen durch lateinische Großbuchstaben A, B, C, . . . bezeichnet. Ist ein Objekt a Element einer Menge A, so schreibt man dies als a∈A (∈: „ist Element von“), andernfalls schreibt man a∈ /A (∈: / „ist nicht Element von“). 7 1 Grundlagen Beispiele 1.7 Beispiele für Mengen sind: (i) Die Menge der Studierenden an der Universität Frankfurt. (ii) Die Menge der Gemüse G := { Tomate, Gurke, Paprika, . . .}. (iii) Die Menge N := {0, 1, 2, 3, . . .} der natürlichen Zahlen. (iv) Die Menge N+ := {1, 2, 3, . . .} der positiven natürlichen Zahlen. (v) Die Menge Z := {. . . , −3, −2, −1, 0, 1, 2, 3, . . .} der ganzen Zahlen. Mengen werden durch die explizite Angabe ihrer Elemente beschrieben, A := {a, b, c, . . .}, oder man gibt die charakterisierende Eigenschaft ihrer Elemente an hat die Eigenschaft XY}. A := { a {z O} | a |∈ {z } | Obermenge Beispiele 1.8 Bedingung (i) Die Menge P oder P := {2, 3, 5, 7, 11, ..}, P := {n ∈ N+ | n ist Primzahl } beschreibt die Menge der Primzahlen, d.h. derjenigen natürlichen Zahlen, die nur durch 1 und sich selbst teilbar sind. (ii) Die Menge der positiven, geraden Zahlen {2, 4, 6, . . .}, oder {n ∈ N+ | ∃ m ∈ N : n = 2 · m}. (iii) Die Menge der Zahlen, die durch b ∈ N teilbar sind: {b, 2b, 3b, . . .}, oder {n ∈ N+ | ∃ m ∈ N : n = b · m}. (iv) Die Menge Q := { nz | z ∈ Z, n ∈ N+ }. Definition 1.9 Seien A und B Mengen. (a) A heißt Teilmenge von B, falls jedes Element von A auch in B enthalten ist. Man schreibt dies als A ⊂ B. (b) Gilt A ⊂ B und B ⊂ A, so sind die Mengen gleich: A = B. (c) Die leere Menge ∅ enthält kein Element und ist in jeder Menge enthalten. 8 1.3 Mengen (d) Der Durchschnitt A ∩ B besteht aus allen Elementen, die sowohl in A als auch in B enthalten sind: A ∩ B := {x | x ∈ A und x ∈ B}. (e) Die Vereinigung A ∪ B besteht aus allen Elementen, die in A oder in B enthalten sind: A ∪ B := {x | x ∈ A oder x ∈ B}. (f) Der Differenz A \ B besteht aus den Elementen, die in A aber nicht in B enthalten sind: A \ B := {x | x ∈ A und x ∈ / B}. A B A[B B A (a) A⇢B (b) A\B A\B Abbildung 1.1: (a) Teilmenge (b) verschiedene Mengenoperationen Bemerkung 1.10 (Exklusives und inklusives „oder“) Mit „oder“ ist das inklusive oder gemeint, d.h. A ∪ B enthält auch die Elemente, die sowohl in A als auch in B liegen. (Die Alternative ist das exklusive oder, bei dem ein Element entweder in A oder in B liegen muss, jedoch nicht in beiden gleichzeitig.) Für Vereinigung und Durchschnitt von Mengen gelten die folgenden Regeln: (a) Das Kommutativgesetz (es kommt nicht auf die Reihenfolge an): A ∪ B = B ∪ A, A∩B =B∩A (b) Das Assoziativgesetz (bei Mehrfachverkettung ist die Reihenfolge egal): (A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) 9 1 Grundlagen (c) Das Distributivgesetz : A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C), A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) Beweis. Möchte man zeigen, dass zwei Mengen X = Y identisch sind, dann bietet sich an zunächst einzeln sowohl X ⊂ Y als auch Y ⊂ X zu zeigen. Daraus folgt dann X = Y . Um die Aussage X ⊂ Y zu zeigen, wählt man ein beliebiges Element der Menge x ∈ X und zeigt dann, dass auch x ∈ Y gilt. Da das Element beliebig war, ist somit jedes Element aus X auch in Y enthalten und dies zeigt X ⊂ Y . Nach diesem Muster sei exemplarisch die Aussage A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) bewiesen. „A ∪ (B ∩ C) ⊂ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ A ∪ (B ∩ C) beliebig gewählt. Somit gilt x ∈ A oder x ∈ B ∩ C. Die beiden Fälle lassen sich getrennt betrachten: 1. Fall: Gilt x ∈ A, dann ist x ∈ A∪B und x ∈ A∪C und somit auch x ∈ (A∪B)∩(A∪C). 2. Fall: Gilt x ∈ B ∩ C, dann gilt x ∈ B und x ∈ C. Somit gilt auch x ∈ A ∪ B und x ∈ A ∪ C. Darauf folgt ebenfalls x ∈ (A ∪ B) ∩ (A ∪ C). „A ∪ (B ∩ C) ⊃ (A ∪ B) ∩ (A ∪ C)“: Sei ein x ∈ (A ∪ B) ∩ (A ∪ C) beliebig gewählt. Somit gilt x ∈ A ∪ B und x ∈ A ∪ C. Es lassen sich erneut zwei Fälle getrennt betrachten: 1. Fall: Gilt x ∈ A, dann ist x ∈ A ∪ (B ∩ C). 2. Fall: Gilt x ∈ / A, dann muss x ∈ B und x ∈ C gelten. Somit gilt auch x ∈ A ∪ (B ∩ C). Hat man mehrere Mengen, so lassen sich aus diesen die „Produktmenge“ bilden. Definition 1.11 (Kartesisches Produkt) Seien A, B zwei Mengen. Das kartesische Produkt von A und B ist die Menge A × B := {(a, b) | a ∈ A, b ∈ B}. Die Elemente (a, b) sind geordnete Paare und werden Tupel genannt. Analog lassen sich auch kartesische Produkte A1 × A2 × . . . × An definieren, die als Elemente n-Tupel (a1 , a2 , . . . , an ) besitzen. Zu einer gegebenen Menge lässt sich zudem die „Menge aller Teilmengen“ bilden. Definition 1.12 (Potenzmenge) Zu einer Menge A ist die Potenzmenge P gegeben durch die Menge aller Teilmengen, d.h. P(A) := {B | B ⊂ A}. 10 (1.1) 1.3 Mengen N N⇥N .. . .. . .. . .. . (0, 2) (1, 2) (2, 2) (1, 1) (2, 1) .. . .. . (0, 1) (0, 0) (1, 0) (2, 0) (3, 0) ... N Abbildung 1.2: Kartesisches Produkt N2 := N × N Beispiel 1.13 n o (i) P({1}) = ∅, {1} . n o (ii) P({1, 2}) = ∅, {1}, {2}, {1, 2} . n o (iii) P({1, 2, 3}) = ∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3} . Bemerkung 1.14 (Russellsche Antinomie) Der Mathematiker B. Russell hat durch ein Paradoxon gezeigt, dass beim Umgang von Konstrukten gemäß „Menge aller Mengen mit gewisser Eigenschaft“ Vorsicht geboten ist. Dazu konstruiert er die „Menge aller Mengen, die sich nicht selbst als Element enthalten“, d.h. formal R := {M | M ∈ / M }. (1.2) Man denke zum Beispiel an ein Buch, das alle Bücher auflistet, in denen nicht auf sich selbst verwiesen wird. Die Frage ist nun, ob diese Menge in sich selbst enthalten ist, d.h ob gilt R ∈ R oder R∈ / R. Enthält sich die Menge R nicht selbst, so muss sie sich aber gemäß Definition enthalten. Enthält R sich selbst, dann darf sie sich gemäß Definition nicht enthalten. Es gilt also der Widerspruch R∈R⇔R∈ / R. (1.3) Diese Problematik kann durch einen axiomatischen Ansatz der Mengenlehre umgangen werden. Für den Rahmen dieser Vorlesung soll der einfache Ansatz zur Mengenlehre aber genügen, auf widersprüchliche Definitionen wird verzichtet. 11 1 Grundlagen 1.4 Abbildungen Definition 1.15 (Abbildung) Eine Abbildung (auch Funktion) f von einer Menge A auf eine Menge B ist eine Vorschrift, die jedem Element a ∈ A genau ein Element b ∈ B zuordnet. Man schreibt: f : A → B, a 7→ f (a) oder auch kurz f : A → B, A 3 a 7→ f (a) ∈ B. Die Menge A heißt Definitionsbereich von f . Die Menge B heißt Wertebereich von f . Die Menge f (A) := {f (a) | a ∈ A} ⊂ B heißt Bild von f . Beispiele 1.16 Beispiele für Abbildungen zwischen Mengen: (a) f : {1, 2, 3} → {1, 2, 3, 4}, n 7→ n + 1: Abbildung auf nächste Zahl (b) g : N → N, n 7→ n2 : Abbildung der natürlichen Zahlen auf die Quadratzahlen (c) h : Z → Z, n 7→ n2 : Abbildung der ganzen Zahlen auf die Quadratzahlen Abbildungen zwischen Mengen lassen sich durch Wertetabellen angeben. Dies ist zum Beispiel die übliche Angabe einer Abbildung zwischen zwei Mengen, wenn es sich um experimentelle Messwerte handelt. Dann wird eine Abbildug zwischen der Menge der Messpunkte MP und der Menge der Messwerte MW aufgezeichnet: Messung : MP → MW. x ∈ MP 3 1 5 f (x) ∈ MW 9 8 16 Tabelle 1.2: Illustration der Wertetabelle zu einer Messung Alternativ lässt sich eine Abbildung gut durch ihren Graph veranschaulichen. Definition 1.17 (Graph) Zu einer Abbildung f : A → B heißt die Menge G := {(a, b) ∈ A × B | b = f (a)} der Graph der Abbildung. 12 1.4 Abbildungen Bild 4 3 f : {1, 2, 3} ! {1, 2, 3, 4}, 2 Wertebereich n 7! n + 1 1 1 2 | {z 3 } Definitionsbereich Abbildung 1.3: Graph, Definitonsbereich, Wertebereich und Bild einer Funktion Definition 1.18 (Injektiv, surjektiv und bijektiv) Sei f : A → B eine Abbildung. Die Abbildung heißt (a) injektiv, falls jedes Element aus B höchstens ein Urbild hat, d.h. wenn gilt ∀a1 , a2 ∈ A : f (a1 ) = f (a2 ) ⇒ a1 = a2 , (b) surjektiv, falls auf jedes Element aus B abgebildet wird, d.h. wenn gilt f (A) = B, (c) bijektiv (oder auch one-to-one), falls sie injektiv und surjektiv ist. Ist eine Abbildung f : A → B bijektiv, dann existiert zu jedem Element b ∈ B im Wertebereich mindestens ein Element a ∈ A im Definitionsbereich, das auf b = f (a) abbildet (surjektiv). Gleichzeitig gibt es aber höchstens ein Element a ∈ A im Definitionsbereich, das auf b = f (a) abbildet (injektiv). Somit gibt es genau ein solches Element. Bijektive Abbildungen lassen sich eindeutig umkehren. Definition 1.19 (Umkehrabbildung) Zu einer bijektiven Abbildung f : A → B ist die Umkehrabbildung gegeben durch f −1 : B → A, a = f −1 (b) :⇔ b = f (a). Umkehrabbildungen sind wieder bijektiv. Manchmal möchte man auch mehrere Abbildungen hintereinander ausführen. Dies geht dann, wenn der Bildbereich der einen Abbildung im Definitionsbereich der zweiten liegt. 13 1 Grundlagen f :A!B A a3 b3 a2 b2 a1 (a) B b1 a0 b0 A := {a0 , a1 , a2 , a3 } B := {b0 , b1 , b2 , b3 } f :A!B A b3 a2 b2 a1 (b) B b1 a0 b0 A := {a0 , a1 , a2 } B := {b0 , b1 , b2 , b3 } f :A!B A B b1 a0 a3 a2 b2 a1 (c) b0 A := {a0 , a1 , a2 , a3 } B := {b0 , b1 , b2 } Abbildung 1.4: Beispiele für eine Funktion f : A → B: (a) nicht injektiv, nicht surjektiv (b) injektiv, nicht surjektiv, (b) nicht injektiv, surjektiv f :A!B A f B b3 a0 a3 a2 a1 A a0 b1 b2 b0 1 :B!A B b3 a3 a2 a1 b1 b2 b0 Abbildung 1.5: Bijektive Funktion f : A → B und Umkehrfunktion f −1 : B → A 14 1.5 Natürliche Zahlen N und vollständige Induktion Definition 1.20 (Verkettung von Abbildungen) Seien f : A → B und g : C → D mit f (A) ⊂ C. Dann heißt die Abbildung g ◦ f : A → D, a 7→ g(f (a)), die Verkettung der Abbildungen f und g. Man liest dies als „g nach f “, denn die Abbildung f wird zuerst ausgeführt. 1.5 Natürliche Zahlen N und vollständige Induktion Die Menge der natürlichen Zahlen N := {0, 1, 2, 3, . . .} wird intuitiv verstanden und - wie der Name schon sagt - als „natürlich“ gegeben angesehen. Was aber genau die natürlichen Zahlen sind und wie diese mathematisch präzise zu verstehen sind, wurde immer wieder diskutiert. Heute werden die natürlichen Zahlen üblicherweise über ein Axiomensystem eingeführt. Definition 1.21 (G. Peano, 1889) (P1) Es gibt ein ausgezeichnetes (kleinstes) Element: 0 ∈ N. (P2) Zu jeder natürlichen Zahl n ∈ N gibt es einen Nachfolger ν(n) ∈ N. (P3) Die Zahl 0 ∈ N ist nicht Nachfolger einer natürlichen Zahl. (P4) Die Nachfolger unterschiedlicher Zahlen sind unterschiedlich: n1 6= n2 ⇒ ν(n1 ) 6= ν(n2 ). (P5) Enthält eine Menge M ⊂ N die Zahl 0 und mit jedem n ∈ M auch den Nachfolger ν(n) ∈ M , dann ist M = N. Die arithmetischen Grundoperationen lassen sich ausgehend von diesen Axiomen wie folgt definieren: n + 0 := n, n · 0 := 0, n + ν(m) := ν(n + m), n · ν(m) := n · m + n. 15 1 Grundlagen Man erhält so die üblichen Zahlen, wenn man definiert: 0 := 0, 1 := ν(0), 2 := ν(ν(0)) = ν(1), 3 := ν(ν(ν(0))) = ν(ν(1)) = ν(2), .. . Vollständige Induktion Eine wichtige Beweismethode ist die vollständige Induktion. Diese dient dazu Aussagen der Form A(n) zu beweisen, die von den natürlichen Zahlen abhängen. Man ist daran interessiert, dass man die Aussage für alle natürlichen Zahlen beweist. Dies sind jedoch unendlich viele Aussagen A(0), A(1), A(2), A(3), . . . und man kann diese nicht alle einzeln beweisen. Stattdessen zieht man sich auf das folgende Beweisprinzip zurück. Satz 1.22 (Induktionsprinzip) Sei A(n) eine Aussage, die von den natürlichen Zahlen n ∈ N abhängt. Falls gilt: (IA) Induktionsanfang: A(0) ist wahr, (IS) Induktionsschritt: Wenn A(n) wahr ist, dann ist auch A(n + 1) wahr, dann ist die Aussage A(n) für alle n ∈ N wahr. Beweis. Das Induktionsprinzip folgt direkt aus dem 5. Peanoschen Axiom. Dies sieht man wie folgt: Sei eine Teilmenge M ⊂ N definiert durch M := {n ∈ N | A(n) ist wahr }. Durch den Induktionsanfang gilt 0 ∈ M . Die Induktionsannahme besagt, dass aus n ∈ M auch n + 1 ∈ M folgt. Somit gilt mit dem 5. Peanoschen Axiom M = N. Bemerkung 1.23 Der Induktionsanfang muss nicht immer bei 0 gewählt werden. Gilt eine Aussage erst ab einem n0 ≥ 1, so zeigt man die Gültigkeit von A(n0 ) und ebenfalls den Induktionsschritt. Also Folgerung gilt dann A(n) für alle n ∈ N, n ≥ n0 , jedoch nicht für n < n0 . Mittels der Induktion lassen sich viele Aussagen über Summen beweisen. Dazu sei zunächst eine vereinfachende Notation für Summen und Produkte definiert. Definition 1.24 (Summe, Produkt) Seien {am , am+1 , . . . , an } ⊂ A Elemente einer Menge A, für die Summe als auch Produktbildung definiert ist. Für m, n ∈ Z, m ≤ n schreibt man am + am+1 + . . . + an =: n X i=m 16 ai . 1.5 Natürliche Zahlen N und vollständige Induktion Für m > n definiert man die leere Summe n X ai := 0, (m > n). i=m Analog schreibt man für die Multiplikation am · am+1 · . . . · an =: und n Y n Y ai , i=m ai := 1, (m ≤ n), (m > n). i=m Ein paar Beispiele sollen den Beiweis durch Induktion verdeutlichen. Satz 1.25 (C. F. Gauß) Für alle n ∈ N gilt: n X k=1 Beweis. Sei A(n) die Aussage: „ n P k= k=1 n(n+1) 2 k= n(n + 1) . 2 ist wahr“. Induktionsanfang (n = 0): 0 P k = 0 und 0(0+1) Für n = 0 ist = 0. Somit ist A(0) wahr. 2 Für n = 1 ist k=1 1 P k = 1 und k=1 1(1+1) 2 = 1. Somit ist A(1) wahr. Induktionsschritt: n P Angenommen A(n) ist wahr (Induktionsvoraussetzung, IV), d.h. es gelte k = k=1 n(n+1) . 2 Daraus schließt man auf die Gültigkeit von A(n + 1) wie folgt: n+1 X k= k=1 n X k=1 (IV) k + (n + 1) = n(n + 1) + (n + 1) 2 n(n + 1) + 2(n + 1) (n + 2)(n + 1) = 2 2 (n + 1)((n + 1) + 1) = . 2 = Somit folgt aus der Gültigkeit von A(n) auch die Gültigkeit von A(n + 1). 17 1 Grundlagen Satz 1.26 (Anzahl der Elemente der Potenzmenge) Sei M eine Menge mit n ∈ N Elementen. Dann hat die Potenzmenge P(M ) genau 2n Elemente. Beweis. Sei A(n) die Aussage: „Die Potenzmenge einer Menge mit n Elementen hat 2n Elemente“. Induktionsanfang (n = 1): Für M = {m} ist P({m}) = ∅, {m} und hat 2 = 21 Elemente. Somit ist A(1) wahr. Induktionsschritt: Angenommen A(n) ist wahr (Induktionsannahme), d.h. die Potenzmenge einer Menge mit n Elementen hat 2n Elemente. Nun muss gezeigt werden, wie viele Elemente die Potenzmenge einer Menge mit n + 1 Elementen hat. Sei M eine Menge mit n + 1 Elementen und sei ein m ∈ M willkürlich gewählt. Dann lässt sich M schreiben als M = N ∪ {m}, und N hat n Elemente. mit N := M \ {m}, Es gibt nun zwei Arten von Teilmengen von M : (a) Jene Teilmengen, die m nicht enthalten, d.h. die Teilmengen von N := M \ {m}. Nach Induktionsvoraussetzung sind dies 2n . (b) Jene Teilmengen, die m enthalten, d.h. alle Teilmengen der Form B ∪ {m} mit B ⊂ N . Nach Induktionsvoraussetzung sind dies 2n . Somit hat M genau 2n + 2n = 2 · 2n = 2n+1 Elemente. Somit gilt A(n + 1). Rekursive Definition Umgekehrt kann das Induktionsprinzip auch genutzt werden, um rekursive Definitionen D(n) vorzunehmen. Dazu definiert man zunächst für D(0) und gibt dann die Definition D(n) für alle weiteren n ∈ N, n ≥ 1 durch D(n) := F (D(0), D(1), . . . , D(n − 1)) als eine Vorschrift an, die von den vorhergehenden Definitionen abhängen kann. Definition 1.27 (Potenz) Sei a ∈ N. Die n-te Potenz von a ist rekursiv definiert durch ( 1, n = 0, an := a · an−1 , n ≥ 1. Definition 1.28 (Fakultät) Die n-Fakultät ist rekursiv definiert durch ( 1, n! := n · (n − 1)!, 18 n = 0, n ≥ 1. 1.5 Natürliche Zahlen N und vollständige Induktion Solche rekursiven Definitionen lassen sich auch verwenden, um biologische Populationen zu beschreiben. So hat Leonardo da Pisa (genannt Fibonacci) bereits 1220 die Anzahl an Kaninchenpaaren berechnet. Er nahm dabei an, dass jedes Paar an Kaninchen ab dem zweiten Lebensmonat jeden Monat ein weiteres Paar als Nachwuchs bekommt und Kaninchen unsterblich sind. Beginnt man mit einer Population von einem neu geborenen Kaninchenpaar in Monat eins, F1 = 1, so bleibt es bei einem in Monat zwei, F2 = 1, und in Monat drei bekommt dieses Paar den ersten Nachwuchs, F3 = 2. Im Monat vier bekommt weiterhin nur das erste Paar Nachwuchs, F4 = 3, ab Monat fünf dann auch das Paar aus Monat 3, F5 = 5, usw. In jedem Monat gibt es folglich immer die Anzahl Paare, die im Vormonat vorhanden waren, plus der Nachwuchs der Paare die bereits vor zwei Monaten lebten, d.h. Fn+1 = Fn + Fn−1 . Definition 1.29 (Fibonacci-Folge) Die Fibonacci-Zahlen Fn , n ∈ N+ , sind definiert durch n = 1, 1, Fn := 1, n = 2, Fn−1 + Fn−2 , n ≥ 3. 19 2 Zahlen Betrachtet man die Menge der natürlichen Zahlen N = {0, 1, 2, 3, . . .}, so lassen sich in gewissen Fällen die elementaren arithmetischen Operationen „a + b“ (Addition) und „a · b“ (Multiplikation) umkehren, die dann als „b − a“ (Subtraktion) und „ ab “ (Division) bezeichnet werden. Allerdings lassen sich Addition und Division nicht für beliebige Zahlen aus N definieren - so ist z.B. die Subtraktion für „b − a“ zunächst nur für Paare (b, a) natürlicher Zahlen sinnvoll, für die b > a gilt. Dies zeigt: Während die Addition + : N × N → N, (a, b) 7→ a + b für alle Paare natürliche Zahlen definiert ist, so ist die Subtraktion − : N × N → N, (a, b) 7→ a − b nicht immer erklärt - man spricht davon, dass die Menge der natürlichen Zahlen bezüglich der Subtraktion „unvollständig“ ist. Man möchte daher den Zahlenraum dahingehend erweitern, dass die Operationen der Subtraktion und Division immer erklärt sind - dies führt auf die größeren Zahlenmengen der ganzen Zahlen Z und der rationalen Zahlen Q. Um diesen Erweiterungsprozess mathematisch beschreiben zu können, wird die Äquivalenzrelation verwendet. Definition 2.1 (Relation) Eine Relation zwischen zwei Mengen A, B ist eine Teilmenge R ⊂ A×B des kartesischen Produkts der Mengen. Zu einer Relation R lässt sich immer entscheiden, ob ein Paar (a, b) ∈ A × B in der Relation vorhanden ist oder nicht. Ist es Teil der Relation, d.h. (a, b) ∈ R, so schreibt R man dies als a ∼ b oder auch kurz a ∼ b, wenn aus dem Kontext hervorgeht, welche Relation gemeint ist. Eine sehr häufige Verwendung der Relation dient zur Beschreibung von Äquivalenzen innerhalb einer Menge. Definition 2.2 (Äquivalenzrelation) Eine Äquivalenzrelation auf einer Menge A ist eine Relation R ⊂ A × A mit den Eigenschaften (i) Reflexivität: a ∼ a für alle a ∈ A, (ii) Symmetriegesetz: a ∼ b ⇒ b ∼ a, 21 2 Zahlen y1 y1 6 5 4 3 2 1 t1 t2 t3 Abbildung 2.1: Beispiel einer Relation: Eine Messreihe an den Zeitpunkten t1 , t2 , t3 , . . . zeichnet im Fehlerbalkendiagramm als „Messwert“ den Fehlerbereich zu jedem ti als die Teilmenge {y | y i ≤≤ y i } auf (iii) Transitivität: a ∼ b, b ∼ c ⇒ a ∼ c. Die Bedeutung von Äquivalenzrelationen liegt darin, dass sich dadurch Mengen in Teilmengen („Klassen“) einteilen lassen, die eine gröbere Beschreibung der Menge sind, jedoch gewünschte „wesentliche“ Aspekte hervorheben. Beispiel 2.3 Als Blutgruppen von Menschen werden die Zuordnungen A, B, AB und 0 verwendet. Durch diese Zuordnung lässt sich auf der Menge der Menschen eine Relation definitieren gemäß x ∼ y :⇔ x, y haben diesselbe Blutgruppe Dabei bezeichnet man die Äquivalenzklassen durch die folgende Schreibweise [a] := {b ∈ A | b ∼ a}. Das (zufällig gewählte) erzeugene Element a wird Repräsentant der Äquivalenzklasse [a] genannt. Beispiel 2.4 Die natürlichen Zahlen N lassen sich gerade und ungerade Zahlen aufteilen. Diese unterscheiden sich dadurch, ob sie durch 2 teilbar sind oder nicht, d.h. ob bei Division durch 2 ein Rest bleibt oder nicht: a ∼ b :⇔ a, b haben bei Division durch 2 denselben Rest Dadurch entstehen die Restklassen [1] := {a ∈ N | @c ∈ N : a = 2c} = {1, 3, 5, 7, . . .}, [2] := {a ∈ N | ∃c ∈ N : a = 2c} = {0, 2, 4, 6, . . .}. 22 2.1 Die Gruppe der ganzen Zahlen Z Beispiel 2.5 Der Menge Z × N+ lassen sich die rationalen Zahlen als Brüche zuordnen: a mit (a, b) ∈ Z × N+ . b Hier sind jedoch gewisse Brüche äquivalent. So sind z.B. 21 , 24 , 63 , . . . alle mit derselben rationalen Zahl assoziiert. Dafür lässt sich die Äquivalenzrelation (a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b (d.h. gedacht a0 a = 0 ). b b Die Menge der rationalen Zahlen kann man dann auffassen als die Menge der Äquivalenzklassen Q := {[(a, b)] | (a, b) ∈ Z × N+ }. Das letzte Beispiel motiviert nun die folgende Erweiterung des Zahlenbereichs N zu Z und Z zu Q. 2.1 Die Gruppe der ganzen Zahlen Z Die Menge der natürlichen Zahlen ist unter der Subtraktion nicht vollständig. Für Paare a, b ∈ N ist die Gleichung a+x=b nicht immer durch ein x ∈ N lösbar. Formal lässt sich dies für den Fall a > b immer durch die Einführung einer negativen Zahl x := b − a erreichen. Allerdings gibt es hier eine Mehrdeutigkeit: Es gibt unendlich vielen Differenzen b − a = (b + 1) − (a + 1) = (b + 2) − (a + 2) = . . ., die diese Gleichung formal lösen. Abhilfe schafft hier die Betrachtung der folgenden Äquivalenzrelation auf N × N: (a, b) ∼ (a0 , b0 ) :⇔ a + b0 = a0 + b. Dass es sich hier um eine Äquivalenzrelation handelt, zeigt sich folgendermaßen: (i) Reflexivität: für alle a, b ∈ N gilt a + b = a + b ⇒ (a, b) ∼ (a, b). (ii) Symmetrie: (a, b) ∼ (a0 , b0 ) ⇔ a + b0 = a0 + b ⇔ a0 + b = a + b0 ⇔ (a0 , b0 ) ∼ (a, b). (iii) Transitivität: Mit (a, b) ∼ (a0 , b0 ) und (a0 , b0 ) ∼ (a00 , b00 ) gilt a + b0 = a0 + b und a0 + b00 = a00 + b0 . Somit a + b00 + b0 = (a + b0 ) + b00 = (a0 + b) + b00 = (a0 + b00 ) + b = (a00 + b0 ) + b = a00 + b + b0 und somit a + b00 = a00 + b bzw. (a, b) ∼ (a00 , b00 ). 23 2 Zahlen Die zugehörigen Äquivalenzklassen [(a, b)] werden von den Paaren der natürlichen Zahlen gebildet, die dieselbe Differenz aufweisen. Damit lässt sich die Äquivalenzklasse [(a, b)] dann interpretieren als (i) für a > b als natürliche Zahl a − b ∈ N, (ii) für a = b als neutrale Zahl 0, (iii) für a < b als negative Zahl a − b. Die Menge der ganzen Zahlen lässt sich entsprechend als Menge von Äquivalenzklassen definieren: Z : = {[(n, 0)] | n ∈ N} ∪ [(0, n)] | n ∈ N+ . Die natürlichen Zahlen sind diesen Äquivalenzklassen zuordbar, indem man den folgenden Repräsentanten wählt N 3 n 7→ [(n, 0)] ∈ Z. Die Äquivalenzklassen [(0, n)] ∈ Z notiert man entsprechend mit 0 − n oder einfach −n. Mittels dieser Erweiterung von N nach Z ist nun der Zahlenbereich bezüglich der Subtraktion abgeschlossen, d.h. formal: jede Gleichung der Form a + x = b mit a, b ∈ Z hat eine Lösung x ∈ Z. Das mathematische Konstrukt der ganzen Zahlen ist prototypisch für viele andere Gebilde der Mathematik. Die elementaren Eigenschaften werden in der folgenden Definition zusammengefasst. Definition 2.6 (Gruppe) Eine Menge G mit einer Verknüpfung ◦: G×G→G (a, b) 7→ a ◦ b wird als Gruppe (G, ◦) bezeichnet, falls die folgenden Eigenschaften gelten: (a) Die Verknüpfung ist assoziativ, d.h. es gilt (a ◦ b) ◦ c = a ◦ (b ◦ c) für alle a, b, c ∈ G. (b) Es existiert ein neutrales Element e ∈ G, so dass a◦e=e◦a=a für alle a ∈ G. (c) Es existiert ein inverses Element a−1 ∈ G, so dass a ◦ a−1 = a−1 ◦ a = e für alle a ∈ G. Eine Gruppe (G, ◦) heißt kommutativ (oder abelsch), falls für alle a, b ∈ G zusätzlich das Kommutativgesetz a◦b=b◦a erfüllt ist. 24 2.2 Der Körper der rationalen Zahlen Q Eine Gruppe ist dadurch gekennzeichnet, dass sich Gleichungen der Form a ◦ x = b lösen lassen. Denn für jede Gleichung a ◦ x = b mit a, b ∈ G folgt allein aus der Gruppendefinition, dass x = a−1 ◦ b eine Lösung ist, da gilt a ◦ (a−1 ◦ b) = (a ◦ a−1 ) ◦ b = e ◦ b = b. Die ganzen Zahlen mit der Addition bilden folglich eine Gruppe (Z, +). Das neutrale Element ist die Null (e = 0) und das inverse Element zu einer Zahl a ∈ Z ist die Zahl −a ∈ Z. Die natürlichen Zahlen (N, +) hingegen bilden noch keine Gruppe, da das inverse Element nicht zu jedem Element existiert. 2.2 Der Körper der rationalen Zahlen Q Für die Menge Z hat nun die Gleichung a + x = b die Lösung x = b − a und ist somit bezüglich der Subtraktion abgeschlossen. Jedoch lässt sich die Gleichung a·x=b nicht immer durch ein x ∈ Z lösen. Der Zahlenbereich muss folglich ein weiteres mal erweitert werden, diesmal zur Menge der rationalen Zahlen Q. Man betrachte für a, a0 ∈ Z, b, b0 ∈ N+ zunächst die Äquivalenzrelation (a, b) ∼ (a0 , b0 ) :⇔ ab0 = a0 b. Zu a ∈ Z, b ∈ N+ sei die zugehörige Äquivalenzklasse [(a, b)] dann mit a := [(a, b)] = {a0 ∈ Z, b0 ∈ N+ | ab0 = a0 b} b bezeichnet. Dies führt auf die Menge der rationalen Zahlen als Menge von Äquivalenzklassen Q := o 0 | a ∈ Z \ {0}, b ∈ N , a, b teilerfremd ∪ . b 1 na + Als Repräsentant der jeweiligen Äquivalenzklasse wird also der Bruch in seiner vollständig gekürzten Fassung gewählt, bzw. 01 als Repräsentant der 0. In der Menge Q hat nun sowohl die Gleichung a + x = b als auch a · x = b immer eine Lösung. Sie ist somit sowohl bezüglich der Subtraktion als auch bezüglich der Division abgeschlossen. Dieses mathematische Gebilde ist wiederum sehr prototypisch. Seine Eigenschaften werden unter der Bezeichnung Körper abstrakt zusammengefasst. 25 2 Zahlen Definition 2.7 (Körper) Eine Menge K mit zwei Verknüpfungen + : K × K → K, · : K × K → K, heißt Körper, falls gilt: (a, b) 7→ a + b, (a, b) 7→ a · b, (Addition) (M ultiplikation) (K1) Addition und Multiplikation sind kommutativ, d.h. für alle a, b ∈ K gilt: a + b = b + a, a · b = b · a. (K2) Addition und Multiplikation sind assoziativ, d.h. für alle a, b, c ∈ K gilt: (a + b) + c = a + (b + c), (a · b) · c = a · (b · c). (K3) Es gilt das Distributivgesetz, d.h. für alle a, b, c ∈ K gilt: a · (b + c) = a · b + a · c. (K4) Die folgenden Gleichungen haben für alle a, b ∈ K ein Lösung x ∈ K: a + x = b, a · x = b sofern a 6= 0. Aus den Eigenschaften (K4) folgen direkt wichtige Eigenschaften eines Körpers. Satz 2.8 In einem Körper gibt es bzgl. der Addition ein neutrales Element 0 und zu jedem Element a ein Inverses −a. Ebenso gibt es bzgl. der Multiplikation ein neutrales Element 1 und zu jedem Element a 6= 0 ein Inverses a−1 . Beweis. Nach (K4) ist im Speziellen die Gleichung a + x = a für alle a lösbar. Die Lösung ist das verlangte neutrale Element 0. Dieses ist eindeutig, denn gäbe es ein weiteres Element 00 mit a + 00 = a, so folgt mit a + 00 = a = a + 0 durch Kürzen von a immer 00 = 0. Ebenso folgt aus (K4), dass die Lösung von a + x = 0 existiert und gerade das inverse Element −a darstellt. Für die Multiplikation argumentiert man analog. Der vorangeganene Satz zeigt, dass man einen Körper auch alternativ folgendermaßen definieren kann: Bemerkung 2.9 (Körper – alternative Definition) Ein Körper (K, +, ·) ist eine Menge K mit zwei Verknüpfungen + („Addition“) und · (Multiplikation) mit den Eigenschaften (i) (K, +) ist eine kommutative Gruppe mit neutralem Element 0, (ii) (K \ {0}, ·) ist eine kommutative Gruppe mit neutralem Element 1, (iii) Multiplikation und Addition sind distributiv: a · (b + c) = a · b + a · c. 26 2.2 Der Körper der rationalen Zahlen Q Anordnung von Q Auf der Menge der rationalen Zahlen Q lassen sich gewisse Zahlen als positiv auszeichnen, indem man die Teilmenge Q+ := {a ∈ Q | a = z , z, n ∈ N+ } n auszeichnet. Dadurch lässt sich für Paare (a, b) ∈ Q × Q die Ordnungsrelation a > b :⇔ a − b ∈ Q+ definieren. Analog definiert man a < b :⇔ b > a, a ≤ b :⇔ a < b oder a = b, a ≥ b :⇔ b ≤ a, und erhält die gewohnten kleiner und größer Beziehungen. Auf Q lässt sich der Absolutbetrag definieren durch a > 0, a, |a| := 0, a = 0, −a, a < 0. Satz 2.10 (Eigenschaften des Betrags) Für beliebige Zahlen a, b ∈ Q besitzt der Betrag die folgenden drei charakteristischen Eigenschaften: (i) Definitheit: |a| = 0 ⇒ a = 0. (ii) Multiplikativität: |a · b| = |a| · |b|. (iii) Dreiecksungleichung: |a + b| ≤ |a| + |b| (auch Subadditivität). Zudem gilt: (iv) ||a| − |b|| ≤ |a + b|. (v) ||a| − |b|| ≤ |a − b|. Beweis. Exemplarisch wird (v) gezeigt: |a| = |a − b + b| ≤ |a − b| + |b| ⇒ |a| − |b| ≤ |a − b| und und |b| = |b − a + a| ≤ |b − a| + |a| |b| − |a| ≤ |a − b|. Somit folgt insgesamt: ||a| − |b|| ≤ |a − b|. 27 2 Zahlen 2.3 Der Körper der reellen Zahlen R In den vorangegenenen Abschnitten wurde der Zahlenbereich der natürlichen Zahlen N schrittweise zunächst zu den ganzen Zahlen Z und dann zu den rationalen Zahlen Q erweitert, so dass man immer größere Zahlenräume N ⊂ Z ⊂ Q erhalten hat. Bei jeder Erweiterung stand die Fragestellung im Raum, ob sich gewisse Gleichungen lösen lassen. Im Körper Q schließlich lassen sich nun lineare Gleichungen bzgl. der Addition und der Multiplikation stets lösen. Konsequenter Weise lässt sich fragen, ob nun allgemeine quadratische Gleichungen der Form für a, b, c, d ∈ Q a + b · x + c · x2 = d eine Lösung x ∈ Q besitzen. Wieder stellt man fest, dass sich nicht jede Gleichung in Q lösen lässt. Satz 2.11 (Irrationalität der Quadratwurzel) Die quadratische Gleichung x2 = 2 besitzt keine Lösung in Q. Beweis. Widerspruchsbeweis: Angenommen, es gäbe die Lösung x = nz mit Zahlen r ∈ Z, n ∈ N+ , so dass x2 = 2. Es sei dann die vollständig gekürzte Fassung des Bruchs gewählt. Insbesondere seien Nenner und Zähler nicht gleichzeitig durch 2 teilbar. Nun ist aber r2 = 2 · n2 und somit r durch 2 teilbar. Wählt man r = 2 · s, so ist aber wegen 2 · s2 = n2 auch n durch 2 teilbar. Widerspruch. p 2 1 1 Abbildung 2.2: Geometrische Interpretation der Lösung von x2 = 12 + 12 = 2. Erneut möchte man den Zahlenbereich erweitern, damit solche Gleichungen eine Lösung bekommen. Anschaulich entspricht die Lösung x2 = 2 zum Beispiel der Diagonalen im 28 2.3 Der Körper der reellen Zahlen R Einheitsquadrat und solche Längen möchte man mit dem Zahlenraum ebenfalls abdecken können. Die Idee ist nun, nach und nach eine Folge von rationalen Zahlen zu konstruieren, die die Lösung der Gleichung x2 = 2 immer besser annähern. Man gewinnt so eine Approximation, d.h. eine Näherungslösung, der gesuchten Lösung. Dazu seien zunächst einige Begrifflichkeiten genauer geklärt: Definition 2.12 (Folge) Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet. Beispiele 2.13 (a) Mit an = n ∀n ∈ N erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...) = (n)n∈N . (b) Mit an = 1 n+1 1 ∀n ∈ N erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) = ( n+1 )n∈N . n )n∈N = (0, 12 , 23 , 43 , ...). (c) ( n+1 Nützlich ist im Folgenden auch die Darstellung von Zahlen als Dezimalzahlen. Definition 2.14 (Dezimalbruchdarstellung) Die Dezimalbruchdarstellung einer Zahl ! k X d1 d2 d3 dk −j a = ± a0 + dj · 10 = ± a0 + + + + ... + k 10 102 103 10 j=1 mit a0 , k ∈ N, d1 , ..., dk ∈ {0, 1, 2, ..., 9}, sei im Folgenden gegeben durch a = ±(a0 , d1 ...dk ). Ein mögliches Verfahren zur Approximation der Lösung von x2 = 2 besteht nun darin, die Lösung x durch eine Folge von Zahlen aus Q sowohl von unten als auch von oben einzugrenzen. Dazu betrachte man die Foglen an = an−1 + dan , 10n für n>0, a0 = 1, bn = bn−1 − dbn , 10n für n>0, b0 = 2, und mit dan , dbn ∈ {0, 1, 2, ..., 9} ∀n ∈ N+ , wobei für alle n ∈ N gelte: bn − an = 10−n , a2n < 2 < b2n . 29 2 Zahlen Um diese Folge zu konstruieren beginnt man also mit denjenigen ganzen Zahlen, die am nächsten unterhalb bzw. oberhalb der gesuchten Lösung liegen (a0 = 1 und b0 = 2). Diese erfüllen die geforderten Bedingungen: b0 − a0 = 2 − 1 = 1 = 10−0 , a20 = 1 < 2 < 4 = b20 . Die nächste Annäherung an die Lösung erhält man nun, indem man diejenigen Zehntel da db1 1 und addiert bzw. abzieht, so dass die oben geforderten Bedingungen erfüllt sind. 10 10 2 2 da da a 1 1 +1 Dazu zählt man d1 von 0 aus so lange hoch bis gilt: a0 + 10 < 2 < a0 + 10 Dies ist gerade für da1 = 4 der Fall. Man wähle dann db1 = 9 − da1 , womit sich ergibt: b1 − a1 = 1, 5 − 1, 4 = 0, 1 = 10−1 , a21 = 1, 96 < 2 < 2, 25 = b21 . Dieses Vorgehen lässt sich beliebig lang fortführen. In den ersten 10 Schritten erhält man so die folgenden Werte für an und bn : n 0: 1: 2: 3: 4: 5: 6: 7: 8: 9: an 1 1,4 1,41 1,414 1,4142 1,41421 1,414213 1,4142135 1,41421356 1,414213562 bn 2 1,5 1,42 1,415 1,4143 1,41422 1,414214 1,4142136 1,41421357 1,414213563 ? (x2 = 2) ai a0 a1 a2 . . . an bi bn . . . b2 b1 b0 Abbildung 2.3: Approximation der Lösung von x2 = 2 durch zwei Folgen. Nach Konstruktion liegen folglich die Zahlen an stets unterhalb, die Zahlen bn stets überhalb der gesuchten Lösung. Zusätzlich jedoch verringert sich der Abstand zwischen den 30 2.3 Der Körper der reellen Zahlen R Zahlen immer mehr, so dass für das n-te Folgenglied beider Folgen gilt, dass der Abstand zur tatsächlichen Lösung kleiner 10−n ist, die Lösung also immer besser angenähert (approximiert) wird. Die Lösung der Gleichung x2 = 2 lässt sich also über Folgen beliebig genau eingrenzen. Man ist deshalb bestrebt den Zahlenraum um die Grenzwerte dieser Folgen zu erweitern. Mit dem Grenzwert a zur Folge (an )n∈N = (a0 , a1 , a2 , . . .) ist dabei derjenige Wert gemeint, dem die Folgenglieder mit fortschreitendem n immer näher kommen. Der Abstand zwischen den Folgengliedern an und dem Grenzwert a wird also immer kleiner. Dies wird durch das folgende Kriterium formalisiert. Definition 2.15 (Cauchy Konvergenzkriterium) Eine Folge (an )n∈N heißt konvergent gegen einen Grenzwert (Limes) a, falls es zu jedem (beliebig kleinen) > 0 ein n ∈ N gibt, so dass gilt: Dies wird notiert als für |an − a| < n ≥ n . oder |an − a| → 0 (n → 0) lim an = a. n→∞ Man beachte dabei, dass das zu wählende n vom gewählten abhängt. Im Allgemeinen wird man n desto größer wählen müssen je kleiner man wählt. a = lim an n!1 a0 a2 a5 a6 ✏ . . . a7 a4 a3 a1 ✏ Abbildung 2.4: Illustration des Konvergenzkriterium für die Folge (an )n∈N mit a = limn→∞ an . Für jedes > 0 liegen die Folgenglieder ab einem n ∈ N alle höchstens vom Grenzwert a entfernt. Problematisch ist diese Definition, wenn der Grenzwert einer Folge nicht im gleichen Raum wie die Folgenglieder selbst liegen. √ Dies ist aber gerade bei der oben konstruierten Folge in Q der Fall, da der Grenzwert 2 selbst nicht in Q liegt. Dies lässt sich umgehen, indem man die Konvergenz einer Folge ausdrückt, ohne den Grenzwert explizit zu verwenden: Definition 2.16 (Cauchy-Folge) Eine Folge (an )n∈N heißt Cauchy-Folge, wenn es zu jedem (beliebig kleinen) > 0 eine natürliche Zahl n ∈ N gibt, so dass gilt: |an − am | < für alle n, m ≥ n . 31 2 Zahlen Anschaulich bedeutet dies, dass sich die Folgenglieder einer Cauchy-Folge ab einer gewissen Stelle nicht mehr als einen vorgegebenen Abstand voneinander unterscheiden und dass dieser Abstand beliebig klein gewählt werden kann. Analog zur Konstruktion der ganzen und rationalen Zahlen wird zur Konstruktion der reellen Zahlen eine Äquivalenzrelation verwendet. Für die Menge der Cauchy-Folgen in den rationalen Zahlen ist durch (an )n∈N ∼ (a0 n )n∈N :⇔ |an − a0 n | → 0 (n → ∞) eine Äquivalenzrelation gegeben. Die reellen Zahlen lassen sich dann als Menge der Äquivalenzklassen bezüglich dieser Relation auffassen: R := {[(an )n∈N ] | (an )n∈N ist Cauchy-Folge in Q} . Die rationalen Zahlen lassen sich in die Menge der reellen Zahlen in natürlicher Weise einbetten, indem man diese als konstante Cauchy-Folgen auffasst: Für a ∈ Q : (an )n∈N mit an = a für alle n Identifiziert man jede Äquivalenzklasse von Cauchy-Folgen mit dem gemeinsamen Grenzwert der jeweils enthaltenen Folgen, so wird die Idee hinter der Konstruktion der reellen Zahlen als Menge aller Grenzwerte von Cauchy-Folgen in Q klarer. Der folgende Satz hilft dabei eine konkretere Vorstellung der reellen Zahlen zu entwickeln: Satz 2.17 Jeder Äquivalenzklasse [(an )n∈N ] ∈ R entspricht genau ein (gegebenenfalls unendlicher) Dezimalbruch. a := {±(a0 , d1 d2 d3 ...) | a0 ∈ N, dk ∈ {0, 1, ..., 9} ∀k > 0}. Umgekehrt entspricht jedem solchen Dezimalbruch genau eine Äquivalenzklasse in R. R lässt sich dementsprechend auch als Menge von (gegebenenfalls unendlichen) Dezimalbrüchen auffassen. Beweis. (Skizze) Fasst man einen unendlichen Dezimalbruch als Folge von endlichen Dezimalbrüchen auf, so lässt sich zeigen, dass es sich dabei um eine Cauchy-Folge handelt. Damit repräsentiert der Dezimalbruch ein Element aus R. Schließt man Periode 9 bei der Dezimalbruchdarstellung aus, so lässt sich auch zeigen, dass zwei unterschiedliche Dezimalbrüche niemals zur gleichen Äquivalenzklasse gehören können. Umgekehrt lässt sich über das Prinzip der Intervallschachtelung zeigen, dass sich zu jeder Äquivalenzklasse a = [(an )n∈N ] ∈ R ein (gegebenenfalls unendlicher) Dezimalbruch finden lässt, der eben zu dieser Äquivalenzklasse gehört. Die beiden Darstellungen sind damit äquivalent. 32 2.3 Der Körper der reellen Zahlen R Übertragung der Eigenschaften von Q auf R Die wesentlichen Eigenschaften von Q übertragen sich auf die reellen Zahlen R. Von der Anordnung von Q ausgehend lassen sich auch auf R Ordnungsrelationen definieren. Dazu werden die zu Zahlen den a, b ∈ R zugehörigen Äquivalenzklassen von Cauchy-Folgen (an )n∈N , (bn )n∈N in Q betrachtet. Für alle a := [(an )n∈N )] ∈ R, b := [(bn )n∈N )] ∈ R, an ∈ Q ∀n ∈ N bn ∈ Q ∀n ∈ N definiert man a>b ∃N ∈ N : (an − bn ) > 0 ∀n > N. :⇔ und entsprechend a≥b a<b a≤b :⇔ :⇔ :⇔ a > b oder a = b, b > a, b ≥ a. Analog zu Q sei dann auch auf R die Betragsfunktion gegeben als: R → R+ 0, a, |a| := 0, −a, |·|: a > 0, a = 0, a < 0. In analoger Weise sollen die elementaren Rechenoperationen von Q auf R übertragen werden. Dazu ist der folgende Hilfssatz wichtig. Satz 2.18 Seien (an )n∈N und (bn )n∈N Cauchy-Folgen mit Grenzwerten lim an = a n→∞ und lim bn = b. n→∞ Dann gilt (i) lim {an + bn } = a + b, n→∞ (ii) lim {an · bn } = a · b, n→∞ (iii) lim { abnn } = ab , falls alle |bn | ≥ α > 0 und |b| = 6 0 echt positiv sind. n→∞ 33 2 Zahlen Beweis. Der technische Beweis wird ausgelassen. Somit lassen sich die arithmetischen Operationen von Q auf R übertragen und man erhält das folgende Resultat. Satz 2.19 R mit Addition und Multiplikation bildet den Körper (R, +, ·). Beweis. Die arihtmetischen Grundoperationen + und · übertragen sich direkt von Q auf R und somit sind Assoziativität und Kommutativität sowie das Distributivgesetz direkt erfüllt. Es verbleibt zu zeigen, dass die Lösungen von linearen Gleichungen existieren. Sei dazu die Gleichung a + x = b mit a, b ∈ R gegeben. Die Lösung x = b − a ist folglich die Differenz zweier Cauchy-Folgen und durch eine Cauchy-Folge rationaler Zahlen approximierbar. Analog zeigt man die Lösung der Gleichung a · x = b, a 6= 0. Satz 2.20 Q liegt dicht in R, d.h. zu jedem a ∈ R und zu jedem > 0 existiert q ∈ Q : |a − q| < . Beweis. Nach Konstruktion von R existiert zu jedem a ∈ R eine gegen a konvergente Cauchy-Folge (an )n∈N in Q. Bei den rationalen Zahlen Q wurde festgestellt, dass gewisse Löcher existieren, die durch den Zahlenraum Q nicht darstellbar waren. Zum Beispiel war die approximierende Folge √ der Lösung der Gleichung x2 = 2 zwar konvergent, allerdings lag der Grenzwert x = 2 nicht in Q. Für den Körper R gilt hingegen nun folgendes Resultat. Satz 2.21 R ist vollständig, d.h. jede Cauchy-Folge in R konvergiert gegen einen Grenzwert in R. Beweis. Sei eine Cauchy-Folge (an )n∈N mit Folgengliedern an ∈ R reeller Zahlen gegeben. Nun ist zu zeigen, dass der Grenzwert dieser Folge ebenfalls in R liegt (d.h. durch eine Cauchy-Folge mit Folgenglieder in Q approximierbar ist). Zu jedem der Folgenglieder (die in R liegen) sei daher zunächst die approximierende Folge in Q gegeben, d.h. es sei das n-te Folgenglied dargestellt durch R 3 an = lim an,m , m→∞ an,m ∈ Q für alle m ∈ N. Da dies eine Cauchy-Folge ist, lässt sich für jedes Folgenglied an eine Schranke kn wählen, ab der die Approximation durch die Folge rationaler Zahlen so gut ist, dass gilt |an − an,kn | < Dies erzeugt einen neue Folge (an,kn )n∈N : 34 1 n mit kn ∈ N. 1 mit kn 2 N. n 2.4 Mächtigkeit von Mengen und Abzählbarkeit Dies erzeugt einen neue Folge (an,kn )n2N : |an a0,0 a1,0 a2,0 .. . a0,1 a1,1 a2,1 an,0 an,1 a0,2 a1,2 a2,2 an,2 a0,3 a1,3 a2,3 ... an,kn | < a0,4 a1,4 a2,4 ... ... ... an,kn ... ... a0 2 R a1 2 R a2 2 R .. . ! ! ! ! ! lim an,kn n!1 an 2 R # = a = lim an n!1 Die Folge (an,kn )n2N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und hat denselben Grenzwert wie die Folge (an )n2N . Dies sieht man folgendermaßen: Sei ✏ > Die Folge (an,kn )n∈N ist nun wiederum eine Cauchy-Folge (mit Folgengliedern in Q) und beliebig vorgegeben, so findet man ein n✏ 2 N, so dass für alle n, m n✏ gilt hat denselben Grenzwert wie die Folge (an )n∈N . Dies sieht man folgendermaßen: Sei > 0 beliebig vorgegeben, so findet man ein n ∈ N, so 1dass für alle n, m ≥ n gilt1 |an 1 |an − am | < , 3 und somit gilt auch und somit gilt auch am | < ✏, 3 |an 1 |an − an,kn | < , 3 an,kn | < ✏, 3 am,km | |an,kn an | + |an am | + |am 1 n −1 am | +1 |am − am,km | |an,kn − am,km | ≤ |an,kn − an | + ✏|a+ ✏ + ✏ = ✏. 1 1 13 3 3 Sei nun |an,kn am,km | ≤ + + = . 3 3 3 Sei nun a = lim an,kn a = lim an,kn n!1 n→∞ der Grenzwert dieser Folge von rationalen Zahlen - der gemäß Definition in R liegt der Grenzwert dieser Folge stimmt von rationalen Zahlen. Grenzwert stimmt der nun Folge aber (an )n2N überein Dieser Grenzwert nun aber auchDieser mit dem Grenzwert auch mit demesGrenzwert der Folge (an )n∈N überein, denn es gilt denn gilt 1 1 |an − a| |a ≤n|an − |+ |an,k ≤ n,k +n|an,ka| a| →+0|an,k (n n→ ∞). n,kn|a a|a an,k a| ! 0 n − |a| n − n n + |a n n (n ! 1). Dies zeigt: Grenzwert der Cauchy-Folge (an )n∈N ist durch Cauchy-Folge (an,k n )n∈N Diesder zeigt: der Grenzwert der Cauchy-Folge (an die )n2N ist durch die Cauchy-Folge (an,kn )n2N von rationalen Zahlen approximierbar und somit auch in R. von rationalen Zahlen approximierbar und somit auch in R. ⇤ 2.4 Mächtigkeit von Mengen und Abzählbarkeit 2.4 Mächtigkeit von Mengen und Abzählbarkeit Es lässt sich die Frage stellen, welche der Mengen Q und R mehr Elemente besitzt oder lässt sich die Frage stellen, welche der R mehrdieElemente besitzt ode ob sie Es gleich viele Elemente haben. Dazu benötigt man Mengen zunächst Q eineund Definition, die Anzahlob ansie Elementen in einer Menge greifbar und speziell die Anzahl bei Mengen gleich viele Elemente haben.macht Dazu benötigt man zunächst eine Definition, die di mit unendlich vielen Elementen (z.B. N, Z, Q, R) differenzierter auffassen lässt. Anzahl an Elementen in einer Menge greifbar macht. 35 3 2 Zahlen Definition 2.22 (Mächtigkeit von Mengen) Die Mächtigkeit einer Menge gibt die Anzahl der Elemente in einer Menge an. Seien A und B zwei Mengen. Die Mengen heißen gleichmächtig, falls es eine bijektive Abbildung A → B gibt. Eine Menge A heißt (i) endlich, falls es für ein n ∈ N eine bijektive Abbildung {1, 2, . . . , n} → A gibt. Man schreibt in diesem Fall |A| = n. (ii) abzählbar, wenn sie die gleiche Mächtigkeit wie die Menge der natürlichen Zahlen hat, d.h. falls es eine bijektive Abbildung N → A gibt. (iii) überabzählbar, falls A weder endlich noch abzählbar ist. Beispiel 2.23 Für die Menge A := {4, 7, 8, −5, −7} ist |A| = 5. Satz 2.24 (Z ist abzählbar) Die Menge Z ist abzählbar. Beweis. Gesucht ist eine bijektive Abbildung f : N → Z, die eine Zuordnung der natürlichen Zahlen zu den ganzen Zahlen darstellt. Dies wird durch die folgende Abbildung geleistet ( für n gerade, − n2 , f (n) := n+1 , für n ungerade, 2 oder anschaulich durch die Zuordnung N: ↓ Z: 0 1 2 ↓ ↓ ↓ 0 1 −1 Somit ist Z abzählbar. 3 4 5 ↓ ↓ ↓ 2 −2 3 6 7 ↓ ↓ −3 4 8 ... ↓ ... −4 . . . Satz 2.25 Der Körper Q ist abzählbar. Beweis. Jede rationale Zahl kann als Bruch nz mit z ∈ Z und n ∈ N+ dargestellt werden. Dies lässt sich als ein kartesisches Produkt zeichnen und durch eine raumfüllende Kurve lässt sich jeder Punkt (z, n) ablaufen. Die gesuchte Nummerierung von Q ist nun gegeben dadurch, dass man die Elemente von Q gemäß dieser Kurve listet und dabei diejenigen Paare überspringt, die nicht teilfremd sind. 36 2.4 Mächtigkeit Mächtigkeit von und Abzählbarkeit 2.4 vonMengen Mengen und Abzählbarkeit N+ ... .. . .. . .. . .. . .. . .. . .. . .. . ... 4 4 3 4 2 4 1 4 0 4 1 4 2 4 3 4 4 4 ... ... 4 3 3 3 2 3 1 3 0 3 1 3 2 3 3 3 4 3 ... ... 4 2 3 2 2 2 1 2 0 2 1 2 2 2 3 2 4 2 ... ... 4 1 3 1 2 1 1 1 0 1 1 1 2 1 3 1 4 1 ... ... Z ⇤ Für die reellen Zahlen ist gilt nun aber folgender Satz. Für die reellen Zahlen ist gilt nun aber folgender Satz. SatzSatz 2.262.26 Die Körper R ist überabzählbar. Die Körper R ist überabzählbar. Beweis. Der Beweis wird über einen Widerspruch geführt. Es reicht dazu sogar aus sich nur eine Teilmenge dereinen reellenWiderspruch Zahlen zu beschränken. Angenommen, gäbe aus Beweis. DeraufBeweis wird über geführt. Es reicht dazuessogar eine Abzählung der reellen Zahlen im Interval [0, 1) und diese Zahlen seien durch eine sich nur auf eine Teilmenge der reellen Zahlen zu beschränken. Angenommen, es gäbe bijektive Abbildung f : N → R darstellbar. Dann lässt sich jede dieser Zahlen f (n) als eine eine Abzählung der reellen 1) und diese Zahlen seien durch eine Dezimalzahl f (n) = Zahlen 0, dn,0 dn,1im dn,2Interval . . . mit d[0, n,i ∈ {0, 1, 2, . . . , 9} darstellen. Da die bijektive Abbildung f :N ! lassen R darstellbar. Dann lässt sich jede dieser Zahlen f (n) als Zahlen nummerierbar sind, sie sich alle in einer unendlich langen Liste schreiben: eine Dezimalzahl f (n) = 0, dn,0 dn,1 dn,2 . . . mit dn,i 2 {0, 1, 2, . . . , 9} darstellen. Da die f (0)sie = 0, d0,0alle d0,1in d0,2einer d0,3 unendlich ... Zahlen nummerierbar sind, lassen sich langen Liste schreiben: f (1) = 0, d1,0 d1,1 d1,2 d1,3 . . . (2) = d 0,2 d d0,3 2,3 .. .. .. ff (0) = 0,0,dd2,00,0dd2,1 0,1 d2,2 (3) = d3,2 d3,3 . . . ff (1) = 0,0,dd3,01,0dd3,1 1,1 d1,2 d1,3 . . . . f (2).. = 0, d2,0 d2,1 d2,2 d2,3 . . . f (3) = 0, d3,0 d3,1 d3,2 d3,3 . . . Nun kann diese Liste aber noch immer nicht alle Dezimalzahlen enthalten. Denn man .. kann stets eine weitere Zahl finden, . die noch nicht in der aktuellen Nummerierung vorhanden ist. Dazu wählt man diese Zahl wie folgt: Für die erste Dezimalstelle d0 ∈ {0, 1, 2, . . . , 9} wählt man eine Zahl, die von der Dezimalstelle der ersten Zahl d0,0 verNunschieden kann diese Listedieaber noch immer nicht alle Dezimalzahlen enthalten. von Denn ist. Für zweite Dezimalstelle d2 wählt man eine Zahl verschieden derman kannzweiten stets eine weitere Zahl finden, Zahl die noch nicht der So aktuellen Nummerierung Dezimalstelle der zweiten d1,1 auf der in Liste. fährt man fort und wähltvorfür die Dezimalstelle d eine Zahl aus {0, . . . , 9}, die verschieden von der Dezimalstelled0 2 handen ist. Dazu wählt nman diese Zahl wie folgt: Für die erste Dezimalstelle Dieeine so entstehende Zahlder kann also mit keiner Zahlen aufdder {0, 1,dn,n 2, . in . . ,der 9} Liste wähltist. man Zahl, die von Dezimalstelle derder ersten Zahl 0,0 verListe übereinstimmen. Dies steht jedoch im Widerspruch zu der Annahme, dass in der schieden ist. Für die zweite Dezimalstelle d2 wählt man eine Zahl verschieden von der ListeDezimalstelle bereits alle Zahlen auftauchen. zweiten der zweiten Zahl d auf der Liste. So fährt man fort und wählt 1,1 für die Dezimalstelle dn eine Zahl aus {0, . . . , 9}, die verschieden von der Dezimalstelle dn,n in der Liste ist. Die so entstehende Zahl kann also mit keiner der Zahlen auf der Liste übereinstimmen. Dies steht jedoch im Widerspruch zu der Annahme, dass 37 in der Liste bereits alle (abzählbaren) Zahlen aus R auftauchen. ⇤ 37 2 Zahlen 2.5 Rechnerarithmetik Möchte man Zahlen im Computer darstellen, so ist es notwendig sich über die Repräsentation von Zahlen Gedanken zu machen. Stellenwertsysteme Die gewöhnliche Darstellung von natürlichen Zahlen im Dezimalsystem ist sehr vertraut. Ausgehend von den 10 Ziffern {0, 1, 2, . . . , 9} bildet man neue Zahlen, die man implizit folgendermaßen versteht: 748, 25 = 7 · 102 + 4 · 101 + 8 · 100 + 2 · 10−1 + 5 · 10−2 . Dies ist der spezielle Fall eines Stellenwertsystems zur Basis 10. Definition 2.27 (Stellenwertsystem) Zu einer Basis b ≥ 2 ist die b-adische Darstellung einer Zahl a gegeben durch a= n X i=−m ai · b i mit ai ∈ {0, 1, . . . , b − 1} und man notiert dies als (an an−1 an−2 . . . a1 a0 , a−1 a−2 . . . a−m )b . Ist aus dem Kontext ersichtlich um welche Basis es sich handelt, so wird die explizite Angabe weggelassen (z.B. beim Dezimalsystem im Alltag). Der Name Stellenwertsystem rührt daher, dass die Stelle einer Ziffer angibt, mit welcher Potenz von b die Ziffer zu multiplizieren ist. Beispiele 2.28 (i) (10111)2 = 1 · 24 + 0 · 23 + 1 · 22 + 1 · 21 + 1 · 20 = 1 · 16 + 0 · 8 + 1 · 4 + 1 · 2 + 1 · 1 = (23)10 (ii) (0, 011)2 = 0 · 20 + 0 · 2−1 + 1 · 2−2 + 1 · 2−3 1 1 1 = 0 · 1 + 0 · + 1 · + 1 · = (0, 375)10 2 4 8 38 2.5 Rechnerarithmetik (iii) (10111, 011)2 = (10111)2 + (0, 011)2 = (23)10 + (0, 375)10 = (23, 375)10 Möchte man eine Zahl von einer Basis in eine andere Umrechnen, so bietet es sich an nach folgender Überlegung vorzugehen: Bei einer Zahl in Dezimaldarstellung verschiebt die Division durch die Basis 10 das Komma um eine Stelle nach links, die Multiplikation mit 10 das Komma um eine Stelle nach rechts. Für eine Ganzzahl erhält man also die Ziffern, indem man durch sukzessive durch 10 teilt und die Reste notiert: 753/10 = 75 75/10 = 7 7/10 = 0 Rest 3 Rest 5 Rest 7 und analog für eine Zahl kleiner 1, indem man mit 10 multipliziert und die Überträge notiert: 0, 682 · 10 = 6, 82 = 6 + 0, 82 0, 82 · 10 = 8, 2 = 8 + 0, 2 0, 2 · 10 = 2, 0 = 2 + 0, 0 Man kann dann stoppen, wenn eine 0 erreicht wird. Analog lässt sich dies auch bei der Umrechnung ins Binärsystem durchführen: 23/2 = 11 11/2 = 5 5/2 = 2 2/2 = 1 1/2 = 0 Rest Rest Rest Rest Rest 1 1 1 0 1 und dies liefert (23)10 = (10111)2 . Für Nachkommastellen geht man analog vor 0, 375 · 2 = 0, 75 = 0 + 0, 75 0, 75 · 2 = 1, 5 = 1 + 0, 5 0, 5 · 2 = 1, 0 = 1 + 0, 0 und dies liefert (0, 375)10 = (0, 011)2 . 39 2 Zahlen Man beachte hierbei, dass eine Darstellung in einem Basissystem endlich sein kann, während sie in einer anderen Basis periodisch wird. So gilt 0, 8 · 2 0, 6 · 2 0, 2 · 2 0, 4 · 2 0, 8 · 2 .. . = 1, 6 = 1, 2 = 0, 4 = 0, 8 = 1, 6 = 1 + 0, 6 = 1 + 0, 2 = 0 + 0, 4 = 0 + 0, 8 = 1 + 0, 6 .. . und somit (0, 8)10 = (0, 1100110011001100 . . .)2 = (0, 1100)2 . Die obige Darstellung nennt man auch Festkommadarstellung. Das Komma gibt dabei an, ab wann mit negativen Exponenten multipliziert wird. Im Gegensatz dazu verwendet man zur Darstellung von rationalen oder reellen Zahlen im Computer oftmals die Gleitkommadarstellung. Gleitkommadarstellung Aktuelle Computer speichern und verarbeiten Daten als Folgen von Bits (bits = bi nary digits), d.h. es wird die Basis b = 2 verwendet. Dies ist dem Umstand geschuldet, dass die Bauteile eines Computers nur zwei Zustände zulassen (Strom vs. kein Strom, magnetisiert vs. unmagnetisiert, . . . ). Um reelle Zahlen darzustellen, wird die Binärdarstellung einer Zahl x im Computer über eine Summe von Brüchen r s r x = ± m0 , m1 m2 m3 ...mk · 2 = (−1) · 2 · k X mi · 2−i , k X mi · 2−i i=0 mi ∈ {0, 1}, verwendet, die jedoch im Gegensatz zur Festkommadarstellung über einen Faktor 2r skaliert werden kann. Dabei nennt man M := m0 , m1 m2 m3 ...mk = i=0 die Mantisse und r den Exponenten. Für jedes x 6= 0 lässt sich dabei bei geeigneter Wahl des Exponenten immer 1 ≤ M < 2 wählen und somit kann man die Konvention m0 = 1 verwenden. Ein zusätzliches Bit s gibt das Vorzeichen der Zahl über (−1)s an. Für den Exponenten werden nur ganze Zahlen in einem gewissen Bereich zugelassen, die selbst wieder als Binärzahl durch l Bits dargestellt werden. Um das Vorzeichen des Exponenten nicht explizit speichern zu müssen, wird der Exponent intern in der Form r = e − e∗ mit einem festen ganzzahligen Offset e∗ > 0 und mit e= l−1 X j=0 40 ej · 2j , ej ∈ {0, 1}, 2.5 Rechnerarithmetik dargestellt. Für die Darstellung von Zahlen werden typischerweise Bitfolgen der Länge 32 oder 64 genutzt. Man spricht dann im vorliegenden Fall von 32- oder 64-Bit Gleitkommazahlen. Im Falle von 64 Bit wird nach IEEE-Standard folgende Darstellung verwendet: (s, e10 , e9 , ..., e0 , m1 , m2 , ...m52 ) ∈ {0, 1}64 , die der Wahl k = 52, l = 11 und e∗ = 1023 entspricht. Dabei kann man durch den Exponenten e= 10 X j=0 ej · 2j die Werte 0 ≤ e ≤ 211 − 1 = 2047 darstellen. Hier wird die folgende Konvention verwendet: (i) Durch e = 2047, M 6= 0 werden nicht zulässige Zahlen NaN (Not a Number) ausgedrückt. (ii) Durch e = 2047, M = 0 wird unendlich ausgedrückt. (iii) Durch 1 ≤ e ≤ 2046 werden normalisierte Zahlen ausgedrückt, bei denen das implizite (nicht gespeicherte) Bit als m0 = 1 vereinbart wird: ! 52 X x = (−1)s 2e−1023 1 + mi · 2−i . i=1 (iv) Durch e = 0, M = 0 wird die Zahl Null ausgedrückt. (v) Durch e = 0, M 6= 0 werden denormalisierte Zahlen ausgedrückt, bei denen das das implizite (nicht gespeicherte) Bit als m0 = 0 vereinbart wird: s −1022 x = (−1) 2 52 X i=1 mi · 2−i . Die kleinste positive darstellbare Zahl ist folglich 2−1022 · 2−52 = 2−1074 ≈ 5 · 10−324 , die größe Zahl 21023 · (2 − 2−52 ) ≈ 1, 8 · 10308 . Offensichtlich ist die Menge der so darstellbaren Gleitkommazahlen endlich. Fast alle reellen Zahlen lassen sich dementsprechend nur näherungsweise im Computer darstellen. Auch Ergebnisse aus Addition, Multiplikation, Subtraktion oder Division solcher Gleitkommazahlen müssen nicht unbedingt in der Menge der darstellbaren Zahlen enthalten sein. Üblicherweise werden daher die arithmetischen Operationen intern mit höherer Genauigkeit durchgeführt und dann auf die nächstmögliche Gleitkommazahl gerundet. Dabei kommt es notwendigerweise zu Rundungsfehlern. Besonderen Stellenwert hat in diesem Zusammenhang der maximale Fehler, der beim Runden einer Zahl x zur nächstgelegenen Gleitkommazahl rd(x) = M · 2r auftritt. Die 41 2 Zahlen zwei benachbarten Gleitkommazahlen, zwischen denen x liegt, unterscheiden sich um genau das letzte Bit mk , haben also einen Abstand von 2−k ·2r . Dabei liegt die gerundete Zahl x nur maximal die Hälfte dieser Strecke von einer der beiden darstellbaren Zahl entfernt. Für den relativen Fehler ergibt sich somit x − rd(x) 1 2−k · 2r −(k+1) ≤ · (da 1 ≤ |M | < 2). 2 |M | · 2r ≤ 2 x Definition 2.29 Die Zahl eps := 2−(k+1) heißt relative Maschinengenauigkeit. Diese kann als kleinste Gleitkommazahl genähert werden, für die in der gewählten Gleitkommadarstellung gilt: 1 + > 1. Dies ist der Abstand zweier benachbarter Fließkommazahlen, es gilt also = 2 · eps. Das Python Programm #!/usr/bin/env python3 eps = 1 while(1): if 1 + eps <= 1: break eps = eps / 2 print("eps = {0}".format(eps)) liefert auf einer 64-Bit Architektur beispielsweise das folgende Ergebnis für eps: eps = 1.1102230246251565e-16. Dies entspricht 2−53 ≈ 1, 11 · 10−16 und die Fließkommaarithmetik auf einer 64-Bit Architektur hat somit eine Genauigkeit von 16 Stellen. Für 32-Bit gilt mit k = 23 und 2−24 ≈ 5, 98 · 10−8 eine Genauigkeit von 8 Stellen. 2.6 Der Körper der komplexen Zahlen C Die Erweiterungen der Zahlenräume N ⊂ Z ⊂ Q ⊂ R verfolgte das Ziel immer mehr Gleichungen lösen zu können und endete mit dem vollständigen Körper R. Doch noch immer lassen sich nicht alle Gleichungen mit Koeffizienten in den reellen Zahlen lösen. So hat die bekannte Lösung (p/q-Formel ) der Gleichung p p ± p2 − 4q 2 x + px + q = 0, mit p, q ∈ R ⇒ x± = 2 nur eine reelle Lösung für p2 − 4q ≥ 0. 42 2.6 Der Körper der komplexen Zahlen C Daher sei angenommen, dass ein erneute Erweiterung des Zahlenraums existiert, die wiederum ein Körper ist und R als Teilmenge enthält. In diesem Erweiterungskörper soll die Gleichung x2 + 1 = 0 eine Lösung besitzen und diese Lösung sei mit i bezeichnet (d.h. es gilt i2 = −1). Mit i sind dann auch z := x + iy und w := u + iv mit x, y, u, v ∈ R Elemente dieses Körpers und somit ergibt sich z + w = x + iy + u + iv = (x + u) + i(y + v), z · w = (x + iy) · (u + iv) = xu + ixv + iyu + i2 yv = (xu − yv) + i(xv + yu), und somit sind solche Elemente unter Addition und Multiplikation abgeschlossen. Dies motiviert die Einführung der komplexen Zahlen. Definition 2.30 (komplexe Zahl) Die komplexen Zahlen sind geordnete Paare z := (x, y) ∈ R×R, für die die Multiplikation und Addition definiert werden durch (x, y) + (x0 , y 0 ) := (x + x0 , y + y 0 ), (x, y) · (x0 , y 0 ) := (xx0 − yy 0 , xy 0 + x0 y). Diese Zahlen werden auch notiert als z = x+iy mit der Lösung i2 = −1. Man bezeichnet x =: Re z als Realteil und y =: Im z als Imaginärteil und i als imaginäre Einheit. Satz 2.31 (C ist ein Körper) Die Menge der komplexen Zahlen bildet einen Körper C mit neuralen Elementen (0, 0) und (1, 0). In diesem Körper hat die Gleichung z 2 + (1, 0) = (0, 0) zwei Lösungen ±i := (0, ±1). Zu einem Element z = (x, y) ergeben sich die inversen Elemente zu z −1 −z := (−x, −y), x −y 1 , . = := z x2 + y 2 x2 + y 2 Beweis. Kommutativ-, Assoziativ- und Distributivgesetz ergibt sich durch direktes Nachrechnen. Für a = (a1 , a2 ), b = (b1 , b2 ) ∈ C ergibt sich die Lösung von a + z = b zu z = (b1 − a1 , b2 − a2 ) und somit ist (0, 0) das neutrale Element als Lösung von a + z = a. Das neutrale Element (1, 0) bzgl. der Multiplikation zeigt man durch direktes Nachrechen von (1, 0) · z = z für alle z ∈ C. Ebenso rechnet man direkt nach, dass a · a1 = (1, 0) gilt und z = a1 · b eine Lösung von a · z = b ist. Die kürzere Notation einer imaginären Zahl z = x + iy kann man folglich als (x, y) = (x, 0) + (0, 1) · (y, 0) lesen. Eine reelle Zahl x ∈ R wird mit der komplexen Zahl (x, 0) identifiziert. Eine komplexe Zahl (0, y) heißt rein imaginär. Analog zur Darstellung der reellen Zahlen auf einer Geraden, lässen sich die komplexen Zahlen als Ebene darstellen. Dabei entsprecht ein Punkte (x, y) dieser Ebene der komplexen Zahl z = (x, y) ∈ C. 43 2 Zahlen imaginäre Achse z = x + iy y i reelle Achse 1 1 x i Abbildung 2.5: Darstellung einer komplexen Zahl in der komplexen Zahlenebene. Definition 2.32 (Komplexe Konjugation) Für eine komplexe Zahl z = (x, y) = x + iy ist die komplexe konjugierte Zahl gegeben durch z = (x, −y) = x − iy. Definition 2.33 (Betrag einer komplexen Zahl) Der Betrag einer komplexen Zahl z = (x, y) = x + iy ist gegeben durch p √ |z| := z · z = x2 + y 2 . Bemerkung 2.34 Die komplexen Zahlen lassen sich nicht anordnen, d.h. es lässt sich auf C keine kleiner/größer Relation einführen. Mit den komplexen Zahlen kommt die Erweiterung des Zahlenraums zu einem Ende. In diesem Körper lassen sich nun alle algebraischen Gleichungen lösen. Satz 2.35 (Fundamentalsatz der Algebra) Jede Gleichung z n + an−1 z n−1 + . . . + a1 z + a0 = 0, mit Koeffizienten ai ∈ C hat mindestens eine Lösung in C. 44 (n > 0), 2.6 Der Körper der komplexen Zahlen C imaginäre Achse z = x + iy y |z| x y reelle Achse z=x iy Abbildung 2.6: Graphische Interpretation von Betrag und Konjugation einer komplexen Zahl: Der Betrag ist der Abstand vom Ursprung, die komplexe Konjugation bewirkt eine Spiegelung an der reellen Achse. 45 3 Konvergenz, Folgen und Reihen Für die Einführung der reellen Zahlen waren Cauchy-Folgen von rationalen Zahlen von großer Bedeutung. Ganz Allgemein lassen sich Folgen von Elementen in einer beliebigen Menge A betrachten. Definition 3.1 (Folgen) Unter einer Folge (an )n∈N = (a0 , a1 , a2 , ...) in einer Menge A versteht man eine Abbildung N → A. Jeder natürlichen Zahl n ∈ N wird dabei ein Folgenlied an ∈ A zugeordnet. Beispiele 3.2 (a) Mit der Vorschrift an = n (n ∈ N) erhält man die Folge (an )n∈N = (0, 1, 2, 3, ...) und es gilt an ∈ N (n ∈ N). 1 (n ∈ N) erhält man die Folge (an )n∈N = (1, 21 , 13 , ...) und es gilt (b) Für an = n+1 an ∈ Q (n ∈ N). (c) Es sei eine Population gegeben, die in jedem Jahr um einen festen Faktor wächst (z.B. um 10%). Ausgehend von einer Anfangspopulation a0 ∈ R ist somit die Größe nach 1 Jahr a0 · q (q = 1, 1 für 10%), nach Jahr 2 beträgt sie a0 · q · q, usw. . . Dies definiert die sogenannte geometrische Folge an = a0 · q n (n ∈ N). (d) Ein Guthaben G0 sei jährlich um einen Zinssatz p verzinst, d.h. nach einem Jahr erhält man das Geld G1 = G0 ·(1+p) zurück (z.B. p = 0, 05 bei 5% Zinsen). Addiert man die Zinsen bereits nach einem halben Jahr (mit halbem Zinssatz) und verzinst diese am Ende des Jahres mit, so erhält man G2 = G0 · (1 + p2 )2 . Teilt man das Jahr in drei Teile, so ergibt sich eine Verzinsung von G3 = G0 · (1 + p3 )3 . Allgemein strebt die Folge an = (1 + np )n gegen den Faktor für kontinuerliche Verzinsung (d.h. beliebig kleine Verzinsungsintervalle). 3.1 Konvergenz Von der Konvergenz einer Folge gegen einen Grenzwert (Limes) spricht man, wenn die Folgenglieder diesem Grenzwert ab einem Folgenglied beliebig nahe kommen. Dazu benötigt man eine Möglichkeit den Abstand zwischen dem Grenzwert und den Folgengliedern messen zu können. Für die Körper Q, R und C kann man den Betrag definieren und der Abstand zwischen zwei Elemente dieser Körper z, z 0 lässt sich über die Abstandsfunktion |z − z 0 | ermitteln. Daher macht die Definition der Konvergenz für alle dieser 47 3 Konvergenz, Folgen und Reihen Körper K = Q, R, C Sinn. Im Folgenden wird der wichtige Spezialfall des Körpers K = R betrachtet. Fast alle dieser Aussagen lassen sich jedoch direkt auf die anderen Körper übertragen, z.B. indem man R durch C ersetzt. Man sagt, dass eine Eigenschaft für fast alle Elemente einer Folge gilt, sofern die Eigenschaft auf alle bis auf höchstens endlich viele Elemente zutrifft. In diesem Sinne konvergiert eine Folge gegen einen Grenzwert, falls fast alle Folgenglieder beliebig nahe an dem Grenzwert liegen, oder formal: Definition 3.3 (Konvergenz) Eine Folge (an )n∈N in R heißt konvergent gegen den Grenzwert (Limes) a ∈ R, falls zu jeder (beliebig kleinen) reellen Zahl > 0 ein n ∈ N existiert, so dass gilt: |an − a| < für alle n ≥ n . Es ist zu beachten, dass die Zahl n vom jeweils gewählten abhängt. Entscheidend ist dabei nicht der genaue Wert von n , sondern lediglich die Existenz eines Wertes, ab dem die obige Bedingung bei vorgegebenem gilt. Konvergiert (an )n∈N gegen a so schreibt man lim an = a n→∞ oder an → a (n → ∞). Konvergiert eine Folge für n → ∞ nicht gegen einen Grenzwert so nennt man die Folge divergent. Beispiele 3.4 (a) Für jedes a ∈ R konvergiert die konstante Folge an = a (n ∈ N) gegen den Grenzwert limn→∞ an = a. 1 (n ∈ N) konvergiert gegen Null, denn: Zu jedem > 0 gibt es (b) Die Folge an = n+1 1 ein N ∈ N mit N > 1 . Somit gilt für alle n ≥ N : |an − 0| = n+1 < n1 < N1 < . (c) Die Folge an = (−1)n (n ∈ N) divergiert, denn der Abstand zwischen zwei Folgengliedern ist |an − an+1 | = 2. Somit kann der Abstand zwischen zu einem Grenzwert nicht beliebig klein werden. Eigenschaften konvergenter Folgen Definition 3.5 (Beschränkte Folgen) Eine Folge (an )n∈N reeller Zahlen heißt (i) beschränkt, falls alle |an | ≤ M (n ∈ N) für ein M ∈ R, (ii) von oben beschränkt, falls alle an ≤ M (n ∈ N) für ein M ∈ R, (iii) von unten beschränkt, falls alle an ≥ M (n ∈ N) für ein M ∈ R. 48 3.1 Konvergenz Zudem sei an die Cauchy-Folge erinnert. Diese dient dazu Konvergenz zu definieren, ohne dass man den Grenzwert explizit kennen muss. Definition 3.6 (Cauchy-Folge) Eine Folge (an )n∈N heißt Cauchy-Folge, falls zu jedem > 0 ein n ∈ N existiert, so dass |an − am | < für alle n, m ≥ n . Für konvergente Folgen besitzen die folgenden Eigenschaften. Satz 3.7 (i) Der Grenzwert einer konvergenten Folge ist eindeutig. (ii) Der Grenzwert einer konvergenten Folge bleibt gleich, wenn man endlich viele Folgenglieder ändert. (iii) Eine konvergente Folge ist beschränkt. (iv) Jede konvergente Folge ist eine Cauchy-Folge. Beweis. (i) Sei (an )n∈N eine konvergente Folge mit den Grenzwerten a und b. Dann gilt jedoch |a − b| = |a − an | + |an − b| → 0(n → ∞) und die Grenzwerte müssen gleich sein. (ii) Für die konvergente Folge (an )n∈N gibt es zu jedem ein n mit |an −a| < , n ≥ n . Die Folge wird nun an endlich vielen Stellen abgeändert. Das letzte geänderte Folgenglied sei ar , r ∈ N. Dann wählt man für die Abschätzung |an − a| < die Schranke n = max(n , r) und erhält erneut konvergenz gegen denselben Grenzwert. (iii) Mit = 1 gilt für n ≥ n1 ∈ N: |an | ≤ |an − a| + |a| ≤ 1 + |an |. Da nur endlich viele Folgenglieder an , n < n1 existieren gilt: |an | < max(|a0 |, |a1 |, ..., |an1 −1 |, 1 + |a|) für alle n ∈ N. (iv) Sei (an )n∈N eine konvergente Folge mit Grenzwert a ∈ R. Dann existiert zu jedem > 0 ein n ∈ N mit |an − a| < 2 für alle n ≥ n . Insbesondere gilt für n, m ∈ N, n, m ≥ N : |an − am | = |an − a + a − am | ≤ |an − a| + |am − a| < + < . 2 2 Bemerkung 3.8 Umgekehrt müssen beschränkte Folgen nicht notwendigerweise konvergieren. Ein Beispiel ist die Folge ((−1)n )n∈N . Bemerkung 3.9 Für Folgen im vollständigen Körper R gilt die Umkehrung: Jede Cauchy-Folge in R konvergiert (mit Grenzwert a ∈ R). Denn gemäß Konstruktion ist R so gewählt, dass jede Cauchy-Folge in R einen Grenzwert hat. 49 3 Konvergenz, Folgen und Reihen 3.2 Bestimmung von Konvergenz und Grenzwerten Manchmal möchte man zeigen, dass einen Folge konvergent ist, ohne dass man den Grenzwert explizit kennt. Zum einen kann man zeigen, dass es sich um eine CauchyFolge handelt. Für spezielle Typen von Folgen gibt es einen direkteren Schluss. Monotone Folgen Definition 3.10 (Monotone Folgen) Eine Folge (an )n∈N heißt monoton wachsend, streng monoton wachsend, monoton f allend, streng monoton f allend, falls falls falls falls an an an an ≤ an+1 < an+1 ≥ an+1 > an+1 für für für für alle alle alle alle n ∈ N, n ∈ N, n ∈ N, n ∈ N. Satz 3.11 Eine monoton wachsende und von oben beschränkt Folge in R ist konvergent. Eine monoton fallende und von unten beschränkt Folge in R ist konvergent. Beweis. (Skizze) Da (an )n∈N von oben beschränkt ist, existiert aufgrund der Vollständigkeit von R eine kleinste obere Schranke (das sogenannte Supremum) a := sup an := min{M ∈ R | an ≤ M für alle n ∈ N}. n∈N Das Supremum a ∈ R ist der gesuchte Grenzwert, denn die Folgenglieder werden immer größer, dürfen aber diese Schranke nicht überschreiten. Für monoton fallende Folgen schließt man analog mit der größten oberen Schranke (das sogenannte Infimum) a := inf an := max{M ∈ R | an ≥ M für alle n ∈ N}. n∈N Beispiel 3.12 Für a ∈ R, a ≥ 0 konvergiert die rekursiv definierte Folge 1 a xn + , xn+1 := 2 xn mit jedem Startwert x0 > 0. Dies sieht man wie folgt. Mit x0 > 0 sind auch alle Folgenglieder xn > 0, n ∈ N. Es gilt sogar 2 1 a 2 xn+1 − a = xn + −a 4 xn ! 2 2 a a 1 1 2 xn + 2a + − 4a = xn − ≥0 = 4 xn 4 xn 50 3.2 Bestimmung von Konvergenz und Grenzwerten und daher x2n ≥ a für n ≥ 1 (d.h. die Folge ist nach unten beschränkt). Zudem findet man xn − xn+1 1 a = xn − xn + 2 x n a 1 1 xn − = x2n − a ≥ 0 = 2 xn 2xn und daher xn+1 ≤ xn für n ≥ 1 (d.h. die Folge ist monoton fallend). Die monoton fallende, nach unten beschränkte Folge ist damit konvergent. Da die Folge konvergent ist, besitzt sie in R den Grenzwert x. Für xn , xn+1 → x muss für diesen gelten: 1 a x= x+ bzw. x2 = a. 2 x Grenzwerte und Anordnung Eine Eigenschaft von Grenzwerten ist, dass sie die Anordnung nicht ändern. Satz 3.13 Sei (an )n∈N und (bn )n∈N konvergente Folgen in R mit für alle n ∈ N, an ≤ b n , dann gilt für die Grenzwerte ebenfalls lim an ≤ lim bn . n→∞ n→∞ Beweis. (Skizze) Widerspruchsbeweis mit der Annahme lim an > lim bn . n→∞ n→∞ Damit lässt sich der Grenzwerte einer Folge bestimmen, indem man eine untere und einer obere Folge findet, die denselben Grenzwert besitzt. Denn aus an ≤ b n ≤ c n , für alle n ∈ N folgt aus obigem Satz lim an ≤ lim bn ≤ lim cn n→∞ n→∞ n→∞ und gilt limn→∞ an = b = limn→∞ cn , so folgt b ≤ lim bn ≤ b. n→∞ Dies lässt sich nutzen, um einen Grenzwert ausgehend von bekannten Grenzwerten zu zeigen. 51 3 Konvergenz, Folgen und Reihen Beispiele 3.14 (i) Sei bn = n12 , (n ∈ N+ ). Als Einschachtelung wird nun die Nullfolge an = 0, (n ∈ N+ ) und die Folge cn = n1 , (n ∈ N+ ) verwendet. Wegen n12 < n1 , n ≥ 1, gilt an → 0 (n → ∞) und cn → 0 (n → ∞). Damit folgert man bn → 0 (n → ∞). Analog zeigt man lim n→∞ (ii) Die Folge an := 10n n! 1 = 0, nk für alle Potenzen k ∈ N+ . (n ∈ N) konvergiert gegen 0. Denn für n ≥ 11 gilt: 10n 10 10n−1 10 10n−1 ≤ ≤ n! n (n − 1)! n 1 · 2 · . . . (n − 2) · (n − 1) 10 1 10 = 1 9 10 11 n−1 ≤ n 10 · . . . · 10 · 10 · 10 · . . . · 10 n 1 →0 1 10 10 (n → ∞) Rechenregeln für Grenzwerte Satz 3.15 Seien (an )n∈N und (bn )n∈N konvergente Folgen mit Grenzwerten lim an = a n→∞ und lim bn = b. n→∞ Dann sind auch die Summenfolge (an + bn )n∈N und Produktfolge (an · bn )n∈N konvergent und für die Grenzwerte gilt (i) lim {an + bn } = a + b, n→∞ (ii) lim {an · bn } = a · b, n→∞ Ist zudem b 6= 0, bn 6= 0 (n ∈ N), so ist die Quotientenfolge ( abnn )n∈N konvergent mit (iii) lim { abnn } = ab . n→∞ Beweis. Exemplarisch wird (ii) gezeigt. Da beide Folgen konvergent sind, gibt es n mit |an − a| < und |bn − b| < , für n ≥ n , sowie einen Konstante M (konvergente Folgen sind beschränkt) mit |an | ≤ M 52 und |bn | ≤ M für n ∈ N. 3.3 Häufungspunkte und Teilfolgen Durch das Einschieben des Terms −an · b + an · b = 0 folgert man: |an · bn − a · b| = |an · bn − an · b + an · b − a · b| = |an · (bn − b) + (an − a) · b| ≤ |an | · |(bn − b)| + |(an − a)| · |b| ≤ M + M = 2M . Beispiele 3.16 (i) Für die Multiplikation mit der konstanten Folge (c)n∈N gilt lim {c · an } = c · a und n→∞ Allgemein für beliebige c, d ∈ R: lim {c · an + d · bn } = c · lim an + d · lim bn = c · a + d · b. n→∞ n→∞ n→∞ (ii) n 1 1 lim = lim 1 − = lim 1 − lim =1−0=1 n→∞ n + 1 n→∞ n→∞ n→∞ n + 1 n+1 (iii) lim n→∞ 5n + 1 3n − 10 = lim n→∞ 5 + n1 3 − 10 n = lim {5 + n1 } n→∞ lim {3 − n→∞ 10 } n = 5 5+0 = 3−0 3 (iv) √ n√ √ √ o √ n+1−n n lim n( n + 1 − n) = lim n√ = lim √ √ √ n→∞ n→∞ n→∞ n+1+ n n+1+ n 1 1 1 q = = lim = n→∞ 1+1 2 1+ 1 +1 n Bemerkung 3.17 Für das Rechnen mit den Grenzwerte ist es essentiell, dass die Folgen konvergent sind. Für nicht-konvergente Folgen (z.B. limn→∞ n = ∞) lässt sich durch obige Rechenregeln keine Aussage treffen. So lässt sich „ ∞ “ nicht ermitteln, denn limn→∞ nn2 = 0, limn→∞ nn = ∞ 2 1 und limn→∞ nn = ∞. Vor der Verwendung obiger Rechenregeln muss zunächst die Konvergenz der Folgen an und bn gezeigt werden. 3.3 Häufungspunkte und Teilfolgen Definition 3.18 (Häufungspunkt) Ein Punkt a ∈ R heißt Häufungspunkt einer Folge (an )n∈N , falls zu jedem > 0 immer 53 3 Konvergenz, Folgen und Reihen unendlich viele Folgenglieder an mit einem Abstand von höchstens zu a gibt, d.h. für jedes N ∈ N gibt es ein an , n ≥ N mit |an − a| < . Beispiel 3.19 Die reelle Folge an = (−1)n hat zwei Häufungspunkte a = 1 und a = −1. Beispiel 3.20 Jede konvergente Folge hat genau einen Häufungspunkt, nämlich den Grenzwert der Folge. Besitzt eine Folge mehr als einen Häufungspunkt, dann kann man sich auch die Folgenglieder beschränken, die in der Nähe eines Häufungspunktes liegen. Man wählt also die Folgenglieder entsprechend aus. Dies nennen man das bilden einer Teilfolge. Definition 3.21 (Teilfolge) Sei (an )n∈N eine Folge. Eine Folge (bm )m∈N heißt Teilfolge von (an )n∈N , falls es eine streng monotone Folge von Indizes n1 < n2 < n3 < . . . gibt, so dass bm = anm für alle m ∈ N. Zu einer Folge mit mehr als einem Häufungspunkt kann man somit eine Teilfolge auswählen, die dann gegen den Häufungspunkt konvergiert. Definition 3.22 (Limes superior/inferior) Zu einer Folge reeller Zahlen (an )n∈N mit mindestens einem Häufungspunkt. Den größten Häufungspunkt bezeichnet man als Limes superior lim sup an . Den kleinsten Häufungspunkt bezeichnet man als Limes inferior lim inf an . n→∞ n→∞ Für beschränkte Folgen in R gilt folgender Satz, der hier ohne Beweis angegeben wird. Satz 3.23 (Bolzano-Weierstraß) Jede beschränkte Folge reeller Zahlen besitzt einen größten und einen kleinsten Häufungswert. Jede beschränkte Folge reeller Zahlen besitzt daher eine konvergente Teilfolge. 3.4 Reihen Ein berühmtes Paradoxon der antiken Griechen stammt vom Zenon: Der schnelle Achilles versucht eine langsame Schildkröte zu erreichen. Doch obwohl Achilles doppelt so schnell ist wie die Schildkröte, scheint es ihm nicht zu gelingen. Denn jedes Mal, wenn Achilles den Punkt erreicht, an dem sich die Schildkröte aktuell befindet, ist diese ebenfalls ein Stück weiter gekommen. Daher muss Achilles erneut versuchen, die Schildkröte auf dieser nun halb so langen Strecke zu erreichen. Dieses Spiel scheint sich unendlich oft zu wiederholen und Achilles erreicht die Schildkröte folglich nicht. 54 3.4 Reihen t = 0 min A S t = 1 min A t = 1 min S t= t=1+ 1 min 2 1 min 2 A t= t=1+ 1 1 + min 2 4 .. . S 1 min 4 AS t= 1 min 8 .. . Abbildung 3.1: Paradoxon von Zenon: Der doppelt so schnelle Achilles (A) scheint die Schildkröte (S) niemals zu erreichen, denn diese ist immer bereits ein (wenn auch kleineres) Stück weiter, wenn Achilles den Punkt erreicht, an dem sich die Schildkröte aktuell befindet. Der Trugschluss in diesem Paradoxon liegt darin, dass unendliche Summen durchaus endliche Werte annehmen können. So beträgt die von Achilles benötigte Zeit ∞ X 1 1 1 1 1 + ... = T =1+ + + + 2 4 8 16 2k k=0 und diese Summe hat einen endlichen Wert. Von der mathematischen Behandlung solcher unendlichen Summen handelt dieses Kapitel. Zu jeder Folge (an )n∈N lassen sich endlich viele der Folgenglieder aufsummieren. Eine solche Teilsumme nennt man die Partialsumme sn := n X ak . k=0 So entsteht eine neue Folge (sn )n∈N , deren Konvergenz man untersuchen kann. Definition 3.24 (Reihe) Eine Reihe mit den Gliedern ak ist die unendliche Summe ∞ X ak , k=0 55 3 Konvergenz, Folgen und Reihen die verstanden wird als die Folge der Partialsummen sn := n X mit n → ∞. ak k=0 Existiert der Grenzwert limn→∞ sn , so heißt die Reihe konvergent, andernfalls divergent. Beispiel 3.25 (Geometrische Reihe) Die sogenannte geometrische Reihe ist gegeben durch 2 3 4 1 + q + q + q + q + ... = ∞ X qk . k=0 Diese Reihe ist für |q| < 1 konvergent. Betrachtet man nämlich die Partialsummen, so findet man durch ! ! ! n n n n n+1 X X X X X k k k k (1 − q) · =1· = q q −q· q q − q k = 1 − q n+1 k=0 k=0 k=0 k=0 k=1 zunächst die geometrische Summenformel n X k=0 qk = 1 − q n+1 1−q für alle n ∈ N. Somit folgt für den Grenzwert der Reihe ∞ X n X 1 − q n+1 1 q = lim q = lim = . n→∞ 1 − q n→∞ 1−q k=0 k=0 k k Beispiel 3.26 (Harmonische Reihe) Die sogenannt harmonische Reihe ist gegeben durch ∞ X1 1 1 1 1 1 + + + + + ... = . 2 3 4 5 k k=1 Diese Reihe divergiert. Denn betrachtet man die Partialsumme für n = 2k , so findet man die Abschätzung 1 2 1 =1+ 2 1 ≥1+ 2 1 =1+ 2 1 1 1 1 + + + ... + 3 4 5 n 1 1 1 + + + + ... + 3 4 5 1 1 1 + + + + ... + 4 4 8 1 1 1 + 2 · + 4 · + 2k−1 · k 4 8 2 1 = 1 + k · → ∞ (k → ∞). 2 s2k = 1 + 56 + 1 1 1 + + ... + k 8 2k−1 + 1 2 1 1 1 + + . . . + 8 2k 2k 3.5 Konvergenzkriterien für Reihen 3.5 Konvergenzkriterien für Reihen Ein Konvergenzkriterium für Reihen erhält man, indem man das Cauchy-Kriterium für die Folge der Partialsummen anwendet. Satz 3.27 (Cauchy-Kriterium für Reihen) Eine Reihe ist genau dann konvergent, wenn es für jedes > 0 ein n gibt, so dass gilt: |sn − sm | = | n X k=m+1 für alle n ≥ m ≥ n . ak | < Beweis. Dies ist das Cauchy-Kriterium für die Folge der Partialsummen (sn )n∈N . Damit eine Reihe überhaupt konvergierten kann, müssen die Reihenglieder eine Nullfolge bilden. Denn mit sn → s gilt immer an = sn − sn−1 → s − s = 0. Sind alle Elemente der Summe positiv, so ist die Folge der Partialsummen monoton wachsend. Ist sie zudem beschränkt, dann muss die Reihe konvergieren. Satz 3.28 (Konvergenz für nicht-negative Reihen) P Eine Reihe ak mit nicht-negativen Gliedern ak ≥ 0 konvergiert genau dann, wenn die Folge der Partialsummen beschränkt ist, d.h. es gibt ein M ∈ R, mit n X k=0 für alle n ∈ n. ak ≤ M Analog zu Folgen lassen sich die Reihen auch gegen andere Reihen abschätzen. Satz 3.29 (Majoranten-Kriterium) Gilt |ak | ≤ |bk | für alle k ∈ N und konvergiert die Reihe ∞ P ak mit ∞ P k=0 |bk |, dann konvergiert auch k=0 ∞ ∞ X X | ak | ≤ |bk |. k=0 k=0 Beweis. Folgerung aus dem Anordnungssatz für Grenzwerte angewendet auf die Partialsummenfolge. Definition 3.30 (Absolut konvergente Reihe) Eine Reihe heißt absolut konvergent, falls die Summe der Beträge ∞ X k=0 konvergiert. |ak | 57 3 Konvergenz, Folgen und Reihen Eine absolut konvergente Reihe ist immer auch konvergent, wie man aufgrund der Dreiecksungleichung direkt sieht: n n X X | ak | ≤ |ak |. k=0 k=0 Durch Abschätzung gegen die geometrische Reihe findet man zwei weitere Kritierien. Satz 3.31 (Wurzel-Kriterium) Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt p p k k |ak | ≤ q < 1, d.h. lim sup |ak | < 1 k→∞ p dann konvergiert die Reihe absolut. Gilt k |ak | > 1 für unendlich viele k ∈ N, so divergiert die Reihe. Beweis. Aus |ak | ≤ q k folgt, p dass die geometrische Reihe eine Majorante ist und diese k konvergiert für |q| < 1. Gilt |ak | > 1, so auch |ak | > 1 und die Glieder bilden nicht einmal einen Nullfolge. Satz 3.32 (Quotienten-Kriterium) Gilt mit 0 < q < 1, dass für fast alle (d.h. alle bis auf endlich viele) Summenglieder gilt ak+1 ak+1 ≤ q < 1, d.h. lim sup <1 ak ak k→∞ dann konvergiert die Reihe absolut. Beweis. Aus |ak+1 /ak | ≤ q für alle k ≥ N folgt |ak | ≤ q|ak−1 | ≤ q 2 |ak−2 | ≤ . . . ≤ q k−N |aN |. Somit hat die Reihe mit |aN |q eine konvergente Majorante für |q| < 1. −N ∞ X qk k=N Beispiel 3.33 (Eulersche Zahl) Die Reihe ∞ X 1 e := k! k=0 konvergiert. Ihr Wert e ≈ 2, 7182818 . . . heißt Eulersche Zahl. Die Konvergenz sieht man mit dem Quotientenkriterium. Für k ≥ 1 gilt 1 ak+1 k! 1 1 = (k+1)! = = ≤ < 1. 1 ak (k + 1)! k+1 2 k! und damit ist der größte Häufungswert echt kleiner eins. 58 3.6 Potenzreihen 3.6 Potenzreihen Definition 3.34 (Potenzreihe) Eine Reihe der Form P (x) := ∞ X k=0 ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . heißt Potenzreihe mit Koeffizienten ak ∈ R, Entwicklungspunkt x0 ∈ R und Argument x ∈ R. Satz 3.35 (Konvergenzradius von Potenzreihen) Eine Potenzreihe P (x) = ∞ X k=0 ak (x − x0 )k konvergiert absolut für alle Argumente x ∈ R, die innerhalb des sogenannten Konvergenzradius ρ liegen, 1 1 1 p |x − x0 | < ρ := := 0 mit formal: := ∞ und 0 ∞ lim sup k |ak | k→∞ und divergiert für |x − x0 | > ρ. Existiert der Grenzwert ρ := 1 ak+1 , lim ak k→∞ so entspricht dies ebenfalls dem Konvergenzradius. Beweis. Gemäß Wurzelkriterium gilt: p p lim sup k |ak (x − x0 )k | = |x − x0 | · lim sup k |ak | k→∞ k→∞ ( < 1, für |x − x0 | < ρ, |x − x0 | = = ρ > 1, für |x − x0 | > ρ. Analog folgert man mit dem Quotientenkriterium. Die wohl wichtigste Potenzreihe ist die Exponentialfunktion. Definition 3.36 Die Exponentialfunktion ist gegeben durch exp(x) := ∞ X xn k=0 n! . 59 3 Konvergenz, Folgen und Reihen Die Exponentialfunktion ist überall konvergent, wie das Quotientenkriterium zeigt: ak+1 xk+1 k! |x| 1 für alle k ≥ 2|x|. ak = (k + 1)! xk = k + 1 ≤ 2 < 1 Absolut konvergente Reihen lassen sich multiplizieren. Satz 3.37 (Cauchy-Produkt) ∞ ∞ P P Seien ak und bk zwei absolut konvergente Reihen. Dann gilt k=0 k=0 ∞ X k=0 ak ! · ∞ X k=0 bk ! = ∞ k X X k=0 aj bk−j j=0 ! . Man nennt k X aj bk−j j=0 das Cauchy-Produkt. Beweis. (Skizze) Ausmultiplizieren der endlichen Summe, Dreiecksungleichung und Grenzübergang für n → ∞. Für die Exponentialfunktion ergibt sich damit folgendes Resultat. Satz 3.38 (Funktionalgleichung für die Exponentialfunktion) Es gilt exp(x) · exp(y) = exp(x + y). Beweis. (Übung) 60 4 Stetigkeit Der Grenzwertbegriff für Zahlenfolgen lässt sich auf Funktionen übertragen. Funktionen (oder Abbildungen) waren bereits im Kapitel über Mengen aufgetreten. Hier wird nun der Fall betrachtet, dass Definitionsbereich und Bild Teilmengen der reellen Zahlen R sind. Definition 4.1 (Funktion) Sei D ⊂ R. Eine Vorschrift f : D → R, die jedem x ∈ D genau einen Funktionswert f (x) ∈ R zuordnet, heißt reellwertige Funktion. 4.1 Intervalle Ein häufiger anzutreffender Fall für den Definitionsbereich D ⊂ R sind Intervalle. Definition 4.2 (Intervalle) Für die Endpunkte a, b ∈ R mit −∞ < a ≤ b < ∞ notiert man die Intervalle [a, b] := {x ∈ R | a ≤ x ≤ b}, (a, b) := {x ∈ R | a < x < b}, [a, b) := {x ∈ R | a ≤ x < b}, (a, b] := {x ∈ R | a < x ≤ b}, (abgeschlossenes (offenes (rechts halboffenes (links halboffenes Intervall), Intervall), Intervall), Intervall), und die uneigentlichen Intervalle [a, ∞) := {x ∈ R | a ≤ x}, (−∞, b] := {x ∈ R | x ≤ b}, (nach oben unbeschränktes Intervall), (nach unten unbeschränktes Intervall). In diesem Zusammenhang ist der Abschluss einer Menge interessant. Dieser wird dadurch gebildet, dass man die „Randpunkte“ der Menge mit hinzunimmt. Anschaulich sind dies alle Punkte, die sich durch Folgen mit Folgengliedern in der Menge selbst annähern lassen. Dabei muss der Grenzwert dieser Folge nicht in der Menge enthalten sein, kann also am „Rand“ liegen. Formal definiert man: Definition 4.3 (Abschluss) Eine Teilmenge M ⊂ R heißt abgeschlossen, falls der Grenzwert jeder konvergenten Folge (an )n∈N von Punkten an ∈ M ebenfalls in der Menge M liegt, d.h. limn→∞ ∈ M . 61 4 Stetigkeit Für eine Teilmenge M ⊂ R ist der Abschluss M definiert durch n o M := x ∈ R | Es gibt eine Folge (xn )n∈N , xn ∈ M mit x = lim xn . n→∞ Jeder Punkt von M ist automatisch in M enthalten, da man als Folge die konstante Folge von diesem Punkt wählen kann. Eine Menge ist abgeschlossen, falls M = M gilt. Beispiele 4.4 (i) Die Menge [a, b] ist abgeschlossen. (ii) Der Abschluss von (a, b), (a, b] und [a, b) ist gegeben durch [a, b]. (iii) Die Menge [0, ∞) ist abgeschlossen. (iv) Der Abschluss von R \ {0} ist gegeben durch R. 4.2 Folgenstetigkeit Nun lässt sich der Grenzwertprozess auf Funktionen übertragen. Definition 4.5 (Grenzwert einer Funktion in einem Punkt) Sei D ⊂ R und f : D → R eine Funktion. Die Funktion hat einen Grenzwert c ∈ R in einem Punkt a ∈ D, wenn für alle Folgen von Punkten (xn )n∈N mit Grenzwert a = limn→∞ xn auch die Folge ( f (xn ) )n∈N mit Grenzwert c konvergiert, d.h. wenn gilt xn → a (n → ∞) In diesem Fall wird auch kurz notiert: ⇒ f (xn ) → c (n → ∞). lim f (x) = c. x→a, x∈D Man beachte, dass der betrachtete Punkt a nicht im Definitionsbereich liegen muss. Er muss lediglich im Abschluss D liegen, damit überhaupt eine Folge xn → a existiert. Im Speziellen muss also auch die Funktion f : D → R dort nicht definiert sein. Dies wird bei der späterten Definition der Ableitung wesentlich sein. Zunächst sei aber die Eigenschaft der Stetigkeit einer Funktion betrachtet. Eine Funktion auf einem reellen Intervall ist anschaulich gesprochen dann stetig, wenn der Graph zusammenhängt, d.h. ohne abzusetzen zeichenbar ist. Formal lässt sich dies dadurch erklären, dass alle Folgen zu einem Punkt (im Speziellen die von „links“ und die von „rechts“) denselben Grenzwert haben. Definition 4.6 (Stetigkeit) Eine Funktion f : D → R heißt stetig in einem Punkt a ∈ D, wenn für jede Folge (xn )n∈N in D gilt: xn → a (n → ∞) 62 ⇒ f (xn ) → f (a) (n → ∞). 4.2 Folgenstetigkeit f (x) f (x2 ) f (x3 ) f (a) f (a) ! ! f (x2 ) f (x1 ) ! f (x2 ) f (x1 ) x1 x2 x3 ! a x x1 x3 x2 f (x) x1 x2 x3 ! a x3 x2 x1 x Abbildung 4.1: Stetigkeit nach der Folgendefinition: Für alle Folgen (xn )n∈N mit xn → a muss auch f (xn ) → f (a) gelten. (Links: stetig / Rechts: unstetig) Andernfalls heißt die Funktion unstetig in a. Ist die Funktion stetig in jedem Punkt von D, so nennt man sie stetig auf D (oder auch schlicht: stetig). Für einen stetige Funktion gilt also lim f (x) = f (lim x), x→a x→a d.h. Stetigkeit erlaubt es, dass die Grenzwertbildung mit dem Anwenden der Funktion vertauscht wird. Beispiele 4.7 (i) Für ein beliebiges c ∈ R ist eine konstante Funktion f (x) = c (x ∈ R) gegeben. Diese ist stetig, denn die Folge ( f (xn ) )n∈N = (c)n∈N konvergiert für alle Folgen (xn )n∈N gegen c. f (x) c f (x) = c 1 1 x 63 4 Stetigkeit (ii) Die Identitätsfunktion f (x) = x ist stetig. Hier sind (xn )n∈N und ( f (xn ) )n∈N gleich und die eine konvergiert genau dann, wenn die andere konvergiert. f (x) f (x) = x 1 x 1 (iii) Die Exponentialfunktion f (x) = ex ist stetig. f (x) f (x) = ex 4 3 e ≈ 2.71828... 2 1 −2 −1 1 2 x −1 Zunächst ist f (x) = ex stetig im Punkt a = 0, d.h limx→0 ex = e0 = 1, denn es gilt für |x| < 1 0 x x1 x2 x3 x |e − 1| = + + + + . . . − 1 0! 1! 2! 3! 2 3 x x x = + + + . . . 1! 2! 3! 1 |x| |x|2 ≤ |x| · + + + ... 1! 2! 3! 1 1 1 ≤ |x| · + + + ... 1! 2! 3! = |x| · (e − 1) → 0 (|x| → 0). Sei nun a ∈ R beliebig und (xn )n∈N eine Folge mit xn → a. Dann gilt: |ea − exn | = |ea | · |1 − exn −a | → |ea | · |1 − 1| = 0 64 für (xn − a) → 0. 4.3 -δ-Stetigkeit (iv) Die Heavisidefunktion H(x) := ( für x < 0, für x ≥ 0, 0, 1, ist unstetig im Punkt a = 0. f (x) f (x) = H(x) 1 −3 −2 −1 1 2 3 x −1 1 Dazu betrachtet man die Folge xn := − n+1 , (n ∈ N). Für diese gilt: xn → 0 (n → ∞) und f (xn ) = 0 für alle n ∈ N, jedoch f (0) = 1. (v) Für eine endliche Zerlegung eines Intervall [a, b) durch Punkte a = p0 < p1 < p2 < . . . < pk = b ist eine Treppenfunktion stückweise definiert durch f (x) := ci für x ∈ [ pi−1 , pi ) , 1 ≤ i ≤ k. f (x) a p1 p2 p3 p4 p5 b x Eine Treppenfunktion ist im Allgemeinen in den Zerlegungspunkten pi unstetig (außer für ci−1 = ci ) und zwischen den Zerlegungspunkten stetig. 4.3 -δ-Stetigkeit Die Definition der Stetigkeit besagt qualitativ, dass man denselben Wert erhält, egal auf welchem Weg man zum Punkt a gelangt. Der Nachweis der Stetigkeit für eine kon- 65 4 Stetigkeit krete Funktion ist mit diesem Kriterium jedoch oftmals schwierig, da man alle Folgen betrachten muss. Eine quantitative, äquivalente Definition der Stetigkeit ist wie folgt. Satz 4.8 (-δ-Stetigkeit) Eine Funktion f : D → R ist genau dann stetig in einem Punkt a ∈ D, wenn es zu jedem > 0 ein δ > 0 gibt, so dass für alle Punkte x ∈ D gilt: |x − a| < δ ⇒ |f (x) − f (a)| < . Beweis. -δ-stetig → Folgen-stetig: Sei (xn )n∈N eine beliebige Folge mit xn → a (n → ∞). Zu zeigen ist, dass dann auch f (xn ) → f (a) gilt. Sei also > 0 vorgegeben. Dann gibt es nach -δ-stetig ein δ > 0, so dass für alle |x − a| < δ der Abstand |f (xn ) − f (a)| < ist. Da die Folge (xn )n∈N gegen a konvergiert, gibt es auch ein nδ , so dass |xn − a| < δ für alle n ≥ nδ . Somit gilt auch |f (xn ) − f (a)| < für alle n ≥ nδ . Folgen-stetig → -δ-stetig: Widerspruchsargument: Angenommen, zu einem vorgegebenen > 0 gibt es kein geeignetes δ, d.h. es gibt zu jedem noch so kleinen δ > 0 immer einen Punkt mit |x − a| < δ, aber |f (x) − f (a)| ≥ . Dann wählt man δ = 1, 12 , 13 , 41 , . . . und bildet mit diesen Punkten die Folge x1 , x2 , x3 , x4 , . . .. Für diese Folge gilt nun |xn − a| < 1 n und |f (xn ) − f (a)| ≥ . Damit gilt xn → a, jedoch nicht f (xn ) → f (a) im Widerspruch zum Folgenkriterium der Stetigkeit. Anschaulich bedeutet dies, dass der Funktionswert f (x) beliebig nahe an f (a) liegt, sofern nur auch x hinreichend nahe an a gewählt wird. Beispiele 4.9 (i) Für die Identität f (x) = x kann man für jedes das gesuchte δ = wählen. Damit gilt dann |x − a| < δ ⇒ |f (x) − f (a)| = |x − a| < δ = . (ii) Für die konstante Funktion f (x) = c gilt immer |f (x) − f (a)| = |c − c| = 0 für alle x, a ∈ R. 66 4.4 Rechenregeln für stetige Funktionen f (x) f (a) + ✏ f (a) f (a) + ✏ f (a) f (a) ✏ f (a) ✏ f (x) x a a a |{z} ? a+ x Abbildung 4.2: Stetigkeit nach der -δ-Definition: Für alle > 0 muss sich ein δ finden lassen, so dass alle Funktionswerte für Argumente x ∈ D mit |x − a| < δ die Funktionswerte höchstens |f (x) − f (a)| < entfernt liegen. (iii) Die Betragsfunktion f (x) = |x| ist stetig. Man wähle δ = . Denn mit der Beziehung ||x| − |y|| ≤ |x − y| für alle x, y ∈ R gilt dann die Abschätzung: |x − a| < δ ⇒ |f (x) − f (a)| = ||x| − |a|| < |x − a| < δ = . f (x) f (x) = |x| 1 −1 1 x 4.4 Rechenregeln für stetige Funktionen Funktionen mit demselben Definitionsbereich lassen sich auf natürliche Weise addieren oder multiplizieren. Definition 4.10 Für Funktionen f, g : D → R mit demselben Definitionsbereich ist Summe und Produkt 67 4 Stetigkeit der Funktionen definiert durch: (f + g)(x) := f (x) + g(x), und (f · g)(x) := f (x) · g(x). Die Stetigkeit bleibt bei solchen Operationen erhalten. Satz 4.11 Seien f, g : D → R stetig. Dann ist auch f + g und f · g stetig. Beweis. Sei (xn )n∈N mit xn → a. Dann gilt lim (f + g)(xn ) = lim {f (xn ) + g(xn )} n→∞ n→∞ = lim f (xn ) + lim g(xn ) = f (a) + g(a) = (f + g)(a). n→∞ n→∞ Beispiel 4.12 Polynome P (x) = n X ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n k=0 sind stetig. Denn diese sind Summe und Produkt von stetigen Funktionen (konstante Funktionen und die Identität f (x) = x). Es sei daran erinnert, dass für injektive Funktionen die sogenannte Umkehrfunktion existiert. Definition 4.13 (Umkehrfunktion) Sei f : D → B ⊂ R eine injektive Funktion mit Definitionsbereich D, Bild B. Die zugehörige Umkehrfunktion f −1 : B → D (oder auch inverse Funktion) ist auf dem Bild von f definiert durch f −1 (y) := x ⇔ y = f (x). 1 verDie Umkehrfunktion f −1 (x) darf nicht mit der reziproken Funktion f (x)−1 = f (x) −1 wechselt werden. Es ist vielmehr diejenige Funktion, für die f (f (x)) = x, x ∈ D gilt. Zudem sei daran erinnert, dass die Verkettung von Funktion definiert werden kann, sofern der Bildbereich der einen Funktion im Definitionsbereich der anderen liegt. Definition 4.14 (Komposition von Funktionen) Für zwei reellwertige Funktionen g : D → B ⊂ R und f : B → R ist die Komposition (auch: Verkettung) f ◦ g : D → R definiert durch: (f ◦ g)(x) := f (g(x)), 68 für alle x ∈ D. 4.4 Rechenregeln für stetige Funktionen Beispiele 4.15 (i) Für k ∈ N ist die k-te Potenz gegeben durch die Funktion x ∈ R. f (x) := xk , Beschränkt man den Definitionsbereich auf [0, ∞) = R+ ∪ {0}, so ist diese injektiv mit Bild R+ ∪ {0} und die zugehörige Umkehrfunktion wird als die k-te Wurzel bezeichnet: f −1 : R+ ∪ {0} → R+ ∪ {0}, Für einen rationalen Exponenten Komposition definiert: z n f −1 (x) := √ k x. mit z ∈ Z, n ∈ N wird die Potenzfunktion als z f (x) = x n :⇔ f1 (x) = xz , f2 (x) = √ n x und f (x) = f1 (f2 (x)), x ∈ R+ ∪ {0}. f (x) = x2 4 3 f (x) = 2 √ 2 x 1 −2 −1 1 2 3 4 5 x (ii) Die Exponentialfunktion f (x) = exp(x) = ex ist für ganz R definiert und nimmt nur positive Werte an. Die Umkehrfunktion ist definiert als der natürliche Logarithmus f −1 (x) =: ln(x), d.h. Für alle x ∈ R+ gilt : y := ln(x) :⇔ x = ey . Somit gilt für alle x ∈ R: ln(ex ) = x = eln(x) . 69 4 Stetigkeit f (x) = ex 5 4 3 2 f (x) = ln(x) 1 −2 −1 1 2 3 4 5 x −1 −2 Satz 4.16 (Stetigkeit der Umkehrfunktion) Sei die auf einem beschränkten und abgeschlossenen Definitionsbereich D definierte reellwertige Funktion f : D → B ⊂ R injektiv und stetig. Dann ist auch die Umkehrfunktion f −1 : B → D stetig. Beweis. Sei (yn )n∈N eine beliebige Folge in B mit yn → b ∈ B, (n → ∞). Damit die Umkehrfunktion stetig, muss nun gezeigt werden, dass für die Folge der Funktionswerte gilt: xn := f −1 (yn ) → f −1 (b) =: a, (n ∈ N). Dies sieht man wie folgt: Die Folge (xn )n∈N ist beschränkt, da alle Folgenglieder in der beschränkten Menge D liegen. Damit besitzt (xn )n∈N eine konvergente Teilfolge xnk → p ∈ D. Da f stetig ist, konvergieren aber auch die Funktionswerte f (xnk ) → f (p). Zudem gilt aber auch, dass f (xnk ) = ynk → b = f (a) konvergiert und somit f (a) = f (p) gilt. Wegen der Injektivität von f folgt daraus a = p. Somit besitzt jede konvergente Teilfolge von (xn )n∈N den gleichen Grenzwert a und es gilt xn → a, was zu zeigen war. Beispiele 4.17 (i) Die k-te Wurzel f (x) = √ k x ist als Umkehrfunktion von xk stetig. (ii) Der natürliche Logarithmus f (x) = ln(x) ist als Umkehrfunktion von ex stetig. 4.5 Zwischenwertsatz Stetige, reellwertige Funktion auf reellen Intervallen sind dadurch gekennzeichnet, dass sie keine Sprünge in den Funktionswerten aufweisen. Besitzt eine Funktion unterscheidliche Funktionswerte f (a) 6= f (b) an zwei Stellen a 6= b, a, b ∈ D und ist dazwischen stetig, 70 4.5 Zwischenwertsatz so nimmt die Funktion daher auch alle Werte zwischen f (a) und f (b) an. Dies lässt sich so veranschaulichen: Geht ein Bergsteiger aus dem Tal auf den Gipfel und dies durch einen stetigen Aufstieg (d.h. er kann nicht plötzlich etliche Meter in die Höhe springen), dann kommt er bei seinem Aufstieg auch an jedem Höhenmeter zwischen Tal und Gipfel vorbei. Mathematisch wird dies durch den sogenannten Zwischenwertsatz ausgedrückt. Satz 4.18 (Zwischenwertsatz) Sei f : [a, b] → R eine stetige Funktion. Dann gibt es zu jeder Zahl y zwischen f (a) und f (b), d.h. f (a) ≤ y ≤ f (b) bzw. f (a) ≥ y ≥ f (b), ein c ∈ [a, b] mit f (c) = y. Beweis. (Skizze) Durch Einschachtelung lässt sich ein immer kleineres Intervall finden, in dem der gesuchte Punkt liegen muss. Aufgrund der Vollständigkeit von R konvergiert dies gegen den gesuchten Punkt c. f (x) f (b) f (c) f (a) a c b x Abbildung 4.3: Illustration zum Zwischenwertsatz Beispiel 4.19 Der Zwischenwertsatz hat zahlreiche Anwendungen. Eine davon ist die Existenz von Fixpunkten einer Funktion f . Dies sind Punkte x∗ ∈ R für die f (x∗ ) = x∗ gilt. Es gilt: Jede stetige Funktion f : [a, b] → [a, b] besitzt einen Fixpunkt. Man betrachte dazu die Funktion g(x) := f (x) − x. Diese ist wiederum stetig und da alle Funktionswerte im Intervall [a, b] liegen, muss im Speziellen f (a), f (b) ∈ [a, b] gelten. Damit ist g(a) = f (a) − a ≥ 0 und g(b) = f (b) − b ≤ 0. Aus dem Zwischenwertsatz folgt, dass es eine Nullstelle x∗ ∈ [a, b] mit g(x∗ ) = 0 gibt. Für diese gilt dann f (x∗ ) = x∗ . 71 5 Differentiation Bei der Betrachtung von reellwertigen Funktionen f : D → R auf einem Intervall D ⊂ R war die Stetigkeit der Funktion eine wesentliche Eigenschaft. Ist die Funktion in einen Punkt x0 stetig, so unterscheiden sich die Funktionswerte f (x) an Punkten x nicht wesentlich von dem Wert f (x0 ) unterscheiden, wenn man x nur hinreichend nahe an x0 wählt. Anschaulich gesprochen hat eine stetige Funktion keinen Sprung in den Funktionswerten, d.h. entfernt man sich nur wenig von dem Punkt x0 , so ändert sich auch der Funktionswert nur geringfügig von f (x0 ). Durch Differentiation lässt sich die Änderung einer Funktion in der Nähe von x0 quantitativer betrachten. Dazu ein Beispiel: Die Größe einer Population sei als eine Funktion g : D → R über die Zeit aufgetragen. Somit lässt sich zu jedem Zeitpunkt t ∈ D die aktuelle Populationsgröße g(t) ermitteln. g(t) g(t) ∆y g(t0 ) t0 t t ∆t Abbildung 5.1: Illustration zur zeitlichen Entwicklung einer Größe einer Population. Zudem lässt sich fragen, wie sich die Population im zeitlichen Mittel von einem Startzeitpunkt t0 bis zum Zeitpunkt t verändert hat. Diese Änderung beträgt g(t) − g(t0 ) und somit kann man auch die mittlere Änderungsrate der Population im Intervall [t0 , t] bestimmen. g(t) − g(t0 ) t − t0 73 5 Differentiation Dies führt zunächst auf die folgende Definition. Definition 5.1 (Differenzenquotient) Zu einer Funktion f : D → R ist für die Änderung der Funktionswerte ∆y := f (x)−f (x0 ) im Intervall ∆x := x − x0 die mittlere Änderungsrate gegeben durch f (x) − f (x0 ) ∆y = , für x 6= x0 ∆x x − x0 und wird als Differenzenquotient von f zu den Stellen x und x0 bezeichnet. Man kann sich zudem fragen, wie momentane Änderungsrate aussieht, d.h. die Größe der Änderung in einem beliebig kleinen Bereich um den betrachteten Zeitpunkt herum. Mathematisch benötigt man dazu den Grenzwert des Differenzenquotienten. 5.1 Ableitung von Funktionen Definition 5.2 (Differenzierbar) Eine Funktion f : D → R heißt differenzierbar in einem Punkt x0 ∈ D, wenn der Grenzwert f (x) − f (x0 ) df (x0 ) := f 0 (x0 ) := x→x lim , 0 dx x − x0 x∈D\{x } 0 existiert. f (x0 ) heißt Differentialquotient oder Ableitung von f im Punkt x0 . 0 Ist die Funktion f in jedem Punkt von D differenzierbar, so bezeichnet man sie als differenzierbar in D. Die geometrische Interpretation dieses Vorgehens ist wie folgt: Der Differenzenquotient ist die Steigung der Sekante des Graphens durch die Punkte (x0 , f (x0 )) und (x, f (x)). Bildet man den Grenzwert x → x0 , so wird die Sekante zur Tangente im Punkt (x0 , f (x0 )) und f 0 (x0 ) entspricht der Steigung der Tangente. Bemerkung 5.3 (i) Wichtig bei der Definition der Ableitung ist, dass der Differenzenquotient für alle Folgen x → x0 gegen denselben Grenzwert f 0 (x0 ) konvergieren muss. (ii) Der Differenzenquotient ist nur für x 6= x0 definiert, d.h. nur auf D \ {x0 }. Die Ermittlung des Grenzwerts ist dennoch möglich, da dieser auch für die Punkte im Abschluss einer Menge definiert ist. (iii) Eine analoge Definition ist durch Nullfolgen h → 0 möglich. Die Ableitung ist gegeben durch f (x0 + h) − f (x0 ) , h→0 h wobei die Folge x0 + h in D liegen muss. f 0 (x0 ) = lim 74 5.1 Ableitung von Funktionen f (x) f (x) f (x) ∆y f (x0 ) f (x0 ) ∆x x0 x x x0 x Abbildung 5.2: Geometrische Interpretation der Ableitung. Links: Sekante. Rechts: Tangente. (iv) Die Ableitung ist zunächst eine punktweise Eigenschaft einer Funktion, d.h. Differenzierbarkeit ist für einen gegebenen Punkt x0 ∈ D definiert und die Ableitung hat einen Wert f 0 (x0 ) ∈ R, sofern sie existiert. Ist jedoch die Funktion auf dem gesamten Definitionsbereich D differenzierbar, d.h. für alle x0 ∈ D existiert der Grenzwert f 0 (x0 ), so kann man die Ableitung wieder als Funktion f 0 : D → R, x 7→ f 0 (x) auffassen. Beispiele 5.4 (i) Die konstante Funktion f (x) = c mit c ∈ R ist differenzierbar mit f 0 (x0 ) = lim x→x0 c−c f (x) − f (x0 ) = lim = 0. x→x x − x0 0 x − x0 (ii) Die lineare Funktion f (x) = m · x mit m ∈ R ist differenzierbar mit f 0 (x0 ) = lim x→x0 f (x) − f (x0 ) m · x − m · x0 m · (x − x0 ) = lim lim = m. x→x0 x→x0 x − x0 x − x0 x − x0 (iii) Die affin-lineare Funktion f (x) = m · x + b mit m, b ∈ R ist differenzierbar mit f 0 (x0 ) = lim x→x0 f (x) − f (x0 ) m · x + b − (m · x0 + b) = lim = m. x→x0 x − x0 x − x0 (iv) Die Betragsfunktion f (x) = |x| ist nicht differenzierbar in x0 = 0, denn ( 1, x > 0, |x| − |0| = x−0 −1, x < 0, und die Grenzwerte des Differenzenquotienten unterscheiden sich, je nachdem, ob man sich von oben oder von unten an x0 annähert. 75 5 Differentiation (v) Die Funktion f (x) = 1 x ist für x0 > 0 differenzierbar mit 1 f 0 (x0 ) = lim x→x0 x −x 1 0 − −1 f (x) − f (x0 ) 1 = lim x x0 = lim x·x0 = lim =− 2 x→x0 x − x0 x→x0 x − x0 x→x0 x · x0 x − x0 x0 (vi) Die Exponentialfunktion f (x) = ex ist differenzierbar mit ex+h − ex eh − 1 1 f 0 (x) = lim = ex lim = ex lim h→0 h→0 h→0 h h h = ex lim h→0 ∞ X hk k=0 k! ∞ X hk k=0 k! ! −1 = ex lim eh = ex e0 = ex h→0 5.2 Ableitung als lineare Approximation Sei noch einmal die affin-lineare Funktion f (x) = m · x + b mit Ableitung f 0 (x0 ) = m in jedem Punkt x0 ∈ D betrachtet. Für diese gilt auch die folgende Darstellung der Funktionsdifferenz: f (x) − f (x0 ) = m · x + b − (m · x0 + b) = m · (x − x0 ) = f 0 (x0 ) · (x − x0 ) oder anders ausgedrückt f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ), mit f (x0 ), f 0 (x0 ) ∈ R. Dies zeigt, dass sich die Funktion als lineare Funktion mit Aufpunkt in x0 schreiben lässt. Dies ist nicht weiter verwunderlich, denn die Funktion ist ja bereits linear. Vielmehr lässt sich aber jede differenzierbare Funktion in der Nähe eines Punktes x0 in einer solchen Form schreiben, wenn man einen kleinen Fehler zulässt. Dieser Fehler muss dabei beliebig klein werden, je näher man x an x0 betrachtet. Man spricht davon, dass man die Funktion lokal (d.h. für x nahe bei x0 ) durch eine lineare Approximation darstellen kann. Satz 5.5 (Die Ableitung ist die lineare Approximation) Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn es eine konstante c ∈ R gibt, so dass f (x) = f (x0 ) + c · (x − x0 ) + ω(x), mit einer Funktion ω(x) : D → R, für die gilt lim x→x0 In diesem Fall gilt c = f 0 (x0 ). 76 ω(x) = 0. x − x0 x ∈ D, 5.2 Ableitung als lineare Approximation Beweis. Differenzierbar → linear approximierbar: Sei f in x0 differenzierbar. Definiert man nun ω(x) := f (x) − f (x0 ) − f 0 (x0 ) · (x − x0 ), so gilt lim x→x0 ω(x) x − x0 f (x) − f (x0 ) f 0 (x0 ) · (x − x0 ) = lim − x→x0 x − x0 x − x0 f (x) − f (x0 ) = lim − f 0 (x0 ) = 0. x→x0 x − x0 Linear approximierbar → differenzierbar: Umgekehrt gelte für eine Funktion ω(x) mit limx→x0 ω(x) x−x0 = 0: f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + ω(x). Dann gilt auch lim x→x0 f (x) − f (x0 ) − f 0 (x0 ) x − x0 = lim x→x0 ω(x) x − x0 =0 und somit lim x→x0 f (x) − f (x0 ) x − x0 = f 0 (x0 ). Die Forderung an den Restterm ω(x) bedeutet, dass ω(x) im Vergleich zu x − x0 verschwindend klein wird je näher x gegen x0 strebt. Für diese Eigenschaft wurde das sogenannte Landau-Symbol o („klein-O“) eingeführt. Für zwei Funktionen g, h : D → R schreibt man: g(x) = o(h(x)) für x → x0 , falls lim x→x0 g(x) = 0. h(x) Damit lässt sich die Differenzierbarkeit in einem Punkt kompakt beschreiben: Satz 5.6 Eine Funktion f : D → R ist genau dann in einem Punkt x0 ∈ D differenzierbar, wenn sie sich in der Nähe von x0 durch eine lineare Funktion darstellen lässt, d.h. f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |), für x → x0 , mit f 0 (x0 ) ∈ R. 77 5 Differentiation Aus dieser Darstellung sieht man sofort, dass eine differenzierbare Funktion stetig sein muss. Satz 5.7 (differenzierbar → stetig) Ist eine Funktion f : D → R differenzierbar in x0 ∈ D, so ist sie auch stetig in x0 . Beweis. Da f differenzierbar in x0 ist, gilt f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |). Durch den Grenzübergang x → x0 erhält man lim f (x) = lim f (x0 ) + f 0 (x0 ) · (x − x0 ) + o(|x − x0 |) = f (x0 ) = f ( lim x). x→x0 x→x0 x→x0 | {z } | {z } →0 →0 Bemerkung 5.8 In gleicher Weise lässt sich Stetigkeit als die Approximation mit konstanten Funktionen auffassen. Denn ist einen Funktion f : D → R stetig in x0 ∈ D, so gilt f (x) = f (x0 ) + o(1), für x → x0 , mit der Konstanten f (x0 ) ∈ R. 5.3 Ableitungsregeln Erneut stellt sich die Frage, ob und wie sich die Differenzierbarkeit auf Summe, Produkt und Komposition Funktionen sowie auf die Umkehrfunktion überträgt. Satz 5.9 (Summen-, Produkt- und Quotientenregel) Sei D ⊂ R und seien f, g : D → R differenzierbar. Dann gilt (i) Die Summe (f + g)(x) := f (x) + g(x) (für x ∈ D) ist differenzierbar mit: (f + g)0 (x) = f 0 (x) + g 0 (x). (ii) Das Produkt (f · g)(x) := f (x) · g(x) (für x ∈ D) ist differenzierbar mit: (f · g)0 (x) = f 0 (x) · g(x) + f (x) · g 0 (x). (iii) Der Quotient 78 f g (x) := f (x) g(x) (für x ∈ D) ist für g(x) 6= 0 differenzierbar mit: 0 f f 0 (x) · g(x) − f (x) · g 0 (x) . (x) = g g(x)2 5.3 Ableitungsregeln Beweis. Die Regeln folgen aus den entsprechenden Eigenschaften konvergenter Folgen und den Betrachtungen: (i) f (x) + g(x) − f (x0 ) − g(x0 ) (f + g)(x) − (f + g)(x0 ) = lim x→x x − x0 x − x0 0 f (x) − f (x0 ) g(x) − g(x0 ) = lim + lim = f 0 (x0 ) + g 0 (x0 ). x→x0 x→x0 x − x0 x − x0 (f + g)0 (x) = lim x→x0 (ii) f (x) · g(x) − f (x0 ) · g(x0 ) (f · g)(x) − (f · g)(x0 ) = lim x→x0 x→x0 x − x0 x − x0 f (x) · g(x) − f (x) · g(x0 ) + f (x) · g(x0 ) − f (x0 ) · g(x0 ) = lim x→x0 x − x0 f (x) · (g(x) − g(x0 )) + (f (x) − f (x0 )) · g(x0 ) = lim x→x0 x − x0 (g(x) − g(x0 )) (f (x) − f (x0 )) = lim f (x) · + lim · g(x0 ) x→x0 x→x0 x − x0 x − x0 = lim {f (x)} · g 0 (x0 ) + f 0 (x0 ) · g(x0 ) (f · g)0 (x) = lim x→x0 = f (x0 ) · g 0 (x0 ) + f 0 (x0 ) · g(x0 ) (wegen der Stetigkeit von f ). (iii) 0 f f f (x) f (x0 ) 1 1 f − (x) = lim (x) − (x0 ) = lim x→x0 x − x0 x→x0 x − x0 g g g g(x) g(x0 ) f (x) · g(x0 ) − f (x0 ) · g(x) 1 = lim x→x0 x − x0 g(x) · g(x0 ) f (x) · g(x0 ) − f (x0 ) · g(x0 ) + f (x0 ) · g(x0 ) − f (x0 ) · g(x) 1 = lim x→x0 x − x0 g(x) · g(x0 ) f (x) − f (x0 ) g(x0 ) f (x0 ) g(x0 ) − g(x) = lim · + · x→x0 x − x0 g(x) · g(x0 ) g(x) · g(x0 ) x − x0 g(x0 ) f (x0 ) 0 + · g (x0 ) (wegen der Stetigkeit von g) = f 0 (x0 ) · g(x0 )2 g(x0 )2 f 0 (x0 ) · g(x0 ) + f (x0 ) · g 0 (x0 ) = g(x0 )2 Beispiel 5.10 (i) Für f (x) = x2 = x · x gilt f 0 (x) = x · 1 + 1 · x = 2x. (ii) Per Induktion zeigt für f (x) = xn die Ableitung f 0 (x) = nxn−1 , denn man die Produktregel liefert für f (x) = x·xn−1 die Ableitung f 0 (x) = xn−1 +x·(n−1)xn−2 = nxn−1 . 79 5 Differentiation (iii) Als Summe und Produkt von differenzierbaren Funktionen sind Polynome P (x) = n X ak x k = a0 + a1 x + a2 x 2 + a3 x 3 + . . . + an x n k=0 in jedem Punkt differenzierbar mit 0 P (x) = n X kak xk−1 = a1 + 2a2 x + 3a3 x2 + . . . + nan xn−1 . k=1 Satz 5.11 (Kettenregel) Seien g : D → B ⊂ R, f : B → R und sei g differenzierbar in x0 ∈ D und f differenzierbar in y0 := g(x0 ) ∈ B. Dann ist die Komposition (auch: Verkettung) f ◦ g : D → R, x 7→ f (g(x)) ebenfalls in x0 differenzierbar mit (f ◦ g)0 (x0 ) = f 0 (g(x0 )) · g 0 (x0 ). Beweis. Die Schwierigkeit im Beweis liegt zunächst darin, dass y−y0 = g(x)−g(x0 ) = 0 sein könnte und damit sich der Differenzenquotient zu (f ◦ g)0 (x0 ) nicht mit g(x) − g(x0 ) erweitern lässt. Man betrachte daher zunächst die Funktion ∆f : B → R definiert als: ( f (y)−f (y0 ) , für y 6= y0 , y−y0 ∆f (y) := 0 f (y0 ), für y = y0 . Es gilt dann limy→y0 ∆f (y) = f 0 (y0 ), da f in y0 differenzierbar ist. Zudem gilt f (y) − f (y0 ) = ∆ f (y) · (y − y0 ) . Damit findet man f (g(x)) − f (g(x0 )) ∆f (g(x)) · (g(x) − g(x0 )) = lim x→x0 x→x0 x − x0 x − x0 g(x) − g(x0 ) = f 0 (g(x0 )) · g(x0 ). = lim ∆f (g(x)) · lim x→x0 x→x0 x − x0 (f ◦ g)0 (x0 ) = lim Beispiel 5.12 2 Die Funktion h(x) = e−x lässt sich als h(x) = f (g(x)) mit f (x) = ex und g(x) = −x2 auffassen. Somit lautet die Ableitung: 2 h0 (x) = f 0 (g(x)) · g 0 (x) = e−x · (−2x) = −2xe−2x . Satz 5.13 (Differenzierbarkeit der Umkehrfunktion) Sei f : D → B ⊂ R eine auf einem abgeschlossenen Definitionsbereich stetige, invertierbare Funktion und f −1 : B → D die zugehörige Umkehrfunktion. Ist f in einem Punkt x0 ∈ D differenzierbar mit f 0 (x0 ) 6= 0, dann ist auch die Umkehrfunktion f −1 im Punkt y0 = f (x0 ) differenzierbar und für die Ableitung gilt (f −1 )0 (y0 ) = 80 1 f 0 (x 0) , x0 = f −1 (y0 ). 5.4 Extrema und Mittelwertsatz Beweis. Da f stetig ist, ist dies auch f −1 . Somit gilt folgt aus f (x) =: y → y0 := f (x0 ) auch x = f −1 (y) → f −1 (y0 ) = x0 . Unter Beachtung von y = f (x) ⇔ x = f −1 (y) gilt x − x0 f −1 (y) − f −1 (y0 ) = lim = lim lim x→x0 f (x) − f (x0 ) x→x0 y→y0 y − y0 1 x−x0 f (x)−f (x0 ) = 1 . f 0 (x0 ) Beispiel 5.14 Sei f (x) = ex mit Umkehrfunktion f −1 (y) = ln(y). Dann gilt für die Ableitung des natürlichen Logarithmus: 1 1 1 ln0 (y) = x 0 = x = , mit y = ex . (e ) e y Dies erlaubt es die folgende Darstellung der Eulerschen Zahl zu zeigen: n 1 e = lim 1 + . n→∞ n Man folgert nämlich so: Da für den Logarithmus ln0 (1) = 1 sowie ln(1) = 0 gilt, folgt ln(1 + h) ln(1 + h) − ln(1) = lim h→0 h→0 h h 1 für alle Folgen und somit auch für die Folge h := n . Deshalb ist 1 = ln0 (1) = lim 1 = lim n→∞ ln(1 + n1 ) 1 n = lim n ln(1 + n→∞ 1 ). n Damit schließt man wegen der Stetigkeit der Exponentialfunktion: n n o 1 1 = lim en ln(1+ n ) = e1 = e. lim 1 + n→∞ n→∞ n 5.4 Extrema und Mittelwertsatz Definition 5.15 (lokale / globale Extrema) Eine Funktion f : D → R hat in einem Punkt x0 ∈ D ein globales Extremum (Maximum bzw. Minimum), falls gilt: f (x0 ) ≥ f (x) für alle x ∈ D f (x0 ) ≤ f (x) für alle x ∈ D (Maximum), (Minimum). Gilt diese Eigenschaft nicht auf dem gesamten Definitionsbereich D, sondern nur auf einer Teilmenge {x ∈ D | |x − x0 | < δ} um den betrachteten Punkt x0 herum, d.h. es gibt ein δ > 0, so dass f (x0 ) ≥ f (x) für alle x mit |x − x0 | < δ f (x0 ) ≤ f (x) für alle x mit |x − x0 | < δ (Maximum), (Minimum), dann heißt die Stelle x0 lokales Extremum (lokales Maximum bzw. lokales Minimum). 81 5 Differentiation f (x) globales Maximum lokales Maximum lokales Minimum globales Minimum x D Satz 5.16 (Notwendige Bedingung für Extrema) Besitzt eine differentierbare Funktion f : (a, b) → R ein lokales Extremum in x0 ∈ (a, b), so gilt notwendig f 0 (x0 ) = 0. Beweis. Besitze f ein lokales Minimum. Dann gilt in der Nähe von x0 für monotone Folgen x → x0 von oben und unten f (x) − f (x0 ) ≥ 0, x − x0 f (x) − f (x0 ) ≤ 0, x − x0 falls x > x0 , und falls x < x0 . Somit gilt beim Grenzübergang x → x0 : 0 ≤ f 0 (x0 ) ≤ 0 Für das Maximum schließt man analog. ⇒ f 0 (x0 ) = 0. Satz 5.17 (Rolle) Sei f : [a, b] → R einen stetige Funktion mit f (a) = f (b) . Ist f in (a, b) differenzierbar, so dann existiert eine Stelle c ∈ (a, b) mit f 0 (c) = 0. Beweis. Ist f konstant, so gilt direkt f 0 (x) = 0 für alle x ∈ (a, b). Ist f nicht konstant, so muss es einen Punkt x0 ∈ (a, b) geben an dem der Funktionswert von f (a) = f (b) verschieden ist, d.h. mit f (x0 ) > f (a) = f (b) oder f (x0 ) < f (a) = f (b). Somit wird das globale Maximum oder Minimum nicht in a oder b angenommen, sondern in einem Punkt c ∈ (a, b). Für diesen gilt f 0 (c) = 0. 82 5.4 Extrema und Mittelwertsatz Der folgende Satz ist das Analogon für differenzierbare Funktionen zu dem Zwischenwertsatz für stetige Funktionen. Satz 5.18 (Mittelwertsatz) Sei f : [a, b] → R eine stetige Funktion, die in (a, b) differenzierbar ist. Dann gibt es ein c ∈ (a, b), so dass f 0 (c) = f (b) − f (a) . b−a Beweis. Man definiert g : [a, b] → R durch g(x) := f (x) − f (b) − f (a) (x − a). b−a Diese Funktion ist stetig in [a, b] und differenzierbar in (a, b) und es gilt g(a) = f (a) = g(b). Aus dem Satz von Rolle folgt, dass es dann ein c ∈ (a, b) gibt mit g 0 (c) = 0. Für dieses gilt g 0 (c) = f 0 (c) − f (b) − f (a) = 0. b−a f (x) f (a) + a c b f (b)−f (a) (x b−a − a) x Abbildung 5.3: Illustration zum Mittelwertsatz 83 5 Differentiation 5.5 Taylorreihe Eine im Punkt x0 differenzierbare Funktion lässt sich bis auf einen Fehler der Ordnung o(|x − x0 |) durch eine lineare Funktion annähern gemäß f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + o(|x − x0 |). An dieser Stelle lässt sich fragen, ob sich die Approximation besser machen lässt, indem man weitere Terme höherer Ordung (z.B. (x − x0 )2 ) mit hinzunimmt. Um die obige Summe logisch fortzusetzen benötigt man dafür aber eine weitere, zweite Ableitung von f. Definition 5.19 (Höhere Ableitungen) Sei für eine Funktion f : D → R die Ableitung f 0 : D → R stetig, dann bezeichnet man f als stetig differenzierbar. Ist die Ableitung f 0 : D → R zudem sogar differenzierbar, so bezeichnet man die Ableitung von f 0 (x) als die 2. Ableitung von f (x) und diese wird notiert als f 00 (x) oder f (2) (x). Rekursiv wird die n-te Ableitung (sofern sie existiert) definiert durch: f (0) (x) := f (x), df (x) := f (1) (x) := f 0 (x), dx d2 f (x) := f (2) (x) := f 00 (x), 2 dx .. . dn f (x) := f (n) (x) := (f (n−1) )0 (x), (n ≥ 3). n dx Beispiel 5.20 Betrachtet man nun zunächst ein allgemeines Polynom n X ak (x − x0 )k = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + . . . + an (x − x0 )n , P (x) = k=0 so findet man für die n-t Ableitung P (1) (x) = a1 + 2 · a2 · (x − x0 ) + 3 · a3 · (x − x0 )2 + . . . + n · an · (x − x0 )n−1 , P (2) (x) = 2 · 1 · a2 + 3 · 2 · a3 · (x − x0 ) + . . . + n · (n − 1) · an · (x − x0 )n−2 , .. . P (k) (x) = k · (k − 1) · . . . · 1 · ak + (k + 1) · k · . . . · 2 · ak+1 · (x − x0 ) .. . + . . . + n · (n − 1) · . . . · (n − k + 1) · an · (x − x0 )n−k , P (n) (x) = n · (n − 1) · . . . · 2 · 1 · an , 84 5.5 Taylorreihe und somit als Ableitung an der Stelle x0 die Darstellung P (k) (x0 ) = k · (k − 1) · . . . · 1 · ak = k! · ak ⇒ ak = P (k) (x0 ) . k! Setzt man im obigen Beispiel die Darstellung der Koeffizient ein, so zeigt sich, dass sich das Polynom auch wie folgt darstellen lässt: P (x) = n X P (k) (x0 ) k! k=0 (x − x0 )k . Dies motiviert die folgende Definition. Definition 5.21 (Taylor-Polynom) Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar. Dann nennt man Tn (x) := Tn [f, x0 ](x) := n X f (k) (x0 ) k! k=0 (x − x0 )k das n-te Taylor-Polynom von f zum Entwicklungspunkt x0 ∈ (a, b). Aus der obigen Diskussion hat sich gezeigt, dass das n-te Taylor-Polynom von einem Polynom f vom Grad n mit dem Polynom f identisch ist - oder anders ausgedrückt: Die Funktion und ihre Darstellung durch das Taylor-Polynom hatten keine Abweichung von einander. Für eine Allgemeine Funktion wird dies nicht der Fall sein, jedoch lässt sich hoffen, dass man die Größe des Fehlers zwischen einer Funktion f und ihrem TaylorPolynom geeignet abschätzen kann und dieser hinreichend klein gemacht werden kann. Dies liefert die folgende Aussage. Satz 5.22 (Restglied der Taylor-Approximation) Die Funktion f : (a, b) → R sei n + 1-mal stetig differenzierbar und x0 ∈ (a, b). Dann gibt es zu jedem x ∈ (a, b) ein ξ zwischen x und x0 , so dass gilt f (x) = n X f (k) (x0 ) k=0 k! (x − x0 )k + f (n+1) (ξ) (x − x0 )n+1 . (n + 1)! Der Unterschied zwischen f (x) und dem zugehörigen Taylor-Polynom Tn [f, x0 ](x), Rn+1 (x) := f (x) − Tn [f, x0 ](x) = f (n+1) (ξ) (x − x0 )n+1 , (n + 1)! wird als Lagranges Restglied bezeichnet. Beweis. Sei x ∈ (a, b) fest gewählt. Die Hilfsfunktion g : (a, b) → R gegeben durch g(y) := f (x) − n X f (k) (y) k=0 k! (x − y)k − α (x − y)n+1 (n + 1)! 85 5 Differentiation hat für jedes α den Funktionswert g(x) = 0. Zudem lässt sich α so wählen, dass g(x0 ) = 0 gilt. Als Zusammensetzung differenzierbarer Funktionen ist auch g(y) nach y differenzierbar. Jeder Summand mit k ≥ 0 hat dabei die Ableitung f (k+1) (y) f (k) (y) d f (k) (y) k (x − y) = (x − y)k + k · (x − y)k−1 · (−1) dy k! k! k! (k+1) (k) f (y) f (y) = (x − y)k − · (x − y)k−1 k! (k − 1)! und für k = 0 ohne den zweiten Term. Somit folgt g 0 (y) = − =− n X f (k+1) (y) k=0 n X k! (x − y)k + n X f (k) (y) (x − y)n (x − y)k−1 + α (k − 1)! n! k=1 n−1 (k+1) X f (k+1) (y) f (y) (x − y)n k k (x − y) + (x − y) + α k! k! n! k=0 k=0 (n+1) (x − y)n . n! n! Wegen g(x) = g(x0 ) = 0 gibt es nach dem Satz von Rolle ein ξ zwischen x und x0 mit der Eigenschaft =− f (y) (x − y)n + α f (n+1) (ξ) (x − ξ)n (x − ξ)n + α n! n! n n (x − ξ) (x − ξ) =α f (n+1) (ξ) n! n! α = f (n+1) (ξ). 0 = g 0 (ξ) = − ⇒ Somit folgt insgesamt ⇒ 0 = g(x0 ) = f (x) − n X f (k) (x0 ) k=0 k! (x − x0 )k − f (n+1) (ξ) (x − x0 )n+1 . (n + 1)! Bemerkung 5.23 Um zu wissen, die gut ein Taylor-Polynom eine Funktion approximiert, muss das Restglied abgeschätzt werden. Hierfür gilt im Falle x > x0 (für x < x0 analog): |Rn+1 (x)| ≤ 1 · sup |f (n+1) (ξ)| · |x − x0 |n+1 . (n + 1)! x0 <ξ<x Beispiel 5.24 Für die Exponentialfunktion f (x) = ex gilt f (n) = ex und somit f (n) (0) = 1, (n ≥ 0). Die Taylor-Reihe zum Entwicklungspunkt x0 = 0 liest sich als n X 1 k x . k! k=0 86 5.5 Taylorreihe ex 6 T3 = 1 + x + 12 x2 + 61 x3 5 T2 = 1 + x + 21 x2 4 T1 = 1 + x 3 2 T0 = 1 1 −3 −2 −1 1 2 3 x 4 −1 Abbildung 5.4: Taylorentwicklung der Exponentialfunktion für x0 = 0 Analog zur Approximierbarkeit durch lineare Funktionen durch die Ableitung einer Funktion, lässt sich auch die Approximierbarkeit durch Taylor-Polynome fassen. Satz 5.25 (Approximation durch Taylor-Polynome) Die Funktion f : (a, b) → R sei n-mal stetig differenzierbar und x0 ∈ (a, b). Dann gilt für alle x ∈ (a, b) f (x) = n X f (k) (x0 ) k=0 k! (x − x0 )k + o(|x − x0 |n ) für x → x0 . Beweis. Es gilt für die Restglieddarstellung des n − 1-ten Taylor-Polynoms mit einem ξ ∈ (a, b) (wobei ξ von x abhängt) f (x) − n−1 (k) X f (x0 ) k=0 k! (x − x0 )k = = f n (ξ) (x − x0 )n n! f n (x0 ) f n (ξ) − f n (x0 ) (x − x0 )n + (x − x0 )n n! n! und somit f (x) − Pn f (k) (x0 ) (x k! n − x0 ) k=0 (x wegen der Stetigkeit von f n (x). − x0 )k = f n (ξ) − f n (x0 ) →0 n! für x → x0 87 5 Differentiation Ist eine Funktion beliebig oft differenzierbar, so kann man das Taylor-Polynom zu einer Taylor-Reihe machen. Definition 5.26 (Taylor-Reihe) Sei f : (a, b) → R beliebig oft differenzierbar, d.h. für alle k ∈ N existiert f (k) (x). Dann ist die Taylor-Reihe zum Entwicklungspunkt x0 ∈ (a, b) definiert durch T∞ [f, x0 ](x) := ∞ X f k (x0 ) k=0 k! (x − x0 )k . Bemerkung 5.27 Eine Taylor-Reihe muss die Funktion f nicht darstellen. Es gibt folgende Fälle: (i) Die Reihe konvergiert nicht oder nicht für jedes x. Dann stimmt der Konvergenzradius nicht mit dem Definitionsbereich der Funktion überein. (ii) Konvergiert die Reihe in einem Punkt x, so kann dennoch f (x) 6= Tn [f, x0 ](x) sein. (iii) Die Taylor-Reihe stellt die Funktion f (x) genau dann dar, falls das Lagrange Restglied Rn+1 (x) → 0 (n → ∞) gegen null konvergiert. Dafür ist z.B. hinreichend, dass alle Ableitungen beschränkt sind, d.h. es gibt ein M > 0, so dass supx∈(a,b) |f n (x)| ≤ M < ∞ für alle n ∈ N gilt. Funktionen, die sich durch ihre Taylor-Reihe darstellen lassen, nennt man (reell) analystisch. Mit Hilfe der Taylor-Polynome lassen sich nun hinreichende Bedingungen für Extrema finden. Satz 5.28 (Hinreichende Bedingung für Extrema) Sei f : (a, b) → R eine n-mal (n ≥ 2) stetig differenzierbare Funktion, für die in einem Punkt x0 ∈ (a, b) für die Ableitungen gilt f 0 (x0 ) = f 00 (x0 ) = . . . = f (n−1) (x0 ) = 0, jedoch f (n) (x0 ) 6= 0. Dann gilt: (i) Ist n gerade, so hat f in x0 für f (n) (x0 ) > 0 ein lokales Minimum und für f (n) (x0 ) < 0 ein lokales Maximum. (ii) Ist n ungerade, so hat f in x0 kein Extremum, sondern nur einen sog. Wendepunkt. Beweis. Gemäß Taylor-Entwicklung gilt für ein ξ ∈ (a, b) zwischen x und x0 die Darstellung f (x) = n−1 (k) X f (x0 ) k=0 88 k! (x − x0 )k + f (n) (ξ) f (n) (ξ) (x − x0 )n = f (x0 ) + (x − x0 )n . n! n! 5.6 Newton-Verfahren Somit gilt lim x→x0 f (x) − f (x0 ) f (n) (ξ) f (n) (x0 ) = , = lim x→x0 (x − x0 )n n! n! da f (n) stetig ist und ξ zwischen x und x0 liegt. Damit ist Fn (x) := f (x) − f (x0 ) (x − x0 )n (n) eine stetig Funktion mit Fn (x0 ) = f n!(x0 ) . Im Falle f (n) (x0 ) > 0 ist deshalb für eine ganze -Umgebung Fn (x) > 0 und für n gerade gilt die Gleichung f (x) − f (x0 ) = Fn (x) (x − x0 )n > 0, | {z } | {z } >0 für |x − x0 | < , x 6= x0 . >0 Folglich hat f in x0 ein Minimum. Gilt jedoch n ungerade, so findet man ( > 0, x > x0 , f (x) − f (x0 ) = Fn (x)(x − x0 )n = < 0, x < x0 , und somit kann kein Extremum vorliegen. Für den Fall f (n) (x0 ) < 0 schließt man analog. 5.6 Newton-Verfahren Für die Suche nach Nullstellen f (x) = 0 einer Funktion f : D → R lässt sich das Newton-Verfahren verwenden. Das Verfahren wird motiviert durch die Überlegung, dass man lineare Gleichungen direkt lösen kann und man die Suche nach Nullstellen einer komplizierten Funktion durch sukzessive Lösung von linearen, direkt lösbaren Gleichungen ersetzt. Die so entstehende Folge (xn )n∈N konvergiert in vielen Fällen dann tatsächlich gegen einen Nullstelle. Die Iterationsvorschrift ergibt sich dabei aus der Überlegung, dass für eine differenzierbare Funktion in etwa gelten soll: ! 0 ≈ f (x) = f (xn ) + f 0 (xn )(x − xn ) + o(|x − xn |). Für das Folgenglied xn+1 wählt man dazu die Lösung der linearen Gleichung: 0 =: f (xn ) + f 0 (xn )(xn+1 − xn ) ⇒ xn+1 := xn − f (xn ) , f 0 (xn ) (n ∈ N). 89 5 Differentiation Damit die Folge wohldefiniert ist, muss sicherlich gelten, dass für kein Folgenglied die Ableitung null wird, zum Beispiel durch die Forderung f 0 (x) 6= 0, x ∈ D. Konvergiert die Folge xn → x∗ gegen einen Grenzwert, so gilt dann x∗ = x∗ − f (x∗ ) f 0 (x∗ ) ⇒ f (x∗ ) = 0 und x∗ ist tatsächlich einen Nullstelle. f (x) x0 x1 x2 x Abbildung 5.5: Illustration zum Newton-Verfahren. Geometrisch versteht man das Newton-Verfahren durch folgende Vorschrift: Für jede Iterierte xn zeichnet man die Tangenten an den Graphen und bestimmt den Schnittpunkt dieser Gerade mit der x-Achse. Diese Nullstelle ist die neue Iterierte xn+1 . Allerdings muss das Verfahren nicht zwingend konvergieren. Es lassen sich viele Beispiele finden, so dass die Newton-Folge divergiert. Satz 5.29 Für eine Funktion f : [a, b] → R seien folgende Bedingungen gegeben: (a) f sei zweimal stetig differenzierbar, (b) f habe eine Nullstelle x∗ ∈ (a, b), (c) die erste Ableitung von f sei von null verschieden, d.h. m := min |f 0 (x)| > 0, a≤x≤b (d) die zweite Ableitung von f sei beschränkt, d.h. M := max |f 00 (x)| < ∞, a≤x≤b 90 5.6 Newton-Verfahren f (x) x0 x1 x2 x3 x Abbildung 5.6: Divergentes Newton-Verfahren. (e) ein Radius ρ ≥ 0 sei so gwählt, dass gilt ρ< 2m . M Dann ist für jeden Startwert x0 mit |x0 − x∗ | ≤ ρ die Newton-Folge (xn )n∈N gegeben durch xn+1 := xn − f (xn ) , f 0 (xn ) (n ∈ N), wohldefiniert und es gilt: (i) Die Funktion hat außer x∗ keine weitere Nullstelle in [a, b]. (ii) Die Folge (xn )n∈N konvergiert gegen die Nullstelle x∗ . (iii) Alle Folgenglieder xn liegt höchstens |xn − x∗ | ≤ ρ von der Nullstelle x∗ entfernt. (iv) Die Folge ist quadratisch konvergent mit der Fehlerabschätzung |xn − x∗ | ≤ M |xn−1 − x∗ |2 , 2m n ≥ 1. (v) Es gilt die a-posteriori-Fehlerabschätzung |xn − x∗ | ≤ 1 M |f (xn )| ≤ |xn − xn−1 |2 , m 2m n ≥ 1. Beweis. Für zwei Punkte x, x∗ ∈ [a, b], x 6= x∗ gibt es wegen dem Zwischenwertsatz ein c ∈ [a, b] mit f (x) − f (x∗ ) = |f 0 (c)| ≥ m ⇒ |x − x∗ | ≤ 1 |f (x) − f (x∗ )| x − x∗ m 91 5 Differentiation und somit folgt (v). Zudem sieht man daraus (i), denn für eine weitere Nullstelle f (x) = 0 folgt automatisch x = x∗ . Den zweiten Teil von (i) folgt aus der Taylor-Darstellung 1 f (xn ) = f (xn−1 ) + f 0 (xn−1 )(xn − xn−1 ) + f 00 (ξ)(xn − xn−1 )2 {z } |2 | {z } =0 (Iterationsvorschrift) ≤M |xn −xn−1 |2 2 Unter Beachtung der Taylor-Formel 1 f (x∗ ) = f (x) + f 0 (x)(x∗ − x) + f 00 (ξ)(x∗ − x)2 | {z } |2 {z } =0 sieht man zudem ≤M |x∗ −x|2 2 |f (x) + f 0 (x)(x∗ − x)| ≤ M ∗ |x − x|2 , 2 und für alle x mit |x − x∗ | ≤ ρ findet man für die Newton-Vorschrift g(x) := x − die Abschätzung f (x) f 0 (x) 1 f (x) − x∗ | = 0 |f (x) + f 0 (x)(x∗ − x)| 0 f (x) |f (x)| M M 2 Mρ ≤ |x − x∗ |2 ≤ ρ = ·ρ ≤ ρ. 2m 2m 2m |{z} |g(x) − x∗ | = |x − <1 Mit dem Startwert x0 liegen also auch alle Iterierten xn höchstens ρ von der Nullstelle entfernt, d.h. (iii) gilt. Die Abschätzung liefert zudem mit x = xn−1 die Fehlerabschätzung (iv) |xn − x∗ | ≤ M |xn−1 − x∗ |2 . 2m Schließlich sieht man, dass die Newton-Folge konvergiert, indem man diese AbschätM zung rekursive einsetzt. Dann gilt nämlich mit der Abkürzung qn := 2m |xn − x∗ | die Abschätzung n 2 4 qn ≤ qn−1 ≤ qn−2 ≤ . . . ≤ q02 und somit durch die Wahl 2m |xn − x | ≤ M ∗ Mρ 2m < 1 auch (ii) gemäß 2n 2n M 2m M ρ ∗ |x0 − x | ≤ → 0, 2m M 2m n → ∞. 92 5.6 Newton-Verfahren Bemerkungen 5.30 (i) Das Verfahren konvergiert nicht immer, sondern nur, wenn x0 hinreichend nahe an der Nullstelle x∗ gewählt wird. (ii) Aufgrund der quadratischen Konvergenz verdoppelt sich die Anzahl der korrekten Stellen im Ergebnis mit jedem Iterationsschritt. (iii) Die Anzahl der benötigten Schritt zum Erreichen einer vorgebenen Genauigkeit > 0 lässt sich angeben: ! 2n ln M Mρ 1 M 2m M ρ n ∗ 2m =n = 2 ln ⇔ ln ⇔ ln = |xn − x | ≤ ρ M 2m 2m 2m ln(2) ln M 2m Beispiel 5.31 √ Für die Funktion f (x) := xk − a ist die Nullstelle x∗ = k a die k-te Wurzel der Zahl a ∈ R+ . Als Newton-Iteration findet man mit f 0 (x) = kxk−1 die Vorschrift xkn − a a a f (xn ) kxn xn 1 = xn − − + k−1 = (k − 1)xn + k−1 . xn+1 = xn − 0 = f (xn ) kxk−1 k k xn k xn n 93 6 Integration Die Integration von Funktionen ist historisch entstanden, um Flächeninhalte von krummlinig berandeten Gebieten bestimmen zu können. Dabei misst man mit dem Integral die Fläche zwischen der x-Achse und dem Funktionsgraphen. Durch die bahnbrechenden Arbeiten von Leibniz und Newton wurde zudem der Zusammenhang zwischen Integration und Differentiation hergestellt und man kann die Integration in gewissem Sinne als Umkehrung der Diffentiation auffassen. f (x) F = Zb f (x) dx a a b x Abbildung 6.1: Das Integral F als Flächeninhalt zwischen der x-Achse und dem Graph einer Funktion f : [a, b] → R 6.1 Zerlegungen und Flächeninhalte Der Flächeninhalt eines Rechtecks berechnet sich sehr leicht als das Produkt von Höhe mal Breite. Daher liegt es Nahe den Begriff des Integrals zunächst für Treppenfunktionen zu definieren. Bei diesen kann man nämlich die Fläche unterhalb des Graphens als Summe der Fläche von Rechtecken einfach aufsummieren. Dazu sei zunächst die Zerlegung eines Intervalls und die Menge der Treppenfunktionen erneut präzisiert. Definition 6.1 (Unterteilung) Sind zu einem Intervall I := [a, b] die n + 1 Punkte xi , (0 ≤ i ≤ n), so angeordnet, dass 95 6 Integration gilt a =: x0 < x1 < x2 < . . . < xn := b so nennt man Z := {x0 , x1 , . . . , xn } eine endliche Unterteilung (oder Zerlegung) des Intervalls. Jedes der offenen Intervalle Ik := (xk−1 , xk ), (1 ≤ k ≤ n) heißt Teilintervall und hat eine Größe hk := |xk − xk−1 |. Die maximale Größe aller Teilintervalle h := h(Z) := max hk := max |xk − xk−1 | 1≤k≤n 1≤k≤n heißt Feinheit der Unterteilung. Die Menge aller Zerteilungen des Intervalls [a, b] wird mit Z(a, b) bezeichnet. f (x) f (x) := ck , für x ∈ (xk−1 , xk ) Zb f (x) dx := a x0 x1 x2 . . . xn−1 xn n X k=1 ck · (xk − xk−1 ) x Abbildung 6.2: Integral für eine Treppenfunktion auf a = x0 < x1 < x2 < . . . < xn = b Auf einer Zerteilung eines Intervalls lassen sich Treppenfunktionen definieren. Definition 6.2 Für eine Zerlegung a = x0 < x1 < x2 < . . . < xn = b ist eine Treppenfunktion stückweise definiert durch f (x) := ck für x ∈ ( xk−1 , xk ) , 1 ≤ k ≤ n, d.h. es ist diejenige Funktion, die auf dem Teilintervall Ik den konstanten Wert ck ∈ R annimmt. Für Treppenfunktionen erhält man nun direkt den Begriff des Integrals. 96 6.2 Riemann-Integral Definition 6.3 (Integral für Treppenfunktionen) Sei f : [a, b] → R eine Treppenfunktion bzgl. der Unterteilung a = x0 < x1 < x2 < . . . < xn = b mit Werten f (x) = ck , x ∈ (xk−1 , xk ), 1 ≤ k ≤ n. Dann nennt man Z b f (x) dx := a n X k=1 ck · (xk − xk−1 ) das Integral der Treppenfunktion über [a, b]. 6.2 Riemann-Integral Ausgehend vom Integralbegriff für Treppenfunktionen lässt sich nun das Integral auf einen breite Klasse von Funktionen erweitern. Dabei möchte man sicherstellen, dass das Integral für Treppenfunktionen weiterhin mit obigem Integral übereinstimmt. Definition 6.4 (Unter-/Obersumme) Sei f : [a, b] → R eine beschränkte Funktion und Z ∈ Z(a, b) eine Zerlegung von [a, b]. Dann ist die Untersumme S(Z, f ) und die Obersumme S(Z, f ) definiert durch S(Z, f ) := n X k=1 inf f (x) · (xk − xk−1 ) x∈Ik S(Z, f ) := n X k=1 sup f (x) · (xk − xk−1 ) x∈Ik Anschaulich wird also für die Unter- und Obersumme das Integral einer Treppenfunktion gebildet. Dabei wird für die Obersumme die Treppenfunktion so gewählt, dass die Treppenfunktion ganz überhalb des Graphen der Funktion f liegt. Bei der Untersumme hingegen verläuft die Treppenfunktion vollständig unterhalb des Graphen der Funktion f. Mit Hilfe von Unter- und Obersumme lässt sich nun ein Unter- und Oberintegral definieren. Dazu betrachtet man alle möglichen Zerlegungen. Definition 6.5 (Unter-/Oberintegral) Für eine beschränkte Funktion f : [a, b] → R sind Unterintegral und Oberintegral definiert durch Z b Z b f (x) dx := sup S(Z, f ), f (x) dx := inf S(Z, f ), a Z∈Z(a,b) a Z∈Z(a,b) Somit wählt man für die Untersumme die größtmöglich Approximation (das Supremum) des Integrals mit Treppenfunktion, die unterhalb der Funktion liegen, und analog die kleinstmögliche Approximation (das Infimum) des Integrals mit Treppenfunktionen, die oberhalb der Funktion liegen. Für Treppenfunktionen ist diese Approximation identisch mit dem Integral für Treppenfunktionen und Ober- und Untersumme sind identisch. Für beliebige Funktionen definiert man das sogenannte Riemann-Integral. 97 6 Integration f (x) a f (x) b a f (x) a f (x) b a f (x) a b b f (x) b a b Abbildung 6.3: Approximationen des Integrals einer Funktion f : [a, b] → R durch die Untersumme (links) und Obersumme (rechts) 98 6.2 Riemann-Integral Anschaulich gesprochen wird die Approximation der Integrationsfläche immer besser, je feiner die Zerlegung gewählt wird. Den Zusammenhang zwischen den Ober-/Untersummen und Ober-/Unterintegralen für beliebig feine Zerlegungen stellt die folgende Aussage dar. Satz 6.6 Für eine beschränkte Funktion f : [a, b] → R existieren Ober-/Untersumme für alle Zerlegungen und für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit Feinheit hn := h(Zn ) → 0, (n → ∞) gilt: lim S(Zn , f ) = n→∞ Z a b f (x) dx ≤ Z b f (x) dx = lim S(Zn , f ). n→∞ a Beweis. Da die Funktion f beschränkt ist, existieren untere Schranken inf x∈[a,b] f (x) und obere Schranken supx∈[a,b] f (x) und die die Abschätzungen inf f (x) · (b − a) ≤ S(Zn , f ) ≤ S(Zn , f ) ≤ sup f (x) · (b − a) x∈[a,b] x∈[a,b] folgt direkt aus der Definition von Infimum und Supremum. Damit sind auch Ober- und Untersumme beschränkt. Für die zweite Behauptung sei nun (Zn )n∈N , Zn ∈ Z(a, b) eine Folge von Zerlegungen mit Feinheit hn := h(Zn ) → 0, (n → ∞). Gemäß der Definition über Supremum und Infimum gibt es zu jedem > 0 Zerlegungen Z , Z mit Z b a f (x) dx ≤ S(Z , f ) + , 2 S(Z , f ) ≤ Z b a f (x) dx + . 2 Nun hat jedoch jede der beiden Zerlegungen Z , Z nur endlich viele Teilungspunkte. Daher kann man die Feinheit hn so fein wählen (d.h. n so groß), dass die gesamte Länge der Intervalle von Zn , die einen Teillungspunkt von Z oder Z enthalten insgesamt kleiner als M 2 mit M := supx∈[a,b] |f (x)| wird und daher gilt: S(Z , f ) ≤ S(Zn , f ) + 2 S(Z n , f ) ≤ S(Z , f ) + , 2 und somit zu jedem > 0 ein n ∈ N existiert, so dass Z a b f (x) dx ≤ S(Zn , f ) + , n S(Z , f ) ≤ Z b f (x) dx + . a Beispiel 6.7 Sei f : [0, b] → R, f (x) := x gegeben. Auf jedem Teilintervall (xk−1 , xk ) einer Zerlegung ist das Supremum von f (x) = x durch xk gegeben und das Infimum durch xk−1 . Bildet 99 6 Integration man für n ∈ N eine äquidistante Zerlegung Zn gegeben durch xk := b · nk , 1 ≤ k ≤ n, mit Feinheit hn = nb , so findet man S(Zn , f ) = n X k=1 x∈Ik n X 2 xk · n X xk−1 · k=1 b n b2 1 b n(n + 1) k= 2· = · (1 + ), n 2 2 n k=1 b = 2 n S(Zn , f ) = sup f (x) · (xk − xk−1 ) = n X n X k=1 2 inf f (x) · (xk − xk−1 ) = x∈Ik k=1 b n n b X b2 1 b2 (n − 1)n) = 2 = · (1 − ), k−1= 2 · n k=1 n 2 2 n 2 und somit b2 lim (1 + lim S(Zn , f ) = n→∞ 2 n→∞ b2 lim S(Zn , f ) = lim (1 − n→∞ 2 n→∞ 1 )= n 1 )= n b2 , 2 b2 . 2 Folglich findet man für Unter- und Oberintegral denselben Wert b2 = 2 Z a Z b f (x) dx ≤ b a b2 f (x) dx = , 2 der auch mit dem Flächeninhalt des so beschriebenen Dreicks übereinstimmt. Dadurch motiviert definiert man das sogenannte Riemann-Integral. Definition 6.8 (Riemann-Integral) Sind für eine beschränkte Funktion f : [a, b] → R das Unterintegral und Oberintegral gleich, so bezeichnet man die Funktion f als Riemann-integrierbar und den gemeinsamen Wert als das Riemann-Integral von f über [a, b] Z a b f := Z a b f (x) dx := Z a b f (x) dx = Z b f (x) dx a Es stellt sich nun die Frage, welche Funktionen so integriert werden können. Zunächst sind dies natürlich die Treppenfunktionen und für diese stimmt das Riemann-Integral mit dem bereits definierten Integral für Treppenfunktionen überein. Aber viel mehr Funktionen lassen sich so integrieren. Hilfreich bei der Analyse ist dabei das Integrationskriterium in Form einer -Definition. 100 6.2 Riemann-Integral Definition 6.9 (Riemannsches Integrationskriterium) Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es zu jedem > 0 eine Zerlegung Z gibt, so dass die Unter- und Obersumme sich höchstens um unterscheiden, d.h. |S(Z, f ) − S(Z, f )| < . Mittels dieses Kriteriums lässt sich nun die Integrierbarkeit von stetigen Funktionen untersuchen. Dazu benötigt man zunächst die folgende Verschärfung der Stetigkeit. Satz 6.10 (Gleichmäßige Stetigkeit) Sei [a, b] ⊂ R ein abgeschlossenes, beschränktes Intervall. Dann ist jede stetige Funktion f : [a, b] → R sogar gleichmäßig stetig, d.h. zu jedem > 0 gibt es ein δ > 0, so dass für alle x, x0 ∈ [a, b] gilt: |x − x0 | < δ ⇒ |f (x) − f (x0 )| < . Beweis. Widerspruchsbeweis. Angenommen, f ist nicht gleichmäßig stetig. Dann gibt es ein > 0 so, dass für alle n ∈ N Punkte xn , x0n ∈ [a, b] derart existieren, dass gilt 1 , aber |f (xn ) − f (x0n )| ≥ . n Nach dem Satz von Bolzano-Weierstraß besitzt die beschränkte Folge (xn )n∈N (denn das Intervall ist beschränkt) eine konvergente Teilfolge (xnk )k∈N mit einem Grenzwert x ∈ [a, b]. Dies ist auch der Grenzwert der Folge (x0nk )k∈N , denn es gilt |xn − x0n | < n1 . Somit folgt wegen der Stetigkeit von f |xn − x0n | < |f (xnk ) − f (x0nk )| → |f (x) − f (x)| = 0, im Widerspruch zu |f (xn ) − f (x0n )| ≥ . (k → ∞), Der Unterschied zwischen Stetigkeit und gleichmäßiger Stetigkeit besteht darin, dass man für stetige Funktionen die δ-Umgebung bei jedem Punkt unterschiedlich wählen darf. Bei gleichmäßig stetigen Funktionen hingegen muss man zu jedem die δUmgebung für alle Punkte im Definitionsbereich simultan wählen können. Satz 6.11 (Stetige Funktionen sind Riemann-integrierbar) Jede stetig Funktion f : [a, b] → R ist Riemann-integrierbar. Beweis. Auf dem abgeschlossenen, beschränkten Intervall ist die Funktion gleichmäßig stetig, d.h. es gibt zu jedem > 0 ein δ > 0, so das gilt |x − x0 | < δ ⇒ |f (x) − f (x0 )| < . Daher kann man nun jede Zerlegung Z ∈ Z(a, b) wählen, die eine Feinheit h < δ besitzt. Denn dann gilt |S(Z, f ) − S(Z, f )| ≤ n X k=1 | sup f (x) − inf f (x)|(xk − xk−1 ) ≤ ≤ x∈Ik x∈Ik n X k=1 (xk − xk−1 ) = (b − a). 101 6 Integration Satz 6.12 (Monotone Funktionen sind Riemann-integrierbar) Jede beschränkte, monotone Funktion f : [a, b] → R ist Riemann-integrierbar. Beweis. Sei f monoton steigend (monoton fallend analog). Dann gilt f (a) ≤ f (x) ≤ f (b) für alle x ∈ [a, b]. Wählt man eine Zerlegung mit Feinheit h, so folgt n X S(Z, f ) − S(Z, f ) = (sup f (x) − inf f (x))(xk − xk−1 ) = k=1 n X x∈Ik x∈Ik (f (xk ) − f (xk−1 ))(xk − xk−1 ) k=1 n X ≤h k=1 (f (xk ) − f (xk−1 )) = h (f (b) − f (a)) . Somit lässt sich zu jedem > 0 eine Zerlegung mit h := f (b)−f (a) wählen. Für die Ermittelung des Wertes muss man sich nicht einmal auf Ober- und Untersummen festlegen, sondern kann den Wert der Funktion irgendwo innerhalb der Teilintervalle auswerten. Dies ist definiert als Riemannsche Summe. Definition 6.13 (Riemannsche Summe) Sei f : [a, b] → R und Z ∈ Z(a, b). Wählt man in jedem Intervall Ik der Zerlegung einen Punkt ξk ∈ (xk−1 , xk ) = Ik , so bezeichnet man die Summe S(Z, f ) := n X k=1 als Riemannsche Summe von f . f (ξk ) · (xk − xk−1 ) Satz 6.14 (Riemann-Integral über Riemann-Summe) Eine beschränkte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es für jede Folge von Zerlegungen (Zn )n∈N , Zn ∈ Z(a, b) mit hn := h(Zn ) → 0, (n → ∞) alle zugehörigen Riemannschen Summen mit demselben Grenzwert konvergieren: Z b f (x) dx (n → ∞). S(Zn , f ) → a Satz 6.15 (Eigenschaften des Riemann-Integrals) Seien f, g : [a, b] → R Riemann-integrierbare Funktionen und α ∈ R. (i) (Linearität) Die Funktionen f + g und αf sind integrierbar mit Z b Z b Z b (f + g)(x) dx = f (x) dx + g(x) dx, a a a Z b Z b (αf )(x) dx = α f (x) dx. a 102 a 6.2 Riemann-Integral f (x) f (x) a a b b Abbildung 6.4: Approximationen des Integrals einer Funktion f : [a, b] → R durch die Riemannsche Summe (ii) (Monotonie) Gilt f (x) ≤ g(x) für alle x ∈ [a, b], so folgt Z b Z b f (x) dx ≤ g(x) dx. a a (iii) (Definitheit) Gilt f (x) ≥ 0 für alle x ∈ [a, b], so gilt Z b f (x) dx = 0 ⇒ f ≡ 0. a Satz 6.16 Sei a < c < b. Eine Funktion f : [a, b] → R ist genau dann integrierbar, wenn f : [a, c] → R und f : [c, b] → R integrierbar sind und es gilt in diesem Fall Z b Z c Z b f (x) dx. f (x) dx + f (x) dx = a Definition 6.17 Man definiert Z a c a f (x) dx := 0, a Z a b f (x) dx := − Z a f (x) dx (falls b < a). b Satz 6.18 (Mittelwertsatz der Integralrechnung) Seien f, g : [a, b] → R stetige Funktionen und gelte g ≥ 0. Dann gibt es ein ξ ∈ [a, b], so dass Z b Z b f (x) g(x) dx = f (ξ) g(x) dx, a a 103 6 Integration und im Speziellen Z b a f (x) dx = f (ξ) · (b − a) für ein ξ ∈ [a, b]. Beweis. Schreibt man m := inf x∈[a,b] f (x) und M := supx∈[a,b] f (x), so gilt direkt mg ≤ f g ≤ M g und somit wegen der Monotonie des Integrals m Z a b g(x) dx ≤ Z a b f (x) g(x) dx ≤ M Daher gibt es auch einen Wert µ ∈ [m, M ] mit Z b f (x) g(x) dx = µ Z Z b g(x) dx. a b g(x) dx, a a und nach dem Zwischenwertsatz auch ein ξ ∈ [a, b] mit f (ξ) = µ. 6.3 Hauptsatz der Differential- und Integralrechnung Definition 6.19 (Stammfunktion) Eine Funktion F : [a, b] → R heißt Stammfunktion (oder unbestimmtes Integral ) zu einer Funktion f : [a, b] → R, falls F differenzierbar ist und gilt für alle x ∈ [a, b]. F 0 (x) = f (x), Der folgende Satz zeigt, dass am die Integration als Umkehrung der Differentiation verstehen kann. Satz 6.20 (Hauptsatz der Differential- und Integralrechnung) Sei f : [a, b] → R eine stetige Funktion. Dann gilt: (i) Das bestimmte Riemann-Integral (aufgefasst als eine Funktion der oberen Grenze) Z x F (x) := f (t) dt, x ∈ [a, b] a ist eine Stammfunktion von f und jede weitere Stammfunktion unterscheidet sich von F nur durch eine Konstante. (ii) Ist F : [a, b] → R eine Stammfunktion von f , so gilt Z a 104 b b f (x) dx = F (x) := F (b) − F (a). a 6.4 Integrationsregeln Beweis. (i) Man betrachtet den Differenzenquotienten von F (x): Z x+h Z x Z F (x + h) − F (x) 1 x+h 1 f (t) dt − f (t) dt = = f (t) dt. h h h x a a Nach dem Mittelwertsatz der Integralrechnung gibt es folglich ein ξh ∈ [x, x + h] mit 1 F (x + h) − F (x) = f (ξh )(x + h − x) = f (ξh ). h h Somit folgt für h → 0 auch ξh → x und mit der Stetigkeit von f : F 0 (x) = lim h→0 F (x + h) − F (x) = lim f (ξh ) = f (x). h→0 h Ist G ebenfalls Stammfunktion, so gilt 0 = F 0 − G0 = (F − G)0 und F − G ist konstant. (ii) Sei nun F irgendeine Stammfunktion. Nach Teil (i) ist aber auch Z x G(x) := f (t) dt, G(a) = 0, a Stammfunktion und es gilt F (x) − G(x) = c für eine Konstante c ∈ R. Somit folgt Z b F (b) − F (a) = G(b) + c − G(a) − c = G(b) = f (t) dt. a Beispiele 6.21 (i) Sei k ∈ N, dann gilt Z b xk+1 . x dx = k + 1 a b k a (ii) Für a, b > 0 gilt Z b a (iii) Es gilt Z a 6.4 Integrationsregeln b 1 dx = ln(x) . x a b b e dx = e . x x a Es gibt einige nützliche Hilfsmittel, um Integral auszuwerten. 105 6 Integration 6.4.1 Partielle Integration Satz 6.22 (Partielle Integration) Seien f, g : [a, b] → R zwei stetig differenzierbare Funktionen. Dann gilt: b Z b Z b 0 0 f (x) · g (x) dx = − f (x) · g(x) dx + f (x) · g(x) . a a a Beweis. Nach der Produktregel gilt (f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x) und somit Z a b 0 0 {f (x)g(x) + f (x)g (x)} dx = Z b a b (f g) (x) dx = f (x)g(x) . 0 a Beispiel 6.23 Sei a, b > 0 und die Auswertung des Integrals Z b ln(x) dx a gesucht. Setzt man f (x) := ln(x) und g(x) := x (und somit f 0 (x) = x1 und g 0 (x) = 1), so folgt b b Z b Z b Z b 1 ln(x) · 1 dx = − · x dx + ln(x) · x = − 1 dx + ln(x) · x a a x a a a b b b = −x + ln(x) · x = (ln(x) · x − x) . = ln(b) · b − b − ln(a) · a + a. a a a 6.4.2 Substitutionsregeln Satz 6.24 (Substitutionsregel) Sei f : I → R eine stetige Funktion und ϕ : [a, b] → I stetig differenzierbar. Dann gilt: Z b Z ϕ(b) 0 f (ϕ(t)) · ϕ (t) dt = f (x)dx. a ϕ(a) Beweis. Sei F : I → R eine Stammfunktion von f . Nach der Kettenregel gilt für F ◦ ϕ : [a, b] → R (F ◦ ϕ)0 (t) = F 0 (ϕ(t)) · ϕ0 (t) = f (ϕ(t)) · ϕ0 (t), 106 6.5 Quadraturformeln und somit Z a b 0 f (ϕ(t)) · ϕ (t) dt = Z b Z (F ◦ ϕ) (t) dt = (F ◦ ϕ)(t) = F (ϕ(b)) − F (ϕ(a)) = b 0 a ϕ(b) f (x)dx. ϕ(a) a Beispiele 6.25 (i) Für ϕ(t) := t + c mit einer Konstanten c ∈ R gilt wegen ϕ0 (t) = 1 Z Z b f (t + c) dt = a b a 0 f (ϕ(t)) · ϕ (t) dt = Z ϕ(b) f (x) dx = ϕ(a) Z b+c f (x) dx a+c (ii) Für ϕ(t) := c · t mit einer Konstanten c 6= 0 gilt wegen ϕ0 (t) = c Z b a 1 f (ct) dt = c Z b a 1 f (ϕ(t)) · ϕ (t) dt = c 0 Z ϕ(b) ϕ(a) 1 f (x) dx = c Z cb f (x) dx ca (iii) Sei ϕ : [a, b] → R stetig differenzierbar mit ϕ(x) > 0 für alle x ∈ [a, b]. Dann gilt mit f (x) = x1 Z a b ϕ0 (t) dt = ϕ(t) Z a b 0 f (ϕ(t)) · ϕ (t) dt = 6.5 Quadraturformeln Z ϕ(b) ϕ(a) ϕ(b) b 1 dx = ln(x) = ln(ϕ(t)) x ϕ(a) a Durch Quadraturformeln möchte man Integrale approximativ ausrechnen. Dazu möchte man nur geeignet gewichtete Funktionsauswertungen verwenden und auch die Größe des Approximationsfehlers kennen. Man sucht also eine Formel, so dass sich das Integral schreiben lässt als Z a b f (x) dx = n X wk f (xk ) + R, k=1 wobei wk ∈ R Koeffizienten und die xk ∈ [a, b] Auswertungspunkte sind. Den Restterm R bezeichnet man als Approximationsfehler. Solche Formeln lassen sich dann verwenden, um numerisch den Wert des Integrals hinreichend genau mit dem Computer anzunähern. Formeln dieser Art erhält man, indem man das Intervall [a, b] in Teilabschnitte zerlegt und auf jedem dieser Abschnitte eine einfach Auswertungsregel anwendet. Daher wird zunächst eine Auswertungsregel für ein einzelnes Intervall [0, 1] betrachtet. Diese Regel kann dann später über die Substitutionsregel auf beliebige Teilabschnitte übertragen werden. 107 6 Integration Rechtecksregel Satz 6.26 (Boxregel) Sei f : [0, 1] → R einmal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass Z 1 1 f (x) dx = f (1) − f 0 (ξ). 2 0 Analog gibt es ein ξ ∈ [0, 1] mit Z 1 0 1 f (x) dx = f (0) + f 0 (ξ). 2 Beweis. Wählt man g(x) := x, so gilt für die Ableitungen g 0 (x) = 1. Integriert man nun partiell, so findet man 1 Z 1 Z 1 Z 1 Z 1 0 0 g(x)f (x) dx = f (1) − g(x)f 0 (x) dx. f (x) dx = g (x)f (x) dx = g(x)f (x) − 0 0 0 0 Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt 1 Z 1 Z 1 1 2 0 0 0 g(x) dx = f (ξ) x = g(x)f (x) dx = f (ξ) 2 0 0 0 0 der Integralrechnung 1 0 f (ξ). 2 Für den zweiten Teil wähle man g(x) = 1 − x. Mittelpunktsregel Satz 6.27 (Mittelpunktsregel) Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass Z 1 1 1 f (x) dx = f ( ) + f 00 (ξ). 2 24 0 Beweis. Gemäß Taylor-Formel lässt sich mit einem ξ ∈ [0, 1] schreiben 1 1 1 1 1 f (x) = f ( ) + f 0 ( )(x − ) + f 00 (ξ)(x − )2 . 2 2 2 2 2 Somit folgt: Z 1 Z f (x) dx = 0 Z 1 Z 1 1 1 1 00 1 0 1 f ( ) dx + f ( )(x − ) dx + f (ξ)(x − )2 dx 2 2 2 2 0 0 0 2 Z 1 Z 1 Z 1 1 1 1 1 1 = f( ) 1 dx +f 0 ( ) (x − ) dx +f 00 (ξ) (x − )2 dx . 2 0 2 0 2 2 2 | {z } | {z } | 0 {z } 1 =1 108 =0 1 = 24 6.5 Quadraturformeln Trapezregel Satz 6.28 (Trapezregel) Sei f : [0, 1] → R zweimal stetig differenzierbar. Dann gibt es ein ξ ∈ [0, 1], so dass Z 1 1 1 f (x) dx = (f (0) + f (1)) − f 00 (ξ). 2 12 0 Beweis. Wählt man g(x) := 21 x(1 − x), so gilt für die Ableitungen g 0 (x) = 12 − x und g 00 (x) = −1 sowie für die Auswertungen g(0) = g(1) = 0 und g 0 (1) = − 12 , g 0 (0) = 12 . Integriert man nun zweimal partiell, so findet man Z 1 Z 1 f (x) dx = − g 00 (x)f (x) dx 0 0 1 Z 1 0 g 0 (x)f 0 (x) dx = −g (x)f (x) + 0 0 Z 1 1 = (f (1) + f (0)) + g 0 (x)f 0 (x) dx 2 0 1 Z 1 1 0 g(x)f 00 (x) dx = (f (1) + f (0)) + g(x)f (x) − 2 0 0 Z 1 1 = (f (1) + f (0)) − g(x)f 00 (x) dx. 2 0 Da g(x) ≥ 0 für alle x ∈ [0, 1], kann man den Mittelwertsatz der Integralrechnung anwenden und findet somit für ein ξ ∈ [0, 1], dass gilt Z 1 Z 1 Z 1 1 00 00 00 g(x)f (x) dx = f (ξ) g(x) dx = f (ξ) (x − x2 ) dx 2 0 0 0 1 1 1 1 1 = f 00 (ξ) ( x2 − x3 ) = f 00 (ξ). 2 2 3 12 0 Summierte Quadraturformeln Die obigen Auswertungsregeln verwenden immer ein festes Intervall. Die Idee von summierten Quadraturformeln ist es nun, dass man das betrachtete Intervall [a, b] in viele kleine Intervalle zerlegt und auf jedem dieser Intervalle die elementaren Quadraturformeln anwendet. Satz 6.29 (Summierte Trapezregel) Sei f : [a, b] → R zweimal stetig differenzierbar und die zweiten Ableitungen beschränkt mit K := supa≤x≤b |f 00 (x)|. 109 6 Integration Für die Unterteilung in n äquidistante Abschnitte mit Feinheit h := b−a findet man die n summierte Trapezregel ! Z b n−1 X 1 1 f (a) + f (x) dx = f (a + kh) + f (b) h + R 2 2 a k=1 mit einem Restterm der Größe |R| ≤ K (b − a)h2 . 12 Beweis. Für jedem der Teilabschnitte [a + kh, a + (k + 1)h] lässt sich die Variablentransformation ϕ(x) = a + (k + x)h mit ϕ0 (x) = h anwenden a+(k+1)h Z f (x) dx = Z ϕ(1) f (x) dx = ϕ(0) a+kh Z 0 1 0 f (ϕ(x))ϕ (x) dx = h Z 1 f (ϕ(x)) dx 0 h h (f (ϕ(0)) + f (ϕ(1))) − (f ◦ ϕ)00 (c) 2 12 h h3 = (f (a + kh) + f (a + (k + 1)h)) − f 00 (ξ). 2 12 mit einem c ∈ [0, 1] und einem ϕ(c) =: ξ ∈ [a + kh, a + (k + 1)h]. Dabei wendet man die Kettenregel der Ableitung zweimal an, um zu folgern = (f ◦ ϕ)00 (c) = [f (ϕ(c))]00 = [f 0 (ϕ(c))]0 · ϕ0 (c) = f 00 (ϕ(c)) · ϕ0 (c) · ϕ0 (c) = h2 f 00 (ϕ(c)) = h2 f 00 (ξ). Summation über alle Teilintervalle und zusammenfassen gleicher Auswertungspunkte liefert nun Z b a f (x) dx = n−1 X k=0 a+(k+1)h Z f (x) dx = n−1 X h k=0 a+kh = 2 (f (a + kh) + f (a + (k + 1)h)) − ! n−1 3 X h k=0 12 f 00 (ξ) n−1 X 1 1 f (a + kh) + f (b) h + R. f (a) + 2 2 k=1 Die Größe des Restterms ergibt sich aus der Abschätzung n−1 n−1 X h3 h2 X h2 |R| = f 00 (ξ) ≤ sup |f 00 (x)| h = K(b − a), 12 a≤x≤b 12 12 k=0 k=0 P wobei verwendet wird, dass n−1 k=0 h = n · h = (b − a) der Länge des Integrationsintervalls entspricht. Bemerkung 6.30 Die Fehlerabschätzung für den Restterm zeigt, dass die Approximation des Integrals von zweiter Ordnung ist. Dies bedeutet, dass eine Halbierung von h zu einem Vierteln des Fehlers führt. 110 6.5 Quadraturformeln f (x) a b x Abbildung 6.5: Das Integral F einer Funktion f : [a, b] → R approximiert durch die summierte Trapezregel 111 7 Vektorräume 7.1 Der n-dimensionale reelle Raum Rn Der Körper R der reellen Zahlen lässt sich über die Zahlengerade darstellen. Möchten man jedoch eine Ebene betrachten, so lässt sich diese als R2 := R × R auffassen und man benötigt zum Beschreiben eines Punktes jeweils ein Paar von reellen Zahlen (x, y), x, y ∈ R (sogenannte 2-Tupel). Analog lässt sich der 3-dimensionale Raum als das karthesische Produkt R3 := R × R × R auffassen und Punkte werden durch ein 3-Tupel (x, y, z), x, y, z ∈ R beschrieben. Allgemein lässt sich dies wie folgt definieren. Definition 7.1 (Rn ) Für n ∈ N, n ≥ 1 ist der n-dimensionale reelle Standardraum x1 x2 Rn := {x = .. | xi ∈ R für alle 1 ≤ i ≤ n} . xn die Menge der geordneten n-Tupel (oder Vektoren) von reellen Zahlen. Die einzelnen Einträge x1 , . . . , xn der n-Tupel heißen Komponenten. Auf den n-Tupeln lassen sich Addition und Multiplikation dadurch erklären, dass man die Operation komponentenweise durchführt. Man notiert die n-Tupel auch als xT := (x1 , x2 , . . . , xn ). Definition 7.2 (Addition und Multiplikation für n-Tupeln) Für zwei n-Tupel x, y ∈ Rn ist die Addition definiert durch x1 y1 x1 + y 1 x2 y 2 x2 + y 2 x + y = .. + .. := .. , . . . xn yn xn + y n und die Multiplikation mit λ ∈ R durch x1 λ · x1 x2 λ · x2 λ · x = λ · .. := .. . . . xn λ · xn 113 7 Vektorräume x 2 + y2 x+y λ·x λx2 y y2 x2 0 x y1 x1 x1 + y 1 x2 0 x x1 λx1 Abbildung 7.1: Illustration zur Addition und Multiplikation im Rd Nun lässt sich leicht feststellen, dass die Menge der Vektoren die folgenden Eigenschaften hat. Satz 7.3 (Eigenschaften im Rn ) Seien x, y, z ∈ Rn beliebige Vektoren (oder n-Tupel) und λ, µ ∈ R beliebige reelle Zahlen (genannt Skalare). (V1) (Rn , +) ist eine kommutative Gruppe, d.h. (Assoziativiät): x + (y + z) = (x + y) + z (Null): Für 0T := (0, 0, . . . , 0) gilt x + 0 = x (Inverse): Für −xT := (−x1 , −x2 , . . . , −xn ) gilt x + (−x) = 0 (Kommutativität): x + y = y + x (V2) Für die Multiplikation von Skalaren und Vektoren gilt: (λ + µ) · x = λ · x + µ · x, λ · (µx) = (λµ) · x, λ · (x + y) = λ · x + λ · y, 1 · x = x. Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der Eigenschaften von R. Es zeigt sich somit, dass auf der Menge Rn für die Addition ein neutrales und inverses Element existieren. Für zwei Vektoren x, y ∈ Rn lässt sich das sogenannte Skalarprodukt definieren. Definition 7.4 (Skalarprodukt im Rn ) Für zwei Vektoren x, y ∈ Rn ist das kanonische Skalarprodukt h·, ·i : Rn × Rn → R definiert durch hx, yi := x1 y1 + x2 y2 + . . . + xn yn . 114 7.1 Der n-dimensionale reelle Raum Rn x2 x −x1 x1 0 −x2 −x Abbildung 7.2: Illustration des Inversen Vektors im Rd Satz 7.5 (Eigenschaften des Skalarprodukts im Rn ) Für beliebige Vektoren x, y, z ∈ Rn und Skalare λ ∈ R gilt (i) Bilinearität: Die Abbildung ist linear in beiden Einträgen hx + y, zi = hx, zi + hy, zi, hλx, yi = λhx, yi, hx, y + zi = hx, yi + hx, zi, hx, λyi = λhx, yi. (ii) Symmetrie: hx, yi = hy, xi. (iii) Positive Definitheit: Das Skalarprodukt eines Vektors mit sich selbst ist nichtnegativ und genau nur für den Nullvekotr null hx, xi ≥ 0 und hx, xi = 0 ⇔ x = 0. Beweis. Ergibt sich durch direktes Nachrechnen. Definition 7.6 (Norm im Rn ) Für einen Vektoren x ∈ Rn ist die euklidische Norm k·k : R → R gegeben durch q p kxk := kxk2 := hx, xi = x21 + x22 + . . . + x2n und wird als Betrag oder Länge des Vektors bezeichnet. Einen sehr wichtigen Zusammenhang zwischen Skalarprodukt und Norm stellt die folgende Ungleichung dar. Satz 7.7 (Cauchy-Schwarzsche Ungleichung) Für zwei beliebige Vektoren x, y ∈ Rn gilt die Cauchy-Schwarzsche Ungleichung |hx, yi| ≤ kxk · kyk. 115 7 Vektorräume Beweis. Ist x = 0 oder y = 0 so gilt die Gleichung direkt. Andernfalls gilt für x, y 6= 0 und jedes λ ∈ R: 0 ≤ hx − λy, x − λyi = hx, xi − 2λhx, yi + λ2 hy, yi. Für die Wahl λ = hx,yi kyk2 folgt damit hx, yi2 hx, yi2 hx, yi2 2 2 0 ≤ kxk − 2λhx, yi + λ kyk = kxk − 2 + kyk = kxk − kyk2 kyk4 kyk2 2 2 2 2 und somit hx, yi2 ≤ kxk2 kyk2 . Wurzelziehen liefert die Behauptung. Damit findet man die essentiellen Eigenschaften der euklidischen Norm. Satz 7.8 (Eigenschaften der euklidischen Norm) Für beliebige Vektoren x, y ∈ Rn und Skalare λ ∈ R gilt (i) (Definitheit): kxk = 0 ⇔ x = 0. (ii) (Linearität): kλxk = |λ| · kxk. (iii) (Dreiecksungleichung): kx + yk ≤ kxk + kyk. Beweis. Definitheit und Linearität ergibt sich durch direktes Nachrechnen. Für die Dreieckungleichung folgt mit Hilfe der Cauchy-Schwarzschen Ungleichung kx + yk2 = hx + y, x + yi = hx, xi + 2hx, yi + hy, yi ≤ kxk2 + 2kxkkyk + kyk2 = (kxk + kyk)2 und Wurzelziehen liefert die Behauptung. Bemerkung 7.9 Für die Darstellung des Skalarprodukts gilt auch die Formel hx, yi = kxk · kyk cos ](x, y), wobei ](x, y) den Winkel zwischen x und y bezeichnet. Definition 7.10 (Orthogonale Vektoren) Zwei Vektoren x, y ∈ Rn heißen orthogonal oder senkrecht, falls gilt hx, yi = 0. Definition 7.11 (Normierte Vektoren) Ein Vektor x ∈ Rn heißt normiert, falls gilt kxk = 1. Jeden Vektor x 6= 0 kann man normieren gemäß 1 · x. x̃ := kxk 116 7.2 Raum von Folgen und Funktionen x x2 x cos ](x, y) = 2 2 kx 0 p x1 k= + x2 ](x, y) x1 hx,yi kxk kyk y 0 Abbildung 7.3: Die Norm als Abstand zum Ursprung und Interpretation des Skalarprodukts über den Winkel zwischen zwei Vektoren. 7.2 Raum von Folgen und Funktionen Ziel dieses Abschnitts ist es zu zeigen, dass verschiedenste mathematische Dinge ähnliche Struktur besitzen. Diese unterliegende, gemeinsame Struktur wird im nächsten Abschnitt als (abstrakter) Vektorraum eingeführt. Zur Motivation hier einige Betrachtungen. Folgen Eine konsequente Verallgemeinerung des Konzepts der n-Tupel besteht darin Tupel von unendlicher Länge zu betrachten - dies sind Folgen. Betrachtet man die Menge der Folgen (an )n∈N = (a0 , a1 , a2 , . . .) mit Koeffizienten ai ∈ R, so lässt sich analog zum Rn eine Addition und Multiplikation mit Skalaren definieren, indem man die Operationen Komponentenweise ausführt. Für zwei Folgen (an )n∈N und (bn )n∈N ist die Addition definiert als (a0 , a1 , a2 , . . .) + (b0 , b1 , b2 , . . .) := (a0 + b0 , a1 + b1 , a2 + b2 , . . .) und die Multiplikation mit λ ∈ R gegeben durch λ · (a0 , a1 , a2 , . . .) := (λa0 , λa1 , λa2 , . . .). Man beachte, dass beide Operationen wieder als Resultat eine Folge liefern. Analog zum Rn findet man die folgenden Eigenschaften. Satz 7.12 (Eigenschaften in Raum aller Folgen) Sei V der Raum aller Folgen (an )n∈N mit Koeffizienten in R. Seien (an )n , (bn )n , (cn )n ∈ V beliebige Folgen und λ, µ ∈ R beliebige reelle Zahlen. Dann gilt: (V1) (V, +) ist eine kommutative Gruppe, d.h. 117 7 Vektorräume (Assoziativiät): (an )n + ((bn )n + (cn )n ) = ((an )n + (bn )n ) + (cn )n (Null): Für die Nullfolge 0 := (0, 0, 0, . . .) gilt (an )n + 0 = (an )n (Inverse): Für −(an ) := (−a0 , −a1 , −a2 , . . .) gilt (an )n + (−(an )n ) = 0 (Kommutativität): (an )n + (bn )n = (bn )n + (an )n (V2) Für die Multiplikation von reellen Zahlen und Folgen gilt: (λ + µ) · (an )n = λ · (an )n + µ · (an )n , λ · (µ(an )n ) = (λµ) · (an )n , λ · ((an )n + (bn )n ) = λ · (an )n + λ · (bn )n , 1 · (an )n = (an )n . Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der Eigenschaften von R. Polynomräume Es sei daran erinnert, dass man zu einem Körper K (z.B. Q, R, C) Polynome bilden kann. Definition 7.13 (Polynom und Grad) Sei K ein Körper und x eine Unbestimmte. Ein Polynom mit Koeffizienten in K ist ein Ausdruck der Form P (x) = a0 + a1 x + a2 x2 + . . . + an xn , wobei n ∈ N und a0 , . . . , an ∈ K gilt. Der Grad eines Polynomes ist der höchste, nicht verschwindende Koeffizient ( max{i ∈ N | ai 6= 0}, (f 6= 0) deg P := −∞, (f = 0). Die Menge aller Polynome wird mit K[x] bezeichnet. Die Menge aller Polynome mit Grad kleiner gleich n wird mit K[x]≤n bezeichnet. Betrachtet man zwei Polynome f, g ∈ K[x], so lassen sich diese in natürlicher Weise addieren. Gilt f (x) := a0 + a1 x + . . . + an xn und g(x) := b0 + b1 x + . . . + bm xm mit m < n, so wählt man formal bm+1 = . . . = bn = 0 und erhält Polynome vom selben Grad (analog für n < m). Die Addition ist nun gegeben durch (f + g)(x) := f (x) + g(x) := (a0 + b0 ) + (a1 + b1 )x + (a2 + b2 )x2 + . . . + (an + bn )xn . Man beachte, dass deg f + g ≤ max(deg f, deg g) gilt, d.h. es handelt sich um eine Abbildung + : K[x]≤n × K[x]≤n → K[x]≤n . Ebenso lässt sich eine Multiplikation mit Werten aus K in natürlicher Weise aufstellen. Gilt f (x) := a0 + a1 x + . . . + an xn , so ist die Multiplikation mit dem Skalar λ ∈ K gegeben durch (λf )(x) := λ · f (x) := (λa0 ) + (λa1 )x + (λa2 )x2 + . . . + (λan )xn 118 7.2 Raum von Folgen und Funktionen und bei dieser Multiplikation ist der Grad des Polynoms höchstens so groß wie zuvor, d.h. es handelt sich um eine Abbildung · : K × K[x]≤n → K[x]≤n . Schaut man sich diese Addition und Multiplikation genauer an, so findet man Eigenschaften analog zu denen, die man bereits aus dem Rn kennt. Satz 7.14 (Eigenschaften in K[x]) Seien f, g, h ∈ K[x] beliebige Polynome und λ, µ ∈ K beliebige Skalare. Dann gilt: (V1) (K[x], +) ist eine kommutative Gruppe, d.h. (Assoziativiät): f + (g + h) = (f + g) + h. (Null): Für das Nullpolynom 0 gilt f + 0 = f . (Inverse): Für −f := −a0 − a1 x − . . . − an xn gilt f + (−f ) = 0. (Kommutativität): f + g = g + f (V2) Für die Multiplikation von Skalaren und Polynomen gilt: (λ + µ) · f = λ · f + µ · f, λ · (µf ) = (λµ) · f, λ · (f + g) = λ · f + λ · g, 1 · f = f. Beweis. Die Aussagen ergeben sich durch direktes Nachrechen und Verwendung der Eigenschaften von K. Funktionenräume Allgemeiner kann man auch die Menge der Funktionen von einer Menge D in einen Körper K betrachten. Dann definiert man für diese Menge Abb(D, K) := {f : D → K} die Addition zweier Funktionen sowie die Multiplikation mit Skalaren λ ∈ K durch (f + g)(x) := f (x) + g(x), und (λ · f )(x) := λ · f (x) und erhält dadurch erneut Abbildung + : Abb(D, K) × Abb(D, K) → Abb(D, K) und · : K × Abb(D, K) → Abb(D, K), d.h. diese beiden Verknüpfungen bilden erneut in diesselbe Menge ab. Auch diese Menge besitzt analoge Struktur wie die bereits besprochenen Fälle. 119 7 Vektorräume 7.3 Allgemeine Definition von Vektorräumen Die vorangegangenen Beispiele zeigen, dass viele verschiedene mathematische Strukturen dieselbe unterliegenden Eigenschaften besitzen. Somit lassen sich alle Strukturen auf einmal untersuchen, indem man sich auf einen abstrakten Standpunkt zurückzieht und anstatt konkreter Räume ganz allgemein sogenannte Vektorräume betrachtet. Definition 7.15 (Vektorraum) Sei K ein Körper. Eine Menge V zusammen mit einer inneren Verknüpfung (Addition) + : V × V → V, (v, w) 7→ v + w, und einer äußeren Verknüpfung (skalare Multikplikation bzw. Multiplikation mit Skalaren) · : K × V → V, (λ, v) 7→ λ · v, heißt K-Vektorraum (oder auch Vektorraum über K), falls gilt: (V1) (V, +) ist eine kommutative Gruppe, d.h. (Assoziativiät): u + (v + w) = (u + v) + w für alle u, v, w ∈ V (Nullvektor): Es gibt einen Vektor 0 mit v + 0 = v für alle v ∈ V (Inverse): Zu jedem Vektor v ∈ V gibt es einen Vektor −v ∈ V mit v + (−v) = 0 (Kommutativität): u + v = v + u für alle u, v ∈ V (V2) Für die Multiplikation von Skalaren und Vektoren gilt: (λ + µ) · v = λ · v + µ · v, λ · (µv) = (λµ) · v, λ · (v + w) = λ · v + λ · w, 1 · v = v, für alle λ, µ ∈ K und v, w ∈ V . Beispiele 7.16 (i) Qn , Rn , Cn oder allgemein der K-Vektorraum Kn . (ii) Die Polynomräume K[x] und K[x]≤n für einen Körper K. (iii) Der Raum aller unendlichen Folgen. (iv) Der Raum aller Funktionen f : R 7→ R. (v) Der Raum aller stetigen Funktionen f : R 7→ R. (vi) Der Raum aller differenzierbaren Funktionen f : R 7→ R. Definition 7.17 (Untervektorraum) Sei V ein K-Vektorraum und U ⊂ V eine Teilmenge. Dann heißt U Untervektorraum von V , falls gilt: 120 7.4 Linearkombination, Span und lineare Unabhängigkeit (UV1) U 6= ∅, (UV2) u, v ∈ U ⇒ u + v ∈ U , (UV3) v ∈ U, λ ∈ K ⇒ λ · v ∈ U , Beispiele 7.18 Jeder Vektorraum V hat die trivialen Untervektorräume {0} und V selbst. Die Vektorraum R1 hat genau die zwei trivialen Untervektorräume {0} und R. Der Vektorraum R2 hat die Untervektorräume (i) Der Nullvektorraum {0}, (ii) alle Geraden durch den Urspruch {(x, y) ∈ R2 | ax + by = 0} mit a, b ∈ R, (a, b) 6= (0, 0), (iii) den Vektorraum R2 selbst. Der Vektorraum R3 hat als Unterräume {0}, alle Geraden durch den Urspruch, alle Ebenen durch den Ursprung und R3 selbst. Satz 7.19 Ein Untervektorraum U ⊂ V ist wieder ein Vektorraum. Beweis. Addition und skalare Multiplikation sind nach (UV2) und (UV3) abgeschlossen, bilden also wieder in U ab. Die Kommuntativität und Assoziativität gilt, da sie auch schon in V vorhanden war und man sich nun nur auf eine Teilmenge U ⊂ V beschränkt. Alle Bedingungen (V2) folgen ebenfalls direkt von V . Da U 6= ∅ mindestens einen Vektor v ∈ U enthält, ist wegen (UV3) auch 0 = 0 · v ∈ U enthalten. Zudem ist wegen (UV3) auch −v = (−1) · v ∈ U das Inverse. 7.4 Linearkombination, Span und lineare Unabhängigkeit Hat man eine Teilmenge an Vektoren von einem Vektorraum, so bilden diese nicht automatisch einen Unterraum. Man kann sich jedoch fragen, ob man diese Menge durch Hinzunahme weiterer geeigneter Vektoren zu einem Unterraum machen kann. Dies bezeichnt man als Abschluss des Vektorraums. Speziell möchte man gerne mit möglichst wenig zusätzlichen Vektoren einen Unterraum erhalten. Dies motiviert die folgende Betrachtung. Definition 7.20 (Familie) Sei I eine Indexmenge und V ein Vektorraum. Eine Abbildung ϕ : I → V, i 7→ vi = ϕ(i), die einem Index i ein Element aus vi ∈ V zuordnet, heißt Familie von Vektoren. Die Familie I → V wird auch mit (vi )i∈I bezeichnet. 121 7 Vektorräume In einer Familie können Vektoren mehrfach auftreten und (im Gegensatz zu einer Menge) ist die Reihenfolge von Bedeutung. Beispiel 7.21 (i) Für I = {1, 2, . . . , n} ist (vi )i∈{1,2,...,n} = (v1 , v2 , . . . , vn ) eine endliche Familie an Vektoren. 1 0 1 1 2 (ii) Für I = {1, 2, 3, 4} und V = R ist ( , , , ) eine Familie von 4 0 1 1 0 Vektoren. (iii) Für I = N ist = (vi )i∈N = (v0 , v1 , . . .) eine unendliche Familie an Vektoren. Dies wird auch als Folge bezeichnet. (iv) Für I = N und V = R[x] ist (1, x, x2 , x3 , . . .) eine Familie. (v) Für die leere Indexmenge I = ∅ ist (vi )i∈∅ = ( ) die leere Familie. Definition 7.22 (Linearkombination) Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V . (i) Zu einer endlichen Familie (v1 , . . . , vr ) mit r ∈ N und Skalaren λ1 , . . . , λr ∈ K nennt man den Vektor v = λ1 v1 + λ2 v2 + . . . + λr vr eine Linearkombination der Vektoren v1 , . . . , vr . (ii) Für eine unendliche Familie (vi )i∈I heißt ein Vektor v Linearkombination der Vektoren (vi )i∈I , falls v Linearkombination einer endlichen Teilfamilie von (vi )i∈I ist, d.h. es gibt ein r ∈ N, Indizes i1 , . . . , ir ∈ I und Skalare λ1 , . . . , λr ∈ K, so dass v = λ1 vi1 + λ2 vi2 + . . . + λr vir . Betrachtet man zu einer Familie von Vektoren alle möglichen Linearkombinationen, so erhält man einen Raum der als Abschluss, Aufspann oder lineare Hülle bezeichnet wird. Definition 7.23 (Lineare Hülle / Span / Erzeugnis) Sei V ein K-Vektorraum und (vi )i∈I eine (endliche oder unendliche) Familie von Vektoren. Die Menge aller Linearkombinationen span(vi )i∈I := {v | v ist Linearkombination der Vektoren (vi )i∈I } heißt lineare Hülle oder Span. Für eine endlich Familie (v1 , . . . , vr ) schreibt man dies auch als Kv1 + . . . + Kvr := span(v1 , . . . , vr ) = {λ1 v1 + λ2 v2 + . . . + λr vr | λi ∈ K}. Für die leere Familie setzt man span(vi )i∈∅ := {0}. 122 7.4 Linearkombination, Span und lineare Unabhängigkeit 1 Beispiel 7.24 (i) Für (vi )i∈{1} = ( ) ist 1 1 1 1 span(vi )i∈{1} = span( ) = {λ1 | λ1 ∈ K} = R 1 1 1 eine Gerade durch den Ursprung. 1 0 1 (ii) Für (vi )i∈{1,2,3} = ( , , ) ist 0 1 1 1 0 1 1 0 1 span(vi )i∈{1,2,3} = span( , , ) = {λ1 + λ2 + λ3 | λi ∈ K} 0 1 1 0 1 1 λ1 + λ3 ={ | λi ∈ K} = R2 λ2 + λ3 der Raum V = R2 selbst. In den Beispielen sieht man, dass der Span ein Untervektorraum ist. Dies gilt ganz allgemein und sogar noch mehr: span(vi ) ist der kleinste Untervektorraum von V , der alle vi enthält. Satz 7.25 (Span ist kleinster Untervektorraum zu einer Familie) Sei V ein K-Vektorraum und (vi )i∈I eine Familie von Vektoren aus V . Dann gilt: (i) span(vi )i∈I ist ein Untervektorraum von V . (ii) Ist W ⊂ V auch ein Untervektorraum, der alle vi , i ∈ I enthält, so gilt span(vi )i∈I ⊂ W. Beweis. (i) Zu endlichen Linearkombinationen λ1 v1 + . . . + λr vr und µ1 v1 + . . . + µr vr ist auch die Summe (λ1 v1 + . . . + λr vr ) + (µ1 v1 + . . . + µr vr ) = (λ1 + µ1 )v1 + . . . + (λr + µr )vr als auch das Produkt mit einem Skalar λ λ(λ1 v1 + . . . + λr vr ) = (λλ1 )v1 + . . . + (λλr )vr eine Linearkombination. Durch die Wahl von λ1 = . . . = λr = 0 ist zudem 0 enthalten. (ii) Da W Untervektorraum ist, sind alle endlichen Linearkombinationen von Vektoren aus W wieder in W enthalten. Da speziell auch alle vi ∈ W liegen, sind somit auch alle Linearkombination der vi (und somit span(vi )i∈I ) enthalten. Einen gegebenen (Unter-)Vektorraum kann man durch viele verschiedene Familien aufspannen (bzw. erzeugen). So ist zum Beispiel 1 0 1 0 1 1 0 2 R =R +R =R +R +R =R +R . 0 1 0 1 1 1 1 123 7 Vektorräume Im Allgemeinen existieren unendlich viele Möglichkeiten um einen Vektor linear zu kombinieren. Speziell lässt sich der Nullvektor immer durch 0 = 0v1 + . . . + 0vr linearkombinieren. Gibt es noch weitere Koeffizienten λi 6= 0, die dies erfüllen, so ist die Eindeutigkeit der Darstellung nicht gegeben. Man bezeichnet dann die Vektoren v1 , . . . , vr als linear abhängig. Definition 7.26 (Lineare Unabhängigkeit) Sei V ein K-Vektorraum. Eine endliche Familie (v1 , . . . , vr ) heißt linear unabhängig, falls sich der Nullvektor nur durch Nullkoeffizienten linearkombinieren lässt, d.h. für eine Darstellung mit Koeffizienten λ1 , . . . , λr ∈ K gilt stets 0 = λ1 v1 + . . . + λr vr ⇒ λ1 = . . . = λr = 0. Eine unendliche Familie (vi )i∈I heißt linear unabhängig, falls jede endliche Teilfamilie linear unabhängig ist. Eine Familie (vi )i∈I heißt linear abhängig, falls sie nicht linear unabhängig ist. Die leere Familie () ist linear unabhängig. Satz 7.27 (Charakterisierung linear abhängiger Vektoren) Sei V ein K-Vektorraum und r ∈ N, r ≥ 2. Eine Familie von Vektoren (v1 , . . . , vr ) ist genau dann linear abhängig, wenn mindestens einer der Vektoren Linearkombination der anderen ist. Beweis. „Linear abhängig ⇒ Linearkombination“: Sind v1 , . . . , vr linear abhängig, so gibt es Koeffizienten λ1 , . . . , λr ∈ K mit mindestens einem λk 6= 0, k ∈ {1, . . . , r}, so dass sich der Nullvektor nichttrivial kombinieren lässt: 0 = λ1 v1 + . . . + λk vk + . . . + λr vr . Löst man nach vk auf, so ist dieser Linearkombination der übigen, denn vk = − λk−1 λk+1 λr λ1 v1 − . . . − vk−1 − vk+1 − . . . − vr . λk λk λk λk „Linearkombination ⇒ linear abhängig“: Gilt umgekehrt vk = µ1 v1 + . . . + µk−1 vk−1 + µk+1 vk+1 + . . . + µr vr , so lässt sich der Nullvektor mit λk = −1 6= 0 linearkombinieren gemäß 0 = µ1 v1 + . . . + µk−1 vk−1 + (−1)vk + µk+1 vk+1 + . . . + µr vr . Dieser Satz sagt zugleich, dass sich bei linear unabhängigen Vektoren (v1 , . . . , vr ) keiner der Vektoren vi durch die übrigen linear kombinieren lässt und somit als einzige Möglichkeit nur eine Darstellung durch sich selbst bleibt. Es gilt sogar noch mehr: Jeder Vektor in der linearen Hülle lässt sich eindeutig linear kombinieren. 124 7.5 Basis und Dimension Satz 7.28 (Charakterisierung linear unabhängiger Vektoren) Sei V ein K-Vektorraum. Eine Familie von Vektoren (vi )i∈I ist genau dann linear unabhängig, wenn sich jeder Vektor v ∈ span(vi )i∈I als eindeutige Linearkombination aus (vi )i∈I schreiben lässt. Beweis. „Linear unabhängig ⇒ Eindeutigkeit“: Sei v ∈ span(vi )i∈I auf zwei Arten linear kombinierbar, d.h. es gebe Skalare λi , µi und gelte X X λi vi = v = µi vi , i∈I i∈I wobei nur endlich viele der λi , µi ungleich Null sind. Damit gilt jedoch auch X (λi − µi )vi = 0 i∈I und wegen der linearen Unabhängigkeit müssen alle Koeffizienten λi − µi = 0 verschwinden. Somit ist λi = µi und die Darstellung eindeutig. „Eindeutigkeit ⇒ linear unabhängig“: Der Nullvektor lässt sich stets als 0 = 0v1 + . . . + 0vr kombinieren. Ist die Darstellung eindeutig, so muss für alle weiteren Darstellungen 0 = λ1 v1 + . . . + λr vr folgen, dass λ1 = . . . = λr = 0 gilt. 7.5 Basis und Dimension Definition 7.29 (Erzeugenensystem, Basis) Sei V ein Vektorraum. (i) Eine Familie B = (vi )i∈I heißt Erzeugendensystem von V, wenn V = span(vi )i∈I ist, d.h. jedes v ∈ V ist eine (endliche) Linearkombination der (vi )i∈I . (ii) Eine Familie B = (vi )i∈I heißt Basis von V, wenn sie eine linear unabhängiges Erzeugendensystem ist, d.h. jedes v ∈ V ist eine eindeutige (endliche) Linearkombination der (vi )i∈I . Existiert ein endliches Erzeugendensystem (v1 , . . . , vn ), so nennt man V endlich erzeugt. Eine Basis heißt endlich, falls sie eine endliche Familie (v1 , . . . , vn ) ist. Beispiele 7.30 (i) Für n ∈ N und V = Rn ist die kanonische Basis (oder Standardbasis) gegeben durch ei := (0, . . . , 0, 1, 0, . . . , 0), wobei die 1 an der i-ten Stelle steht. Damit ist span(ei )i={1,...,n} = Rn . 125 7 Vektorräume (ii) Für n ∈ N und V = R[x]≤n ist die kanonische Basis gegeben durch (1, x, x2 , . . . , xn ). (iii) Für V = R[x] ist die kanonische Basis gegeben durch (1, x, x2 , . . .). Dieser Raum ist nicht endlich erzeugt. (iv) Für V = C (aufgefasst als R-Vektorraum) ist die kanonische Basis gegeben durch (1, i). Satz 7.31 (Äquivalenzen zu einer endlichen Basis) Für eine endliche Familie B = (v1 , . . . , vn ) von Vektoren sind äquivalent: (i) B ist Basis (d.h. ein linear unabhängiges Erzeugendensystem). (ii) B ist ein unverkürzbares Erzeugendensystem, d.h. für jedes k ∈ {1, . . . , n} ist (v1 , . . . , vk−1 , vk+1 , . . . , vn ) kein Erzeugendensystem mehr. (iii) B ist ein Erzeugendensystem mit Eindeutigkeit der Darstellung, d.h. jedes v ∈ V lässt sich eindeutig als Linearkombination v = λ1 v1 + . . . + λn vn schreiben. (iv) B ist unverlängerbar linear unabhängig, d.h. für jedes v ∈ V ist (v1 , . . . , vn , v) nicht mehr linear unabhängig. Beweis. (i) ⇒ (ii): Angenommen, B wäre um vk verkürzbar und weiterhin Erzeugendensystem. Dann lässt sich vk = λ1 v1 + . . . + λk−1 vk−1 + λk+1 vk+1 + . . . + λn vn darstellen und nach Umstellung gilt 0 = λ1 v1 + . . . + λk−1 vk−1 + (−1)vk + λk+1 vk+1 + . . . + λn vn . Somit wäre (v1 , . . . , vn ) linear abhängig im Widerspruch zur Unabhängigkeit einer Basis. (ii) ⇒ (iii): Angenommen es existiert zu einem unverkürzbaren Erzeugendensystem eine nicht eindeutige Darstellung zu einem Element v ∈ V . Dann ∃v ∈ V : v = λ1 v1 + . . . + λn vn = µ1 v1 + . . . + µn vn . O.B.d.A. λ1 6= µ1 (die vi können stets entsprechend umsortiert werden). Dann folgt 0 = (λ1 − µ1 )v1 + ... + (λn − µn )vn µn − λn µ2 − λ2 ⇔ v1 = v2 + . . . + λ1 − µ1 λ1 − µ1 ⇒ vi linear abhängig ⇒ B verkürzbar. Widerspruch! (iii) ⇒ (iv): B ist linear unabhängig auf Grund der eindeutigen Darstellbarkeit. Fügt man noch einen weiteren Vektor v = λ1 v1 + . . . + λn vn zur Familie hinzu, so wird diese wegen 0 = λ1 v1 + . . . + λn vn + (−1)v linear abhängig. 126 7.5 Basis und Dimension (iv) ⇒ (i): Ist B unverlängerbar linear unabhängig, so gibt es für jedes v ∈ V Koeffizienten λ1 , . . . , λn , λ ∈ K, so dass 0 = λ1 v1 + . . . + λn vn + λv, wobei mindestens eines der λ1 , . . . , λn , λ 6= 0. Da (v1 , . . . , vn ) linear unabhängig sind, muss folglich λ 6= 0 gelten und somit gilt v=− λn λ1 v1 − . . . − vn . λ λ Somit ist B ein Erzeugendensystem und linear unabhängig, d.h. eine Basis. Daraus folgt direkt die Existenz einer Basis für endliche Vektorräume. Satz 7.32 (Basisauswahlsatz) Sei V ein endlich erzeugter Vektorraum. Dann kann man aus dem endlichen Erzeugendensystem eine endliche Basis auswählen. Beweis. Sei das endliche Erzeugendensystem gegeben. Aus diesem entfernt man solange Vektoren, bis es kein Erzeugendensystem mehr ist, d.h bis es unverkürzbar ist. Damit ist die so entstanden Familie eine Basis. Allgemeiner lässt sich zeigen, dass sogar jeder Vektorraum eine Basis besitzt. Dieser Beweis ist aufwändiger und wir daher weggelassen. Eine Basis zu einem Vektorraum ist nicht eindeutig. Vielmehr kann man viele verschiedenen Basen wählen. Man kann bei einer vorgegebenen Basis sogar geeignet Vektoren austauschen und erhält erneut eine Basis. Betrachtet man zunächst nur den Austausch eines Vektors, so findet man die folgende Aussage. Satz 7.33 (Austauschlemma) Sie V ein Vektorraum mit Basis B = (v1 , . . . , vn ) und w = λ1 v1 + . . . + λn vn ∈ V . Gilt λk 6= 0 für k ∈ {1, . . . , n}, so ist auch B 0 = (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) eine Basis von V. Beweis. Zu zeigen ist, dass B 0 eine Basis ist. Erzeugendensystem: Wegen λk 6= 0 gilt für vk die Darstellung vk = λ1 λk−1 λk+1 λn 1 w − v1 − . . . − vk−1 − vk+1 − . . . − vn . λk λk λk λk λk und somit für einen beliebigen Vektor v = µ1 v1 + . . . + µn vn die Darstellung v= µ1 µk λ1 − λk v1 + . . . + v1 + . . . − µk−1 vk−1 µk λk−1 vk−1 λk + µλkk w + − µk+1 vk+1 µk λk+1 vk+1 λk +... + +... − µn vn µk λn vn . λk Somit lässt sich ein beliebiger Vektor v ∈ V auch als Linearkombination der Familie (v1 , . . . , vk−1 , w, vk+1 , . . . , vn ) darstellen und B 0 ist ein Erzeugendensystem. 127 7 Vektorräume Lineare Unabhängigkeit: Sei µ1 v1 + . . . + µk−1 vk−1 + µw + µk+1 vk+1 + . . . + µn vn = 0 mit Koeffizienten µ, µ1 , . . . , µn . Durch Einsetzen von w = λ1 v1 + . . . + λn vn findet man 0= µ1 v1 + . . . + µk−1 vk−1 + µk+1 vk+1 + . . . + µn vn +µλ1 v1 + . . . + µλk−1 vk−1 +µλk vk + µλk+1 vk+1 + . . . + µλn vn und, da B linear unabhängig ist, folglich für die Koeffizienten µλk = 0 sowie (µi +µλi ) = 0 für i 6= k. Da λk 6= 0 folgt zunächst µ = 0 und damit µi = 0 für i 6= k. Möchte man gleich mehrere Vektoren austauschen, so findet man den Basisaustauschssatz von Steinitz. Satz 7.34 (Basisaustauschsatz) Sei V ein Vektorraum, B = (v1 , . . . , vn ) eine endliche Basis und (w1 , . . . , wr ) eine linear unabhängige Familie von Vektoren. Dann folgt: (i) r ≤ n. (ii) Man kann r Vektoren aus B durch w1 , . . . , wr austauschen, so dass man erneut eine Basis erhält, d.h. nach evtl. Umnummerierung der (vi )1,...,n ist auch (w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis von V . Beweis. Induktion über r: Für r = 1: Sei ein linear unabhäniger Vektor w1 6= 0 gegeben. Die Basis enthält somit auch mindestens einen Vektor (es gilt also 1 ≤ n) und gemäß des Austauschlemmas lässt sich w1 für einen Vektor in der Basis ersetzen und erhält wieder eine Basis. Sei nun r ≥ 2 und per Induktionsannahme die Aussage bewiesen für r − 1. Es müssen zwei Dinge gezeigt werden. (i) ”r ≤ n”: Nach Induktionsannahme gilt bereits r −1 ≤ n. Damit bleibt noch zu zeigen, dass der Fall r−1 = n nicht eintreten kann. Dazu ein Widerspruchsbeweis: Angenommen, es gälte r −1 = n. Entsprechend sind die Vektoren (w1 , . . . , wr−1 ) linear unabhängig und nach Induktionsvoraussetzung kann man alle n Elemente der Basis (v1 , . . . , vn ) durch die r −1 Vektoren (wi )1≤i≤r−1 ersetzen und erhält wieder eine Basis (w1 , . . . , wr−1 ). Eine Basis ist aber unverlängerbar linear unabhängig und daher ist (w1 , . . . , wr−1 , wr ) linear abhängig. Widerspruch. (ii) ”(w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis”: Nach Induktionsvorausssetzung lassen sich die (w1 , . . . , wr−1 ) derart austauschen, dass (nach evtl. Umnummerierung) auch (w1 , . . . , wr−1 , vr , . . . , vn ) 128 7.5 Basis und Dimension eine Basis bilden. Somit kann man auch wr durch diese Basis als Linearkombination wr = λ1 w1 + . . . + λr−1 wr−1 + λr vr + . . . + λn vn ausdrücken. Dabei muss einer der Koeffizienten λr , . . . , λn nicht 0 sein, denn andernfalls wäre 0 = −wr + λ1 w1 + . . . + λr−1 wr−1 im Widerspruch zur linearen Unabhängigkeit. Gemäß dem Austauschlemma lässt sich der zugehörige Vektor durch wr ersetzen. Nach geeigneter Umnummerierung sei dieser Vektor vr und somit ist auch (w1 , . . . , wr , vr+1 , . . . , vn ) eine Basis. Die Aussage dieses Satzes lässt sich auch so verstehen, dass man linear unabhängige Familien zu einer Basis auffüllen kann. Satz 7.35 (Basisergänzungssatz) Sei V ein endlich erzeugter Vektorraum. Dann lässt sich jede linear unabhängige Familie (w1 , . . . , wr ) durch Hinzunahme geeigneter Vektoren zu einer Basis (w1 , . . . , wr , vr+1 , . . . , vn ) ergänzen. Beweis. Man wählt eine Basis (diese existiert gemäß Basisauswahlsatz) und wendet den Basisaustauschsatz an. Durch den Basisaustauschsatz ist auch geklärt, dass für jeden endlichen Vektorraum alle Basen dieselbe Länge haben. Satz 7.36 (Länge endlicher Basen) Je zwei Basen eines endlichen Vektorraums haben gleiche Länge. Beweis. Hat man zwei Basen der Länge n und m, so kann man den Basisaustauschsatz zweimal anwenden und erhält n ≤ m und m ≤ n, also n = m. Somit lässt sich definieren. Definition 7.37 (Dimension) Für einen K-Vektorraum V heißt ( n, falls V eine Basis der Länge n ∈ N besitzt, dimK V := ∞, falls V keine endliche Basis besitzt, die Dimension von V über K. Beispiele 7.38 (i) Der Raum Rn hat Dimension n. (ii) Die Vektorraum der Polynome hat Dimension dimR R[x] = ∞. (iii) Der Vektorraum C, aufgefasst als Vektorraum über R, hat Dimension dimR C = 2. 129 8 Lineare Abbildungen und Matrizen 8.1 Matrizen Eine besondere Rolle sowohl in der linearen Algebra als auch der Analysis spielen lineare Abbildungen. Auf endlich erzeugten Vektorräumen hängen diese eng mit sogenannten Matrizen (rechteckige Zahlenschemata) zusammen. Um für den weiteren Verlauf dieses Kapitels eine Anschauung zu entwickeln soll deshalb zunächst der Begriff der Matrix sowie grundlegende Matrix-Vektor Operationen eingeführt werden. Definition 8.1 (Matrix) Eine m × n Matrix A, m, n ∈ N, mit Einträgen aij ∈ K, 1 ≤ i ≤ m, und 1 ≤ j ≤ n ist ein rechteckiges Zahlenschema a11 a21 A = (aij ) = .. . a12 a22 .. . am1 am2 . . . a1n . . . a2n .. . .. . . . . . amn Der Vektorraum aller m × n Matrizen mit Einträgen aus K wird als Km×n bezeichnet. Dabei sei zu A, B ∈ Km×n , A = (aij ), B = (bij ) die Addition definiert als a11 a21 A + B = (aij ) + (bij ) = .. . a12 a22 .. . am1 am2 a11 + b11 a21 + b21 = .. . . . . a1n b11 b12 b21 b22 . . . a2n .. + .. .. .. . . . . . . . amn bm1 bm2 a12 + b12 a22 + b22 .. . ... ... ... . . . b1n . . . b2n .. .. . . . . . bmn a1n + b1n a2n + b2n .. . am1 + bm1 am2 + bm2 . . . amn + bmn 131 8 Lineare Abbildungen und Matrizen sowie Multiplikation mit einem a11 a21 λA = λ(aij ) = λ .. . am1 Skalar λ ∈ K als a12 . . . a1n λa11 λa12 a22 . . . a2n λa21 λa22 .. .. = .. .. .. . . . . . am2 . . . amn λam1 λam2 . . . λa1n . . . λa2n .. . .. . . . . . λamn Definiert man zu einer Matrix A ∈ Km×n und einem Spaltenvektor v ∈ Kn das Produkt a11 a12 . . . a1n v1 a11 · v1 + a12 · v2 + . . . + a1n · vn w1 a21 a22 . . . a2n v2 a21 · v1 + a22 · v2 + . . . + a2n · vn w2 A · v = .. = .. , .. .. · .. = .. . . . . . . . . . am1 am2 . . . amn vn am1 · v1 + am2 · v2 + . . . + amn · vn wm so erhält man eine Abbildung f : Kn → Km , v 7→ A · v. Durch Nachrechnen erkennt man, dass ein derart definiertes f folgende Eigenschaften besitzt: f (v + w) = f (v) + f (w), f (λv) = λf (v). Beispiele 8.2 Zu A = (aij ) ∈ Rm×n , v ∈ Rn , betrachte man die folgenden Beispiele: (i) n, m = 1, A := 2 : Av = 2v = 2v1 . (ii) n = 2, m = 1, A := 1 1 : Av = v1 + v2 . 1 0 1 · v1 + 0 · v2 = v. (iii) (Identität) n = 2, m = 2, A := : Av = 0 · v1 + 1 · v1 0 1 0 −1 ◦ (iv) (Rotation um 90 ) n = 2, m = 2, A := : 1 0 −v2 0 · v1 − 1 · v2 Av = = . v1 1 · v1 + 0 · v2 Ausgehend von diesen Beobachtungen soll der allgemeinere Begriff der linearen Abbildung definiert werden. 8.2 Lineare Abbildungen Definition 8.3 (Lineare Abbildung) Seien V und W zwei K-Vektorräume. Eine Abbildung f : V → W heißt lineare Abbildung, wenn gilt: 132 8.2 Lineare Abbildungen (i) f (v + w) = f (v) + f (w) für alle v, w ∈ V . (ii) f (λ · v) = λ · f (v) für alle v ∈ V und alle λ ∈ K oder zusammengefasst f (λ · v + µ · w) = λ · f (v) + µ · f (w) ∀v, w ∈ V, λ, µ ∈ K. Statt linearer Abbildung sind auch die präziseren Begriffe K-lineare Abbildung oder Homomorphismus von K-Vektorräumen gebräuchlich. Dabei nennt man eine lineare Abbildung f : V → W • Isomorphismus, falls f bijektiv ist, • Endomorphismus, falls V = W , • Automorphismus, falls f bijektiv ist und außerdem V = W gilt. Als direkte Folgerung aus der Definition der linearen Abbildungen lassen sich folgende Eigenschaften ableiten: Bemerkung 8.4 Seien V, W Vektorräume, f : V → W eine lineare Abbildung, so gilt: a) f (0) = 0 und f (v − w) = f (v) − f (w). b) f (λ1 v1 + ... + λn vn ) = λ1 f (v1 ) + ... + λn f (vn ). c) Ist eine Familie (vi )i∈I in V linear abhängig, so ist auch (f (vi ))i∈I linear abhängig. d) Ist V 0 ⊂ V ein Untervektorraum, so ist f (V 0 ) ⊂ W Untervektorraum. e) dim(f (V )) ≤ dim(V ). f) Ist f bijektiv (also ein Isomorphismus), so ist auch f −1 : W → V linear. Beweis. a) + b): Folgt durch einfaches Nachrechnen mit f (0) = f (0 · 0) und f (v − w) = f (v + (−1)w). c) ”Lineare Abhängigkeit” ⇒ ∃i1 , ..., in ∈ I und λ1 , ...λn ∈ K: λ1 vi1 + ... + λn vin = 0, wobei zumindest eines der λ1 , ..., λn 6= 0. Mit (b) folgt dann, dass auch λ1 f (vi1 ) + ... + λn f (vin ) = 0 gilt. d) Untervektorraumeigenschaften des Raums f (V 0 ) nachprüfen. Dazu betrachte man Vektoren w, w0 ∈ f (V 0 ) und nutze die Eigenschaften der linearen Abbildung f . e) Mit (c) folgt: Ist f (v1 ), ..., f (vn ) ∈ f (V ) linear unabhängig, so auch v1 , ..., vn ∈ V . Die Dimension von V ist damit mindestens so groß wie die von f (V ). 133 8 Lineare Abbildungen und Matrizen f) Es sei v, v 0 ∈ V , w := f (v), w0 := f (v 0 ). Mit f (λv + µv 0 ) = λw + µw0 und v = f −1 (w) sowie v 0 = f −1 (w0 ) folgt nach Anwendung von f −1 schließlich λf −1 (w) + µf −1 (w0 ) = f −1 (λw + µw0 ). Häufig werden mehrere lineare Abbildungen hintereinander ausgeführt, also verkettet. Nützlich ist hierbei folgende Bemerkung: Bemerkung 8.5 Seien f : V → W und g : W → U lineare Abbildungen auf Vektorräumen V, W und U , so ist die Verkettung f ◦ g : V → U, v 7→ f (g(v)), eine lineare Abbildung zwischen den Vektorräumen V und U . Beweis. Es gilt: (f ◦ g)(λv + µw) = f (g(λv + µw)) = f (λg(v) + µg(w)) = λf (g(v)) + µf (g(w)) = λ(f ◦ g)(v) + µ(f ◦ g)(w) Im Umgang mit linearen Abbildungen sind die folgenden Begriffe besonders hilfreich: Definition 8.6 (Bild und Kern) Zu einer linearen Abbildung f : V → W nennt man Im(f ) := f (V ) = {f (v) | v ∈ V } ⊂ W Kern(f ) := f −1 (0) = {v ∈ V | f (v) = 0} ⊂ V das Bild von f, den Kern von f. Durch Nachprüfen der Untervektorraumeigenschaften sieht man, dass zu einer linearen Abbildung f : V → W zwischen Vektorräumen V und W sowohl Im(f ) ⊂ W als auch Kern(f ) ⊂ V jeweils Untervektorräume sind. Definition 8.7 (Rang) Ist f : V → W eine lineare Abbildung zwischen Vektorräumen V, W , so bezeichnet Rang(f ) := dim Im(f ) die Dimension des Bilds von f . Zu Beginn des Kapitels wurde gezeigt, dass Matrizen A ∈ Km×n lineare Abbildungen zwischen den Vektorräumen Kn und Km beschreiben: A : Kn → Km , v 7→ Av. Der Rang einer Matrix A ∈ Km×n ist entsprechend gegeben als Rang(A) = dim{Av | v ∈ Kn }. 134 8.3 Lineare Gleichungssysteme 8.3 Lineare Gleichungssysteme In vielen Anwendungen ist man an Lösungen von sogenannten linearen Gleichungssystemen interessiert. Hierbei sucht man n Unbekannte die m lineare Bedingungen erfüllen. Definition 8.8 (Lineares Gleichungssystem) Für m, n ∈ N bezeichnet man für die n Unbekannten x1 , x2 , . . . , xn ∈ K und die Werte b1 , . . . , bm ∈ K die m Gleichungen a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . + . . . + a1n xn + . . . + a2n xn .. . = b1 = b2 .. . am1 x1 + am2 x2 + . . . + amn xn = bm als lineares Gleichungssystem. Die Zahlen aij ∈ K (1 ≤ i ≤ m, 1 ≤ j ≤ n) heißen Koeffizienten. Das Gleichungssystem lässt sich auch kompakt schreiben als n X für i = 1, . . . , m. aij xj = bi , j=1 Alternativ lässt sich ein lineares Gleichungssystem in Matrixschreibweise darstellen. Sei dazu A = (aij ) ∈ Km×n , b ∈ Km . Gesucht ist dann x ∈ Kn , so dass a11 x1 + a12 x2 + . . . + a1n xn b1 a21 x1 + a22 x2 + . . . + a2n xn b2 A · x = .. .. .. = .. = b. . . . . am1 x1 + am2 x2 + . . . + amn xn bm Bemerkung 8.9 Ob ein Gleichungssystem A · x = b mit A ∈ Km×n , x ∈ Kn , b ∈ Km lösbar ist hängt von der Beschaffenheit der Matrix A beziehungsweise der durch sie definierten linearen Abbildung ab. Betrachtet man die lineare Abbildung f : Kn → Km , x → Ax, so gilt: (i) Ax = b lösbar ⇔ b ∈ Im(f ). (ii) Ax = b besitzt eindeutige Lösung ⇔ b ∈ Im(f ) und Kern(f ) = {0}. Beweis. (i) folgt direkt aus der Definition von Im(f ). (ii) ”Eindeutige Lösung ⇒ Kern(f ) = {0} ”: Sei x∗ ∈ Kn die eindeutige Lösung von Ax = b, und angenommen es existiert y ∈ Kern(f ), y 6= 0. Wegen Ay = 0 folt dann 135 8 Lineare Abbildungen und Matrizen Ax∗ + Ay = b und damit A(x∗ + y) = b. Damit wäre aber auch (x∗ + y) eine Lösung. Widerspruch zur Annahme. ”b ∈ Im(f ) und Kern(f ) = {0} ⇒ Eindeutigkeit”: Wegen b ∈ Im(f ) existiert x∗ ∈ Kn : Ax∗ = b. Angenommen es existierte noch eine weitere Lösung y ∈ Kn , y 6= x∗ : Ay = b. Dann ließe sich y schreiben als y = x∗ + z mit z ∈ Kn , z 6= 0. Damit würde dann aber gelten: Ay = b ⇔ A(x∗ + z) = b ⇔ Ax∗ + Az = b ⇔ Az = 0 und damit z ∈ Kern(f ). Widerspruch zur Annahme. Um eine Anschauung zu entwickeln soll der Einsatz von linearen Gleichungssystemen im Folgenden bei der Berechnung von Schnittpunkten zwischen Ebenen im R3 gezeigt werden. Eine Ebene im R3 lässt sich über eine lineare Gleichung beschreiben E := {x ∈ R3 | a1 x1 + a2 x2 + a3 x3 = b}, mit Koeffizienten ai ∈ R, i = 1, 2, 3 und rechter Seite b ∈ R. Um den Schnittpunkt dreier Ebenen E1 , E2 , E3 im R3 zu berechnen, muss dementsprechend x ∈ R3 gefunden werden, so dass gilt: a11 x1 + a12 x2 + a13 x3 = b1 a21 x1 + a22 x2 + a23 x3 = b2 a31 x1 + a32 x2 + a33 x3 = b3 (E1 ) (E2 ) (E3 ) oder kurz A · x = b, mit A = (aij ) ∈ R3×3 und x = (xi ) ∈ R3 , b = (bi ) ∈ R3 . Seien zum Beispiel E1 := {x ∈ R3 | 2x1 + x2 + 3x3 = 8}, E2 := {x ∈ R3 | 2x1 + 2x2 + 4x3 = 12}, E3 := {x ∈ R3 | − 4x1 + 4x2 + 6x3 = 14}. Fasst man die Koeffizienten in der b ∈ R3 zusammen, so lässt sich das 2 2 A·x= −4 Matrix A ∈ R3×3 und die rechte Seite im Vektor Gleichungssystem schreiben als 1 3 x1 8 2 4 · x2 = 12 = b. 4 6 x3 14 Um die Schnittmenge der Ebenen zu bestimmen, muss also die Lösungsmenge dieser Matrixgleichung gefunden werden. 136 8.4 Gauß-Elimination 8.4 Gauß-Elimination Existiert eine Lösung eines linearen Gleichungssystems, so lässt sich diese mit dem Eliminationsverfahren von Gauß finden. Dabei formt man Matrix und rechte Seite geeignet um, so dass sich bei gleichbleibender Lösung eine Zeilenstufenform der Matrix ergibt, aus der man die Lösung durch einfaches Einsetzen ablesen kann. Beispielhaft sei hier die Berechnung des Schnittpunktes der drei Ebenen aus obigem Beispiel durchgeführt. Ausgehend von den drei Gleichungen 2x1 + x2 + 3x3 = 8 2x1 + 2x2 + 4x3 = 12 −4x1 + 4x2 + 6x3 = 14 (i) (ii) (iii) erhält man durch Addition des Vielfachen einer Gleichung zu den anderen zunächst 2x1 + x2 + 3x3 = 8 x2 + x3 = 4 6x2 + 12x3 = 30 (i) (ii := ii + (−1) · i) (iii := iii + 2 · i) und schließlich die sogenannte Zeilenstufenform 2x1 + x2 + 3x3 = 8 x2 + x3 = 4 6x3 = 6 (i) (ii) (iii := iii + (−6) · ii) Nun lässt sich die Lösung direkt von unten nach oben ablesen. Denn durch einfaches Dividieren findet man aus (iii) nun zunächst x3 = 1. Einsetzen von x3 in (ii) und Umformen ergibt x2 = 3 und schließlich Einsetzen von x2 und x3 in (i) und Umformen x1 = 1. Man rechnet zudem leicht nach, dass Gleichungssystem 2 1 à · x = 0 1 0 0 auch die Lösung des ursprünglichen 2 2 A·x= −4 die Lösung xT = (1, 3, 1) des so umgeformten 3 x1 8 1 · x2 = 4 = b̃ 6 x3 6 Gleichungssystem 1 3 x1 8 2 4 · x2 = 12 = b 4 6 x3 14 ist. Dieses Vorgehen bezeichnet man als Gauß-Elimination, es lässt sich auf beliebige Matrizen A ∈ Rm×n anwenden und soll nun im Folgenden systematisch untersucht werden. 137 8 Lineare Abbildungen und Matrizen Die Lösungsmenge eines linearen Gleichungssystems Ax = b lässt sich ganz allgemein schreiben als L(A, b) := {x ∈ Rn | Ax = b}. Ist dieses Menge leer, so ist das Gleichungssystem nicht lösbar. Enthält sie genau einen Vektor, so ist dies eine eindeutige Lösung. Gibt es mehr als ein Element in der Lösungsmenge, so hat das Gleichungssystem mehr als einen Lösung. Das Ziel des Algorithmus von Gauß ist es, diese Menge zu bestimmen. Dazu schreibt man das zu lösende Gleichungssystem oftmals der Einfachheit halber als erweiterte Koeffizientenmatrix a11 a12 . . . a1n b1 a21 a22 . . . a2n b2 (A, b) = .. .. .. .. . . . . . . . . am1 am2 . . . amn bm Nun stellt man zunächst direkt fest, dass es Gleichungssysteme gibt, die sich besonders einfach lösen lassen. Diese haben die folgende Gestalt, bei der das untere Dreieck der Matrix nur aus Nullen besteht. Definition 8.10 (Zeilenstufenform) Eine Matrix A ∈ Rm×n besitzt Zeilenstufenform, falls es einen Zahl r (0 ≤ r ≤ m) gibt, so dass (i) in den Zeilen 1, . . . , r nicht nur Nullen stehen und in den Zeilen r + 1, . . . , m nur Nullen, (ii) die nicht-Null Einträge mit dem kleinsten Spaltenindex ji := min{j | aij 6= 0} (sogenannte Pivots) die Bedingung j1 < j2 < . . . < jr erfüllen. Die Matrix hat somit die Gestalt 0 . . . 0 a1j1 ∗ . . . ∗ ∗ 0 . . . . . . 0 a2j2 . . . 0 . . . 0 a3j3 ∗ . . . ... A= arjr ∗ 0 0 ... .. . 0 ... 138 ... ∗ ... ∗ ... ∗ .. . , ... ∗ ... 0 .. . ... 0 8.4 Gauß-Elimination wobei an mit ∗ gekennzeichneten Stellen sowohl von Null verschiedenen Einträge als auch Nullen stehen dürfen, unterhalb der eingezeichneten Linie jedoch nur Nullen stehen. Durch Vertauschen von Spalten lässt sich zudem immer erreichen, dass die Pivots auf der Diagonalen der Matrix stehen, d.h. das j1 = 1, j2 = 2, . . . , jr = r gilt. Bei der Spaltenvertauschung werden die Unbekannten xi vertauscht. Führt man solche Vertauschungen durch, muss man sich daher diese Veränderungen merken und nachher die Lösung entsprechend umnennen. Hat man jedoch ein Gleichungssystem in dieser Form, so lassen sich die Lösungen direkt ausrechnen. Satz 8.11 (Lösungen einer Matrix in Zeilenstufenform) Sei eine lineares Gleichungssystem in Zeilenstufenform gegeben mit a11 a12 . . . . . . a1n b1 0 a22 . . . . . . a2n b2 . .. . . .. .. . . . . . . 0 . . . arr . . . arn br . (A, b) = 0 0 . . . 0 . . . 0 br+1 0 . .. .. .. . . 0 0 ... 0 ... 0 bm (i) Gibt es ein bi 6= 0, r + 1 ≤ i ≤ m, so ist das Gleichungssystem nicht lösbar. (ii) Sind alle bi = 0, r+1 ≤ i ≤ m, so lässt sich das Gleichungssystem rekursiv auflösen. Beweis. (i) Ist bi 6= 0, so lautet die i-te Gleichung 0 · x1 + 0 · x2 + . . . + 0 · xn = bi 6= 0 und keine Wahl von x kann diese Gleichung lösen. (ii) Die Variablen xr+1 , . . . , xn sind freie Variablen und können einen beliebigen Wert annehmen. Daher wird ihnen ein freier Parameter λ1 , . . . , λk mit k := n − r zugewiesen: xr+1 = λ1 , xr+2 = λ2 , . . . , xn = λk . Damit lassen sich nun die übrigen abhängigen Variablen x1 , . . . , xr als eine Lösung dieser Parameter angeben. Dazu geht man von unten nach oben vor. Zunächst berechnet man ausgehend von der r-ten Gleichung arr xr + ar,r+1 xr+1 + ar,r+2 xr+2 + . . . + ar,n xn = br durch Einsetzen der bekannten xr+1 , . . . , xn den Wert für xr zu arr xr + ar,r+1 λ1 + ar,r+2 λ2 + . . . + ar,n λk = br 1 (b2 − ar,r+1 λ1 − ar,r+2 λ2 − . . . − ar,n λk ). ⇔ xr = arr 139 8 Lineare Abbildungen und Matrizen Somit sind nun die xr , . . . , xn bekannt und auch die r − 1-te Gleichung ar−1,r−1 xr−1 + ar−1,r xr + ar−1,r+1 xr+1 + ar−1,r+2 xr+2 + . . . + ar−1,n xn = br−1 kann analog verwendet werden, um xr−1 zu berechnen. Diese Verfahren führt man bis zum Index r = 1 durch und erhält somit eine Parametrisierung der Lösung. Man sieht folglich, dass sich Matrizen in Zeilenstufenform direkt lösen lassen. Die Idee des Verfahrens von Gauß ist es nun ein beliebiges Gleichungssystem durch Umformungen in ein Gleichungssystem in Zeilenstufenform zu überführen, ohne dass sich dabei die Lösungsmenge ändert. Wesentlich sind dabei die sogenanten elementaren Zeilenumformungen. Definition 8.12 (elementare Zeilenumformungen) Eine elementare Zeilenumformung ist eine der folgenden drei Operationen (I) Vertauschung von zwei Zeilen. (II) Multiplikation einer Zeile mit einer Zahl λ 6= 0. (III) Addition des λ-fachen einer Zeile zu einer anderen (λ 6= 0). Führt man diese Operationen auf einem Gleichungssystem aus, so bleibt die Lösungsmenge gleich. Satz 8.13 Sei (Ã, b̃) durch endlich viele elementare Zeilenumformungen aus dem Gleichungssystem (A, b) entstanden. Dann haben beiden Gleichungssysteme dieselbe Lösungsmenge L(A, b) = L(Ã, b̃). Beweis. Es genügt zu zeigen, dass sich die Lösungsmenge bei jeder elementaren Zeilenumformung nicht ändert. Dann ist auch die mehrfache Hintereinanderausführung problemlos möglich. Die Umformung (I) ändert die Lösungsmenge sicher nicht, denn die Reihenfolge in der die Gleichungen notiert werden ist für die Lösung irrelevant. Die Umformung (II) ändert die Lösungsmenge nicht, denn erfüllt eine Lösung x = (x1 , . . . , xn ) die Gleichung ai1 x1 + . . . + ain xn = bi , so auch die Gleichung λai1 x1 + . . . + λain xn = λbi . Umgekehrt sieht man durch Multiplikation mit λ−1 , dass jede Lösung der zweiten Gleichung auch Lösung der ersten Gleichung ist. Somit ist jede Lösung der einen Gleichung auch Lösung der anderen und die Lösungsmenge ist identisch. 140 8.4 Gauß-Elimination Die Umformung (III) ändert die Lösungsmenge ebenfalls nicht, denn die beiden Gleichungssysteme ai1 x1 + . . . + ain xn = bi ak1 x1 + . . . + akn xn = bk und ai1 x1 + . . . + ain xn = bi (ak1 + λai1 )x1 + . . . + (akn + λain )xn = bk + λbi haben diesselbe Lösungsmenge. Dies sieht man erneut dadurch, dass man Lösungen des einen Gleichungssystems in Lösungen des zweiten überführen kann und umgekehrt. Es lässt sich nun aber jedes Gleichungssystem mittels den elementaren Zeilenumformungen in ein äquivalentes Gleichungssystem in Zeilenstufenform überführen. Satz 8.14 (Umformungssatz von Gauß) Jede Matrix A lässt sich durch elementare Zeilenumformungen in eine Matrix à in Zeilenstufenform umformen. Beweis. Sind alle Einträge der Matrix A ∈ Rm×n gleich Null, so liegt per Definition schon eine Zeilenstufenform mit r = 0 vor und der Satz ist direkt gezeigt. Sei daher mindestens ein Eintrag der Matrix von Null verscheiden und somit gibt es auch mindestens einen Spalte, in der nicht alle Einträge Null sind. Damit kann man sich diejenige solche Spalte mit kleinstem Index suchen, d.h. j1 = min{j | für mindestens ein i gilt aij 6= 0}. A= 0 ... .. . .. . .. . 0 0 .. .. . . .. . ai1 ,j1 .. .. . . 0 ... 0 ∗ ∗ ... ... ∗ ∗ ... ... ∗ ∗ ... ... ∗ . ∗ ... ... ∗ ∗ ... ... ∗ In der j1 -ten Spalte ist somit mindestens ein Eintrag ungleich Null. Falls dies nicht bereits der Eintrag a1,j1 der ersten Zeile ist, so findet man eine Zeile i1 bei der ai1 ,j1 6= 0 gilt und durch Vertauschung der i1 -ten Zeile mit der ersten Zeile erhält man einen von Null verschiedenen Pivot ã1,j1 = ai1 ,j1 . Durch diese elementare Zeilenumformung vom Typ (I) erhält man somit die erste Zeile der Matrix Ã. 0 . . . 0 ã1,j1 ∗ . . . . . . ∗ .. .. .. . . . ∗ ... ... ∗ . .. à = . ∗ ∗ ... ... ∗ .. . . .. .. .. . . ∗ ... ... ∗ 0 ... 0 ∗ ∗ ... ... ∗ 141 8 Lineare Abbildungen und Matrizen Nun kann man die unterhalb von ã1,j1 stehenden Einträge zu Null machen, indem man die elementare Zeilenumformung vom Typ (II) auf jede der Zeilen anwendet und jeweils ein Vielfaches der ersten Zeile hinzuaddiert. Dabei wählt man für den Eintrag der k-ten Zeile den Faktor λ so, dass gilt ak,j ak,j1 + λã1,j1 = 0 ⇒ λ = − 1 . ã1,j1 Damit erhält man eine Matrix der Form 0 . . . 0 ã1,j1 ∗ . . . . . . ∗ .. .. . . 0 . . . . . . . Ã1 = . . . A 2 . .. .. .. . . 0 ... 0 0 Nun kann man die Untermatrix A2 ∈ Rm−1×n−j1 betrachten und dasselbe Verfahren auf diese anwenden. Damit ergibt sich die zweite Zeile der gesuchten Matrix und man erhält 0 . . . 0 ã1,j1 ∗ . . . . . . ∗ .. .. . . 0 0 ã2,j2 . . . ∗ . .. .. . . Ã1 = . . . 0 . .. .. .. . . 0 A3 0 ... 0 0 0 Nach diesem Muster fährt man fort bis entweder eine Untermatrix vorliegt, die nur Null Einträge besitzt, oder bis keine Untermatrix mehr übrig bleibt, da die Anzahl der Zeilen/Spalten mit jedem Schritt abnehmen. Somit kann nun das gesamte Vorgehen angeben werden. Definition 8.15 (Eliminationsverfahren von Gauß) Sei das lineare Gleichungssystem Ax = b mit A ∈ Rm×n , x ∈ Rn , b ∈ Rm gegeben. Der Eliminationsverfahren von Gauß bestimmt die Lösungsmenge L(A, b) durch folgendes Vorgehen: (a) Notiere die Koeffizientenmatrix (A, b). (b) Überführe diese durch elementare Zeilenumformungen in (Ã, b̃) mit einer Matrix à in Zeilenstufenform. (c) Bestimme anhand der b̃r+1 , . . . , b̃m , ob einen Lösung exisiert und bestimme diese gegebenenfalls durch Berechnung der Parametrisierung. Beispiel 8.16 (i) Das Vorgehen: 2 1 2 2 −4 4 142 Beispiel vom Anfang des Kapitels liest sich somit als folgendes 3 8 2 1 3 8 2 1 3 8 (III) (III) 4 12 → 0 1 1 4 → 0 1 1 4 6 14 0 6 12 30 0 0 6 6 8.4 Gauß-Elimination (ii) 0 3 1 2 4 1 2 3 3 1 1 (I) 2 7 7 8 6 (III) 2 7 7 8 6 → → 0 0 1 2 3 3 1 0 3 1 2 4 2 3 3 1 1 2 3 3 1 (III) 3 1 2 4 → 0 3 1 2 4 3 1 2 4 0 0 0 0 0 Da für b̃3 = 0 gilt, lässt sich dieses Gleichungssystem lösen. Setzt man x3 = λ1 und x4 = λ2 mit den freien Parametern λ1 , λ2 ∈ R, so erhält man zunächst durch Einsetzen in die zweite Gleichung 0x1 + 3x2 + 1λ1 + 2λ2 = 4 ⇒ 2 1 x2 = 4 − λ1 − λ2 . 3 3 Durch Einsetzen in die erste Gleichung erhält man schließlich 1 2 1x1 + 2(4 − λ1 − λ2 ) + 3λ1 + 3λ2 = 1 3 3 ⇒ 7 5 x1 = −7 − λ1 − λ2 . 3 3 Die Lösungsmenge sieht dementsprechend folgendermaßen aus −7 − 73 λ1 − 53 λ2 4 − 1 λ1 − 2 3 3 ∈ R4 | λ1 , λ2 ∈ R}. L(A, b) = { λ1 λ2 143 Literaturverzeichnis [Braunß] H.-A. Braunß, H. Junek, T. Krainer: Grundkurs Mathematik in den Biowissenschaften, Wirkhäuser Verlag (Basel, Boston, Berlin), 2007 [Ebbinghaus] H.-D. Ebbinghaus et. al, Zahlen, Springer Verlag (Berlin, Heidelberg), 3. Auflage, 1992 (ISBN 3-540-55654-0) [Fischer] G. Fischer: Lineare Algebra, Springer Spektrum (Wiesbaden), 2014 (ISBN 3-658-03944-8) [Forster] O. Forster: Analysis 1 (Differential- und Integralrechnung einer Veränderlichen), Vieweg Verlag (Wiesbaden), 2008 (ISBN 3528-67224-2) [Jänich] K. Jänich: Lineare Algebra, Springer (Berlin, Heidelberg), 2008 (ISBN 3-540-75501-2) [Königsberger] K. Königsberger: Analysis 1, Springer Verlag (Berlin, Heidelberg), 2004 (ISBN 3-540-58876-0) 145