Mathematik für Informatiker B und (Teile von) C Malte Braack Christian-Albrechts-Universität zu Kiel 06.11.2015 Inhaltsverzeichnis 1 Modulare Arithmetik 1.1 Teiler . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Euklidischer Algorithmus . . . . . . . . . . . . . . . 1.3 Restklassen . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Operationen auf den Restklassen . . . . . . 1.3.2 Anwendung von Restklassen auf Prüfziffern Eine Ziffer fehlerhaft . . . . . . . . . . . . . Zahlendreher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Gruppen 2.1 Isomorphe Gruppen . . . . . . . . . . . . . . . . . . . . 2.2 Klassifikation von Gruppen . . . . . . . . . . . . . . . . 2.2.1 Klassifikation der Gruppen mit einem Element . 2.2.2 Klassifikation der Gruppen mit zwei Elementen 2.2.3 Klassifikation der Gruppen mit drei Elementen . 2.2.4 Gruppen mit vier Elementen . . . . . . . . . . . 2.3 Zyklische Gruppen . . . . . . . . . . . . . . . . . . . . 2.4 Permutationsgruppen . . . . . . . . . . . . . . . . . . . 2.5 Existenz von multiplikativen Inversen in Zm . . . . . . 2.6 Die Gruppe Z∗n und die Eulersche Funktion . . . . . . . 2.7 RSA-Public-Key Verschlüsselung . . . . . . . . . . . . 2.7.1 Chiffrieren . . . . . . . . . . . . . . . . . . . . . 2.7.2 Dechiffrieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 3 4 5 6 6 6 . . . . . . . . . . . . . 9 11 12 12 12 12 13 13 14 15 17 19 20 21 3 Ringe 23 3.1 Der Ring Zm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.2 Polynomringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 ii M. Braack - INHALTSVERZEICHNIS 4 Körper 4.1 Angeordnete Körper . . . . . . . . . . . . . . . . . . 4.2 Der Körper der reellen Zahlen . . . . . . . . . . . . . 4.2.1 Darstellung reeller Zahlen . . . . . . . . . . . 4.3 Der Körper der komplexen Zahlen . . . . . . . . . . . 4.3.1 Graphische Darstellung der komplexen Zahlen 4.4 Polynomdivision . . . . . . . . . . . . . . . . . . . . . 4.5 Polynome in C . . . . . . . . . . . . . . . . . . . . . 4.6 Polynome in R . . . . . . . . . . . . . . . . . . . . . 4.6.1 Intervallhalbierungsverfahren . . . . . . . . . 4.7 Polynomdivision zur Datensicherung . . . . . . . . . 4.8 Horner-Schema . . . . . . . . . . . . . . . . . . . . . 5 Vektorräume 5.1 Beispiele von Vektorräumen . . . . . . 5.1.1 Die Vektorräume Rn und Cn . . 5.1.2 Der Vektorräume Zn2 . . . . . . 5.1.3 Funktionenräume . . . . . . . . 5.2 Unterräume . . . . . . . . . . . . . . . 5.3 Linearkombinationen und aufgespannte 5.4 Lineare Abhängigkeit . . . . . . . . . . 5.5 Basen und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teilräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Lineare Abbildungen 6.1 Kern und Bild . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Matrizenprodukte . . . . . . . . . . . . . . . . . . . . . . . . 6.2.2 Endomorphismen des Rn . . . . . . . . . . . . . . . . . . . . 6.2.3 Dreiecksmatrizen . . . . . . . . . . . . . . . . . . . . . . . . 6.2.4 Transponierte und symmetrische Matrizen . . . . . . . . . . 6.2.5 Rang einer Matrix . . . . . . . . . . . . . . . . . . . . . . . 6.3 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Allgemeine und spezielle Lösungen . . . . . . . . . . . . . . 6.3.2 Vorwärts- und Rückwärtseinsetzen . . . . . . . . . . . . . . 6.3.3 Gauß’sches Eliminationsverfahren bei quadratischen regulären Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C Code . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 29 30 32 32 35 35 38 39 40 40 42 . . . . . . . . 45 46 46 47 47 47 48 49 51 . . . . . . . . . . 57 59 62 64 65 67 68 69 71 72 73 . 74 . 76 INHALTSVERZEICHNIS iii 6.3.4 6.4 6.5 6.6 Gauß’sche Elimination bei nicht notwendigerweise quadratischen Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . Determinanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 Entwicklungssatz von Laplace . . . . . . . . . . . . . . . . . 6.4.2 Berechnung von Inversen mittels Determinanten . . . . . . . 6.4.3 Lösen von Gleichungssystemen mittels Determinanten . . . . Eigenwerte und Eigenvektoren . . . . . . . . . . . . . . . . . . . . . Skalarprodukt und orthogonale Matrizen . . . . . . . . . . . . . . . 6.6.1 Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.2 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . 7 Folgen und Grenzwerte 7.1 Metrische Räume . . . . . . . . . . . . . 7.1.1 Äquivalente Metriken . . . . . . . 7.2 Folgen . . . . . . . . . . . . . . . . . . . 7.2.1 Konvergente Folgen in metrischen 7.2.2 Cauchy-Folgen . . . . . . . . . . 7.2.3 Folgen in angeordneten Körpern . 7.2.4 Folgen reeller Zahlen . . . . . . . 7.2.5 Folgen mit rationalen Elementen 7.2.6 Folgen in C . . . . . . . . . . . . 7.2.7 Rekursiv definierte Folgen . . . . 7.2.8 Landau-Symbole . . . . . . . . . . . . . . . . . . . . . . . . Räumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Reihen 8.1 Harmonische Reihe . . . . . . . . . . . . . . 8.2 Geometrische Reihe . . . . . . . . . . . . . . 8.3 Die Eulersche Zahl e . . . . . . . . . . . . . 8.4 Konvergenzkriterien für Reihen . . . . . . . 8.4.1 Umsortierungen . . . . . . . . . . . . 8.4.2 Alternierende Reihen . . . . . . . . . 8.4.3 Absolut konvergente Reihen . . . . . 8.5 Vervollständigungen . . . . . . . . . . . . . 8.6 Potenzreihen . . . . . . . . . . . . . . . . . . 8.6.1 Die Exponentialfunktion . . . . . . . 8.6.2 Die Trigonometrischen Funktionen . 8.6.3 Die Binomialreihe . . . . . . . . . . . 8.6.4 Allgemeinere Form von Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 80 84 86 87 88 94 94 96 . . . . . . . . . . . . . . . . . . . . . . 99 99 103 104 105 106 107 108 111 113 113 116 . . . . . . . . . . . . . 119 . 121 . 122 . 123 . 123 . 123 . 124 . 125 . 127 . 128 . 131 . 132 . 132 . 133 iv M. Braack - INHALTSVERZEICHNIS 9 Stetige Funktionen 9.1 Eigenschaften stetiger Funktionen . . . . . . . . . . . . . . 9.2 Die Potenzfunktion mit rationalen Exponenten . . . . . . . 9.3 Die Exponentialfunktion in Q . . . . . . . . . . . . . . . . 9.4 Die Exponentialfunktion in C . . . . . . . . . . . . . . . . 9.5 Die Logarithmusfunktion . . . . . . . . . . . . . . . . . . . 9.6 Die Exponential- und Logarithmusfunktion zur allgemeinen 10 Differenzierbare Funktionen 10.1 Differentiationsregeln . . . . . . . . . . 10.2 Lokale Extrema und der Mittelwertsatz 10.3 Taylor-Entwicklung . . . . . . . . . . . 10.4 Approximation von Ableitungen . . . . 10.5 Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Basis . . . . . . . . . . . . . . der Differentialrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 . 137 . 138 . 139 . 140 . 143 . 143 . . . . . 145 . 148 . 152 . 155 . 157 . 158 Kapitel 1 Modulare Arithmetik 1.1 Teiler Das nachfolgende Lemma charakterisiert die Division mit Rest. Lemma 1.1 Zu jedem Zahlenpaar (a, d) ∈ Z×Z∗ gibt es eindeutig bestimmte Zahlen q, r ∈ Z mit a = dq + r und 0 ≤ r < |d|. Bezeichnung: a heißt hierbei Dividend, d ist der Divisor, q der Quotient und r der Rest. Beispiele: • (a, d) = (99, 4), 99 = 24 · 4 + 3, also q = 24 und r = 3. • (a, d) = (99, −4), 99 = (−24) · (−4) + 3, also q = −24 und r = 3. • (a, d) = (−99, −4), −99 = 25 · (−4) + 1, also q = 25 und r = 1. • (a, d) = (−99, 4), −99 = (−25) · 4 + 1, also q = −25 und r = 1. Also hat q immer das gleiche Vorzeichen wie das Produkt ad. Beweis. Sei zunächst a, d ≥ 0. Wir setzen q als die größte ganze Zahl mit dq ≤ a und r := a − dq, also r ≥ 0. Aufgrund der Maximalität von q gilt auch r < |d|. Die Eindeutigkeit von q folgt aus der Forderung 0 ≤ r < |d|. Die übrigen Fälle a ≤ 0 bzw. d < 0 erfolgen analog. Definition 1.2 Gilt im obigen Satz r = 0, so heißt d Teiler von a. Man schreibt dann d|a, anderenfalls d6 | a. 2 M. Braack - Modulare Arithmetik Jedes d ∈ Z∗ ist Teiler der Null: d|0. Die Eigenschaft “d ist Teiler von a” kann man auffassen als eine transitive Relation auf Z. Es folgt also insbesondere a|b ∧ b|c =⇒ a|c . Eine andere offensichtliche Regel ist: d|a ∧ d|b =⇒ d|(αa + βb) ∀α, β ∈ Z . (1.1) Definition 1.3 Zu zwei ganzen Zahlen a, b ∈ Z heißt d ∈ Z∗ ein gemeinsamer Teiler, wenn d|a und d|b. Gilt ferner d > 0 und für jeden anderen gemeinsamen Teiler c ∈ Z, c|d, so heißt d größter gemeinsamer Teiler und wird bezeichnet mit d = ggt(a, b). Lemma 1.4 Zu a, b ∈ Z kann es maximal einen größten gemeinsamen Teiler geben. Beweis. Seien d1 , d2 > 0 zwei größte gemeinsame Teiler von a und b. Dann gilt di |dj , für i, j ∈ {1, 2}, also d1 = q1 d2 und d2 = q2 d1 mit geeigneten q1 , q2 ∈ Z. Da aber d1 und d2 als positiv vorausgesetzt wurden, muß auch q1 > 0 und q2 > 0 gelten. Ferner folgt d1 = q1 q2 d1 , bzw. q1 q2 = 1. Da q1 , q2 ∈ N, folgt q1 = q2 = 1. Dennoch wissen wir noch nicht, ob es immer einen ggt gibt. Wir werden dies aber etwas später sehen. Lemma 1.5 Es gilt für alle d ∈ N: (i) d = ggt(qd, d) für alle q ∈ Z. (ii) Sind a, b, q ∈ Z, so gilt die Äquivalenz: d = ggt(a, b) ⇐⇒ d = ggt(a − qb, b) . Beweis. (i): d ist offensichtlich ein gemeinsamer Teiler von qd und von d. Für jeden weiterer Teiler c von qd und d gilt c|d, also d = ggt(qd, d). (ii): Wir zeigen zunächst “⇒”: Ist d = ggt(a, b) so ist d auch ein Teiler von a − qb wegen (1.1). Sei c ∈ Z ein weiterer Teiler von a − qb und b. Dann bleibt zu zeigen, dass c|d. Dies sieht man wie folgt: Da c|qb und c|a − qb ist auch c|a. Somit ist c gemeinsamer Teiler von a und b. Da nach Voraussetzung d = ggt(a, b) folgt c|d. Die andere Richtung “⇐” folgt analog. 1.2 Euklidischer Algorithmus 1.2 3 Euklidischer Algorithmus Der euklidische Algorithmus kann verwendet werden, um den größten gemeinsamen Teiler d = ggt(a, b) zu ermitteln. Wir nehmen an, dass |a| > |b|. Dann geht man folgendermaßen vor: a = bq0 + r0 , 0 ≤ r0 < |b| , b = r0 q1 + r1 , 0 ≤ r1 < r0 , r0 = r1 q2 + r2 , .. . 0 ≤ r2 < r1 , rn−2 = rn−1 qn + rn , 0 ≤ rn < rn−1 , rn−1 = rn qn+1 . In jedem Schritt wird der Rest echt kleiner, 0 ≤ ri+1 < ri . Daher bricht diese sukzessive Dividieren mit Rest irgendwann ab, wenn der Rest den Wert Null erreicht. Wenn dieses Abbruchkriterium erreicht ist gilt rn = ggt(a, b) . (1.2) Wir werden sehen, dass sogar gilt: rn = ggt(ri , ri−1 ) ∀i = 0, . . . , n . (1.3) Insbesondere folgt dann auch (1.2). Die Eigenschaft (1.3) sieht man mittels Induktion nach i. Da wir den Induktionsbeweis rückwärts führen lautet die Induktionsannahme rn = ggt(rn , rn−1 ). Dies ist aber eine unmittelbare Folgerung aus Lemma 1.5 (i), da rn−1 ein Vielfaches von rn ist. Wir nehmen nun rn = ggt(ri , ri−1 ) für ein i ∈ {1, . . . , n} an. Da nach Konstruktion ri = ri−2 − ri−1 qi gilt, folgt rn = ggt(ri−1 , ri−2 ) nach Lemma 1.5 (ii). Beispiel: Zur Ermittlung von ggt(91, 133) erhält man: 133 = 91 · 1 + 42 91 = 42 · 2 + 7 42 = 7 · 6 =⇒ 7 = ggt(91, 133) . Als Nebenprodukt dieses Algorithmus erhalten wir folgenden Existenzsatz: 4 M. Braack - Modulare Arithmetik Satz 1.6 Zu zwei ganzen Zahlen a, b ∈ Z, a, b 6= 0, gibt es genau einen größten gemeinsamen Teiler d = ggt(a, b). Ferner existieren α, β ∈ Z mit d = αa + βb. Beweis. Die Existenz haben wir zuvor mittels des Euklidischen Algorithmus gezeigt. Die Eindeutigkeit haben wir in Lemma 1.4 bereits gezeigt. Es bleibt also die Behauptung zu zeigen, dass sich der ggt(a, b) stets als Linearkombinationen von a und b darstellen läßt: Hierzu verifizieren wir, dass der Rest rn im Euklidischen Algorithmus eine Linearkombination von a und b ist, also rn = αa + βb: r0 = a − bq0 = α0 a + β0 b r1 = b − r0 q1 = b − (α0 a + β0 b)q1 = α1 a + β1 b r2 = r0 − r1 q2 = α2 a + β2 b .. . rn = rn−2 − rn−1 qn = αn a + βn b Mit jeweils geeigneten Koeeffizienten αi , βi ∈ Z. 1.3 Restklassen Definition 1.7 Zwei ganze Zahlen a, b ∈ Z heißen kongruent modulo m ∈ N, wenn m|(a − b). In diesem Fall schreibt man a ≡ b mod m . Lemma 1.8 Die Relation “kongruent modulo m” ist eine Äquivalenzrelation auf Z. Die zugehörigen Äquivalenzklassen heißen Restklassen modulo m. Diese werden mit [·]m bezeichnet. Beweis. Für den Nachweis einer Äquivalenzrelation muss man die Reflexivtät, die Symmetrie und die Transitivität nachweisen. Wir lassen diese einfache Übung als Übungsaufgabe. Man überlege sich folgende Äquivalenz: a ∈ [b]m ⇔ [a]m ∈ [b]m . Lemma 1.9 Für a, b ∈ Z und m ∈ N sind äquivalent: (a) a ≡ b mod m. (b) a und b liefern bei Division durch m den selben Rest. 1.3 Restklassen 5 (c) Für die Restklassen modulo m gilt: [a]m = [b]m . Beweis. (a) ⇒ (b) : Laut Definition gilt m|(a − b). Also existiert ein d ∈ Z mit a − b = md. Sei ferner a = md1 + r1 und b = md2 + r2 mit 0 ≤ r1 , r2 < m. Es folgt m(d1 − d2 ) + r1 − r2 = md . Somit muß m|(r1 − r2 ). Da aber −m < r1 − r2 < m folgt r1 = r2 . (b) ⇒ (c) : Es gelte a = md1 + r und b = md2 + r, also a − md1 = b − md2 . Dann gilt aber a ∈ [b + m(d1 − d2 )]m = [b]m , und mit dem oben gezeigten [a]m = [b]m . (c) ⇒ (a) : Aus [a] = [b] folgt a ∈ [b]. Dies besagt aber gerade, dass a und b kongruent modulo m sind. Als Konsequenz dieses Satzes ergibt sich, dass es genau m Restklassen gibt, nämlich [0], [1], . . . , [m − 1]. Die Restklassen werden also durch den zugehörigen Rest repräsentiert. 1.3.1 Operationen auf den Restklassen Lemma 1.10 Die Operationen ⊕ und auf der Menge der Restklassen, definiert durch [a]m ⊕ [b]m := [a + b]m , [a]m [b]m := [a · b]m . sind wohldefiniert. Beweis. Mit Wohldefiniertheit ist hier gemeint, dass die Operationen unabhängig sind von den jeweiligen Repräsentanten. Beispielsweise gilt für a, a0 ∈ [a]m und b, b0 ∈ [b]m : [a]m ⊕ [b]m = [a0 ]m ⊕ [b0 ]m , [a]m [b]m = [a0 ] [b0 ]m . Die Begründung hierfür ist, dass m|(a − a0 ) sowie m|(b − b0 ). Hiermit gilt dann auch m|((a + b) − (a0 + b0 )) bzw. [a + b]m = [a0 + b0 ]m . Die Multiplikation geht entsprechend und lassen wir als Übungsaufgabe. Diese Operationen auf den Restklassen erlauben es uns in Zukunft einfach mit den Repräsentanten zu rechnen. Wir können also neue Operationen auf den Zahlen 0, 1, . . . , m − 1 folgendermassen definieren: a ⊕ b = (a + b) mod m a b = (ab) mod m . 6 M. Braack - Modulare Arithmetik 1.3.2 Anwendung von Restklassen auf Prüfziffern Die ISBN Nummern im Buchhandel werden an der letzten Stelle mit einer Prüfziffer versehen. Anhand dieser können manche Übertragungsfehler aufgedeckt werden. Der Aufbau der 10-stelligen ISBN Nummer ist wie folgt (verwendet bis zum Jahr 2006): An den ersten neun Stellen ai stehen Ziffern aus denen die letzte Ziffer (Prüfziffer) a10 folgendermaßen gebildet wird: ! 9 X a10 ≡ iai mod 11 . i=1 Im Fall a10 = 10 wird das Symbol “X” verwendet. Seit 1.1.2007 besitzt die ISBN Nummer sogar 13 Stellen (ISBN-13). Beispiel: Das Buch von P. Hartmann [7] besitzt die ISBN Nummer 3-8348-0096-1. Die entsprechende gewichtete Summe der ersten neun Ziffern ergibt 3 · 1 + 8 · 2 + 3 · 3 + 4 · 4 + 8 · 5 + 0 · 6 + 0 · 7 + 9 · 8 + 6 · 9 = 210 . Da 210 ≡ 1 mod 11 erhält man tatsächlich die 1 als letzte Ziffer. Eine Ziffer fehlerhaft Wir werden nin sehen, dass eine fehlerhafte Ziffer zu einer nicht zulässigen Prüfziffer führt. Im Fall, dass eine Ziffer fehlerhaft ist, also abi anstelle von ai , so würde bei gleicher Prüfziffer gelten: iai ≡ iabi mod 11 . Hieraus folgt dann aber i(ai − abi ) ≡ 0 mod 11, bzw. ausgedrückt in Restklassen: [i]11 [ai − abi ]11 = [0]11 . Dann müsste aber i ≡ 0 mod 11 oder ai − abi ≡ 0 mod 11 sein. Da 11 eine Primzahl ist, ist dies nur für den Fall ai = abi möglich. Also liegt keine falsche Ziffer vor. Zahlendreher Wir wollen uns nun überlegen was im Fall eines Zahlendrehers passiert, also bei einem Vertauschen von ai und aj für i 6= j. Bliebe die Prüfziffer gleich, so würde gelten: iai + jaj ≡ (iaj + jai ) mod 11 . 1.3 Restklassen 7 Dies bedeutet aber (i − j)(ai − aj ) ≡ 0 mod 11 . Aufgrund der Rechenregel von Restklassen ist dies aber gleichbedeutend mit: [i − j]11 [ai − aj ]11 = [0]11 . Dann müsste aber i − j ≡ 0 mod 11 oder ai − aj ≡ 0 mod 11 sein. Dies ist aber nur möglich für ai = aj . Also wird die Prüfziffer bei dem Vertauschen zweier verschiedener Ziffern sicherlich anders sein. Bemerkung: Die Begründung, dass aus [a]11 [b]11 = [0]11 folgt, dass [a]11 = [0]11 oder [b]11 = [0]11 gilt, beweisen wir erst im Abschnitt 4. Hierzu ist wichtig, dass 11 eine Primzahl ist. Anderenfalls gilt diese Folgerung nicht. Beispielsweise ist [2]4 [2]4 = [0]4 . 8 M. Braack - Modulare Arithmetik Kapitel 2 Gruppen Im folgenden beschäftigen wir uns mit Mengen G, auf denen eine (binäre) Verknüpfung, beispielsweise mit ∗ bezeichnet, definiert ist. Hierunter versteht man eine Abbildung ∗ : G×G→G (x, y) 7→ x ∗ y Wir beginnen mit Mengen auf denen solch eine Verknüpfung definiert ist, die aber noch recht “schwache” Struktureigenschaften aufweisen. Definition 2.1 (Halbgruppe und Gruppe) Eine Halbgruppe (G, ∗) besteht aus einer Menge G und einer Verknüpfung ∗ : G × G → G auf dieser Menge, so dass das Assoziativgesetz gilt, d.h. (G1) (a ∗ b) ∗ c = a ∗ (b ∗ c) ∀a, b, c ∈ G . Eine Halbgruppe (G, ∗) heißt Gruppe, wenn folgenden Eigenschaften gelten: (G2) Es gibt ein neutrales Element e ∈ G, d.h. a ∗ e = e ∗ a = a ∀a ∈ G . (G3) Für jedes Element a ∈ G existiert ein inverses Element inv∗ (a) ∈ G, d.h. a ∗ inv∗ (a) = e. Eine Gruppe heißt kommutative Gruppe (oder abelsche Gruppe), wenn zusätzlich das Kommutativgesetz gilt, d.h. a∗b = b∗a ∀a, b ∈ G . 10 M. Braack - Gruppen Ist |G| endlich, so spricht man von einer endlichen Gruppe. Beispiele: 1. (Z, +) ist eine kommutative Gruppe mit neutralem Element e = 0 und Inversem inv+ (a) = −a. 2. (Q, +) ist eine kommutative Gruppe mit neutralem Element e = 0 und Inversem inv+ (a) = −a. 3. (Q \ {0}, ·) ist eine kommutative Gruppe mit neutralem Element e = 1 und Inversem inv· (a) = 1/a. 4. (N0 , +) ist nur eine Halbgruppe, da es keine Inversen in dieser Menge gibt (abgesehen von dem Inversen des neutralen Elementes 0). Lemma 2.2 In einer Gruppe G sind die linksinversen und rechtsinversen Elemente gleich, d.h. a ∗ inv∗ (a) = inv∗ (a) ∗ a = e. Beweis. Sei a ∗ inv∗ (a) = e. Dann folgt mit dem Rechtsinverse b = inv∗ (a): inv∗ (a) ∗ a = (b ∗ a) ∗ e = (b ∗ a) ∗ (b ∗ inv∗ (b)) = b ∗ (a ∗ b) ∗ inv∗ (b) = b ∗ e ∗ inv∗ (b) = b ∗ inv∗ (b) = e . Lemma 2.3 In einer Gruppe G gibt es nur ein neutrales Element und zu jedem a ∈ G auch nur ein Inverses. Beweis. Übungsaufgabe. Definition 2.4 (Untergruppe) Eine Teilmenge U ⊂ G einer Gruppe (G, ∗) heißt Untergruppe von G, wenn für alle a, b ∈ U gilt a ∗ b ∈ U und inv∗ (a) ∈ U . Beispiele: 1. (Z, +) ist eine Untergruppe von (Q, +). 2. (N, +) ist hingegen keine Untergruppe von (Q, +), da die Inversen nicht enthalten sind. 2.1 Isomorphe Gruppen 2.1 11 Isomorphe Gruppen Definition 2.5 Eine Abbildung f : G1 → G2 zwischen zwei Gruppen (G1 , ∗) und (G2 , +) heißt (Gruppen-) Homomorphismus, wenn f (a ∗ b) = f (a) + f (b) ∀a, b ∈ G1 . Ist f dabei bijektiv, so heißt f (Gruppen-) Isomorphismus, und G1 und G2 werden isomorph genannt. Beispiele: 1. Die Identität id : (Z, +) → (R, +) ist ein Homomorphismus. 2. Die Funktion, die einer reellen Zahl den ganzzahligen Anteil (INT) zuweist, f : (R, +) → (Z, +), x 7→ [x] ist kein Homomorphismus, denn beispielsweise gilt 1 = f ( 34 ) = f ( 23 + 32 ) 6= f ( 23 ) + f ( 32 ) = 0 + 0. Das gleiche gilt für andere Arten der “Rundung”. 3. Dadurch dass ein Rechner immer nur endlich viele Dezimalstellen verarbeiten kann, ist die Abbildung f der reellen Zahlen auf Maschinenzahlen ebenfalls kein Homomorphismus. Ein wichtiger Effekt ist die Auslöschung: Wenn wir mit 4-stelliger Fließkomma-Arithmetik arbeiten erhält man mit a = 1.2343e4, b = −1.2344e4: −1 = f (−1) = f (a + b) 6= f (a) ⊕ f (b) = 1.234 · 104 ⊕ (−1.234 · 104 ) = 0 . Hierbei bezeichnet ⊕ die Maschinen-Addition mit Fließkommazahlen. Dass es zu einem Unterschied zwischen der exakten und der Maschinenaddition kommt, ist nicht weiter verwunderlich. Wichtig ist hier aber, dass der Fehler relativ zum Endergebnis sehr groß ist. Lemma 2.6 Seien G1 und G2 Gruppen mit neutralen Elementen e1 ∈ G1 und e2 ∈ G2 . Dann gilt für jeden Homomorphismus f : G1 → G2 : f (e1 ) = e2 und f (inv(a)) = inv(f (a)) ∀a ∈ G1 . Beweis. Wir verwenden für die binären Verknüpfungen auf den beiden Gruppen das gleiche Symbol ∗. Es gilt: f (e1 ) = f (e1 ∗ e1 ) = f (e1 ) ∗ f (e1 ) . 12 M. Braack - Gruppen Wegen der Eindeutigkeit des neutralen Elementes in G2 (Satz 2.3) folgt e2 = f (e1 ). Ferner folgt nun: e2 = f (e1 ) = f (a ∗ inv(a)) = f (a) ∗ f (inv(a)) . Dies bedeutet aber inv(f (a)) = f (inv(a)). Mit Hilfe von Isomorphismen können wir jetzt Gruppen klassifizieren: 2.2 2.2.1 Klassifikation von Gruppen Klassifikation der Gruppen mit einem Element Bis auf Isomorphismen gibt es nur eine Gruppe mit einem Element. Diese besteht nur aus dem neutralen Element G = {e} und der Operation e ∗ e = e und dem Inversen inv(e) = e. Das Inverse des neutralen Elementes ist übrigens in jeder Gruppe das neutrale Element selbst. 2.2.2 Klassifikation der Gruppen mit zwei Elementen Die Gruppe mit zwei Elementen bezeichnen wir mit G = {e, a}, wobei e das neutrale Element ist und a ein weiteres Element, also a 6= e. Nun wollen wir uns die möglichen Verknüpfungstafeln überlegen: * e a e e a a a x Damit reduziert sich die Anzahl von möglichen Gruppen auf zwei, nämlich je nachdem welchen Wert a ∗ a ∈ {e, a} annimmt. Hierbei ist a ∗ a = a aber ausgeschlossen, da sonst das neutrale Element nicht eindeutig wäre; also gibt es bis auf Isomorphie nur eine Gruppe mit zwei Elementen. Diese erhält man, indem man in der obigen Verknüpfungstafel x = e setzt. Diese ist gerade die Gruppe Z2 = {0, 1} zusammen mit der Addition modulo 2. 2.2.3 Klassifikation der Gruppen mit drei Elementen Für Kandidaten mit drei Elementen erhält man zunächst mehr Möglichkeiten: 2.3 Zyklische Gruppen 13 * e a e e a a a ? b b ? b b ? ? Hier kommt nur a ∗ a = e oder a ∗ a = b in Betracht (wieder wegen der Eindeutigkeit des neutralen Elementes). Aus dem gleichen Grund darf in jeder Zeile und in jeder Spalte kein Element doppelt vorkommen. Wäre nun a ∗ a = e, so müßte a ∗ b = b ergeben; was aber zu einem Konflikt mit b ∗ e = b führt. Also ist nur a ∗ a = b, b ∗ a = e, a ∗ b = e, b ∗ b = a möglich. Wir erhalten: * e a b e a e a a b b e b b e a Dies entspricht der Gruppe Z3 = {0, 1, 2} mit der Addition modulo 3. 2.2.4 Gruppen mit vier Elementen Bei vier Elementen gibt es allerdings zwei mögliche Gruppen, die nicht isomorph zueinander sind, die Gruppe Z4 (links) und die sogenannte Klein’sche Vierergruppe (rechts): * e a b e e a b a a b c b b c e c c e a 2.3 c c e a b * e a e e a a a e b b c c c b b b c e a c c b a e Zyklische Gruppen Wenn man jedes Element der Gruppe durch ein geeignetes Vielfaches ein und desselben Elementes darstellen kann, so spricht man von einer zyklischen Gruppe. Hierbei bezeichnet an = an−1 ∗ a für n ∈ N, n > 1, und a1 = a. Die genaue Definition einer zyklischen Gruppe lautet: Definition 2.7 Eine endliche Gruppe heißt zyklisch, wenn es ein a ∈ G gibt, so dass G = {a, a2 , a3 , . . .} . 14 M. Braack - Gruppen Dieses Element heißt dann erzeugendes Element der Gruppe. Lemma 2.8 Sei G eine zyklische Gruppe mit n Elementen, n ∈ N. Dann gilt an = e für das erzeugende Element a ∈ G. Beweis. Da G zyklisch mit erzeugendem Element a ist, gilt G = {a, a2 , . . . , an }. Folglich existiert ein m ∈ {1, . . . , n} mit am = e. Mit diesem m gilt dann am+1 = am ∗ a = e ∗ a = a. Wäre nun m < n, so hätte G weniger als n Elemente. Da dies ein Widerspruch zur Voraussetzung wäre, folgt m = n. Die zuvor betrachteten Gruppen Zm sind allesamt zyklisch. Im nächsten Abschnitt betrachten wir Gruppen, die u.U. zyklisch sein können, aber nicht müssen. Der folgende Satz verwendet eine zyklische Untergruppe im Beweis. Satz 2.9 Sei (G, ∗) eine endliche Gruppe mit neutralem Element e. Dann gilt a|G| = e für alle a ∈ G. Beweis. Wir betrachten die zyklische Untergruppe Ua := {an ∈ G : n ∈ N}. Nun gilt einerseits a|U |a = e. Andererseits ist die Mächtigkeit einer Untergruppe Ua einer endlichen Gruppe G stets ein Teiler von |G| (Satz von Lagrange): |U |a |G|, bzw. |G| = |U |a m, mit m ∈ N. Hieraus folgt die Behauptung: a|G| = (a|U |a )m = em = e. 2.4 Permutationsgruppen Wenn M eine Menge ist, dann bildet die Menge G aller bijektiven Abbildungen f : M → M zusammen mit der Komposition ◦ von Abbildungen eine Gruppe (G, ◦). Im Spezialfall einer endlichen Menge, z.B. repräsentiert durch M = {1, 2, . . . , n}, erhält man durch diese bijektiven Abbildungen gerade die Permutationen. Man spricht dann von der Permutationsgruppe Sn : Sn = {f : M → M bijektiv} . 2.5 Existenz von multiplikativen Inversen in Zm 15 Für M = {1, . . . , n} können wir jedes Element f aus Sn eindeutig darstellen mittels (f (1), f (2), . . . , f (n)) mit paarweise verschiedenen f (k). Entsprechend ist jedes Element aus Sn identifizierbar mit einer Permutation der n Elemente. Ein Element dieser Gruppe ist also eine Permutation auf n Elementen. Somit gilt nach dem folgenden Satz |Sn | = n!. Satz 2.10 Die Elemente einer n-elementigen Menge, n ∈ N, lassen sich auf genau n! verschiedene Arten anordnen. Beispiel: Für n = 3 können wir die Permutation f , die abbildet 1 7→ 2, 2 7→ 3, 3 7→ 1, verkürzt ausdrücken durch den Ausdruck (2, 3, 1). Führen wir diese Permutation 3 mal hintereinander aus, so erhalten wir das neutrale Element: f ◦ f ◦ f = f 3 = id. In diesem Fall hat man also einen Zyklus. Es ist aber damit nicht gesagt, dass die Gruppe S3 zyklisch ist. Die Permutationsgruppe ist im Fall n = 2 zyklisch. Im allgemeinen Fall (n > 2) gilt dies jedoch nicht. Untergruppen der Permutationsgruppe können aber sehr wohl zyklisch sein. Man überlege sich, dass man jede Permutation als Komposition von 2er-Zyklen (sogenannte Transpositionen) darstellen kann. 2.5 Existenz von multiplikativen Inversen in Zm Wir hatten bereits gesehen, dass man auf den Äquivalenzklassen der Relation modulo m eine Multiplikation definieren kann. Allerdings existieren nicht für alle a ∈ Zm Inverse bezüglich der Multiplikation. Der Euklidische Algorithmus liefert uns aber für bestimmte a die Inversen: Lemma 2.11 Für m ∈ N und a ∈ Z mit ggt(a, m) = 1 existiert ein inverses Element von [a]m bezüglich der Multiplikation in Zm . Dieses bezeichnen wir mit [a]−1 m ∈ Zm . Beweis. Wir müssen eine Restklasse [x]m ∈ Zm finden mit [x]m [a]m = [1]m . Da ggt(a, m) = 1 liefert der Euklidische Algorithmus ganze Zahlen α, β ∈ Z mit αa + βm = 1. Hieraus folgt insbesondere αa + βm ≡ 1 mod m . 16 M. Braack - Gruppen Subtraktion von βm liefert bereits αa ≡ 1 mod m. Da aber zunächst noch α ∈ Z gilt, bilden wir die entsprechende Restklasse von x ∈ {1, 2, . . . , m − 1} mit [α]m = [x]m . Dies ist dann das gewünschte multiplikative Inverse [a]−1 m := [x]m [x]m [a]m = [1]m . Dieser Beweis liefert uns gleichzeitig eine Konstruktionsmöglichkeit des Inversen über den Euklidische Algorithmus. Beispiel: Das multiplikative Inverse von a = 325 im Ring Zm mit m = 1848 erhält man wie folgt: 1848 325 223 102 19 7 5 2 = 325 · 5 + 223 = 223 · 1 + 102 = 102 · 2 + 19 = 19 · 5 + 7 = 7·2+5 = 5·1+2 = 2·2+1 = 1·2+0 ; 223 = 1848 − 5 · 325 ; 102 = 325 − 223 = −1848 + 6 · 325 ; 19 = 223 − 102 · 2 = 3 · 1848 − 17 · 325 ; 7 = 102 − 19 · 5 = −16 · 1848 + 91 · 325 ; 5 = 19 − 7 · 2 = 35 · 1848 − 199 · 325 ; 2 = 7 − 5 · 1 = −51 · 1848 + 290 · 325 ; 1 = 5 − 2 · 2 = 137 · 1848 − 779 · 325 Wir erhalten also 1 = 137 · 1848 − 779 · 325 ≡ (β · m + α · a) mod m ≡ (β · 1848 + α · 325) mod m . Das multiplikative Inverse zu a = 325 im Ring Z1848 lautet also α = −779 ≡ −779 + 1848 ≡ 1069 mod 1848 . Nun wissen wir, dass es unter gewissen Voraussetzungen multiplikative Inverse gibt. Da (Zm , ) aber im allgemeinen keine Gruppe ist, wissen wir nichts über die Eindeutigkeit solcher Inversen. Um dies doch zu zeigen benötigen wir zunächst eine weitere Hilfsaussage: Lemma 2.12 Für beliebige a, b ∈ Z∗ sind äquivalent: (a) ggt(a, b) = 1, (b) ∃α, β ∈ Z : αa + βb = 1. 2.6 Die Gruppe Z∗n und die Eulersche Funktion 17 Beweis. Die Richtung (a) ⇒ (b) ist bereits gezeigt in Satz 1.6. Für die Gegenrichtung sei c ein gemeinsamer Teiler von a und b. Damit ist auch c|αa + βb für beliebige α, β ∈ Z, speziell für die aus Voraussetzung (b). Dies impliziert c|1, woraus wiederum (a) folgt. Mit diesen Hilfsmitteln können wir die Eindeutigkeit der Inversen beweisen: Satz 2.13 Sei a ∈ Z, m ∈ N und ggt(a, m) = 1. Dann liefert a · i für 0 ≤ i < m paarweise verschiedene Reste modulo m. Insbesondere existiert genau ein 0 < x < m, so dass [x]m das multiplikative Inverse von [a]m ist. Hierfür gilt ggt(x, m) = 1. Beweis. Zunächst zu den paarweise verschiedenen Resten: Angenommen ai ≡ aj mod m für 0 ≤ i ≤ j < m. Dies bedeutet m|a(i − j). Da a und m nur die gemeinsamen Teiler ±1 haben, folgt m|(i − j). Dies ist aber nur möglich für i = j. Zusammen mit Lemma 2.11 folgt hieraus die Existenz und Eindeutigkeit des multiplikatives Inversen [x]m ∈ Zm : ax ≡ 1 mod m . Dies bedeutet, dass ein q ∈ Z existiert mit ax − 1 = qm, bzw. ax − qm = 1. Mit Lemma 2.12 ist dies äquivalent mit ggt(x, m) = 1. 2.6 Die Gruppe Z∗n und die Eulersche Funktion Wir betrachten zu n ∈ N folgende Menge Z∗n := {[i]n ∈ Zn : ggt(i, n) = 1}. Die Elemente von Z∗n werden Einheiten modulo n genannt. Zusammen mit der Multiplikation (im Sinne von Restklassen) ist dies eine kommutative Gruppe: Lemma 2.14 (Z∗n , ·) ist eine kommutative Gruppe. Beweis. Der Beweis ergibt sich aus den folgenden Punkten: • Zur Abgeschlossenheit bzgl. der Multiplikation: Seien [a]n , [b]n ∈ Z∗n , also ggt(a, n) = ggt(b, n) = 1. Dann ist 1 der einzige gemeinsame positive Teiler von a und n, sowie der von b und n. Dann ist aber auch 1 der einzige gemeinsame positive Teiler von a · b und n, also ggt(ab, n) = 1. Somit folgt [ab]n ∈ Zn∗ . • Das Assoziativgesetz gilt offensichtlich, da es in ganz Zn gilt. 18 M. Braack - Gruppen • Das multiplikative neutrale Element ist [1]n . Dieses ist offensichtlich auch ein Element in Z∗n . • Die Existenz der Inversen ist nach Lemma 2.11 gesichert. Wir erhalten als unmittelbare Folgerung: Satz 2.15 Ist p eine Primzahl, so ist Z∗p = Zp \ {0}. Insbesondere gibt es in Zp für alle [a] ∈ Zp , a 6= 0, ein eindeutiges multiplikatives Inverse [a]−1 ∈ Zp : [a]−1 p [a]p = [1]p . Die Mächtigkeit der Menge Z∗n wird ϕ(n), bzw. Eulersche Funktion, genannt: ϕ(n) := |Z∗n |. Für Primzahlen p gilt offensichtlich ϕ(p) = p − 1. Für das Produkt verschiedener Primzahlen gilt hingegen: Lemma 2.16 Seien p, q zwei verschiedene Primzahlen, n = pq. Dann gelten ϕ(pq) = (p − 1)(q − 1) und Z∗n := Zn \ {p, 2p, . . . , (q − 1)p, q, 2q, . . . , (p − 1)q}. Beweis. Sei M := {p, 2p, . . . , (q − 1)p, q, 2q, . . . , (p − 1)q}. Alle Zahlen k ∈ Zn , k 6= 1, die Teiler von n = pq sind, sind Vielfache von p oder von q, also Elemente aus M . Umgekehrt besitzen die Elemente aus M gemeinsame Teiler mit pq, die größer als 1 sind. Daher gilt die Äquivalenz: a ∈ M ⇔ ggt(a, n) > 1 ⇔ a 6∈ Z∗n . Die Umkehrung ergibt: a ∈ Zn \ M ⇔ ggt(a, n) = 1 ⇔ a ∈ Z∗n . Da die oben angegebenen Elemente aus M paarweise verschieden sind, gilt |M | = q − 1 + p − 1. Hiermit folgt ϕ(n) = |Z∗n | = |Zn \ M | = pq − (q − 1 + p − 1) = (p − 1)(q − 1). Für das Konzept von Verschlüsselungstechniken benötigen wir den Satz von Euler: 2.7 RSA-Public-Key Verschlüsselung 19 Satz 2.17 (Satz von Euler) Für n ∈ N und a ∈ Z mit ggt(a, n) = 1 gilt: aϕ(n) ≡ 1 mod n. Beweis. Aus ggt(a, n) = 1 folgt [a]n ∈ Z∗n . Nach Satz 2.9 folgt: ∗ aϕ(n) = a|Zn | ≡ 1 mod n. 2.7 RSA-Public-Key Verschlüsselung Das RSA-Public-Key Verschlüsselungverfahren, benannt nach R. Rivest, A. Shamir und L. Adleman (1977) beruht auf folgendem Prinzip: Satz 2.18 Seien p, q zwei verschiedene Primzahlen, n = pq, m = (p − 1)(q − 1), und e ∈ N derart, dass ggt(e, m) = 1 gilt. Dann ist die Abbildung C : Z∗n → Z∗n , a 7→ C(a) := ae mod n eine Bijektion. Die Inverse von C ist D : Z∗n → Z∗n , b 7→ D(b) := bd mod n, wobei e · d = 1 mod m. Beweis. (a) Zunächst ist zu zeigen, dass die Bilder unter C tatsächlich wieder in Z∗n liegen. Für a ∈ Z∗n gilt ggt(a, n) = 1. Es folgt dann ggt(ae , n) = 1, also C(a) ∈ Z∗n . (b) Existenz von d: Da ggt(e, m) = 1, ist e ∈ Z∗m und besitzt somit ein Inverses d ∈ Zm . Für dieses d gilt die Forderung e · d ≡ 1 mod m. (2.1) (c) Die Abbildungseigenschaft von D folgt aus den gleichen Gründen wie in (a). (d) Wir zeigen nun, dass für alle a ∈ Z∗n gilt D(C(a)) = a. Hieraus folgt die Bijektivität von C. Aufgrund der Verträglichkeit der Multiplikation mit der Äquivalenzklassenbildung gilt: D(C(a)) = (ae mod n)d mod n = aed mod n. 20 M. Braack - Gruppen Wegen (2.1), folgt mit einem geeigneten k ∈ Z: aed ≡ a1+km mod n ≡ (a · (am )k ) mod n ≡ a · (am mod n)k mod n. Das Lemma 2.16 liefert uns m = ϕ(n). Der Satz von Euler 2.17 besagt nun am ≡ 1 mod n. Damit folgt aed ≡ a · 1k mod n ≡ a mod n. (e) Analog folgert man C(D(b)) = b für b ∈ Z∗n , so dass C und D tatsächlich bijektiv auf Z∗n sind. 2.7.1 Chiffrieren Das Chiffrieren geschieht mittels der bijektiven Funktion C : Z∗n → Z∗n , C(a) = ae mod n. Dabei ist die Konstruktion der Funktion C öffentlich (öffentlicher Schlüssel). Insofern sind e, n ∈ N bekannt. Hierbei muss n als ein Produkt von zwei Primzahlen gewählt, n = pq. Es ist dabei zu beachten, dass man die Botschaft, die verschlüsselt werden soll, so in Einzelportionen zerteilt, dass man jedes Teil durch eine Zahl aus Z∗n repräsentieren läßt. Für große Primzahlen p, q ist aber die Mächtigkeit von |Z∗n | vergleichbar mit der von |Zn |, denn |Z∗n | (p − 1)(q − 1) pq − (p + q − 1) = = > 1− |Zn | pq pq 1 1 + p q ≈ 1. Ferner läßt sich sagen, dass die Anwendung von C relativ schnell möglich ist, selbst wenn e eine große Zahl ist. Die chiffrierte Nachricht C(a) kann nun versendet werden. Durch alleinige Kenntnis von e und n kann man aber a nicht aus C(a) zurückerhalten. Hierzu würde man die Umkehrfunktion D aus dem nächsten Teilabschnitt benötigen. 2.7 RSA-Public-Key Verschlüsselung 2.7.2 21 Dechiffrieren Das Dechiffrieren geschieht über die Umkehrfunktion D : Z∗n → Z∗n , b 7→ D(b) := bd mod n. Gemäß des Satzes 2.18 gilt D ◦ C = Id : Z∗n → Z∗n . Hierdurch wird die Nachricht a ∈ Z∗n tatsächlich zurückerhalten. D bzw. die Zahl d sind nur einem kleinen Kreis bekannt ist (z.B. nur der Empfangsperson). d ist aber auch berechenbar aus Kenntnis der Primzahlen p und q, denn d ist das multiplikative Inverse von e modulo m = (p − 1)(q − 1). Dies geschieht z.B. durch den Euklidischen Algorithmus. Durch die Kenntnis von n allein, ist dies aber nicht möglich. Das ganze Verfahren beruht nun auf der folgenden wichtigen Eigenschaft: Man kann C(a) schnell bei Kenntnis von a, n und e ermitteln, aber nicht umgekehrt a aus C(a), n und e. Ferner muss d auch so groß sein, dass man nicht durch bloßes ausprobieren, den Schlüssel errät. Aus diesem Grund müssen die beiden Primzahlen p, q sehr groß sein. In der Praxis ist die Zahl n mind. von der Größenordnung 1024 Bits. Rechnet man dies um in Dezimalstellen, so ergeben sich p und q in der Größenordnung 10100 . In dieser Größenordnung läßt sich auch die Faktorisierung von n in die Primzahlen p, q nicht ohne Kenntnis von p oder q in vertretbarer Zeit bestimmen. 22 M. Braack - Gruppen Kapitel 3 Ringe Mehr Struktur als eine Gruppe hat ein sogenannter Ring. Hierzu müssen allerdings zwei Verknüpfungen definiert sein. Definition 3.1 (Ring) Ein Ring (R, +, ·) besteht aus einer Menge R und zwei Verknüpfungen + : R × R → R und · : R × R → R auf dieser Menge mit folgenden Eigenschaften: (a) (R, +) ist eine kommutative Gruppe. (b) (R, ·) ist eine Halbgruppe. (c) Es gelten die Distributivgesetze, d.h. ∀a, b, c ∈ R gilt: a · (b + c) = (a · b) + (a · c) , (b + c) · a = (b · a) + (c · a) . Gilt ferner das Kommutativgesetz für die Verknüpfung ·, so spricht man von einem kommutativen Ring. Wir haben hier einfach die Bezeichnungen + und · als Verknüpfungen gewählt, obgleich dies zunächst nicht unbedingt die Addition bzw. Multiplikation sein muß. Es wird sich aber als sehr praktikabel erweisen, diese Operationen stets mit “Addition” und “Multiplikation” zu bezeichnen. Ferner bezeichnen wir im folgenden das neutrale Element bzgl. + als 0 und das (additive) Inverse von a ∈ R als −a. Mit a − b bezeichnen wir a + (−b) und mit ab den Ausdruck a · b. Desweiteren werden wir mit R∗ im folgenden die Menge R \ {0} bezeichnen. 24 M. Braack - Ringe Lemma 3.2 In einem Ring (R, +, ·) gilt für alle x ∈ R: x · 0 = 0. Existiert im Ring die 1, so gilt außerdem: (−1)x = −x, (−1)2 = 1, (−x)2 = x2 . Beweis. (a) Zunächst folgt mit dem Distributivgesetz x·0 = x·(0+0) = x·0+x·0. Demnach ist x · 0 das neutrale Element der Addition. Mit der Eindeutigkeit des neutralen Elementes folgt x · 0 = 0. (b): Mit dem Distributivgesetz und Aussage (a) folgt: (−1)x + x = (−1 + 1)x = 0 · x = 0. Also ist (−1)x das additive Inverse von x, d.h. (−1)x = −x. (c): (−1)2 x = (−1)(−1)x = (−1)(−x) = −(−x) = x. (d): Distributivgesetz und Aussage (a) liefern: (−x)2 − x2 = (−x)(−x) − x2 = (−x)(−1)x − x2 = (−x(−1) − x)x = (−x)(1 − 1)x = (−x)0x = 0. 3.1 Der Ring Zm Wir hatten bereits gesehen, dass man auf den Äquivalenzklassen der Relation modulo m ebenfalls eine Addition und eine Multiplikation definieren kann. Die Menge der zugehörigen Restklassen wird mit Zm (oder auch Z/mZ) bezeichnet und bildet einen Ring: Lemma 3.3 Für m ∈ N bildet (Zm , ⊕, ) einen kommutativen Ring mit 1, d.h. es existiert ein neutrales Element für die Multiplikation. Beweis. Übungsaufgabe. 3.2 Polynomringe Definition 3.4 (Polynom) Sei (R, +, ·) ein kommutativer Ring und ai , 0 ≤ i ≤ n, n ∈ N0 endlich viele Elemente aus R. Dann versteht man unter einem Polynom auf R eine Abbildung p : R → R gegeben durch p(x) = n X ai x i . i=0 Ist an 6= 0, so heißt deg(p) = n Grad des Polynoms. Die ai ∈ R heißen Koeffizienten des Polynoms und x ∈ R das jeweilige Argument. 3.2 Polynomringe 25 Den Grad des Nullpolynoms definiert man als negativ, d.h. deg(0) = −1. Ferner gehen wir bei obiger Definition des Polynomgrads davon aus, dass die Darstellung des Polynoms “minimal” ist: beispielsweise ist im Ring Z2 das Polynom p(x) = x2 identisch mit p(x) = x und besitzt daher den Polynomgrad deg(p) = 1. Lemma 3.5 Sind p, q Polynome auf R , so sind auch p + q, pq definiert durch (p + q)(x) = p(x) + q(x) , (p · q)(x) = p(x) · q(x) Polynome auf R mit deg(p + q) ≤ max{deg(p), deg(q)} und deg(pq) ≤ deg(p) + deg(q) . Beweis. Dies sieht man indem man sich die Koeffizienten von p + q und pq überlegt. Wenn p und q von der Form m X p(x) = i ai x , q(x) = i=0 n X bi x i i=0 sind, so ist die Summe gegeben durch: max{m,n} X (p + q)(x) = (ai + bi )xi . i=0 In dieser Darstellung ist ai = 0 für i > m und bj = 0 für j > n zu verstehen. Das Produktpolynom lautet: (pq)(x) = m X n X ai bj x i=0 j=0 i+j = m+n X ck x k , k=0 mit Koeffizienten: ck = n X aj bk−j 0 ≤ k ≤ n + m. j=0 Beispiel: Wir betrachten der einfach halber Polynome auf dem Ring (Q, +, ·): 1 p(x) = 2 + 3x + x2 , 2 q(x) = −2 + x − x3 . 26 M. Braack - Ringe Dann gilt: 1 (p + q)(x) = 4x + x2 − x3 2 1 1 (pq)(x) = −4 + (2 − 6)x + (3 − 1)x2 + (−2 + )x3 − 3x4 − x5 . 2 2 Übungsaufgabe: Man überlege sich ein Beispiel zweier Polynome p, q über einem Ring R, so dass deg(pq) < deg(p) + deg(q). Lemma 3.6 (Polynomring) Sei (R, +, ·) ein kommutativer Ring. Dann ist die Menge der Polynome zusammen mit den Verknüpfungen + und · ein Unterring aller Abbildungen R → R, der sogenannte Polynomring R[x]. Besitzt R ein Einselement 1, so ist besitzt auch R[x] ein Einselement, nämlich das Polynom p(x) = 1. Beweis. Das vorherige Lemma besagt gerade, dass R[x] abgeschlossen bezüglich der Addition und der Multiplikation ist. Die Assoziativgesetze für die Addition und für die Multiplikation, sowie die Distributivgesetze folgen direkt aus denen in R. Es bleibt zu zeigen, dass (R[x], +) eine Gruppe ist, dass also ein neutrales Polynom und inverse Polynome für die Addition existieren. Das neutrales Polynom ist das Nullpolynom p(x) = 0 und das Inverse zu p ∈ R[x] ist −p. Kapitel 4 Körper Definition 4.1 Ein kommutativer Ring (K, +, ·) heißt Körper, wenn (K ∗ , ·) eine Gruppe ist. Beispiele: 1. Q bildet zusammen mit + und · ein Körper. 2. Genauso ist (R, +, ·) ein Körper. Lemma 4.2 (K, +, ·) ist genau dann ein Körper, wenn (K1) (K, +, ·) ist ein kommutativer Ring. (K2) Es gibt ein multiplikatives neutrales Element, d.h. es existiert 1 ∈ K mit 1·x = x für alle x ∈ K ∗ := K \ {0}. (K3) Für alle x ∈ K ∗ existiert ein multiplikatives Inverses. Beweis. Es genügt nachzuweisen, dass (K ∗ , ·) nicht nur eine Halbgruppe, sondern eine Gruppe ist, sofern (K1)-(K3) erfüllt sind. Dies ist aber trivial. Lemma 4.3 In einem Körper (K, +, ·) gilt für x, y ∈ K mit xy = 0, dass x = 0 oder y = 0. Beweis. Zunächst folgt mit dem Distributivgesetz x · 0 = x · (0 + 0) = x · 0 + x · 0. Demnach ist x · 0 das neutrale Element der Addition, also x · 0 = 0. Für die zweite Aussage nehmen wir an, dass xy = 0 und x 6= 0 gelte. Dann folgt mit der ersten Aussage dieses Satzes: 0 = x−1 · 0 = x−1 (xy) = (x−1 x)y = 1 · y = y . 28 M. Braack - Körper Man verwendet die Bezeichnung xn := x . . · x} . | · .{z n−mal Satz 4.4 Für p ∈ N gilt: (Zp , ⊕, ) ist genau dann ein Körper, wenn p eine Primzahl ist. Beweis. Wir wissen bereits nach Lemma 3.3, dass (Zp , ⊕, ) für beliebiges p ∈ N ein kommutativer Ring mit 1 ist. Ferner wissen wir wegen Satz 2.15, dass es eindeutige Inverse gibt, wenn p prim ist. Ist p hingegen keine Primzahl, so existieren q1 , q2 ∈ {2, 3, . . . , p−1} mit p = q1 q2 , also [q1 ]p [q2 ]p = 0. Wäre nun (Zp , ⊕, ) ein Körper, so würde man mittels Lemma 4.3 einen Widerspruch erhalten. Bemerkung: Dass Zp ein Körper ist, liefert die Rechtfertigung für Abschnitt die Prüfziffern bei den ISBN Buchnummern. Satz 4.5 (Kleiner Fermat’scher Satz) Sei p eine Primzahl und a ∈ Z∗ kein Vielfaches von p. Dann gilt ap−1 ≡ 1 mod p . Beweis. Die Aussage folgt direkt aus dem Satz von Euler und der Tatsache ϕ(p) = p − 1: ap−1 = aϕ(p) ≡ 1 mod p . Man kann es aber auch direkt beweisen: Die Restklassen [a]p , [2a]p , . . . , [(p − 1)a]p müssen alle paarweise verschieden sein, denn wäre [ia]p = [ja]p für 1 ≤ i, j < p, so wäre 0 = [(i − j)a]p = [i − j]p [a]p . Nach Lemma 4.3 folgt, dass [a]p = 0 oder [i − j]p = 0. Da nach Voraussetzung [a]p 6= 0 gilt, muß i = j sein. Damit entsprechen die p − 1 Restklassen [a]p , [2a]p , . . . , [(p − 1)a]p gerade den Restklassen [1]p , . . . , [p − 1]p . Es folgt für die Produkte: p−1 Y i=1 ai ≡ p−1 Y i mod p . i=1 bzw. (p − 1)! ap−1 ≡ (p − 1)! mod p . 4.1 Angeordnete Körper 29 Da ggt((p − 1)!, p) = 1, können wir beide Seiten durch (p − 1)! teilen und erhalten so die Behauptung. Da jeder Körper K auch ein Ring ist, können wir auch den Polynomring K[x] bilden. Dies werden wir im folgenden auch machen, wenn wir Polynome dividieren. 4.1 Angeordnete Körper Definition 4.6 Ein Körper K heißt angeordnet, wenn es einen Positivbereich P ⊂ K mit folgenden Eigenschaften gibt: (A1) P, −P und {0} bilden eine Zerlegung von K. (A2) Aus x, y ∈ P folgt x + y, xy ∈ P . Die Elemente aus P heißen positiv, die aus −P negativ. Hierbei ist −P := {x ∈ K : −x ∈ P }. Summen und Produkte positiver Elemente sind also wieder positiv. Man beachte ferner, das die Bezeichnung “positiv” abhängt von der Wahl des Positivbereichs P ; es mag i.a. mehrere Mengen geben, die (A1) und (A2) erfüllen. Definition 4.7 In einem angeordneten Körper K lassen sich folgende Ordnungsrelationen definieren: x < y :⇐⇒ y − x ∈ P , x ≤ y :⇐⇒ (x < y) ∨ (x = y) , x > y :⇐⇒ y < x , x ≥ y :⇐⇒ y ≤ x . Auch diese Relationen <, ≤, >, ≥ hängen also i.a. von der Wahl des Positivbereichs P ab. Lemma 4.8 In angeordneten Körpern K gilt: (a) Für alle x, y ∈ K: (x < y) ∨ (y < x) ∨ (x = y) (b) Die Relation < ist transitiv. (c) Verträglichkeit mit +: Aus x1 < y1 und x2 < y2 folgt x1 + x2 < y1 + y2 . 30 M. Braack - Körper (d) Verträglichkeit mit ·: (x < y) ∧ (z > 0) =⇒ xz < yz, (x < y) ∧ (z < 0) =⇒ xz > yz . (e) Übergang zum Inversen: x > 0 =⇒ −x < 0, x < y =⇒ −x > −y , 0 < x < y =⇒ 0 < y −1 < x−1 . Beweis. Übungsaufgabe Lemma 4.9 In angeordneten Körpern gilt x2 > 0 für alle x ∈ K ∗ . Insbesondere gilt 0 < 1. Beweis. Ist x > 0, so gilt nach Anordnungsaxiom (A2) x2 > 0. Im Fall von x < 0 ist −x > 0 und damit nach (A2) auch (−x)2 > 0. Da wir bereits (−x)2 = x2 in beliebigen Körpern gezeigt haben, folgt x2 > 0. Die zweite Aussage folgt nun aufgrund von 0 < 12 = 1 · 1 = 1. In einem angeordneten Körper wird man also niemals ein x finden mit x2 = −1. Lemma 4.10 Jeder angeordnete Körper K enthält (bis auf Isomorphie) die rationalen Zahlen Q. Beweis. Wir identifizieren die Zahl n ∈ N mit der n-fachen Addition des Einselementes in K: n = 1| + 1 + {z. . . + 1}. Da die Addition abgeschlossen ist in K, folgt n-mal n ∈ K, und damit N ⊂ K. Diese Einbettung muss injektiv sein, da 1 < 1 + 1 < 1 + 1 + 1 < . . . < n. Da in einem Körper auch die additiven Inversen enthalten sein müssen, folgt Z ⊂ K. Aufgrund der Existenz der multiplikativen Inversen folgt Q ⊂ K. 4.2 Der Körper der reellen Zahlen Definition 4.11 Sei K ein angeordnete Körper. Eine Teilmenge A ⊆ K heißt nach oben beschränkt, wenn es eine obere Schranke M ∈ K gibt, d.h x ≤ M für alle x ∈ A. Sie heißt nach unten beschränkt, wenn es eine untere Schranke m ∈ K gibt, d.h. m ≤ x für alle x ∈ A. Eine obere Schranke heißt Supremum, wenn sie die kleineste obere Schranke ist. Eine untere Schranke heißt Infimum, wenn sie die größte untere Schranke ist. Beispiele im Körper Q: 4.2 Der Körper der reellen Zahlen 31 • Die Menge Q+ ist nach unten, aber nicht nach oben beschränkt. Das Infimum lautet 0. • Die Menge Z ist in Q weder nach oben, noch nach unten beschränkt. • A = {x ∈ Q 1 < x < 2} ist nach oben und nach unten beschränkt mit Infimum m = 1 und Supremum M = 2. • Die Menge p 2 W = x= ∈Q: x <2 q ist nach oben durch z.B. 3 beschränkt, aber es gibt kein Supremum in Q. Definition 4.12 Ein angeordnete Körper heißt vollständig, wenn in ihm jede nach oben beschränkte Menge ein Supremum besitzt. Beispiel: Die rationalen Zahlen Q sind zwar angeordnet aber nicht vollständig. Dies zeigte die obige Beispielmenge W . Der folgende Satz ist ein wenig aufwändiger zu beweisen, so dass wir im Rahmen dieser Vorlesung auf den Beweis verzichten wollen. Satz 4.13 Es gibt (bis auf Isomorphie) genau einen angeordneten vollständigen Körper. Dieser wird Körper der reellen Zahlen R genannt. Die reellen Zahlen sind eine Obermenge der rationalen Zahlen, aber sie ist sehr √ √ viel “reichhaltiger”. Beispielsweise sind auch die Zahlen 2, − 2 und π reelle Zahlen. Diese drei Zahlen lassen sich nicht in Form von Dezimalzahlen mit endlich vielen Stellen darstellen. Auch werden die Nachkommastellen nicht notwendigerweise periodisch, wie etwa 17 = 0.14 285714 285714 285714 . . . Im folgenden wird uns das folgende Lemma noch sehr nützlich sein: Lemma 4.14 Zu jedem x ∈ R, x > 0, gibt es ein n ∈ N mit 0 < Beweis. Mit 0 < x ist auch 0 < 0 < 1 < nx bzw. 0 < n1 < x. 1 . x Wir wählen n ∈ N mit: 1 n < x. 1 x < n. Es folgt 32 4.2.1 M. Braack - Körper Darstellung reeller Zahlen Streng genommen können Zahlen aus R \ Q gar nicht exakt mit dem Rechner dargestellt werden. Sie können allerdings approximiert (d.h. näherungsweise dargestellt) werden. Insofern wird eine reelle Zahle x in der Informatik durch eine rationale Zahl q ∈ Q mit einer vorgegebenen Anzahl von Nachkommastellen angenähert. Üblicherweise werden hierzu Darstellungen der Form Vorzeichen, Mantisse, Exponent (4.1) gewählt. Hierbei bezeichnet “Vorzeichen” das Vorzeichen der Zahl. Hierzu ist nur ein Bit notwendig. Die “Mantisse” bezeichnet die führenden Dezimalstellen. In Java sind bei dem Datentyp float hierfür 23 Bit vorgesehen. Der “Exponent” stellt den Exponenten zur Basis 2 dar. Hierfür sind für float 8 Bit vorgesehen, also Zahlen von −126 bis +127. Insgesamt werden also 32 Bit, bzw. 4 Byte benötigt. Beispiele: Die Zahl q = 2/3 wird mit 8-stelliger Mantisse und 2-stelligem Exponenten approximativ dargestellt durch 6.6666667E − 01. Die reelle Zahl π hingegen durch 3.1415926E + 00. 4.3 Der Körper der komplexen Zahlen Wir werden jetzt den Körper der reellen Zahlen weiter vergrößern, um auch Aus√ drücke wie −1 zu erhalten. Diese Erweiterung soll wieder zu einem Körper führen. Nach Satz 4.13 wird der resultierende Körper aber nicht mehr angeordnet sein. Da √ auf der Zahlengeraden R kein Platz für −1 ist, geht man in die zweite Dimension: C := R2 = {(a, b) : a, b ∈ R} . Die reellen Zahlen R sollen hierin eingebettet sein: R ∼ = {(a, 0) : a ∈ R} ⊂ C . Hierbei bedeutet ∼ = “isomorph”, d.h. es gibt eine bijektive Abbildung zwischen den beiden Mengen, die Verträglich ist mit den Verknüpfungen + und ·. Nun wollen wir noch die Addition und Multiplikation auf C so definieren, dass (C, +, ·) wieder ein Körper ist und eingeschränkt auf R die gewöhnlichen Operationen + und · darstellt. Diese Operationen lauten auf C: (x1 , y1 ) + (x2 , y2 ) := (x1 + x2 , y1 + y2 ) (x1 , y1 ) · (x2 , y2 ) := (x1 x2 − y1 y2 , x1 y2 + x2 y1 ) . 4.3 Der Körper der komplexen Zahlen 33 Die Addition ist hierbei sicherlich sofort verständlich. Die Multiplikation wirkt hingegen zunächst sehr konstruiert. Doch zunächst wollen wir verifizieren, ob diese Operationen mit denen in R wohldefiniert sind: (a, 0) + (b, 0) = (a + b, 0) , (a, 0) · (b, 0) = (ab − 0 · 0, a · 0 + b · 0) = (ab, 0) . Somit sind die Operationen miteinander verträglich: Wenn wir zwei reelle Zahlen a, b als komplexe Zahlen interpretieren und dann die komplexen Operationen ausführen, erhalten wir das gleiche wie durch die reellen Operationen. Als praktikabel wird sich zudem der Betrag einer komplexen Zahl herausstellen: √ a2 + b 2 |(a, b)| := Satz 4.15 (C, +, ·) ist ein Körper. Beweis. Es sind mehrere Dinge zu zeigen: (i): (C, +) ist eine abelsche Gruppe mit neutralem Element (0, 0) und Inversen (−a, −b) zu (a, b) ∈ C. (ii): (C∗ , ·) ist eine abelsche Gruppe mit neutralem Element (1, 0). Das multiplikative Inverse von (a, b) ∈ C∗ lautet: a b ,− c c mit c = |(a, b)|2 = a2 + b2 > 0. Dies sieht man wie folgt: 2 a b b(−b) a(−b) ba a (a, b) ,− = − , + = (1, 0) . c c c c c c (iii): Auch die Distributivgestze sind einfach nachzuvollziehen. Auch hier sollte man sich vergewissern, ob das multiplikative Inverse verträglich ist mit dem in R (Übungsaufgabe). Lemma 4.16 Im Körper der komplexen Zahlen lässt sich die Quadratwurzel aus √ −1 ziehen. Das Ergebnis wird die imaginäre Einheit i = −1 = (0, 1) ∈ C genannt. Beweis. Man prüft einfach nach: i2 = (0, 1) · (0, 1) = (0 · 0 − 1 · 1, 0 · 1 + 1 · 0) = (−1, 0) Da (−1, 0) der reellen Zahl −1 entspricht, folgt i2 = −1. 34 M. Braack - Körper Dieses Lemma läßt uns die komplexen Zahlen auch auf anderer Art darstellen: a + ib := (a, b) . Diese Darstellung ist insbesondere für die Addition und Multiplikation sehr suggestiv: (a + ib) · (c + id) = ac + ibc + aid + ibid = ac − bd + i(ad + bc) = (a, b) · (c, d) . Definition 4.17 Daher nennt man bei z = a + ib ∈ C den Anteil a auch Realteil und den Anteil b Imaginärteil: Re(a + ib) = a , Im(a + ib) = b . Lemma 4.18 Für die Betragsfunktion gilt mit z1 , z2 ∈ C: (a) Dreiecksungleichung: |z1 + z2 | ≤ |z1 | + |z2 |. (b) |z1 z2 | = |z1 | · |z2 | Beweis. Wir beweisen lediglich (a) während wir (b) als Übungsaufgabe lassen. Da die Terme auf beiden Seiten von (a) positiv sind, reicht es zu zeigen: |z1 + z2 |2 ≤ (|z1 | + |z2 |)2 . Mit der Darstellung z1 = a + ib und z2 = c + id erhält man dann durch Subtraktion von a2 + b2 + c2 + d2 , dass die Ungleichung äquivalent ist mit: p ac + bd ≤ (a2 + b2 )(c2 + d2 ) . Nun könen wir nochmals das Quadrat auf beiden Seiten bilden und erhalten nach weiterem subtrahieren von identischen Termen: 2acbd ≤ a2 d2 + b2 c2 . Dies ist aber wiederum äquivalent mit: 0 ≤ a2 d2 − 2acbd + b2 c2 = (ad − bc)2 Da diese Ungleichung wahr ist, haben wir die Dreiecksungleichung bewiesen. 4.4 Polynomdivision 35 Definition 4.19 Unter der zu z = x + iy ∈ C, (x, y ∈ R), konjugierten Zahl z̄ versteht man z := x − iy ∈ C. Lemma 4.20 Es gilt z1 + z2 = z1 + z2 , z1 z2 = z1 · z2 und |z|2 = zz. Beweis. Übungsaufgabe. Insbesondere ist also das Produkt einer komplexen Zahl z mit ihrem konjugiert komplexen z immer reell: zz ∈ R. 4.3.1 Graphische Darstellung der komplexen Zahlen Die komplexen Zahlen können als “Vektoren” der komplexen Ebene dargestellt werden, siehe Abb. 4.1. Der Realteil Re(z) von z ∈ C ist dann gerade die Projektion auf die waagerechte Koordinatenachse, der Imaginärteil Im(z) die Projektion auf die senkrechte Achse. Im(z) z Re(z) z Abbildung 4.1: Der Real- und Imaginärteil einer komplexen Zahl z ergeben sich als Projektion auf die Koordinatenachsen. Die konjugierte Zahl z̄ erhält man mittels Spiegelung an der reellen Achse. 4.4 Polynomdivision Analog zum Euklidischen Algorithmus zur Division von ganzen Zahlen lassen sich auch Polynome dividieren. 36 M. Braack - Körper Satz 4.21 (Polynomdivision) Sei K ein Körper. Dann kann man im Polynomring K[x] die Division mit Rest durchführen, d.h.: ∀p, q ∈ K[x], q 6= 0 ∃s, r ∈ K[x], deg(r) < deg(q) : p = sq + r . Beweis. Den Beweis führen wir per vollständiger Induktion nach dem Polynomgrad n = deg(p) ≥ 0: Induktionsverankerung: Zunächst behandeln wir den einfachen Fall, dass p ein konstantes Polynom ist, also n = 0. Sollte auch q ein konstantes Polynom sein, so wählen wir einfach das konstante Polynom s = p/q. Dann gilt p = sq. Sollte hingegen deg(q) ≥ 1, so leisten s ≡ 0 und r = p das Gewünschte. Der Induktionsschritt geht nun von m ≤ n nach n + 1: Wir gehen von folgender Form von p und q aus: p(x) = n+1 X i ai x , q(x) = i=0 m X b i xi , i=0 mit bm 6= 0, an+1 6= 0. Im Fall m > n + 1 wählen wir einfach wieder s ≡ 0 und r = p. Im Fall m ≤ n + 1 setzen wir s1 = abn+1 xn+1−m ∈ K[x]. Nun gilt: m r1 := p − s1 q n m X an+1 X n+1−m+i i = ai x − bi x bm i=0 i=0 = n+1 X i ai x − an+1 x i=0 n X n+1 m−1 an+1 X n+1−m+i − bi x bm i=0 m−1 an+1 X n+1−m+i = ai x + bi x . b m i=0 |i=0{z } | {z } Grad≤n i Grad≤n+1−m+m−1=n Es existieren also r1 , s1 ∈ K[x] mit p = s1 q + r1 und deg(r1 ) ≤ n . Nach Induktionsannahme existieren nun s2 , r ∈ K[x] mit deg(r) < deg(q) so dass r1 = s2 q + r. Es folgt insgesamt p = s1 q + s2 q + r = (s1 + s2 )q + r . Setzen wir s = s1 + s2 erhalten wir die geforderte Polynomdivision. Im Beweis sehen wir, dass wir multiplikative Inverse b−1 m bilden müssen. Daher muss K ein Körper sein. Ein Ring reicht dafür i.a. nicht aus. Beispiele: 4.4 Polynomdivision 37 1. Wir wollen diese Polynomdivision einmal an einem konkreten Beispiel durchführen: (x4 + 2x2 − 1) : (2x2 + x) = 0.5 x2 − [x4 + 0.5 x3 ] −0.5 x3 + 2x2 − 1 −0.25 x = − [−0.5 x3 − 0.25 x2 ] 2.25 x2 − 1 = 1.125 2 − [2.25 x + 1.125x] −1.125x − 1 Damit erhalten wir 4 2 2 x + x) (0.5 x2 − 0.25 x + 1.125) + (−1.125x − 1) | + 2x {z − 1} = (2x | {z } | {z } | {z } p(x) s(x) q(x) r(x) 2. Die Polynomdivision ist in jedem Körper möglich. Wenn wir das Polynom p(x) = 2x2 + 4x − 1 beispielsweise in Z5 durch q(x) = x + 4 teilen wollen, erhalten wir: In Z5 : (2x2 + 4x − 1) : (x + 4) = 2x −[2x2 + 3x] x−1 = 1 −[x + 4] 0 In diesem Fall läßt sich das Polynom also sogar ohne Rest teilen: In Z5 : In Z5 : (2x2 + 4x − 1) : (x + 4) = 2x + 1 2x2 + 4x − 1 = (x + 4)(2x + 1) Das Polynom verschwindet also in Z5 an den Stellen x0 = 1 und x1 = 2: x0 + 4 ≡ 0 mod 5, 2x1 + 1 ≡ 0 mod 5. Definition 4.22 Unter einer Nullstelle eines Polynoms p ∈ K[x] versteht man ein x0 ∈ K für das das Polynom verschwindet, also p(x0 ) = 0 gilt. 38 M. Braack - Körper Das folgende Lemma macht eine Aussage über die Polynome mit einer Nullstelle. Lemma 4.23 Hat p ∈ K[x] eine Nullstelle in x0 ∈ K so existiert ein s ∈ K[x] mit p(x) = (x − x0 )s(x) für alle x ∈ K. Beweis. Wir setzen q(x) = x − x0 und wenden Satz 4.21 an. Dieser liefert p(x) = (x − x0 ) · s(x) + r(x) , mit einem Polynom r vom Grad deg(r) < deg(q) = 1. Also besteht r aus einer konstanten Funktion r(x) = r0 . Da ferner 0 = p(x0 ) = (x0 − x0 ) · s(x0 ) + r0 = r0 gilt, verschwindet r. Dieses Lemma besagt also, dass man für jede Nullstelle x0 den Linearfaktor (x − x0 ) ohne Rest von dem Polynom abspalten kann. Es ist aber noch nicht gesagt, ob überhaupt solche Nullstellen existieren. Im Fall des Körpers C kann man hingegen die Existenz von n = deg(p) Nullstellen beweisen. Hiermit beschäftigen wir uns im folgenden Abschnitt. 4.5 Polynome in C Satz 4.24 Jedes Polynom p ∈ C[x] vom Grad deg(p) ≥ 1 hat (mindestens) eine Nullstelle in C. Beweis. Da der Beweis dieser Aussage relativ aufwändig ist, werden wir in diesem Rahmen keinen Beweis angeben. Diese Aussage wurde erstmalig von C.F. Gauß im Jahr 1799 bewiesen. Der heute am meisten verbreitete Beweis benutzt Techniken aus der Funktionentheorie. Das ist die Theorie von Funktionen in C. Es gibt aber noch eine ganze Reihe anderer Beweise, die aber alle den Rahmen dieser Vorlesung sprengen würden. Satz 4.25 (Fundamentalsatz der Algebra) Sei p ∈ C[x] ein Polynom vom Grad P n ∈ N, also p(z) = ni=0 ai z i mit an 6= 0. Dann gilt: (i) p hat genau n Nullstellen z1 , . . . , zn ∈ C (Vielfachheiten mitgezählt), (ii) p zerfällt in n Linearfaktoren, d.h n Y p(z) = an (z − zi ) . i=1 4.6 Polynome in R 39 Beweis. Auch hier verwenden wir als Beweisprinzip die vollständige Induktion nach n = deg(p). Für n = 1 ist z1 := −a0 /a1 eine Nullstelle und p(z) = a1 (z +a0 /a1 ) die geforderte Faktorisierung in Linearfaktoren. Ferner ist z1 die einzige Nullstelle, denn wäre z2 eine weitere Nullstelle, so würde folgen: 0 = p(z2 ) = a1 (z2 − z1 ) . Da C ein Körper ist, würde mit Lemma 4.3 folgen: a1 = 0 oder z1 = z2 , was beides zu einem Widerspruch führt. Für den Induktionsschritt n − 1 → n benutzen wir Satz 4.24. Dieser liefert uns die Existenz mindestens einer Nullstelle zn ∈ C. Lemma 4.23 gibt uns die Faktorisierung: p(z) = (z − zn )q(z) mit q ∈ C[x]. Ein Koeffizientenvergleich liefert deg(q) = n − 1, und der führende Koeffizient von q ist der gleiche wie der von p, also gerade an . Nach Induktionsannahme zerfällt q in n − 1 Linearfaktoren mit Vorfaktor an . Hierdurch erhält man die Behauptung. Beispiel: Das Polynom p(z) = 2z 3 − 2iz 2 + 2z − 2i hat die Nullstellen z1 = z2 = i, z3 = −i und die Darstellung p(z) = 2(z − i)2 (z + i) . Hier ist allerdings noch nicht gesagt, wie man diese Nullstellen erhält. Dies werden wir in einem späteren Kapitel behandeln. 4.6 Polynome in R Bei Polynomen in R läßt sich generell keine Aussage über die Anzahl der reellen Nullstellen treffen. Wir wollen jedoch ein Resultat vorweg nehmen, dass wir später in einem sehr viel allgemeineren Kontext beweisen werden. Lemma 4.26 Sei p ∈ R[x] ein Polynom mit p(a) · p(b) < 0 für zwei reelle Zahlen a < b. Dann besitzt p (mindestens) eine Nullstelle im offenen Intervall (a, b). Beweis. Wie gesagt werden wir den Beweis später führen und zwar allgemein für “stetige” Funktionen. Allerdings sei hier angemerkt, dass die Voraussetzung p(a) · p(b) < 0 impliziert, dass p(a) und p(b) ungleich Null sind und entgegengesetztes Vorzeichen besitzen. Hierdurch ist auch anschaulich klar, dass der Graph von p die 40 M. Braack - Körper Nulllinie (x-Achse) zwischen x = a und x = b mindestens einmal schneiden muss. Dies korrespondiert dann gerade mit einer Nullstelle. Insbesondere haben somit Polynome mit ungeradem Grad mindestens eine reelle Nullstelle. 4.6.1 Intervallhalbierungsverfahren Dieses Resultat liefert uns aber auch einen Algorithmus, Nullstellen von Polynomen unter gewissen Voraussetzungen zu finden. Wir nehmen an, die Voraussetzungen des Lemmas seien erfüllt. Dann liegt also in I1 := (a, b) mindestens eine Nullstelle von p. Nun halbieren wir das Intervall und erhalten die beiden Teilintervalle (a, c) und (c, b) mit c = (a + b)/2. Nun könen drei Fälle eintreten: p(c) = 0, p(a) · p(c) < 0 oder p(c) · p(b) < 0. Im ersten Fall sind wir fertig. Im zweiten Fall wählen wir I2 = (a, c), sonst I2 = (c, b). Nun wiederholen wir das ganze mit I2 , also teilen und Fälle unterscheiden. Wir nähern uns so immer näher einer Nullstelle, denn die Intervalllänge der In halbiert sich sukzessive. Exakt treffen wir die Nullstelle im allgemeinen aber nicht. Wir generieren daher nur sogenannte approximative Lösungen, indem wir als Näherungslösung z.B. den Mittelpunkt xn des Intervalls In wählen. Wir haben dann automatisch eine Fehlerabschätzung: |xn − x∗ | < 1 (b − a) , 2n wobei x∗ eine (exakte) Nullstelle von p bezeichnet. 4.7 Polynomdivision zur Datensicherung Zur Datensicherung werden i.d.R. Prüfbits an die zu übermittelnden Daten herangehängt. Wie bei der ISBN Nummer geben diese Aufschluß über einen etwaige Datenübertragungsfehler. Die Prüfbits können beispielsweise per Polynomdivision erhalten werden. Angenommen wir wollen n Prüfbits zur Kontrolle “opfern”. Eine Nachricht in Bitreihenfolge w ∈ Z2 codiert soll also um n Bits verlängert werden: eigentliche Daten der Länge m | n Prüfbits Das verlängerte Wort nennen wir W . Dieses wird also übermittelt. Für die Erzeugung der Prüfbits wird ein fest gewähltes (sogenanntes) Generatorpolynoms g ∈ Z2 [x] mit n = deg(g) benutzt. Der Algorithmus um das Wort w zu senden verläuft wie folgt: 4.7 Polynomdivision zur Datensicherung 41 1. Das Wort w wird als Polynom f ∈ Z2 interpretiert und um den Faktor xn erweitert: p(x) = xn f (x). Das Polynom p ∈ Z2 [x] entspricht dem w erweitert um n Nullen (den Stellen für die Prüfbits). 2. Teile p durch g: p(x) = q(x)g(x) + r(x) . Das Restpolynom r ∈ Z2 [x] hat den Grad deg(r) < n. Wir bilden das Polynom P := p − r = qg. Hier sei noch angemerkt, dass in Z2 [x] gilt r = −r. Daher folgt insgesamt: P = p + r = qg . Da p in den letzten n Stellen nur Nullen besitzt, entspricht das Polynom P dem um n Bits erweiterten Wort w. Diese hinzugefügten Bits entsprechen gerade dem Rest r. 3. Wir interpretieren jetzt P wieder zurück als eine Bitkombination W ∈ Z2 und übertragen dieses Wort. 4. Bei dem Empfänger kommt W an. Er interpretiert dies als ein Polynom P und dividiert dies durch g. Wenn kein Fehler vorliegt gilt P = qg, es bildet sich also kein Rest. Liegt hingegen ein Übertragungsfehler vor, so bildet sich (wahrscheinlich) ein Rest. Beispiel: Wir wollen das in Bitreihenfolge kodierte Wort w = 10110 übermitteln und prüfen. f (x) = x4 + x2 + x, g(x) = x3 + 1 p(x) = x7 + x5 + x4 x7 + x5 + x4 = (x4 + x2 )(x3 + 1) + x2 5 4 P (x) = |x7 + x x2 = x7 + x5 + x4 +x2 {z + x} − |{z} p(x) (in Z2 ) r(x) W = 10110 100 Bemerkung: In der Praxis sind die zu übertragenden Worte natürlich länger. Bei dem weit verbreiteten Datenübertragungsprotokoll X.25 beträgt die gesamte Datenlänge 4096 Byte = 215 Bit. Hierbei werden 2 Byte als Prüfbytes verwendet, also gerade mal 0.5 Promille. Erkannt werden hierdurch alle Bitfehler mit ungerader Anzahl, 42 M. Braack - Körper sowie 2-Bit Fehler. Das Generatorpolynom lautet g(x) = x16 + x12 + x5 + 1. Das Polynom p hat den Grad 32767 = 215 − 1: Gesamte Wortlänge W davon Wortlänge w Prüfbitlänge b 4.8 215 Bit= 212 Byte 215 − 24 Bit= 212 − 2 Byte n = deg(p) = 24 = 16 Bit= 2 Byte. Horner-Schema Zur (numerischen) Auswertung von Polynomen wird sinnvollerweise das Horner Schema verwendet, da hierdurch die Anzahl der mathematischen Operationen (Addition und Multiplikation) im Gegensatz zur Standard-Darstellung p(x) = n X ai x i (4.2) i=0 verringert wird. Zunächst wollen wir die Anzahl der notwendigen Operationen auf Basis der Darstellung (4.2) ermitteln: • Der Ansatz (4.2) verlangt n Additionen und 1+2+. . .+(n+1) = (n+1)(n+2)/2 Multiplikationen. Also insgesamt (n2 + 5n + 2)/2 Operationen. • Selbstverständlich ist dies die naivste Art, denn die Ausdrücke xk kann man zwischenspeichern und wiederverwenden. In diesem Fall reduziert sich die Anzahl an Multiplikationen auf 1 + 2 + 2 + . . . + 2 = 2n − 1. Man kommt dann auf insgesamt 3n − 1 Operationen. Alternativ hierzu werden wir nun den Faktor x sukzessives ausklammern: p(x) = a0 + x(a1 + a2 x + a3 x2 + . . . + an xn−1 ) = a0 + x(a1 + x(a2 + a3 x + . . . + an xn−2 )) .. . = a0 + x(a1 + x(a2 + x(a3 + . . . + x(an−1 + xan )))) Die Berechnung nach dem Horner Schema erfolgt nun sukzessive von “innen” nach “außen”: c n = an cn−1 = an−1 + xcn .. . p(x) = c0 = a0 + xc1 . 4.8 Horner-Schema 43 Wir wollen an dieser Stelle kurz die notwendige Anzahl an Operationen vergleichen. Das Horner Schema benẗigt nur für jede der Zahlen c0 bis cn−1 jeweils eine Addition und eine Multiplikation. Insgesamt kommt man also auf 2n Operationen. Dieses Horner Schema kann auch in Form einer Tabelle abgelegt werden: In der ersten Zeile stehen die ursprünglichen Koeffizienten ak . Nun werden die Spalten sukzessive von links gefüllt. In der ersten Spalte für die ck steht stets eine Null. Die letzte Zeile erhält man durch Addition der ersten und der zweiten Zeile. Die zweite Zeile k−te Spalte ist ck+1 x. Das Endergebnis ist c0 = p(x): ak + ck an 0 cn an−1 cn x cn−1 ... ... ... a0 c1 x c0 Beispiel: Wir wollen dies an dem Beispiel p(x) = x3 − x2 + 2 an der Stelle x = 2 einmal durchführen: ak + ck 1 0 1 −1 2 1 0 2 2 4 2 p(2) = 6 44 M. Braack - Körper Kapitel 5 Vektorräume Definition 5.1 Sei (V ,+) eine kommutative Gruppe auf der noch eine weitere skalare Multiplikation mit Elementen eines Körpers K definiert ist, · : K × V → V . Dann heißt (V, +, ·) K-Vektorraum, wenn folgende Bedingungen für alle λ, µ ∈ K und v, w ∈ V erfüllt sind: • λ · (µ · v) = (λ · µ) · v, • 1 · v = v (hierbei bezeichnet 1 das neutrale Element der Multiplikation in K), • λ(v + w) = λ · v + λ · w, • (λ + µ) · v = λ · v + µ · v. Die Elemente von v ∈ V heißen dann Vektoren, und die des Körpers λ ∈ K Skalare. Im Fall K = R sprechen wir von einem reellen Vektorraum und für K = C von einem komplexen. Als unmittelbare Folgerung aus den obigen Vektorraumaxiomen ergibt sich: λ · 0 = 0, 0 · v = 0, (−1)v = −v , wobei der Nullvektor 0 stets fett gedruckt wurde, um ihn nicht mit dem neutralen Element der Addition des Körpers K zu verwechseln. Wie bereits zuvor bei Ringen und Körpern lassen wir das Zeichen der Multiplikation i.d.R. weg, also λv anstelle von λ · v. 46 5.1 5.1.1 M. Braack - Vektorräume Beispiele von Vektorräumen Die Vektorräume Rn und Cn Unter dem n-dimensionalen Raum Rn (n ∈ N) versteht man den Raum der Vektoren (oder auch n−Tupel) v1 v2 v = . mit v1 , . . . , vn ∈ R . . . vn Vektoren lassen sich Addieren v, w ∈ R , v + w = n v1 + w 1 v2 + w 2 .. . vn + w n und skalar Multiplizieren (skalieren) mit Werten λ ∈ R: λv1 λv2 n v ∈ R ,λ ∈ R : λv = . . . λvn Die skalare Multiplikation λw entspricht einer Streckung (oder Stauchung) um den Faktor λ. Die Addition von Vektoren, v + w, entspricht dem aneinander heften der Vektoren, siehe Abb. 5.1. Man prüft leicht nach, dass Rn ein R-Vektorraum ist. Ebenso sind aber auch Cn ein C-Vektorraum und R ist ein Q-Vektorraum. Andererseits ist aber Qn kein R-Vektorraum, denn die skalare Multiplikation · : R×Qn → Qn ist in diesem Fall nicht definiert. λw 2 v+w w 1 v 1 2 3 4 Abbildung 5.1: Addition und skalare Multiplikation von Vektoren. 5.2 Unterräume 5.1.2 47 Der Vektorräume Zn2 Der Raum Zn2 ist ein Z-Vektorraum, der in der Informatik und dort insbesondere in der Codierungstheorie sehr wichtig ist. So lassen sich INTEGER Zahlen in einem Rechner als Vektoren in Zn2 darstellen (hier ist für gewöhnlich n = 32). 5.1.3 Funktionenräume In der Mathematik spielen Funktionen(vektor)-Räume eine große Rolle. So ist zum Beispiel der Raum der stetigen reellwertigen Funktionen C(R) ein R-Vektorraum. Die Addition von Funktionen ist dann definiert als: (f + g)(x) = f (x) + g(x) , (λf )(x) = λf (x) . Der Nullvektor ist die Funktion identisch Null: 0(x) = 0. Der Raum der Polynome K[x] über einem Körper bilden einen K-Vektorraum. Im folgenden werden wir nur noch von einem Vektorraum V sprechen und den zugehörigen Körper K im Hinterkopf behalten. In unseren Beispielen gilt zumeist K = R oder K = C. 5.2 Unterräume Definition 5.2 Eine Teilmenge U ⊂ V eines Vektorraumes V heißt Unterraum (oder Untervektorraum oder Teilraum), wenn er selbst einen Vektorraum darstellt. Es gilt folgendes Kriterium, dass i.d.R. einfach nachzuprüfen ist: Lemma 5.3 Eine nichtleere Teilmenge U ⊂ V eines Vektorraumes V ist genau dann ein Unterraum, wenn er bezüglich der Addition und der skalaren Multiplikation abgeschlossen ist, d.h. für alle v, w ∈ U und alle λ ∈ K gilt: v + w ∈ U und λv ∈ U . Beweis. ⇒: Dass der Vektorraum U abgeschlossen ist bezüglich der Verknüpfungen + und ·, folgt unmittelbar aus der Definition 5.1 eines Vektorraums. ⇐: Die Rechenregel in Definition 5.1 gelten für alle Vektoren in V und damit insbesondere für die in U . Es bleibt zu zeigen, dass (U, +) eine kommutative Gruppe ist und dass · : K × U → U gilt. Letzteres besagt gerade die Tatsache, dass U 48 M. Braack - Vektorräume abgeschlossen ist bzgl. der skalaren Multplikation. Da ferner U auch abgeschlossen ist bzgl. der Addition und da das Kommutativgesetz für ganz V gilt, ist nur nachzuweisen, dass 0 ∈ U und dass die Inversen in U sind. Da U 6= ∅, sei v ∈ U . Dann folgt aber aufgrund der Abgeschlossenheit bzgl. der skalaren Multplikation U 3 0 · v = 0. Ferner gilt mit v ∈ U auch U 3 (−1) · v = −v . Also sind das neutrale Element bzgl. + und die Inversen in U , und (U, +) damit eine kommutative Gruppe. Beispiele von Unterräumen des R3 : Neben den trivialen Unterräumen {0} und R3 sind Geraden und Flächen, die jeweils den Nullpunkt enthalten, Unterräume des R3 : {λv : λ ∈ R} {λv + µw : λ, µ ∈ R} . Hierbei sind v, w ∈ R3 beliebige linear unabhängige Vektoren. Folgende Beobachtungen gelten in Bezug auf Unterräume: • Jeder Vektorraum V hat die trivialen Unterräume {0} und V . • 0 ∈ U für beliebigen Unterraum U . • Für v ∈ V ist {λv : λ ∈ K} ein Unterraum von V . • Sind W1 , W2 ⊂ V Unterräume von V , so ist auch W1 ∩W2 ein Unterraum. Dies gilt sogar für beliebige Schnitte von Unterräumen. Hingegen ist W1 ∪ W2 i.a. keiner. Es gilt sogar: W1 , W2 , W1 ∪W2 Unterräume ⇒ (W1 ⊂ W2 ) ∨ (W2 ⊂ W1 ) (Übungsaufgabe). Man kann sich diesen Sachverhalt schnell an Flächen oder Geraden im R3 vergegenwärtigen. 5.3 Linearkombinationen und aufgespannte Teilräume Unter einer Linearkombination von Vektoren v1 , . . . , vm ∈ V versteht man einen Vektor der Form: w = m X i=1 αi vi ∈ V, 5.4 Lineare Abhängigkeit 49 mit Koeffizienten α1 , . . . , αm ∈ K. Der von den Vektoren v1 , . . . , vm ∈ V aufgespannte Raum ist gerade die Menge aller Linearkombinationen: ( m ) X span(v1 , . . . , vm ) := αi vi : α1 , . . . , αm ∈ K . i=1 Wir haben hier den aufgespannten Raum nur definiert mittels endlich vieler Vektoren. Man kann diesen Begriff aber auch verallgemeinern für unendlich viele Vektoren. Sei hierzu I eine Indexmenge und vi ∈ V für i ∈ I. Dann ist der span(vi : i ∈ I) der Raum der Vektoren, die sich als endliche Linearkombination der vi , i ∈ I darstellen lassen. Dies lässt sich auch formulieren durch: [ span(vi )i∈I := span(vi )i∈J . J⊂I endlich Dass dies tatsächlich (Unter-)Vektorräume sind besagt der nachfolgende Satz: Lemma 5.4 Sei I eine beliebige Indexmenge. Dann ist die Menge span(vi )i∈I der kleinste Unterraum von V , der alle vi , i ∈ I, enthält. Beweis. Zunächst ist zu prüfen, dass V0 := span(vi )i∈I tatsächlich ein Unterraum von V ist. Dies ist aber offensichtlich, da dieser Raum abgeschlossen ist bzgl. der Addition und der skalaren Multiplikation und wegen Lemma 5.3. Es bleibt zu zeigen, dass für einen Unterraum W von V mit vi ∈ W für alle i ∈ I gilt: V0 ⊆ W . Dies folgt aber aus der notwendigen Abgeschlossenheit bzgl. + und · von W . 5.4 Lineare Abhängigkeit Zwei Vektoren v, w ∈ V heißen linear abhängig, wenn einer von ihnen Skalierung des anderen ist, also v = λw mit beliebigem λ ∈ K bzw. es gibt λ1 , λ2 ∈ K mit λ1 6= 0 oder λ2 6= 0 und λ1 v + λ2 w = 0. Im allgemeinen lautet die Definition folgendermaßen: Definition 5.5 Endlich viele Vektoren v1 , . . . , vm ∈ V heißen linear abhängig, wenn es eine nicht-triviale Linearkombination gibt, die Null ergibt, also m X i=1 λi vi = 0 , 50 M. Braack - Vektorräume für λ1 , . . . , λm ∈ K mit mindestens einem λi 6= 0. Anderenfalls heißen die Vektoren linear unabhängig. Ist I eine (unendliche) Indexmenge und vi ∈ V für alle i ∈ I, so heißt die Familie (vi )i∈I genau dann linear unabhängig, wenn für jede endliche Teilmenge J ⊆ I die Vektoren (vi )i∈J linear unabhängig sind. Vektoren sind also genau dann linear abhängig, wenn man durch sie den Nullvektor als nichttriviale Linearkombination darstellen kann. Beispiel: 1. Die drei Vektoren v1 = 1 2 3 8 , v2 = 2 4 −1 4 , v3 = 3 6 −5 0 sind linear abhängig, da v1 − 2v2 + v3 = 0. 2. Im allgemeinen sieht man dies nicht sofort, so dass man zunächst ein lineares Gleichungssystem (LGS) aufstellen muss: v 1 x1 + v 2 x2 + v 3 x3 = 0 Speziell hier also: x1 + 2x2 + 3x3 = 0 2x1 + 4x2 + 6x3 = 0 3x1 − x2 − 5x3 = 0 8x1 + 4x2 = 0 Hat dieses LGS eine von Null verschiedene Lösung ? Auf den ersten Blick sehen wir dies evtl. nicht. Wie man dies entscheiden kann werden wir im folgenden erarbeiten. Hier nun ein paar Beobachtungen und Eigenschaften linearer Abhängigkeit: • Eine Menge von Vektoren, die den Nullvektor 0 enthält, ist immer linear abhängig. • Jede Untermenge linear unabhängiger Vektoren ist wieder linear unabhängig. 5.5 Basen und Dimension 51 • Im Vektorraum Rn sind die “kanonischen” Einheitsvektoren ei ∈ Rn , 1 ≤ i ≤ n, mit ei T = (0, 0, . . . , 0, 1 , 0, . . . , 0) |{z} i−te Stelle stets linear unabhängig. Lemma 5.6 Sei I eine Indexmenge und {vi }i∈I ⊂ V . Dann sind die Vektoren {vi }i∈I genau dann linear unabhängig, wenn sich jeder v ∈ span(vi )i∈I eindeutig als (endliche) Linearkombination der {vi }i∈I darstellen läßt. Beweis. ⇒: Die {vi }i∈I seien linear unabhängig und es sei v ∈ V darstellbar als X X v = λi vi = µj vj , i∈I1 j∈I2 mit zwei endlichen Indexmengen I1 , I2 ⊂ I. Dann folgt für J = I1 ∪ I2 : X 0 = (λj − µj )vj , j∈J wobei wir ggf. gewisse λj oder µj setzen: λj = 0 für j ∈ J \I1 und µj = 0 für j ∈ J \I2 . Da J wieder endlich ist folgt nun aus der linearen Unabhängigkeit λj = µj für alle j ∈ J. Also war die obige Darstellung eindeutig. ⇐: Nun setzen wir voraus, das sich jeder Vektor aus span(vi )i∈I eindeutig als endliche Linearkombination der vi darstellen läßt. Insbesondere gilt dies für den Nullvektor 0. Damit ist die eindeutige Darstellung diejenige bei der alle Koeffizienten verschwinden, λi = 0. Also sind die (vi )i∈I linear unabhängig 5.5 Basen und Dimension Definition 5.7 Eine Teilmenge E = {vi }i∈I eines Vektorraumes V heißt Erzeugendensystem von V , wenn span(vi )i∈I = V . Definition 5.8 Ein Erzeugendensystem B heißt Basis, wenn es aus linear unabhängigen Vektoren besteht. Beispiele: • Die kanonischen Einheitsvektoren {e1 , . . . , en } bilden eine Basis des Rn . 52 M. Braack - Vektorräume • Der Vektorraum der Polynome R[x] hat die Basis {1, x, x2 , x3 , . . .}. Satz 5.9 (Basisauswahlsatz) Aus einem endlichen Erzeugendensystem E eines Vektorraumes V lässt sich stets eine Basis B ⊆ E von V auswählen. Beweis. Wenn E aus linear unabhängigen Vektoren besteht, so stellt dies bereits eine Basis dar. Anderenfalls lässt sich der Nullvektor als nicht-triviale Linearkombination des Erzeugendensystems darstellen. Sei nun E = {v1 , . . . , vn }. Dann gilt: n X λi vi = 0 . i=1 Wir könne oBdA (ohne Beschränkung der Allgemeinheit) annehmen, dass λ1 6= 0. Dann folgt: v1 n X λi = vi . λ 1 i=2 Nun sieht man, dass E 0 = E \ {v1 } immer noch Erzeugendensystem von V ist, denn es gilt v = n X n X µi vi = (µi + µ1 λi /λ1 )vi . i=1 i=2 Dieses Argument führen wir durch, bis wir ein linear unabhängiges Erzeugendensystem B ⊆ . . . ⊂ E 0 ⊂ E erhalten. Das folgende Lemma macht nun eine Aussage darüber, wann man einen Vektor einer Basis gegen einen anderen austauscht, ohne die Eigenschaft, eine Basis zu sein, zu verletzen. Lemma 5.10 (Austauschlemma von Steinitz) Sei V ein Vektorraum mit endP licher Basis B = {v1 , . . . , vn }. Gilt nun w = ni=1 λi vi mit einem λk 6= 0, so ist B 0 := {v1 , . . . , vk−1 , w, vk+1 , . . . , vn } wieder eine Basis von V . Beweis. Wir können zur Vereinfachung der Schreibweise k = 1 annehmen. Zu zeigen ist die Eigenschaft eines Erzeugendensystems sowie die lineare Unabhängigkeit. Sei v ∈ V . Dann gibt es eine Darstellung v = n X i=1 µi vi . 5.5 Basen und Dimension 53 Nun folgt wegen λ1 v1 = w − Pn i=2 v = µ1 /λ1 w − n X λi vi : ! λi vi + n X i=2 µi vi = α 1 w + i=2 n X αi v i , i=2 mit α1 = µ1 /λ1 und αi = µi − µ1 λi /λ1 für i = 2, . . . , n. Also läßt sich jedes v ∈ V geeignet darstellen. Zur linearen Unabhängigkeit: Wir wollen die Annahme zum Widerspruch führen, dass die Vektoren aus B 0 linear abhängig sind. Es gelte also: 0 = µ1 w + n X µi v i , i=2 mit mindestens einem µi 6= 0. Im Fall von µ1 = 0, wären schon die {v2 , . . . , vn } linear abhängig. Dies ist nach Voraussetzung ausgeschlossen. Also ist µ1 6= 0. Dann folgt w = − n X µi /µ1 vi . i=2 Da aber noch nach Voraussetzung die Darstellung w = n X λi vi mit λ1 6= 0 i=1 gilt, konnte die Darstellung von w nicht eindeutig sein. Dies ist ein Widerspruch zu Lemma 5.6. Beispiel: Wir betrachten die kanonische Basis bestehend aus Einheitsvektoren des R3 : B = {e1 , e2 , e3 }. Nun stellen wir die Frage, welchen dieser Vektoren wir wählen und austauschen können gegen den Vektor w = (2, 3, 0)T und dabei wieder eine Basis des R3 erhalten ? Wir können sowohl e1 als auch e2 gegen w austauschen. Den Vektor e3 können wir hingegen nicht wählen. Die Begründung ist, dass wir zur Darstellung von w durch eine Linearkombination aus Vektoren von B, sowohl für e1 als auch e2 ein von Null verschiedenes Gewicht haben. Das Gewicht für e3 ist hingegen immer Null: w = 2e1 + 3e2 + 0e3 . Dieses Lemma kann nun dahingehend verallgemeinert werden, dass man eine größere Anzahl (aber endlich viele) Vektoren aus einer Basis austauscht. 54 M. Braack - Vektorräume Satz 5.11 (Austauschsatz von Steinitz) Sei B eine endliche Basis eines Vektorraumes V und M ⊆ V eine endliche Menge linear unabhängiger Vektoren. Dann gilt: (a) |M | ≤ |B| und (b) ∃B 0 ⊂ B mit |M | = |B 0 |, so dass M ∪ (B \ B 0 ) wieder eine Basis von V ist. Beweis. Der Beweis wird per Induktion nach der Anzahl m an Elementen von M geführt. Für m = 0 ist nichts zu zeigen (Induktionsverankerung). Wir nehmen also an, die Behauptung sei für m − 1 bereits gezeigt (Induktionsannahme). Sei M = {w1 , . . . , wm } und B = {v1 , . . . , vn }. Da die wi linear unabhängig sind, weiß man nach Induktionsannahme, dass {w1 , . . . , wm−1 , vm , . . . , vn } eine Basis von V ist (ggf. werden die vi umnummeriert). Außerdem gilt nach Induktionsannahme m − 1 ≤ n, bzw. m ≤ n + 1. Zum Nachweis der Behauptung (a) ist daher nur noch der Fall m = n + 1 auszuschließen. Dann wäre aber bereits M \ {wm } eine Basis und die Vektoren von M wären linear abhängig (wm ließe sich als Linearkombination der übrigen wi darstellen). Da dies ein Widerspruch zur Voraussetzung des Satzes ist, folgt also |M | = m ≤ n = |B|. Nun gilt wm ∈ span(w1 , . . . , wm−1 , vm , . . . , vn ). Da ferner wm 6∈ span(w1 , . . . , wm−1 ), muss eine Darstellung wm = m−1 X i=1 λi wi + n X λi vi i=m existieren mit λk 6= 0 für ein k ∈ {m, . . . , n}. Nach dem Austauschlemma 5.10 lässt sich nun vk durch wm ersetzen und man erhält wieder eine Basis von V . Korollar 5.12 Besitzt ein Vektorraum V eine endliche Basis B, so ist jede Basis B 0 endlich und besitzt gleich viele Elemente wie B. Beweis. Sei B = {v1 , . . . , vn } und B 0 = {wi }i∈I . Wäre I unendlich, so gäbe es in B 0 linear unabhängige Vektoren w1 , . . . , wn+1 . Das widerspricht aber dem Austauschsatz 5.11, denn es gilt n + 1 6≤ n. Also ist auch B 0 endlich. Nun liefert der Austauschsatz sowohl |B| ≤ |B 0 | wie auch |B 0 | ≤ |B|. Demnach folgt |B| = |B 0 |. Dies legt nun folgende Definition nahe: 5.5 Basen und Dimension 55 Definition 5.13 Für einen Vektorraum V definiert man dessen Dimension als dim V := ∞ wenn V keine endliche Basis besitzt, n wenn V eine Basis mit n Elementen besitzt. Streng genommen kann die Dimension von der speziellen Wahl des zugrunde liegenden Körpers K abhängen. Da wir aber i.d.R. K = R haben, wollen wir dies nicht weiter in die Bezeichnungsweise der Dimension integrieren. Beispiele: • Der Rn besitzt die Dimension n. Somit sind m Vektoren v1 , v2 , . . . , vm ∈ Rn mit m > n stets linear abhängig. • Geraden besitzen als Unterraum die Dimension 1, Flächen die Dimension 2. • Der Raum der Polynome R[x] besitzt die Dimension ∞. • C kann als reeller Vektorraum der Dimension 2 aufgefaßt werden. Eine Basis ist B = {1, i}. Satz 5.14 (Basisergänzungssatz) Sei M eine Menge linear unabhängiger Vektoren eines Vektorraumes V , so existiert eine Basis B von V mit M ⊆ B. Beweis. Wir werden hier nur den Fall betrachten, dass V ein endliches Erzeugendensystem E besitzt. Nach Satz 5.9 können wir hieraus eine (endliche) Basis B 0 ⊂ E auswählen. Nach dem Austauschsatz 5.11 muss M nun ebenfalls endlich sein und wir können diese |M| Elemente aus E gegen die von M austauschen. Wir erhalten so die gewünschte Basis B. Im Falle eine unendlichen Erzeugendensystems ist die Argumentation erheblich schwieriger, weil auf das sogenannte Auswahlaxiom oder äquivalente Aussagen zurückgegriffen werden muss. Auswahlaxiom: Ist M eine Menge von nichtleeren Mengen, dann gibt es eine Funktion F mit Definitionsbereich M, genannt Auswahlfunktion, so dass gilt: F (X) ∈ X Hierzu ein paar Bemerkungen: ∀X ∈ M . 56 M. Braack - Vektorräume • Für Mengen von nichtleeren Teilmengen von N ist es problemlos möglich: Man wählt von jeder Teilmenge das kleinste Element aus. Ähnlich kann man für eine Menge von abgeschlossenen Teilmengen der reellen Zahlen eine explizite Auswahlfunktion (ohne Verwendung des Auswahlaxioms) angeben, indem man etwa aus jeder Menge das (wenn möglich positive) Element mit kleinstem Absolutbetrag wählt. • Selbst für Mengen von Intervallen reeller Zahlen ist eine Auswahlfunktion definierbar: Man wählt von jedem Intervall den Mittelpunkt aus. • Für Mengen von beliebigen nichtleeren Teilmengen von R gibt es jedoch keine offensichtliche Definition einer Auswahlfunktion. In diesem Fall ist das Auswahlaxiom relevant. Es postuliert die Existenz einer Auswahlfunktion, ohne sie anzugeben. Eine unmittelbare Folgerung aus dem Basisergänzungssatz ist: Korollar 5.15 Jeder Vektorraum besitzt eine Basis. Beweis. Wir gehen von der leeren Menge aus und ergänzen diese gemäß Satz 5.14 zu einer Basis. Lemma 5.16 Ist W ein Unterraum eines endlich-dimensionalen Vektorraumes V , so gilt dim W ≤ dim V . Im Fall dim W = dim V folgt sogar W = V . Beweis. Wir können eine Basis B von W zu einer von V ergänzen. Hieraus folgt dim W ≤ dim V . Im Fall dim W = dim V ist B bereits Basis von V , also W = V . Bemerkung: Dies gilt nicht mehr für unendlich-dimensionale Vektorräume V . So ist z.B. R[x] eine echte Teilmenge von C(R), aber dim R[x] = dim C(R) = ∞. Kapitel 6 Lineare Abbildungen Definition 6.1 Eine Abbildung zwischen zwei K-Vektoräumen F : V → W wird lineare Abbildung, oder auch (Vektorraum-) Homomorphismus, genannt, wenn gilt: F (v + w) = F (v) + F (w) F (λv) = λF (v) ∀v, w ∈ V , ∀v ∈ V ∀λ ∈ K . Ist F außerdem bijektiv, so heißt F Isomorphismus und V und W heißen isomorph. Gilt hingegen V = W so heißt eine lineare Abbildung auch Endomorphismus. Beispiele: 1. Alle linearen Abbildungen F : R → R haben die Gestalt F (x) = λx mit λ = F (1). 2. Die konstante Abbildung F (v) = w ∈ V ist genau dann linear, wenn w = 0. 3. Das Bilden der Ableitung Ψ : C 1 (R) → C(R), f 7→ Ψ(f ) = f 0 ist eine lineare Abbildung. Hierbei bezeichnen C 1 (R) und C(R), die Vektorräume der einmal stetig differenzierbaren und der stetigen reellwertigen Funktionen über R. Genauso ist das Bilden der Ableitung in einem Punkt x0 ∈ R linear: Ψ : C 1 (R) → R, f 7→ Ψ(f ) = f 0 (x0 ). Nun ein paar wichtige Eigenschaften linearer Abbildung F : V → W : 1. Es gilt stets F (0) = F (0 · v) = 0F (v) = 0. 58 M. Braack - Lineare Abbildungen 2. Das Bild linear abhängiger Vektoren v1 , . . . , vm ist stets wieder linear abhängig, denn wenn m X λi vi = 0 , i=1 mit λk 6= 0, so gilt auch: m X λi F (vi ) = F i=1 m X ! λi vi = F (0) = 0 . i=1 Andererseits sind die Bilder linear unabhängiger Vektoren nicht notwendigerweise linear unabhängig (Beispiel: F ≡ 0). 3. Die Umkehrung dieser Aussage lautet: Die Urbilder v1 , . . . , vm linear unabhängiger Vektoren w1 , . . . , wm sind wieder linear unabhängig (F (vi ) = wi ). 4. Ist V 0 ⊂ V ein Unterraum, so ist auch F (V 0 ) ⊂ W ein Unterraum von W mit dim F (V 0 ) ≤ dim V 0 (Übungsaufgabe). Insbesondere werden Geraden als Unterräume des Rn durch lineare Abbildungen F : Rn → Rm auf Geraden oder den Nullvektor abgebildet. 5. F ist genau dann injektiv, wenn es kein v ∈ V , v 6= 0, mit F (v) = 0 gibt. Denn wäre F (v1 ) = F (v2 ) für zwei verschiedene Vektoren v1 , v2 ∈ V , so gelte aufgrund der Linearität F (v1 − v2 ) = 0. 6. Die Hintereinanderausführung (Komposition) von Homomorphismen F : V → W und G : W → Y ist wieder ein Homomorphismus, G ◦ F : V → Y . Satz 6.2 Seien V, W Vektorräume und B eine Basis von V . Dann ist eine lineare Abbildung F : V → W durch die Bilder der Basis {F (v) : v ∈ B} bereits eindeutig festgelegt und es gilt F (V ) = span(F (B)). Ferner ist F genau dann injektiv, wenn die Familie F (B) aus linear unabhängigen Vektoren besteht. Beweis. Sei v ∈ V beliebig. Es ist zunächst zu zeigen, dass F (v) durch die Werte F (vi ), vi ∈ B, bereits eindeutig festgelegt ist. Dies folgt aber aus der eindeutigen Darstellung v = m X i=1 λi vi , 6.1 Kern und Bild 59 mit geeigneten λ1 , . . . , λm ∈ K und der Linearität von F : F (v) = m X λi F (vi ) . (6.1) i=1 Also gibt es maximal eine lineare Abbildung mit vorgegebenen Werten für die Basiselemente. Man prüft nun noch sehr leicht nach, dass die durch Definition (6.1) gegebene Funktion F tatsächlich linear ist. Die Eigenschaften F (V ) = span(F (B)) folgt auch unmittelbar aus (6.1). Nun bestehe die Menge F (B) aus linear unabhängigen Vektoren. Dies ist gleichbedeutend mit folgender Implikation: ! m X λi F (vi ) = 0 =⇒ (λ1 = . . . = λm = 0) . i=1 Dies ist aber wiederum äquivalent zu: ! ! m X F λi vi = 0 =⇒ (λ1 = . . . = λm = 0) . i=1 Da sich jedes v als Linearkombination der vi darstellen läßt (B ist Erzeugendensystem) ist dies wiederum äquivalent zur Injektivität von F . Als Folgerung aus diesem Satz erhalten wir eine Aussage über lineare Abbildungen F : Rn → Rm . Eine solche ist nämlich bereits dann eindeutig definiert, wenn wir wissen, wie die Bilder F (ei ) der kanonischen Basis, den Einheitsvektoren e1 , . . . , en , aussehen. 6.1 Kern und Bild Definition 6.3 Unter dem Kern einer linearen Abbildung F : V → W versteht man den Unterraum Ker(F ) = F −1 (0) = {v ∈ V : F (v) = 0} . Dass dies tatsächlich ein Unterraum ist, folgt aus der Abgeschlossenheit von Ker(F ) bzgl. + und ·: F (v + w) = F (v) + F (w) = 0 + 0 = 0 , F (λv) = λF (v) = λ0 = 0 , für beliebige v, w ∈ Ker(F ) und λ ∈ K. Nun folgt unmittelbar aus der bereits gezeigten Bemerkung oben: 60 M. Braack - Lineare Abbildungen Lemma 6.4 Ein Vektorraumhomomorphismus F : V → W ist genau dann injektiv, wenn Ker(F ) = {0}. Beweis. Sei 0 6= v ∈ Ker(F ). Dies impliziert F (v) = 0 = F (0). Also ist F nicht injektiv. Ist umgekehrt F nicht injektiv, also F (v) = F (w) für v, w ∈ V und v 6= w, so folgt aufgrund der Linearität von F : 0 6= v − w ∈ Ker(F ). Lemma 6.5 Das Bild Im(F ) eines Vektorraumhomomorphismus F : V → W ist ein Unterraum von W : Im(F ) = F (V ) = {w ∈ W : ∃v ∈ V F (v) = w} . Definition 6.6 Unter dem Rang einer linearen Abbildung F : V → W versteht man die Dimension des Bildes, rang (F ) = dim Im(F ). Im Fall eines unendlich dimensionalen Bildes schreibt man rang (F ) = ∞. Die Bezeichnung Im stammt aus dem englischen “image”. Beispiele: 1. Die Abbildung F : R3 → R3 , (x, y, z)T 7→ F ((x, y, z)T ) = (x + y, x + y, x + z) besitzt den eindimensionalen Kern (dim Ker(F ) = 1) Ker(F ) = {(x, −x, −x)T ∈ R3 : x ∈ R} und das Bild Im(F ) = {(x, x, z) ∈ R3 : x, z ∈ R} . Der Kern entspricht einer Geraden und das Bild einer Fläche durch den Nullpunkt. Somit besitzt diese Abbildung den rang (F ) = 2. 2. Kern und Bild der linearen Abbildung F : R[x] → R, F (p) = p(0) lauten: Ker(F ) = {p ∈ R[x] : p besitzt bei x = 0 eine Nullstelle.} , Im(F ) = R . Also haben wir dim Ker(F ) = ∞ und rang (F ) = 1. Satz 6.7 (Dimensionsformel) Für einen Vektorraumhomomorphismus F : V → W mit einem endlich-dimensionalen Vektorraum V gilt: dim V = dim Ker(F ) + rang (F ) . 6.1 Kern und Bild 61 Beweis. Sei hierzu B 0 = {u1 , . . . , ur } eine Basis von Ker(F ) und C = {w1 , . . . , wm } eine von Im(F ). Wir setzen vk := F −1 (wk ) und zeigen, dass B := B 0 ∪ {v1 , . . . , vm } eine r + m-elementige Basis von V ist. Hierzu zeigen wir, dass ein beliebiges v ∈ V auch im span(B) ist. Wir setzen w = F (v) ∈ Im(F ). Dann existiert eine eindeutige P Darstellung w = m i=1 λi wi . Hieraus folgt ! m m X X F (v) = w = λi F (vi ) = F λi v i i=1 und somit v − Pm i=1 i=1 λi vi ∈ Ker(F ). Nun folgt die Existenz einer Darstellung v− m X r X λi vi = i=1 µr ui . i=1 Somit läßt sich v auch als Linearkombinationen der vi zusammen mit den ui darstellen. Also v ∈ span(B). Es bleibt zu zeigen, dass sie vi zusammen mit den ui linear unabhängig sind: Aus 0 = m X λi vi + i=1 r X µr ui i=1 folgt aufgrund von F (ui ) = 0: 0 = F (0) = m X i=1 λi F (vi ) + r X i=1 µr F (ui ) = m X λi wi . i=1 Da die wi linear unabhängig waren, folgt nun λ1 = . . . = λm = 0. Nun folgt aus der linearen Unabhängigkeit der ui aber auch µi = 0 für alle i. Korollar 6.8 Zwischen zwei endlich-dimensionalen Vektorräumen V und W gibt es genau dann einen Isomomorphismus F : V → W , wenn dim V = dim W . Beweis. (a) Es gelte dim V = dim W und {v1 , . . . , vn } sei eine Basis von V und {w1 , . . . , wn } eine Basis von W . Dann gibt es gemäß Satz 6.2 einen injektiven Homomorphismus F : V → W mit wi = F (vi ). Da die wi außerdem ein Erzeugendensystem von W sind ist dieses F auch surjektiv und somit ein Isomomorphismus. (b) Im Fall dim W < dim V gilt nach der Dimensionsformel dim Ker(F ) = dim V − dim Im(F ) ≥ dim V − dim W ≥ 1 . 62 M. Braack - Lineare Abbildungen Somit kann nach Lemma 6.4 keine injektive lineare Abbildung von V nach W existieren. (c) Im Fall dim W > dim V folgt nach der Dimensionsformel für jede lineare Abbildung F : dim Im(F ) = dim V − dim Ker(F ) < dim W − 0 = dim W . Damit kann F nicht surjektiv sein. 6.2 Matrizen Wir wissen, dass eine lineare Abbildungen F : Rn → Rm bereits eindeutig definiert ist, wenn wir wissen, wie die Bilder F (ei ) der kanonischen Basis, den Einheitsvektoren e1 , . . . , en , aussehen. Wir wollen diese Bilder, was ja jeweils Vektoren im Rm sind, a1i F (ei ) = ... , ami als Spaltenvektoren ai ∈ Rm nebeneinander schreiben: a11 . . . a1n .. = (a · · · a ) . .. A = ... . 1 n . am1 . . . amn Solche rechteckigen Schemata nennen wir Matrizen. Definition 6.9 Den Raum der linearen Abbildungen von Rn nach Rm bezeichnen wir mit M at(m × n; R), oder kurz Rm×n . Die Elemente heißen Matrizen und bestehen aus m Zeilen und n Spalten reellwertiger Einträge. Eine Matrix A ∈ Rm×n , bestehend aus den Spaltenvektoren ai ∈ Rm , ist also gerade die lineare Abbildung, die den Vektor ei auf den Vektor ai abbildet. Häufig schreibt man auch A = (aij ), um die Notation der Einträge aufzuzeigen. Lemma 6.10 Eine Matrix A = (aij ) ∈ Rm×n aufgefasst als lineare Abbildung von Rn → Rm , x 7→ Ax ist gegeben durch die Matrix-Vektor-Multiplikation a11 . . . a1n x1 a11 x1 + . . . + a1n xn .. .. = .. .. .. Ax = ... , . . . . . am1 . . . amn xn am1 x1 + . . . + amn xn 6.2 Matrizen 63 bzw. durch die Komponenten (Ax)i = n X aij xj , i = 1, . . . , m . j=1 . Beweis. Ein x ∈ Rn lässt sich als Linearkombination der kanonischen Basis darstellen: n X x = xj e j . j=1 Somit folgt aufgrund der Linearität von A: Ax = n X xj A(ej ) = j=1 n X aj xj . j=1 Dies ist aber gerade die geforderte Matrix-Vektor Multiplikation. Die i-te Komponente ist dann: n n X X (Ax)i = (aj )i xj = aij xj . j=1 j=1 Beispiel: Die lineare Abbildung R3 → R2 , (x, y, z)T 7→ ( 21 x − z, − 12 x + y)T lautet in Matrixdarstellung 1 0 −1 2 A = ∈ R2×3 . 1 0 −2 1 Jede Matrix A ∈ Rm×n kann man aber auch auffassen als einen Vektor mit m · n Komponenten, also als Element von Rmn . Insofern bildet der Raum Rm×n einen Vektorraum auf dem die Addition zwischen zwei (gleichartigen) Matrizen A = (aij ) und B = (bij ) a11 + b11 . . . a1n + b1n .. .. .. A+B = , . . . am1 + bm1 . . . amn + bmn und die skalare Multiplikation mit λ ∈ R definiert sind λa11 . . . λa1n .. ... λA = ... . λam1 . . . λamn 64 M. Braack - Lineare Abbildungen Im Übrigen gelten auch das Kommutativgesetz für die Addition, das Assoziativgesetz und das Distributivgesetz für A, B, C ∈ Rm×n und λ ∈ R: A + B = B + A, 6.2.1 (A + B) + C = A + (B + C) , λ(A + B) = λA + λB . Matrizenprodukte Die Hintereinanderausführung C von zwei linearen Abbildungen A ∈ Rm×n und B ∈ Rn×r B A Rr −→ Rn −→ Rm ist dann die Matrix C = (cij ) = AB ∈ Rm×r , deren Einträge cij durch die Multiplikation cij = n X aik bkj k=1 gegeben ist. Dies sehen wir wie folgt: Sei z = (AB)x, bzw. z = Ay und y = Bx. Dann lautet die i-te Komponente von z: zi = n X aij yj , yj = j=1 r X bjk xk . k=1 Einsetzen und Vertauschen der Summationsreihenfolge ergibt: ! r r n n r X X X X X cik xk . bjk xk = aij bjk xk = zi := aij j=1 k=1 k=1 j=1 k=1 Bei der Matrizenmultiplikation ist wichtig, dass das Kommutativgesetz i.a. nicht gilt: AB 6= BA . Im Fall A ∈ Rm×n und B ∈ Rn×r mit m 6= r ist sogar nur AB definiert und nicht BA. Ferner kann es passieren, dass das Produkt zweier von der Nullmatrix verschiedener Matrizen die Nullmatrix ergibt. Im Fall m = r = 1 und n beliebig ergibt die Matrixmultiplikation eine reelle Zahl: b1 n X .. (a1 . . . an ) . = aj b j ∈ R bn j=1 6.2 Matrizen 65 Beispiel: (Anreicherung von Schadstoffen in Nahrungsketten) Wir gehen von r Pflanzenarten b1 ,. . ., br aus, die von s Pflanzenfresser p1 ,. . ., ps gefressen werden. Diese werden wiederum von t Fleischfresser f1 ,. . ., ft verspeist. Man erhält also folgende Nahrungskette: −→ |{z} bj −→ |{z} pk B fi A Nun seien die Pflanzen bj mit Schadstoffen belastet und man fragt sich, inwieweit die armen Fleischfresser belastet werden ? Im Fall von linearen Zusammenhängen lässt sich dies mit Matrizenmultiplikation beschreiben: B = (bkj ) ∈ Rs×r beschreibe die jeweilige Aufnahme von bj durch pk , A = (aik ) ∈ Rt×s beschreibe die jeweilige Aufnahme von pk durch fi , C = AB ∈ Rt×r beschreibt dann die indirekte Aufnahme von bj durch fi . Insbesondere ist die Aufnahme von Pflanze bi durch fj gegeben durch cij = s X aik bkj . k=1 Zahlenbeispiel: 2 1 A = 1 2 , 0 3 B = 0 0 1 3 4 1 0 1 , 4 1 2 7 C = AB = 8 2 1 5 . 12 3 0 3 Fleischfresser f2 nimmt bspw. indirekt die Menge 8 an Pflanzenart p1 auf. 6.2.2 Endomorphismen des Rn Die Endomorphismen auf dem Vektorraum Rn , also die linearen Abbildungen F : Rn → Rn ist demnach gegeben durch die quadratischen Matrizen A ∈ Rn×n a11 . . . a1n A = ... . . . ... an1 . . . ann Eine wichtige Matrix ist die sogenannte Einheitsmatrix 1 0 ... 0 0 . . . . . . ... In = .. . . . . . . 0 . 0 ... 0 1 66 M. Braack - Lineare Abbildungen Gelegentlich wird der Index “n” auch weggelassen, wenn man weiß , um welches es sich handelt. Eine weitere wichtige Eigenschaft ist, dass In das neutrale Element der Matrizenmultiplikation ist: ∀A ∈ Rn×n . AIn = In A = A Definition 6.11 Eine quadratischen Matrix A ∈ Kn×n heißt regulär, wenn eine sogenannte Inverse Matrix A−1 ∈ Kn×n existiert, so dass A−1 A = AA−1 = In . Die Menge dieser regulären Matrizen wird mit GL(n, K) bezeichnet (“general linear group”). Nicht-reguläre quadratische Matrizen werden als singulär bezeichnet. Beispiele regulärer Endomorphismen im Körper K = R: 1. Die Einheitsmatrix ist nicht nur symmetrisch, sondern auch regulär mit Inverser In−1 = In . 2. Drehung um einen Winkel θ für n = 2: cos θ − sin θ A = sin θ cos θ Die Inverse ist dann sicherlich die Drehung um einen Winkel −θ: cos(−θ) − sin(−θ) cos θ sin θ −1 A = = sin(−θ) cos(−θ) − sin θ cos θ Probe: (A−1 A)11 = cos2 θ + sin2 θ = 1 , (A−1 A)12 = cos θ sin θ + (− sin θ) cos θ = 0 . Entsprechend ergeben sich auch (A−1 A)21 = 0 und (A−1 A)22 = 1, also A−1 A = I2 . 3. Skalierung um den Faktor λ ∈ R, λ 6= 0: A = λIn Die Inverse ist (λIn )−1 = λ−1 In . 4. Scherung mit λ ∈ R: A = 1 λ 0 1 , −1 A = 1 −λ 0 1 . 6.2 Matrizen 67 5. Spiegelung an der y−Achse: A = −1 0 0 1 , A−1 = A . Satz 6.12 Die Menge der regulären Matrizen GL(n, K) bildet zusammen mit der (Matrizen-) Multiplikation eine (i.a. nicht-kommutative) Gruppe. Beweis. Man prüft leicht nach, dass für A, B ∈ GL(n, K) das Produkt B −1 A−1 das Inverse zu AB ist, z.B.: (B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 In B = B −1 B = In . Satz 6.13 Für eine quadratischen Matrix A ∈ Kn×n sind äquivalent: (i) A ist injektiv. (ii) A ist surjektiv. (iii) A ist bijektiv. (iv) A ist regulär. (v) dim Ker(A) = 0. (vi) rang(A) = n. Beweis. Die Äquivalenz der Aussagen (i), (ii) und (iii) folgt unmittelbar aus dem Dimensionssatz, denn dieser besagt für injektives A: n = dim V = dim Ker(A) + rang (A) = rang (A) Also folgt aus der Injektivität die Surjektivität. Umkehrt folgt aus dem Dimensionssatz die Injektivität aus der Surjektivität. Also sind (i), (ii) und (iii) äquivalent. Die Äquivalenz von (iii) und (iv)ist auch offensichtlich. Dass (i) und (v) äquivalent sind haben wir schon in Lemma 6.4 gezeigt. Letztendlich folgt dann aus der Äquivalenz von (vi) und (ii) die Äquivalenz aller sechs Aussagen. 6.2.3 Dreiecksmatrizen Sogenannte obere Dreiecksmatrizen besitzen unterhalb der Diagonalen nur Nulleinträge: a11 ∗ ∗ ∗ 0 a22 ∗ ∗ A = . . . . . . . . . . ∗ 0 ··· 0 ann 68 M. Braack - Lineare Abbildungen Oberhalb der Diagonalen sind die Einträge beliebig (angedeutet durch ein *). Diese sind genau dann regulär, wenn die Hauptdiagonalelemente ungleich Null sind, aii 6= 0 für alle i = 1, . . . , n. Das gleiche gilt für untere Dreiecksmatrizen, also Matrizen A = (aij ) ∈ Kn×n mit aij = 0 für i < j: Lemma 6.14 Eine Dreiecksmatrix A = (aij ) ∈ Kn×n ist genau dann regulär, wenn aii 6= 0 für alle i = 1, . . . , n. Beweis. Wir zeigen die Behauptung für eine untere Dreiecksmatrix. Für obere Dreiecksmatrizen folgert man analog. Es gelte aii 6= 0 für alle i = 1, . . . , n. Nach Satz 6.13 genügt es zu zeigen, dass Ker(A) = {0}. Wenn nun x ∈ Ker(A) , also Ax = 0, so gilt insbesondere für die erste Komponente von Ax aufgrund der Dreiecksgestalt: 0 = (Ax)1 = n X a1i xi = a11 x1 . i=1 Da nun a11 6= 0 angenommen wurde, folgt x1 = 0. Für die zweite Komponente folgert man entsprechend 0 = a21 x1 + a22 x2 = a22 x2 . Mit dem gleichen Argument erhält man nun x2 = 0 usw., also x = 0. Wenn nun akk = 0 für ein k ∈ {1, . . . , n}, so sind die letzten n−k+1 Spaltenvektoren ak , . . . , an von der Gestalt (0, . . . , 0, ∗, . . . , ∗) mit mindestens k führenden Nulleinträgen. Es sind also maximal die letzten n − k Komponenten von Null verschieden. Dann müssen diese n − k + 1 Spaltenvektoren linear abhängig sein. Zusammen mit den ersten k − 1 Spaltenvektoren, besitzt A also maximal n − k + k − 1 = n − 1 linear unabhängige Spaltenvektoren. Da die Spaltenvektoren gerade die Bilder der n Einheitsvektoren sind, kann A nicht surjektiv sein. 6.2.4 Transponierte und symmetrische Matrizen Zu einer gegebenen Matrix A ∈ Rm×n heißt die Matrix AT ∈ Rn×m mit Einträgen (AT )ij = aji die zu A transponierte Matrix. Offensichtlich gilt: (AT )T = A , (A + B)T = AT + B T , (λA)T = λ(AT ) . 6.2 Matrizen 69 Das Transponieren ist demnach ein Isomorphismus vom Vektorraum Rm×n auf Rn×m . Ein wenig aufpassen muss man bei der Transposition von Produkten von Matrizen: (AB)T = B T AT . (6.2) Dies prüft man nach indem man setzt C = (AB) = (cij ) und B T AT = (dij ): dji n n X X T T = (B )jk (A )ki = bkj aik = cij k=1 k=1 Lemma 6.15 Für A ∈ GL(n, K) ist auch AT ∈ GL(n, K) und es gilt (A−1 )T = (AT )−1 . Beweis. Zunächst gilt aufgrund von (6.2) AT (A−1 )T = (A−1 A)T = I T = I. Also ist (A−1 )T die Inverse von AT . Aufgrund der Eindeutigkeit der Inversen folgt die Behauptung. Definition 6.16 Eine quadratische Matrix A heißt symmetrisch, wenn AT = A. 6.2.5 Rang einer Matrix Wir schreiben eine Matrix A ∈ Km×n nun in Form von n Spaltenvektoren a1 , . . . , an und in Form von m Zeilenvektoren a1 , . . . , an ∈ Kn : − a1 − | ... | A = a1 . . . an = ... ... ... | ... | − an − Unter dem Spaltenrang von A versteht man die Dimension des Unterraums, der durch die Spaltenvektoren aufgespannt wird: Spaltenrang(A) = dim span(a1 , . . . , an ) . Entsprechend definiert man den Zeilenrang als die Dimension des Unterraums, der durch die m Zeilenvektoren aufgespannt wird: Zeilenrang(A) = dim span(a1 , . . . , an ) . Folgendes Lemma besagt nun, dass der Spaltenrang gleich dem Rang der linearen Abbildung A entspricht. 70 M. Braack - Lineare Abbildungen Lemma 6.17 Es gilt für A ∈ Km×n : rang (A) = Spaltenrang (A). Beweis. Der Rang einer Matrix, rang (A), ist die Dimension des Bildraumes Im(A). Da der Bildraum aber gerade durch die n Spaltenvektoren ai aufgespannt wird, ergibt sich die Behauptung. Später werden wir sehen, dass der Rang auch gerade dem Zeilenrang entspricht. Um dies zu sehen, benötigen wir aber noch ein paar weitere Hilfsmittel. Lemma 6.18 Sei A ∈ Km×n , S ∈ GL(n, K) und T ∈ GL(m, K). Dann gilt: (a) Spaltenrang(A) = Spaltenrang(T AS −1 ) , (b) Zeilenrang(A) = Zeilenrang(T AS −1 ) . Beweis. Wir betrachten das folgende Diagramm: A m n IK IK S S −1 −1 T n IK TAS −1 IK T m Ein solches Diagramm wird kommutativ genannt, weil es wegunabhängige Abbildungen aufzeigt. So ist die Abbildung A : Kn → Km die gleiche wie T −1 (T AS −1 )S. Da S und T Isomorphismen sind, gilt rang (A) = rang (T AS −1 ). Es folgt: Spaltenrang(A) = rang (A) = rang (T AS −1 ) = Spaltenrang(T AS −1 ) . Somit ist (a) gezeigt. Die Behauptung (b) folgt analog durch Betrachtung des kommutativen Diagramms für AT und (S T )−1 AT T T und Anwendung von Lemma 6.15: Zeilenrang(A) = Spaltenrang(AT ) = Spaltenrang((S T )−1 AT T T ) = Spaltenrang((T AS −1 )T ) = Zeilenrang(T AS −1 ) . Lemma 6.19 Spaltenrang und Zeilenrang beliebiger Matrizen A ∈ Rm×n sind identisch. Beweis. Wir wählen S ∈ GL(n, K) und T ∈ GL(m, K), so dass Ir 0 −1 T AS = , 0 0 6.3 Lineare Gleichungssysteme 71 mit der Einheitsmatrix Ir ∈ Kr×r . Den Beweis, dass dies stets gilt, führen wir anschließend. Hierbei ist zu beachten, dass die obigen Nulleinträge für Matrizen stehen, die nur Nullen enthalten, aber nicht notwendigerweise quadratisch sind. Nun folgt mit dem vorherigen Lemma: Spaltenrang(A) = Spaltenrang(T AS −1 ) = r = Zeilenrang(T AS −1 ) = Zeilenrang(A) . Nun wollen wir noch kurz zeigen, dass obige Isomorphismen S und T tatsächlich existieren. Sei {w1 , . . . , wr } eine r-elementige Basis von Im(A) und v1 , . . . , vr ∈ Kn die Urbilder dieser Basis, also Avi = wi für i = 1, . . . , r. Die vi sind linear unabhängig. Wir ergänzen diese Mengen nach dem Basisergänzungssatz zu einer Basis {w1 , . . . , wm } von Km und zu einer Basis {v1 , . . . , vn } von Kn . Hierbei können wir (gemäß des Beweises des Dimensionssatzes) vr+1 , . . . , vn ∈ Ker(A) wählen. Wir wählen nun: | ··· S := v1 · · · | ··· −1 | vn , | −1 | ··· | T := w1 · · · wm . | ··· | Es gilt S −1 ei = vi und T −1 ei = wi . Nun gilt für 1 ≤ i ≤ r: T AS −1 ei = T Avi = T wi = ei , und für r < i ≤ m: T AS −1 ei = T Avi = T 0 = 0 . Damit ergibt sich die gewünschte Struktur von T AS −1 . 6.3 Lineare Gleichungssysteme Ein lineare Gleichungssystem (LGS) mit n Unbekannten x1 , . . . , xn und m Gleichungen der Form a11 x1 + . . . + a1n xn = b1 .. . . = .. am1 x1 + . . . + amn xn = bm , 72 M. Braack - Lineare Abbildungen läßt sich durch Matrizen kompakt schreiben in der Form Ax = b , (6.3) mit der Matrix A = (aij ) ∈ Rm×n . Der Lösungsvektor x besitzt n Komponenten, also x ∈ Rn . Im Fall b 6= 0 spricht man von einem inhomogenen System. Das zugehörige homogene System lautet: Ax = 0 . Beispiel: Die beiden Gleichungen 2x1 − x2 + 4x3 = 5 und x2 + x3 = 1 lassen sich in der Form (6.3) schreiben indem man setzt: 2 −1 4 5 A = , b = 0 1 1 1 Im Fall einer regulären quadratischen Matrix A ∈ GL(n, R), bei der man die Inverse A−1 kennt, ist die Lösung x ∈ Rn einfach gegeben durch eine Matrix-VektorMultiplikation: x = In x = A−1 Ax = A−1 b . Ferner kann man ein Gleichungssystem der Form (6.3) von beiden Seiten mit einer regulären m × m Matrix S ∈ GL(m, R) multiplizieren ohne, dass man die Lösung x ändert: SAx = Sb . Dies liegt daran, dass S regulär ist und damit eine Inverse S −1 besitzt. Multipliziert man diese Inverse von links wieder auf beiden Seiten heran, erhält man die Ausgangsgleichung. 6.3.1 Allgemeine und spezielle Lösungen Ein abstrakteres Kriterium für die Lösbarkeit des Gleichungssystems (6.3) liefert folgendes Lemma: Lemma 6.20 Das LGS (6.3) hat genau dann eine Lösung, wenn b ∈ Im(A). Beweis. Der Beweis ist offensichtlich. Zur Überprüfung der Lösbarkeit, macht die Betrachtung des Ranges der um den Spaltenvektor b erweiterte Matrix Sinn. Dieser wird mit rang(A, b) bezeichnet. 6.3 Lineare Gleichungssysteme 73 Lemma 6.21 Das LGS (6.3) ist genau dann lösbar, wenn rang(A) = rang(A, b). Beweis. Der Beweis ist offensichtlich, da rang(A) = rang(A, b) äquivalent ist zu b ∈ Im(A). Satz 6.22 Ist x eine Lösung von (6.3) und y ∈ Ker(A), so ist auch x + y eine Lösung. Man sagt: Die allgemeine Lösung des inhomogenen Systems ergibt sich aus der Addition einer speziellen Lösung des inhomogenen Systems und der allgemeine Lösung des zugehörigen homogenen Systems. Beweis. Aufgrund der Linearität gilt A(x + y) = Ax + Ay = b + 0 = b. Hieraus folgen wir unmittelbar: Korollar 6.23 Das LGS (6.3) besitzt maximal eine Lösung, wenn Ker(A) = {0}. Korollar 6.24 Das LGS (6.3) ist genau dann eindeutig lösbar, wenn rang(A) = rang(A, b) = n ≤ m. Beweis. Nach Satz 6.22 ist eine notwendige Bedingung für die eindeutige Lösbarkeit, dass Ker(A) = {0}. Nach der Dimensionformel 6.7 folgt dann n = dim(Rn ) = rang(A). Da rang(A) ≤ min(m, n), folgt m ≥ n. Damit überhaupt eine Lösung existiert, muss b ∈ Im(A) gelten. Dies bedeutet aber, dass sich b durch die Spaltenvektoren von A linear kombinieren läßt, also rang(A) = rang(A, b). Um nun alle Lösungen angeben zu können, benötigen wir nun also ein praktisches Verfahren, um (a) eine spezielle Lösung eines inhomogenen Systems, und (b) die allgemeine Lösung eines homogenen Systems ermitteln zu können. Dies machen wir zunächst für spezielle Matrizen. 6.3.2 Vorwärts- und Rückwärtseinsetzen Wenn A eine reguläre obere Dreiecksmatrix ist, so kann man eine spezielle Lösung x durch einfaches Rückwärtseinsetzen erhalten: xn = bn /ann xn−1 = a−1 n−1,n−1 (bn−1 − an−1,n xn ) .. . . = .. ! n X xk = a−1 bk − akj xj kk j=k+1 k = n, . . . 1 . 74 M. Braack - Lineare Abbildungen Entsprechend ergibt Vorwärtseinsetzen bei unteren Dreiecksmatrizen die Lösung: ! k−1 X xk = a−1 bk − akj xj k = 1, . . . , n . kk j=1 Beispielsweise erhält man die Lösung von x1 1 2 3 −1 x2 = 2 . 0 1 1 2 3 x3 0 0 2 wie folgt: 1 3 3 = 2 2 = 2(2 − 1x3 ) = 1 1 1 = (1 − 3x2 − (−1)x3 ) = − . 2 4 x3 = x2 x1 Besitzt die Dreiecksmatrix auf der Hauptdiagonalen nur von Null verschiedene Einträge, so gibt es keine von Null verschiedene allgemeine Lösung des homogenen Systems. Die Lösung ist also eindeutig. Besitzt die Matrix hingegen ein oder mehrere Diagonaleinträge, die verschwinden zB. akk = 0, so ... 6.3.3 Gauß’sches Eliminationsverfahren bei quadratischen regulären Matrizen Wir setzen nun zunächst voraus, dass A ∈ GL(n, R). Die Inverse von A existiert also, ist aber im allgemeinen nicht bekannt. Dann gibt es die Möglichkeit, beide Seiten der Gleichung (6.3) mit regulären Matrizen S1 , . . . , Sr zu multiplizieren: Sr . . . S1 A x = Sr . . . S1 b . | {z } | {z } b A b b Man hat dann (6.3) in ein äquivalentes LGS b = bb Ax b = Sr . . . S1 A möglichst überführt. Hierbei sollten die Sk so gewählt sein, dass A b = In . Da aber die Umformung mit Aufwand vereinfach ist. Im idealen Fall ist A b eine Dreiecksmatrix bunden ist, genügt es i.a. Umformungen so zu wählen, dass A 6.3 Lineare Gleichungssysteme 75 ist. Für gewöhnlich wählt man die Sr , so dass das resultierende System aus einer oberen Dreiecksmatrix besteht. Hierzu reicht es aus als Umformungsmatrizen Sk sogenannte Elementarmatrizen zu wählen. Diese beschreiben folgende Zeilenumformungen: 1. Vertauschen zweier Zeilen. 2. Multiplikation einer Zeile mit λ ∈ R, λ 6= 0. 3. Addition des λ-fachen der j-ten Zeile zur i-ten Zeile. Hierbei ist streng genommen die 4. Umformung auch darstellbar als Kombination von 2. und 3. Wenn man diese Manipulationen von Hand durchführt, erweitert man die Matrix A i.d.R. um die Spalte b und führt dann hiermit die Umformungen durch. man operiert also auf der erweiterten Koeffizientenmatrix (A|b). Das Endresultat führt b und die entsprechende rechte Seite bb. dann auf die Matrix A Dies wollen wir einmal an einem Beispiel durchführen: 1 0 1 −4 1 2 −1 x = 2 1 1 0 1 −4 1 1 2 −1 2 1 1 2 3 3 2 Vertausche Z.1 und Z.3 −→ Subtrahiere Z.1 von Z.2 −→ 1 1 2 3 1 2 −1 2 0 1 −4 1 1 1 2 3 0 1 −3 −1 0 1 −4 1 Subtrahiere Z.2 von Z.3 −→ 1 1 2 3 0 1 −3 −1 0 0 −1 2 Hieraus ergibt sich also das äquivalente lineare Gleichungssystem: 1 1 2 3 0 1 −3 x = −1 0 0 −1 2 Man erhält nun einfach durch Rückwärtseinsetzen: x3 = −2 , x2 = −1 + 3x3 = −7 , x1 = 3 − x2 − 2x3 = 14 . 76 M. Braack - Lineare Abbildungen C Code Nun wollen wir diese Gauß’sche Elimination einmal in Form eines C-Codes formulieren. Die Indexierung sei wie in C üblich von 0 bis n − 1. for (int i=0; i<n-1; i++) { if (fabs(a(i,i))<epsilon) rowswap(i); for (int j=i+1; j<n; j++) { for (int k=i; k<n; k++) { a(j,k) -= a(i,k)*a(j,i)/a(i,i); } b[j] -= b[i]*a(j,i)/a(i,i); } } Hierbei bezeichnet rowswap(i) eine Unterroutine, die die i-te Zeile mit einer k-ten Zeile vertauscht. Es gilt hierbei k > i und f abs(a(k, k)) möglichst groß. 6.3.4 Gauß’sche Elimination bei nicht notwendigerweise quadratischen Matrizen Ist die Ausgangsmatrix A ∈ Rm×n nicht unbedingt vom quadratischen Typ, sondern m, n ∈ N beliebig, so kann man nicht unbedingt eine Umformung in eine Dreiecksmatrix erreichen. Die im vorherigen Abschnitt beschriebe Elimination kann aber im wesentlichen auch hier angewendet werden. Hierzu führt man die Umformung der erweiterten Koeffizientenmatrix (A|b) analog durch. Der Ablauf zur Bestimmung einer allgemeinen Lösung ist wie folgt: 1. Schritt (Umformung auf Zeilenstufenform) Man führt die Gauß’sche Elimination so durch, dass die Endmatrix von sogenannter Zeilenstufenform ist. In Zeilenstufenform befindet sich eine Matrix, wenn die unterste Zeile die meisten links-stehenden Nullen von allen Zeilen beinhaltet und die Anzahl der links-stehenden Nullen von unten nach oben abnimmt. Beispielsweise ist die folgende erweiterte 4 × 5-Matrix von Zeilenstufenform: c1,j1 ∗ ∗ ∗ ∗ bb1 0 0 c2,j2 ∗ ∗ bb2 0 0 0 c3,j3 ∗ bb3 0 0 0 0 0 bb4 6.3 Lineare Gleichungssysteme 77 Eine obere Dreiecksmatrix ist eine besondere Form der Zeilenstufenform. Umgekehrt ist eine quadratische Matrix von Zeilenstufenform auch eine Dreiecksmatrix. Sei r ≤ m die letzte Zeile, in der von Null verschiedene Einträge cr,j auftreten. Der Rang von A ist gerade dieser Wert, rang(A) = r. Im obigen Beispiel gilt r = 3. Nun können folgende Fälle auftreten: Fall 1: In einer der unteren Zeilen j ∈ {r + 1, . . . , m}, die nur aus Nulleinträgen besteht, ist der Koeffizient bbj ungleich Null. In diesem Fall existiert keine Lösung des ursprünglichen LGS, denn es gilt dann rang(A, b) = rang(A) + 1. Dies sieht man auch in der zugehörigen Gleichung, die lauten würde: 0xj1 + . . . + 0xn = bbj = 6 0. In diesem Fall ist man also fertig, da es keine Lösung gibt. Fall 2: Alle Nullzeilen haben auch auf der rechten Seite einen Nulleintrag, bbr+1 = . . . = bbm = 0. In diesem Fall existiert mindestens eine Lösung, denn dann ist rang(A, b) = rang(A) = r. 2. Schritt (Spezielle Lösung des inhomogenen Systems) Um im Fall 2 eine spezielle Lösung zu erhalten, geht man wie folgt vor: Man setzt xjr +1 = . . . = xn = 0, sowie für alle i deren Diagonalkoeffizient verschwindet, cii = 0, setzt man ebenfalls xi = 0. Die übrigen xj erhält man durch Rückwärtseinsetzen. Im Beispiel der obigen 4 × 5-Matrix setzt man im Fall von bb4 = 0: x2 = x5 = 0 und x4 = bb3 /c3,4 , x3 = (bb2 − c2,4 x4 )/c2,3 , P x1 = (bb1 − 5i=2 c1,i xi )/c1,1 . 3. Schritt (Allgemeine Lösung des homogenen Systems) Diejenigen Komponenten, die im 2. Schritt a priori zu Null gesetzt wurden, also xjr +1 , . . . , xn und die xi mit cii = 0, werden nun freie Parameter: Im obigen Beispiel sind dies x2 = λ1 und x5 = λ2 . Die übrigen xj ergeben sich nun wieder durch Rückwärtseinsetzen und sind abhängig von den freien Parametern λi , i = 1, . . . , n − r. Die Dimension des (affinen) Lösungsraumes X ist die des Kerns von A, also beträgt sie n − r. Im Fall r < n existieren also noch allgemeine Lösungen des zugehörigen homogenen Systems. Diese erhält man wie folgt: Wir wollen dies nun an einem konkreten Beispiel einmal umsetzen: Gegeben sei 78 M. Braack - Lineare Abbildungen folgendes LGS mit m = 5 und n = 7: 0 0 0 0 0 1 0 1 0 1 0 2 −1 −4 0 1 −1 −1 2 1 0 2 1 −2 0 1 −1 0 2 −1 1 1 0 0 1 x1 .. . .. . .. . x7 = 1 2 3 2 5 Im ersten Schritt modifizieren wir die 3., 4. und 5. Zeile, um die Zeilenstufenform zu erreichen: Wir ziehen die erste Zeile von der 3. Zeile ab. Ferner subtrahieren wir die 2. Zeile von der 4. Zeile: x 1 0 1 0 2 −1 −4 0 . 1 .. 0 0 1 −1 −1 2 1 2 .. 0 2 2 0 . = 2 0 0 0 0 0 0 0 0 1 0 −2 .. . 0 1 1 1 0 0 1 5 x7 Nun subtrahieren wir die 1. und 2. Zeile von der letzen Zeile. Außerdem dividieren wir die 3. Zeile durch 2: x 1 1 0 1 0 2 −1 −4 0 . .. 0 0 1 −1 −1 2 1 2 .. 0 1 1 0 . = 1 0 0 0 0 0 0 0 0 1 0 −2 .. . 2 0 0 0 0 2 2 0 x7 Nun sehen wir, dass wir die letzte Zeile ganz zu Null machen können, indem wir das 2-fache, der 3. Zeile von der letzten abziehen. Die vorletzte Zeile modifizieren wir noch dahingehend, dass wir die 3. von ihr abziehen: 0 0 0 0 0 1 0 0 0 0 0 2 −1 −4 0 1 −1 −1 2 1 0 0 1 1 0 0 0 0 −1 −2 0 0 0 0 0 x1 .. . .. . .. . x7 = 1 2 1 −1 0 6.3 Lineare Gleichungssysteme 79 Um nun eine spezielle Lösung zu erhalten, setzen wir x1 = x4 = x7 = 0. Hierdurch reduziert sich das System zu: 1 1 0 −1 −4 x2 2 x3 2 0 1 −1 = 1 1 x5 1 0 0 −1 0 0 0 −1 x6 Die restlichen Komponenten ergeben sich daher zu x6 = 1, x5 = 1 − x6 = 0, x3 = 2 − x5 − 2x6 = 0 und x2 = 1 + 4x6 = 5. Eine spezielle Lösung ist also: x∗ = (0, 5, 0, 0, 0, 1, 0)T . Für die allgemeine Lösung des zugehörigen homogenen LGS setzen wir x1 = λ1 , x4 = λ2 und x7 = λ3 . Die übrigen vier Komponenten ergeben sich aus: x 1 0 0 1 0 2 −1 −4 0 . .. 0 0 1 −1 −1 2 1 0 .. 0 1 1 0 . = 0 0 0 0 0 0 0 0 0 0 −1 −2 .. . 0 0 0 0 0 0 0 0 x7 bzw. 1 0 0 0 0 0 −1 −4 1 −1 2 0 1 1 0 0 −1 0 0 0 x2 x3 = −λ1 x5 x6 Diese ist wiederum äquivalent zu 1 0 −1 −4 x2 2 x3 0 1 −1 1 1 x5 0 0 0 0 0 −1 x6 0 0 0 0 0 − λ2 = 2 −1 0 0 0 −2λ2 λ2 − λ3 0 2λ3 Also muss für die abhängigen Variablen gelten: x6 = −2λ3 , x5 = −x6 = 2λ3 , x3 = λ2 − λ3 + x5 − 2x6 = λ2 + 5λ3 x2 = −2λ2 + x5 + 4x6 = −2λ2 − 6λ3 . − λ3 0 1 0 −2 0 80 M. Braack - Lineare Abbildungen Damit lautet die allgemeine Lösung: x = 6.4 λ1 5 − 2λ2 − 6λ3 λ2 + 5λ3 λ2 2λ3 1 − 2λ3 λ3 Determinanten Definition 6.25 Die Determinante ist eine Abbildung det : M at(n × n, K) → K. Diese ist definiert als det(A) := X σ∈Sn sign (σ) n Y ai,σ(i) . i=1 In obiger Definition bezeichnet Sn die Menge der n-elementigen Permutationen und sign(σ) ∈ {−1, 1} das Vorzeichen einer Permutation. Es gilt sign(σ) = 1, wenn die Permutation einer gradzahligen Vertauschung von Elementen entspricht. Anderenfalls wird der Wert −1 angenommen. Bemerkung: Die Determinante det A entspricht dem Volumenmaß, des durch die Zeilenvektoren von A aufgespannte Parallelepipeds (auch Spat genannt), siehe Abb. 6.1. Hierdurch erhält man insbesondere die Volumina unter linearer Transformation: Ist S ⊂ Rn mit Volumenmaß |S|, so hat das Bild unter einer linearen Abbildung A ∈ Rn×n das Maß: |A(S)| = | det A| · |S| . Man beachte, dass die Abbildung det i.a. nicht-linear ist (zB. gilt det(λA) = λ det A). Speziell für eine n = 2 Matrix ist gegeben durch a b a b = ad − bc det = c d c d n Die senkrechten Striche haben nichts mit dem Absolutbetrag zu tun, sondern sind lediglich eine andere Schreibweise für die Determinante. 6.4 Determinanten 81 Abbildung 6.1: Parallelepiped in 3 Raumdimensionen aufgespannt durch drei (Zeilen-) Vektoren einer Matrix A. Die Determinante von A ist das eingeschlossene Volumen. Lemma 6.26 Besitzt eine Matrix zwei identische Zeilen, so verschwindet die Determinate, also det A = 0. Beweis. Die Matrix A besitze zwei gleiche Zeilen(-vektoren) ai1 und ai2 . Wir betrachten die Untermenge der geraden Permutationen An := {σ ∈ Sn : sign(σ) = 1}. Sei nun τ ∈ Sn die Permutation, die i1 und i2 vertauscht. Dann lässt sich Sn wie folgt disjunkt zerlegen: Sn = An ∪ An τ. Somit lässt sich die Summe in der Definition der Determinate schreiben als die Summe zweier Summen: n n X Y X Y det A = sign(σ) ai,σ(i) + sign (σ ◦ τ ) ai,σ(τ (i)) i=1 σ∈An i=1 σ∈An Nun gilt aber sign(σ ◦ τ ) = sign(σ)sign(τ ) = −sign(σ) und det A = X sign(σ) n Y ai,σ(i) − i=1 σ∈An n Y ! ai,σ(τ (i)) . i=1 Die Behauptung folgt nun aus der Gleichheit der auftretenden Produkte n Y i=1 ai,σ(i) = n Y ai,σ(τ (i)) , i=1 denn τ (i) = i für i 6= i1 , i2 und aufgrund der angenommenen Gleicheit der zwei Zeilen ai1 ,σ(i1 ) ai2 ,σ(i2 ) = ai2 ,σ(i1 ) ai1 ,σ(i2 ) = ai1 ,σ(i2 ) ai2 ,σ(i1 ) = ai1 ,σ(τ (i1 )) ai2 ,σ(τ (i2 )) . 82 M. Braack - Lineare Abbildungen Lemma 6.27 Vertauscht man zwei Zeilen bei einer quadratischen Matrix, so unterscheiden sich die Determinanten nur um das Vorzeichen. Durch die Addition des λ-fachen einer Zeile zu einer anderen ändert sich die Determinante überhaupt nicht. Beweis. (a) Das Vertauschen zweier Zeilen entspricht einer Permutation σ ∈ Sn mit sign(σ) = −1. Die Behauptung folgt nun aus der Definition der Determinante und dem Vorzeichen von verknüpften Permutationen sign(σ ◦ σ̃) = sign(σ)sign(σ̃) ∀σ, σ̃ ∈ Sn . (b) Als Übungsaufgabe verifiziere man zunächst für Matrizen ai , a0i : .. .. .. . . . 0 0 det ai + ai = det ai + det ai .. .. .. . . . mit Spaltenvektoren , wobei beide Matrizen auf der rechten Seite in allen Zeilen identisch sind, bis auf eine Zeile, in der sie evtl. verschieden sind. Wir wollen jetzt das λ− fache der j-ten Zeile von A zur i-ten Zeile von A hinzuaddieren. Hierbei muss i 6= j gelten. Es bezeichne a1 , . . . , an die Zeilenvektoren. Ferner bezeichne A0 die quadratische Matrix, die sich von A nur in einer Zeile i unterscheidet indem man die i-te Zeile identisch mit der j-ten Zeile setzt. Nach dem vorherigen Lemma gilt det A0 = 0. Wir erhalten nun .. . 0 det ai + λa0i = det A + λ det A = det A. .. . Lemma 6.28 Für transponierte Matrizen gilt det AT = det A. Beweis. Die Produkte in der Definition der Determinante 6.25 lässt sich auch wie folgt ausdrücken: n Y i=1 ai,σ(i) = n Y j=1 aσ−1 (j),j . 6.4 Determinanten 83 Nun ist mit σ ∈ Sn aber auch σ −1 ∈ Sn und sign(σ) = sign(σ −1 ). Durchläuft σ ganz Sn , so tut dies auch σ −1 . Die Determinante einer Summe von Matrizen ist i.a. aber nicht identisch mit der Summe der Determinanten, d.h. es kann durchaus det(A + B) 6= det A + det B. vorkommen. Lemma 6.29 Für (obere oder untere) Dreiecksmatrizen A ∈ Kn×n ist die Determinante gerade das Produkt der Diagonaleinträge: det A = a11 a22 · · · ann . Insbesondere hat die Einheitsmatrix die Determinante det In = 1. Beweis. Das einzige von Null verschiedene Produkt in der Definition der Determinante 6.25 erhält man durch die Permutation σ = id. Die nachfolgende Charakterisierung regulärer Matrizen durch deren Determinante ist außerordentlich nützlich: Satz 6.30 Eine quadratische Matrix A ist genau dann regulär, wenn det A 6= 0. Beweis. Dies zeigt man dadurch, dass man sich zunächst anschaut, wie sich die Determinante bei Multiplikation mit Elementarmatrizen verhält. Gemäß Lemma 6.27 gilt, dass - sich durch das Vertauschen zweier Zeilen nur das Vorzeichen ändert und - die Addition des λ-fachen einer Zeile zu einer anderen, die Determinante überhaupt nicht ändert. Insofern bleibt die Determinate bei der Gauss’schen Elimination bis auf ihr Vorzeichen erhalten. Für eine Dreiecksmatrix B ist die Determinate leicht berechenbar, det B = b11 · . . . · bnn . Insbesondere sieht man, dass det B 6= 0 genau dann gilt, wenn B regulär ist. Das gleiche gilt somit auch für eine allgemeine Matrix A ∈ Kn×n . Satz 6.31 (Determinanten-Multiplikationssatz) Für A, B ∈ Kn×n gilt det(AB) = det A · det B. 84 M. Braack - Lineare Abbildungen Beweis. Nehmen wir zunächst an, dass A und/oder B singulär ist. Dann ist es aber auch das Produkt AB. Nach dem vorherigen Satz gilt dann det(AB) = 0 und det A · det B = 0. Daher genügt es diese Gleichheit für reguläre Matrizen A, B zu zeigen. Dann lässt sich A als Produkt von Elementarmatrizen, d.h. solchen die eine Skalierung einer Zeile mit einer skalaren Größe λ darstellt (bezeichnet mit Si (λ)) und der Addition einer Zeile zu einer anderen (bezeichnet mit Qji ). Daher genügt es zu zeigen: det(Si (λ)B) = det(Si (λ)) · det B und det(Qji B) = det(Qji ) · det B. Da es sich bei diesen Elementarmatrizen um Dreiecksmatrizen handelt, gilt det(Si (λ) = λ und det(Qji ) = 1. Gemäß der Definition der Determinate gilt det(Si (λ)B) = λ det B = det(Si (λ) · det B. Wie bereits in Lemma 6.27 gezeigt, ändert die Addition von einer Zeile zu einer anderen die Determinante nicht. Also gilt auch hier det(Qji B) = det B = det(Qji ) · det B. Korollar 6.32 Ist A ∈ Kn×n regulär, so gilt det(A−1 ) = (det A)−1 . Beweis. Dies folgt aus dem Determinantenmultiplikationssatz und det(In ) = 1: 1 = det(In ) = det(AA−1 ) = det(A) det(A−1 ). 6.4.1 Entwicklungssatz von Laplace Mit dem Entwicklungssatz von Laplace läßt sich eine Determinante rekursiv berechnen. Man führt die Determinantenberechnung einer n × n-Matrix zurück auf n Determinanten von jeweils (n − 1) × (n − 1)-Matrizen. Hierzu benötigen wir noch folgende Notation. Ist A ∈ Rn×n , n ≥ 2, so entsteht A0ij ∈ R(n−1)×(n−1) durch Streichen der i-ten Zeile und j-ten Spalte: a11 · · · a/// a1n 1j · · · · · · · /// ··· ··· · ai1 /// · · · /// aij /// · · · a/// in A0ij = /// ← i-te Zeile gestrichen · · · · /// ··· ··· · an1 · · · a/// ann nj · · · ↑ j-te Spalte gestrichen 6.4 Determinanten 85 Die Determinante det(A0ij ) ist ein sogenannter Minor von A. Satz 6.33 (Entwicklungssatz von Laplace) Die Determinante einer quadratischen Matrix A ∈ Rn×n mit n ≥ 2 lässt sich berechnen durch Entwicklung nach der i-ten Zeile: det A = n X (−1)i+j aij det A0ij , 1 ≤ i ≤ n, j=1 sowie durch Entwicklung nach der j-ten Spalte: det A = n X (−1)i+j aij det A0ij , 1 ≤ j ≤ n. i=1 Beweis. Wir wollen den Beweis hierzu nicht führen. Man kann diesen aber nachlesen in den Standardlehrbüchern der Linearen Algebra, z.B. [4] Man überlegt sich leicht, dass der numerische Aufwand zur Berechnung der Determinante sich hier verhält wie O((n + 1)!) (Übungsaufgabe). Beispiele: • Die Determinante einer 3 × 3 Matrix ist beispielsweise gegeben durch Entwicklung nach der 1. Spalte: a a23 det A = a11 22 a32 a33 − a21 a12 a13 a32 a33 + a31 a12 a13 a22 a23 • Ein Zahlenbeispiel für die Entwicklung nach der 2-ten Zeile: 2 3 4 3 4 2 4 2 3 0 2 0 = 0 5 1 + 2 −1 1 − 0 −1 5 = 2(2 + 4) = 12 −1 5 1 und als Entwicklung nach der 3-ten Spalte: 2 3 4 0 2 2 3 2 3 0 2 0 = 4 −1 5 − 0 −1 5 + 1 0 2 −1 5 1 = 4 · 2 + 4 = 12 86 M. Braack - Lineare Abbildungen 6.4.2 Berechnung von Inversen mittels Determinanten Satz 6.34 Ist A ∈ GL(n, K), so lässt sich die Inverse berechnen mittels der Matrix C ∈ Rn×n : A−1 = 1 CT det A mit cij = (−1)i+j det A0ij . Beweis. Wir zeigen, dass D := (dij ) = A det1 A C T die Einheitsmatrix ist. Es gilt n X n 1 X 1 = ckj = aik (−1)k+j aik det A0kj . det A det A k=1 k=1 dij Es folgt im Fall i = j unmittelbar dii = 1 aufgrund des Entwicklungssatzes von e dar, Laplace. Im Fall i 6= j stellt die obige Summe die Determinante der Matrix A die aus A entsteht indem man die j-te Zeile durch die i-te Zeile ersetzt. Da die Zeilen e = 0 und folglich dij = 0. Also ergibt dann aber linear abhänging sind, folgt det(A) sich insgesamt D = In . Zur Berechnung der Inverse sind somit folgende Schritte notwendig: 1. Ersetze jeden Koeffizienten von A durch den entsprechenden Minor. 2. Multipliziere einige Koeffizienten mit −1, wenn i + j ungerade ist. 3. Transponiere die Matrix 4. Dividiere alle Koeffizienten durch det A. Spezialfall n = 2: a b c d 1 = ad − bc A = a b c d −1 Beispiel einer 3 × 3 Inversen: Wir wollen die Inverse berechnen von: ⇒ C = d −b −c a 0 1 −4 A = 1 2 −1 1 1 2 d −c −b a 6.4 Determinanten 87 Entwicklung nach der ersten Spalte: 2 −1 1 −4 − det A = 0 2 1 2 1 1 −4 + 2 −1 = −(2 + 4) + (−1 + 8) = 1 Die Matrix C: 5 −3 −1 C = −6 4 1 7 −4 −1 Damit erhalten wir: 5 −6 7 = −3 4 −4 −1 1 −1 A−1 6.4.3 Lösen von Gleichungssystemen mittels Determinanten Die folgende Regel liefert uns die (theoretische) Möglichkeit, ein lineares Gleichungssystem mit Hilfe von Determinanten zu berechnen. Hierbei ist zu beachten, dass man A als regulär voraussetzen muß. Auch hier sehen wir von einem Beweis ab. Satz 6.35 (Kramer’sche Regel) Sei A ∈ GL(n, R) aufgebaut durch die Spaltenvektoren a1 , . . . , an und sei b ∈ Rn . Dann sind die Komponenten der Lösung des linearen Gleichungssystems Ax = b gegeben durch: xi = (det A)−1 det(a1 , . . . , ai−1 , b, ai+1 , . . . , an ) . Beweis. Auch hier geben wir keinen Beweis an. Wir möchten nur erwähnen, dass man dieses Ergebnis erhält, indem man xi = (A−1 b)i ansetzt und nun die Inverse A−1 über die Determinanten berechnet. Diese Regel eignet sich allerdings in der Praxis nur für kleine n, denn es sind n + 1 Determinanten zu berechnen. Jede dieser Determinanten erfordert einen Aufwand O(n!). Man erhält somit den Gesamtaufwand O((n + 1)!) zur Bestimmung von x. Trotzdem wollen wir dies einmal an einem kleinen überschaubaren Beispiel durchführen. Wir betrachten hierzu das LGS x1 + x2 = 1 x2 + x3 = 1 3x1 + 2x2 + x3 = 0 . 88 M. Braack - Lineare Abbildungen Dies ergibt die Matrix 1 1 0 A = 0 1 1 . 3 2 1 Dessen Determinate ergibt sich durch Entwicklung nach der ersten Spalte zu: 1 1 det A = 2 1 + 3 1 0 1 1 = −1 + 3 = 2 . Wir erhalten nun mittels der Kramer’schen Regel: x1 x2 x3 6.5 1 = 2 1 = 2 1 = 2 1 1 0 1 1 1 0 1 − = −1 1 1 1 = 2 2 1 2 1 0 2 1 1 1 0 1 1 1 0 1 + 3 0 1 1 = 1 1 = 2 2 0 1 3 0 1 1 1 1 1 1 1 1 1 + 3 0 1 1 = 1 1 = −1 . 2 2 0 3 2 0 Eigenwerte und Eigenvektoren Definition 6.36 Sei F : V → V ein Endormorphismus auf dem K-Vektorraum V . Ein λ ∈ K heißt Eigenwert von F , wenn F (v) = λv , für ein v ∈ V , v 6= 0. Der Vektor v heißt ein zu λ zugehörige Eigenvektor. Hierbei lassen wir sehr wohl auch einen Eigenwert 0 zu. Eigenvektoren müssen aber stets ungleich dem Nullvektor sein. Ein Eigenvektor ist also ein Vektor, der unter der linearen Abbildung seine Richtung nicht ändert, sondern nur um den Faktor λ gestreckt oder gestaucht wird. Im Fall λ < 0 ändert der Vektor allerdings insofern die Richtung, als dass die “entgegengesetzte” Richtung angenommen wird. 6.5 Eigenwerte und Eigenvektoren 89 Im Fall von V = Kn sind die Endormorphismen gerade die quadratischen Matrizen A ∈ M at(n × n, K). Ein λ ∈ K ist also Eigenwert von A mit Eigenvektor v, wenn Av = λv . Beispiele: 1. Wie man leicht nachprüft besitzt die Matrix 1 und zugehörigen Eigenvektor v = . 1 3 −1 1 1 den Eigenwert λ = 2 2. Diagonalmatrizen A = diag{λ1 , . . . , λn } besitzen die Eigenwerte λ1 , . . . , λn und Eigenvektoren e1 , . . . , en . 0 −1 3. Nicht jede Matrix besitzt (reelle) Eigenwerte, z.B. A = . Aus Av = 1 0 λv folgt für die Komponenten von v: −v2 = λv1 und v1 = λv2 . Also −v2 = λ2 v2 bzw. v2 = v1 = 0, wenn man nur reelle λ zulässt. Satz 6.37 λ ∈ K ist genau dann Eigenwert einer Matrix A ∈ Kn×n , wenn det(A − λI) = 0. Beweis. λ ist genau dann Eigenwert, wenn ein v 6= 0 existiert, mit Av = λv. Dies ist gleichbedeutend mit 0 = Av − λv = Av − λIv = (A − λI)v . Mit anderen Worten: v liegt im Kern der linearen Abbildung A − λI: 0 6= v ∈ Ker(A − λI) . Also ist A − λI nicht injektiv, also nicht regulär bzw. det(A − λI) = 0. Insofern ist die Suche nach einem Eigenwert also äquivalent mit der Suche nach Nullstellen der Determinante det(A − λIn ) , aufgefasst als Funktion in λ. 90 M. Braack - Lineare Abbildungen Beispiel: Als ein Beispiel schauen wir uns die Drehung um den Winkel α im R2 an: cos α − sin α sin α cos α v1 v2 = λ v1 v2 Für 0 < α < π wird jeder Vektor gedreht und ändert somit seine Richtung. Wir wollen daher einmal nachrechnen, dass es keinen Eigenwert λ ∈ R geben kann. In Form von einzelnen Gleichungen lautet die Bedingung an einen Eigenwert: (cos α − λ)v1 − sin αv2 = 0 sin αv1 + (cos α − λ)v2 = 0 Wir erhalten also zwei Gleichungen mit drei Unbekannten v1 , v2 und λ. Es handelt sich aber hierbei nicht mehr um ein lineares Gleichungssystem, da beispielsweise auch das Produkt λv1 vorkommt. Insofern kommen wir hier auch mit dem Gauß’schen Algorithmus nicht weiter. Daher wollen wir uns jetzt die Matrix cos(α) − λ − sin α A − λI = sin α cos(α) − λ anschauen. Die Determinante dieser 2 × 2-Matrix lautet: det(A − λI) = (cos(α) − λ)2 + sin2 α = cos2 α − 2 cos(α)λ + λ2 + sin2 α = 1 − 2 cos(α)λ + λ2 Damit diese Determinante verschwindet, müsste also gelten λ2 + pλ + 1 = 0 . mit p = −2 cos(α). Die Lösungen lauten r p p p2 − 1 = cos(α) ± cos2 (α) − 1 = cos(α) ± i sin α , λ = − ± 2 4 und sind damit komplexwertig, sofern sin α 6= 0. Dies ist der Fall für 0 < α < π. Es gibt also - wie oben bereits behauptet - keine reellen Eigenwerte. Definition 6.38 Zu einer quadratischen Matrix A ∈ Kn×n ist die Funktion PA : K → K, definert durch PA (t) := det(A − tI) ein Polynom in t vom echten Grad n, also PA ∈ K[t]. Dieses wird charakteristisches Polynom von A genannt. 6.5 Eigenwerte und Eigenvektoren 91 Beweis. Wir verwenden die Definition der Determinante und erhalten PA (t) = p(t) + q(t), mit der Aufspaltung in die Permutation σ = id und den übrigen Permutationen p(t) := n Y (aii − t), i=1 q(t) := X sign(σ) σ∈Sn \{id} n Y (ai,σ(i) − δi,σ(i) t). i=1 Hierbei bezeichnet δij das Kronecker-Symbol (= 1 für i = j, sonst = 0). Offensichtlich ist p ein Polynom vom echten Grad n. Die weiteren Terme, die in q zusammengefasst sind, sind Polynome in vom maximalen Grad n − 1, da mindestens ein i 6= σ(i) gilt. Insgesamt erhalten wir ein Polynom vom echten Grad n und führendem Koeffizienten (−1)n : PA (t) = (−1)n tn + . . . Der Beweis zeigt, dass das charakteristische Polynom sogar exakt vom Grad n ist, und nicht etwa weniger. Als unmittelbare Folgerung erhalten wir somit eine Existenzaussage von Eigenwerten: Korollar 6.39 Jede reelle Matrix A ∈ M at(n × n, R) mit ungeradem n hat mindestens einen reellen Eigenwert. Beweis. Das charakteristische Polynom det(A − λI) hat einen ungeraden Grad und damit mindestens eine reelle Nullstelle. Da diese Nullstelle ein Eigenwert ist, folgt die Behauptung. Korollar 6.40 Jede Matrix A ∈ M at(n × n, C) hat mindestens einen (komplexen) Eigenwert und maximal n. Beweis. Wir wissen bereits, dass jedes komplexe (und damit auch jedes reelle) Polynom in n Linearfaktoren der Form PA (t) = c(t − λ1 ) · . . . · (t − λn ) mit komplexen Nullstellen λi ∈ C zerfällt. Diese λi sind nach Satz 6.37 automatisch Eigenwerte der Matrix A. Somit erhalten wir maximal n Eigenwerte. Da aber ein oder mehrere der λi identisch sein können, können wir höchstens die Existenz eines Eigenwertes sichern. Dass wir tatsächlich niemals mehr als n Eigenwerte finden, wird durch folgenden Satz untermauert. 92 M. Braack - Lineare Abbildungen Satz 6.41 Eigenvektoren zu verschiedenen Eigenwerten einer Matrix sind stets linear unabhängig. Beweis. Der Beweis wird per Induktion nach m geführt. Für m = 1 ist nichts weiter zu zeigen, denn Eigenvektoren sind per Definition niemals Nullvektoren. Wir nehmen also an, die Behauptung sei für m − 1 gezeigt. Wir nehmen die Existenz von m verschiedenen Eigenwerten λ1 , . . . , λm mit zugehörigen Eigenvektoren v1 , . . . , vm an. Nun suchen wir Koeffizienten α1 , . . . , αm mit: 0 = m X αi v i . (6.4) αi λm vi . (6.5) i=1 Multiplikation beider Seiten mit λm ergibt: 0 = m X i=1 Wenden wir hingegen A auf beiden Seiten von (6.4) an, so erhält man: 0 = m X αi Avi = i=1 m X αi λi vi . (6.6) i=1 Subtraktion von (6.5) und (6.6) ergibt: 0 = m X αi (λm − λi )vi = i=1 m−1 X αi (λm − λi )vi . i=1 Aufgrund der Induktionsannahme sind v1 , . . . , vm−1 linear unabhängig. Folglich gilt αi (λm − λi ) = 0 ∀i = 1, . . . , m − 1. Nun gilt aber λm − λi 6= 0, so dass aufgrund der Induktionsannahme α1 = . . . = αm−1 = 0 gelten muss. Letztendlich folgt dann aber noch 0 = αm vm , bzw. αm = 0, da die Eigenvektoren niemals die Nullvektoren sein können. Definition 6.42 Zwei Matrizen A, B ∈ M at(n × n, K) heißen ähnlich, wenn ein S ∈ GL(n, K) existiert mit: B = S −1 AS . Man überlegt sich schnell, dass hierdurch eine Äquivalenzrelation definiert ist. 6.5 Eigenwerte und Eigenvektoren 93 Definition 6.43 Eine Matrix A ∈ M at(n × n, K) heißt diagonalisierbar, wenn sie ähnlich ist zu einer Diagonalmatrix. Den Zusammenhang zu Eigenwerten liefert folgender Satz: Satz 6.44 Sei A ∈ M at(n × n, K) mit Eigenvektoren v1 , . . . , vn ∈ Kn und (nicht notwendigerweise verschiedener) Eigenwerte λ1 , . . . , λn ∈ K. Wenn B = {v1 , . . . , vn } eine Basis des Kn ist, so ist A diagonalisierbar; genauer: λ1 ... ∃S ∈ GL(n, K) mit S −1 AS = . λn Die Spaltenvektoren der Transformationsmatrix S sind gerade die Vektoren vi . Beweis. Da B eine Basis des Kn ist, existiert genau eine lineare Abbildung S ∈ Kn×n mit vi = Sei . Da die vi linear unabhängig sind, ist S invertierbar, also S ∈ GL(n, K). Wir setzen B = S −1 AS. Nun gilt: Bei = S −1 ASei = S −1 Avi = S −1 λi vi = S −1 λi Sei = λi S −1 Sei = λi ei . Also hat B die obige Diagonalstruktur. Diese Struktur wird auch im folgenden kommutativen Diagramm wiedergegeben: vi A −→ ↓ S −1 S↑ ei λi vi S −1 AS −→ λi e i Beispiel: Die 2 × 2-Matrix 2 0 6 −1 hat die Eigenwerte λ1 = −1 und λ2 = 2 mit zugehörigen Eigenvektoren v1 = (0, 1)T und v2 = (1, 2)T . Da diese linear unabhängig sind, gilt −1 0 1 2 0 0 1 −1 0 = . 1 2 6 −1 1 2 0 2 Lemma 6.45 Ähnliche Matrizen besitzen stets die gleiche Determinante. Beweis. Aufgrund des Determinanten-Multiplikationssatzes 6.31 und Korollar 6.32 gilt: det(S −1 AS) = det(S −1 ) · det(A) · det(S) = det(S)−1 · det(A) · det(S) = det(A). 94 M. Braack - Lineare Abbildungen 6.6 Skalarprodukt und orthogonale Matrizen Da wir uns hinreichend mit Vektoren beschäftigt haben, müssen wir nicht mehr in der Schreibweise zwischen Vektoren und Skalaren unterscheiden. Wir werden daher von nun an die Vektoren nicht mehr in fett schreiben. 6.6.1 Skalarprodukt Definition 6.46 Sei V ein K-Vektorraum. Dann heißt eine Abbildung a : V × V → K Bilinearform, wenn gilt: a(v1 + v2 , w) = a(v1 , w) + a(v2 , w) ∀v1 , v2 , w ∈ V a(v, w1 + w2 ) = a(v, w1 ) + a(v, w2 ) ∀v, w1 , w2 ∈ V ∀v ∈ V , ∀λ ∈ K . a(λv, w) = a(v, λw) = λa(v, w) Sie heißt symmetrisch, wenn außerdem gilt: a(v, w) = a(w, v) ∀v, w ∈ V . Eine symmetrische Bilinearform h·, ·i : V × V → R heißt positiv definit, wenn hv, vi > 0 ∀v ∈ V \ {0}. Diese wird dann auch Skalarprodukt genannt. Beispiele: 1. Das Euklidische Skalarprodukt für V = Rn : T hv, wi = v w = n X vi wi i=1 2. Im Falle vom Funktionenraum V = C(a, b): Z hf, gi = b f (x)g(x) dx a 6.6 Skalarprodukt und orthogonale Matrizen 95 Im Fall K = C werden von einem Skalarprodukt modifizierte Regeln gefordert, nämlich für alle v1 , v2 , v, w1 , w2 , w ∈ V und alle λ ∈ C: hv1 + v2 , wi = hv1 , wi + hv2 , wi hv, w1 + w2 i = hv, w1 i + hv, w2 i hλv, wi = λhv, wi hv, λwi = λhv, wi hv, wi = hw, vi hv, vi > 0 ∀v ∈ V \ {0} . Ein Skalarprodukt in C nennt man auch eine positive definite Hermitesche Form. Definition 6.47 Ein Vektorraum V auf dem ein Skalarprodukt h·, ·i definiert ist heißt (a) im Fall K = R euklidischer Vektorraum, und (b) im Fall K = C unitärer Vektorraum. Lemma 6.48 Seien v, w ∈ Rn , n ∈ {2, 3}, mit einem Winkel 0 ≤ α ≤ 180◦ zwischen diesen beiden Vektoren. Dann gilt für pdas euklidische Skalarprodukt h·, ·i und der sogenannten euklidischen Norm ||v|| = v12 + v22 : hv, wi = ||v|| ||w|| cos α . Beweis. Wir setzen zunächst ||v|| = ||w|| = 1 sowie 0 ≤ α < 90◦ voraus. Für diesen Spezialfall zeigen wir nun: hv, wi = cos α . Es gilt nach dem Satz von Pythagoras: (1 − cos α)2 + sin2 α = ||v − w||2 = n n X X (vi − wi )2 = (vi2 − 2vi wi + wi2 ) i=1 2 = ||v|| − 2hv, wi + ||w|| i=1 2 = 2 − 2hv, wi . Multiplizieren wir auch die rechte Seite aus, erhält man: −2 cos α + cos2 α + sin2 α = 1 − 2hv, wi Da außerdem gilt cos2 α + sin2 α = 1 ergibt sich hieraus: −2 cos α = −2hv, wi , 96 M. Braack - Lineare Abbildungen was die Behauptung impliziert. Die Fälle ||v|| = 0 oder ||w|| = 0 sind unmittelbar evident. Der allgemeine Fall ||v|| = 6 0 und ||w|| = 6 0 lässt sich nun auf den ersten Fall zurückführen: hv, wi = ||v|| ||w|| hv/||v||, w/||w||i = ||v|| ||w|| cos α . Der Fall α ≥ 90◦ ergibt sich entsprechend. 6.6.2 Anwendungsbeispiel Dieses Beispiel ist aus [7]. Wir sehen auf dem Computerbildschirm eine Linie zwischen den beiden Punkten v1 und v2 . Diese können als Vektoren des V = R2 aufgefaßt werden: v1 , v2 ∈ V . Mit der Maus wollen wir diese nun markieren indem wir auf die Linie oder etwa in ihre Nähe klicken. Diesen Punkt benennen wir mit m ∈ V . Der Computer muß nun entscheiden, ob m nah genug an der Linie liegt. Dieser Tolerenzbereich T ⊂ R2 ist in Abb. 6.2 als grauer Bereich gekennzeichnet. Wie entscheiden wir nun, ob m ∈ T ? Wir stellen T dar als Schnittmenge zweier Bereiche T1 und T2 . Nun gilt: m ∈ T ⇔ (m ∈ T1 ) ∧ (m ∈ T2 ) . Ob m ∈ T1 gilt, kann man auch folgerdermaßen formulieren: π m ∈ T1 ⇔ 0 ≤ α, β < 2 ⇔ cos α, cos β > 0 Da mit u = v2 − v1 gilt hu, m − v1 i = ||u|| ||m − v1 || cos α , h−u, m − v2 i = ||u|| ||m − v2 || cos β , L eps v2 v1 m Abbildung 6.2: Liegt der Punkt m in der straffierten Fläche ? 6.6 Skalarprodukt und orthogonale Matrizen 97 erhalten wir: m ∈ T1 ⇔ hu, m − v1 i > 0 ∧ h−u, m − v2 i > 0 Die Entscheidung ob m ∈ T2 gilt, lässt sich zurückführen auf die Frage, ob die Fläche des Parallelograms in Abb. 6.2 kleiner ist als die halbe dunkle Fläche: m ∈ T2 ⇔ F (P arallelogramm) < L Diese Fläche ist aber gerade gegeben durch die Determinante der Matrix, deren Zeilenvektoren u und m − v1 sind. Daher gilt: u < L m ∈ T2 ⇔ det m − v1 Insgesamt erhalten wir somit: m∈T ⇔ hu, m − v1 i > 0 ∧ h−u, m − v2 i > 0 u < L ∧ det m − v1 98 M. Braack - Lineare Abbildungen Kapitel 7 Folgen und Grenzwerte 7.1 Metrische Räume Zunächst führen wir den Begriff einer Metrik ein. Dies ist die abstrakte Form eines Abstandsbegriffes. In einer Menge, auf der eine Metrik definiert ist, können also “Abstände” zwischen Elementen der Menge formuliert werden. Definition 7.1 Sei X eine Menge. Eine Abbildung d : X × X → R+ 0 heißt Metrik auf X, wenn: (M1) d(x, y) = 0 ⇐⇒ x = y. (M2) (Symmetrie) Für alle x, y ∈ X gilt d(x, y) = d(y, x). (M3) (Dreiecksungleichung) Für alle x, y, z ∈ X gilt d(x, z) ≤ d(x, y) + d(y, z). Das Paar (X, d) heißt dann metrischer Raum. Beispiele: 1. Auf X = R erfüllt der Absolutbetrag | · | die Kriterien einer Metrik indem man setzt d(x, y) := |x − y|. 2. Auf der Menge M = R × R können mehrere Metriken definiert werden, z.B. mit v = (x1 , y1 ), w = (x2 , y2 ): p (x1 − x2 )2 + (y1 − y2 )2 (Euklidische Metrik), d2 (v, w) = d∞ (v, w) = max{|x1 − x2 |, |y1 − y2 |} d1 (v, w) = |x1 − x2 | + |y1 − y2 | (Maximum-Metrik), (l1 -Metrik) . 100 M. Braack - Folgen und Grenzwerte 3. In C hatten wir schon einen Betrag |·| definiert. Dieser kann auch dazu dienen, eine Metrik in C zu formulieren: d(z1 , z2 ) = |z1 − z2 | . 4. Auch bei der Binärdarstellung von Zahlen lassen sich Metriken definieren. In M = {0, 1}n ist der “Hamming-Abstand” gegeben durch d(a, b) := n X |ai − bi |, für a, b ∈ M . i=1 Dies ist gerade die Anzahl verschiedener Stellen von a und b. Mit dem Abstandsbegriff können wir nun Kugeln um Punkte definieren: Definition 7.2 In einem metrischen Raum (X, d) heißt zu x ∈ X und > 0 die Menge B (x) := {y ∈ X : d(x, y) < } (offene) -Kugel um x mit Abstand bzgl. der Metrik d. Beispiele: Wir wollen hier die Kugeln um den Nullpunkt zu den drei obigen Metriken im R2 einmal grafisch veranschaulichen: Abbildung 7.1: Kugeln um den Nullpunkt im R2 zur Euklidischen Metrik (links), l1 -Metrik (mitte) und der Maximum-Metrik (rechts). Definition 7.3 In einem metrischen Raum X heißt U ⊆ X Umgebung von x ∈ X, wenn ein > 0 existiert mit B (x) ⊆ U . Insbesondere sind also die offenen Kugeln eines Punktes Umgebungen desselben. 7.1 Metrische Räume 101 Definition 7.4 Sei X ein metrischer Raum und M ⊆ X eine Teilmenge. Dann heißt ein Punkt x ∈ M innerer Punkt von M , wenn eine Umgebung U von x existiert, so dass U ⊆ M . Beispiele: Die inneren Punkte der Kreisscheibe M1 = {(x, y) ∈ R : x2 +y 2 ≤ 1} ⊆ R2 sind all die, für die gilt x2 + y 2 < 1. Dagegen besitzt M2 = {(x, y) ∈ R : x2 + y 2 = 1} ⊆ R2 keine inneren Punkte. Wir hatten schon den Begriff von offenen und abgeschlossenen Intervallen. Eine Verallgemeinerung sind offene und abgeschlossene Mengen: Definition 7.5 Eine Teilmenge M eines metrischen Raumes X heißt offen, wenn sie nur innere Punkt besitzt. M heißt hingegen abgeschlossen, wenn das Komplement X \ M offen ist. Beispiele: 1. Ein Intervalle [a, ∞) ⊂ R mit a ∈ R ist abgeschlossen, während (a, ∞) offen ist. 2. Es gibt Mengen, die sowohl offen, als auch abgeschlossen sind. Dies sind beispielsweise der ganze Raum X und die leere Menge ∅. 3. Betrachten wir Q als Teilmenge des metrischen Raumes R (mit der Euklidischen Metrik), so ist diese Teilmenge weder offen noch abgeschlossen. Dies liegt daran, dass in es in jeder beliebigen Umgebung eine Punktes x ∈ R stets rationale sowie irrationale Punkte gibt. Lemma 7.6 Beliebige (auch unendlich viele) Vereinigungen offener Mengen sind wieder offen. Endliche Durchschnitte offener Mengen sind wieder offen. Beweis. (i) Sei I eine nicht-leere Indexmenge und Ui . i ∈ I, offen. Zu untersuchen ist U = [ Ui . i∈I Sei hierzu x ∈ U . Dann existiert k ∈ I mit x ∈ Uk ⊆ U . Hieraus folgt, dass U offen ist. (ii) Es genügt zu zeigen, dass mit U1 , U2 ⊆ X offen auch U1 ∩ U2 wieder offen ist. Für x ∈ U1 ∩ U2 sei B1 (x) ⊆ U1 und B2 (x) ⊆ U2 . Dann folgt für = min{1 , 2 }: x ∈ B (x) ⊆ U1 ∩ U2 . 102 M. Braack - Folgen und Grenzwerte Also ist U1 ∩ U2 offen. Bemerkung: Insbesondere ist zu bemerken, dass unendliche Durchschnitte offener Mengen nicht notwendigerweise wieder offen sein müssen. Beispielsweise ist ∞ \ 1 1 − , = {0} n n n=1 nicht offen, sondern abgeschlossen. Lemma 7.7 Endliche Vereinigungen sowie beliebige (auch unendliche) Durchschnitte abgeschlossener Mengen sind wieder abgeschlossen. Beweis. Seien A1 , A2 abgeschlossen. Dann sind die Komplemente U1 := AC 1 = C X \ A1 und U2 := A2 = X \ A2 offen. Nach Lemma 7.6 ist U1 ∩ U2 auch offen. Der Satz von de Morgan liefert nun: C C A1 ∪ A2 = (AC = X \ (U1 ∩ U2 ) . 1 ∩ A2 ) Da U1 ∩ U2 offen ist, ist folglich A1 ∪ A2 abgeschlossen. Für beliebige Durchschnitte folgert man analog. Mithilfe des Komplementes X \ M können wir nun auch Randpunkte definieren. Dies sind Punkte, die sowohl M als auch X \ M beliebig nahe sind. Definition 7.8 Ein Punkt x ∈ X heißt Randpunkt einer Menge M ⊆ X, wenn für jede Umgebung U von x gilt: U ∩ M 6= ∅ und U ∩ (X \ M ) 6= ∅ . Die Menge der Randpunkte von M bezeichnen wir mit ∂M . Aufgrund dieser Definition ist klar, dass ein Randpunkt niemals ein innerer Punkt sein kann. Andererseits muss ein Randpunkt x von M ⊆ X aber nicht notwendigerweise Element aus M sein. So sind z.B. die Punkte (x, y) ∈ R2 mit x2 + y 2 = 1 Randpunkte von M = {(x, y) ∈ R : x2 + y 2 < 1} ⊆ R2 . Definition 7.9 Unter dem Abschluss M einer Menge M ⊆ X eines metrischen Raumes verstehen wir die kleinste abgeschlossene Menge, die M enthält; d.h. A abgeschlossen mit M ⊆ A ⊆ X =⇒ M ⊆ A . Die Menge M heißt dann dicht in M . 7.1 Metrische Räume 103 Als Übungsaufgabe lassen wir folgende Charakterisierung des Abschlusses: Lemma 7.10 Sei X ein metrischer Raum und M ⊆ X mit Rand ∂M . Dann gilt für den Abschluss: M = M ∪ ∂M . Beispiele: Der Abschluss eines offenen Intervalls (a, b) ⊂ R ist gerade das zugehörige abgeschlossene Intervall [a, b]. Unter dem Begriff “dicht” versteht man also die Eigenschaft, dass man jeden Punkt in M mit Punkten aus M beliebig nahe kommen kann. 7.1.1 Äquivalente Metriken Wir hatten von offenen Mengen, abgeschlossenen Mengen und Randpunkten in metrischen Räumen gesprochen, insbesondere in Rd , d ∈ N. Nun sind diese Begriffe aber zunächst einmal abhängig von der speziellen betrachteten Metrik. Da es in Rd nicht nur eine Metrik gibt (sondern unendlich viele), stellt sich die Frage, ob die obige Begriffsbildung von der speziell betrachteten Metrik abhängt; ob also eine Menge M ⊆ Rd bzgl. einer Metrik d1 (·, ·) offen ist und bzgl. einer anderen Metrik d2 (·, ·) nicht. Definition 7.11 In einem Raum X heißen zwei Metriken äquivalent, wenn sie die gleichen offenen Mengen generieren. Lemma 7.12 Zu zwei Metriken d1 , d2 auf X gebe es Konstanten c1 , c2 > 0 mit: c1 d1 (x, y) ≤ d2 (x, y) ≤ c2 d1 (x, y) ∀x, y ∈ X . Dann sind diese Metriken äquivalent. eδ (x) die Kugeln Beweis. Wir bezeichnen mit B (x) die Kugeln bzgl. d1 , und B bzgl. d2 . Dann gilt mit δ := c2 : eδ (x) . y ∈ B (x) ⇐⇒ d1 (x, y) < =⇒ d2 (x, y) ≤ c2 d1 (x, y) < δ ⇐⇒ y ∈ B eδ (x). Analog zeigt man B eδ (x) ⊆ Bσ (x) mit σ := δ/c1 , so Die bedeutet B (x) ⊆ B dass man insgesamt die Inklusionen eδ (x) ⊆ Bσ (x) B (x) ⊆ B erhält. Hieraus folgt nun, dass der Begriff “offene Menge” für beide Metriken der gleiche ist. 104 M. Braack - Folgen und Grenzwerte Beispiel: In Rd sind die Euklidische Metrik und die Maximum-Metrik äquivalent, denn es gilt z.B. für d = 2: √ 1√ 2 a + b2 ≤ max{|a|, |b|} ≤ a2 + b2 . 2 Ebenso sind diese Metriken auch mit der l1 -Metrik äquivalent: 1 (|a| + |b|) ≤ max{|a|, |b|} ≤ |a| + |b| . 2 Für diejenigen, die den Begriff der Norm bereits kennen, geben wir folgendes Resultat an: Satz 7.13 In Rd mit d ∈ N sind alle Metriken, die aus einer Norm k · k durch d(x, y) = kx − yk resultieren, äquivalent. Beweis. Wir verweisen auf Lehrbücher. Im folgenden gehen wir im Rd für gewöhnlich von dem Begriff der offenen Mengen aus, der durch die Maximum-Metrik, die l1 -Metrik, bzw. durch die Euklidische Metrik generiert werden; es sei denn wir nennen explizit eine andere Metrik. 7.2 Folgen Definition 7.14 Eine Folge in einer Menge M ist eine Abbildung a : N → M , mit a(n) = an für n ∈ N. Wir bezeichnen solch eine Folge mit (an )n∈N , oder auch kurz (an ). Wir schreiben (an )n∈N ⊆ M , um anzudeuten, dass die Folgenglieder in M liegen. Die Zahl n bezeichnet man in dieser Schreibweise als Index von a, während an das n−te Glied der Folge ist. Beispiele: 1. Die Folge a : N → R, an = (−1)n nimmt wechselweise die Werte −1 und 1 an. Diese Folge ist somit periodisch. 2. Die komplexwertige Folge bn = in nimmt die Werte i, −1, −i, 1, i, −1, −i, 1, . . . an und ist somit ebenfalls periodisch. 3. Bei der Folge b : N → R, bn = 1 + (−1)n n1 wird ausgehend vom Wert +1 der Ausdruck 1/n abwechselnd addiert und subtrahiert. Zu einer Folge macht es gelegentlich Sinn Teilfolgen zu betrachten: 7.2 Folgen 105 Definition 7.15 Sei (an )n∈N eine Folge und n1 , n2 , . . . eine streng monoton wachsende Folge natürlicher Zahlen: ni < ni+1 für alle i ∈ N. Dann heißt die Folge an1 , an2 , an3 , . . . Teilfolge von (an ). So erhält man zwei interessante Teilfolgen von an = bzw. die ungeraden Glieder betrachtet. 7.2.1 (−1)n n indem man nur die geraden Konvergente Folgen in metrischen Räumen Bei Folgen in metrischen Räumen macht es Sinn zu untersuchen, ob sich die Folge einem gewissen Grenzwert nähert. Dies präzesiert die folgende Definition. Definition 7.16 Eine Folge (an ) ⊆ X in einem metrischen Raum (X, d) heißt konvergent gegen ein a ∈ X, wenn für eine beliebige Umgebung U von a gilt: ∃n0 ∈ N ∀n ≥ n0 : an ∈ U . In diesem Fall nennen wir a den Limes (oder Grenzwert) der Folge und schreiben lim an = a . n→∞ Anderenfalls heißt die Folge divergent. Eine gegen Null konvergente Folge wird Nullfolge genannt. Die Bezeichnung konvergent bezeichnet also Folgen, deren Folgenglieder beliebig nahe einem festen Wert a kommen. Hierbei müssen die Folgenglieder bei jeder noch so kleinen Umgebung U von a ab einem (von U abhängigen) Index alle in U liegen und dürfen nicht wieder heraus treten. Die Eigenschaft, ob eine Folge konvergent ist oder nicht, hängt nur davon ab, wie sich die Folge für beliebig große Indizes verhält. Insbesondere ändert sich das Konvergenzverhalten nicht, wenn man endlich viele Folgenglieder ändert (und seien es die ersten 10 Millionen.) Es gilt auch für konvergente Folgen: lim an = n→∞ lim an+k n→∞ für beliebiges aber festes k ∈ N. Lemma 7.17 Für eine Folge (an ) in einem metrischen Raum (X, d) gilt limn→∞ an = a ∈ X, genau dann wenn: ∀ > 0 ∃n0 ∈ N ∀n ≥ n0 : d(an , a) < . 106 M. Braack - Folgen und Grenzwerte Beweis. ⇒: Sei > 0 vorgegeben. Dann gilt für U := B (a) und einem geeigneten n0 ∈ N: an ∈ U . Dies bedeutet aber gerade d(an , a) < . ⇐: Nun sei eine beliebige Umgebung U von a vorgegeben. Dann existiert ein > 0 mit B (a) ⊂ U . Aufgrund der Annahme gilt mit geeignetem n0 ∈ N für alle n ≥ n0 : an ∈ B (a) ⊂ U . Lemma 7.18 Der Grenzwert einer konvergenten Folge ist eindeutig. Beweis. Wir nehmen an, dass die Folge (an ) zwei Grenzwerte a, ã besitze. Um zu zeigen, dass a = ã gelten muss, schauen wir uns die Distanz an. Es gilt aufgrund der Dreiecksungleichung für beliebiges n ∈ N: d(a, ã) ≤ d(a, an ) + d(an , ã). Zu beliebigem > 0 findet sich ein n0 ∈ N, so dass d(a, an ) ≤ und d(an , ã) ≤ 2 2 ∀n ≥ n0 . Damit folgt d(a, ã) < für beliebiges > 0, also d(a, ã) = 0. Aufgrund der Definitheit der Metrik folgt a = ã. Etwas schwächer als ein Limes ist der Begriff des Häufungspunktes. Definition 7.19 Ein Punkt a ∈ X heißt Häufungspunkt einer Folge (an )n∈N ⊆ X in einem metrischen Raum X, wenn eine Teilfolge (ank )k∈N ⊆ X existiert, die gegen a konvergiert. Bemerkungen: Eine Folge kann u.U. mehrere Häufungspunkte besitzen. Andererseits ist jeder Limes einer Folge automatisch Häufungspunkt. 7.2.2 Cauchy-Folgen Definition 7.20 Eine Folge (an )n∈N ⊆ X in einem metrischen Raum (X, d) heißt Cauchy-Folge, wenn ∀ > 0 ∃n0 ∈ N ∀n, m ≥ n0 : d(an , am ) < . Satz 7.21 Jede konvergente Folge ist eine Cauchy-Folge. Beweis. Sei > 0 vorgegeben. Dann existiert ein n0 ∈ N so dass für n ≥ n0 gilt d(an , a) < 2 . Hieraus folgt nun für n, m ≥ n0 : d(an , am ) ≤ d(an , a) + d(a, am ) < + = . 2 2 7.2 Folgen 107 Beispiel: Hieraus erhält man unmittelbar die Divergenz der alternierenden Folge an = (−1)n , denn wegen |an − an+1 | = 2 ist dies keine Cauchy-Folge und damit auch nicht konvergent. 7.2.3 Folgen in angeordneten Körpern Bei Folgen in angeordneten Körpern K (also z.B. in Q oder R können) wir Folgenglieder und deren evtl. Grenzwerte bzgl. der Größe miteinander vergleichen. Wir gehen hier immer davon aus, dass wir auf K auch eine Metrik definiert haben, die durch d(a, b) := |a − b| definiert ist. Hierbei ist der Betrag in einem angeordneten Körper K mit Positivbereich P definiert als |a| := a, wenn a ∈ P und |a| := −a, sonst. Definition 7.22 Für eine Folge (an ) eines angeordneten Körpers übertragen sich die Begriffe nach oben beschränkt und nach unten beschränkt von denen der Menge M := {an : n ∈ N}. Die Folge heißt monoton wachsend, wenn an+1 ≥ an , bzw. monoton fallend, wenn an+1 ≤ an , für alle n ∈ N. Hieraus folgt unmittelbar, dass Folgen in K genau dann beschränkt sind, wenn ein R > 0 existiert, so dass an ∈ BR (0) für alle n ∈ N. Lemma 7.23 Jede konvergente Folge in einem angeordneten Körper ist beschränkt. Beweis. Wir bezeichnen die Folge mit (an ) und ihren Limes mit a. Es existiert ein n0 ∈ N mit: d(an , a) = |an − a| < 1 ∀n ≥ n0 . Dann sind eine obere Schranke M und eine untere Schranke m der Folge gegeben durch M := max{a1 , . . . , an0 , a + 1} , m := min{a1 , . . . , an0 , a − 1} . Lemma 7.24 Sind (an ), (bn ) konvergente reelle Folgen mit an ≤ bn für alle n ≥ n0 , so gilt limn→∞ an ≤ limn→∞ bn . 108 M. Braack - Folgen und Grenzwerte Beweis. Übungsaufgabe. Beispiel: Auch wenn für die einzelnen Folgenglieder gilt an < bn , so kann für die 1 und bn = n1 Grenzwerte a, b auch gelten a = b. Dies ist z.B. bei den Folgen an = n+1 der Fall. Beide Grenzwerte sind Null. Ferner ist in angeordneten Körpern der Fall möglich, dass die Folgenglieder beliebig groß werden: Definition 7.25 Eine Folge (an ) in einem angeordneten Körper heißt bestimmt divergent gegen ∞, wenn ∀M ∈ N ∃n0 ∈ N ∀n ≥ n0 : an ≥ M , in Zeichen limn→∞ an = ∞. Sie heißt bestimmt divergent gegen −∞, wenn limn→∞ (−an ) = ∞. 7.2.4 Folgen reeller Zahlen Wenn wir von Folgen in R sprechen, gehen wir von dem Begriff der offenen Mengen aus, der (genauso wie im letzten Abschnitt) durch die Metrik d(x, y) = |x − y| erzeugt wird. Zunächst wollen wir das Konvergenzkriterium für reelle Zahlen etwas anders formulieren. Lemma 7.26 Eine Folge (an ) reeller Zahlen konvergiert genau dann, wenn gilt: ∀ > 0 ∃n0 ∈ N ∀n ≥ n0 : |an − a| < . Beweis. Dies ist eine unmittelbare Umformulierung von Lemma 7.17. Beispiele von konvergenten Folgen in R sind: (i) (ii) (iii) an = 1 , n lim an = 0 , n→∞ 1 an = (−1)n , lim an = 0 , n→∞ n 2 3n + 2n an = , lim an = 1 . n→∞ 3n2 + 1 Divergent sind hingegen: (iv) (v) n2 + 1 n2 , da an ≥ = n → ∞, n n an = (−1)n , da alternierend die Werte 1 und − 1 an = angenommen werden. 7.2 Folgen 109 Lemma 7.27 Die Summe und das Produkt konvergenter reeller Folgen ist wieder konvergent, d.h. sind die reellen Zahlenfolgen (an ), (bn ) konvergent, so folgt lim (an ± bn ) = ( lim an ) ± ( lim bn ) , n→∞ n→∞ n→∞ lim (an bn ) = ( lim an )( lim bn ) . n→∞ n→∞ n→∞ Ist ferner b = limn→∞ bn 6= 0, so ist auch die Folge (an /bn ) ab einem gewissen n ≥ n0 wohldefiniert und konvergent mit Grenzwert (limn→∞ an )/b. Beweis. (i) Sei > 0 vorgegeben. Dann existieren na , nb ∈ N mit: 2 |bn − b| ≤ 2 |an − a| ≤ ∀n ≥ na , ∀n ≥ nb . Wir folgern mit der Dreiecksungleichung für n ≥ max{na , nb }: |(an + bn ) − (a + b)| ≤ |an − a| + |bn − b| < + = . 2 2 Für die Folge an − bn folgert man entsprechend. (ii) Wieder sei > 0 vorgegeben. Da jede konvergente Folge beschränkt ist, existiert ein M > 0 und ein n0 ∈ N mit |b| ≤ M und |an | ≤ M sofern n ≥ n0 . Es gilt dann für n ≥ n0 : |an bn − ab| = |an (bn − b) + (an − a)b| ≤ |an (bn − b)| + |(an − a)b| ≤ |an | |bn − b| + |an − a| |b| ≤ M (|bn − b| + |an − a|) . Wählen wir ferner n1 ∈ N so groß, dass |an − a| ≤ /M und |bn − b| ≤ /M für n ≥ n1 so folgt für n ≥ max{n0 , n1 }: |an bn − ab| ≤ . Lemma 7.28 Sei (an ) eine konvergente reelle Folge mit a = lim an . Dann gelten: (a) Für beliebiges λ ∈ R ist (λan )n∈N konvergent mit limn→∞ (λan ) = λa. (b) (|an |)n∈N ist konvergent mit limn→∞ |an | = |a|. 110 M. Braack - Folgen und Grenzwerte Beweis. (a) ist eine direkte Folgerung aus Lemma 7.27, wenn man die konstante (und damit automatisch konvergente) Folge bn = λ betrachtet. (b) Hier unterscheiden wir verschiedene Fälle. Im Fall a > 0 wird gelten an > 0 für alle n ≥ n0 . Dies ist eine unmittelbare Folgerung aus der Konvergenz gegen a. Nun folgt |an | = an und |a| = a, woraus sich die Behauptung ergibt. Im Fall a < 0 schliesst man analog |an | = −an für n ≥ n0 und |a| = −a. Der dritte Fall a = 0 beweist sich durch die Beobachtung |an | − |a| = |an | = |an − 0| → 0. Definition 7.29 (Vollständigkeitsaxiom) In R konvergiert jede Cauchy-Folge. Dies ist keine Aussage, die man beweisen kann. Vielmehr ist dies als Definition der reellen Zahlen zu verstehen. Im Grunde kann man die reellen Zahlen auffassen als Äquivalenzklassen von Cauchyfolgen in Q. Hierbei identifiziert man zwei Cauchyfolgen (an )n∈N , (bn )n∈N ⊆ Q miteinander, wenn die Folge der Differenzen eine Nullfolge darstellt: limn→∞ (an − bn ) = 0. Beispielsweise kann man die konstante Folge an = 1 mit der Folge bn = 1 − 10−n miteinander identifizieren. Satz 7.30 (Bolzano-Weierstraß) Jede beschränkte Folge reeller Zahlen besitzt (mindestens) einen Häufungspunkt. Beweis. Aufgrund der Beschränktheit der Folge existieren m, M ∈ R, so dass an ∈ I0 := [m, M ] für alle n ∈ N. Nun konstruieren wir per Intervallschachtelung eine Folge von Intervallen In = [mn , Mn ] mit folgenden Eigenschaften: • In In liegen unendlich viele Folgenglieder von (an ), • In+1 ⊂ In , • Mn − mn = 2−n (M − m). Diese Intervalle erhält man durch jeweiliges Ermitteln des Mittelpunktes x = (mn + Mn )/2 und der Betrachtung von In− = [mn , x] und In+ = [x, Mn ]. In mindestens eines der beiden Teilintervalle In− oder In+ müssen unendlich viele Folgenglieder von (an ) liegen. Dieses wählt man dann als nachfolgendes Intervall, also In+1 = In− oder In+1 = In+ . Hierdurch sind offensichtlich die drei obigen Bedingungen erfüllt. Nun wählen wir eine Teilfolge (ank ) von (an ) indem wir jeweils ein ank ∈ Ik wählen mit nk > nk−1 . Dies ist möglich, da in Ik unendlich viele Glieder liegen. Die so konstruierte Teilfolge ist eine Cauchy-Folge, denn zu gegebenem > 0 wählen wir n so groß, dass 2−n ≤ /(M − m). Es folgt für k, l ≥ n da ank , anl ∈ In : |ank − anl | < Mn − mn = 2−n (M − m) ≤ . 7.2 Folgen 111 Also handelt es sich um eine Cauchy-Folge. Da in R jede Cauchy-Folge konvergiert, erhalten wir die Behauptung. Als Folgerung aus dem Satz von Bolzano-Weierstraß ergibt sich: Korollar 7.31 Jede beschränkte monotone Folge reeller Zahlen konvergiert. Beweis. Aufgrund der Beschränktheit der Folge (an ) wissen wir, dass ein Häufungspunkt a ∈ R existiert. Wir zeigen nun noch, dass die Folge gegen a konvergiert. Sei hierzu > 0 gegeben. Dann existiert ein k0 ∈ N mit |ank − a| < /2 sofern k ≥ k0 . Nun nehmen wir zunächst an, dass die Ursprungsfolge monoton wachsend ist. Es gilt ank ≤ a wegen Lemma 7.24. Für n ≥ nk0 existiert stets ein nk ∈ N mit n ≤ nk . Daher folgt auch ank0 ≤ an ≤ ank ≤ a. Insgesamt erhält man nun: |an − a| ≤ |an − ank0 | + |ank0 − a| ≤ 2|ank0 − a| < . Für monoton fallende Folgen schließt man analog. Bemerkung: Allerdings ist nicht jede durch Null nach unten beschränkte monoton fallende Folge notwendigerweise eine Nullfolge. So ist beispielsweise an = 1 + n1 monoton fallend aber besitzt den Limes 1. Genausowenig muss jede monoton wachsende Folge bestimmt gegen ∞ divergieren; so konvergiert z.B. an = 1 − n1 gegen 1. 7.2.5 Folgen mit rationalen Elementen Wir wollen hier kurz reelle Folgen betrachten, deren Elemente ak von der Form ak = p(k) q(k) (7.1) mit Polynomen p, q ∈ Q[x] sind. Wir verwenden folgende Darstellung p(x) = m X i ci x , i=0 q(x) = n X d i xi i=0 mit cm , dn 6= 0. Das Zählerpolynom ist also vom Grad deg(p) = m und das Nennerpolynom vom Grad deg(q) = n. Nun können folgende Fälle auftreten: • m < n: Dann ist (an ) eine Nullfolge. • m > n: In diesem Fall erhält man bestimmte Divergenz gegen ∞ oder gegen −∞, je nach Vorzeichen von cm /dn . 112 M. Braack - Folgen und Grenzwerte • m = n: Hier hat man wieder Konvergenz: limk→∞ ak = cm /dn . Konvergente Folgen der Form (7.1) haben also ihren Limes (Null oder cm /dn ) in Q. Diese Folgen konvergieren also auch als Folgen in Q. Es gibt aber andere Folgen in Q, die sowohl beschränkt als auch monoton sind, und nicht in Q konvergieren. Sie konvergieren aber dann gegen eine reelle Zahl. Ein wenig komplizierter ist die Analyse von Folgen der Art an = cn n! oder an = nc , n! mit gegebenem c > 0. Da sowohl Zähler als auch Nenner (schnell) “gegen ∞ gehen”, ist nicht so einfach zu sehen, ob der Quotonient nun konvergiert oder nicht. Hier kann man probieren, die Glieder entweder nach oben abzuschätzen durch Ausdrücke der Form: an ≤ α n oder an ≤ βq n (7.2) mit α, β > 0 ,0 < q < 1, oder aber nach unten durch an ≥ αn oder an ≥ βq n , (7.3) mit q > 1. Im Fall (7.2) erhält man Konvergenz, während im Fall (7.3) bestimmte Divergenz gegen +∞ vorliegt. Hierbei ist zu beachten, dass die Abschätzungen (7.2) und (7.3) nur für n ≥ n0 benötigt wird, wobei n0 beliebig groß sein kann. Beispiel: Die Glieder an = 10n /(n!) lassen sich für n ≥ 11 folgendermaßen abschätzen: (n−10)−mal z }| { 10 10 10 10 = = · ··· n! 10! 11 n n−10 10 10 10 ≤ 10! 11 10 n 1010 11 10 = 10! 10 11 n an 10 Also gilt an ≤ βq n mit β = 1110 /(10!) und q = 10/11 < 1. Die Folge ist damit eine Nullfolge. Die Untersuchung von an = n10 /(n!) lassen wir als Übungsaufgabe. 7.2 Folgen 7.2.6 113 Folgen in C Folgen (zn )n∈N mit komplexen Gliedern sind genau dann konvergent, z = limn→∞ zn , wenn die Folgen aus ihren Realteilen und Imaginärteilen konvergieren: lim Re(zn ) = Re(z) , n→∞ lim Im(zn ) = Im(z) . n→∞ Ferner gilt für den Betrag: lim |zn | = |z| . n→∞ 7.2.7 Rekursiv definierte Folgen Selbstverständlich können Folgen auch rekursiv definiert sein. Hierzu folgende Beispiele: • Ein bekannter Vertreter ist die Fibonacci-Folge: a0 := 0 , a1 := 1 , an+1 := an + an−1 für n > 1 . Wegen an ≥ n für n ≥ 5 ist diese monoton wachsende Folge bestimmt divergent gegen ∞. Die Fibonacci Zahlen 0, 1, 1, 2, 3, 5, 8, 13, 21, 34 . . . treten in der Natur tatsächlich häufig auf. Beispielsweise bei der Schraubenlinienförmigen Anordnung von Blättern mit Divergenzwinkel 0 < θ ≤ 360o . Die Periode sei n und m die Anzahl von Umläufen: nθ = 360o m z.B: θ = 144o , n = 5, m = 2. m n 1 2 einige Zwiebelpflanzen 1 3 Erle, Birke 2 5 Weiden, Rosen, Steinobst 3 8 Kohl, Astern, Habichtskraut 5 13 Nadeln von Nadelhölzer 8 21 Schuppen von Fichte- und Tannenzapfen 13 34 Schuppen von Pinienzapfen 114 M. Braack - Folgen und Grenzwerte • Während die Fibonacci-Folge selbst divergiert, so konvergiert hingegen die Folge der Quotienten: an gn := . an−1 Wie man leicht nachprüft gilt die rekursive Beziehung gn+1 = 1 + 1 . gn Daher muss auch für den Grenzwert (sofern existent) an−1 n→∞ an g = lim gn = 1 + lim n→∞ folgende Fixpunktgleichung gelten: g = 1+ 1 . g Hieraus erhält man durch Umformen in eine quadratische Gleichung folgenden Kandidaten für g: g = √ 1 (1 + 5) = 1.618 . . . . 2 Dies ist der sogenannte goldene Schnitt. Selbstverständlich war dies kein mathematischer Beweis, sondern lediglich der Nachweis dafür, dass die gn entweder divergieren oder aber gegen den goldenen Schnitt konvergieren. • Ein anderes Beispiel für eine rekursiv definierte Folge ist b0 := 0 bn+1 := bn (1 + bn ) − 3 . Die zugehörige Fixpunktgleichung b = b(1 + b) − 3 √ wird von b = ± 3 erfüllt, obgleich die Folge (bn ) divergiert: b1 = −3, b2 = 3, b3 = 9, b4 = 87, b5 = 7653, . . .. √ • Zur Berechnung der Quadratwurzel c, c > 1, kann folgende rekursiv definierte Folge verwendet werden: c 1 an + . an+1 = 2 an 7.2 Folgen 115 Der Startwert a1 ∈ Q ist so zu wählen, dass gilt: 0 < a1 ≤ c < a21 . Man kann nun relativ einfach per Induktion zeigen, dass die Folge (an )n∈N streng monoton fallend ist: an+1 1 c 1 = an 1 + 2 < an (1 + 1) = an . 2 an 2 Ferner kann man einfach sehen, dass für alle n ∈ N gilt: (Übungsaufgabe) c < a2n+1 . Die Folge ist also monoton fallend und sowohl nach oben als auch nach unten beschränkt, 1 < an ≤ c. Also ist sie konvergent mit limn→∞ an = a. Für diesen Grenzwert gilt außerdem aufgrund der rekursiven Konstruktionsvorschrift die Fixpunktgleichung: a = c 1 a+ . 2 a Hieraus folgt a2 = c, bzw.: lim an = n→∞ √ c. Wir wollen dies einmal austesten für den Fall c = 2. Es ergibt sich für den Startwert a1 = 2: a2 = 1.5 a3 = 1.416 . . . a4 = 1.414215 . . . a5 = 1.414213561374 . . . Grob gesprochen verdoppelt sich die Anzahl der gültigen Stellen (unterstrichen) in jeder Iteration. Ein solches Verhalten nennt man “quadratisch konvergent”. Im Grunde genommen führt diese Folge auf das sogenannte “Newton Verfahren”. 116 7.2.8 M. Braack - Folgen und Grenzwerte Landau-Symbole Wir hatten schon das Symbol O(nk ) verwendet. Auch bei Folgen ist eine solche Bezeichnung zum Vergleich von Folgen nützlich: Definition 7.32 Sei (an ) eine Folge reeller Zahlen und f : N → R∗ eine Funktion. Dann schreibt man an = O(f (n)) (sprich: “groß O von f (n)”), wenn die Folge (an /f (n)) beschränkt ist. Gilt sogar, dass (an /f (n)) eine Nullfolge ist, so schreibt man an = o(f (n)) (sprich: “klein o von f (n)”). 2 +1 Beispiele: Die Folge mit den Gliedern an = nn+4 verhält sich asymptotisch (für n groß) wie die Funktion n 7→ n. Daher schreibt man: n2 + 1 = O(n) . n+4 Hierbei sieht man leicht, dass an /n = n+1/n = 1 + −4+1/n nach oben und unten n+4 n+4 beschränkt ist durch ±1. Bei solchen Folgen mit rationalen Elementen (wie in Abschnitt 7.2.5) kommt es also nur auf die führenden Terme im Zähler und Nenner an. Selbstverständlich ist die Schreibweise an = O(f (n)) niemals eindeutig. Insbesondere kommt es bei f nicht auf Konstanten an. Ferner sind alle Terme niedrigerer Ordnung unwichtig. Man könnte im obigen Beispiel auch schreiben an = O(n + 1) oder an = O(n/2). Genauso könnte man auch eine höhere Potenz wählen an = O(n2 ). Dies ist mathematisch korrekt, aber im Grunde genommen verwirrend. Was hingegen nicht richtig ist, ist zu behaupten, dass sich obige Folge wie ln(n) verhält, also an 6= O(ln(n)). Typische Kandidaten für die Funktion f (n) sind zunächst Monome (also Potenzen von n) sowie ln(n): O Verhalten 1 konstant ln(n) logarithmisch n linear n ln(n) n log(n) n2 quadratisch k n polynomial der Ordnung k n e exponentiell 7.2 Folgen 117 Hierbei wird offensichtlich der Ausdruck für den natürlichen Logarithmus ln(n) genauso verwendet wie der 10er Logarithmus log(n). Dies liegt daran, dass die Logarithmusfunktionen sich nur um eine multiplikative Konstante voneinander unterscheiden. Das Auswerten eines Polynoms p ∈ R[x] vom Grad n an einem Punkt x ∈ R benötigt über die (naive) Auswertung O(n2 ) Operationen und über das Horner Schema O(n) Operationen, siehe Abschnitt 4.8. 118 M. Braack - Folgen und Grenzwerte Kapitel 8 Reihen Sei nun (an )n∈N eine Folge reeller oder komplexer Zahlen. Die Ausdrücke sn = n X ak k=1 werden Partialsummen genannt. Auch diese Partialsummen bilden wieder eine Folge, (sn )n∈N . Definition 8.1 Sei (an )n∈N eine Folge reeller oder komplexer Zahlen. Dann heißt P die Folge der Partialsummen (sn )n∈N die zugeordnete Reihe. Diese wird mit ∞ n=1 an bezeichnet. Wenn diese Reihe konvergiert, so wird auch der Grenzwert mit s∞ = P∞ n=1 an bezeichnet. Wir müssen also aufpassen, ob wir mit der obigen Notation nur die Reihe bezeichnen wollen, oder aber ihren Limes. Um die Konvergenz einer Reihe anzudeuten, schreiben wir ∞ X an < ∞. n=1 Hierbei ist der Ausdruck < ∞ nicht im Sinne von “kleiner” zu verstehen, sondern nur als symbolische Schreibweise dafür, dass der Grenzwert existiert. Beispielsweise ist für die Reihe, die sich aus den Folgengliedern an = −1 für alle n ∈ N ergibt, diese Schreibweise nicht zulässig, obgleich alle Partialsummen negativ sind. Im Falle einer komplexen Folge ist die Symbolik < ∞ ebenfalls nur zu verstehen als Konvergenz der Reihe. Wir bemerken hier nocheinmal, dass der Körper C nicht angeordnet ist, so dass der “Kleiner Operator” < im herkömmlichen Sinne gar nicht definiert ist. Zunächst geben wir eine notwendige Bedingung für die Konvergenz der Reihe an: 120 M. Braack - Reihen P Lemma 8.2 Für eine konvergente Reihe ∞ n=1 an gilt: (i) Die zugeordnete Folge (an )n∈N ist eine Nullfolge, und (ii) die Partialsummen sind beschränkt. Beweis. Da jede konvergente Folge eine Cauchy-Folge ist, muss auch die Folge der (sn ) eine Cauchy-Folge sein. Zu gegebenem > 0 muss daher ein n0 ∈ N existieren, so dass für n ≥ n0 insbesondere gilt: > |sn+1 − sn | = |an | = |an − 0| . Dies besagt aber gerade, dass limn→∞ an = 0. Ferner müssen die Partialsummen beschränkt sein, da jede konvergente Folge notwendigerweise beschränkt ist (Lemma 7.23). P Lemma 8.3 Eine Reihe ∞ n=1 an , die sich aus einer Folge nicht-negativer (nichtpositiver) Glieder an ≥ 0 ∀n ∈ N (an ≤ 0 ∀n ∈ N) ergibt, ist in R konvergent, wenn ihre Partialsummen beschränkt sind. Beweis. Dies folgt unmittelbar aus der Tatsache, dass aufgrund des Vorzeichens der an die Folge der sn dann monoton wächst (monoton fällt) und dem Corollar 7.31. Lemma 8.4 Linearkombinationen konvergenter Reihen sind wieder konvergent. Insbesondere gilt für α, β ∈ R, C: ! ! ∞ ∞ ∞ X X X bn . (αan + βbn ) = α an + β n=1 n=1 n=1 Beweis. Dies ist eine unmittelbare Folgerung aus der Konvergenz von Summen und Skalierungen konvergenter Folgen (Satz 7.27 und 7.28). Ferner ergibt sich unmittelbar aus Abschnitt 7.2.6. P∞ Lemma 8.5 Eine komplexe Reihe n=1 zn ist genau dann konvergent, wenn die zugehörigen Reihen ihrer Realteile und ihrer Imaginärteile konvergiert. Insbesondere gilt: ! ! ∞ ∞ ∞ X X X zn = Re zn + i Im zn . n=1 n=1 n=1 Wir hatten als notwendiges Kriterium der Reihenkonvergenz, dass die zugrunde liegende Folge eine Nullfolge ist (Lemma 8.2). Dass dies aber keine hinreichende Bedingung ist, zeigt der folgende Abschnitt. 8.1 Harmonische Reihe 8.1 121 Harmonische Reihe Eine sehr häufig auftretene Reihe bildet sich aus der Folge an = n1 : ∞ X 1 . n n=1 Diese wird harmonische Reihe genannt. Lemma 8.6 Die harmonische Reihe divergiert bestimmt gegen ∞. Beweis. Da alle an positiv sind, ist die Folge der Partialsummen monoton wachsend. Daher genügt es zu zeigen, dass die Folge nach oben unbeschränkt ist. Zu beliebigem M ∈ N muss also ein n ∈ N gefunden werden, mit sn = n X 1 k=1 k ≥ M. Dass dies möglich ist, sieht man folgendermaßen: 1 1 1 1 1 1 + + + ... + + + + ... 2 3 4 7 8 9 1 1 1 1 1 1 1 ≥ 1 + + + + + ... + + + + ...+ 2 |4 {z 4} |8 8} |16 16 {z {z } sn = 1 + =1/2 = 1+ =1/2 =1/2 1 1 + + ... ≥ M , 2 2 sofern n ≥ 2M +2 . Eine Verallgemeinerung der harmonischen Reihe ist gegeben durch ∞ X 1 , ns n=1 mit einer natürlichen Zahl s. Im Fall s = 1 erhält man die divergente harmonische Reihe. Für s ≥ 2 ist die Reihe aber konvergent. Insbesondere gilt im Fall s = 2: ∞ X 1 π2 = . n2 6 n=1 Dies lässt sich beispielsweise mit der Theorie der sogenannten Fourierreihen zeigen. 122 8.2 M. Braack - Reihen Geometrische Reihe Die geometrische Reihe lautet mit q ∈ C: ∞ X qk . k=0 Man beachte, dass die Summe bei k = 0 beginnt. Lemma 8.7 Für die Partialsummen der geometrischen Reihe mit q ∈ C \ {1} gilt: sn = n X qk = k=0 1 − q n+1 . 1−q Für |q| ≥ 1 ist die Reihe divergent (im Fall q ≥ 1 sogar bestimmt gegen ∞), und für 0 ≤ |q| < 1 ist sie konvergent mit ∞ X qk = k=0 1 . 1−q Beweis. Wir zeigen zunächst die Gültigkeit der Formel für die Partialsummen per Induktion nach n. Für n = 0 ist die Formel trivial. Als Induktionsschritt n − 1 → n ergibt sich: sn = sn−1 + q n = 1 − qn 1 − q n + q n − q n+1 1 − q n+1 + qn = = . 1−q 1−q 1−q Die Divergenz der Reihe für |q| > 1 folgt aus der Beobachtung, dass die Folge (q n )n∈N keine Nullfolge darstellt. Die Konvergenz für 0 ≤ |q| < 1 ergibt sich hingegen unmittelbar aus der Formel für die Partialsummen, da q n+1 → 0 (n → ∞). Beispiel: Die geometrische Reihe tritt u.a. bei der Berechnung von Zinsen auf: Möchte man jährlich (zum Jahresbeginn) einen festen Betrag b zu einem jährlichen Zinssatz z (mit Zinseszins) anlegen, so entwickelt sich das Guthaben in den folgenden Jahren folgendermaßen (q = 1 + z): K1 = bq , K2 = (K1 + b)q = b(q 2 + q) , K3 = (K2 + b)q = b(q 3 + q 2 + q) , .. . n X q − q n+1 1 − q n+1 k −1 = b . Kn = (Kn−1 + b)q = b q = b 1−q 1−q k=1 Bei beispielsweise 5% Zinsen rechnet man mit q = 1.05. 8.3 Die Eulersche Zahl e 8.3 123 Die Eulersche Zahl e Durch das Resultat, dass die geometrische Reihe für q = 1/2 konvergiert können wir die Konvergenz einer weiteren Reihe beweisen: Lemma 8.8 Die Reihe, die sich aus der Folge an = 1/n! ergibt, ist konvergent. Ihr Grenzwert wird Eulersche Zahl e genannt: e = ∞ X 1 . n! n=0 Bemerkung: Zu beachten ist, dass auch hier der Laufindex n bei Null beginnt. Die Eulersche Zahl ist eine irrationale Zahl, also nicht als Bruch darstellbar und besitzt eine unendliche Dezimalentwicklung, die nicht periodisch wird. Die führenden Ziffern dieser Zahl sind e = 2.718281828 . . .. Beweis. Da 1/n! stets positiv ist, genügt es für den Nachweis der Konvergenz zu zeigen, dass die Partialsummen nach oben beschränkt sind (Lemma 8.3). Man sieht schnell, dass für jede natürliche Zahl k ≥ 1 gilt 2k−1 ≤ k!. Hieraus folgt: 1 1 ≤ k−1 . k! 2 Folglich gilt für n ≥ 1: sn n n n−1 X X X 1 1 1 = ≤ 1+ = 1+ k−1 k! 2 2k k=0 k=1 k=0 = 1+ 1 − ( 12 )n 1 = 3 − n+1 < 3 . 1 2 1− 2 Wir erhalten als Grenzwert: ∞ X 1 ≤ 3. n! n=0 8.4 8.4.1 Konvergenzkriterien für Reihen Umsortierungen Die etwaige Konvergenz (bzw. Divergenz) bleibt bei einer Reihe unverändert, wenn man endlich viele Glieder an umsortiert, da dies dann auch nur maximal endlich viele Partialsummen sn ändert. 124 M. Braack - Reihen Wenn man hingegen unendliche viele an umsortiert, so kann sich das Konvergenzverhalten einer Reihe u.U. drastisch ändern. Hierzu werden wir im folgenden Unterabschnitt Beispiele kennenlernen. 8.4.2 Alternierende Reihen Ein wichtiges Konvergenzkriterium gilt für alternierende Reihen. Dies sind reP ellwertige Reihen ∞ n=1 an , deren Glieder an alternierende Vorzeichen besitzen, also an an+1 < 0. Satz 8.9 (Leibniz-Kriterium) Eine alternierende Reihe ist konvergent, wenn die Absolutbeträge ihrer Glieder eine monoton fallende Nullfolge bilden, also wenn |an+1 | ≤ |an | und limn→∞ |an | = 0. Beweis. Wir nehmen oEdA an, dass die Folge (an ) mit geradem Index positiv sind. Den Beweis erhält man nun durch die Betrachtung der Partialsummen mit geradem Index, also s2n . Man sieht schnell, dass diese monoton fallend und durch Null nach unten beschränkt sind: s2n+2 = s2n + a2n+1 + a2n+2 ≤ s2n und s2n = (a0 + a1 ) + (a2 + a3 ) + . . . + (a2n−2 + a2n−1 ) + a2n ≥ a2n > 0. Also ist die Folge (s2n )n∈N konvergent, s := limn→∞ s2n . Für die Folge der ungeraden Partialsummen folgert man analog, also s̃ := limn→∞ s2n+1 . Diese beiden Grenzwerte müssen aber identisch sein, denn s = lim s2n = lim (s2n−1 + a2n ) = lim s2n−1 + lim a2n n→∞ n→∞ n→∞ n→∞ = s̃ + 0 Insgesamt folgt ∞ X k=0 ak = lim sn = s. n→∞ Damit ist die Konvergenz gezeigt. Der Fall a2n ≤ 0 folgt durch Betrachtung von P∞ k=0 (−ak ). Beispiele: Ein Standardbeispiel einer alternierenden Reihe ist die alternierende harmonische Reihe: ∞ X (−1)n+1 n=1 n = 1− 1 1 1 + − + . . . = ln(2) = 0.69314718 . . . . 2 3 4 8.4 Konvergenzkriterien für Reihen 125 Ordnet man unendlich viele Glieder um, so kann sich der Grenzwert ändern (die resultierende Reihe ist nicht mehr alternierend): 1 1 1 1 1 1 1 1 π 1+ − + + − + + − + ... = . 3 2 5 7 4 9 11 6 4 Es kann bei Umsortierung unendlich vieler Glieder sogar Divergenz entstehen: ∞ ∞ X X 1 1 1 1 1 1 1 − + = − 1 + + + ... + + + + ... . 2n 2n − 1 3 5 2 4 6 n=1 n=1 | {z } | {z } → ∞ → ∞ Die Rechenregeln wie Assoziativgesetz und Kommutativgesetz müssen für unendliche Summe also nicht gelten. 8.4.3 Absolut konvergente Reihen P Definition 8.10 Eine Reihe s∞ = ∞ n=1 an heißt absolut konvergent, wenn die P∞ Reihe ihrer Absolutbeträge, n=1 |an |, konvergiert. Lemma 8.11 Jede absolut konvergente Reihe ist konvergent. Beweis. Dies folgt aus dem Cauchy-Kriterium für Folgen: (m > n) m m X X |sm − sn | = ak ≤ |ak | → 0 m, n → ∞ . k=n+1 k=n+1 Die Folge der Partialsummen bildet eine Cauchy-Folge in R (oder in C) und ist damit konvergent. Lemma 8.12 Jede absolut konvergente Reihe bleibt bei Umsortierung absolut konvergent. P Beweis. Da nach Voraussetzung s∞ = ∞ n=1 |an | endlich ist, folgt für eine beliebige Umsortierung an1 , an2 , . . . und die zugehörigen Partialsummen mit den Absolutbeträgen für hinreichendes großes N = N (n): s0n = n X k=1 |ank | ≤ N X |ak | ≤ s∞ . k=1 Also sind die Partialsummen mit den Absolutbeträgen beschränkt. 126 M. Braack - Reihen P∞ 0 Definition 8.13 Eine Reihe s0∞ = mit nichtnegativen Gliedern a0n ≥ 0 n=1 anP heißt Majorante einer zweiten Reihe s∞ = ∞ n=1 an , wenn ein c ≥ 0 existiert, so dass für fast alle n ∈ N gilt: |an | ≤ ca0n . Hierbei bedeutet “für fast alle”: für alle bis auf endlich viele, also ∀n ≥ n0 mit einem gewissen n0 ∈ N. Satz 8.14 (Majoranten-Kriterium) Eine Reihe ist absolut konvergent, wenn sie eine konvergente Majorante besitzt. Beweis. Es existiert ein n0 ∈ N, so dass |an | ≤ ca0n sofern n ≥ n0 . Damit erhalten wir: n X |ak | ≤ nX 0 −1 |ak | + c k=1 k=1 n X a0k . k=n0 Hierbei ist die endliche Summe eine feste Zahl. Die letzte Summe ist konvergent, da nach Voraussetzung s0∞ < ∞. Zu beachten ist, dass die auftretene Konstante c durchaus größer als 1 sein darf. Als Anwendung dieses Satzes ergeben sich sofort zwei weitere Kriterien: P Korollar 8.15 (Wurzelkriterium) Eine Reihe s∞ = ∞ n=1 an ist absolut konvergent, wenn es ein 0 ≤ q < 1 gibt mit: p n |an | ≤ q für fast alle n ∈ N . Beweis. Nach Voraussetzung ist |an | ≤ q n . Also ist die geometrische Reihe eine Majorante. Da die geometrische Reihe für 0 ≤ q < 1 konvergiert, folgt die Behauptung aufgrund des Majorantenkriteriums Satz 8.14. Beispiele: Die Reihe ∞ X 1 nn n=0 q konvergiert, da n | n1n | = 1 n ≤ 1 2 für n ≥ 2. Korollar 8.16 (Quotientenkriterium) Eine Reihe s∞ = konvergent, wenn es ein 0 ≤ q < 1 gibt mit: an+1 an ≤ q für fast alle n ∈ N . P∞ n=0 an ist absolut 8.5 Vervollständigungen 127 Gilt hingegen an+1 an ≥ q > 1 für fast alle n ∈ N , so ist die Reihe P∞ n=1 an nicht absolut konvergent. Beweis. (a) Wir gehen zunächst davon aus, dass |an /an−1 | ≤ q < 1 für alle n ∈ N gilt. Per Induktion ergibt sich dann an ≤ q n a0 . P P∞ n Damit ist die geometrische Reihe ∞ n=0 q eine konvergente Majorante von n=0 an . Es folgt die Konvergenz. Der Fall, dass die Ungleichung nur für fast alle n gilt, ergibt sich entsprechend. (b) Sollte hingegen |an /an−1 | ≥ q ≥ 1 gelten, so kann man aus der Annahme, dass P∞ folgern, dass diese eine konvergente Majorante der geometrin=0 an konvergiere, P∞ n schen Reihe n=0 q mit q ≥ 1 wäre. Dann wäre aber auch die geometrischen Reihe mit q ≥ 1 absolut konvergent. Da dies aber falsch ist, folgt der Widerspruch. P 1 Beispiele: Die Reihe ∞ n=0 n! hatten wir bereits in Abschnitt 8.3 untersucht. Mit dem Quotientenkriterium erkennt man die Konvergenz aber erheblich schneller: an+1 n! 1 1 an = (n + 1)! = n + 1 ≤ 2 , für n ≥ 1 . 8.5 Vervollständigungen Satz 8.17 Die rationalen Zahlen liegen (bezüglich der vorgestellten Metriken) dicht in den reellen Zahlen, d.h. Q = R. Beweis. Es seien ein beliebiges aber festes x ∈ R sowie > 0 gegeben. Wir müssen ein p/q ∈ Q finden, so dass p/q ∈ U (x). Zunächst wählen wir gemäß Lemma 4.14 ein q ∈ N mit 0 < 1q < und die größte ganze Zahl p ∈ Z mit p ≤ qx. Dann gilt p + r = qx mit 0 ≤ r < 1. Es folgt: p r = x− ∈ U (x) . q q Da p/q ∈ Q gilt, folgt die Behauptung. Definition 8.18 Ein Körper K heißt vollständig, wenn jede Cauchy-Folge (in K) konvergiert. 128 M. Braack - Reihen Somit ist R vollständig, Q aber nicht. Die reellen Zahlen sind sozusagen die Vervollständigung der rationalen Zahlen. Man kann die reellen Zahlen auch auffassen als Äquivalenzklassen von Cauchy-Folgen in Q. Diese Konstruktion ist folgendermaßen zu verstehen: Sei F die Menge aller Cauchy-Folgen (an )n∈N ⊂ Q. Eine Äquivalenzrelation “∼” auf dieser Menge ist definiert durch: (an )n∈N ∼ (bn )n∈N ⇐⇒ lim (an − bn ) = 0 . n→∞ Nun definieren wir die Menge der zugehörigen Äquivalenzklassen als R. Die Einbettung Q ⊂ R ist nun folgendermaßen zu verstehen: Einer rationalen Zahl a = p/q ∈ Q ordnen wir die konstante Folge an := a zu. Dies ist trivialerweise eine Cauchy-Folge, also Element von F . Die zugehörige Äquivalenzklasse [a] ∈ R kann repräsentiert werden durch a selbst. Zwei verschiedene rationale Zahlen werde so stets auf verschiedene Äquivalenzklassen abgebildet und sind somit auch in R verschieden. Zah√ len wir 2 ∈ R sind dann im Grunde genommen Cauchy-Folgen, die aber nicht in Q konvergieren. 8.6 Potenzreihen Definition 8.19 Zu einer Folge reeller Zahlen (an )n∈N versteht man unter der zugehörigen reellen Potenzreihe die Reihe ∞ X an x n . n=0 Bei einer Potenzreihe ist x ∈ R ein freier Parameter. Die Konvergenz oder Divergenz wird i.a. von x abhängen. Man kann eine solche Potenzreihe also auch auffassen als eine Funktion mit dem Argument x. Hierbei ist aber sicherzustellen, dass die Reihe konvergiert. Besteht also M ⊂ R aus den x, für die diese Reihe konvergiert, x ∈ M :⇐⇒ ∞ X an xn konvergiert, n=0 so ist P : M → R , x 7→ P (x) = ∞ X an x n , n=0 eine reellwertige Funktion. P n Entsprechendes gilt auch für komplexe Potenzreihen ∞ n=0 an z , wobei wir auch komplexwertige Folgen (an ) ⊂ C zulassen. Man erhält dann entsprechend (im Falle der Konvergenz) eine i.a. komplexwertige Funktion P (z). 8.6 Potenzreihen 129 Definition 8.20 Unter dem Konvergenzradius R(P ) einer Potenzreihe P (z) im Körper K = R oder K = C: R(P ) := sup {|z| : z ∈ K, P (z) < ∞} . Ist die Potenzreihe konvergent für z mit |z| beliebig groß , so ist der Konvergenzradius R(P ) = ∞. In obiger Definition ist “< ∞” wieder zu verstehen als “konvergent” und nicht im Sinne von “kleiner als unendlich”. P n Lemma 8.21 Konvergiert eine Potenzreihe P (z) = ∞ n=0 an z in einem Punkt z0 ∈ C, so konvergiert sie auch absolut für alle z ∈ C mit |z| < |z0 |. Beweis. Die Behauptung ergibt sich unmittelbar aus dem Majorantenkriterium Satz 8.14. (an z0n )n∈N0 ist notwendigerweise eine Nullfolge. Da jede Nullfolge beschränkt ist, existiert ein M ∈ R mit |an z0n | ≤ M . Es folgt nun wegen q := |z/z0 | < 1: |an z n | = |an z0n |q n ≤ M q n . P n Somit ist die konvergente geometrische Reihe ∞ n=0 q eine Majorante der Potenzreihe P , die somit absolut konvergent ist. Hieraus ergibt sich nun unmittelbar folgender Satz: Satz 8.22 Gilt für den Konvergenzradius einer Potenzreihe P (z), R(P ) > 0, so ist die Reihe für alle z ∈ C mit |z| < R(P ) absolut konvergent. Für |z| > R(P ) ist die Potenzreihe hingegen divergent. Beweis. |z| < R: Es existiert ein z0 ∈ K mit |z| < |z0 | ≤ R(P ), so dass P (z0 ) < ∞. Damit folgt die Behauptung aus Lemma 8.21. |z| > R(P ): Wäre P (z) < ∞, so fände man ein z0 ∈ K mit R(P ) < |z0 | < |z|. Für diese z0 , wäre die Potenzreihe wegen Lemma 8.21 konvergent. Dies wäre aber dann ein Widerspruch zur Definition des Konvergenzradiuses. Für |z| = R(P ) ist im allgemeinen keine Aussage möglich. Beispiele: P 1. Jedes Polynom p ∈ C[x] (bzw. p ∈ R[x]), p(z) = nk=0 ck z k , lässt sich als eine Potenzreihe interpretieren, die sich aus der Folge c0 , c1 , . . . , cn , 0, 0 . . . ergibt. Da die Reihe abbricht, ist sie automatisch für alle x ∈ R konvergent. Der Konvergenzradius ist also R(p) = ∞. 130 M. Braack - Reihen 2. Die Potenzreihe ∞ X 1 n x n n=0 ist für |x| < 1 konvergent. Dies erhält man durch Anwendung des Quotientenkriteriums: n+1 x /(n + 1) = |x|n < |x| < 1 . n x /n n+1 Für x = 1 ist diese Potenzreihe hingegen divergent, denn dann erhalten wir gerade die harmonischer Reihe. Ebenso ist die Reihe für |x| > 1 divergent. Für x = −1 erhalten wir letztendlich die bereits vorgestellte alternierende harmonischer Reihe. Diese war konvergent. Der Konvergenzradius ist also R = 1. Weitere Beispiele wollen wir in den folgenden Unterkapiteln genauer erläutern: Lemma 8.23 Die Koeffizienten der Potenzreihe P (z) = gleich Nulll und es gelte an < ∞. r := lim n→∞ an+1 P∞ n=0 an z n seien alle un- Dann gilt R(P ) = r. Beweis. (a) Fall r > 0: Es folgt limn→∞ |an /an+1 | = 1/r. Sei z ∈ C mit |z| < r. Setze = 21 (r − |z|). Dann gilt für die Quotienten der Potenzreihe für hinreichend großes n: an+1 z n+1 an+1 1 an z n = an |z| < r − (r − 2) < 1. Daher folgt die Konvergenz der Potenzreihe P (z) aus dem Quotientenkriterium. Es folgt r ≤ P (z). Wenn z ∈ C mit |z| > r, so setzen wir = 21 (|z| − r). Es folgt entsprechend für hinreichend großes n: an+1 z n+1 1 = an+1 |z| > (r + 2) > 1. an z n an r+ P n Somit kann ∞ n=0 an z nicht absolut konvergieren. Es folgt R(z) ≤ r. Zusammengenommen folgt die Gleichheit R(P ) = r. 8.6 Potenzreihen 131 (b) Fall r = 0: Nun ist lediglich zu zeigen, dass P (z) nicht absolut konvergieren kann, wenn z 6= 0. Dies ist aber wieder eine Konsequenz des Quotientenkriteriums, denn es gilt an+1 z n+1 an+1 an z n = an |z| ≥ 2, sofern n so groß, dass 8.6.1 an an+1 ≤ 1/(2|z|). Die Exponentialfunktion Für cn = 1/n! ergibt sich die Potenzreihe ∞ X 1 n z . n! n=0 Diese ist für alle z ∈ C konvergent, denn die Anwendung des Quotientenkriteriums liefert: n+1 z /(n + 1)! |z| = . z n /n! n+1 n+1 1 Für n ≥ n0 ≥ 2|z| ergibt sich also z zn/(n+1)! ≤ 2 < 1. Somit ist diese Potenzreihe /n! für alle z ∈ C absolut konvergent. Ihr Wert wird mit exp(z) bezeichnet: ∞ X 1 n exp(z) = z . n! n=0 Der Konvergenzradius ist also R = ∞. Selbstverständlich gilt für x ∈ R, exp(x) ∈ R. Insbesondere erhalten wir für x = 1 die in Abschnitt 8.3 eingeführte Eulersche Zahl: e = exp(1) = ∞ X 1 . n! n=0 (8.1) Wir werden später sehen, dass exp(z) = ez . Hierzu müssen wir aber erst das potenzieren mit komplexen Zahlen definieren. Bisher kennen wir erst Ausdrücke der Form z n mit natürlichen Zahlen n ∈ N. Satz 8.24 Es gilt die Funktionalgleichung: exp(z + w) = exp(z) exp(w) ∀z, w ∈ C . Beweis. Der Beweis wird beispielsweise mit dem Produktsatz für Reihen geführt. Für Details verweisen wir auf Standard-Lehrbücher (z.B. [7]). 132 8.6.2 M. Braack - Reihen Die Trigonometrischen Funktionen Die Funktionen Sinus und Cosinus lassen sich ebenso über Potenzreihen mit Konvergenzradius R = ∞ definieren: cos(x) = sin(x) = ∞ X (−1)n n=0 ∞ X n=0 (2n)! x2n = 1 − x2 x4 x6 + − + ... , 2! 4! 6! (−1)n 2n+1 x3 x5 x7 x = x− + − + ... . (2n + 1)! 3! 5! 7! Die Konvergenz folgt aus der Tatsache, dass die Exponentialfunktion eine Majorante ist, z.B.: cos(x) = ∞ X (−1)n n=0 (2n)! x 2n = ∞ X cn n=0 n! xn , mit cn ∈ {−1, 0, 1} . 8.6.3 Die Binomialreihe Definition 8.25 Unter der Binomialreihe versteht man die Potenzreihe die sich m aus den Folgengliedern cn = für festes m ∈ N0 ergibt: n ∞ X m Bm (z) := zn . n n=0 Lemma 8.26 Die Binomialreihe ist für alle m ∈ N0 und alle z ∈ C konvergent und es gilt: Bm (z) = (1 + z)m ∀z ∈ C . m Beweis. Da für n > m, = 0 gilt, ist die Summe endlich und somit der n Konvergenzradius R(Bm ) = ∞. Der nachfolgend genannte Binomische Lehrsatz 8.27 (verallgemeinert für komplexe Zahlen) liefert die Behauptung. Satz 8.27 (Binomischer Lehrsatz) Für beliebige x, y ∈ C und n ∈ N0 gilt: n X n n (x + y) = xk y n−k . (8.2) k k=0 Im Fall n = 2 und x, y ∈ R spricht man auch von der ersten binomischen Formel. 8.6 Potenzreihen 8.6.4 133 Allgemeinere Form von Potenzreihen Definition 8.28 Zu einer Folge komplexer Zahlen (an )n∈N und z0 ∈ C versteht man unter der zugehörigen Potenzreihe die Reihe ∞ X an (z − z0 )n . n=0 Die Begriffe der Konvergenz und Konvergenzradius verallgemeinern sich entsprechend: R(P ) := sup {|z − z0 | : z ∈ C, P (z) < ∞} . Genauso verallgemeinern sich alle bisherigen Aussagen. Man muss lediglich anstelle von z die Größe z − z0 betrachten. 134 M. Braack - Reihen Kapitel 9 Stetige Funktionen Nun führen wir den Begriff der Stetigkeit für reellwertige und komplexwertige Funktionen ein. Daher bezeichnet K entweder den Körper R oder aber C. Den Stetigkeitsbegriff wollen wir zunächst über Folgen definieren: Definition 9.1 Eine Funktion f : D → K, D ⊂ K, heißt stetig im Punkt x ∈ D, wenn für jede Folge (xn )n∈N ⊂ D mit limn→∞ xn = x gilt limn→∞ f (xn ) = f (x). f heißt stetig in D, wenn sie für alle x ∈ D stetig ist. Ist x ∈ D ein innerer Punkt von D und ist die Funktion f im Punkt x stetig, so können wir schreiben lim f (xn ) = f (x) , xn →x denn der Grenzwert ist unabhängig von der speziellen Folge, die gegen x konvergiert. Beispiele: • Jedes Polynom p ∈ K[x] ist stetig auf ganz K. √ • Die Funktion f (x) = x ist auf D = [0, ∞) stetig. • Treppenfunktionen, wie zum Beispiel die INTEGER-Funktion INT :R → Z, definiert durch: INT(x) := max{z ∈ Z z ≤ x} . ist an den sogenannten Sprungstellen z ∈ Z nicht stetig, da lim INT(x) = z x&z lim INT(x) = z − 1 . x%z 136 M. Braack - Stetige Funktionen Hierbei steht “limx&z ” für den rechtsseitigen Grenzwert, d.h. für Folgen (xn )n∈N mit xn > z und limn→∞ xn = z. Entsprechend ist “limx%z ” der linksseitige Grenzwert. Beispielsweise gilt für die Folge xn = z − 1/n: 1 lim INT(x) = lim INT z − = lim (z − 1) = z − 1 . n→∞ n→∞ x%z n Lemma 9.2 ( − δ-Kriterium) Eine Funktion f : D → K, D ⊂ K offen, ist genau dann stetig im Punkt x0 ∈ D, wenn für alle > 0 ein δ > 0 existiert, so dass gilt: |x − x0 | < δ =⇒ |f (x) − f (x0 )| < . Beweis. ⇒: f sei stetig gemäß der Definition 9.1 und > 0 sei gegeben. Wenn nun kein δ > 0 mit der geforderten Eigenschaft existiert, so können wir jeweils zu n ∈ N, δn := n1 , ein xn ∈ D finden mit |xn −x0 | < 1/n und |f (xn )−f (x0 )| ≥ . Dann gilt aber limn→∞ xn = x0 und nach Voraussetzung limn→∞ f (xn ) = f (x0 ). Dies ist ein Widerspruch. Also existiert das Gewünschte δ > 0. ⇐: Wir nehmen an, dass die “ − δ” Bedingung gilt. Wenn nun limn→∞ xn = x0 gilt, so ist zu zeigen, dass für beliebiges > 0 ein n0 ∈ N existiert mit |f (xn ) − f (x0 )| < ∀n ≥ n0 . Dies ist aber trivialerweise erfüllt, da für n0 hinreichend groß gilt: |xn − x0 | < δ. Lemma 9.3 Sei f : D → K eine in x ∈ D stetige Funktion. Dann folgt: (a) |f | ist stetig in x ∈ D. (b) Im Fall K = C: Re(f ) und Im(f ) sind stetig in x ∈ D. Beweis. Die Aussage (a) folgt unmittelbar aus Lemma 7.28. Aussage (b) folgt aus der Konvergenz komplexer Folgen (Abschnitt 7.2.6). Lemma 9.4 Sind f, g : D → K stetig im Punkt x ∈ D, so gilt: (a) Jede Linearkombination λf + µg : D → K mit λ, µ ∈ K ist stetig in x ∈ D. (b) f · g : D → K ist stetig in x ∈ D. (c) Ist g(x) 6= 0, so ist auch f /g stetig in x ∈ D. 9.1 Eigenschaften stetiger Funktionen 137 Beweis. Alle drei Aussagen folgen direkt aus Lemma 7.27. Insbesondere folgt also, dass Polynome f ∈ K[x] in ganz K stetig sind. Lemma 9.5 Die Verknüpfung (Komposition) stetiger Funktionen ist wieder stetig. Beweis. Sei D1 , D2 ⊂ K offen, f1 : D1 → K, f2 : D2 → K seien stetig mit f (D1 ) ⊆ D2 . Dann gilt f2 ◦ f1 : D1 → K und für (xn )n∈N ⊂ D1 mit xn → x ∈ D folgt für yn := f1 (xn ): lim yn = lim f1 (xn ) = f1 (lim xn ) = f1 (x), lim f2 (f1 (xn )) = lim f2 (yn ) = f2 (lim yn ) = f2 (f1 (x)). 9.1 Eigenschaften stetiger Funktionen Den folgenden fundamentalen Satz hatten wir bereits speziell für Polynome formuliert (Satz 4.26). Satz 9.6 (Zwischenwertsatz) Ist f : [a, b] → R stetig, a < b, mit f (a) < f (b), so wird jeder Wert ξ ∈ [f (a), f (b)] von f angenommen. Beweis. Im Fall ξ = 0 erhalten wir die gleiche Aussage, wie bereits für Polynome in Satz 4.26. Das im damaligen Zusammenhang beschriebene Verfahren der Intervallschachtelung kann auch hier angewendet werden. Den allgemeinen Fall ξ ∈ [f (a), f (b)] führen wir mittels g : [a, b] → R, g(x) := f (x) − ξ auf den zuvorigen Fall zurück. Satz 9.7 Eine stetige Funktion f : [a, b] → R nimmt ihr Maximum und ihr Minimum im Intervall [a, b] an. Beweis. Sei M := sup{f (x)|x ∈ [a, b]} ∈ R ∪ {∞}. Dann existiert eine Folge (xn )n∈N ⊂ [a, b] mit limn→∞ f (xn ) = M (für den Fall M = ∞ ist hier die bestimmte Divergenz gemeint). Da diese Folge beschränkt ist, besitzt sie einen Häufungspunkt x ∈ [a, b]. Dann gilt für die zugehörige Teilfolge (xnk )k∈N : limk→∞ xnk = x und limk→∞ f (xnk ) = M . Aufgrund der Stetigkeit von f folgt nun f (x) = f ( lim xnk ) = lim (f (xnk )) = M . k→∞ k→∞ 138 M. Braack - Stetige Funktionen Also ist M ∈ R und f nimmt sein Maximum im Punkt x ∈ [a, b] an. Für das Minimum folgt man entsprechend. Bemerkung: Wichtig ist im vorherigen Satz, dass man ein abgeschlossenes Intervall betrachtet. Eine entsprechende Aussage gilt nicht in (halb-) offenen Intervallen oder in unbeschränkten Definitionsgebieten (z.B. [a, ∞)). Lemma 9.8 Ist f : [a, b] → R eine stetige und streng monoton wachsende (fallende) Funktion, so ist auch die Umkehrfunktion f −1 : I → [a, b], I = [f (a), f (b)] (I = [f (b), f (a)]), stetig und streng monoton wachsend (fallend). Beweis. Da aus x < y folgt f (x) < f (y), ist f automatisch injektiv. Durch den Mittelwertsatz 9.6 folgt die Surjektivität. Also ist f : [a, b] → I bijektiv und somit existiert die Umkehrfunktion f −1 : I → [a, b]. Nun zur Stetigkeit von f −1 : Sei (yn )n∈N ⊂ I eine konvergente Folge mit Limes y ∈ I. Wir setzen xn := f −1 (yn ) und x := f −1 (y). Zu seigen ist limn→∞ xn = x. Nach dem Satz von Bolzano-Weierstraß 7.30 existiert eine konvergente Teilfolge (xnk )k∈N mit Grenzwert x̃ = limk→∞ xnk ∈ [a, b]. Aufgrund der Stetigkeit von f folgt limk→∞ ynk = limk→∞ f (xnk ) = f (x̃). Da (ynk ) ⊂ (yn ) und y = lim yn , folgt y = f (x̃). Nun folgt aufgrund der Bijektivität: x = f −1 (y) = x̃ = lim xnk . k→∞ Also hat die beschränkte Folge (xn )n∈N nur den einen Häufungspunkt x, woraus x = limn→∞ xn folgt. Die Monotonie von f −1 folgt aus der Monotonie von f , denn für y1 < y2 und x1 := f −1 (y1 ), x2 := f −1 (y2 ) würde aus x1 ≥ x2 der Widerspruch y1 = f (x1 ) ≥ f (x2 ) = y2 folgen. 9.2 Die Potenzfunktion mit rationalen Exponenten Wir haben bereits mit Monomen gearbeitet (dies sind spezielle Polynome): xn := x . . · x} | · .{z n−mal Auch kennen wir bereits die Rechenregeln für x, y ∈ R und m, n ∈ N: xn · y n = (xy)n , xn · xm = xn+m , (xn )m = xnm . + n Die Funktion f : R+ 0 → R0 , x 7→ x , n ∈ N, ist streng monoton wachsend und stetig in R+ 0 . Insbesondere ist sie bijektiv, so dass nach Lemma 9.8 die Umkehrabbildung 9.3 Die Exponentialfunktion in Q 139 f −1 existiert: + f −1 : R+ 0 → R0 √ x 7→ n x Es gilt daher √ n xn = x. Als eine andere Bezeichnung führen wir ein: √ √ m 1 x n := n x und x n := n xm . Insofern können wir auch rationalen Exponenten q = m/n ∈ Q+ zulassen: √ m xq = x n = n xm . Für q ∈ Q− setzen wir hingegen: xq := 1 . x−q Nach Lemma 9.5 sind diese Funktionen ebenfalls stetig. Wie man leicht nachprüft gelten auch hier die Rechenregeln: xq · y q = (xy)q xp · xq = xp+q p q (x ) 9.3 = xpq ∀x, y ∈ R und q ∈ Q , ∀x ∈ R und p, q ∈ Q , ∀x ∈ R und p, q ∈ Q . Die Exponentialfunktion in Q Nun können wir auch die Funktion betrachten, in der wir den Exponenten variieren und die Basis konstant halten, d.h. zu a ∈ R+ 0: q fa : Q → R+ 0 , q 7→ fa (q) := a Aufgrund der eben erwähnten Rechenregeln gilt nun für diese Funktion die Funktionalgleichung: fa (p + q) = fa (p) · fa (q) . Dies erinnert an die Funktionalgleichung der Exponentialfunktion: exp(p + q) = exp(p) · exp(q) . (9.1) Folgendes Lemma besagt nun, dass die Exponentialfunktion gerade der Funktion fe mit der Eulerschen Zahl e = exp(1) = 2.718281 . . . aus Abschnitt 8.3 entspricht. 140 M. Braack - Stetige Funktionen Lemma 9.9 Es gilt exp(q) = eq für alle rationalen Zahlen q. Beweis. Dass die Behauptung für natürliche Zahlen n ∈ N gilt, folgt aufgrund der Funktionalgleichung der Exponentialfunktion und wegen (8.1): ! n n X Y exp(n) = exp 1 = exp(1) = exp(1)n = en . i=1 i=1 Für q ∈ Q+ stellen wir q als Bruch dar, q = m/n mit m, n ∈ N. Nun gilt wegen des eben gezeigten: ! n X em = exp(m) = exp q = exp(q)n i=1 Ziehen wir nun auf beiden Seiten die n-te Wurzel, so erhalten wir p √ n m e = n exp(q)n = exp(q) . Hieraus folgt nun eq = exp(q). Ist hingegen q ∈ Q− , so gilt 1 = exp(0) = exp(q) exp(−q) = exp(q)e−q . Nun folgt die Behauptung aus exp(q) = 1/e−q = eq . Aufgrund dieser Identität können wir nun auch den Ausdruck ez für z ∈ C interpretieren, nämlich durch ez := exp(z). Hierdurch können wir letztendlich auch Ausdrücke wie xy mit x, y ∈ R, x > 0, definieren: xy := ey ln(x) . 9.4 Die Exponentialfunktion in C In diesem Abschnitt betrachten wir die Exponentialfunktion in C und damit insbesondere auch für reelle Argumente. Satz 9.10 Die Exponentialfunktion exp : C → C ist stetig (in ganz C). Beweis. Zunächst zeigt man die Stetigkeit im Nullpunkt. Hierzu sei (hn )n∈N ⊂ C eine komplexe Nullfolge. Dann gilt exp(hn ) = 1 + r1 (hn ) mit r1 (hn ) = ∞ X hk n k=1 k! . 9.4 Die Exponentialfunktion in C 141 Nun zeigt man mit Hilfe der geometrischen Reihe |r1 (h)| = O(|h|) für |h| ≤ 1 (siehe Übungsaufgabe), so dass man limn→∞ exp(hn ) = 1 = exp(0) erhält. Die Stetigkeit an beliebigem z ∈ C führt man nun auf die Stetigkeit im Nullpunkt zurück: Da man jede Folge zn → z in der Form zn = z + hn mit einer Nullfolge (hn )n∈N schreiben kann, folgt mit der Funktionalgleichung und der Stetigkeit der Exponentialfunktion im Nullpunkt: lim exp(zn ) = n→∞ lim exp(z + hn ) = lim (exp(z) exp(hn )) n→∞ n→∞ = exp(z) lim (exp(hn )) = exp(z) exp( lim hn ) = exp(z) exp 0 n→∞ n→∞ = exp(z) . Lemma 9.11 Für die Exponentialfunktion gilt im Komplexen mit z = x + iy ∈ C, x, y ∈ R: ez = ex eiy , ex > 0 , |eiy | = 1 , ez = ez , |ez | = ex . Beweis. Die Gleichung ez = ex eiy folgt unmittelbar aus der Funktionalgleichung. ex > 0 folgt für x ≥ 0 aus der Definition der Exponentialfunktion über die unendliche Reihe. Für x < 0 folgt es wegen ex = 1/e−x . Die Gleichung ez = ez erhält man über die Rechenregel des Konjugierens und dem Grenzübergang n → ∞: n X zk k=0 k! = n X zk k=0 k! . Zur Berechnung von |eiy | schliessen wir folgendermaßen: |eiy |2 = eiy · eiy = eiy · eiy = eiy · e−iy = e0 = 1 , also |eiy | = 1. Lemma 9.12 Für y ∈ R gilt: (a) cos y = Re(eiy ), (b) sin y = Im(eiy ), und (c) cos2 y + sin2 y = 1. 142 M. Braack - Stetige Funktionen Beweis. (a): Da Re((iy)n ) = ±y n für n gerade und Re((iy)n ) = 0 für n ungerade, erhält man ∞ X Re((iy)n ) y2 y4 y6 Re(eiy ) = = 1− + − + + ... . n! 2! 4! 6! n=0 Dies ist gerade die Definition von cos y gemäß Abschnitt 8.6.2. (b): folgert man analog. (c): Folgt aus (a) und (b), denn mit z := iy folgt: cos2 y + sin2 y = Re(ez )2 + Im(ez )2 = |ez |2 . Die Behauptung folgt nun wegen Lemma 9.11: |ez | = eRe z = e0 = 1. Ohne Beweis wollen wir folgendes Resultat vorstellen, das uns eine Definition der Zahl π liefert. Lemma 9.13 Die Funktion cos hat im Intervall [0, 2] genau eine Nullstelle. Diese bezeichnen wir mit π2 . Die Zahl π ∈ R \ Q ist nicht rational, sondern irrational. Die ersten 10 Stellen von π lauten: π = 3.141592653 . . . Spezielle Beziehungen der Eulerschen Zahl e und der Zahl π liefert das folgende Lemma: Lemma 9.14 Es gilt: π ei 2 = i , eiπ = −1, , 3π ei 2 = −i und e2πi = 1 . Beweis. Da cos π2 = 0 gilt: π π = 1 − cos2 = 1. 2 2 Also sin π2 = ±1. Durch eine Abschätzung des Restgliedes in der Reihenentwicklung des Sinus kann man sin x > 0 für 0 < x ≤ 2 herleiten (Übungsaufgabe). Damit folgt sin π2 = 1 und mit Lemma 9.12 sin2 π π + i sin = i. 2 2 Die restlichen Behauptungen folgen wegen π ei 2 = cos π π ei 2 n = (ei 2 )n = in . 9.5 Die Logarithmusfunktion 9.5 143 Die Logarithmusfunktion Da die Exponentialfunktion exp : R → R+ = {x ∈ R : x > 0} stetig, streng monoton wachsend und bijektiv ist, ist auch die Umkehrfunktion stetig, streng monoton wachsend und bijektiv. Diese Umkehrfunktion wird Logarithmus genannt: ln : R+ → R . Es gilt ln(exp(x)) = x. Diese erfüllt die Funktionalgleichung: ln(xy) = ln(x) + ln(y) . Dies ist eine unmittelbare Folgerung aus der Funktionalgleichung der Exponentialfunktion (9.1): exp(ln(x) + ln(y)) = exp(ln(x)) · exp(ln(y)) = xy = exp(ln(xy)) , zusammen mit der Bijektivität von exp. 9.6 Die Exponential- und Logarithmusfunktion zur allgemeinen Basis In Abschnitt 9.2 hatten wir den Ausdruck aq mit a ∈ R und q ∈ Q eingeführt. Nun können wir dies noch verallgemeinern für reelle Exponenten: Definition 9.15 Unter der Exponentialfunktion zur Basis a ∈ R+ versteht man die Funktion expa : R → R+ : expa (x) = ax := exp(x · ln(a)) . Im Fall x = q = m n ∈ Q ist dies identisch mit der zuvor definierten Funktion: √ exp(q · ln(a)) = aq = n am . Dies sieht man folgendermaßen: am = expa (m) = expa (nq) = expa (q)n Zieht man auf beiden Seiten die n-te Wurzel erhält man die Behauptung. Hier wurde verwendet, dass die Funktionalgleichung der Exponentialfunktion auch für die Basis a gilt. 144 M. Braack - Stetige Funktionen Da die Exponentialfunktion zur Basis a im Fall a > 1 streng monoton wachsend ist, kann man auch hier die (stetige) Umkehrfunktion bilden: lna : R+ → R , (a > 1). Es gilt lna (expa (x)) = x. Auch diese erfüllt die Funktionalgleichung: lna (xy) = lna (x) + lna (y) . Die so entstehenden Logarithmusfunktionen werden “Zweige” des Logarithmuses genannt. Man prüft leicht nach (Übungsaufgabe), dass sich die einzelnen Zweige des Logarithmuses nur um eine Konstante unterscheiden, d.h. für a, b > 0, a, b 6= 0 gilt: lnb (x) = ln(a) lna (x) ln(b) ∀x > 0 , denn: exp(ln(b) lnb (x)) = expb (lnb (x)) = x = expa (lna (x)) = exp(ln(a) lna (x)) . Kapitel 10 Differenzierbare Funktionen In diesem Abschnitt sei D ⊆ R stets eine offene Menge. Definition 10.1 Unter dem Differenzenquotienten einer Funktion f : D → K an einer Stelle x ∈ D und der Schrittweite h ∈ R versteht man den Ausdruck Dh f (x) := f (x + h) − f (x) . h Man beachte, dass der Differenzenquotient Dh f (x) nur definiert ist, sofern x+h 6∈ D gilt. Dadurch dass D als offen vorausgesetzt ist, existiert dieser Differenzenquotient aber sofern |h| klein genug ist. Der Differenzenquotient lässt sich auffassen als Steigung der Sekante des Graphen von f an den Punkten x und x + h. Lässt man nun die Schrittweite h gegen Null gehen, so geht die Sekante in die Tangente über (falls existent). Wenn dieser Grenzprozeß möglich ist, so spricht man von Differenzierbarkeit: Definition 10.2 f : D → K heißt differenzierbar an der Stelle x ∈ D, wenn der Grenzwert f 0 (x) := lim Dh f (x) h→0 existiert. Dieser wird dann Ableitung von f an der Stelle x genannt. Beispiele: 1. Eine (affin) lineare Funktion f (x) = ax + b mit a, b ∈ K besitzt die konstante Ableitung f 0 (x) = a, da der Differenzenquotient konstant ist: Dh f (x) = 1 (a(x + h) − b − (ax + b)) = a . h 146 M. Braack - Differenzierbare Funktionen 2. Polynome p ∈ K[x] sind ebenfalls global differenzierbar. Die Ableitung lässt sich besonders einfach berechnen, wenn das Polynom in der Standard-Darstellung gegeben ist: p(x) = n X k ak x , 0 p (x) = k=0 n X kak xk−1 . k=1 Mit dem Binomischen Lehrsatz 8.27 erhalten wir: n 1X ak ((x + h)k − xk ) h k=1 n 1X k k k k−1 2 k−2 k k ak x + hx + hx + ... + h − x = 1 2 h k=1 Dh p(x) = = n X ak kxk−1 + O(h) . k=1 Mittels Grenzübergang h → 0 erhält man das gewünschte Resultat. 3. Die Ableitung der Exponentialfunktion ist wieder die Exponentialfunktion: exp0 (x) = exp(x) . Hierzu sehen wir uns wieder den diskreten Differenzenquotienten an: 1 1 (exp(x + h) − exp(x)) = (exp(x) exp(h) − exp(x)) h h exp(h) − exp(0) 1 exp(x)(exp(h) − 1) = exp(x) = h h = exp(x) · Dh exp(0) . Dh exp(x) = Somit folgt: exp0 (x) = lim Dh exp(x) = exp(x) · exp0 (0) . h→0 Wir müssen also nur noch exp0 (0) = 1 zeigen. Dies sieht man mit Hilfe der Restgliedabschätzung der Exponentialfunktion (Übungsaufgabe): Dh exp(0) = exp(h) − 1 1 + h + O(h2 ) − 1 = = 1 + O(h) . h h Der Grenzübergang h → 0 liefert nun exp0 (0) = limh→0 Dh exp(0) = 1. 147 4. Aus den Reihenentwicklungen von sin und cos in Abschnitt 8.6.2 lassen sich schnell folgende Ableitungen motivieren: sin0 (x) = cos(x) cos0 (x) = − sin(x) . Das folgende Lemma besagt, dass die differenzierbaren Funktionen gerade die sind, die sich in einer Umgebung des jeweiligen Punktes durch eine (affin) lineare Funktion approximieren lassen. Lemma 10.3 Eine Funktion f : D → R ist genau dann differenzierbar im Punkt x0 ∈ D, wenn eine Konstante c ∈ R und eine Funktion ϕ : D → R existieren, so dass gilt: (a) f (x) = f (x0 ) + c(x − x0 ) + ϕ(x) (b) ϕ(x0 + h) = o(h) . ∀x ∈ D , In diesem Fall ist c = f 0 (x0 ). Bemerkung: Der Punkt (b) besagt, dass ϕ(x0 +h) als Funktion von h schneller gegen Null geht als die lineare Funktion h 7→ h, dass also gilt lim x→x0 ϕ(x) ϕ(x0 + h) = 0. = lim h→0 x − x0 h In der Nähe von x0 lässt sich f also durch eine lineare Funktion approximieren: f (x) ≈ f (x0 ) − cx0 + cx . Der Graph dieser Funktion ist gerade die Tangente von f im Punkt x0 . Beweis. ⇒: Wenn f in x0 differenzierbar ist, so definieren wir ϕ(x) := f (x) − f (x0 ) − f 0 (x0 )(x − x0 ) . Damit ist (a) erfüllt. (b) ergibt sich aus: ϕ(x0 + h) f (x0 + h) − f (x0 ) − f 0 (x0 )(x0 + h − x0 ) = h h f (x0 + h) − f (x0 ) = − f 0 (x0 ) . h Aufgrund der Differenzierbarkeit von f in x0 erhalten wir den Grenzübergang: ϕ(x0 + h) = 0. h→0 h lim 148 M. Braack - Differenzierbare Funktionen ⇐: Die Differenzierbarkeit folgt unmittelbar: Dh f (x0 ) = ch + ϕ(x0 + h) ϕ(x0 + h) =c+ . h h Der Grenzübergang h → 0 ergibt f 0 (x0 ) = c. Eine unmittelbare Folgerung aus Lemma 10.3 ist, dass differenzierbare Funktionen automatisch auch stetig sind: Korollar 10.4 Aus der Differenzierbarkeit folgt die Stetigkeit. Beweis. Wegen Lemma 10.3 und limh→0 ϕ(x0 + h) = 0 gilt: lim f (x0 + h) = lim (f (x0 ) + ch + ϕ(x0 + h)) = f (x0 ) . h→0 h→0 Bemerkung: Die Umkehrung gilt aber i.a. nicht. Es gibt stetige Funktionen, die nicht differenzierbar sind. Das Paradebeispiel ist die Betragsfunktion f : x 7→ |x|. Diese Funktion ist in ganz R stetig, aber im Nullpunkt nicht differenzierbar, denn Dh f (0) = |h| − 0 = ±1 h je nach Vorzeichen von h. Damit ist der Grenzwert limh→0 Dh f (0) nicht definiert. 10.1 Differentiationsregeln Satz 10.5 Sind f, g : D → R, D ⊂ R in x ∈ D differenzierbar, so ist für alle α, β ∈ R such die Funktion αf +βg differenzierbarin x differenzierbar mit Ableitung: (αf + βg)0 (x) = αf 0 (x) + βg 0 (x) . Beweis. Folgt unmittelbar aus den Rechenregeln für Folgen. Satz 10.6 (Produktregel) Sind f, g : D → R, D ⊂ R in x ∈ D differenzierbar, so ist auch f · g im Punkt x differenzierbar mit Ableitung: (f · g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x) . Beweis. Der Differenzenquotient für f · g lautet: 1 f (x + h)g(x + h) − f (x)g(x) h 1 = f (x + h) g(x + h) − g(x) + g(x) f (x + h) − f (x) . h Dh (f g)(x) = 10.1 Differentiationsregeln 149 Der Grenzübergang ergibt damit: 1 lim Dh (f g)(x) = lim f (x + h) lim (g(x + h) − g(x)) h→0 h→0 h→0 h 1 +g(x) lim (f (x + h) − f (x)) h→0 h Hieraus erhalten wir die Behauptung. Beispiel: Anwendung der Produktregel auf sin2 (x) ergibt: 0 sin2 (x) = sin0 (x) sin(x) + sin(x) sin0 (x) = 2 sin(x) cos(x) . Satz 10.7 (Quotientenregel) Sind f, g : D → R, D ⊆ R in x ∈ D differenzierbar und ist g(x) 6= 0, so ist auch fg im Punkt x differenzierbar mit Ableitung: 0 f 0 (x)g(x) − f (x)g 0 (x) f (x) = . g g(x)2 Beweis. Wir behandeln zunächst den Spezialfall f = 1: 1 1/g(x + h) − 1/g(x) Dh (x) = g h 1 1 (g(x) − g(x + h)) = g(x + h)g(x) h Der Grenzübergang h → 0 liefert: 0 1 g 0 (x) . (x) = − g g(x)2 Der allgemeine Fall lässt sich nun durch die Produktregel einfach behandeln: 0 f f 0 (x) f (x)g 0 (x) − (x) = g g(x) g(x)2 Erweitert man den ersten Summanden auf der rechte Seite mit dem Faktor g(x) ergibt sich die Behauptung. Beispiele: 1. Mittels der Quotientenregel lässt sich die Ableitung von f (x) = x−n leicht ermitteln: f 0 (x) = − (xn )0 nxn−1 = − = −nx−n−1 . x2n x2n 150 M. Braack - Differenzierbare Funktionen 2. Der Tangens ist definiert als Quotient aus Sinus und Cosinus. Der Definitionsbereich ist x ∈ R \ {π + 2kπ : k ∈ Z}: tan(x) := sin(x) . cos(x) Die Ableitung erhält man mit der Quotientenregel und Lemma 9.12: tan0 (x) = sin0 (x) cos(x) − sin(x) cos0 (x) cos2 (x) + sin2 (x) 1 = = . 2 2 cos (x) cos (x) cos2 (x) Satz 10.8 (Ableitung der Umkehrfunktion) Ist f : [a, b] → R in y ∈ [a, b] differenzierbar mit Ableitung f 0 (y) 6= 0, so ist die Umkehrfunktion f −1 in einer Umgebung von x = f (y) wohldefiniert und im Punkt x differenzierbar mit Ableitung: (f −1 )0 (x) = 1 f 0 (y) . Beweis. Wir setzen y := f −1 (x) und yh := f −1 (x + h) (wohldefiniert für |h| hinreichend klein) 1 −1 yh − y (f (x + h) − f −1 (x)) = h (x + h) − x −1 yh − y f (yh ) − f (y) = = f (yh ) − f (y) yh − y Dh f −1 (x) = Der Grenzübergang h → 0 impliziert yh → y aufgrund der Stetigkeit von f −1 und somit f (yh ) − f (y) = f 0 (y) . h→0 yh − y lim Beispiel: Da der Logarithmus ln(x) die Umkehrfunktion der Exponentialfunktion ist, können wir nun die Ableitung ausrechnen, da exp0 (y) = exp(y) und y = ln(x) ln0 (x) = 1 1 1 = = . exp(y) exp(ln(x)) x Satz 10.9 (Kettenregel) Sind g : D → R, D ⊆ R in x ∈ D differenzierbar und ist f : E → R im Punkt y = g(x) ∈ E differenzierbar, so ist auch f ◦ g im Punkt x differenzierbar mit Ableitung: (f ◦ g)0 (x) = f 0 (g(x)) · g 0 (x) . 10.1 Differentiationsregeln 151 Beweis. Zunächst stellen wir f (yh ) für yh = g(x + h) mittels Lemma 10.3 dar: f (yh ) = f (y) + f 0 (y0 )(yh − y0 ) + ϕ(yh − y0 ) . Hierbei gilt ϕ(yh − y0 ) = o(h). Diese Darstellung verwenden wir innerhalb des Differenzenquotienten: 1 (f (yh ) − f (y0 )) h 1 0 = f (y0 )(yh − y) + ϕ(yh − y0 ) h 1 1 0 (g(x + h) − g(x)) + ϕ(yh − y0 ) . = f (g(x)) h h Dh (f ◦ g)(x) = Da ϕ(yh − y0 ) = o(h) folgt für den Grenzübergang h1 ϕ(g(x + h)) → 0 (h → 0), so dass wir die Behauptung erhalten. Beispiele: 1. Die allgemeine Exponentialfunktion x 7→ ax ist die Verkettung der Exponentialfunktion f (y) = exp(y) und der linearen Funktion g(x) = x ln(a): ax = exp(x ln(a)) = f (g(x)) . Als Ableitung erhalten wir daher aufgrund der Kettenregel (ax )0 = exp0 (y) · (x ln(a))0 = exp(x ln(a)) ln(a) = ax ln(a) . 2. Die Ableitung der allgemeinen Potenzfunktion x 7→ xa ist hingegen: (xa )0 = (exp(a ln(x))0 = exp0 (a ln(x)) · (a ln(x))0 = exp0 (a ln(x)) a x = axa−1 . Es gibt Funktionen, die differenzierbar sind, aber deren Ableitungen nicht stetig sind. Ein Beispiel ist die Funktion 2 x sin(1/x) für x 6= 0, f (x) = 0 für x = 0. Für die Ableitung in Punkten x 6= 0 gilt nach der Produkt- und Kettenregel: f 0 (x) = 2x sin(1/x) − cos(1/x) . Der Grenzwert von f 0 (x) für 0 6= x → 0 existiert offensichtlich nicht. Wenn wir uns aber den Differenzenquotienten direkt im Nullpunkt anschauen, erhalten wir: Dh f (0) = h2 sin(1/h) = h sin(1/h) . h 152 M. Braack - Differenzierbare Funktionen 10.2 Lokale Extrema und der Mittelwertsatz der Differentialrechnung Definition 10.10 Eine Funktion f : D → R, D ⊂ R, hat im Punkt x0 ∈ D ein lokales Maximum (lokales Minimum), wenn eine Umgebung U ⊂ D von x0 existiert, so dass f (x) ≤ f (x0 ) (f (x) ≥ f (x0 ) für alle x ∈ U . Unter einem lokalen Extremum versteht man ein lokales Maximum oder lokales Minimum. Satz 10.11 (Notwendige Bedingung lokaler Extrema) Eine in einer Umgebung eines Punktes x0 ∈ D differenzierbare Funktion f : D → R besitze in x0 ein lokales Extremum. Dann gilt f 0 (x0 ) = 0. Beweis. Wir beweisen den Fall, dass f in x0 ein lokales Minimum besitzt. Da f (x) ≥ f (x0 ) in einer Umgebung von x0 gilt für den Differenzenquotienten Dh f , mit 0 < h < und > 0 hinreichend klein: Dh f (x0 ) = f (x0 + h) − f (x0 ) ≥ 0. h Für negative h mit − < h < 0 gilt entsprechend Dh f (x0 ) ≤ 0. Aufgrund der Differenzierbarkeit von f im Punkt x0 muss der Differenzenquotient für h → 0 konvergieren. Mit obiger Überlegungen gilt f 0 (x0 ) ≤ 0 ≤ f 0 (x0 ) . Die Ableitung kann damit nur Null sein, also f 0 (x0 ) = 0. Für lokale Maxima schließt man entsprechend. Bemerkungen: 1. Diese Bedingung ist nur eine notwendige Bedingung. Dies heißt, dass aus f 0 (x0 ) = 0 noch nicht folgt, dass f in x0 ein Extremum besitzen muss. Ein Gegenbeispiel ist die Funktion f (x) = x3 . Diese Funktion ist streng monton wachsend aber es gilt f 0 (x) = 3x2 . Im Nullpunkt verschwindet die Ableitung also, obwohl die Funktion hier kein Extremum besitzt. 2. Möchte man eine stetige Funktion auf einem abgeschlossenen Intervall, f : [a, b] → R, auf lokale Extrema überprüfen, so muss man nicht nur mögliche Extrema mittels f 0 (x) = 0 in (a, b), sondern auch die Randpunkte f (a) und f (b) als mögliche Kandidaten für lokale Extrema überprüfen. Satz 10.12 (Satz von Rolle) Sei f : [a, b] → R im Intervall [a, b] differenzierbar und f (a) = f (b). Dann besitzt die Ableitung f 0 in (a, b) (mindestens) eine Nullstelle. 10.2 Lokale Extrema und der Mittelwertsatz der Differentialrechnung 153 Beweis. Im Fall f = const. ist die Behauptung sicherlich erfüllt. Wenn hingegen f im Intervall [a, b] nicht konstant ist, so muss sie hier wegen f (a) = f (b) ein lokales Extremum besitzen. An diesem Extremum x gilt dann f 0 (x) = 0 aufgrund von Satz 10.11. Satz 10.13 (Mittelwertsatz der Differentialrechnung) Sei f : [a, b] → R im Intervall [a, b] differenzierbar. Dann existiert ein x ∈ [a, b] mit f 0 (x) = f (b) − f (a) . b−a Beweis. Wir betrachten die Funktion g(x) := f (x) − (x − a) f (b) − f (a) . b−a Es gilt g(a) = f (a) und g(b) = f (a). Also ist der Satz von Rolle 10.12 anwendbar. Dieser liefert die Existenz eines Punktes x ∈ [a, b] mit g 0 (x) = 0. Da sich die Ableitung von g ergibt aus g 0 (x) = f 0 (x) − f (b) − f (a) , b−a erhalten wir die Behauptung. Korollar 10.14 Ist f : I → R auf dem offenen Intervall I = (a, b) differenzierbar und f 0 ≥ 0 (f 0 > 0) in I. Dann ist f in I (streng) monoton wachsend. Im Fall f 0 ≤ 0 (f 0 < 0) in I ist f in I (streng) monoton fallend. Beweis. Wir beweisen nur den Fall f 0 ≥ 0, da die übrigen Fälle analog behandelt werden. Für a < x < y < b existiert aufgrund des Mittelwertsatzes der Differentialrechnung stets ein ξ ∈ (x, y) mit f 0 (ξ) = f (y) − f (x) . y−x Da nach Voraussetzung f 0 (ξ) ≥ 0 und y > x, folgt f (y) ≥ f (x). Dies war zu zeigen. Um eine hinreichende Bedingung für lokale Extrema zu formulieren benötigen wir den Begriff einer zweiten Ableitung f 00 (x), oder auch mit f (2) (x) bezeichnet. Hierunter versteht man die Ableitung von f 0 im Punkt x, sofern f 0 an der Stelle x wieder differenzierbar ist. Analog definiert man höhere Ableitungen f 000 , f (4) , . . .. 154 M. Braack - Differenzierbare Funktionen Definition 10.15 Eine Funktion f : D → R heißt n-mal differenzierbar in D, wenn die Ableitungen f 0 , f 00 , . . . , f (n) in D definiert sind. Ist f (n) außerdem stetig in D, so ist f n-mal stetig differenzierbar in D. Korollar 10.16 (Hinreichende Bedingung für lokale Extrema) Ist f : I → R auf dem offenen Intervall I = (a, b) zweimal differenzierbar und es gelte f 0 (x) = 0 für x ∈ I. Dann gilt: • f 00 (x) > 0 =⇒ f hat in x ein lokales Minimum, • f 00 (x) < 0 =⇒ f hat in x ein lokales Maximum, Beweis. Es gelte f 0 (x) = 0 und f 00 (x) > 0. Folglich gilt für |h| < ( hinreichend klein) Dh (f 0 )(x) > 0, also 1 0 (f (x + h) − f 0 (x)) > 0 . h Da nach Voraussetzung f 0 (x) = 0, ist dies gleichbedeutend mit f 0 (x + h) > 0. h Folglich ist f 0 (x + h) < 0 für − < h < 0 und f 0 (x + h) > 0 für 0 < h < . Daher ist f im Intervall (x − , x) streng monoton fallend und in (x, x + ) streng monoton wachsend. Dies impliziert die Existenz eines lokalen Minimums in x. Bemerkungen: Auch hier ist zu beachten, dass dies nur eine hinreichende Bedingung für lokale Extrema ist. Beispielsweise besitzt f (x) = x4 im Nullpunkt ein lokales Minimum aber f 00 (0) = f 0 (0) = 0. Beispiele: 1. Gegeben seinen n ∈ N reelle Zahlen a1 , . . . , an . Gesucht sei x ∈ R, so dass n X f (x) = (x − ai )2 i=1 minimal wird. Es gilt f 0 (x) = n X 2(x − ai ) = 2 nx − i=1 Die Bedingung f 0 (x) = 0 impliziert also x = Mittel). Für die zweite Ableitung gilt: n X ! ai . i=1 1 n f 00 (x) = 2n > 0 . Pn i=1 ai = a (arithmetisches 10.3 Taylor-Entwicklung 155 Also ist die hinreichende Bedingung für die Existenz eines lokalen Minimums für x = a erfüllt. Da f 0 keine weitere Nullstelle hat, muss dies sogar das globale Minimum sein. 2. Wir wollen das Rechteck mit Flächeninhalt 1 und minimalem Umfang ermitteln. Sind die Seitenlängen also x ≥ 0 und y ≥ 0, so ist wegen xy = 1: y = 1/x. Der Umfang beträgt 2(x + y), bzw. f (x) = 2(x + 1/x) . Die Ableitung ist f 0 (x) = 2(1 − x−2 ). Deren einzige Nullstelle ist x2 = 1, bzw. x = 1. Da f 00 (x) = 4/x3 > 0 für x > 0 handelt es sich hierbei tatsächlich um ein lokales Minimum. In diesem Sinne ist das “optimale” Rechteck also ein Quadrat der Kantenlänge 1. 10.3 Taylor-Entwicklung Definition 10.17 Sei f : I → R auf dem offenen Intervall I := (a, b) ⊂ R eine n-mal stetig differenzierbare Funktion. Dann heißt zu x0 ∈ I das Polynom 1 1 1 Tn,x0 (h) := f (x0 ) + f 0 (x0 )h + f 00 (x0 )h2 + f (3) (x0 )h3 + . . . + f (n) (x0 )hn 2 3! n! n (k) X f (x0 ) k = h , k! k=0 das n-te Taylor-Polynom von f um x0 . (j) Offensichtlich ist Tn,x0 ∈ R[x] vom Grad deg(Tn,x0 ) ≤ n und Tn,x0 (0) = f (j) (x0 )/j! für 0 ≤ j ≤ n. Die Frage, ob sich eine Funktion durch ein Taylor-Polynom approximieren läßt wird durch den folgenden Satz beantwortet: Satz 10.18 (Satz von Taylor) Sei f : I → R auf dem offenen Intervall I := (a, b) ⊂ R eine (n + 1)-mal stetig differenzierbare Funktion. Dann existiert zu x0 ∈ I eine Darstellung, die sogenannten Taylor-Entwicklung: f (x0 + h) = Tn,x0 (h) + f (n+1) (ξ) n+1 h (n + 1)! mit einem ξ zwischen x0 und x0 + h. ∀h ∈ (a − x0 , b − x0 ) , 156 M. Braack - Differenzierbare Funktionen Beweis. Man muss für das Restglied Rn,x0 (h) := f (x0 + h) − Tn,x0 (h) zeigen, dass es ein ξ ∈ [x0 , x0 + h] (bzw. ξ ∈ [x0 + h, x0 ]) gibt, so dass gilt: f (n+1) (ξ) = (n + 1)! · h−n−1 Rn,x0 (h) . Dies beweist man mit einer Verallgemeinerung des Mittelwertsatzes der Differentialrechnung 10.13. Dies wollen wir hier nicht ausführen. Korollar 10.19 Sei f : I → R auf dem offenen Intervall I := (a, b) ⊂ R eine (n + 1)-mal stetig differenzierbare Funktion, deren (n + 1)-te Ableitung f (n+1) in I beschränkt sind. Dann gilt: |f (x0 + h) − Tn,x0 (h)| = O(hn+1 ) . Beweis. Dies ist eine unmittelbare Folgerung aus dem Satz von Taylor, da Rn,x0 (h) = O(hn+1 ) . Beispiele: 1. Die Taylor-Entwicklung der Exponentialfunktion exp(x) um x0 = 0 lautet: n X 1 k x + O(xn+1 ) , exp(x) = k! k=0 da exp(n) (0) = exp(0) = 1. Dies ist also gerade die Reihe, mittels der exp(h) definiert war, aber abgebrochen nach dem n-ten Glied. 2. Die Taylor-Entwicklung der Sinus-Funktion sin(h) um x0 = 0 lautet: sin(x) = x − x3 x5 + − . . . + O(xn+1 ) , 3! 5! da sin(2k) (0) = ± sin(0) = 0 und sin(2k+1) (0) = ± cos(0) = ±1. 3. Die Taylor-Entwicklung des Logarithmuses ln(1 + x) (also um x0 = 1) lautet: ln(1 + x) = n X (−1)k−1 k=1 k xk + O(xn+1 ) , da ln(k) (1) = (−1)k−1 (k − 1)!. Speziell für ln(2) erhält man die alternierende harmonische Reihe. 10.4 Approximation von Ableitungen 10.4 157 Approximation von Ableitungen In der Praxis kommt es häufig vor, dass man mit Ableitungen für Funktionen arbeiten muss, die nicht in analytischer Form gegeben sind. Denkbar ist z.B. dass man die Funktion f nur an diskreten Punkten auswerten kann (z.B. mittels einer Messung). Wie können wir trotzdem mit Ableitungen arbeiten ? Unter dem zentralen Differenzenquotienten 1. Ordnung versteht man 1 (f (x + h) − f (x − h)) ≈ f 0 (x) . 2h Der zentrale Differenzenquotient 2. Ordnung lautet (1) Dh f (x) := 1 (f (x + h) − 2f (x) + f (x − h)) ≈ f 00 (x) . h2 Das folgende Lemma macht eine qualitative Aussage über die Güte dieser Differenzenquotienten. Wir benutzen die Notation (2) Dh f (x) := ||f ||I,∞ := sup |f (x)| . x∈I für die Supremumsnorm in einem Intervall I. Lemma 10.20 Ist f : I → R im Intervall I := [a, b] 4-mal stetig differenzierbar, so gilt 1 2 (3) h ||f ||I,∞ + O(h3 ) . 6 Ist f in I 5-mal stetig differenzierbar, so gilt (1) ||f 0 − Dh f ||I,∞ ≤ 1 2 (4) h ||f ||I,∞ + O(h3 ) . 12 Beweis. Wir benutzen die Taylorentwicklung von f : (2) ||f 00 − Dh f ||I,∞ ≤ 1 1 f (x − h) = f (x) − f 0 (x)h + f 00 (x)h2 − f 000 (x)h3 + O(h4 ) 2 6 1 1 f (x + h) = f (x) + f 0 (x)h + f 00 (x)h2 + f 000 (x)h3 + O(h4 ) . 2 6 Für den zentralen Differenzenquotienten 1. Ordnung ergibt sich damit: (1) 1 (f (x + h) − f (x − h)) 2h 1 1 000 0 3 4 2f (x)h + f (x)h + O(h ) = 2h 3 1 = f 0 (x) + f 000 (x)h2 + O(h3 ) 6 Dh f (x) = 158 M. Braack - Differenzierbare Funktionen Insgesamt folgt: 1 (1) f 0 (x) − Dh f (x) = − f 000 (x)h2 + O(h3 ) . 6 (1) (2) Hieraus folgt die Behauptung für Dh f . Den Nachweis für Dh f lassen wir als Übungsaufgabe. 10.5 Newton-Verfahren Das Newton-Verfahren ist eine Methode zur approximativen Lösung nichtlinearer Gleichungen der Form: f (x) = 0 , also zur Bestimmung von Nullstellen. Hierbei kann die Funktion durchaus nichtlinear sein. Die Voraussetzungen sind allerdings: • f ist differenzierbar und • man kennt eine “gute” Näherungslösung x0 . Das Verfahren beruht nun auf einer iterativen Bestimmung von Näherungslösung en: xn+1 = xn − f (xn ) , f 0 (xn ) n ≥ 0. Das Verfahren wird abgebrochen, wenn ein Abbruchkriterium erreicht ist, z.B. wenn |f (xn )| ≤ abs und |f (xn )| ≤ rel |f (x0 )| , mit vorgegebener absoluter Toleranz abs und relativer Toleranz rel . Diese sind selbstverständlich in Abhängigkeit der Maschinengenauigkeit des eingesetzten Rechners zu wählen (z.B. rel , abs ∼ 10−8 ). Dieses Verfahren lässt sich grafisch folgendermaßen veranschaulichen: Man legt durch den Punkt (xk , f (xk )) die Tangente zur Funktion f . Der neue Kandidat für eine Nullstelle ist nun gerade der Punkt xk+1 der sich als Nullstelle dieser Tangente ergibt; siehe hierzu Abbildung 10.1. 10.5 Newton-Verfahren 159 Abbildung 10.1: Das Newton Verfahren zur Bestimmung einer Nullstelle. Beispiele: 1. Wir wollen die Lösung der Gleichung x3 = 10 bestimmen. Hierzu setzen wir f (x) = x3 − 10 und als Startwert x0 = 2. Die Ableitung lautet f 0 (x) = 3x2 . Wir erhalten: 23 − 10 13 f (x0 ) = 2 − = = 2, 16667 , f 0 (x0 ) 3 · 22 6 x31 = 10, 1713 . . . 13 f (13/6) f (x1 ) = − 0 = 2, 1545 . . . , = x1 − 0 f (x1 ) 6 f (13/6) x32 = 10, 00091 . . . f (x2 ) 0, 0342 = 2, 1545 − 0 = 2, 1544347 , = x1 − 0 f (x2 ) f (2, 1568889) x33 = 10, 00000003 . . . x1 = x0 − x2 x3 Die “exakte” Lösung lautet in der Tat x = 2, 1544347 . . .. 2. Zur Berechnung der k-ten Wurzel einer Zahl a > 0 wählen wir f (x) = xk − a. Die Ableitung ist f 0 (x) = kxk−1 . Die Newton-Iteration ergibt sich somit zu: xn+1 1 a xkn − a = xn (1 − ) + k−1 = xn − k−1 kxn k kxn 1 a = (k − 1)xn + k−1 . k xn 160 M. Braack - Differenzierbare Funktionen Im Speziallfall der Quadratwurzel, also k = 2, erhält man: 1 a xn+1 = xn + . 2 xn Dies ist gerade die rekursiv definierte Folge aus Abschnitt 7.2.7. Um die Güte der Konvergenz eines iterativen Verfahrens zu beurteilen, benötigen wir den Begriff der Konvergenzordnung: Definition 10.21 Ein Iterationsverfahren zur Berechnung einer Größe x∗ ∈ R heißt konvergent von der Ordnung α, α ≥ 1, wenn |xn − x∗ | ≤ c|xn−1 − x∗ |α , mit einer Konstanten c > 0. Im Fall α = 2 spricht man von quadratischer Konvergenz. Lemma 10.22 Ein iteratives Verfahren der Ordnung α = 1 ist konvergent, wenn die Konstante c kleiner als 1 gewählt werden kann. In diesem Fall spricht man von linearer Konvergenz mit linearer Konvergenzrate c < 1. Beweis. Es gilt: |xn − x∗ | ≤ c|xn−1 − x∗ | ≤ c2 |xn−2 − x∗ | . ≤ .. ≤ cn |x0 − x∗ | . Wenn nun c < 1 ist, so folgt limn→∞ |xn − x∗ | = 0. Lemma 10.23 Ein iteratives Verfahren der Ordnung α > 1 ist immer konvergent, sofern der Startwert x0 hinreichend nah an x∗ ist. Beweis. Entsprechend den Überlegungen zuvor erhält man : |xn − x∗ | ≤ c|xn−1 − x∗ |α ≤ ccα |xn−2 − x∗ |α·α . ≤ .. = n−1 |x0 − x∗ |α αn cd |x0 − x∗ | ≤ ccα . . . cα n 10.5 Newton-Verfahren 161 mit der geometrischen Reihe d = α −n (1 + α + . . . + α n−1 ) = n X α−k ≤ k=1 X k∈N α−k − 1 = 1 1 , −1= −1 1−α α−1 Ist nun |x0 − x∗ | < cα−1 so folgt limn→∞ xn = x∗ . Selbstverständlich ist ein iteratives Verfahren der Ordnung α > 1 unabhängig von der Startlösung konvergent, wenn c < 1 ist. Bei dem Newton-Verfahren liegt bei geeigneter Wahl der Startlösung quadratische Konvergenz vor. Dies bedeutet, dass sich die Anzahl der korrekten Stellen je Iterationsschritt verdoppelt: Satz 10.24 Die Funktion f : I → R sei im Intervall I = [a, b] zweimal stetig differenzierbar, besitze eine Nullstelle x∗ ∈ I und es sei minx∈I |f 0 (x)| > 0. Dann ist das Newton-Verfahren von zweiter Ordnung konvergent gegen x∗ . Wichtig ist hierbei zu erwähnen, dass das Newton-Verfahren beileibe nicht immer konvergent ist, selbst wenn die Voraussetzungen des Satzes erfüllt sind. Bei der quadratischen Konvergenz muss, wie oben bereits erwähnt, die Startlösung hinreichend nahe an der Lösung sein. Ebenso ist es möglich, dass eine extrem langsame Konvergenz vorliegt, so dass man (zunächst) keine quadratische Konvergenz erkennt. Wenn wir beispielsweise die Gleichung ex = 2, bzw. die Nullstelle von f (x) = ex − 2, mit dem Newton-Verfahren bestimmen wollen, so erhalten wir mit dem Startwert x0 = −10: x1 = x0 − (ex0 − 2)/ex0 = x0 − 1 + 2/ex0 = −11 + 2e10 ≈ 44042 x2 = 44041 + 2e−44042 ≈ 44041 x3 = 44040 + 2e−44041 ≈ 44040 . Es ist also der Fall extrem langsamer Konvergenz zu beobachten. Erst wenn man mehrere 1000 Iterationen gemacht hat, wird man letztendlich die schnelle quadratische Konvergenz beobachten. 162 M. Braack - Differenzierbare Funktionen Literaturverzeichnis [1] G. Berendt. Mathematik für Informatiker. Wissenschaftsverlag, Mannheim, 1994. [2] M. Brill. Mathematik für Informatiker. Hauser Verlag, München, 2. edition, 2005. [3] D. Hachenberger. Mathematik für Informatiker. Pearson Studium, München, 2. Aufl., 2008. [4] G. Fischer. Lineare Algebra. Vieweg Verlag, Braunschweig, 1986. [5] G. Teschl und S. Teschl. Mathematik für Informatiker, Teil I. Springer Verlag, Berlin, 2006. [6] G. Teschl und S. Teschl. Mathematik für Informatiker, Teil II. Springer Verlag, Berlin, 2006. [7] P. Hartmann. Mathematik für Informatiker. Vieweg Verlag, Wiesbaden, 4. edition, 2006. [8] O. Forster. Analysis 1. Vieweg Verlag, Braunschweig, 7. Aufl., 2004. [9] O. Forster. Analysis 2. Vieweg Verlag, Braunschweig, 2006. [10] W. Struckmann und D. Wätjen. Mathematik für Informatiker. Spektrum Akademischer Verlag (Elsevier), München, 2007.