Mathematik für Wirtschaftsinformatiker und Informatiker Universität Lüneburg Fakultät III Prof. Dr. rer. nat. Ulrich Hoffmann September 2007 Vorwort Das vorliegende Skript dient als Unterlage für Veranstaltungen zur Mathematik für Wirtschaftsinformatiker und Informatiker in den ersten Studiensemestern an der Universität Lüneburg. Es werden Schulkenntnisse der Mathematik und der Wille, sich mit mehr oder weniger abstrakten Sachverhalten auseinandersetzen zu wollen, vorausgesetzt. Die Themenauswahl erfolgte mit Blick auf die Anwendungen in der Informatik und der Wirtschaftsinformatik. Schwerpunkte dieser Anwendungen sind die in späteren Semestern behandelten Analyseverfahren in der Theorie der Datenstrukturen und Algorithmen, der Theoretischen Informatik, insbesondere der Angewandten Komplexitätstheorie und der Kryptologie. Das für die Vorgehensweise und Argumentationstechnik in der Informatik besonders wichtige Prinzip der vollständigen Induktion wird an vielen auch nichttrivialen Beispielen dargestellt. Darüber hinaus werden Grundlagen vermittelt, die dem Verständnis wirtschaftswissenschaftlicher Zusammenhänge dienen. So wurden Themen aus verschiedenen Gebieten der Mathematik ausgewählt, deren Inhalte im späteren Studium von Belang sind: aus der elementaren Zahlentheorie, der Kombinatorik, der Analysis und der Linearen Algebra. Übungsaufgaben mit Lösungen zu den einzelnen Kapiteln ergänzen das Skript. Die Durcharbeitung des Skripts ersetzt nicht den Besuch der Veranstaltungen zur Mathematik, da dort zusätzlich wichtige Zusammenhänge und Beispiele erläutert und mathematische Beweise, die dem Verständnis der mathematischen Sätze dienen, und ergänzende Sachverhalte behandelt werden. Daher kann das Skript weitgehend auf die übliche Darstellung der mathematischen Beweise der zitierten Sätze verzichten. Gegenüber der Vorgängerversion des vorliegenden Skripts (FINAL, 15:1, Oktober 2005, ISSN 0939-8821) wurde einige Fehler beseitigt und Themen ergänzt, insbesondere das Kapitel über die Methode der erzeugenden Funktionen zur Lösung rekursiver Gleichungen. Literaturauswahl zur begleitenden Lektüre Aigner, M.: Diskrete Mathematik, 5. Aufl., Vieweg, 2004. Bartholomé, A.; Rung, J.; Kern, H.: Zahlentheorie für Einsteiger, Vieweg, 1995. Beutelspacher, A.: Lineare Algebra, Vieweg, 1994. Beutelspacher, A.; Neumann, H.B.; Schwarzpaul, T.: Kryptografie in Theorie und Praxis, Vieweg, 2005. Brill, M.: Mathematik für Informatiker, Hanser, 2001. [*] Hachenberger, D.: Mathematik für Informatiker, Pearson Studium, 2005. Haggarty, R.: Diskrete Mathematik für Informatiker, Pearson Studium, 2004. [*] Hartmann, P.: Mathematik für Informatiker, 2. Aufl., Vieweg, 2003. [*] Meinel, C.; Mundhenk, M.: Mathematische Grundlagen der Informatik, 2. Aufl., Teubner, 2002. Purkert, W.: Brückenkurs Mathematik für Wirtschaftswissenschafter, Teubner, 1995. [*] Sydsæter, K.; Hammond, P.: Mathematik für Wirtschaftswissenschaftler, Pearson Studium, 2004. Witt, K.-U.: Algebraische Grundlagen der Informatik, 2. Aufl., Vieweg, 2005. Weiterführende mathematische Werke: [*] Graham, R.L.; Knuth, D.E.; Patashnik, O.: Concrete Mathematics, Addison-Wesley, 1995. Maurer, S.B.; Ralston, A.: Discrete Algorithmic Mathematics, Addison-Wesley, 1991. Yan, S.Y.: Number Theory for Computing, Springer, 2000. [*] Diese Bücher werden als begleitende Lektüre besonders empfohlen. Inhaltsverzeichnis Literaturauswahl zur begleitenden Lektüre................................................................................. 3 1 Grundlegende Definitionen und Bezeichnungen.................................................................. 7 1.1 Mengen.................................................................................................................................. 7 1.2 Aussagen und deren logische Verknüpfung........................................................................ 12 1.3 Beweistechniken.................................................................................................................. 18 1.4 Algebraische Grundstrukturen und Zahlensysteme ............................................................ 21 1.5 Vollständige Induktion........................................................................................................ 32 1.6 Endliche Summen ............................................................................................................... 40 2 Abbildungen........................................................................................................................... 46 2.1 Allgemeines......................................................................................................................... 46 2.2 Grundlegende Eigenschaften von Abbildungen.................................................................. 50 3 Ausgewählte Themen der elementaren Zahlentheorie ...................................................... 61 3.1 Primzahlen........................................................................................................................... 61 3.2 Modulare Artihmetik........................................................................................................... 64 3.3 Der Euklidische Algorithmus.............................................................................................. 69 3.4 Weitere ausgewählte Ergebnisse der elementaren Zahlentheorie ....................................... 78 3.5 Anwendung in der Kryptologie........................................................................................... 79 4 Ausgewählte Themen der Kombinatorik............................................................................ 93 4.1 Binomialkoeffizienten......................................................................................................... 93 4.2 Abbildungen zwischen endlichen Mengen ....................................................................... 101 4.3 Das Prinzip von Inklusion und Exklusion......................................................................... 104 5 Ausgewählte Themen der Analysis.................................................................................... 111 5.1 Folgen und Reihen ............................................................................................................ 111 5.2 Eigenschaften reeller Funktionen einer Veränderlichen ................................................... 130 5.3 Polynome........................................................................................................................... 141 5.4 Gebrochen rationale Funktionen ....................................................................................... 145 5.5 Exponential- und Logarithmusfunktion ............................................................................ 148 5.6 Einführung in die Differentialrechnung ............................................................................ 161 5.7 Die Regel von de l’Hospital .............................................................................................. 176 5.8 Das Newton-Verfahren ..................................................................................................... 179 5.9 Taylorpolynome ................................................................................................................ 182 5.10 Fibonacci-Zahlen............................................................................................................... 196 5.11 Erzeugende Funktionen..................................................................................................... 201 5.12 Anzahlbetrachtungen in Binärbäumen .............................................................................. 209 6 Ausgewählte Themen der Linearen Algebra .................................................................... 221 6.1 Matrizen und Vektoren...................................................................................................... 221 6.2 Lineare Gleichungssysteme............................................................................................... 229 6.3 Invertieren von Matrizen................................................................................................... 242 1 Grundlegende Definitionen und Bezeichnungen In diesem Kapitel werden grundlegende Definitionen, Bezeichnungen und Regeln aus verschiedenen Gebieten der Mathematik zusammengestellt. Dabei wird eine gewisse Vertrautheit mit der Symbolik der Mathematik vorausgesetzt. Die Mathematik begründet ihre Theorien formal jeweils durch ein System von Axiomen, d.h. Grundaussagen, die in einem Teil der mathematischen Welt als Basisbausteine dienen, um aus ihnen Aussagen und Erkenntnisse über diesen Teil der mathematischen Welt abzuleiten. Der Ableitungsvorgang wird durch definierte logische Schlussregeln gesteuert. So wurde versucht, den Aufbau der gesamten Mathematik, insbesondere den Aufbau des Zahlensystems und der Mengenlehre, streng axiomatisch zu begründen. Die Entwicklung entsprechender Axiomensysteme bzw. die Erkenntnis über Grenzen der Möglichkeiten dieses Ansatzes können als überragende Ergebnisse der mathematischen Forschung des 19. und 20. Jahrhunderts angesehen werden. Leider sprengt eine formale Behandlung dieser Themen den Rahmen einer universitären Anfängerveranstaltung, so dass im folgenden ausgewählte Themen aus einzelnen Teilgebieten der Mathematik, die für die spätere Informatikausbildung von Bedeutung sind, eher anschaulich und intuitiv beschrieben werden. Natürlich werden auch hierbei Präzision in den Begriffen und formale Korrektheit in der Argumentation versucht. 1.1 Mengen Die Definition des Begriffs Menge gehört zu den grundlegenden Bausteinen der Mathematik. Die formale Behandlung ist den Grundlagen der Mathematik vorbehalten. Georg Cantor (1845 – 1918), der Begründer der Mengenlehre, hat den Begriff der Menge anschaulich folgendermaßen definiert: Eine Menge ist eine Zusammenfassung von bestimmten, wohlunterscheidbaren Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen. Eine Menge A kann durch die Aufzählung der in ihr enthaltenen Elemente beschrieben werden, z.B. A = { a, b, c, d , e, f , g , h, i, j , k , l , m, n, o, p, q, r , r , t , u, v, w, x, y, z ,} 8 1 Grundlegende Definitionen und Bezeichnungen als die Menge der Buchstaben unseres Alphabets in Kleinschreibung ohne Umlaute. Falls die einzelnen Elemente der Aufzählung allgemein geläufig sind, beschränkt man sich häufig auf die Angabe der ersten und letzten Elemente: A = { a, b, c, ... , x, y, z}, bzw. auf die Angabe der ersten Elemente, z.B. A = { 4, 6, 8, ... } als die Menge aller geraden Zahlen, die größer oder gleich 4 sind. Zu beachten ist, dass es bei der Aufzählung auf die Reihenfolge der Elemente einer Menge nicht ankommt und dass gleiche Elemente in der Aufzählung nur einmal angegeben werden. Sehr häufig wird eine Menge durch charakteristische Eigenschaften beschrieben, die jedem ihrer Elemente zukommen, und zwar in der Form M = { x x hat die Eigenschaften ... }, z.B. { } L = z z ist Lösung der Gleichung x 2 + 2 x − 3 = 0 oder in aufzählender Schreibweise L = { − 3, 1} . Liegt ein Element a in der Menge A (ist a in der Menge A enthalten), so wird a ∈ A geschrieben; liegt a nicht in A, so wird a ∉ A geschrieben. Besitzen alle Elemente einer Menge A auch die Eigenschaften, durch die die Elemente einer Menge B gekennzeichnet sind, so ist A Teilmenge von B, geschrieben A ⊆ B . Enthält B mindestens ein Element, das nicht in A vorkommt, so ist A echte Teilmenge von B, geschrieben A⊂ B. Werden also die Elemente von B durch die Eigenschaften E1, E2, ..., En charakterisiert, d.h. B = { x x hat die Eigenschaften E1 , ..., En }, und werden die Elemente von A durch die Eigenschaften E1′ , ..., Em′ charakterisiert, d.h. 1.1 Mengen 9 A = { x x hat die Eigenschaften E1′, ..., Em′ }, wobei alle Eigenschaften E1, E2, ..., En unter den Eigenschaften E1′ , ..., Em′ vorkommen oder sich aus den Eigenschaften E1′ , ..., Em′ durch logische Schlüsse ableiten lassen, so ist A ⊆ B . Die Elemente einer Teilmenge A einer Menge B werden also in der Regel durch mehr Eigenschaften charakterisiert als die Elemente der Obermenge B. Zwei Mengen A und B sind gleich, geschrieben A = B , wenn für jedes Element a ∈ A auch a ∈ B und für jedes b ∈ B auch b ∈ A gilt, wenn also sowohl A ⊆ B als auch B ⊆ A gelten. Die leere Menge, bezeichnet mit ∅ , ist diejenige Menge, die kein Element enthält. Für jede Menge A gelten die beiden Teilmengenbeziehungen ∅ ⊆ A und A ⊆ A . Die Vereinigung der Mengen A und B, geschrieben A ∪ B , besteht aus den Elementen, die in A oder in B (oder in beiden Mengen) liegen: A ∪ B = { x x ∈ A oder x ∈ B } . Der Schnitt der Mengen A und B, geschrieben A ∩ B , besteht aus den Elementen, die sowohl in A als auch in B liegen: A ∩ B = { x x ∈ A und x ∈ B }. Die Differenz der Mengen B und A, geschrieben B \ A besteht aus den Elementen, die in B, aber nicht in A liegen: B \ A = { x x ∈ B und x ∉ A }. Ist A ⊆ B , so ist das Komplement der Menge A bezüglich der Menge B, geschrieben A B , definiert durch 10 1 Grundlegende Definitionen und Bezeichnungen A B = { x x ∈ B und x ∉ A}. Offensichtlich ist (für A ⊆ B ) A B = B \ A. Für eine Menge A bezeichnet |A| die Anzahl der Elemente (oder die Mächtigkeit) von A. Mit P( A) wird die Potenzmenge der Menge A bezeichnet, die aus allen Teilmengen der Menge A besteht, d.h. P( A) = { L | L ⊆ A} . Beispielsweise lautet für A = {1, 2, 3 } die Potenzmenge P( A) = { ∅, {1 }, { 2 }, { 3 }, {1, 2 }, { 1, 3 }, { 2, 3 }, {1, 2, 3 } } . In Kapitel 1.6 wird gezeigt, dass die Potenzmenge P( A) einer endlichen Menge A mit n vielen Elementen 2 n viele Elemente enthält, d.h. es gibt 2 Menge A. A viele Teilmengen einer endlichen Für Mengen A1 , A2 , ..., An wird das kartesische Produkt definiert als A1 × A2 × ... × An = { (a1 , a2 , ... , an ) | a1 ∈ A1 , a2 ∈ A2 , ... , an ∈ An }. Ein Element (a1 , a2 , ... , an ) ∈ A1 × A2 × ... × An wird als n-Tupel bezeichnet. Bei einem 2-Tupel spricht man auch von einem Paar. Die grundlegenden Rechenregeln für Operationen mit Mengen werden in folgendem Satz zusammengefasst: 1.1 Mengen 11 Satz 1.1-1: Es seien im folgenden A, B und C Mengen. Dann gilt: (i) A∪∅ = A, A∩∅ = ∅ . (ii) A∩ B ⊆ A, A∩ B ⊆ B , A ⊆ A∪ B , B ⊆ A∪ B . (iii) A ∪ B = B ∪ A , A ∩ B = B ∩ A (Kommutativgesetze). (iv) A ∪ (B ∪ C ) = ( A ∪ B ) ∪ C , A ∩ (B ∩ C ) = ( A ∩ B ) ∩ C (Assoziativgesetze); diese Regeln rechtfertigen die Schreibweisen A ∪ B ∪ C = A ∪ (B ∪ C ) = ( A ∪ B ) ∪ C und A ∩ B ∩ C = A ∩ (B ∩ C ) = ( A ∩ B ) ∩ C . (v) A ∪ B = (A \ B) ∪ ( A ∩ B ) ∪ (B \ A), die rechte Seite ist eine disjunkte Zerlegung von A ∪ B . Dabei heißt eine Zerlegung M = M 1 ∪ M 2 der Menge M disjunkt, wenn M 1 ∩ M 2 = ∅ ist. (vi) A ∩ (B ∪ C ) = ( A ∩ B ) ∪ ( A ∩ C ) , A ∪ (B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ C ) (Distributivgesetze) (vii) A ∩ (A ∪ B) = A , A ∪ (A ∩ B) = A . (viii) Ist A ⊆ C , so ist (A C ) = A . C (ix) Sind A ⊆ C und B ⊆ C , so gelten (A ∩ B) C (x) = A C ∪ B C , ( A ∪ B ) = A C ∩ B C (Regeln von de Morgan). C Sind A ⊆ C und B ⊆ C , so folgt aus A ⊆ B die Beziehung B C ⊆ A C und umgekehrt. Bemerkung: Die Voraussetzungen A ⊆ C bzw. B ⊆ C in den Aussagen (viii) – (x) wurden nur gemacht, weil das Komplement einer Menge A relativ zu einer die Menge A umfassenden Menge C definiert wurde. 12 1.2 1 Grundlegende Definitionen und Bezeichnungen Aussagen und deren logische Verknüpfung Logische Aussagen in der Mathematik werden wie Mengen streng axiomatisch definiert. Auf diesen Ansatz soll hier ebenfalls zugunsten eines intuitiven Ansatzes verzichtet werden. Unter einer mathematisch logischen Aussage versteht man einen Satz (in einem logischen System), der entweder WAHR oder FALSCH ist (den Wahrheitswert WAHR oder FALSCH besitzt, umgangssprachlich: wahr oder falsch ist). Beispielsweise ist • „13 ist eine Primzahl“ eine Aussage mit Wahrheitswert WAHR („eine wahre Aussage“) • „ 2 ist eine rationale Zahl“ eine Aussage mit Wahrheitswert FALSCH („eine falsche Aussage“) „Jede gerade natürliche Zahl, die größer als 2 ist, lässt sich als Summe zweier Primzahlen darstellen“ eine Aussage, deren Wahrheitswert noch nicht bekannt ist, die aber einen der beiden Wahrheitswerte WAHR oder FALSCH besitzt. • Der Satz „Dieser Satz hat den Wahrheitswert FALSCH“ ist keine mathematische Aussage, da er weder den Wahrheitswert WAHR noch FALSCH haben kann. Derartige Sätze, die eine selbstbezogene semantische Aussage versuchen, heißen Paradoxien. Sind P und Q Aussagen, so kann man sie mit Hilfe der logischen Junktoren ∧ („und“), ∨ („oder“) bzw. ¬ („nicht“) zu neuen Aussagen (P ∧ Q ) , (P ∨ Q ) bzw. (¬P ) zusammensetzen. Dabei kann man häufig auf die Klammern verzichten, wenn man annimmt, dass der Junktor ¬ stärker als der Junktor ∧ und dieser stärker als der Junktor ∨ bindet. Die Wahrheitswerte der zusammengesetzten Aussagen ergeben sich aus den Wahrheitswerten der Teile gemäß folgender Wahrheitstafeln: Wahrheitswerte von P Q (P ∧ Q ) (P ∨ Q ) FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR FALSCH FALSCH FALSCH WAHR FALSCH WAHR WAHR WAHR Konjunktion Disjunktion Bezeichnung 1.2 Aussagen und deren logische Verknüpfung 13 Wahrheitswerte von P (¬P ) FALSCH WAHR WAHR FALSCH Bezeichnung Negation Neben diesen drei Junktoren werden in logischen Aussagen häufig noch die Junktoren ⇒ („impliziert“, „hat zur Folge“, „aus ... folgt ...“), ⇔ („... ist gleichbedeutend mit ...“, „... gilt genau dann wenn ... gilt“) und ⊕ („exklusives oder“, in der englischsprachigen Fachliteratur auch XOR) verwendet, die durch folgende Wahrheitstafeln definiert sind: Wahrheitswerte von P Q (P ⇒ Q ) (P ⇔ Q ) (P ⊕ Q ) FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR FALSCH WAHR WAHR FALSCH FALSCH WAHR FALSCH WAHR WAHR FALSCH Implikation Äquivalenz Antivalenz Bezeichnung Um den Wahrheitswert einer komplexen Aussage zu ermitteln, die aus durch Junktoren verbundenen Teilaussagen besteht, werden alle Kombinationen von Wahrheitswerten in die Grundaussagen, d.h. in die Teilaussagen, die keine Junktoren erhalten, eingesetzt und durch Anwendung obiger Wahrheitstafeln die sich ergebenden Wahrheitswerte unter Beachtung der Klammersetzung bzw. Bindung der Junktoren ermittelt. Beispiele: P Q (P ⇒ Q ) ⇔ ( (¬P ) FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR FALSCH W W F F P Q (P ⇒ Q ) ⇔ ( (¬P ) FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR FALSCH WAHR WAHR WAHR WAHR WAHR W W F F ∧ Q) F W F F F W F W ∨ Q) W W F W F W F W 14 1 Grundlegende Definitionen und Bezeichnungen Eine zusammengesetzte Aussage, deren Wahrheitswert bei allen möglichen Belegungen mit Wahrheitswerten der Teilaussagen, die keine Junktoren enthalten, stets WAHR ist, heißt Tautologie. Beispielweise sind die Aussagen (P ∨ (¬P )) und (P ⇒ Q ) ⇔ ((¬P ) ∨ Q ) Tautologien, nicht aber (P ⇒ Q ) ⇔ ((¬P ) ∧ Q ) . Das Beispiel (P ⇒ Q ) ⇔ ((¬P ) ∨ Q ) zeigt, dass man den Junktor ⇒ durch die Junktoren ¬ und ∨ ausdrücken kann, indem man in einer Aussage jedes Auftreten einer Teilaussage der Form (P ⇒ Q ) durch die Teilaussage ((¬P ) ∨ Q ) ersetzt. Der Junktor ⇒ ist im Grunde also überflüssig, nur vereinfacht er die Struktur der Aussagen und erhöht damit ihre Lesbarkeit. Der folgende Satz zeigt, dass sich auch die anderen Junktoren ∧, ⇔ und ⊕ mit Hilfe der Junktoren ∨ und ¬ ausdrücken lassen, da sich jeweils links und rechts des Junktors ⇔ die gleichen Wahrheitswerte ergeben. Teil (v) zeigt, dass man auch ∧ und ¬ nehmen kann, um alle Junktoren ∨, ⇒, ⇔ und ⊕ auszudrücken. 1.2 Aussagen und deren logische Verknüpfung Satz 1.2-1: Es seien P und Q Aussagen. Dann sind die folgenden Aussagen Tautologien. (i) (P ∧ Q ) ⇔ (¬((¬P ) ∨ (¬Q ))) , in vereinfachter Schreibweise: (P ∧ Q ) ⇔ ¬(¬P ∨ ¬Q ) . (ii) (P ⇒ Q ) ⇔ ((¬P ) ∨ Q ) , in vereinfachter Schreibweise: (P ⇒ Q ) ⇔ (¬P ∨ Q ) . (iii) (P ⇔ Q ) ⇔ ((P ⇒ Q ) ∧ (Q ⇒ P )) , (P ⇔ Q ) ⇔ (((¬P ) ∨ Q ) ∧ ((¬Q ) ∨ P )) , in vereinfachter Schreibweise: (P ⇔ Q ) ⇔ ((¬P ∨ Q ) ∧ (¬Q ∨ P )) , (P ⇔ Q ) ⇔ (¬((¬((¬P ) ∨ Q )) ∨ (¬((¬Q ) ∨ P )))) , in vereinfachter Schreibweise: (P ⇔ Q ) ⇔ ¬((¬(¬P ∨ Q )) ∨ (¬(¬Q ∨ P ))) . (iv) (P ⊕ Q ) ⇔ ((P ∧ (¬Q )) ∨ ((¬P ) ∧ Q )) , in vereinfachter Schreibweise: (P ⊕ Q ) ⇔ ((P ∧ ¬Q ) ∨ (¬P ∧ Q )) , (P ⊕ Q ) ⇔ ((¬((¬P ) ∨ Q )) ∨ (¬((¬Q ) ∨ P ))) , in vereinfachter Schreibweise: (P ⊕ Q ) ⇔ (¬(¬P ∨ Q ) ∨ ¬(¬Q ∨ P )) . (v) (P ∨ Q ) ⇔ (¬((¬P ) ∧ (¬Q ))) , in vereinfachter Schreibweise: (P ∨ Q ) ⇔ ¬(¬P ∧ ¬Q ) . (vi) (P ∧ (P ⇒ Q )) ⇒ Q (Modus ponens). 15 16 1 Grundlegende Definitionen und Bezeichnungen Bemerkung: Man kommt sogar mit nur einem Junktor aus, um alle anderen Junktoren auszudrücken. Dazu wird der Junktor ↑ durch folgende Wahrheitstafel definiert: Wahrheitswerte von P Q (P ↑ Q ) FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR WAHR FALSCH Bezeichnung Sheffer-Operation Es gilt (P ↑ Q ) ⇔ (¬(P ∧ Q )) , und damit ist (¬P ) gleichwertig mit (lässt sich ausdrücken durch) ((P ↑ Q ) ↑ (P ↑ Q )) . (P ↑ P ), und es ist (P ∧ Q ) gleichwertig mit Der folgende Satz zeigt strukturelle Äquivalenzen zwischen Sätzen der elementaren Mengenlehre (Satz 1.1-1) und der Aussagenlogik. 1.2 Aussagen und deren logische Verknüpfung 17 Satz 1.2-2: Satz 1.1-1: Es seien P, Q und R Aussagen. Die Aussage W Es seien im folgenden A, B und C Mengen. habe den Wahrheitswert WAHR, die Aussage F habe den Wahrheitswert FALSCH. Dann sind die folgenden Aussagen Tautologien. Dann gilt: (i) (P ∨ F ) ⇔ P , P∧F ⇔ F . (i) A∪∅ = A, A∩∅ = ∅ . (ii) (P ∧ Q ) ⇒ P , (P ∧ Q ) ⇒ Q , P ⇒ (P ∨ Q ) , Q ⇒ (P ∨ Q ) . (ii) A∩ B ⊆ A, A∩ B ⊆ B , A ⊆ A∪ B , B ⊆ A∪ B . (iii) (P ∨ Q ) ⇔ (Q ∨ P ) , (P ∧ Q ) ⇔ (Q ∧ P ) (iii) A∪ B = B ∪ A, A∩ B = B ∩ A (Kommutativgesetze). (Kommutativgesetze). (iv) (P ∨ (Q ∨ R )) ⇔ ((P ∨ Q ) ∨ R ) , (P ∧ (Q ∧ R )) ⇔ ((P ∧ Q ) ∧ R ) (Assozia- (iv) A ∩ (B ∩ C ) = ( A ∩ B ) ∩ C (Assozia- tivgesetze); diese Regeln rechtfertigen die Schreibweisen (P ∨ Q ∨ R ) anstelle von (P ∨ (Q ∨ R )) und (P ∧ Q ∧ R ) von (P ∧ (Q ∧ R )) . tivgesetze). anstelle (v) (P ∨ Q ) ⇔ ((P ∧ ¬Q ) ∨ (P ∧ Q ) ∨ (Q ∧ ¬P )) . (v) (vi) A ∪ (B ∪ C ) = ( A ∪ B ) ∪ C , (P ∧ (Q ∨ R )) ⇔ ((P ∧ Q ) ∨ (P ∧ R )) , (P ∨ (Q ∧ R )) ⇔ ((P ∨ Q ) ∧ (P ∨ R )) (vi) A ∪ B = (A \ B) ∪ ( A ∩ B ) ∪ (B \ A). A ∩ (B ∪ C ) = ( A ∩ B ) ∪ ( A ∩ C ) , A ∪ (B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ C ) (Di- (Di- stributivgesetze) stributivgesetze) (vii) (P ∧ (P ∨ Q )) ⇔ P , (P ∨ (P ∧ Q )) ⇔ P . (vii) A ∩ (A ∪ B) = A , A ∪ (A ∩ B) = A . (viii) (¬(¬P )) ⇔ P . (viii) Ist A ⊆ C , so ist (A C ) = A . C ../.. 18 (ix) 1 Grundlegende Definitionen und Bezeichnungen (¬(P ∧ Q )) ⇔ (¬P ∨ ¬Q ) , (¬(P ∨ Q )) ⇔ (¬P ∧ ¬Q ) (Regeln (ix) Sind A ⊆ C und B ⊆ C , so gelten (A ∩ B) C (A ∪ B) C von de Morgan) = AC ∪ B C , = A C ∩ B C (Regeln von de Morgan) (x) (P ⇒ Q ) ⇔ (¬Q ⇒ ¬P ) (x) Sind A ⊆ C und B ⊆ C , so folgt aus A ⊆ B die Beziehung B C ⊆ A C und umgekehrt. Allgemein gilt, dass ein Satz der elementaren Mengenlehre, der nur die Relationenzeichen = und ⊆ und die Operatoren ∪, ∩ bzw. C (Komplement) verwendet, eine korrespondierende logische Aussage besitzt und umgekehrt, indem man Ersetzungen gemäß folgender Tabelle vornimmt. Elementare Mengenlehre Aussagenlogik = ⇔ ⊆ ∪ ∩ C ⇒ ∨ ∧ ¬ Die Erweiterung der Aussagenlogik führt auf die Prädikatenlogik (erster Stufe), in der logische Sätze formuliert werden, die die Quantoren ∀ („für alle ...“) und ∃ („es gibt ...“) enthalten können, wobei über „freie Variablen“ in Formeln quantifiziert wird. Beispiel: ∀x ((( x ∈ N ) ∧ ( x > 1)) ⇒ (∃p (( p ist Primzahl) ∧ ( p teilt x )))) . Auf eine weiterführende Einführung in die mathematische Logik soll hier jedoch verzichtet werden. 1.3 Beweistechniken Um den Wahrheitswert einer komplexen Aussage zu ermitteln, die aus Teilaussagen besteht, die durch Junktoren verbundenen sind, wird ein mathematischer Beweis angeführt. Dieser besteht aus einer Aneinanderreihung logischer Schlüsse, die genau spezifizierten Schlussregeln folgen und jederzeit eindeutig nachvollziehbar sind (zumindest sein sollten). Die Grund- 1.3 Beweistechniken 19 lage aller Beweise in einem theoretischen System ist eine Menge von Axiomen, die als wahr angenommen werden und eine „vernünftige“ Basierung der zugrundeliegenden Theorie bilden. Außerdem gibt es eine endliche Menge von Schlussregeln, die es erlauben, aus Aussagen, die bereits als wahr erkannt wurden (dazu gehören die Axiome, deren Wahrheitswert als WAHR angenommen wird), neue wahre Aussagen herzuleiten. Formal ist ein Beweis eines mathematischen Satzes P eine Aneinanderreihung p1 , p2 , ..., pn von Aussagen, wobei am Anfang Axiome oder bereits bewiesene mathematische Sätze, d.h. Sätze mit dem Wahrheitswert WAHR, stehen, und pn gleich P ist. Den Übergang von einer Zeile pi zur Zeile pi+1 erhält man beispielsweise, indem man eine Tautologie, etwa aus Satz 1.22, anwendet: Ist pi die linke Seite einer Tautologie der Form Q ⇔ R , d.h. pi hat dieselbe Struktur wie Q, dann ist pi+1 gleich R. Eine weitere Möglichkeit der Beweisführung besteht in der Anwendung der als Modus ponens bekannten Tautologie (P ∧ (P ⇒ Q )) ⇒ Q (Satz 1.2-1 (vi)). Ist p j mit j < i eine Zeile, die mit der Aussage P gleichzusetzen ist und hat pi die Form (P ⇒ Q ) , dann ist pi+1 gleich Q. Wenn man also die Aussage P in Zeile p j bereits als Aussage mit dem Wahrheitswert WAHR erkannt hat und in Zeile pi feststellt, dass die Gültigkeit der Aussage P die Gültigkeit der Aussage Q impliziert, dann ist Q eine Aussage mit dem Wahrheitswert WAHR. Ohne an dieser Stelle genauer auf den formalen Vorgang des Beweisens in der Mathematik einzugehen, werden einige mögliche Vorgehensweisen bei Beweisführung von Aussagen beschrieben. A. Direkter Beweis: Die oben beschriebene Vorgehensweise ist ein Beispiel für einen direkten Beweis. Häufig treten mathematische Aussagen der Form (P ⇒ Q ) auf. Für einen Beweis dieser Aussage kann man folgendermaßen vorgehen: Man nimmt an, dass P den Wahrheitswert WAHR besitzt (dass P wahr ist). Durch eine „geeignete“ Argumentation (Anwendung logischer Schlüsse) zeigt man, dass dann auch Q den Wahrheitswert WAHR hat (dass Q wahr ist). 20 B. 1 Grundlegende Definitionen und Bezeichnungen Indirekter Beweis: Zum Beweis der Aussage (P ⇒ Q ) zeigt man (¬Q ⇒ ¬P ) , weil eventuell die Argumentation in dieser Richtung einfacher ist. Der indirekte Beweis beruht auf der Tautologie (P ⇒ Q ) ⇔ (¬Q ⇒ ¬P ) (Satz 1.2-2 (x)). C. Beweis einer Äquivalenz: Um die Aussage (P ⇔ Q ) zu beweisen, sind zwei „Richtungen“ zu zeigen, nämlich ein Beweis für (P ⇒ Q ) und ein Beweis für (Q ⇒ P ) . Häufig treten Äquivalenzen auch in der Form (P ⇔ Q ) und (Q ⇔ R ) . In diesem Fall kann man anstelle der vier Beweise für (P ⇒ Q ) , (Q ⇒ P ) , (Q ⇒ R ) Beweise, nämlich für (P ⇒ Q ) , (Q ⇒ R ) und (R ⇒ P ) , erbringen. D. und (R ⇒ Q ) auch drei Beweis durch Widerspruch: Zum Beweis der Gültigkeit einer Aussage P nimmt man an, dass ¬P den Wahrheitswert WAHR besitzt. Durch eine „geeignete“ Argumentation (Anwendung logischer Schlüsse) zeigt man von einer Aussage Q, deren Wahrheitswert vorher bereits als WAHR erkannt wurde, dass sie dann den Wahrheitswert FALSCH besitzen muss. Man zeigt also die Gültigkeit von (¬P ⇒ (Q ∧ ¬Q )) . Diese Aussage kann jedoch aufgrund des Wahrheitswerts einer Implikation und wegen der Tatsache, dass (Q ∧ ¬Q ) immer den Wahrheitswert FALSCH besitzt, nur dann gültig sein, wenn ¬P den Wahrheitswert FALSCH bzw. P den Wahrheitswert WAHR besitzt. E. Beweis durch vollständige Induktion: Zum Beweis von Aussagen über natürliche Zahlen wird häufig die Beweismethode der vollständigen Induktion eingesetzt. Diese Methode beruht auf einer charakteristischen Eigenschaft der natürlichen Zahlen und wird in Kapitel 1.5 behandelt. 1.4 Algebraische Grundstrukturen und Zahlensysteme 1.4 21 Algebraische Grundstrukturen und Zahlensysteme Im folgenden werden die üblichen Zahlensysteme beschrieben. Die hier angegebenen Bezeichnungen stellen keine Definitionen im mathematischen Sinne dar, sondern geben einen Überblick über den Aufbau der Zahlensysteme und definieren einige grundlegende algebraische Strukturen. Die Menge der natürlichen Zahlen wird definiert durch N = { 0, 1, 2, 3, 4, ... } Ein Axiomensystem für die Menge der natürlichen Zahlen, d.h. ein Regelsystem, das die Menge der natürlichen Zahlen eindeutig durch ihre Eigenschaften definiert, lautet: Axiom 1: 0 ∈N Axiom 2: Jedes n ∈N hat einen Nachfolger n' ∈N. Axiom 3: 0 ist das erste Element in N, d.h. es gibt kein n ∈N mit n' = 0 bzw. 0 hat keinen Vorgänger. Axiom 4: Unterschiedliche Elemente n und m haben unterschiedliche Nachfolger. Gleichbedeutend damit ist: Sind die Nachfolger n' und m' zweier natürlicher Zahlen gleich, so sind die Zahlen n und m ebenfalls gleich. Axiom 5: Eine Menge M natürlicher Zahlen, die die Zahl 0 und mit jeder Zahl n auch ihren Nachfolger n' enthält, ist mit N identisch. N ist das einzige „Modell“ dieses Axiomensystems. Statt n' schreibt man gewöhnlich n + 1 . Statt 0′ schreibt man auch 1, statt 0′′ schreibt man 2, statt 0′′′ schreibt man 3 usw. Der n-te Nachfolger der 0 ist die natürliche Zahl n. Aufbauend auf den so definierten Grundeigenschaften der natürlichen Zahlen werden arithmetische Operationen auf den natürlichen Zahlen eingeführt: 22 1 Grundlegende Definitionen und Bezeichnungen Die Addition wird über die Nachfolger n′ einer natürlichen Zahl n definiert durch die Regeln m+0= m, m + n′ = (m + n)′ für jede natürliche Zahl m und jede natürliche Zahl n. Damit ist z.B. 2 + 3 = 2 + 0′′′ = (2 + 0′′)′ = ((2 + 0′)′)′ = (((2 + 0)′)′)′ = 2′′′ = (0′′)′′′ = 5 . Auf ähnliche Weise und durch Zurückführung auf die Addition wird die Multiplikation eingeführt: m⋅0 = 0 , m ⋅ n′ = (m ⋅ n ) + m für jede natürliche Zahl m und jede natürliche Zahl n. Damit ist z.B. m ⋅1 = m ⋅ 0′ = (m ⋅ 0 ) + m = 0 + m = m und 7 ⋅ 3 = 7 ⋅ 2′ = (7 ⋅ 2 ) + 7 = (7 ⋅1′) + 7 = ((7 ⋅1) + 7 ) + 7 = (7 + 7 + 7 ) = 21 . Die so eingeführten arithmetischen Operationen genügen wichtigen Gesetzmäßigkeiten: Es gilt für jede natürliche Zahl n, für jede natürliche Zahl m und für jede natürliche Zahl k: k + (m + n ) = (k + m ) + n , k ⋅ (m ⋅ n ) = (k ⋅ m ) ⋅ n (Assoziativgesetze) k +m = m+k , k ⋅m = m⋅k (Kommutativgesetze) k ⋅ (m + n ) = k ⋅ m + k ⋅ n (Distributivgesetz) Die natürliche Zahl n heißt kleiner als die natürliche Zahl m, geschrieben n < m , wenn die Gleichung n + x = m eine Lösung x ∈ N mit x ≠ 0 besitzt. Man schreibt n ≤ m , wenn n < m oder n = m gilt. Durch diese Festlegungen wird eine totale Ordnungsrelation auf den natürlichen Zahlen definiert. 1.4 Algebraische Grundstrukturen und Zahlensysteme 23 Erläuterung: Eine Relation < auf einer Menge M heißt partielle Ordnungsrelation, wenn für jedes a ∈ M , jedes b ∈ M und jedes c ∈ M gilt: (i) a < a (Reflexivität) (ii) aus a < b und b < a folgt a = b (Antisymmetrie) (iii) aus a < b und b < c folgt a < c (Transitivität). Eine partielle Ordnungsrelation heißt totale Ordnungsrelation, wenn für jedes a ∈ M und für jedes b ∈ M zusätzlich gilt: a < b oder b < a (Vergleichbarkeit). Die so definierten arithmetischen Operationen erlauben nur wenige wirkliche Rechenmanipulationen. Operationen wie Differenzen- oder Quotientenbildung sind nur sehr eingeschränkt möglich, wenn man fordert, dass jeweils das Ergebnis einer dieser Operationen wieder ein Element aus N ergibt. Daher erweitert man die Menge N um neue Elemente: Für jedes n ∈ N wird ein neues Element n − definiert, für das n + n − = n − + n = 0 gilt. Statt n − schreibt man auch (− n ) bzw. − n . Die Definition erfolgt formal über die Definition einer geeigneten Äquivalenzrelation auf Paaren von natürlichen Zahlen und Übergang auf die zugehörigen Äquivalenzklassen und Einbettung von N in die Menge dieser Äquivalenzklassen (vgl. Aufgabe 1.5). Auf Details soll hier verzichtet werden. Erläuterung: Eine Relation ≈ auf einer Menge M heißt Äquivalenzrelation, wenn für jedes a ∈ M , jedes b ∈ M und jedes c ∈ M gilt: (i) a ≈ a (Reflexivität) (ii) aus a ≈ b folgt b ≈ a (Symmetrie) (iii) aus a ≈ b und b ≈ c folgt a ≈ c (Transitivität). Für a ∈ M bezeichnet [a ]≈ = { b b ≈ a } die zu a gehörende Äquivalenzklasse. 24 1 Grundlegende Definitionen und Bezeichnungen Das Ergebnis ist die Menge der ganzen Zahlen: Z = N ∪ { − n n ∈ N} = { 0, 1, − 1, 2, − 2, 3, − 3, ... } Offensichtlich ist (in der hier gewählten vereinfachten Definition von Z) Z ⊂ N . Die Ordnungsrelation ≤ und die Operationen Addition und Multiplikation werden auf Z in einer zu N kompatiblen Weise erweitert: (− m ) ≤ n , ((− m ) ≤ (− n )) ⇔ (n ≤ m ) für jede natürliche Zahl m und jede natürliche Zahl n. für n ≤ m ⎧Lösung x der Gleichung n + x = m m + (− n ) = (− n ) + m = ⎨ ⎩− (Lösung x der Gleichung m + x = n ) für m < n, (− m ) + (− n ) = (− n ) + (− m ) = −(n + m ) für jede natürliche Zahl m und jede natürliche Zahl n. m ⋅ (− n ) = (− n ) ⋅ m = −(m ⋅ n ) , (− m ) ⋅ (− n ) = (− n ) ⋅ (− m ) = n ⋅ m für jede natürliche Zahl m und jede natürliche Zahl n. Mit diesen Definitionen bildet die algebraische Struktur (Z, +, ⋅, 0, 1) einen nullteilerfreien kommunikativen Ring mit 1. 1.4 Algebraische Grundstrukturen und Zahlensysteme 25 Erläuterung: Eine algebraische Struktur (G, o ) heißt Gruppe, wenn gilt: (i) a o b ∈ G für jedes a ∈ G und jedes b ∈ G (Abgeschlossenheit der Operation o ) (ii) a o (b o c ) = (a o b ) o c für jedes a ∈ G , jedes b ∈ G und jedes c ∈ G (Assozitivität) (iii) es gibt ein Element e ∈ G mit der Eigenschaft e o a = a o e = a für jedes a ∈ G (Existenz eines neutralen Elements) (iv) für jedes a ∈ G gibt es ein eindeutiges Element a −1 ∈ G mit a o a −1 = a −1 o a = e ; dieses Element heißt inverses Element zu a. Das neutrale Element e einer Gruppe ist eindeutig bestimmt, daher wird es in die Angabe der Gruppe mit aufgenommen: (G, o, e ) Eine Gruppe (G, o ) heißt kommutative Gruppe, wenn zusätzlich gilt: a o b = b o a für jedes a ∈ G und für jedes b ∈ G . Eine algebraische Struktur (R, ⊕, ⊗) heißt Ring, wenn gilt: (i) (R, ⊕, 0) ist eine kommutative Gruppe (mit neutralem Element 0 ∈ R ) (ii) a ⊗ b ∈ R für jedes a ∈ R und jedes b ∈ R (Abgeschlossenheit der Operation ⊗ ) (iii) a ⊗ (b ⊗ c ) = (a ⊗ b ) ⊗ c für jedes a ∈ R , jedes b ∈ R und jedes c ∈ R (Assozitivität der Operation ⊗ ) (iv) a ⊗ (b ⊕ c ) = (a ⊗ b ) ⊕ (a ⊗ c ) und (b ⊕ c ) ⊗ a = (b ⊗ a ) ⊕ (c ⊗ a ) für jedes a ∈ R , jedes b ∈ R und jedes c ∈ R (Distributivität der Operation ⊗ über die Operation ⊕ ) Ein Ring (R, ⊕, ⊗) heißt Ring mit 1, wenn es ein Element 1 ∈ R gibt mit a ⊗ 1 = 1 ⊗ a = a für jedes a ∈ R (Existenz eines neutralen Elements bezüglich der Operation ⊗ ). Ein Ring (R, ⊕, ⊗) heißt kommutativer Ring, wenn zusätzlich gilt: a ⊗ b = b ⊗ a für jedes a ∈ R und für jedes b ∈ R . ../.. 26 1 Grundlegende Definitionen und Bezeichnungen Ein Ring (R, ⊕, ⊗) heißt nullteilerfreier Ring, wenn zusätzlich gilt: Die Gleichung a ⊗ x = 0 besitzt für jedes a ∈ R nur die Lösung x = 0 . Ist (R, ⊕, ⊗) ein Ring mit 1, so werden die neutralen Elemente mit in die Angabe des Rings aufgenommen: (R, ⊕, ⊗, 0, 1) . Z erlaubt bereits eine Vielzahl interessanter arithmetischer Operationen, jedoch ist „richtiges Rechnen“, d.h. auch Division (Umkehrung der Multiplikation) nicht immer möglich. Daher wird Z auf die Menge der rationalen Zahlen erweitert. Auch diese Erweiterung erfolgt wieder formal über die Definition einer geeigneten Äquivalenzrelation auf Paaren dieses Mal von ganzen Zahlen und Übergang auf die zugehörigen Äquivalenzklassen und Einbettung von Z in die Menge dieser Äquivalenzklassen: Die Paare (a, b ) und (c, d ) ganzer Zahlen mit b ≠ 0 und d ≠ 0 werden hierbei als äquivalent definiert, wenn a ⋅ d = c ⋅ b gilt. Die bezüglich dieser Äquivalenzrelation zum Paar (a, b ) mit b ≠ 0 ganzer Zahlen gehörende Äquivalenzklasse wird mit a bezeichnet. Die rationalen b Zahlen sind dann genau die Menge dieser Äquivalenzklassen: ⎧ m Q = ⎨ m ∈ Z und n ∈ Z und n ≠ 0 ⎩ n ⎫ ⎬. ⎭ Die Menge der ganzen Zahlen ist in der Menge der rationalen Zahlen eingebettet: ⎧ m ⎫ ⎧ m ⎫ m ∈ Z ⎬ ⊂ Q und ⎨ m ∈Z ⎬ ≈ Z . ⎨ ⎩ 1 ⎭ ⎩ 1 ⎭ Daher schreiben wir Z ⊂ Q (obwohl diese Aussage mathematisch nicht korrekt ist). Im folgenden seien a ∈ Z, b ∈ Z, c ∈ Z, d ∈ Z, b ≠ 0 und d ≠ 0 . Die Darstellung einer rationalen Zahl als Bruch zweier ganzer Zahlen ist nicht eindeutig. So ist etwa 3/1 = 6/2 = 2712/904 = (− 12 ) (− 4 ) . Es gilt für a c ∈Q und ∈Q : d b a c = genau dann, wenn a ⋅ d = c ⋅ b . b d 1.4 Algebraische Grundstrukturen und Zahlensysteme Damit sind 27 a (− a ) = und b (− b ) a 0 = 0 = genau dann, wenn a = 0 ist. b 1 Die additiv inverse rationale Zahl zu Zu jeder rationalen Zahl r = ⎛ a⎞ r ⋅ r − 1 = 1: es ist r − 1 = ⎜ ⎟ ⎝ b⎠ -1 a (− a ) = a . ∈Q ist (− b ) b b a mit a ≠ 0 gibt es eine (multiplikativ) inverse Zahl r − 1 mit b ⎛ b⎞ =⎜ ⎟. ⎝ a⎠ Die arithmetischen Operationen +, - und . auf rationalen Zahlen a c ∈Q und ∈Q sind defid b niert durch a c ad ± cb ± = b d bd und a c ac ⋅ = . b d bd Die Division zweier rationaler Zahlen geführt: a b c d a ⎛ c⎞ = ⋅⎜ ⎟ b ⎝ d⎠ −1 = a d ad . ⋅ = b c bc a c ∈Q und ∈Q wird auf die Multiplikation zurückb d 28 1 Grundlegende Definitionen und Bezeichnungen Die Ordnungsrelation ≤ wird von Z auf Q erweitert: Es ist 0 ≤ a genau dann, wenn ((0 ≤ a ) ∧ (0 < b )) oder ((a ≤ 0 ) ∧ (b < 0 )) gelten. Außerdem ist b a c a ⎛ c⎞ ≤ genau dann, wenn + ⎜ − ⎟ ≤ 0 gilt. b d b ⎝ d⎠ Mit diesen Festlegungen bildet die algebraische Struktur (Q, +, ⋅, 0, 1) mit der Ordnungsrelation ≤ einen angeordneten Körper. Erläuterung: Eine algebraische Struktur (K , ⊕, ⊗) heißt Körper, wenn gilt: (i) (K , ⊕, ⊗, 0, 1) ist ein kommutativer Ring mit 1 (ii) für jedes a ∈ K mit a ≠ 0 gibt es ein Element a −1 ∈ K mit a ⊗ a −1 = 1 ; dieses Element heißt multipliktives inverses Element zu a. (K , ⊕, 0) ist also eine kommutative Gruppe, die additive Gruppe des Körpers, (K \ { 0 }, ⊗, 1) ist eine kommutative Gruppe, die multiplikative Gruppe des Körpers, und es gelten die Distributivgesetze. Der Körper (K , ⊕, ⊗) heißt angeordneter Körper, wenn es eine totale Ordnungsrelation < auf K gibt mit folgenden Eigenschaften: (i) für jedes x ∈ K , für jedes y ∈ K und für jedes z ∈ K gilt: aus x < y folgt x ⊕ z < y ⊕ z (ii) für jedes x ∈ K und für jedes y ∈ K gilt: aus 0 < x und 0 < y folgt 0 < x ⊗ y . In (Q, +, ⋅, 0, 1) sind die wichtigsten arithmetischen Operationen möglich. Jedoch fehlt der Ordnungsrelation auf Q eine wichtige Eigenschaft, nämlich die Vollständigkeit. Beispielsweise sind die Elemente der Menge {q q ∈ Q und q 2 ≤ 2 } 1.4 Algebraische Grundstrukturen und Zahlensysteme 29 wohl nach oben beschränkt, z.B. durch r = 3 2 , es gibt in Q aber keine kleinste obere Schranke für die Elemente dieser Menge (denn 2 ∉ Q ). Daher werden die rationalen Zahlen um die irrationalen Zahlen erweitert. Das Resultat ist der Körper (R, +, ⋅, 0, 1) der reellen Zahlen. Der Erweiterungsprozess kann auf verschiedene Weisen unter topologischen Aspekten vollzogen werden (z.B. Dedekind-Schnitte, mittels Fundamentalfolgen, Intervallschachtelung oder durch Dezimalbruchentwicklung). Exemplarisch wird hier die Methode der Dedekind-Schnitte angegeben: Erläuterung: Eine Teilmenge S ⊆ Q heißt (Dedekind-) Schnitt, wenn gilt: (i) S ≠ ∅ und S ≠ Q (ii) Für jedes r ∈ S ist die Menge { q q ∈ Q und q ≤ r } eine echte Teilmenge von S. Bedingung (ii) beinhaltet zwei Eigenschaften: (i’) Ist r ∈ S und q ∈ Q mit q ≤ r , so ist auch q ∈ S (Abgeschlossenheit nach unten) (ii’) Ist r ∈ S , so gibt es ein p ∈ S mit r < p (Nichtexistenz eines Maximums). Die Menge R der reellen Zahlen ist die Menge aller (Dedekind-) Schnitte. Die Menge der rationalen Zahlen lässt sich in R einbetten, indem man r ∈ Q mit dem Schnitt {x x ∈ Q und − ∞ < x < r } identifiziert. Daher schreiben wir Q ⊂ R (obwohl diese Aussage mathematisch nicht korrekt ist). Auf der Menge der Schnitte wird durch die Mengeninklusion ⊆ eine totale Ordnungsrelation definiert, die die Ordnungsrelation ≤ auf Q fortsetzt. Diese Fortsetzung der Ordnungsrelation auf die Schnitte in Q, d.h. die reellen Zahlen, hat die Eigenschaft, dass jede nichtleere nach oben beschränkt Teilmenge reeller Zahlen eine kleinste obere Schranke besitzt (Vollständigkeit der Ordnungsrelation). Damit hat der Schnitt {q q ∈ Q und q 2 < 2 nicht in Q liegt, nämlich die als } eine kleinste obere Schranke, die allerdings 2 bezeichnete reelle Zahl. 30 1 Grundlegende Definitionen und Bezeichnungen Die Operationen der Addition und der Multiplikation lassen sich von Q auf die Menge der Schnitte, d.h. R, fortsetzen, so dass insgesamt (R, +, ⋅, 0, 1) zu einem vollständig angeordneten Körper wird, der sogar „strukturell“ der einzige vollständig angeordneten Körper ist. Die Einzelheiten sollen an dieser Stelle nicht weiter behandelt werden (siehe beispielsweise in Hachenberger, D.: Mathematik für Informatiker, Pearson Studium, 2005). Leider sind auch in (R, +, ⋅, 0, 1) noch nicht alle arithmetischen Operationen möglich. So besitzt die Gleichung x 2 + 1 = 0 keine Lösung x ∈ R . Daher erweitert man den Zahlbereich R (unter Wahrung der arithmetischen Operationen): Die imaginäre Zahl i wird durch die Eigenschaft i 2 = − 1 definiert. Dann ist die Menge der komplexen Zahlen definiert durch C = { a + bi a ∈ R und b ∈ R }. Bei der Zahl z = a + bi heißt a der Realteil und b der Imaginärteil von z. Die Menge der reellen Zahlen ist in der Menge der komplexen Zahlen eingebettet: { r + 0i r ∈ R } ⊂ C und { r + 0i r ∈ R } ≈ R. Daher schreiben wir R ⊂ C (obwohl diese Aussage mathematisch nicht korrekt ist). Die komplexen Zahlen lassen sich als Punkte in einer Ebene mit rechtwinkligem Koordinatensystem, der komplexen Ebene, darstellen. Dabei wird für eine komplexe Zahl z = a + bi ihr Realteil a auf der horizontalen Achse abgetragen, ihr Imaginärteil b auf der vertikalen Achse. Die folgende Abbildung zeigt die komplexen Zahlen z = a + bi , − 1 + 2i, − 2 − i und 2 − 2 i. 1.4 Algebraische Grundstrukturen und Zahlensysteme 31 3i -1 + 2i 2i z = a + bi bi i 1 -2 -i a -i 2 -2i Der Betrag z der komplexen Zahl z = a + bi ist geometrisch durch die Länge der Verbindungslinie des Punkts (0, 0) der komplexen Ebene mit dem Punkt (a, b) definiert: z = a + bi = a 2 + b 2 . Die arithmetischen Operationen werden definiert durch ( a + bi ) ± ( c + di ) = ( a ± c ) + ( b ± d )i und ( a + bi ) ⋅ ( c + di ) = ( ac − bd ) + ( ad + bc )i . Die zu einer komplexen Zahl a + bi (multiplikativ) inverse Zahl (a + bi ) lautet −1 ( a + bi ) − 1 = a −b + 2 i. 2 a +b a + b2 2 Die Division zweier komplexer Zahlen a + bi und c + di wird auf die Multiplikation zurückgeführt: ( a + bi ) / ( c + di ) = ( a + bi ) ⋅ ( c + di ) − 1 −d ⎛ c + 2 = ( a + bi ) ⋅ ⎜ 2 2 ⎝c +d c +d2 ac + bd bc − ad i + = 2 c + d 2 c2 + d 2 ⎞ i⎟ ⎠ 32 1 Grundlegende Definitionen und Bezeichnungen Mit diesen Operationen bildet auch (C, +, ⋅, 0, 1) einen Körper. Zu beachten ist, dass die Ordnungsrelation der reellen Zahlen, die (R, +, ⋅, 0, 1) zu einem vollständig angeordneten Körper macht, nicht auf die komplexen Zahlen fortgesetzt wird; denn der Körper (C, +, ⋅, 0, 1) lässt sich nicht anordnen (in einem angeordneten Körper K gilt 0 < a ⊗ a für jedes a ∈ K , aber in C ist nach Definition i 2 = −1 < 0 ). Insgesamt gilt (mathematisch nicht korrekt): N ⊂ Z ⊂ Q ⊂ R ⊂ C . Die jeweiligen arithmetischen Operationen +, −, ⋅, / und die Ordnungsrelation ≤ , soweit sie in den einzelnen Zahlensystemen überhaupt definiert sind, werden für alle Zahlensysteme gleich bezeichnet. 1.5 Vollständige Induktion Das vorliegende Kapitel behandelt eine der wichtigsten Beweismethoden, wenn es um Aussagen über natürliche Zahlen oder um Aussagen über Mengen geht, die strukturell äquivalent zu den natürlichen Zahlen sind: die vollständige Induktion. Wegen der großen Bedeutung dieser Methode für die Informatik werden in diesem Kapitel ausnahmsweise die durchgeführten Beweise in den Beispielen explizit angegeben. Es sei A(n) eine Aussage über die natürliche Zahl n ∈ N , d.h. die von n abhängt. Es soll gezeigt werden, dass diese Aussage für alle natürlichen Zahlen n ≥ n0 gilt. Häufig ist n0 = 0 ; dann soll A(n) für alle natürlichen Zahlen n bewiesen werden. Nach der Beweismethode der vollständigen Induktion geht man wie folgt vor: 1. Man zeigt die Gültigkeit der Aussage A(n0 ) (Induktionsanfang) 2. Man beweist die Gültigkeit der Implikation ( A(n ) ⇒ A(n + 1)) (Induktionsschluss). Aus Axiom 5 der natürlichen Zahlen in Kapitel 1.4 („Eine Menge M natürlicher Zahlen, die die Zahl 0 und mit jeder Zahl n auch ihren Nachfolger n' enthält, ist mit N identisch.“) folgt dann, dass A(n) für alle natürlichen Zahlen gilt. Hier soll nur der Spezialfall n0 = 0 gezeigt werden. Dazu setzt man M = { m A(m) gilt für m }. Der Induktionsanfang besagt n0 ∈ M ; 1.5 Vollständige Induktion 33 der Induktionsschluss besagt: wenn n ∈ M ist, dann ist auch der Nachfolger n′ ∈ M ; Axiom 5 besagt nun gerade, dass M = N gilt, d.h. dass A(n) für alle natürlichen Zahlen n gilt1. Die Beweismethode der vollständigen Induktion wird in unterschiedlichen Varianten an einigen Beispielen erläutert: Beispiel: Zu beweisen ist die Aussage Für alle n ∈ N gilt: 0 + 1 + 2 + ... + n = n ⋅ (n + 1) . 2 Induktionsanfang: Die Aussage gilt für n = 0 , denn auf der linken Seite des Gleichheitszei0 ⋅1 ; beide chens steht nur 0, und auf der rechten Seite des Gleichheitszeichens steht 2 Seiten ergeben denselben Wert. n ⋅ (n + 1) . Zu zeigen ist, dass dann die2 se Formel auch für die natürliche Zahl n + 1 gilt. Das lässt sich aber leicht nachrechnen: Auf der linken Seite des Gleichheitszeichens steht Induktionsschluss: Für n ∈ N gelte: 0 + 1 + 2 + ... + n = 0 + 1 + 2 + ... + n + (n + 1) . Für diese Summe gilt (da die Formel für n als gültig vorausgesetzt wird): 0 + 1 + 2 + ... + n + (n + 1) = n ⋅ (n + 1) n ⋅ (n + 1) + 2 ⋅ (n + 1) n 2 + 3 ⋅ n + 2 ; + (n + 1) = = 2 2 2 auf der rechten Seite des Gleichheitszeichens steht (n + 1) ⋅ (n + 2) = n 2 + 3 ⋅ n + 2 ; 2 2 beide Seiten sind gleich, also gilt die Formel auch für die natürliche Zahl n + 1. 1 Der Fall n0 > 0 verläuft analog, indem man eine Variante (Folgerung) von Axiom 5 verwendet, nämlich: „Eine Menge M natürlicher Zahlen, die die Zahl n0 ∈ N und mit jeder Zahl n auch ihren Nachfolger n' enthält, ist mit { n n ∈ N und n ≥ n0 } identisch.“. 34 1 Grundlegende Definitionen und Bezeichnungen Beispiel: Zu beweisen ist die Aussage Ist A eine endliche Menge mit n Elementen, dann enthält die Potenzmenge P( A) 2 n viele Elemente (d.h. eine Menge mit n Elementen besitzt 2 n viele Teilmengen). Induktionsanfang: Die Aussage gilt für n = 0 , denn wenn A kein Element besitzt, dann ist A = ∅ ; andererseits ist P(∅) = {B B ⊆ ∅} = {∅}, und diese Menge enthält 1 = 20 viele Elemente. Induktionsschluss: Die Aussage gelte für Mengen A mit n Elementen, d.h. P( A) = 2 A = 2n . Es sei B eine Menge mit n + 1 Elementen. Zu zeigen ist, dass die Anzahl der Teilmengen von B gleich 2 n+1 ist: Da B = n + 1 > 0 ist, gibt es ein Element b ∈ B . Die Teilmengen C von B werden danach klassifiziert, ob sie das Element b enthalten oder nicht. Jede Teilmenge C ⊆ B , mit b ∉ C ist Teilmenge von B \ { b }. Da diese Menge genau n Elemente enthält, gibt es 2 n viele Teilmengen C ⊆ B mit b ∉ C . Jeder Teilmenge C ⊆ B mit b ∈ C entspricht genau eine Teilmenge C ′ ⊆ B mit b ∉ C ′ , nämlich C ′ = C \ { b }. Umgekehrt entspricht jeder Teilmenge C ′ ⊆ B mit b ∉ C ′ eine Teilmenge C ⊆ B mit b ∈ C , nämlich C = C ′ ∪ { b } . Daher gibt es genauso viele Teilmengen C ⊆ B mit b ∈ C wie Teilmengen C ⊆ B mit b ∉ C , nämlich 2 n viele. Insgesamt ist die Anzahl an Teilmengen von B gleich 2 ⋅ 2 n = 2 n+1 . Beispiel: Beim Spiel der Türme von Hanoi sind drei Stapel mit Bezeichnern A, B und C gegeben. Auf dem Stapel A befinden sich n Scheiben, die übereinander in absteigender Größe liegen; die beiden anderen Stapel sind leer. Die Aufgabe besteht darin, die Scheiben vom Ausgangsstapel A auf einen der anderen Stapel, etwa B, zu bewegen, wobei jeweils die Scheiben nur einzeln bewegt werden dürfen. Der dritte Stapel C kann als Zwischenablage verwendet werden. Dabei ist die Randbedingung, niemals eine größere auf eine kleinere Scheibe zu legen, einzuhalten. Wieviele Scheiben müssen genau bewegt werden? 35 1.5 Vollständige Induktion Es bezeichne T (n) die minimale Anzahl an Bewegungen, um n Scheiben von einem Stapel auf einen anderen Stapel unter Zuhilfenahme des dritten Stapels zu bewegen. Offensichtlich ist T (0) = 0 , T (1) = 1 , T (2) = 3 . Folgende Lösungsstrategie führt zum Ziel: Man ignoriere zunächst die größte (unterste) Scheibe auf Stapel A und bringe die oberen n − 1 Scheiben vom Stapel A zum Stapel C unter Zuhilfenahme des Stapels B als Zwischenspeicher unter Beachtung obiger Randbedingung. Anschließend bewege man die auf Stapel A verbliebene größte Scheibe zum Stapel B, er ja jetzt leer ist. Dann bringe man die n − 1 Scheiben vom Stapel C zum Stapel B unter Zuhilfenahme des Stapels A als Zwischenspeicher unter Beachtung obiger Randbedingung. Der folgende (Pascal-) Programmausschnitt realisiert diese Startegie: CONST max = ...; TYPE disk_typ = 0 .. max; stab_typ = 1 .. 3; PROCEDURE move (anz: disk_typ; a : stab_typ; b : stab_typ; c : stab_typ); { move bewegt Scheiben, deren Anzahl in anz angegeben wird, vom Stab a zum Stab b, wobei der Stab c als Zwischenspeicher verwendet wird BEGIN { move } IF anz > 0 THEN BEGIN move (anz - 1, a, c, b); Writeln ('Lege eine Scheibe von ', a, } 36 1 Grundlegende Definitionen und Bezeichnungen ' nach ', b, '.'); move (anz - 1, c, b, a) END END { move }; Es gilt T (0) = 0 und T (n) ≤ 2 ⋅ T (n − 1) + 1 für n > 0 . Man kommt nicht mit weniger Scheibenbewegungen aus; denn um an die größte Scheibe auf dem Ausgangsstapel heranzukommen und diese vom Ausgangsstapel auf einen anderen Stapel zu bewegen, müssen zuvor n − 1 kleinere Scheiben auf einem einzigen Stapel liegen. Dann kann die größte Scheibe bewegt werden (mindestens einmal), und dann müssen noch einmal n − 1 kleinere Scheiben bewegt werden. Das bedeutet T (n) ≥ 2 ⋅ T (n − 1) + 1 . Insgesamt gilt T (0) = 0 und T (n) = 2 ⋅ T (n − 1) + 1 für n > 0 . Es bleibt die Bestimmung von T (n) in alleiniger Abhängigkeit von n (und nicht von T (n − 1) ). Dazu werde einige kleinere Werte für n ausprobiert: T (0) = 0 , T (1) = 2 ⋅ T (0) + 1 = 2 ⋅ 0 + 1 = 1 , T (2) = 2 ⋅ T (1) + 1 = 2 ⋅1 + 1 = 3 , T (3) = 2 ⋅ T (2) + 1 = 2 ⋅ 3 + 1 = 7 , T (4) = 2 ⋅ T (3) + 1 = 2 ⋅ 7 + 1 = 15 , T (5) = 2 ⋅ T (4) + 1 = 2 ⋅15 + 1 = 31 , T (6) = 2 ⋅ T (5) + 1 = 2 ⋅ 31 + 1 = 63 . Die Vermutung liegt nahe, dass T (n) = 2n − 1 für alle n ∈ N gilt (für n = 0, ..., 6 wurde es explizit ausgerechnet. Für die übrigen n ∈ N wird die Vermutung durch vollständige Induktion nachgewiesen: Induktionsanfang: Die Aussage gilt für n = 0, ..., 6 (siehe oben). Induktionsschluss: Die Aussage gelte bis n ∈ N . Dann ist T (n + 1) = 2 ⋅ T (n) + 1 (nach Definition von T (n)) = 2 ⋅ (2 n − 1) + 1 (Voraussetzung im Induktionsschluss) = 2 n+1 − 2 + 1 = 2 n+1 − 1. 37 1.5 Vollständige Induktion Beispiel: Ein wichtiges Suchverfahren in der Informatik ist die Binärsuche: Gegeben sei ein Feld t[1], ..., t[n] mit ganzzahligen Einträgen (allgemeiner: mit bezüglich einer Ordnungsrelation vergleichbaren Einträgen), die nach aufsteigender Größe sortiert sind, d.h. es gilt t[1] ≤ t[2] ≤ ... ≤ t[ n − 1 ] ≤ t[n]. Die Aufgabe besteht darin festzustellen, ob ein vorgegebener Wert a unter t[1], ..., t[n] vorkommt und in diesem Fall den Index i zu ermitteln, für den a = t[i] gilt. Anstelle das Feld linear von Anfang bis eventuell zum Ende zu durchsuchen, kann man folgendermaßen vorgehen: Zunächst wird das mittlere Element t[middle] geprüft (bei einer geraden Anzahl von Elementen ist das mittlere Element das erste Element der zweiten Feldhälfte). Ist es gleich a, so ist der gesuchte Feldindex gefunden, und die Suche ist beendet. Andernfalls liegt a, wenn es überhaupt im Feld vorkommt, im vorderen Feldabschnitt, falls a < t[middle] ist, oder im hinteren Feldabschnitt, falls a > t[middle] ist. Die Entscheidung, in welchem Feldabschnitt weiterzusuchen ist, kann jetzt getroffen werden. Gleichzeitig wird durch diese Entscheidung die andere Hälfte aller potentiell auf Übereinstimmung mit a zu überprüfenden Feldelement ausgeschlossen. Im Feldabschnitt, der weiter zu überprüfen ist, wird nach dem gleichen Prinzip (also rekursiv) verfahren. Unter Umständen muss die Suche fortgesetzt werden, bis ein noch zu überprüfender Feldabschnitt nur noch ein Feldelement enthält. Eine (Pascal-) Implementierung der Binärsuche lautet wie folgt: CONST n = ...; TYPE Tarray = ARRAY [1..n] OF INTEGER; FUNCTION Binaersuche (t a von bis : : : : Tarray; INTEGER; INTEGER; INTEGER) : INTEGER; VAR mitte : INTEGER; BEGIN { Binaersuche } Binaersuche := -1; IF von < bis THEN BEGIN { der Feldausschnitt t[von] , ... t[bis] enthält mindestens 2 Elemente mitte := von + ((bis - von + 1) DIV 2); IF a = t[mitte] { Í } THEN Binaersuche := mitte } 38 1 Grundlegende Definitionen und Bezeichnungen ELSE BEGIN IF a < t[middle] { Í } THEN Binaersuche := Binaersuche (t, a, von, mitte-1) ELSE Binaersuche := Binaersuche (t, a, mitte + 1, bis); END END ELSE BEGIN IF a = t[von] THEN Binaersuche := von; END; END { Binaersuche }; Der Aufruf zum Durchsuchen des Feldes t[1], ..., t[n] nach dem Element a lautet Binaersuche (t, a, 1, n); Der Rechenaufwand der Binärsuche ist proportional zur Anzahl der Vergleiche in der mit Í gekennzeichneten Zeilen. Zur Vereinfachung der Analyse des Rechenaufwands wird n = 2m − 1 angenommen (hat n nicht diese Form, dann ergibt sich eine ähnliche Abschätzung). Der Wert n beschreibt die Anzahl der Elemente des zu durchsuchenden Felds. In diesem Fall ist (( ) ) mitte = 1 + ((n − 1 + 1) DIV 2 ) = 1 + 2 m − 1 DIV 2 = 2 m−1 , d.h. wenn a nicht in der Mitte des Felds vorkommt, enthält das Anfangsstück des Felds t[1], ..., t[mitte - 1] 2 m−1 − 1 viele Elemente bzw. das Endstück t[mitte + 1], ..., t[n] ebenfalls 2 m−1 − 1 viele Elemente; die Suche wird in einem dieser Abschnitte fortgeführt. Mit B(n) wird die Anzahl der Vergleiche des Elements a mit einem Feldelement bezeichnet, wenn das Feld n Elemente enthält. Dann gilt ( ) ( B(1) = B (2 − 1) = 1 . ) B (n) = B 2 m − 1 ≤ B 2 m−1 − 1 + 2 , 1 Um diese Ungleichungen nur in Abhängigkeit von n = 2m − 1 bzw. von m auszudrücken, werden einige Werte für m ausprobiert: 1.5 Vollständige Induktion 39 ( ) B(3) = B (2 − 1) ≤ B(2 − 1) + 2 = 3 , B(7 ) = B(2 − 1) ≤ B (2 − 1) + 2 ≤ 3 + 2 = 5 , B(15) = B(2 − 1) ≤ B (2 − 1) + 2 ≤ 5 + 2 = 7 , B(31) = B(2 − 1) ≤ B(2 − 1) + 2 ≤ 7 + 2 = 9 , B(63) = B (2 − 1) ≤ B (2 − 1) + 2 ≤ 9 + 2 = 11 . B(1) = B 21 − 1 = 1 , 2 1 3 2 4 3 5 4 6 5 Die Vermutung liegt nahe, dass folgende Gesetzmäßigkeit gilt: ( ) B 2 m − 1 ≤ 2 ⋅ m − 1 für jedes m ∈ N mit m ≥ 1 . Diese Gesetzmäßigkeit wird durch vollständige Induktion bezogen auf m („über m“) bewiesen: Induktionsanfang: Die Aussage gilt für m = 1, ..., 6 (siehe oben). Induktionsschluss: Die Aussage gelte bis zur natürlichen Zahl m ∈ N . Dann ist B (2 m+1 − 1) ≤ B(2m − 1) + 2 ≤ (2 ⋅ m − 1) + 2 = 2 ⋅ (m + 1) − 1. (aus dem Algorithmus) (Voraussetzung im Induktionsschluss) Dieses Ergebnis zeigt beispielsweise, dass die Binärsuche in einem Feld mit n = 2.147.483.647 = 231 − 1 Elementen maximal nur 61 Feldelementvergleiche benötigt. Weitere Beispiele für Beweise durch vollständige Induktion finden sich in den folgenden Kapiteln. Die Methode der vollständigen Induktion erfordert die sorgfältige Formulierung der zu beweisenden Aussage A(n) . Dabei muss man die zu beweisende Aussage bereits kennen (raten) und sie dann mit Hilfe des Induktionsanfangs und des Induktionsschlusses beweisen (verifizieren). Folgende Hinweise sollten beachtet werden: 1. Der Induktionsanfang ist wichtig. Fehlt er, kann der Beweis fehlschlagen. 40 1 Grundlegende Definitionen und Bezeichnungen 2. Im Induktionschluss lautet die Annahme „Es gelte A(n) “, d.h. die Gültigkeit von A(n) wird nur für ein n ∈ N angenommen und nicht für alle n ∈ N . 3. Bei der Durchführung des Induktionsschlusses muss die Annahme der Gültigkeit von A(n) auch verwendet, d.h. in die Argumentation eingebaut werden. 1.6 Endliche Summen Häufig hat man es mit Summen mit einer endlichen Anzahl von Summanden zu tun, die alle jeweils nach einem ähnlichen Schema aufgebaut sind, etwa S = a1 + a 2 + a 3 + ... a n −1 + a n . Für diese Summe schreibt man abkürzend: n S = ∑ ai . i =1 In die „Formel“ ai wird nacheinander i = 1, i = 2, ... , i = n − 1 und i = n eingesetzt, und die so erhaltenen Summanden werden aufsummiert. Die Berechnung von S könnte also in einer Programmiersprache wie folgt formuliert werden (PASCAL-Pseudocode): S := 0; FOR i := 1 TO n DO S := S + ai; bzw. S := 0; i := 1; WHILE i <= n DO BEGIN S := S + ai; i := i + 1; END; 1.6 Endliche Summen 41 Beispiel: Es sei ai = 3i 2 + 1 . Dann ist 4 4 i =1 i =1 ∑ ai =∑ (3i 2 + 1) = (3 ⋅ 12 + 1) + (3 ⋅ 2 2 + 1) + (3 ⋅ 3 2 + 1) + (3 ⋅ 4 2 + 1) = 4 + 13 + 28 + 49 = 94. Häufig beginnt eine Summe nicht mit dem kleinsten Index i = 1, sondern mit einer anderen ganzen Zahl (auch negative Zahlen sind zugelassen), so dass man es allgemein mit einer endn lichen Summe der Form S = ∑ a i zu tun hat. Hierin heißt i der Summationsindex, die Zahl k i= k die Summationsuntergrenze und die Zahl n die Summationsobergrenze. n Die Summe S = ∑ a i enthält n − k + 1 viele Summanden. i= k n In der Darstellung der Summe S = ∑ a i wird deutlich, wie die einzelnen Summanden aufgei= k baut sind, nämlich gemäß einer Formel a i = a(i ) . Die Summe S ist nicht nur von den einzelnen Summanden, sondern auch von der Summationsuntergrenze und –obergrenze abhängig, n d.h. S = S ( k , n ) . Die Darstellung S ( k , n ) = ∑ ai zeigt nicht den Wert der Summe in Abhäni =k gigkeit von der Summationsuntergrenze k und der Summationsobergrenze n. Eine Aufgabe besteht daher in der Berechnung des Werts der Summe in Abhängigkeit von den Summationsgrenzen (Berechnung der Summe S(k, n) in geschlossener Form). Beispiel: n Die Summe S(1, n) = ∑ (3i 2 + 1) hat den Wert S(1, n)= i =1 n(2 + (2n + 1)(n + 1)) . Bei n = 4 ergibt 2 sich S(1, 4) = 94. Eine endliche Summe lässt sich in Teilsummen zerlegen, die ihrerseits wieder mit jeweils einem Summenzeichen zusammengefasst werden können, z.B. 42 1 Grundlegende Definitionen und Bezeichnungen a1 + a 2 + ... + a k −1 + a k + a k +1 + a k + 2 + ... + a j −1 + a j + a j +1 + a j + 2 + ... + a n −1 + a n ⎛ j ⎞ = a1 + a 2 + ... + a k −1 + ⎜ ∑ a i ⎟ + a j +1 + a j + 2 + ... + a n −1 + a n ⎝ i= k ⎠ ⎛ k −1 ⎞ ⎛ j ⎞ ⎛ n ⎞ = ⎜ ∑ ai ⎟ + ⎜ ∑ ai ⎟ + ⎜ ∑ ai ⎟. ⎝ i =1 ⎠ ⎝ i = k ⎠ ⎝ i = j +1 ⎠ Die Bezeichnung i des Summationsindex kann beliebig geändert werden: n n aµ . ∑a = ∑ µ i i= k =k n Anstelle von ∑a i schreibt man auch i= k ∑a i . k ≤ i≤ n Ist I eine beliebige Menge (Indexmenge), so ist ∑a i die Summe, die man dadurch enthält, i ∈I dass man nacheinander ai für jedes i ∈ I bildet und die einzelnen Summanden aufaddiert. Auf die Reihenfolge, in der man die einzelnen Indizes i ∈ I betrachtet, kommt es nicht an. Beispiel: Die Summe der Quadrate aller geraden Zahlen zwischen 4 und 12 ist ∑i = 4 2 + 6 2 + 8 2 + 10 2 + 12 2 2 i ∈{ 4 , 6 , 8,10 ,12 } = (2 ⋅ 2) 2 + (2 ⋅ 3) 2 + (2 ⋅ 4) 2 + (2 ⋅ 5) 2 + (2 ⋅ 6) 2 6 = ∑ ( 2i ) 2 i =2 6 = ∑ 4i 2 = 4 ⋅ 2 2 + 4 ⋅ 3 2 + 4 ⋅ 4 2 + 4 ⋅ 5 2 + 4 ⋅ 6 2 i=2 6 = 4 ⋅ ∑ i 2 = 360. i =2 Vereinbarungsgemäß ist die Summe über eine leere Anzahl von Summanden gleich 0: 1.6 Endliche Summen ∑ a i = 0 und i∈∅ n ∑a i = 0 für k > n. i= k Satz 1.6-1: (i) Ist c eine Konstante, die vom Summationsindex nicht abhängt, so ist ∑ ( c ⋅ a ) = c ⋅∑ a i i ∈I (ii) ∑ (a i ∈I i . i ∈I i ⎛ ⎞ ⎛ ⎞ ± bi ) = ⎜ ∑ a i ⎟ ± ⎜ ∑ bi ⎟ . ⎝ i∈I ⎠ ⎝ i∈I ⎠ (iii) Ist c eine Konstante, die vom Summationsindex nicht abhängt, so ist n n i =1 i= k ∑ c = n ⋅ c und ∑ c = ( n − k + 1) ⋅ c . (iv) Es sei k ∈ N mit 1 ≤ k ≤ n . Dann ist n n + k −1 i =1 i= k ∑ ai = (v) ∑a i − k +1 (Indexverschiebung). ⎛ n ⎞ ⎛ m ⎞ ⎜ ∑ a i ⎟ ⋅ ⎜⎜ ∑ b j ⎟⎟ = (a1 + ... a n ) ⋅ (b1 + ... bm ) ⎝ i =1 ⎠ ⎝ j =1 ⎠ = a1 ⋅ (b1 + ... bm ) + ... a n ⋅ (b1 + ... bm ) ⎛ m ⎞ ⎛ m ⎞ = a1 ⋅ ⎜⎜ ∑ b j ⎟⎟ + ... + a n ⋅ ⎜⎜ ∑ b j ⎟⎟ ⎝ j =1 ⎠ ⎝ j =1 ⎠ n ⎛ ⎛ m ⎞⎞ = ∑ ⎜ a i ⋅ ⎜⎜ ∑ b j ⎟⎟ ⎟ ⎜ ⎟ i =1 ⎝ ⎝ j =1 ⎠ ⎠ n ⎛⎛ m ⎞⎞ = ∑ ⎜ ⎜⎜ ∑ ai ⋅ b j ⎟⎟ ⎟, ⎜ ⎟ i =1 ⎝ ⎝ j =1 ⎠⎠ ⎞ ⎛ ⎞ ⎛ ⎜ ∑ a i ⎟ ⋅ ⎜ ∑ bj ⎟ = ∑ a i ⋅ bj . ⎝ i∈I ⎠ ⎝ j∈J ⎠ i∈I , j∈J ( ) 43 44 1 Grundlegende Definitionen und Bezeichnungen Satz 1.6-2: (i) Die Summe aller natürlichen Zahlen bis zur Zahl n ist gleich n ∑ i = 1+ 2 + ... ( n − 1) + n = i= 0 n( n + 1) . 2 Die Summe aller geraden natürlichen Zahlen bis zur Zahl n ist gleich ∑i ⎣ 2 ⎦⋅ (⎣n 2 ⎦+ 1). = n 0≤i ≤n und i ist gerade Die Summe aller ungeraden natürlichen Zahlen bis zur Zahl n ist gleich 2 ⎢ n + 1⎥ i =⎢ . ∑ ⎣ 2 ⎥⎦ 0≤i ≤n und i ist ungerade (ii) Es sei q ∈ R eine Konstante. Dann ist n ∑q = 1 + q + q 2 + q 3 + ... + q n −1 + q n i i =0 für q = 1 ⎧n + 1 ⎪ n +1 n +1 q −1 = ⎨1 − q für q ≠ 1 = ⎪⎩ 1 − q q −1 n Spezialfall: q = 2: ∑2 = 1 + 2 + 4 + ... 2 n = 2 n +1 − 1. i i= 0 n ∑ iq i = q + 2q 2 + 3q 3 + ... + ( n − 1) q n −1 + nq n i =0 ⎧ n( n + 1) ⎪⎪ =⎨ 2 q − ( n + 1) q n +1 + nq n + 2 ⎪ ⎪⎩ (1 − q) 2 für q = 1 für q ≠ 1 n Spezialfall: q = 2: ∑ i2 i = ( n − 1)2 n +1 + 2 . i= 0 ../.. 1.6 Endliche Summen n (iii) 1 1 1 1 1 1 1 1 ∑ i( i − 1) = 2 + 6 + 12 + ... + 1 1 . = 1− n( n − 1) n ... + 1 1 . = 1− n( n + 1) n +1 i= 2 n ∑ i( i + 1) = 2 + 6 + 12 + i =1 n (iv) ∑i i= 0 2 = 1 + 4 + 9 + ... + ( n − 1) 2 + n 2 = n( n + 1)( 2n + 1) . 6 45 46 2 2 Abbildungen Abbildungen Abbildungen stellen Beziehungen zwischen Mengen A und B her. Sie können als Spezialisierung des Konzepts der Relationen zwischen Mengen definiert werden. 2.1 Allgemeines In Kapitel 1.4 wurden die Begriffe Äquivalenzrelation und der Ordnungsrelation eingeführt. Diese sind Spezialisierungen des allgemeineren Begriffs der Relation: Es seien A und B zwei Mengen. Eine Teilmenge R ⊆ A × B heißt Relation zwischen A und B. Eine Relation besteht also aus Paaren (a, b ) mit a ∈ A und b ∈ B . In Kapitel 1.4 wird eine Ordnungsrelation auf einer Menge M mit < bezeichnet und Eigenschaften dieser Relation beschrieben, nämlich Reflexivität, Antisymmetrie und Transitivität. Im Sinne der obigen Definition schreibt man anstelle von a < b auch (a, b ) ∈< und < ⊆ M × M . Entsprechendes gilt für eine Äquivalenzrelation ≈ auf einer Menge M; diese besitzt die Eigenschaften Reflexivität, Symmetrie und Transitivität. Anstelle von a ≈ b schreibt man auch (a, b ) ∈≈ und ≈ ⊆ M × M . Eine Relation R ⊆ A × B heißt linkstotal, wenn es zu jedem a ∈ A ein b ∈ B mit (a, b ) ∈ R gibt. Bei einer linkstotalen Relation R kommen alle Elemente von A als erste Komponenten in den Paaren in R vor. Zu a ∈ A kann es auch mehrere b1 ∈ B , ..., bm ∈ B geben mit (a, b1 ) ∈ R , ..., (a, bm ) ∈ R . Eine Relation R ⊆ A × B heißt rechtstotal, wenn es zu jedem b ∈ B ein a ∈ A mit (a, b ) ∈ R gibt. Bei einer rechtstotalen Relation R kommen alle Elemente von B als zweite Komponenten in den Paaren in R vor. Das Element a ∈ A , das es zu b ∈ B mit (a, b ) ∈ R gibt, muss auch hier nicht eindeutig bestimmt sein, d.h. es kann zu b ∈ B mehrere a1 ∈ A , ..., an ∈ A geben mit (a1 , b ) ∈ R , ..., (an , b ) ∈ R . 2.1 Allgemeines 47 Eine Relation R ⊆ A × B heißt linkseindeutig, wenn gilt: aus (a1 , b ) ∈ R und (a2 , b ) ∈ R folgt a1 = a2 . Bei einer linkseindeutigen Relation gilt dann: Sind (a1 , b1 ) ∈ R und (a2 , b2 ) ∈ R und gilt a1 ≠ a2 , so ist auch b1 ≠ b2 . Eine Relation R ⊆ A × B heißt rechteindeutig, wenn gilt: aus (a, b1 ) ∈ R und (a, b2 ) ∈ R folgt b1 = b2 . Bei einer rechtseindeutigen Relation gilt dann: Sind (a1 , b1 ) ∈ R und (a2 , b2 ) ∈ R und gilt b1 ≠ b2 , so ist auch a1 ≠ a2 . Eine Relation f ⊆ A × B heißt Abbildung von A nach B, wenn f linkstotal und rechtseindeutig ist. Gleichbedeutend damit ist folgende Formulierung: f ⊆ A × B ist eine Abbildung, wenn es zu jedem a ∈ A genau ein b ∈ B gibt mit (a, b ) ∈ f . Da dieses eindeutig bestimmt Element b ∈ B „zu a ∈ A gehört“, schreibt man anstelle von (a, b ) ∈ f auch b = f (a) und bezeichnet es als Bild von a unter f. Häufig gibt es eine Rechenvorschrift, nach der zu gegebenem a ∈ A das Bild f (a ) zu bestimmen ist, etwa f (a ) = a 3 − 3a 2 + 2 . Dann wird eine Abbildung f von A nach B beschrieben durch ⎧A → B , f :⎨ ⎩a → f ( a ) oder auch in der Form f : A → B , f ( a ) = ... Die Menge A heißt Definitionsbereich von f, die Menge W ( f ) = { b | b ∈ B, und es gibt a ∈ A mit f ( a ) = b} heißt Wertebereich von f. Es ist W ( f ) ⊆ B . Anstelle von W ( f ) schreibt man auch f ( A) . Für eine Funktion f : A → B ist also der Wertebereich gleich 48 2 Abbildungen f ( A) = { b | b ∈ B, und es gibt a ∈ A mit f ( a ) = b}. Die Angabe f : A → B legt fest, dass einem Element vom (Daten-) Typ, der „charakteristisch“ für A ist, jeweils genau ein Element vom (Daten-) Typ, der „charakteristisch“ für B ist, zugeordnet wird. Beispielsweise könnte die Menge A aus Objekten vom Objekttyp T und die Menge B aus natürlichen Zahlen bestehen. Dann legt die Angabe f : A → B fest, dass jedem Objekt vom Objekttyp T in der Menge A durch f eine natürliche Zahl, die beispielsweise als Primärschlüsselwert interpretierbar ist, zugeordnet wird. Die Angabe f ( a ) = ... beschreibt, wie diese Zuordnung für jedes Element a ∈ A geschieht. Das Bild eines Elements a ∈ A unter f ist eindeutig bestimmt, und es gilt f (a ) = 1 für jedes a ∈ A . Andererseits kann es durchaus Werte a1 und a2 mit a1 ≠ a2 und f ( a1 ) = f ( a2 ) ge- ben; beispielsweise ist für die durch f ( x ) = x 2 für x ∈ R definierte Abbildung f (−2) = f (2) = 4 . Die Menge f (b ) = { a a ∈ A und f (a ) = b } wird als Urbild von b unter f bezeichnet. −1 Eine Abbildung f : A → B mit A ⊆ R und W ( f ) ⊆ R heißt reelle Funktion einer Verän- derlichen. Beispiele: ⎧R → R f :⎨ 2 ⎩x → x ⎧R \ {0} → g: ⎨ → x ⎩ R 3 x R ⎧[0, ∞[ → h:⎨ → 1 − e −x ⎩ x ⎧A → id A : ⎨ ⎩x → A Identität auf A x 2.1 Allgemeines 49 R ⎧R → para : ⎨ Parabel ⎩ x → ax( x − 1) R ⎧] − 10, ∞[ → 2 ⎪ ⎧x für − 10 < x ≤ 2 ⎪ ⎪ 3 F: ⎨ x → ⎨ x − x für 2 < x ≤ 20 ⎪ ⎪2 x + 8 für x > 20 ⎪⎩ ⎩ N ⎧N → ⎪ 1 für n = 0 ⎧ f !: ⎨ n → ⎨ ⎪⎩ ⎩n ⋅ f ! ( n − 1) für n > 0 Fakultätsfunktion Die hier aufgeführte Definition der Fakultätsfunktion zeigt die Form einer rekursiven Definition. Rekursive Funktionsdefinitionen werden häufig angewandt, wenn der Definitionsbereich der Funktion die natürlichen Zahlen oder eine Teilmenge der natürlichen Zahlen ist. Für den kleinsten Wert n des Definitionsbereich bzw. für mehrere der kleinsten Werte wird f (n ) direkt angegeben. Für größere Werte n wird f (n ) als arithmetischer Ausdruck, der n, eventuell kleinere Werte m und Funktionswerte f (m) mit m < n enthält. Die Fakultätsfunktion kann auch nicht-rekursiv definiert werden: ⎧N → N ⎪ für n = 0 f! : ⎨n → ⎧1 ⎨ ⎪⎩ ⎩1 ⋅ ... ⋅ (n − 1) ⋅ n für n > 0 Ein weiteres Beispiel einer rekursiven Funktion mit der zugehörigen nicht-rekursiven Definition ist die Fibonnacci-Funktion, die einen nichttrivialen Zusammenhang zwischen beiden Formen der Definition zeigt (siehe Kapitel 5.10): ⎧N → N ⎪ für n = 0 und n = 1 fib : ⎨n → ⎧n ⎨ ⎪⎩ ⎩ fib(n − 1) + fib(n − 2) für n ≥ 2 bzw. n n 1 ⎛⎜ ⎛ 1 + 5 ⎞ ⎛ 1 − 5 ⎞ ⎞⎟ ⎟ −⎜ ⎟ ⋅ ⎜ fib( n ) = für n ≥ 0 . 5 ⎜ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 ⎟⎠ ⎟ ⎝ ⎠ Im folgenden werden hauptsächlich reelle Funktionen betrachtet. Gelegentlich wird auf die Angabe des Definitionsbereichs einer Abbildung verzichtet; dann wird implizit immer die größte Teilmenge von R genommen, für die die Abbildungsvorschrift definiert ist. 50 2 Abbildungen Für eine Abbildung f : A → B heißt die Menge {(a, f (a )) | a ∈ A } Graph der Abbildung f. Sind f : A → B und g: B → C zwei Abbildungen, dann heißt die Abbildung h: A → C mit h( a) = g( f ( a)) die Komposition (Zusammensetzung) der Abbildungen f und g, geschrieben h = go f . Es ist W ( g o f ) ⊆ W ( g) ⊆ C , und i.a. gilt g o f ≠ f o g . Beispiel: ⎧R \ {-1} → f :⎨ x → ⎩ R ⎧⎪R \ {-1} → g o f :⎨ x → ⎩⎪ ⎧⎪R → f og:⎨x → ⎪⎩ 2.2 ⎧R → R g: ⎨ 2 ⎩x → x 1 1+ x R 1 (1 + x ) 2 R 1 (1 + x ) 2 Grundlegende Eigenschaften von Abbildungen Eine Abbildung f : A → B heißt surjektive Abbildung (Surjektion), wenn sie rechtstotal ist. Die Abbildung f : A → B sei surjektiv. Dann ist f ( A) = B , d.h. der Wertebereich von f um−1 fasst ganz B. Für jedes b ∈ B ist also f (b ) ≥ 1 , d.h. es gibt mindestens ein a ∈ A mit f (a) = b (eventuell gibt es mehrere Werte a ∈ A , die auf b abgebildet werden). 2.2 Grundlegende Eigenschaften von Abbildungen 51 Beispiel: Die Abbildung ⎧R → R f :⎨ 2 ⎩x → x ist nicht surjektiv, da es zu keiner negativen Zahl y ∈ R einen Wert x ∈ R gibt mit f ( x ) = x 2 = y < 0 . Durch Einschränkung der Zielmenge kann man jedoch die Surjektivität erzwingen. Beispielsweise ist ⎧R → R ≥ 0 f0:⎨ 2 ⎩x → x surjektiv. Eine Abbildung f : A → B heißt injektive Abbildung (Injektion), wenn sie linkseindeutig ist. Beispiel: Die Abbildung ⎧R → R f :⎨ 2 ⎩x → x ist nicht injektiv, da für x1 = −1 und x2 = 1 offensichtlich x1 ≠ x 2 ist, aber f ( x1 ) = f ( −1) = ( −1) = 1 = f (1) = f ( x 2 ) ist. 2 Die Injektivität kann man durch Einschränkung des Definitionsbereichs erzwingen. Beispielsweise ist die Funktion ⎧R ≥ 0 f1: ⎨ ⎩ x injektiv. → R → x2 52 2 Abbildungen Die Injektivität einer Funktion kann an ihrem Graphen abgelesen werden: Jede Parallele zur x-Achse schneidet den Graphen einer injektiven Funktion in höchstens einem Punkt. Eine Abbildung heißt bijektive Abbildung (Bijektion), wenn sie sowohl surjektiv als auch injektiv ist. Die Begriffe bezüglich Relationen und Abbildungen fasst folgende Tabelle zusammen. Typ der Relation linkstotal rechtstotal linkseindeitig rechtseindeutig x x x x x x x x Abbildung Surjektion Injektion x x x x Bijektion Satz 2.2-1: Es sei f : A → B eine bijektive Abbildung. Dann gilt: (i) Für jedes b ∈ B gibt es genau ein ab ∈ A mit b = f (ab ) . (ii) Es gibt eine eindeutig bestimmte Abbildung g : B → A mit g (b) = ab ; außerdem gilt für jedes a ∈ A : g ( f (a )) = a und für jedes b ∈ B : f ( g (b )) = b . Die Aussage in Satz 2.2-1 (i) kann man so interpretieren, dass es eine Eins-zu-eins-Beziehung zwischenden Elementen der Menge A und der Menge B gibt. Ist f : A → B eine bijektive Abbildung, so heißt die gemäß Satz 2.2-1 (ii) existierende Funk−1 tion g : B → A die Umkehrabbildung von f und wird mit f bezeichnet. Es gilt: −1 ⎛ −1 f o f = id A und f o f = id B , d.h. ⎜ f o ⎝ −1 −1 ⎞ ⎛ ⎞ f ⎟(a) = a und ⎜ f o f ⎟(b) = b . ⎠ ⎝ ⎠ 2.2 Grundlegende Eigenschaften von Abbildungen 53 Beim Graph einer bijektiven Abbildung f : R → R vollzieht sich der Übergang zur Umkehr−1 funktion f durch Spiegelung an der Winkelhalbierenden (45°-Linie). Beispiele: Die Abbildung R ⎧R → F :⎨ ⎩ x → ax + b ist für festes a ∈R mit a ≠ 0 und festem b ∈R bijektiv und hat die Umkehrfunktion ⎧⎪R → F: ⎨ ⎪⎩ y → −1 R b . 1 y− a a Im allgemeinen ist eine Abbildung der Form R ⎧R → f :⎨ 3 2 ⎩ x → ax + bx + cx + d mit festen rellen Werten a, b, c und d nicht bijektiv. Die Abbildung ⎧R → R f1 : ⎨ 2 ⎩x → x ist weder injektiv noch surjektiv. Jedoch sind die Abbildungen ⎧R ≥ 0 f2:⎨ ⎩ x → R ≥0 → x2 und ⎧R ≤ 0 f 3: ⎨ ⎩ x → R ≥0 → x2 54 2 Abbildungen −1 −1 jeweils bijektiv mit den durch f 2 ( y) = + y bzw. f 3 ( y) = − y definierten Umkehrabbildungen. Häufig wird bereits für eine injektive Abbildung f : A → B , die nicht notwendigerweise sur−1 jektiv ist, die Umkehrabbildung f definiert, und zwar nur für die Werte b ∈ B aus dem Wertebereich von f: −1 f : f (X ) → X . Satz 2.2-2: Es seien f : A → B und g : B → C Abbildungen. Dann gilt: (i) Sind f und g surjektiv, dann ist auch g o f surjektiv. (ii) Sind f und g injektiv, dann ist auch g o f injektiv. (iii) Sind f und g bijektiv, dann ist auch g o f −1 (g o f ) = −1 −1 fog. bijektiv. In diesem Fall gilt 2.2 Grundlegende Eigenschaften von Abbildungen 55 Für endliche Mengen A und B kann man die Existenz surjektiver, injektiver und bijektiver Abbildungen zwischen A und B folgendermaßen entscheiden: Satz 2.2-3: Die Mengen A und B seien endliche Mengen mit A = n und B = m . Dann gilt: (i) Es gibt genau dann eine surjektive Abbildung f : A → B , wenn n ≥ m ist. (ii) Es gibt genau dann eine injektive Abbildung f : A → B , wenn n ≤ m ist. (iii) Es gibt genau dann eine bijektive Abbildung f : A → B , wenn n = m ist. Satz 2.2-3 lässt den Schluss zu, dass bei Abbildungen zwischen endlichen Mengen mit derselben Elementanzahl die Begriffe Injektivität, Surjektivität und Bijektivität zusammenfallen: Satz 2.2-4: Die Mengen A und B seien endliche Mengen mit derselben Elementanzahl A = B . Es sei f : A → B eine Abbildung. Dann gilt: Die folgenden drei Aussagen (a), (b) und (c) sind äquivalent: (a) f ist eine surjektive Abbildung. (b) f ist eine injektive Abbildung. (c) f ist eine bijektive Abbildung. Satz 2.2-3 (iii) besagt für endliche Mengen, dass sie genau dann gleichmächtig sind, wenn es zwischen ihnen eine bijektive Abbildung gibt. Dieser Ansatz lässt sich auf unendliche Mengen übertragen: Zwei unendliche Mengen A und B heißen gleichmächtig, wenn es eine bijektive Abbildung f : A → B gibt. Wegen der Existenz der bijektiven Umkehrfunktion g zu f ist diese Definition gleichbedeutend mit der Existenz einer bijektiven Abbildung g : B → A . 56 2 Abbildungen Bei unendlichen Mengen A und B tritt die folgende Situation auf, die sich am Beispiel der Nachfolgerfunktion succ auf den natürlichen Zahlen verdeutlichen lässt: ⎧N → N > 0 succ : ⎨ ⎩n → n +1 Wie man leicht nachrechnet, handelt es sich hierbei um eine bijektive Abbildung, d.h. die Menge N der natürlichen Zahlen ist gleichmächtig mit der echten Teilmenge N >0 = N \ { 0 }. Dieses Phänomen erlaubt es, die Endlichkeit bzw. Unendlichkeit einer Menge exakt zu definieren: Eine Menge A ist endlich von der Mächtigkeit n, wenn es eine bijektive Abbildung f : { 0, ..., n − 1} → A gibt, d.h. man kann die Elemente in A mit den natürlichen Zahlen 0, ..., n − 1 durchnumerieren: A = { f (0), ..., f (n − 1)} = { a0 , ..., an−1} . Hierbei ist f (i ) ≠ f ( j ) bzw. ai ≠ a j für i ≠ j . Eine Menge A ist von der Mächtigkeit unendlich, wenn es eine bijektive Abbildung f : B → A zwischen einer echten Teilmenge B ⊂ A und A gibt. Eine Menge heißt abzählbar, wenn sie entweder endlich oder gleichmächtig zu den natürlichen Zahlen ist. Eine unendliche Menge, die nicht abzählbar ist, heißt überabzählbar. Satz 2.2-5: (i) Es gibt eine bijektive Abbildung hZ : N → Z , und es gibt eine bijektive Abbildung hQ : N → Q . Die Mengen N, Z und Q sind daher abzählbar. (ii) Die Menge N der natürlichen Zahlen lässt sich nicht auf die Menge R der reellen Zahlen bijektiv abbilden. Die Menge R ist daher überabzählbar. Für Satz 2.2-5 (i) sind zwei bijektive Abbildungen hZ : N → Z und hQ : N → Q anzugeben. Die bijektive Abbildung hZ : N → Z wird definiert durch ⎧N → Z ⎪ falls n gerade ist . hZ : ⎨n → ⎧ − n 2 ⎨ ⎪⎩ ⎩(n + 1) 2 falls n ungerade ist 2.2 Grundlegende Eigenschaften von Abbildungen 57 Einige Werte dieser Abbildung sind n 0 1 2 3 4 5 6 7 8 9 10 11 hZ (n) 0 1 −1 2 −2 3 −3 4 −4 5 −5 6 Die bijektive Abbildung hQ : N → Q wird in zwei Schritten konstruiert. Zunächst wird eine bijektive Abbildung f Q : N → Q ≥0 angegeben, die dann zu einer bijektiven Abbildung hQ : N → Q erweitert wird: ⎧r ⎫ Die rationalen Zahlen Q >0 = ⎨ r ∈ N >0 und t ∈ N >0 ⎬ kann man sich in ein unendliches t ⎩ ⎭ Zahlenschema eingetragen denken, das aus Zeilen und Spalten besteht. In der ersten Zeile stehen alle Zahlen 1 1 , 1 2 , 1 3 , 1 4 , ... ; die zweite Zeile enthält 2 1 , 2 2 , 2 3 , 2 4 , ...; die ir in der r-ten Zeile und t-ten Spalt te. Dieses Zahlenschema wird durchnumeriert: 1 1 erhält die Nummer 1 ( 1 1 ist die einzige te Zeile enthält i 1 , i 2 , i 3 , i 4 , ... Dann steht die Zahl r r ∈ Q >0 mit r + t = 2 ). Dann kommen alle Zahlen ∈ Q >0 mit r + t = 3 , nach t t r aufsteigenden Zählern geordnet (das sind 1 2 und 2 1 ). Anschließend kommen alle ∈ Q >0 t mit r + t = 4 , nach aufsteigenden Zählern geordnet (das sind 1 3 , 2 2 und 3 1 ) usw. Die folrationale Zahl gende Tabelle zeigt einige kleine rationale Zahlen mit ihren Nummern. m r t mit r ≥ 1 , t ≥ 1 und r + t = m Anzahl Nummern 2 11 1 1 3 12 21 2 2 3 4 13 2 2 31 3 4 5 6 5 14 23 3 2 41 4 7 8 9 10 6 15 2 4 33 4 2 51 5 11 12 13 14 15 r ∈ Q >0 mit r + t = m , nämlich 1 (m − 1) , 2 (m − 2 ) , t u 3 (m − 3) , ..., (m − 1) 1 . Vor diesem „Block“ von Zahlen liegen alle Zahlen ∈ Q >0 mit v u ≥ 1 , v ≥ 1 und u + v = i mit 2 ≤ i ≤ m − 1 . Daher bekommt 1 (m − 1) die Nummer Es gibt genau m − 1 rationale Zahlen m−1 m−2 i =2 i =1 ∑ (i − 1) + 1 = ∑ i + 1 = (m − 1) ⋅ (m − 2) + 1 . 2 58 2 Abbildungen Die Zahl k (m − k ) für k = 1, ..., m − 1 bekommt die Nummer (m − 1) ⋅ (m − 2) + k , d.h. die na2 türlichen Zahlen (m − 1) ⋅ (m − 2) + 1 , (m − 1) ⋅ (m − 2) + 2 , ..., (m − 1) ⋅ (m − 2) + m − 1 = (m − 1) ⋅ m 2 2 2 numerieren die Zahlen 2 r ∈ Q >0 mit r + t = m . t Die Abbildung f Q : N → Q ≥0 wird nun wie folgt definiert: f Q (0) = 0 . Für n > 0 gibt es eine eindeutig bestimmte Zahl m ∈ N >0 mit (m − 1) ⋅ (m − 2) < n ≤ (m − 1) ⋅ m . 2 2 Beispiel: m 1 2 3 4 5 6 7 8 9 10 11 12 (m − 1) ⋅ (m − 2) 0 0 1 3 6 10 15 21 28 36 45 55 0 1 3 6 10 15 21 28 36 45 55 66 2 (m − 1) ⋅ m 2 Für n = 17 ist m = 7 , für n = 21 ist m = 7 , für n = 22 ist m = 8 . Die Anzahl der Werte n mit (m − 1) ⋅ (m − 2) < n ≤ (m − 1) ⋅ m 2 2 beträgt m − 1 . Es wird r = n− (m − 1) ⋅ (m − 2) 2 und t =m−r gesetzt. Da (m − 1) ⋅ (m − 2 ) gerade ist und (m − 1) ⋅ (m − 2) < n gilt, ist r ∈ N >0 . Außerdem ist 2 (m − 1) ⋅ (m − 2) ≤ (m − 1) ⋅ m − (m − 1) ⋅ (m − 2) = m − 1 und damit auch t ∈ N . r = n− >0 2 2 2 Es wird f Q (n ) durch 2.2 Grundlegende Eigenschaften von Abbildungen f Q (n ) = 59 r (in dieser ungekürzten Darstellung) t definiert. Die folgende Tabelle zeigt die Ergebnisse f Q (n ) für die m − 1 Werte n mit (m − 1) ⋅ (m − 2) < n ≤ (m − 1) ⋅ m 2 2 : n (m − 1) ⋅ (m − 2) + 1 (m − 1) ⋅ (m − 2) + 2 ... (m − 1) ⋅ m − 1 (m − 1) ⋅ m r 1 2 ... m−2 m −1 t m −1 m−2 ... 2 1 f Q (n ) 1 (m − 1) 2 (m − 2) (m − 2) 2 (m − 1) 1 2 2 Offensichtlich gilt für diese n jeweils f Q (n ) = 2 2 r mit 1 ≤ r ≤ m − 1 , 1 ≤ t ≤ m − 1 und r + t = m . t Man kann zeigen, dass f Q : N → Q ≥0 bijektiv ist. Die gesuchte Bijektion hQ : N → Q ergibt sich zu ⎧N → Q ⎪ falls n gerade ist . ⎧ − f Q (n 2 ) hQ : ⎨ n → ⎨ ⎪ ⎩ f Q ((n + 1) 2 ) falls n ungerade ist ⎩ Für Satz 2.2-5 (ii) wird angenommen, dass es eine bijektive Abbildungen hR : N → R gibt. Diese Annahme muss auf einen Widerspruch führen. Da dieses Vorgehen eine „klassische“ Beweismethode auch besonders der Theoretischen Informatik ist und auch in die populärwissenschaftliche mathematische Literatur Eingang gefunden hat, soll die Beweisidee hier skizziert werden: Es seien n1 < n2 < n3 < ... diejenigen ni ∈ N , für die hR (ni ) ∈ R mit 0 ≤ hR (ni ) ≤ 1 ist. Jedes r ∈ R mit 0 ≤ r ≤ 1 hat eine eindeutige Nummer ni und lautet in Dezimalschreibweise r = 0, d ni , −1d ni , −2 d ni , −3 ... mit den Dezimalziffern d ni , − j ∈ { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 } . Dabei ist 1 = 0,9 ... (siehe Kapitel 5.1). Es wird eine reelle Zahl r mit 0 ≤ r ≤ 1 durch folgende Vorschrift konstruiert: 60 2 Abbildungen Die erste Dezimalziffer von r nach dem Komma lautet 9 − d n1 , −1 (es wird aus der reellen Zahl mit der Nummer n1 die erste Dezimalziffer nach dem Komma genommen und von 9 abgezogen; dadurch entsteht wieder eine Ziffer zwischen 0 und 9); es ist 9 − d n1 , −1 ≠ d n1 , −1 . Die zweite Dezimalziffer von r nach dem Komma lautet 9 − d n2 , −2 (es wird aus der reellen Zahl mit der Nummer n2 die zweite Dezimalziffer nach dem Komma genommen und von 9 abgezogen); es ist 9 − d n2 , −2 ≠ d n2 , −2 . Allgemein: die j-te Dezimalziffer von r nach dem Komma lautet 9 − d n j , − j ; es ist 9 − d n j , − j ≠ d n j , − j . Da r eine reelle Zahl mit 0 ≤ r ≤ 1 ist und hR als bijektiv angenommen wurde, gibt es einen Wert nk ∈ N mit hR (nk ) = r ( r ist die reelle Zahl mit der Nummer nk ): r = 0, d nk , −1d nk , −2 d nk , −3 ... d nk , − k ... Die k-te Dezimalziffer von r nach dem Komma ist d nk , − k . Nach Konstruktion von r lautet die k-te Dezimalziffer von r nach dem Komma jedoch 9 − d nk , − k , und es ist 9 − d nk , − k ≠ d nk , − k . Daher kann es keinen Wert nk ∈ N mit hR (nk ) = r geben, und die Annahme der Existenz einer bijektiven Abbildung hR : N → R ist falsch. 3 Ausgewählte Themen der elementaren Zahlentheorie In diesem Kapitel werden einige für die Informatik grundlegende und wichtige Themen der elementaren Zahlentheorie behandelt. Neben der Tatsache, dass sie zum mathematischen Basiswissen in jeder Disziplin gehören, haben diese Themen in den letzten Jahren insbesondere in der Kryptologie zunehmende Bedeutung erlangt. 3.1 Primzahlen Es seien a ∈ Z und b ∈ Z ganze Zahlen mit b ≠ 0 . Die Zahl a heißt durch b teilbar (b teilt a), geschrieben b | a , wenn es ein d ∈ Z gibt mit a = d ⋅ b . Der folgende Satz führt einige wichtige Teilbarkeitsregeln ganzer Zahlen auf und lässt sich durch Zurückführen auf obige Definition leicht verifizieren: Satz 3.1-1: (i) Gilt c | b und b | a , so gilt auch c | a . (ii) Gilt b1 | a1 und b2 | a2 , so gilt auch b1b2 | a1a2 . (iii) Gilt b | a1 und b | a2 , so gilt für jedes x ∈ Z und für jedes y ∈ Z : b | ( xa1 + ya2 ) . (iv) Gilt b | a und a | b , so ist a = b oder a = −b . Bemerkung: Da trivialerweise immer a | a gilt, definiert wegen Satz 3.1-1 (i) und (iv) die durch „ (n, m ) ∈ R genau dann, wenn n | m gilt“ definierte Relation eine partielle Ordnungsrelation (siehe Kapitel 1.4) auf N×N . Eine wichtige Teilmenge der natürlichen Zahlen ist die Menge P der Primzahlen: 62 P= 3 Ausgewählte Themen der elementaren Zahlentheorie { p p ∈ N, p ≥ 2, und die einzigen Teiler von p sind 1 und p } = { 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, ... }. Der folgende Satz zeigt, dass die Primzahlen als Grundbausteine der natürlichen Zahlen und damit des gesamten Zahlensystems angesehen werden können. Satz 3.1-2: Jedes n ∈ N lässt sich in ein Produkt aus Primzahlpotenzen zerlegen, d.h. n= p1e1 ⋅ p 2e2 ⋅...⋅ p rer mit Primzahlen p1 , p 2 , ..., p r und natürlichen Zahlen e1 ≥ 1 , e2 ≥ 1 , ..., er ≥ 1 . Diese Zerlegung ist (bis auf die Reihenfolge der Primzahlpotenzen) eindeutig. Beispielsweise ist 600 = 23 . 3 . 52. Der folgende Satz fasst einige wichtige Eigenschaften von Primzahlen zusammen: Satz 3.1-3: (i) Es gibt unendlich viele Primzahlen. (ii) Es gibt beliebig große Abstände zwischen zwei aufeinanderfolgenden Primzahlen. (iii) Es gibt unendlich viele Paare ( p, p + 2 ) , die beide Primzahlen sind (Primzahl- zwillinge) (iv) Ist 2 n + 1 eine Primzahl, so ist n eine Zweierpotenz. (v) Ist 2 n − 1 eine Primzahl, so ist n eine Primzahl. In der Praxis der Kryptographie werden ständig große Primzahlen benötigt (mit einer Stellenzahl von mehr als 150 Dezimalstellen). Dabei sind neben Primzahlen, deren Ziffernfolgen keinen festen Gesetzmäßigkeiten unterliegen, Primzahlen der Form 2 n + 1 und 2 n − 1 besonders interessant. Diese haben nämlich eine sehr einfache Binärdarstellung ( 2 n + 1 = 1 0{ ...0 1 , ( n−1)−mal 3.1 Primzahlen 63 2 n − 1 = 1{ ...1 ). Wegen Satz 3.1-3 (iv) kann man die Suche nach sehr großen Primzahlen der n− mal Form 2 n + 1 auf diejenigen n beschränken, die die Form n = 2 m haben, d.h. auf Zahlen der Form 2 n + 1 = 2 2 + 1 . Zahlen der Form 2 2 + 1 heißen Fermat-Zahlen. Beispielsweise sind die Fermat-Zahlen m 0 1 m 2 3 4 2 2 + 1 = 3 , 2 2 + 1 = 5 , 2 2 + 1 = 17 , 2 2 + 1 = 257 , 2 2 + 1 = 65.537 Primzahlen. Nicht jede Fermat-Zahl ist jedoch eine Primzahl, wie das Beispiel 5 2 2 + 1 = 641 ⋅ 6 700 417 zeigt. Satz 3.1-1(v) sagt nicht, dass jede Zahl der Form 2 p − 1 mit einer Primzahl p selbst Primzahl ist. Die Zahlen der Form 2 p − 1 mit einer Primzahl p heißen Mersenne-Zahlen. Nicht jede Mersenne-Zahl ist Primzahl. Beispielsweise sind die Zahlen 2 2 − 1 = 3 , 23 − 1 = 7 , 25 − 1 = 31 , 27 − 1 = 127 , 213 − 1 = 8191 Primzahlen, nicht aber 211 − 1 = 2047 = 23 ⋅ 89 . Die bisher bekannten größten Primzahlen sind Mersenne-Zahlen (1998 stand der Rekord bei 2 3.021.377 − 1 , 2001 bei 213.466.917 − 1 , eine Zahl mit 4.053.946 Dezimalstellen, und im Februar 2005 bei 2 25.964.951 − 1 , eine Zahl mit 7.816.230 Dezimalstellen). Einer der wichtigsten Sätze der Zahlentheorie beschreibt die Anzahl der Primzahlen unterhalb einer vorgegebenen Grenze x: Es sei π ( x ) die Anzahl der Primzahlen, die ≤ x sind, d.h. π ( x ) = ∑ 1 . p∈P p≤ x Mit pn werde die n-te Primzahl bezeichnet: p1 = 2 , p 2 = 3 , p3 = 5 , ... 64 3 Ausgewählte Themen der elementaren Zahlentheorie Satz 3.1-4: π ( x ) ⋅ ln( x ) = 1 , d.h. π ( x ) ~ x (für große x). ln( x ) (i) Es gilt lim (ii) x < ln( x ) − 1 . Für x ≥ 67 ist ln( x ) − 3 < 2 π ( x) 2 x →∞ x ( (iii) Für n ≥ 20 ist n ⋅ ln(n ) + ln(ln(n )) − 3 2 )< p n ( ) < n ⋅ ln(n ) + ln(ln(n )) − 1 . 2 Auf der Grundlage dieser Sätze lässt sich ein sehr effizientes Verfahren zur Erzeugung von (großen) Zahlen angeben, die mit beliebig großer Wahrscheinlichkeit Primzahlen sind. Dabei wird in Kauf genommen, dass das Verfahren eine Zahl eventuell als Primzahl einstuft, die keine Primzahl ist. Die Fehlerwahrscheinlichkeit dieser falschen Entscheidung kann jedoch auf einfache Weise beliebig klein gehalten werden. Man spricht hier von einem probabilistischen Verfahren (nach dem Monte-Carlo-Prinzip). 3.2 Modulare Artihmetik Es sei n ∈ N eine natürliche Zahl mit n ≥ 1 . Auf den ganzen Zahlen Z wird durch die folgende Festlegung eine Relation ≡ definiert: Die Zahlen a ∈ Z und b ∈ Z heißen kongruent modulo n, geschrieben a ≡ b (mod n ) genau dann, wenn gilt: die Zahl n teilt a − b . Anders ausgedrückt: a ≡ b (mod n ) gilt genau dann, wenn es ein k ∈ Z mit a − b = k ⋅ n gibt. Beispielsweise gilt 21 ≡ 0 (mod 7) , 22 ≡ 1 (mod 7) , 26 ≡ 5 (mod 7) , 27 ≡ 6 (mod 7) , 28 ≡ 0 (mod 7) , 28 ≡ 21 (mod 7) , 29 ≡ 1 (mod 7) , 29 ≡ 22 (mod 7) . 23 ≡ 2 (mod 7) , 24 ≡ 3 (mod 7) , 25 ≡ 4 (mod 7) , 3.2 Modulare Artihmetik 65 Satz 3.2-1: Es sei n ∈ N eine natürliche Zahl mit n ≥ 1 . Die Relation ≡ ist eine Äquivalenzrelation auf den ganzen Zahlen Z, d.h. es gilt: (i) a ≡ a (mod n ) für jedes a ∈ Z (ii) Aus a ≡ b (mod n ) folgt b ≡ a (mod n ) (iii) Aus a ≡ b (mod n ) und b ≡ c (mod n ) folgt a ≡ c (mod n ) . Für a ∈ Z bezeichnet [a ]n = { b b ∈ Z und a ≡ b (mod n ) } die zu a gehörende Restklasse (mod n). Beispielsweise ist [3]7 = { 3, 10, 17, 24, 31, ... }∪ { − 4, − 11, − 18, − 25, ... } = { m es gibt k ∈ Z mit m = k ⋅ 7 + 3 }. Allgemein ist für a ∈ Z [a]n = { b b ∈ Z und a ≡ b (mod n ) } = { b es gibt k ∈ Z mit m = k ⋅ n + a }. Satz 3.2-2: Es sei n ∈ N eine natürliche Zahl mit n ≥ 1 . Dann gilt: (i) Es gilt a ≡ b ( mod n ) genau dann, wenn [a ]n = [b]n ist. (ii) Jeweils zwei Restklassen [a ]n und [b]n sind entweder gleich oder disjunkt. (iii) Es gibt genau n disjunkte Restklassen modulo n, nämlich [0]n , [1]n , [2]n , ..., n −1 [n − 1]n , und es gilt U [a ]n = Z . a =0 66 3 Ausgewählte Themen der elementaren Zahlentheorie Jede Restklasse [a ]n besteht aus unendlich vielen Elementen, nämlich aus allen Elementen der Form k ⋅ n + a mit k ∈ Z . Für ein festes k ∈ Z sind (wegen Satz 3.2-2 (i)) die Restklassen [a ]n und [k ⋅ n + a]n gleich, d.h. jede Zahl der Form (k ⋅ n + a ) ∈ [a]n repräsentiert die Restklasse [a ]n . Man kann daher in jeder Restklasse [a ]n eine Zahl a′ mit folgenden Eigenschaften (i) und (ii) finden: (i) (ii) 0 ≤ a′ < n a′ ≡ a (mod n ) , d.h. [a′]n = [a ]n . Für positives a ∈ Z erhält man dieses Element a′ beispielsweise dadurch, dass man von a so lange den Wert n abzieht, bis die Bedingung 0 ≤ a′ < n erfüllt ist. Für negatives a ∈ Z wird der Wert n sukzessive addiert. Dieser kleinste Wert a′ mit 0 ≤ a′ < n heißt Rest bei der ganzzahligen Division von a durch n und wird mit a mod n bezeichnet. Beispielsweise ist wegen 3 = 45 − 7 − 7 − 7 − 7 − 7 − 7 : 45 mod 7 = 3 und [45]7 = [3]7 und 5 = −16 + 7 + 7 + 7 : − 16 mod 7 = 5 und [− 16]7 = [5]7 . Es gilt also: 0 ≤ (a mod n ) ≤ n − 1 und [(a mod n )]n = [a ]n . Für positives a ∈ Z ist nach Konstruktion (a mod n ) = a − ⎣a n ⎦ ⋅ n ; für negatives a ∈ Z ist (a mod n ) = a + ⎣a n ⎦ ⋅ n . Beispiele: (21 mod 7 ) = 0 , (28 mod 7 ) = 0 , (22 mod 7 ) = 1 , (29 mod 7 ) = 1 , (27 mod 7 ) = 6 , (6 mod 7 ) = 6 , (− 1 mod 7 ) = 6 . 3.2 Modulare Artihmetik 67 Für zwei Restklassen [a ]n und [b]n gilt: Sind a1 ∈ [a ]n und a 2 ∈ [a ]n bzw. b1 ∈ [b]n und b2 ∈ [b]n , dann ist a1 + b1 ≡ a 2 + b2 ≡ a + b (mod n ) , d.h. [a1 + b1 ]n = [a 2 + b2 ]n = [a + b]n . Entsprechend gilt a1 ⋅ b1 ≡ a 2 ⋅ b2 ≡ a ⋅ b (mod n ) . Daher kann man auf eindeutige Weise arithmetische Operationen auf den Restklassen (modulo n) definieren: [a ]n + n [b]n = [a + b]n und [a ]n ⋅n [b]n = [a ⋅ b]n . Man nimmt also aus jeder Restklasse [a ]n bzw. [b]n ein beliebiges Element a1 ∈ [a ]n bzw. b1 ∈ [b]n und bildet [a1 + b1 ]n = [a + b]n . Entsprechendes gilt für die Multiplikation. Insbeson- dere folgt hieraus: Satz 3.2-3: (i) (a mod n ) + (b mod n ) ≡ (a + b ) mod n , [a ]n + n [b]n = [(a + b) mod n]n . (ii) (a mod n ) ⋅ (b mod n ) ≡ (a ⋅ b ) mod n , [a ]n ⋅n [b]n = [(a ⋅ b) mod n]n . (iii) b ⋅ (a mod n ) ≡ (a ⋅ b ) mod n . Beispiele: [3]7 + 7 [6]7 = [(3 + 6) mod 7]7 = [2]7 , [3]7 ⋅7 [5]7 = [(3 ⋅ 5) mod 7]7 = [1]7 , [3]7 ⋅12 [4]12 = [(3 ⋅ 4) mod 12]12 = [0]12 . {[0]n , [1]n , ..., [n − 1]n } bezeichnet. Häufig findet man auch die BenZ = { 0, 1, ..., n − 1 } und meint damit die Restklassen modulo n. Zusammen mit Mit Z nZ wird die Menge zeichnung Z den oben definierten artihmetischen Operationen auf Restklassen weist die endliche Menge Z nZ sehr ähnliche Eigenschaften zu der unendlichen Menge Z auf: 68 3 Ausgewählte Themen der elementaren Zahlentheorie Satz 3.2-4: (Z nZ , + n , ⋅n ) bildet einen kommutativen Ring mit 1. Das neutrale Element der Addition ist [0]n = { a | a = k ⋅ n mit k ∈ Z } , das neutrale Element der Multiplikation ist [1]n = { a | a = k ⋅ n + 1 mit k ∈ Z }. Das bezüglich der Addition + n inverse Element zur Restklasse [a ]n ist die Restklasse − [a ]n = [− a ]n = [n − a ]n . Eine Restklasse [a ]n besitzt bezüglich der Multiplikation ⋅n genau dann ein inverses Element [a ]n , wenn ggT ( a, n ) = 1 ist (zur Definition von ggT (a, n) und zur Bestim−1 mung der inversen Restklasse in diesem Fall siehe Kapitel 3.3). Beispiele: Die Additions- und Multiplikationstabellen von (Z 7Z , + 7 , ⋅7 ) = ({ [0]7 , [1]7 , [2]7 , [3]7 , [4]7 , [5]7 , [6]7 }, + 7 , ⋅7 ) lauten (statt [a ]7 wird zur Vereinfachung a geschrieben): +7 0 1 2 3 4 5 6 ⋅7 1 2 3 4 5 6 0 1 2 3 4 5 6 0 1 2 3 4 5 6 1 2 3 4 5 6 0 2 3 4 5 6 0 1 3 4 5 6 0 1 2 4 5 6 0 1 2 3 5 6 0 1 2 3 4 6 0 1 2 3 4 5 1 2 3 4 5 6 1 2 3 4 5 6 2 4 6 1 3 5 3 6 2 5 1 4 4 1 5 2 6 3 5 3 1 6 4 2 6 5 4 3 2 1 In (Z 7Z , + 7 , ⋅7 ) ist das inverse Element bezüglich der Addition zum Element [3]7 das Ele- ment − [3]7 = [4]7 und das inverse Element bezüglich der Multiplikation zum Element [3]7 das Element [3]7 = [5]7 . −1 Die Additions- und Multiplikationstabellen von (Z 12Z , +12 , ⋅12 ) lauten (statt [a ]12 wird zur Vereinfachung wieder a geschrieben): 3.3 Der Euklidische Algorithmus +12 0 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11 0 2 3 4 5 6 7 8 9 10 11 0 1 3 4 5 6 7 8 9 10 11 0 1 2 4 5 6 7 8 9 10 11 0 1 2 3 5 6 7 8 9 10 11 0 1 2 3 4 6 7 8 9 10 11 0 1 2 3 4 5 7 8 9 10 11 0 1 2 3 4 5 6 8 9 10 11 0 1 2 3 4 5 6 7 9 10 11 0 1 2 3 4 5 6 7 8 10 11 0 1 2 3 4 5 6 7 8 9 11 0 1 2 3 4 5 6 7 8 9 10 ⋅12 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11 1 2 2 4 3 6 4 8 5 10 6 0 7 2 8 4 9 6 10 8 11 10 3 6 9 0 3 6 9 0 3 6 9 4 8 0 4 8 0 4 8 0 4 8 5 10 3 8 1 6 11 4 9 2 7 6 0 6 0 6 0 6 0 6 0 6 7 2 9 4 11 6 1 8 3 10 5 8 4 0 8 4 0 8 4 0 8 4 9 6 3 0 9 6 3 0 9 6 3 10 11 8 10 6 9 4 8 2 7 0 6 10 5 8 4 6 3 4 2 2 1 1 2 3 4 5 6 7 8 9 69 10 11 In (Z 12Z , +12 , ⋅12 ) hat das Element [3]12 wegen [3]7 ⋅12 [4]12 = [(3 ⋅ 4) mod 12]12 = [0]12 kein inverses Element bezüglich der Multiplikation. 3.3 Der Euklidische Algorithmus Es seien a ∈ Z und b ∈ Z . Besitzt d ∈ Z die Eigenschaften d | a und d | b , dann heißt d gemeinsamer Teiler von a und b. Besitzt jeder gemeinsame Teiler c von a und b die Eigenschaft c | d , dann heißt d größter gemeinsamer Teiler von a und b und wird mit ggT ( a, b) bezeichnet. 70 3 Ausgewählte Themen der elementaren Zahlentheorie Zur Bestimmung des größten gemeinsamen Teilers zweier Zahlen a ∈ Z und b ∈ Z könnte man diese gemäß Satz 3.1-2 in ihre Primfaktoren zerlegen und alle gemeinsamen Primfaktoren in ihrer gemeinsamen Vielfachheit herausziehen. Beispielsweise ist 792 = 23 ⋅ 32 ⋅11 und 84 = 2 2 ⋅ 3 ⋅ 7 , d.h. ggT (792,84) = 2 2 ⋅ 3 = 12 . Dieses Verfahren (Schulmethode) ist höchstens für kleine Zahlen praktisch einsetzbar; denn für große Zahlen (in der Praxis mit mehr als 100 Dezimalstellen) stößt man auf Effizienzgrenzen. Als äußerst effizient zur Bestimmung des größten gemeinsamen Teilers zweier ganzer Zahlen hat sich der Euklidische Algorithmus erwiesen (Euklid, um 325 v. Chr.). Dieses Verfahren geht läuft folgendermaßen ab: Für die beiden Zahlen a ∈ Z und b ∈ Z kann a ≥ b angenommen werden. Da es bei der Bestimmung von Teilern nicht auf das Vorzeichen ankommt, kann weiterhin b > 0 angenommen werden, so dass insgesamt a ≥ b > 0 ist. Es werden ganze Zahlen m1 und r1 bestimmt mit a = m1 ⋅ b + r1 und 0 ≤ r1 < b . Durch die Festlegung 0 ≤ r1 < b sind m1 und r1 eindeutig bestimmt: r1 = a mod b und ⎣ b ⎦ . Für r = 0 endet das Verfahren hier, und es ist ggT (a, b) = b . Ansonsten werden m1 = a 1 ganze Zahlen m2 und r2 bestimmt mit b = m2 ⋅ r1 + r2 und 0 ≤ r2 < r1 . Man sieht, dass b die Rolle von a und r1 die Rolle von b übernimmt. Wieder sind durch die Festlegung 0 ≤ r2 < r1 die Werte m2 und r2 eindeutig bestimmt. Für r2 = 0 endet das Verfahren hier, und es ist ggT (a, b) = r1 (das muss man natürlich mathematisch beweisen). Ansonsten werden ganze Zahlen m3 und r3 bestimmt mit r1 = m3 ⋅ r2 + r3 und 0 ≤ r3 < r2 . Man sieht, dass r1 die Rolle von b und r2 die Rolle von r1 übernimmt. Das Verfahren wird so lange fortgesetzt, bis zum ersten Mal der Rest rn = 0 entsteht. Insgesamt lassen sich die einzelnen Schritte wie folgt zusammenfassen: 3.3 Der Euklidische Algorithmus Man bestimmt ganze Zahlen m1 und r1 mit a = m1 ⋅ b + r1 und 0 < r1 < b . Man bestimmt ganze Zahlen m2 und r2 mit b = m2 ⋅ r1 + r2 und 0 < r2 < r1 . Man bestimmt ganze Zahlen m3 und r3 mit r1 = m3 ⋅ r2 + r3 und 0 < r3 < r2 . usw. Man bestimmt ganze Zahlen mn und rn mit rn−2 = mn ⋅ rn−1 + rn und 0 < rn < rn−1 . Fortsetzung des Verfahrens, bis rn−1 = mn+1 ⋅ rn + 0 gilt. 71 Es gilt b > r1 > r2 > ... > rn−1 > rn > 0 , d.h. die Reste r1 , r2 , ..., rn werden immer kleiner, so dass das Verfahren abbricht. Satz 3.3-1: Das beschriebene Verfahren bestimmt den größten gemeinsamen Teiler zweier ganzer Zahlen a ∈ Z und b ∈ Z mit b ≠ 0 , und zwar gilt ggT (a, b) = rn , d.h. der größte gemeinsame Teiler von a und b ist der letzte von 0 verschiedene Rest. Die folgende PASCAL-Funktion ggT ist eine Implementierung des Verfahrens; sie bestimmt den größten gemeinsamen Teiler der als Parameter übergebenen ganzen Zahlen a und b. Die Anzahl der von ihm ausgeführten arithmetischen Operationen ist proportional zur Länge der Zahlendarstellung von a und b. 72 3 Ausgewählte Themen der elementaren Zahlentheorie FUNCTION ggT (a : INTEGER; b : INTEGER) : INTEGER; VAR r s t m : : : : INTEGER; INTEGER; INTEGER; INTEGER; BEGIN { ggT } r := b; s := a; WHILE r <> 0 DO BEGIN { t und s aus der vorherigen Iteration neu besetzen } t := s; s := r; { bilde t = m * s + r } m := t DIV s; r := t - m*s END; { der größte gemeinsame Teiler ist der letzte von 0 verschiedene Rest } ggT := s END { ggT }; Beispiele: a: 28 b: 15 t = m * 28 15 13 2 = = = = 1 1 6 2 ggT ( 28, a: 198 b: 84 s + * * * * 15 13 2 1 r + + + + 13 2 1 0 15 ) = 1 t = 198 84 30 24 = = = = a: 84 b: 198 m * 2 2 1 4 ggT (198, s + * * * * 84 30 24 6 r + + + + 30 24 6 0 84 ) = 6 Das obige Zahlenschema (eine typische Zeile i ist hinzugefügt) a = m1 ⋅ b + r1 und 0 < r1 < b , Zeile 1 b = m2 ⋅ r1 + r2 und 0 < r2 < r1 , Zeile 2 r1 = m3 ⋅ r2 + r3 und 0 < r3 < r2 , Zeile 3 t = s + r * 198 + * 84 + * 30 + * 24 + * 6 + 84 30 24 6 0 ggT ( 84, 198 ) = 6 84 198 84 30 24 = = = = = m * 0 2 2 1 4 73 3.3 Der Euklidische Algorithmus ... ri−2 = mi ⋅ ri−1 + ri und 0 < ri < ri−1 , Zeile i ... rn−2 = mn ⋅ rn−1 + rn und 0 < rn < rn−1 , Zeile n rn−1 = mn+1 ⋅ rn + 0 , Zeile n + 1 ggT (a, b) = rn mit r1 = a mod b ergibt unmittelbar den Satz 3.3-2: Für zwei Zahlen a ∈ Z und b ∈ Z ist ggT (a, b) = ⎧⎨ a für b = 0 ⎩ ggT (b, a mod b) für b ≠ 0 . Löst man in dem Zahlenschema die Zeilen i für i = 1, ..., n nach ri auf, so lassen sich ganze Zahlen a1 , ..., an und b1 , ..., bn definieren, für die gilt: Zeile 1: r1 = a − m1 ⋅ b = 1 ⋅ a + (− m1 ) ⋅ b = a1 ⋅ a + b1 ⋅ b Zeile 2: mit a1 = 1 , b1 = − m1 . r2 = b − m2 ⋅ r1 = b − m2 ⋅ (a − m1 ⋅ b ) = − m2 ⋅ a + (1 + m1 ⋅ m2 ) ⋅ b = a2 ⋅ a + b2 ⋅ b mit a2 = − m2 , b2 = 1 + m1 ⋅ m2 . Angenommen, in allen Zeilen l = 1, ..., i − 1 ließe sich der jeweilige Rest rl in der Form rl = al ⋅ a + bl ⋅ b schreiben. Dann geht das auch in Zeile i: Zeile i: ri = ri−2 − mi ⋅ ri−1 = ai−2 ⋅ a + bi−2 ⋅ b − mi ⋅ (ai−1 ⋅ a + bi−1 ⋅ b ) = (ai−2 − mi ⋅ ai−1 ) ⋅ a + (bi−2 − mi ⋅ bi−1 ) ⋅ b = ai ⋅ a + bi ⋅ b Insbesondere mit ai = ai−2 − mi ⋅ ai−1 , bi = bi−2 − mi ⋅ bi−1 . 74 Zeile n: 3 Ausgewählte Themen der elementaren Zahlentheorie ggT (a, b) = rn = an ⋅ a + bn ⋅ b . Die Folgen a1 , ..., an und b1 , ..., bn werden also rekursiv definiert durch: a−1 = 1 , a0 = 0 , ai = ai−2 − mi ⋅ ai−1 für i = 1, ..., n b−1 = 0 , b0 = 1 , bi = bi−2 − mi ⋅ bi−1 für i = 1, ..., n . Die Berechnung dieser beiden Folgen kann in den Euklidischen Algorithmus direkt eingebaut werden. Die PASCAL-Funktion ggt wird erweitert zur Funktion invers (die Wahl des Prozedurbezeichners ergibt sich aus den anschließenden Bemerkungen zu Satz 3.3-5). 3.3 Der Euklidische Algorithmus PROCEDURE invers (a : VAR VAR VAR LONGINT; b : LONGINT; a_inv : LONGINT; b_inv : LONGINT; ggt : LONGINT); { die Funktion berechnet zu a und b ganze Zahlen a_inv und b_inv mit a*a_inv + b*b_inv = ggT(a, b) } VAR r s t m a_min_2 a_min_1 b_min_2 b_min_1 store BEGIN r s a_min_2 a_min_1 b_min_2 b_min_1 := := := := := := : : : : : : : : : LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; b; a; 1; 0; 0; 1; WHILE r <> 0 DO BEGIN { t und s aus der vorigen Iteration neu besetzen } t := s; s := r; { bilde t = m * s + r } m := t DIV s; r := t - m*s; store a_min_2 a_min_1 store b_min_2 b_min_1 END; := := := := := := a_min_2; a_min_1; store - m * a_min_1; b_min_2; b_min_1; store - m * b_min_1 { der ggT (a, m) ist der letzte von 0 verschiedene Rest, d. h. der gegenwärtige Wert von s } ggT := s; a_inv := a_min_2; b_inv := b_min_2 END { invers }; 75 76 3 Ausgewählte Themen der elementaren Zahlentheorie Satz 3.3-3: Zu zwei Zahlen a ∈ Z und b ∈ Z gibt es eindeutig bestimmte Zahlen a ′ ∈ Z und b′ ∈ Z mit a ⋅ a ′ + b ⋅ b′ = ggT ( a, b) . Die Zahlen a ′ und b′ lassen sich mit der PASCAL-Funktion invers, einer Erweiterung des Euklidischen Algorithmus, bestimmen. Der folgende Satz stellt einige wichtige Eigenschaften des ggT zusammen: Satz 3.3-4: (i) Es sei d = ggT ( a, b) . Dann gibt es Zahlen a1 ∈ Z und b1 ∈ Z mit a = d ⋅ a1 und b = d ⋅ b1 und ggT ( a1 , b1 ) = 1 . (ii) Es gilt ggT ( a, b) = 1 genau dann, wenn es Zahlen x ∈ Z und y ∈ Z gibt mit a ⋅ x + b ⋅ y = 1. (iii) Es sei ggT ( a, b) = 1 . Falls a das Produkt b ⋅ c teilt, dann teilt a die Zahl c. (iv) Es sei ggT ( a, b) = 1 . Falls a die Zahl c teilt und b die Zahl c teilt, dann teilt a ⋅ b die Zahl c. In vielen Anwendungen spielen lineare Kongruenzen eine wichtige Rolle. Dabei handelt es sich um Gleichungen der Form a ⋅ x ≡ b (mod n ) , wobei a und b vorgegebene ganze Zahlen sind und n > 1 eine natürliche Zahl ist. Gesucht wird nach einer ganzzahligen Lösung x. Die folgenden Sätze sagen aus, wann eine lineare Kongruenz lösbar ist. In diesem Fall lassen sich die Lösungen mit Hilfe der angegebenen Prozedur invers, d.h. im wesentlichen mit Hilfe des Euklidischen Algorithmus bestimmen. 3.3 Der Euklidische Algorithmus 77 Satz 3.3-5: Es sei ggT ( a, n ) = 1 . Dann hat die lineare Kongruenz a ⋅ x ≡ b (mod n) eine Lösung. Alle Lösungen sind kongruent modulo n. Man sagt daher, dass die lineare Kongruenz a ⋅ x ≡ b (mod n ) in diesem Fall genau eine Lösung modulo n besitzt. Nach Satz 3.3-3 lassen sich zu a und n mit der Prozedur invers Zahlen a ′ und n ′ finden, für die a ⋅ a ′ + n ⋅ n ′ = ggT ( a, n ) = 1 gilt. Die gesuchte Lösung lautet dann x = a ′ ⋅ b (mod n ) . Diese Lösung ist modulo n eindeutig. In Satz 3.2-4 wird behauptet, dass eine Restklasse [a ]n genau dann ein bezüglich der Multiplikation ⋅n inverses Element [a ]n besitzt, wenn ggT ( a, n ) = 1 gilt. Dazu bestimmt man wie −1 oben die Zahlen a ′ und n ′ mit a ⋅ a ′ + n ⋅ n ′ = ggT ( a, n ) = 1 . Wegen a ⋅ a′ ≡ 1 (mod n) gilt [a ⋅ a′]n = [a]n ⋅n [a′]n = [1]n . Daher kann man [a ]n−1 = [a′]n = [a′ mod n]n setzen. Eine Verallgemeinerung von Satz 3.3-5 ist der folgende Satz. Satz 3.3-6: Es sei ggT ( a, n ) = d . Dann hat die lineare Kongruenz a ⋅ x ≡ b (mod n ) genau dann Lösungen, wenn d ein Teiler von b ist. Ist d ein Teiler von b, so gilt b = d ⋅ b1 mit einer ganzen Zahl b1 . Alle Lösungen der linearen Kongruenz a ⋅ x ≡ b (mod n ) erhält man folgendermaßen: Nach Satz 3.3-4 (i) gibt es Zahlen a1 ∈ Z und n1 ∈ Z mit a = d ⋅ a1 und n = d ⋅ n1 und ggT ( a1 , n1 ) = 1 . Nach Satz 3.3-5 wird die modulo n1 eindeutige Lösung y der linearen Kon- gruenz a1 ⋅ y ≡ b1 (mod n1 ) bestimmt. Alle Lösungen (es sind genau d viele) der linearen Kongruenz a ⋅ x ≡ b (mod n ) lauten dann: y, y + n1 , y + 2 ⋅ n1 , ..., y + (d − 1) ⋅ n1 . 78 3.4 3 Ausgewählte Themen der elementaren Zahlentheorie Weitere ausgewählte Ergebnisse der elementaren Zahlentheorie Die Eulersche φ -Funktion (phi-Funktion) wird für jede natürliche Zahl n ≥ 1 definiert durch die Anzahl der natürlichen Zahlen a zwischen 1 und n (einschließlich) mit ggT ( a, n ) = 1 , d.h. ∑1. φ (n) = a 1≤ a ≤ n , ggT ( a ,n ) =1 Satz 3.4-1: (i) Ist p eine Primzahl, dann ist φ ( p ) = p − 1 . Gilt umgekehrt φ ( n ) = n − 1 , dann ist n eine Primzahl. (ii) Ist p eine Primzahl, dann ist φ ( p k ) = p k − p k −1 . (iii) Für natürliche Zahlen n und m mit ggT ( n, m ) = 1 ist φ (n ⋅ m ) = φ ( n ) ⋅ φ ( m) . (iv) φ ( n ) = n ⋅ ∏ ⎛⎜⎝1 − 1 p ⎞⎟⎠ . p teilt n Der folgende Satz (Satz von Euler) ist wichtig für die Korrektheit des Public Key EncryptionVerfahrens RSA: Satz 3.4-2: Es seien a und n natürliche Zahlen mit ggT ( a, n ) = 1 . Dann ist a φ ( n ) ≡ 1 (mod n ) . 3.5 Anwendung in der Kryptologie 79 Der folgende Satz (Satz von Fermat) ist ein Spezialfall von Satz 3.4-2: Satz 3.4-3: Es sei a eine natürliche Zahl und p eine Primzahl mit ggT ( a, p ) = 1 . Dann ist (i) a p −1 ≡ 1 (mod p ) . (ii) Es sei a eine natürliche Zahl und n eine ungerade natürliche Zahl mit ggT ( a, n ) = 1 . Gilt nicht a n −1 ≡ 1 (mod n ) , dann ist n keine Primzahl. Mit Satz 3.3-5 wurde das zu einer Restklasse [a ]n bezüglich der Multiplikation ⋅n inverse Element [a ]n bestimmt, falls ggT ( a, n ) = 1 gilt. Nach Satz 3.4-2 gilt (bei ggT ( a, n ) = 1 ): −1 [ ] a ⋅ a φ ( n ) −1 = a φ ( n ) ≡ 1 (mod n ) . Daher ist [a ]n = a φ ( n )−1 n . Dieses Ergebnis führt (in Erweiterung −1 von Satz 3.3-5) auf Satz 3.4-4: Es sei ggT ( a, n ) = 1 . Dann hat die lineare Kongruenz a ⋅ x ≡ b (mod n ) genau eine Lö- [ ] sung modulo n, nämlich x = b ⋅ a φ ( n )−1 n , d.h. für alle Lösungen x der linearen Kongruenz a ⋅ x ≡ b (mod n ) gilt x ≡ b ⋅ a φ ( n ) −1 (mod n ) . 3.5 Anwendung in der Kryptologie Die folgende Abbildung zeigt das grundlegende Szenario, in dem kryptographische Verfahren zur Datenverschlüsselung und –entschlüsselung eingesetzt werden. Vertrauliche Daten werden von einem Sender A zu einem Empfänger B gesandt. Fragen der korrekten Datenübertragung sollen in diesem Zusammenhang ausgeklammert werden. Es soll lediglich garantiert werden, dass ein unberechtigter Dritter, der die Daten während der Übertragungsphase eventuell mithört, diese inhaltlich nicht interpretieren kann. Dieser „Angreifer“ auf das Übertragungssystem wird als Kryptoanalytiker bezeichnet; seine Tätigkeit heißt Kryptoanalyse. Zum Schutz werden die Daten vor ihrer Übertragung vom Sender verschlüsselt. Die unverschlüsselten Daten werden als Klartext bezeichnet, die verschlüsselten Daten als Schlüsseltext (Chiffretext). Der Schlüsseltext wird zum Empfänger gesendet und dort von diesem entschlüsselt, so dass er wieder den Klartext erhält. Zwischen Sender und Emp- 80 3 Ausgewählte Themen der elementaren Zahlentheorie fänger sind also Absprachen über das verwendete Verschlüsselungs- und Entschlüsselungsverfahren notwendig. Abbildung: Datenverschlüsselung und -entschlüsselung Die im folgenden beschriebenen Verfahren zur Verschlüsselung und Entschlüsselung von Daten zwischen einem Sender A und einem Empfänger B bestehen formal aus mehreren Teilen: 1. Mit dem Verschlüsselungsalgorithmus E (encryption, Verschlüsselung) verschlüsselt der Sender A Klartexte. Der Verschlüsselungsalgorithmus E hat zwei Eingabeparameter, nämlich einen Klartext x und einen Schlüssel (key) K AB , mit dem alle Klartexte, die von A nach B laufen, verschlüsselt werden. Für eine Kommunikationsbeziehung von A 3.5 Anwendung in der Kryptologie 81 an einen Empfänger C mit C ≠ B wird ein Schlüssel K AC ≠ K AB , aber derselbe Verschlüsselungsalgorithmus E verwendet. Der aus einem Klartext x entstehende Schlüsseltext ist y = E ( x, K AB ) . 2. Beim Empfänger B ankommende Schlüsseltexte werden von ihm mit Hilfe des Entschlüsselungsalgorithmus D (decryption, Entschlüsselung) entschlüsselt. Der Entschlüsselungsalgorithmus D hat ebenfalls zwei Eingabeparameter, nämlich einen Schlüsseltext y und einen Schlüssel K̂ AB , mit dem alle Nachrichten, die von A nach B laufen, entschlüsselt werden. Zwischen den Algorithmen E und D und den Schlüsseln K AB und K̂ AB besteht die Beziehung ( ) D E ( x, K AB ), Kˆ AB = x , d.h. der gesendete Klartext kann aus dem empfangenen Schlüsseltext bei korrekter Verwendung der Verfahren wieder gewonnen werden. Der Sender A muss den vom Empfänger B eingesetzten Schlüssel K̂ AB zum Entschlüsseln eines Schlüsseltextes nicht notwendigerweise kennen. 3. ( ) Das Schlüsselpaar K AB , Kˆ AB wird für die Ver- bzw. Entschlüsselung aller Klartexte verwendet, die von A nach B laufen. Für die umgekehrte Kommunikationsrichtung ist eventuell ein anderes Schlüsselpaar erforderlich ebenso für die Kommunikation zwischen anderen Teilnehmern. Einige grundlegende Anforderungen an ein kryptographisches Verfahren sind: (i) Die Berechnung von y = E ( x, K AB ) aus x und K AB (Verschlüsselung) muss vom Sender auf einfache Weise, d.h. mit geringem algorithmischen Aufwand, durchführbar sein. Außerdem sollte der Schlüsseltext y = E ( x, K AB ) nicht wesentlich länger als der zugehörige Klartext x sein. Natürlich wird dabei vorausgesetzt, dass der Sender über geeignete Rechenkapazität verfügt. (ii) Die Berechnung von x aus einer empfangenen Nachricht der Form y = E ( x, K AB ) mit Hilfe von K̂ AB (Entschlüsselung) muss vom Empfänger ebenfalls auf einfache Weise, d.h. mit geringem algorithmischen Aufwand, durchführbar sein. Auch hier wird vorausgesetzt, dass der Empfänger über geeignete Rechenkapazität verfügt. (iii) Ohne Kenntnis des Schlüssels K̂ AB zum Entschlüsseln ist es „unmöglich“, aus y = E ( x, K AB ) auf den Klartext x zu schließen. Systematisches Probieren aller Werte, 82 3 Ausgewählte Themen der elementaren Zahlentheorie die als eventuelle Schlüssel K̂ AB in Frage kommen, ist mit einem derart großen algorithmischen Aufwand verbunden, dass diese experimentelle Suche praktisch nicht durchführbar ist. (iv) Die Verschlüsselungs- bzw. Entschlüsselungsalgorithmen E bzw. D sollten nicht geheim gehalten werden. Abgesehen davon, dass eine Geheimhaltung wahrscheinlich nur temporär möglich ist, wird durch eine Offenlegung von E und D erreicht, dass die Verfahren mathematisch analysiert und eventuelle Schwachstellen aufgedeckt und behoben werden können. Zusätzlich lässt sich eine korrekte Implementierung der Verfahren verifizieren. Die Angriffe durch einen unbefugten Kryptoanalytiker auf ein Verschlüsselungsverfahren lassen sich in verschiedene Gruppen einteilen: • Der Kryptoanalytiker versucht, aus der Kenntnis von y = E ( x, K AB ) den Klartext x zu erhalten. Man nennt diesen Angriff Cipher-text-only-Attacke. Diese Form der Attacke ist die schwierigste, denn im Normalfall hat man wenig Informationen darüber, welchen Inhalt der Klartext x aufweist. Gleichzeitig ist sie aber auch diejenige, die in der Praxis am häufigsten vorkommt. Ein anderes Ziel eines Kryptoanalytikers bei einer Ciphertext-only-Attacke ist die Ermittlung des Schlüssels K̂ AB zum Entschlüsseln aus der Kenntnis einer oder mehrerer verschlüsselter Nachrichten. Damit können dann spätere verschlüsselte Texte entschlüsselt werden. • Der Kryptoanalytiker kennt eine von ihm nicht beeinflußte Auswahl von Klartexten x1 , ..., x n mit den zugehörigen Schlüsseltexten E ( x1 , K AB ) , ..., E ( x n , K AB ) und versucht ( ) daraus, das Schlüsselpaar K AB , Kˆ AB abzuleiten. Man nennt diesen Angriff Knownplaintext-Attacke. Eine derartige Attacke ist häufig dann möglich, wenn sich Nachrichten oder Teile davon wiederholen. Wenn Klartexte beispielsweise immer denselben Briefkopf oder dieselbe Anrede verwenden, sind zumindest Teile eines Klartextes bekannt. • Der Kryptoanalytiker kann selbst eine Auswahl von Klartexten x1 , ..., x n vorschlagen und sieht die zugehörigen Schlüsseltexte E ( x1 , K AB ) , ..., E ( x n , K AB ) . Er wählt die Klar- ( texte so, dass er daraus eventuell leicht auf das verwendete Schlüsselpaar K AB , Kˆ AB ) schließen kann. Man nennt diesen Angriff Chosen-plaintext-Attacke. Ein gutes kryptographisches Verfahren muss gegen Chosen-plaintext-Attacke resistent sein. • Der Kryptoanalytiker kennt das Verschlüsselungsverfahren E und das Entschlüsselungsverfahren D einschließlich des verwendeten Schlüssels K AB zum Verschlüsseln eines Klartextes (eine typische Situation der Public-Key-Encryption-Verfahren). Er ver- 3.5 Anwendung in der Kryptologie 83 fügt über viel Zeit und Rechnerleistung, um aus dieser Kenntnis den Schlüssel K̂ AB zu ermitteln. Bei einer Chosen-Plaintext-Attacke kann man versuchen, systematisch alle möglichen Schlüssel K̂ AB auszuprobieren (ein in der Praxis durchaus gängiger Ansatz). Dabei hofft man natürlich, schon nach wenigen Versuchen auf den richtigen Schlüssel zu stoßen. Eine derartige Attacke heißt Brute–Force–Attacke. Man muss sich jedoch darüber im klaren sein, dass die Anzahl auszuprobierender Schlüssel exponentiell wächst. Geht man davon aus, dass der Schlüssel K̂ AB eine Binärzahl der Länge n ist, so gibt es 2 n viele Kandidaten für K̂ AB . Um eine Vorstellung von der Größenordnung dieser Zahl zu bekommen, wird angenommen, dass die Erzeugung und das Ausprobieren eines einzigen Schlüssels nur 10 −9 Sekunden benötigt. Dann dauert eine Brute–Force–Attacke bei einer Schlüssellänge von 56 Bits (eine heute nicht mehr als sicher angesehene Schlüssellänge), d.h. das Durchprobieren sämtlicher 2 56 ≈ 7,20576 ⋅ 1016 verschiedener Schlüssel, insgesamt mehr als 8,34 Tage benötigt. Bei einer Schlüssellänge von 64 Bits braucht man dann bereits etwa 584 Jahre, um alle Schlüssel zu erzeugen. Nimmt man an, dass bei einer Schlüssellänge von 56 Bits alle Schlüssel in nur 1 Sekunde ausprobiert werden können, dann ergeben sich die folgenden Werte: Schlüssellänge n Anzahl an Schlüsseln Aufwand zur Erzeugung aller 2 n Schlüssel 56 Bits 7,20576 ⋅ 1016 1 Sekunde (angenommen) 64 Bits 1,84467 ⋅ 1019 4 Minuten 16 Sekunden 80 Bits 1,20893 ⋅ 10 24 194 Tage 112 Bits 5,19230 ⋅ 10 33 ≈ 2,285 ⋅ 10 9 Jahre 128 Bits 3,40282 ⋅ 10 38 ≈ 1,497 ⋅ 1014 Jahre 192 Bits 6,27710 ⋅ 10 57 ≈ 2,7623 ⋅ 10 33 Jahre 256 Bits 1,15792 ⋅ 10 77 ≈ 5,0956 ⋅ 10 52 Jahre Nimmt man an, dass die Erzeugung eines Schlüssels in einem Rechner die Zeit t benötigt, so beträgt der Aufwand zur Erzeugung aller Schlüssel der Länge n die Zeit t ⋅ 2 n . Die minimale Zeit für einen Schaltvorgang in einem Rechner beträgt aus physikalischen Gründen (u.a. weil sich Elektronen mit einer Geschwindigkeit bewegen, die die Lichtgeschwindigkeit nicht überschreitet) mindestens t m ≈ 5,6 ⋅10 −33 Sekunden. Setzt man für t diesen Wert ein, so beträgt die Dauer in einer Brute-Force-Attacke bei einer Schlüssellänge von 128 Bits allein zur Erzeugung aller 2128 Schlüssel immer noch mehr als 22 Tage. Das zeigt, dass eine Brute-ForceAttacke auf die Güte der Verschlüsselung nur unter massiver Parallelisierung sinnvoll ist, indem die Menge aller zu probierender Schlüssel auf eine Vielzahl gleichzeitig agierender Kryptoanalytiker aufgeteilt wird. 84 3 Ausgewählte Themen der elementaren Zahlentheorie Bei den symmetrischen Kryptologieverfahren werden für jede Kommunikationsbeziehung zwischen einem Sender A und einem Empfänger B zum Ver- und Entschlüsseln dieselben Schlüssel verwendet, d.h. es gilt K AB = Kˆ AB . Der Sender verwendet den Schlüssel, um die Nachricht zu verschlüsseln und der Empfänger, um diese zu entschlüsseln. Folglich muss sowohl der Sender als auch der Empfänger denselben Schlüssel K AB kennen und gegenüber Dritten, auch anderen Kommunikationsteilnehmern, geheimhalten. Aus diesem Grund bietet sich an, den Schlüssel K AB auch für die Kommunikationsrichtung von B nach A zu verwenden. Es gilt dann K AB = Kˆ AB = K BA = Kˆ BA . Bei den asymmetrischen Kryptologieverfahren werden verschiedene Schlüssel zum Verschlüsseln und Entschlüsseln der Nachrichten verwendet. Eine für die Praxis bedeutende Klasse asymmetrischer Verschlüsselungsverfahren bilden die öffentlichen Verschlüsselungsverfahren (PKE-Verfahren, public key encryption). Zunächst soll das allgemeine Prinzip eines PKE-Verfahrens am Nachrichtenaustausch zwischen einem Sender A und einem Empfänger B und weiteren Teilnehmern C erläutert werden. Jeder Kommunikationsteilnehmer B, der von anderen Kommunikationsteilnehmern verschlüsselte Nachrichten empfangen möchte, stellt einen Schlüssel c B in einem öffentlichen Register bereit, auf das alle Kommunikationsteilnehmer zugreifen können. Der Schlüssel c B („co- dieren“) dient allen Kommunikationsteilnehmern zur Verschlüsselung von Nachrichten, die an B gesendet werden. Zusätzlich besitzt jeder Empfänger B einen geheimen Schlüssel d B („decodieren“), mit dem er alle Nachrichten entschlüsselt, die an ihn gesandt wurden. Oben wurde der Schlüssel zum Verschlüsseln einer Nachricht von A nach B mit K AB bezeichnet. Um auszudrücken, dass alle Kommunikationsteilnehmer denselben Schlüssel für Nachrichten an B verwenden, wird er hier c B (anstelle von K AB bzw. K CB ) geschrieben. Entsprechend wird hier nicht die allgemeine Bezeichnung K̂ AB für den Schlüssel zum Entschlüsseln einer Nachricht verwendet, die B von einem Kommunikationsteilnehmer A empfangen hat, sondern d B , da B den Schlüssel d B zum Entschlüsseln aller Nachrichten an ihn, unabhängig vom Absender, verwendet. Das Eintragen des öffentlichen Schlüssels c B in das Register unterliegt keiner Geheimhaltung, da dieser Schlüssel ja sowieso öffentlich ist. Das Problem der Schlüsselverteilung wie bei symmetrischen Verfahren stellt sich hier nicht. Ein Klartext x, der von A nach B verschlüsselt gesandt werden soll, wird von A in den Schlüsseltext y = E ( x, c B ) transformiert. Eine von B empfangene verschlüsselte Nachricht y wird von B in D ( y , d B ) entschlüsselt. 3.5 Anwendung in der Kryptologie 85 Die folgende Abbildung zeigt drei Kommunikationsteilnehmer A, B und C mit den jeweiligen Schlüsseln. Abbildung: Verschlüsselung und Entschlüsselung mit asymmetrischen Verfahren Verschlüsselungs- und Entschlüsselungsverfahren müssen folgende Bedingungen erfüllen: (i) Ein Empfänger B kann eine empfangene verschlüsselte Nachricht mit seinem Schlüssel korrekt entschlüsseln, d.h. D (E ( x, c B ), d B ) = x . (ii) Die Verschlüsselung einer Nachricht, d.h. die Berechnung von E ( x, c B ) , und die Entschlüsselung einer Nachricht bei Kenntnis des Schlüssels d B , d.h. die Berechnung von D ( y , d B ) , sind mit geringem Rechenaufwand durchzuführen. (iii) Aus der Kenntnis eines öffentlichen Schlüssels c B zum Verschlüsseln der Nachrichten an einen Empfänger B kann man „nicht leicht“ auf den bei B geheim gehaltenen Schlüssel d B schließen. Die Forderung, eine Berechnung „nicht leicht“ durchführen zu können, wird mathematisch exakt durch den Begriff „intractable“ umschrieben, der ausdrückt, dass es zur Berechnung (beweisbar) keinen schnell ausführbaren Algorithmus gibt. 86 3 Ausgewählte Themen der elementaren Zahlentheorie (iv) Ohne d B zu kennen, kann ein Kryptoanalytiker aus einem Schlüsseltext E ( x, c B ) nicht leicht x ermitteln. Die Verschlüsselungsfunktion E (., .) stellt eine sogenannte Einweg- funktion mit Falltür dar. Erst wenn man die geheime Zusatzinformation d B (die Falltürinformation) kennt, kann man die zu E inverse Funktion leicht berechnen. (v) Zur Realisierung eines Unterschriftenprotokolls wird zusätzlich die Vertauschbarkeit der Verschlüsselung und Entschlüssellung gefordert. Neben der in (i) formulierten Bedingung D (E ( x, c B ), d B ) = x gilt auch E (D ( y , d B ), c B ) = y . In der Literatur sind eine Reihe von PKE-Verfahren veröffentlicht. Ihre Sicherheit ist mit Einschränkungen mathematisch beweisbar und hat sich in der Praxis bewährt; die Einschränkung bezieht sich auf eine bisher unbewiesene mathematische Vermutung bezüglich der Komplexität nichtdeterministischer Rechenverfahren (das sogenannte P-NP-Problem bzw. gewisser zahlentheoretischer Problemstellungen). Zur Beschreibung eines PKA-Verfahrens muss angegeben werden, wie ein Kommunikationsteilnehmer B seinen geheimen Schlüssel d B und seinen öffentlichen Schlüssel c B festlegt, und wie die Verschlüsselungs- bzw. Entschlüsselungsalgorithmen E (., .) bzw. D (., .) definiert sind. Das bekannteste PKE-Verfahren wird nach seinen Entdeckern Rivest, Shamir und Adleman RSA-Verfahren genannt2. Es bietet bei sorgfältiger Auswahl einiger im Verfahren frei wählbarer Parameter und entsprechender Implementierung eine sehr hohe Sicherheit. Es ist ein rein softwaremäßig implementiertes Verfahren. Dadurch ist seine Verschlüsselungs- bzw. Entschlüsselungsgeschwindigkeit etwa um den Faktor 1.000 langsamer als beispielsweise bei DES (gängiges symmetrisches Verfahren, das hardwaremäßig implementierbar ist). Es erfordert eine besondere Arithmetik natürlicher Zahlen mit sehr großen Stellenzahlen. Daher eignet es sich zur Verschlüsselung langer Nachrichten bzw. zur online-Verschlüsselung nur begrenzt. Ein „Hybrid“-Verfahren, das den Vorteil der Schnelligkeit von Tripel-DES bzw. IDEA beim Verschlüsseln und Entschlüsseln mit der Sicherheit von RSA verbinden, ist das seit 1991 über das Internet als Shareware verbreitete PGP-Verfahren (pretty good privacy), das sich besonders im E-Mail-Bereich bewährt hat. Im folgenden werden einige Details des RSA-Verfahrens beschrieben. Das Verfahren beruht auf mathematischen, insbesondere zahlentheoretischen Grundlagen, Erkenntnissen der Komplexitätstheorie und dem Einsatz sehr großer Zahlen (mehr als 300 Dezimalstellen). 2 Rivest, M.; Shamir, A.; Adleman, L.: A method for obtaining digital signatures and public-key cryptosystems, Comm. ACM, 21, S.120-126, 1978. 3.5 Anwendung in der Kryptologie 87 Im RSA-Verfahren wird die Modulo-Arithmetik für ganze Zahlen (im folgenden nur natürliche Zahlen, d.h. nicht-negative ganze Zahlen) eingesetzt. Neben Additionen und Multiplikationen wird auch die Exponentiation verwendet. Eine Zahlenpotenz a e mod n lässt sich durch wiederholte Multiplikation und sofortigem Übergang zum ganzzahligen Rest während des Rechenvorgangs berechnen: (((4 a e mod n ≡ (1 a ⋅ a mod n ) ⋅ a mod n ) ⋅ a mod n ) ⋅ ...) mod n 44444442444444443 e viele a 's Die Festlegung des öffentlichen Schlüssels c B für die Verschlüsselung von Klartexten an einen Empfänger B und des geheimen Schlüssels d B zum Entschlüsseln eines Schlüsseltextes beim Empfänger B verläuft im RSA-Verfahren wie folgt. 1. Es werden zwei verschiedene sehr große Primzahlen p und q ausgewählt, z.B. in der Größenordnung von 150 Dezimalstellen. Dann wird die Zahl n = p ⋅ q gebildet. Die Zahl n hat dann mindestens 300 Dezimalstellen, d.h. etwa 1.000 Binärstellen; in der Praxis wählt man p und q so, dass die Zahl n eine Binärstellenzahl von 1.024 aufweist. Zum Auffinden von Primzahlen in dieser Größenordnung und zum Testen auf Primzahleigenschaft kennt man schnelle Verfahren. 2. Für B wird eine Zufallszahl d > max{p, q} ausgewählt, die mit φ (n ) = ( p − 1) ⋅ (q − 1) keinen gemeinsamen Teiler ausser 1 besitzt. Der Wert d darf nicht zu klein sein, da er Teil des geheim gehalten Schlüssels zum Entschlüsseln ist und daher von einem Kryptoanalytiker nicht durch systematisches Probieren gefunden werden darf. 3. Mit Hilfe der Erweiterung des Euklidischen Algorithmus (Funktion invers) ermittelt man eine eindeutig bestimmte Zahl e und eine für das Verfahren nicht weiter verwendete Zahl f mit den Eigenschaften 0 < e < φ ( n ) und e ⋅ d + f ⋅ φ ( n ) = 1 . Da nach Konstruktion ggT (d , φ (n) ) = 1 gilt, findet man eine derartige Zahl e immer. Diese hat die Eigenschaft e ⋅ d ≡ 1 (mod φ (n)) bzw. (e ⋅ d mod φ (n) ) = 1 . 4. Der von B geheim gehaltene Schlüssel zum Entschlüsseln von Nachrichten, die an B gesendet werden, besteht aus der Zahlenfolge d B = [d , p, q, φ ( n )] . Zum Entschlüsseln wird nur d verwendet, es ist jedoch unbedingt erforderlich, die Werte p, q und φ ( n ) ebenfalls geheim zu halten, da ein Kryptoanalytiker aus der Kenntnis des öffentlichen 88 3 Ausgewählte Themen der elementaren Zahlentheorie benfalls geheim zu halten, da ein Kryptoanalytiker aus der Kenntnis des öffentlichen Schlüssels (siehe 5.) und aus der Kenntnis eines der Werte p, q oder φ ( n ) den geheimen Schlüsselteil d leicht ermitteln kann (siehe unten). Die Zahlenfolge d B = [d , p, q, φ ( n )] stellt die Falltürinformation dar. 5. Der in das öffentliche Register eingetragene Schlüssel zum Verschlüsseln aller Nachrichten an B ist die Zahlenfolge c B = [e, n ] . Die Vorschrift zur Verschlüsselung von Nachrichten an B lautet: Ein eventuell sehr lange Klartext x wird als Binärmuster aufgefasst und in Blöcke xi mit jeweils ⎣log 2 ( n )⎦ vielen Stellen aufgeteilt: x = x1 x 2 ... x r . Eventuell wird dabei der letzte Teilblock x r mit binären Nullen aufgefüllt. Jeder Teilblock xi kann als Binärzahl interpretiert werden, die einen Wert 0 ≤ xi < 2 log2 ( n ) = n hat. Der Klartext x wird blockweise verschlüsselt; die einzelnen verschlüsselten Klartextblöcke werden dann wieder zu einem Schlüsseltext y zusammengesetzt: Die Verschlüsselung eines Blockes xi lautet y i = E ( xi , c B ) = E ( xi , [e, n ]) = (xie mod n ) . Diese Zahl kann wieder als Binärmuster mit ⎣log 2 ( n )⎦ vielen Stellen aufgefasst werden. Die Hintereinanderreihung aller so entstandenen Binärmuster y1 , y 2 , ..., y r ergibt den zu x ge- hörenden Schlüsseltexte y = E ( x, c B ) = E ( x1 , c B )E ( x 2 , c B ) ... E ( x r , c B ) . Es gibt sehr effiziente Algorithmen zur Berechnung von y i = (xie mod n ) , so dass die Verschlüsselung schnell erfolgen kann. Eine bei B ankommende verschlüsselte Nachricht y wird zur Entschlüsselung als Binärmuster interpretiert und in einzelne Blöcke mit ⎣log 2 ( n )⎦ vielen Stellen zerlegt, d.h. y = y1 y 2 ... y r . Jeder Block y i wird einzeln nach folgender Vorschrift entschlüsselt: D ( y i , d B ) = D ( y i , [d , p, q, φ ( n )]) = ( y id mod n ). Die so entstehenden Zahlen werden als Bitmuster mit jeweils mit ⎣log 2 ( n )⎦ vielen Stellen interpretiert und durch Hintereinanderreihung zum entschlüsselten Text zusammengesetzt. Der algorithmische Aufwand zur Entschlüsselung ist wie bei der Verschlüsselung klein. 3.5 Anwendung in der Kryptologie 89 Die Korrektheit des Verfahrens, nämlich ( ) D (E ( xi , c B ), d B ) = (xie ) mod n = xi , d folgt aus Satz 3.4-2: Dazu werden 3 Fälle unterschieden: 1. Fall: Weder p noch q teilen xi . Dann gilt ggT (xi , n ) = 1 und mit Satz 3.4-2: xi φ ( n) ≡ 1 (mod n) . Nach Konstruktion ist e ⋅ d + f ⋅ φ ( n ) = 1 bzw. ( ) e ⋅ d = 1 + (− f ) ⋅ φ (n) . Also xie (( ist, ergibt sich xie ) ) d d ≡ xi 1+( − f )⋅φ ( n ) ( ≡ xi ⋅ xi ) φ ( n ) (− f ) ≡ xi (mod n) . Da xi < n mod n = xi . 2. Fall: Genau eine der Zahlen p oder q teilt xi ; es sei dieses p . Dann gilt (wieder mit Satz 3.4-2): xi xi φ (q) q −1 ≡ 1 (mod q ) . Damit folgt nacheinander ≡ 1 (mod q ) , xi ( − f )φ ( q ) ≡ 1 (mod q ) , xi e⋅d ≡ xi (mod q ) , d.h. q teilt xi e⋅d − xi . e⋅d Da nach Fallannahme die Zahl p den Wert xi teilt, teilt p auch xi , und daher teilt p den Wert xi xi e⋅d e⋅d − xi . Mit Satz 3.3-4 (iv) folgt: n = p ⋅ q teilt xi (( ≡ xi (mod n) . Da xi < n ist, ergibt sich wie im 1. Fall: xie ) d 3. Fall: Beide Zahlen p und q teilen xi . Dann teilen p und q den Wert xi 3.3-4 (iv) folgt: n = p ⋅ q teilt xi (( sich wie im 1. Fall: xie ) d ) e⋅d − xi , d.h. xi e⋅d ) e⋅d − xi , d.h. mod n = xi . e⋅d − xi und mit Satz ≡ xi (mod n) . Da xi < n ist, ergibt mod n = xi . ( ) Es gilt außerdem die Symmetriegleichung E (D ( y i , d B ), c B ) = ( y id ) mod n = y i , so dass das e RSA-Verfahren für ein digitales Unterschriftenprotokoll geeignet ist. Bei der Konstruktion des geheimen Schlüssels d B = [d , p, q, φ ( n )] besteht eine gewisse Freiheit bezüglich der Wahl der einzelnen Komponenten. Beispielsweise kann man den Wert d so groß wählen, dass er von einem Kryptoanalytiker nicht leicht durch systematisches Testen gefunden werden kann. Der Exponent e zum Verschlüsseln eines Klartextes an B ist nach Wahl von d eindeutig bestimmt. Der umgekehrte Weg, nämlich erst e zu wählen, und zwar so, dass e und φ (n ) = ( p − 1) ⋅ (q − 1) teilerfremd sind, und dann mit Hilfe des Euklidischen Algorithmus d zu ermitteln, ist ebenfalls möglich. Auf diese Weise kann man für e einen „günstigen“ Wert nehmen. Als günstige Werte haben sich die Primzahlen e = 3 , e = 17 und e = 65.537 90 3 Ausgewählte Themen der elementaren Zahlentheorie erwiesen, da diese Fermat-Zahlen in ihrer Binärdarstellung nur jeweils zwei binäre Einsen haben und damit die in der Verschlüsselung auszuführende Exponentiation sehr schnell abläuft. Die folgenden Empfehlungen bezüglich der im Verfahren auszuwählenden Zahlen zielen auf die Gewährung eines hohen Sicherheitsniveaus des RSA-Verfahrens. • Die Primzahlen p und q sollten „zufällig“ gewählt und nicht etwa einer Primzahltabelle entnommen werden und auch keine spezielle funktionale Form (etwa 2 2 − 1 ) aufweisen. k • Die Primzahlen p und q sollten nicht zu dicht zusammenliegen. • Die Primzahlen p und q sollten so gewählt werden, dass p − 1 und q − 1 keine großen gemeinsamen Faktoren besitzen. • Die Primzahlen p und q sollten so gewählt werden, dass φ ( n ) = ( p − 1) ⋅ ( q − 1) nicht nur kleine Primfaktoren enthält. • Der Wert d sollte nicht zu klein sein, damit man ihn nicht durch systematisches Testen ermitteln kann. • Verschiedene Kommunikationspartner sollten nicht denselben Wert oder einen zu kleinen Wert für e nehmen. • Die Klartexte (hier als numerische Werte aufgefasst) x = 1 und x = n − 1 werden auf sich selbst verschlüsselt, d.h. in diesen Fällen gilt E ( x, c B ) = x . Dasselbe Fixpunktverhalten der Funktion E zeigt sich, wenn e − 1 ein gemeinsames Vielfaches von p − 1 und q − 1 ist, etwa e − 1 = φ ( n ) 2 . Dann gilt sogar für jeden Klartext x die Gleichung E ( x, c B ) = x . In diesem Fall ist eine andere Wahl von d angeraten. Da beim RSA-Verfahren alle Komponenten bis auf den geheimen Schlüssel d B = [d , p, q, φ ( n )] öffentlich sind, bietet es für einen Kryptoanalytiker Angriffspunkte. Ein Kryptoanalytiker ist prinzipiell nur an der Kenntnis des Schlüsselteils d des geheimen Schlüssels d B interessiert, wobei er beide Teile e und n des öffentlichen Schlüssels c B kennt. Folgende Überlegungen zeigen, dass es erforderlich ist, neben d auch die Werte p, q und φ ( n ) geheimzuhalten. 3.5 Anwendung in der Kryptologie 91 Kennt der Kryptoanalytiker die Werte e, n (aus dem öffentlichen Register) und φ ( n ) , dann kann er mit Hilfe des Euklidischen Algorithmus zwei Zahlen a und b berechnen, für die die Beziehung e ⋅ a + φ ( n ) ⋅ b = 1 gilt (hierbei ist zu beachten, dass nach Konstruktion des Verfahrens e und φ ( n ) teilerfremd sind). Einfache zahlentheoretische Überlegungen zeigen, dass man d aus der Gleichung d = (a mod φ ( n ) ) erhält. Kennt der Kryptoanalytiker die Werte e, n (aus dem öffentlichen Register) und mindestens einen der Werte p oder q, etwa p, dann kann er wegen φ ( n ) = ( p − 1) ⋅ ( q − 1) und n = p ⋅ q bzw. φ ( n ) = ( p − 1) ⋅ ( n p − 1) sofort φ ( n ) und damit d ermitteln. Offensichtlich ist die Geheimhaltung von φ ( n ) wesentlich. Natürlich könnte der Kryptoanalytiker versuchen, den Wert φ ( n ) direkt aus dem öffentlichen Schlüssel c B = [e, n ] zu gewinnen. Falls ihm dieses mit geringem Rechenaufwand gelänge, hätte er gleichzeitig einen schnellen Algorithmus, um die Zahl n in ihre Primfaktoren p und q zu zerlegen: Er berechnet nacheinander z = φ ( n ) − n − 1 , y = z 2 − 4n , p = 1 2 ⋅ (− z − y ) und q = n p . Daher ist die schnelle Berechnung von φ ( n ) aus c B = [e, n ] gleichbedeutend mit der schnellen Primfaktorisierung von n. Andererseits kennt man bis heute kein schnelles Verfahren, um n zu faktorisieren. Die schnellsten bisher bekannten Verfahren zur Zerlegung einer Zahl n in ihre Primfaktoren haben eine Laufzeit, die proportional zu L( n ) = e ln( n )⋅ln(ln( n )) ist. Die folgende Tabelle zeigt einige Werte von L( n ) . n 1050 10100 10150 10 200 10 250 10 300 L( n ) 1,42 ⋅ 1010 2,34 ⋅ 1015 3,26 ⋅ 1019 1,20 ⋅ 10 23 1,86 ⋅ 10 26 1,53 ⋅ 10 29 Wäre man heute technisch in der Lage, Rechengeschwindigkeit von 1012 Operationen pro Sekunde zu realisieren, würde die Faktorisierung einer 200-stellige Zahl immer noch etwa 1.000 Jahre erfordern, die Faktorisierung einer 300-stelligen Zahl sogar mehr als 10 6 viele Jahrtausende. Heutige Schlüssellängen von 1.024 Bits bzw. ca. 300 Dezimalstellen erscheinen daher heute sicher. Des weiteren könnte der Kryptoanalytiker versuchen, den Wert d direkt aus dem öffentlichen Schlüssel c B = [e, n ] zu ermitteln. Es lässt sich zeigen, dass ein schneller Algorithmus zur Ermittlung von d aus c B = [e, n ] in einen schnellen (probabilistischen) Algorithmus umge- wandelt werden kann, der mit beliebig großer Wahrscheinlichkeit die Zahl n in ihre Primfaktoren p und q korrekt zerlegt. Eine Brute-Force-Attacke, in der alle möglichen Werte für d systematisch probiert werden, verspricht darüber hinaus wegen der großen Schlüssellänge (Stellenzahl von n) keinen Erfolg. 92 3 Ausgewählte Themen der elementaren Zahlentheorie Zusammenfassend kann man feststellen, dass die Garantie der Sicherheit des RSA-Verfahrens darauf zurückzuführen ist, dass kein schnelles Verfahren bekannt ist, das eine gegebene natürliche Zahl in ihre Primfaktoren zerlegt. Sollte ein derartiges Verfahren für das Faktorisierungsproblem gefunden werden, ist das RSA-Verfahren nicht mehr sicher. Die bisher in diesem Kapitel beschriebenen Methoden beruhen auf der Anwendung zahlentheoretischer Erkenntnisse, die im wesentlichen im 18. Jahrhundert entdeckt wurden. Die Überlegungen zum Laufzeitverhalten der beteiligten Algorithmen stammen aus den letzten 30 Jahren des 20. Jahrhunderts. Seit etwa 1987 findet eine Theorie, deren Grundlagen zum Ende des 19. Jahrhunderts gelegt wurden, beim Entwurf kryptographischer Verfahren verstärkt Anwendung. Diese Kryptographie-Verfahren setzen zur Verschlüsselung die Arithmetik elliptischer Kurven über endlichen Körpern ein. Da zum Verständnis dieser Methoden jedoch weitergehende mathematische Kenntnisse erforderlich sind, wird auf deren Darstellung hier verzichtet. 4 Ausgewählte Themen der Kombinatorik Die Kombinatorik befasst sich im wesentlichen mit dem Abzählen endlicher Mengen und damit verwandter Fragestellungen. Die in diesem Kapitel behandelte Themenauswahl gehört zum mathematischen Handwerkszeug, das in vielen Teilgebieten der Mathematik und Informatik benötigt wird. Insbesondere in der Wahrscheinlichkeitsrechnung (diskrete Wahrscheinlichkeitsverteilungen) werden die Themen weiter vertieft. 4.1 Binomialkoeffizienten Es seien n ∈ N , x ∈ R und y ∈ R . Der aus der Schule bekannte binomische Lehrsatz besagt (x + y )2 = x 2 + 2 ⋅ x ⋅ y + y 2 . Wie man leicht nachrechnet, ist (x + y )3 = x 3 + 3 ⋅ x 2 ⋅ y + 3 ⋅ x ⋅ y 2 + y 3 , (x + y )4 = x 4 + 4 ⋅ x 3 ⋅ y + 6 ⋅ x 2 ⋅ y 2 + 4 ⋅ x ⋅ y 3 + y 4 . Es soll nun die allgemeine Form von (x + y ) als ausgeschriebene Summe hergeleitet werden n (das könnte wieder formal nach dem Induktionsprinzip geschehen; hier soll die Herleitung etwas informeller beschrieben werden). Durch vollständige Induktion kann man zeigen, dass die Summanden in der ausgeschriebenen Summe von (x + y )n die Form ki , j ⋅ x i ⋅ y j mit i + j = n haben. Der Faktor ki , j im Summanden ki , j ⋅ x i ⋅ y n−i der ausgeschriebenen Summe ⎛n⎞ n von (x + y ) heißt Binomialkoeffizient ⎜⎜ ⎟⎟ , gesprochen „n über i“, d.h. ⎝i⎠ n ⎞ i n −i ⎛ n ⎞ n ⎛ n ⎞ ⎛n⎞ ⎛n⎞ ⎟⎟ ⋅ x ⋅ y = ⎜⎜ ⎟⎟ ⋅ y +⎜⎜ ⎟⎟ ⋅ x ⋅ y n−1 + ⎜⎜ ⎟⎟ ⋅ x 2 ⋅ y n−2 + ... + ⎜⎜ ⎟⎟ ⋅ x n . i =0 ⎝ i ⎠ ⎝n⎠ ⎝ 2⎠ ⎝1⎠ ⎝0⎠ (x + y )n = ∑ ⎛⎜⎜ n Das vorliegende Kapitel untersucht Eigenschaften und Interpretationen der Binomialkoeffizienten. 94 4 Ausgewählte Themen der Kombinatorik ⎛n⎞ ⎛n⎞ Offensichtlich gilt ⎜⎜ ⎟⎟ = 1 und ⎜⎜ ⎟⎟ = 1 . ⎝n⎠ ⎝ 0⎠ Es ist (x + y ) = ( x + y ) n −1 n ⋅ (x + y ) = (x + y ) n −1 ⋅ x + (x + y ) ⎛n⎞ man ablesen, wie der Faktor ⎜⎜ ⎟⎟ im Summanden ⎝i⎠ n −1 ⋅ y . Aus dieser Darstellung kann ⎛ n ⎞ i n −i ⎜⎜ ⎟⎟ ⋅ x ⋅ y der ausgeschriebenen Summe ⎝i⎠ von (x + y ) entsteht: man sucht in der ausgeschriebenen Summe von (x + y ) n −1 n denjenigen Summanden, in dem x mit der Potenz i − 1 und y mit der Potenz n − i steht, und denjenigen Summanden in der ausgeschriebenen Summe von (x + y ) , in dem x mit der Potenz i und y n −1 mit der Potenz n − i − 1 steht. Diese Summanden sind ⎛ n − 1⎞ i−1 n−i ⎛ n − 1⎞ i−1 (n−1)−(i−1) ⎛ n − 1⎞ i n−i−1 ⎛ n − 1⎞ i (n−1)−i ⎟⎟ ⋅ x ⋅ y ⎟⎟ ⋅ x ⋅ y ⎟⎟ ⋅ x ⋅ y = ⎜⎜ ⎟⎟ ⋅ x ⋅ y ⎜⎜ und ⎜⎜ . = ⎜⎜ ⎝ i −1 ⎠ ⎝ i ⎠ ⎝ i −1 ⎠ ⎝ i ⎠ Wird der erste Summand mit x und der zweite Summand mit y multipliziert und anschließend beide Summanden addiert, entsteht ⎛ ⎛ n − 1⎞ ⎛ n − 1⎞ ⎞ i n−i ⎛ n − 1⎞ i−1 n−i ⎛ n − 1⎞ i n−i−1 ⎜⎜ ⎟⎟ ⋅ x ⋅ y ⋅ x + ⎜⎜ ⎟⎟ ⋅ x ⋅ y ⎟⎟ + ⎜⎜ ⎟⎟ ⎟⎟ ⋅ x ⋅ y ⋅ y = ⎜⎜ ⎜⎜ − − i 1 i i 1 i ⎝ ⎠ ⎝ ⎠ ⎠ ⎝ ⎠⎠ ⎝⎝ ⎛n⎞ = ⎜⎜ ⎟⎟ ⋅ x i ⋅ y n−i . ⎝i⎠ Damit ergibt sich Satz 4.1-1: Für jedes n ∈ N und für jedes i ∈ N ist ⎛n⎞ ⎜⎜ ⎟⎟ = 1 , ⎝ 0⎠ ⎛n⎞ ⎜⎜ ⎟⎟ = 1 , ⎝n⎠ ⎛ n ⎞ ⎛ n − 1⎞ ⎛ n − 1⎞ ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ mit 0 < i < n . i i 1 i − ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ Mit Hilfe der Rekursionsformel in Satz 4.1-1 lassen sich die Binomialkoeffizienten berechnen. Die einzelnen Werte können in einem Schema in Dreicksform (Pascal’sche Dreieck) 95 4.1 Binomialkoeffizienten ⎛n⎞ angeordnet werden. Dabei steht in der n-ten Zeile und der i-ten Spalte der Wert ⎜⎜ ⎟⎟ für ⎝i⎠ n ≥ 0 und 0 ≤ i ≤ n . Dieser Eintrag ist die Summe, die sich aus dem direkt drüber stehenden ⎛ n − 1⎞ ⎛ n − 1⎞ ⎟⎟ links davon ergibt. Der Anfang des Pascal’schen ⎟⎟ und dem Eintrag ⎜⎜ Eintrag ⎜⎜ ⎝ i −1 ⎠ ⎝ i ⎠ Dreiecks lautet: Spalte 0 Zeile 0 Zeile n = 8 1 1 1 1 1 1 1 1 1 1 Spalte i = 5 1 2 3 4 5 6 7 8 9 1 3 6 10 15 21 28 36 1 4 10 20 35 56 84 1 5 15 35 70 126 ... 1 6 21 56 126 ... 1 7 28 84 1 8 36 1 9 1 Beispiel: ⎛ 8⎞ ⎜⎜ ⎟⎟ = 56 . ⎝ 5⎠ ⎛n⎞ Der folgende Satz beschreibt, wie der Wert eines Binomialkoeffizienten ⎜⎜ ⎟⎟ direkt in Ab⎝i⎠ hängigkeit von n und i ausgedrückt werden kann: Satz 4.1-2: Für jedes n ∈ N und für jedes i ∈ N mit 0 ≤ i ≤ n ist ⎛n⎞ n! ⎜⎜ ⎟⎟ = . ⎝ i ⎠ i!⋅(n − i )! Der Beweis soll hier als Beispiel eines Beweises durch vollständige Induktion angegeben werden: 96 4 Ausgewählte Themen der Kombinatorik ⎛ n⎞ ⎛0⎞ n! 0! = = 1. Für n = 0 ist ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = 1 und i!⋅(n − i )! 0!⋅0! ⎝ i ⎠ ⎝0⎠ Es wird angenommen, dass die Formel in Satz 4.1-2 für ein n ∈ N und für jedes i ∈ N mit 0 ≤ i ≤ n gilt. Zu zeigen ist, dass aus dieser Annahme die Gültigkeit der Formel auch für n + 1 und für jedes i ∈ N mit 0 ≤ i ≤ n + 1 folgt. ⎛ n + 1⎞ ⎛ n + 1⎞ (n + 1)! = (n + 1)! = 1 . ⎟⎟ = ⎜⎜ ⎟⎟ = 1 und Für i = 0 ist ⎜⎜ i!⋅(n + 1 − i )! 0!⋅(n + 1)! ⎝ i ⎠ ⎝ 0 ⎠ ⎛ n + 1⎞ ⎛ n + 1⎞ (n + 1)! = 1 . ⎟⎟ = ⎜⎜ ⎟⎟ = 1 und Für i = n + 1 ist ⎜⎜ (n + 1)!⋅0! ⎝ i ⎠ ⎝ n + 1⎠ Für 0 < i < n + 1 verwendet man die Rekursionsformel aus Satz 4.1-1: ⎛ n + 1⎞ ⎛ n ⎞ ⎛ n ⎞ ⎟⎟ + ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ = ⎜⎜ ⎝ i ⎠ ⎝ i − 1⎠ ⎝ i ⎠ n! n! = + (i − 1)!⋅(n − i + 1)! i!⋅(n − i )! n!⋅i + n!⋅(n − i + 1) = i! ⋅ (n − i + 1)! n!⋅(i + n − i + 1) = i! ⋅ (n − i + 1)! (n + 1)! . = i! ⋅ (n + 1 − i )! nach Satz 4.1 - 1 nach Induktionsannahme Die Formel gilt also auch für n + 1 . Im Pascal’schen Dreieck kann man einige Gesetzmäßigkeiten der Binomialkoeffizienten verin ⎛n⎞ n fizieren, die direkt aus der Definition (x + y ) = ∑ ⎜⎜ ⎟⎟ ⋅ x i ⋅ y n−i bzw. aus den Formeln in den i =0 ⎝ i ⎠ vorherigen Sätzen folgen. Beispielsweise hat die Summe aller Binomialkoeffizienten in der n⎛n⎞ ten Zeile des Pascal’schen Dreiecks den Wert 2 n ; die Summe der Binomialkoeffizienten ⎜⎜ ⎟⎟ ⎝i⎠ ⎛n⎞ in Zeile n mit n ≥ 1 und geradem i ist gleich der Summe der Binomialkoeffizienten ⎜⎜ ⎟⎟ in ⎝i⎠ Zeile n mit ungeradem i; summiert man in der i-ten Spalte alle Binomialkoeffizienten bis zur ⎛ n + 1⎞ ⎟⎟ ; summiert man Zeile n, so erhält man wieder einen Binomialkoeffizienten, nämlich ⎜⎜ ⎝ i +1 ⎠ 4.1 Binomialkoeffizienten 97 alle Binomialkoeffizienten ab Zeile n − i und Spalte 0 diagonal (von links oben nach rechts ⎛ n + 1⎞ ⎟⎟ . Diese unten) bis zur Zeile n und Spalte i, so ist das Ergebnis der Binomialkoeffizient ⎜⎜ ⎝ i ⎠ und weitere Eigenschaften der Binomialkoeffizienten werden im folgenden Satz zusammengefasst. Satz 4.1-3: Es sei n ∈ N . Dann gilt: ⎛n⎞ ∑ ⎜⎜ i ⎟⎟ ⋅ x = (1 + x ) n (i) (ii) n i i =0 ⎝ ⎠ n ⎛n⎞ ∑ ⎜⎜ i ⎟⎟ = 2 i =0 (Summe über die n-te Zeile im Pascal’schen Dreieck). n ⎝ ⎠ n ∑ (iii) i =0 (i mod 2 )=0 ⎛n⎞ ⎜⎜ ⎟⎟ = ⎝i⎠ für jedes x ∈ R . n ∑ i =0 (i mod 2 )=1 ⎛n⎞ ⎜⎜ ⎟⎟ bzw. ⎝i⎠ n ⎛n⎞ ∑ (− 1) ⎜⎜ i ⎟⎟ = 0 i i =0 ⎝ ⎠ für n ≥ 1 (Die Summe der Binomialkoeffizienten mit geradem i ist gleich der Summe der Binomialkoeffizienten mit ungeradem i). (iv) n ⎛k ⎞ ⎛ n + 1⎞ k =i ⎝ ⎠ ⎝ ∑ ⎜⎜ i ⎟⎟ = ⎜⎜ i + 1 ⎟⎟ ⎠ für i ∈ N mit 0 ≤ i ≤ n (Summe der i-ten Spalte bis zur Zeile n im Pascal’schen Dreieck). (v) ⎛ n − i + k ⎞ ⎛ n + 1⎞ ⎟=⎜ ⎟ für i ∈ N mit 0 ≤ i ≤ n k ⎟⎠ ⎜⎝ i ⎟⎠ k =0 ⎝ i ∑ ⎜⎜ (Summe der Binomialkoeffizienten ab Zeile n − i und Spalte 0 im Pascal’schen Dreieck diagonal bis zur Zeile n und Spalte i). (vi) (vii) ⎛n⎞ ⎛ n ⎞ ⎟⎟ für i ∈ N mit 0 ≤ i ≤ n ⎜⎜ ⎟⎟ = ⎜⎜ ⎝ i ⎠ ⎝n −i⎠ (Symmetrie der Binomialkoeffizienten). ⎛ n ⎞ n ⎛ n − 1⎞ ⎜⎜ ⎟⎟ = ⋅ ⎜⎜ ⎟⎟ für i ∈ N mit 0 < i ≤ n ⎝ i ⎠ i ⎝ i −1 ⎠ ⎛n⎞ ⎛ n − 1⎞ ⎟⎟ für i ∈ N mit 0 ≤ i ≤ n . und (n − i ) ⋅ ⎜⎜ ⎟⎟ = n ⋅ ⎜⎜ ⎝i⎠ ⎝ i ⎠ 98 4 Ausgewählte Themen der Kombinatorik Die Formel in Satz 4.1-3 (i) erhält man, indem man in der Definitionsgleichung n n (x + y )n = ∑ ⎛⎜⎜ ⎞⎟⎟ ⋅ x i ⋅ y n−i den Wert y = 1 setzt. Die Formel in Satz 4.1-3 (ii) erhält man aus i =0 ⎝ i ⎠ der Definitionsgleichung für x = y = 1 . Die Formel n ⎛n⎞ ∑ (− 1) ⎜⎜ i ⎟⎟ = 0 i in Satz 4.1-3 (iii) erhält ⎝ ⎠ man aus der Definitionsgleichung für x = −1 und y = 1 ; bringt man in dieser Formel die i =0 i⎛ n⎞ Summanden (− 1) ⎜⎜ ⎟⎟ mit ungeradem i auf die rechte Seite der Gleichung, so ergibt sich die ⎝i⎠ erste Formel in Satz 4.1-3 (iii). Die Formeln in Satz 4.1-3 (vi) und (vii) ergeben sich unmittelbar aus Satz 4.1-2. Die Formeln in Satz 4.1-3 (iv) und (v) können durch vollständige Induktion bewiesen werden oder durch direkte wiederholte Anwendung der Rekursionsgleichung aus Satz 4.1-1. Für die Formel aus Satz 4.1-3 (iv) ergibt sich ausgehend von der rechten Seite der Gleichung: ⎛ n + 1⎞ ⎛ n ⎞ ⎛ n ⎞ ⎟⎟ + ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ = ⎜⎜ ⎝ i + 1 ⎠ ⎝ i + 1⎠ ⎝ i ⎠ mit Satz 4.1 - 1 ⎛ ⎛ n − 1⎞ ⎛ n − 1⎞ ⎞ ⎛ n ⎞ ⎟⎟ ⎟⎟ + ⎜⎜ ⎟⎟ mit Satz 4.1 - 1, angewandt auf den ersten Binomialkoeffizienten ⎟⎟ + ⎜⎜ = ⎜⎜ ⎜⎜ ⎝⎝ i +1 ⎠ ⎝ i ⎠⎠ ⎝ i ⎠ ⎛ ⎛ n − 2 ⎞ ⎛ n − 2 ⎞ ⎞ ⎛ n − 1⎞ ⎛ n ⎞ ⎟⎟ + ⎜⎜ ⎟⎟ ⎟⎟ + ⎜⎜ ⎟⎟ ⎟⎟ + ⎜⎜ = ⎜⎜ ⎜⎜ ⎝⎝ i +1 ⎠ ⎝ i ⎠⎠ ⎝ i ⎠ ⎝ i ⎠ = ... ⎛n −l⎞ l ⎛n − k ⎞ ⎟⎟ + ∑ ⎜⎜ ⎟⎟ = ⎜⎜ ⎝ i + 1 ⎠ k =0 ⎝ i ⎠ ⎛ i + 1⎞ n−i−1⎛ n − k ⎞ ⎟⎟ ⎟⎟ + ∑ ⎜⎜ = ⎜⎜ ⎝ i + 1⎠ k = 0 ⎝ i ⎠ allgemeine Form; mit l = n − i − 1 : ⎛ n ⎞ ⎛ n − 1⎞ ⎛ i + 1⎞ ⎟⎟ + ... + ⎜⎜ ⎟⎟ = 1 + ⎜⎜ ⎟⎟ + ⎜⎜ ⎝i⎠ ⎝ i ⎠ ⎝ i ⎠ ⎛ i ⎞ ⎛ n ⎞ ⎛ n − 1⎞ ⎛ i + 1⎞ ⎟⎟ + ... + ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎝i ⎠ ⎝ i ⎠ ⎝ i ⎠ ⎝ i ⎠ n ⎛k ⎞ = ∑ ⎜⎜ ⎟⎟. k =i ⎝ i ⎠ Für die Formel aus Satz 4.1-3 (v) ergibt sich wieder ausgehend von der rechten Seite der Gleichung: 99 4.1 Binomialkoeffizienten ⎛ n + 1⎞ ⎛ n ⎞ ⎛ n ⎞ ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ mit Satz 4.1 - 1 ⎝ i ⎠ ⎝ i ⎠ ⎝ i − 1⎠ ⎛ n ⎞ ⎛ ⎛ n − 1⎞ ⎛ n − 1⎞ ⎞ ⎟⎟ + ⎜⎜ ⎟⎟ ⎟⎟ mit Satz 4.1 - 1, angewandt auf den zweiten Binomialkoeffizienten = ⎜⎜ ⎟⎟ + ⎜⎜ ⎜⎜ ⎝ i ⎠ ⎝⎝ i −1 ⎠ ⎝ i − 2 ⎠⎠ ⎛ n ⎞ ⎛ n − 1⎞ ⎛ ⎛ n − 2 ⎞ ⎛ n − 2 ⎞ ⎞ ⎟⎟ ⎟⎟ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎜⎜ = ⎜⎜ ⎟⎟ + ⎜⎜ ⎝ i ⎠ ⎝ i −1 ⎠ ⎝⎝ i − 2 ⎠ ⎝ i − 3 ⎠⎠ = ... l ⎛n − k ⎞ ⎛ n −l ⎞ ⎟⎟ + ⎜⎜ ⎟⎟ = ∑ ⎜⎜ k =0 ⎝ i − k ⎠ ⎝ i − l − 1⎠ i −1 n − k ⎛ ⎞ ⎛ n − i + 1⎞ ⎟⎟ + ⎜⎜ ⎟⎟ = ∑ ⎜⎜ k =0 ⎝ i − k ⎠ ⎝ 0 ⎠ allgemeine Form; mit l = i − 1 : ⎛ n − i + 1⎞ ⎛ n ⎞ ⎛ n − 1⎞ ⎟⎟ + ... + ⎜⎜ ⎟⎟ = 1 + ⎜⎜ ⎟⎟ + ⎜⎜ ⎝ 1 ⎠ ⎝ i ⎠ ⎝ i −1 ⎠ ⎛ n − i ⎞ ⎛ n ⎞ ⎛ n − 1⎞ ⎛ n − i + 1⎞ ⎟⎟ + ⎜⎜ ⎟⎟ + ⎜⎜ ⎟⎟ + ... + ⎜⎜ ⎟⎟ = ⎜⎜ ⎝ 0 ⎠ ⎝ i ⎠ ⎝ i −1 ⎠ ⎝ 1 ⎠ i ⎛n − i + k ⎞ ⎟. = ∑ ⎜⎜ k ⎟⎠ k =0 ⎝ Die Binomialkoeffizienten kommen nicht nur als Faktor ki , j im Summanden ki , j ⋅ x i ⋅ y n−i der ausgeschriebenen Summe von (x + y ) vor, sondern auch in vielen praktischen Abzählprobn lemen. In Kapitel 1.5 wird gezeigt, dass eine endliche Menge A mit n Elementen genau 2 n viele Teilmengen besitzt. Es soll nun untersucht werden, wie viele Teilmengen A hat, die aus genau k Elementen (mit 0 ≤ k ≤ n ) bestehen. Es sei A = { a1 , ..., an } . Unter einer Permutation von A versteht man eine feste Anordnung der Elemente von A. Beispielsweise sind alle Permutationen der Menge A = {1,2, 3, 4 } die Anordnungen 1234 1243 1423 4123 4132 1432 1342 1324 3124 3142 3412 4312 4321 3421 3241 3214 2314 2341 2431 4231 Eine Permutation der Menge A = { a1 , ..., an } ist also ein Tupel 4213 2413 2143 2 1 3 4. ( a , ..., a ) i1 in mit ai j ∈ A für j = 1, ..., n und ai j ≠ ail für i j ≠ il . Um die Anzahl aller Permutationen von A zu bestim- 100 4 Ausgewählte Themen der Kombinatorik ( ) men, betrachtet man alle derartigen Tupel ai1 , ..., ain : Für ai1 gibt es n mögliche Werte, nämlich a1 , ..., an . Hat man sich für eine Möglichkeit entschieden, bleiben für ai2 noch n − 1 Möglichkeiten. Für ai3 bleiben nach Auswahl für ai1 und ai2 noch n − 2 Möglichkeiten usw. Für ain bleibt nach Festlegung der ersten n − 1 Elemente nur noch 1 Möglichkeit. Insgesamt hat gibt es also n ⋅ (n − 1) ⋅ ... ⋅1 = n! viele Möglichkeiten zur Bildung einer Permutation einer n-elementigen Menge. Unter einer k-Permutation von A versteht man ein Tupel ( a , ..., a ) i1 ik mit ai j ∈ A für j = 1, ..., k und ai j ≠ ail für i j ≠ il . Beispielsweise sind alle 2-Permutationen von A = {1,2, 3, 4 } die Anordnungen 12 13 14 21 23 24 31 32 34 41 42 43 Um die Anzahl aller k-Permutationen von A zu bestimmen, betrachtet man wieder alle derartigen Tupel ai1 , ..., aik : Für ai1 gibt es n mögliche Werte, nämlich a1 , ..., an . Hat man sich für ( ) eine Möglichkeit entschieden, bleiben für ai2 noch n − 1 Möglichkeiten. Für ai3 bleiben nach Auswahl für ai1 und ai2 noch n − 2 Möglichkeiten usw. Für aik bleibt nach Festlegung der ersten k − 1 Elemente noch n − (k − 1) = n − k + 1 Möglichkeit. Insgesamt hat gibt es also n ⋅ (n − 1) ⋅ ... ⋅ (n − k + 1) = n! (n − k )! viele Möglichkeiten zur Bildung einer k-Permutation einer n-elementigen Menge. { } Für jede Teilmengen B ⊆ A mit B = k , etwa B = ai1 , ..., aik , gilt ai j ≠ ail für i j ≠ il . Jede Permutation von B (davon gibt es k! viele) ist eine k-Permutation von A. Verschiedene Teilmengen B1 ⊆ A und B2 ⊆ A mit B1 = B2 = k ergeben paarweise verschiedene kPermutation von A, da die k-Permutationen, die aus B1 entstanden sind, mindestens ein unterschiedliches Element zu den k-Permutationen enthalten, die aus B2 entstanden sind, und die Permutationen von B1 bzw. von B2 sind untereinander paarweise verschieden. Umgekehrt 4.2 Abbildungen zwischen endlichen Mengen 101 gibt es zu jeder k-Permutation von A eine k-elementige Teilmengen von A, nämlich die Menge ihrer Elemente. Bezeichnet Cn ,k die Anzahl k-elementiger Teilmengen von A, so gilt daher: C n ,k ⋅ k ! = n! . (n − k )! Satz 4.1-4: Es sei A eine endliche Menge mit A = n . Die Anzahl der Teilmengen B ⊆ A mit B = k für 0 ≤ k ≤ n ist ⎛n⎞ n! ⎜⎜ ⎟⎟ = . ⎝ k ⎠ k!⋅(n − k )! Damit kann man auch noch einmal die Formel aus Satz 4.1-3 (ii) n ⎛n⎞ ∑ ⎜⎜ i ⎟⎟ = 2 i =0 n ⎝ ⎠ verifizieren: Links steht die Anzahl aller Teilmengen einer n-elementigen Menge, aufgeteilt nach den i-elementigen Teilmengen für 0 ≤ i ≤ n , von der bereits früher gezeigt wurde, dass sie gleich 2 n ist. 4.2 Abbildungen zwischen endlichen Mengen In diesem Kapitel seien A und B endliche Mengen mit A = n und B = m : A = { a1 , ..., an } , B = { b1 , ..., bm } . Es sollen die Anzahlen der Abbildungen, der injektiven, surjektiven und bijektiven Abbildungen f : A → B ermittelt werden. 102 A. 4 Ausgewählte Themen der Kombinatorik Anzahl der Abbildungen f : A → B Jede Abbildung f : A → B kann in Form einer endlichen Tabelle notiert werden: ai a1 ... an f (ai ) f (a1 ) ... f (an ) Dabei genügt das Notieren der Funktionswerte in der Reihenfolge f (a1 ) , ..., f (an ) bzw. als n-Tupel ( f (a1 ), ..., f (an )) . Verschiedene Abbildungen führen zu verschiedenen n-Tupeln. Umgekehrt kann man jedes nTupel (b1 , ..., bn ) mit bi ∈ B für 1 ≤ i ≤ n als eine Abbildung f : A → B auffassen, nämlich als die durch f (ai ) = bi definierte Abbildung, und unterschiedliche n-Tupel beschreiben unterschiedliche Abbildungen. Daher ist die Anzahl der Abbildungen f : A → B gleich der Anzahl der n-Tupeln (b1 , ..., bn ) mit bi ∈ B für 1≤ i ≤ n. Satz 4.2-1: Es seien A und B endliche Mengen mit A = n und B = m . Dann ist die Anzahl der Abbildungen f : A → B gleich mn . B. Anzahl bijektiver Abbildungen f : A → B Nach Satz 2.2-3 gilt im Falle bijektiver Abbildungen f : A → B bezüglich der Mächtigkeiten: n = m . Jede bijektive Abbildung f : A → B bzw. in Tupel-Schreibweise ( f (a1 ), ..., f (an )) beschreibt daher eine Permutation der Menge B. Verschiedene bijektive Abbildungen führen 4.2 Abbildungen zwischen endlichen Mengen ( 103 ) zu verschiedenen Permutationen. Umgekehrt kann jede Permutation bi1 , ..., bin von B mit einer bijektiven Abbildung f : A → B , nämlich ⎧⎪ A f :⎨ ⎪⎩a j → B → bi j gleichgesetzt werden. Die Anzahl bijektiver Abbildungen f : A → B ist daher gleich der Anzahl der Permutationen der Menge B. Mit den Überlegungen am Ende von Kapitel 4.1 folgt Satz 4.2-2: Es seien A und B endliche Mengen mit A = B = n . Dann ist die Anzahl der bijektiven Abbildungen f : A → B gleich n!. C. Anzahl injektiver Abbildungen f : A → B Nach Satz 2.2-3 gilt im Falle injektiver Abbildungen f : A → B bezüglich der Mächtigkeiten: n ≤ m . Der Wertebereich W ( f ) = { b | b ∈ B, und es gibt a ∈ A mit f ( a ) = b} ist eine nelementige Teilmenge von B, und die Abbildung ⎧A → W ( f ) g :⎨ ⎩ a → f (a) ist eine Bijektion zwischen A und W(f). Daher ist W(f) eine n-Permutation von B. Umgekehrt ist kann man jede n-Permutation von B, etwa bi1 , ..., bin mit der injektiven Abbildung ( ⎧⎪ A f :⎨ ⎪⎩a j ) → B → bi j identifizieren. Mit den Überlegungen am Ende von Kapitel 4.1 folgt 104 4 Ausgewählte Themen der Kombinatorik Satz 4.2-3: Es seien A und B endliche Mengen mit A = n und B = m und n ≤ m . Dann ist die Anzahl injektiver Abbildungen f : A → B gleich ⎛ m⎞ m! = n!⋅⎜⎜ ⎟⎟ . (m − n )! ⎝ n ⎠ D. Anzahl surjektiver Abbildungen f : A → B Nach Satz 2.2-3 gilt im Falle surjektiver Abbildungen f : A → B bezüglich der Mächtigkeiten: n ≥ m . Die Bestimmung der Anzahl surjektiver Abbildungen zwischen A und B ist schwieriger und benötigt Hilfsmittel, die in Kapitel 4.3 bereitgestellt werden. Das Ergebnis soll aber der Vollständigkeit halber hier bereits zitiert werden. Satz 4.2-4: Es seien A und B endliche Mengen mit A = n und B = m und n ≥ m . Dann ist die Anzahl surjektiver Abbildungen f : A → B gleich m ∑ (− 1) i =0 4.3 m −i ⎛ m⎞ ⋅ ⎜⎜ ⎟⎟ ⋅ i n . ⎝i⎠ Das Prinzip von Inklusion und Exklusion Es seien A und B wieder endliche Mengen mit A = n und B = m . Nach Satz 1.1-1 (v) ist A ∪ B = (A \ B) ∪ ( A ∩ B ) ∪ (B \ A) eine disjunkte Zerlegung von A ∪ B . Daraus folgt für die Mächtigkeit von A ∪ B : A ∪ B = |A \ B| + A ∩ B + |B \ A|. Es sei A ∩ B = i . Dann ist 4.3 Das Prinzip von Inklusion und Exklusion 105 A ∪ B = |A \ B| + A ∩ B + |B \ A| = (n − i ) + i + (m − i ) = n+ m−i = A + B − A∩ B. Bei drei Mengen A, B und C mit A = n , B = m und C = k lauten die entsprechenden Formeln: Die Menge A ∪ B ∪ C lässt sich disjunkt zerlegen in A ∪ B ∪ C = ((A \ B) \ C) ∪ ((B \ A) \ C) ∪ ((C \ A) \ B) ∪ (( A ∩ B ) \ C) ∪ ((B ∩ C ) \ A) ∪ (( A ∩ C ) \ B) ∪ (A ∩ B ∩ C ) . Mit i1 = ( A ∩ B ) \ C , i2 = (B ∩ C ) \ A , i3 = ( A ∩ C ) \ B und i4 = A ∩ B ∩ C folgt daraus: A ∪ B ∪ C = n − (i1 + i3 + i4 ) + m − (i1 + i2 + i4 ) + k − (i2 + i3 + i4 ) + i1 + i2 + i3 + i4 = n + m + k − (i1 + i4 ) − (i2 + i4 ) − (i3 + i4 ) + i4 = A + B + C − A∩ B − B ∩C − A∩C + A∩ B ∩C. Zur Berechnung von A ∪ B ∪ C wäre A + B + C korrekt, wenn die drei Mengen disjunkt wären (Inklusion). Andernfalls zählt man die Elemente, die in jeweils zwei Mengen liegen, doppelt, und man muss die Anzahl der zwei Mengen gemeinsamen Elemente wieder abziehen (Exklusion). Allerdings hat man dadurch die Elemente „vergessen“, die in allen drei Mengen liegen, so dass diese wieder hinzugezählt werden müssen (Inklusion). Dieses Prinzip der Inklusion und Exklusion lässt sich auf eine endliche Anzahl von Mengen erweitern. l Es seien A1 , ..., Al Teilmengen einer endlichen Menge M. Mit U Ai wird A1 ∪ ... ∪ Al abgei =1 kürzt; mit I Ai mit I ⊆ {1, ..., l} wird der Schnitt derjenigen Mengen Ai bezeichnet, für dei∈I ren Index i ∈ I gilt. 106 4 Ausgewählte Themen der Kombinatorik Satz 4.3-1: Es seien A1 , ..., Al Teilmengen einer endlichen Menge M, l ≥ 1 Dann gilt: l U Ai = i =1 ∑ } (− 1) { 1+ I ⋅ I Ai . i∈I I ⊆ 1, ..., l und I ≠∅ Die Summation geht über alle nichtleeren Teilmengen I der Indexmenge {1, ..., l}. Der Satz kann durch vollständige Induktion bewiesen werden. Zuvor soll er auf den obigen Fall dreier Mengen angewendet werden ( A1 = A , A2 = B und A3 = C ). Hierbei ist {1, ..., l} = {1, 2, 3 } . Alle nichtleeren Teilmengen der Indexmenge sind {1 } , { 2 }, { 3 }, {1, 2 }, {1, 3 }, { 2, 3 } und {1, 2, 3 }. Die einzelnen Summanden lauten für I = {1 }: (− 1) ⋅ I Ai = (− 1) ⋅ A1 = A1 , 1+ I 1+1 i∈I für I = { 2 } : (− 1) ⋅ I Ai = (− 1) ⋅ A2 = A2 , für I = { 3 } : (− 1) ⋅ I Ai = (− 1) ⋅ A3 = A3 , 1+ I 1+1 i∈I 1+ I 1+1 i∈I für I = {1, 2 }: (− 1) ⋅ I Ai = (− 1) ⋅ A1 ∩ A2 = − A1 ∩ A2 , für I = {1, 3 } : (− 1) ⋅ I Ai = (− 1) ⋅ A1 ∩ A3 = − A1 ∩ A3 , für I = { 2, 3 }: (− 1) ⋅ I Ai = (− 1) ⋅ A2 ∩ A3 = − A2 ∩ A3 , 1+ I 1+ 2 i∈I 1+ I 1+ 2 i∈I 1+ I 1+ 2 i∈I für I = {1, 2, 3 } : (− 1) 1+ I ⋅ I Ai = (− 1) ⋅ A1 ∩ A2 ∩ A3 = A1 ∩ A2 ∩ A3 . 1+3 i∈I Der Beweis der Formel in Satz 4.3-1 erfolgt durch vollständige Induktion über die Anzahl l der beteiligten Teilmengen: Der Induktionsanfang für l = 1 , l = 2 und l = 3 ist offensichtlich bzw. wurde in den obigen Beispielen gezeigt. Die Formel gelte für l ≥ 3 . Zu zeigen ist, dass aus dieser Annahme ihre Gültigkeit auch für l + 1 folgt. 4.3 Das Prinzip von Inklusion und Exklusion 107 l Es sei A = U Ai . Dann ist gemäß Induktionsanfang i =1 l +1 U Ai = A ∪ Al +1 = A + Al +1 − A ∩ Al +1 . i =1 Nach Induktionsannahme ist ∑ } (− 1) { l A = U Ai = i =1 1+ I I ⊆ 1, ..., l und I ≠∅ ⋅ I Ai . i∈I Die in Satz 1.1-1 (vi) formulierten Distributivgesetze gelten auch für mehr als drei Mengen, so dass gilt: l ⎛l ⎞ A ∩ Al +1 = ⎜ U Ai ⎟ ∩ Al +1 = U ( Ai ∩ Al +1 ) . i =1 ⎝ i=1 ⎠ Hierbei handelt es sich also um die Vereinigung von l Mengen der Form Ai ∩ Al +1 , so dass die Induktionsannahme anwendbar ist: A ∩ Al +1 = U ( Ai ∩ Al +1 ) = l i =1 ∑ } (− 1) { 1+ I I ⊆ 1, ..., l und I ≠∅ ⋅ I ( Ai ∩ Al +1 ) . i∈I Insgesamt ergibt sich l +1 U Ai = i =1 ∑ } (− 1) { 1+ I I ⊆ 1, ..., l und I ≠∅ ⋅ I Ai + Al +1 − i∈I ∑ } (− 1) { 1+ I I ⊆ 1, ..., l und I ≠∅ ⋅ I ( Ai ∩ Al +1 ) . i∈I In der ersten Summe lautet die Bedingung des Laufindex „ I ⊆ {1, ..., l } und I ≠ ∅ “. Man verändert nichts, wenn man diese durch „ I ⊆ {1, ..., l + 1 } und I ≠ ∅ und l +1 ∉ I “ ersetzt. In der zweiten Summe lautet die Bedingung des Laufindex ebenfalls „ I ⊆ { 1, ..., l } und I ≠ ∅ “, allerdings taucht als Summand nicht I Ai , sondern I ( Ai ∩ Al +1 ) auf, d.h. die i∈I i∈I durch den jeweiligen Laufindex I bestimmten Mengen Ai werden noch mit Al +1 geschnitten; man kann also zu jedem Laufindex I noch den Index l + 1 hinzunehmen. In der zweiten Summe wird die Bedingung „ I ⊆ { 1, ..., l } und I ≠ ∅ “ des Laufindex durch „ I ⊆ {1, ..., l + 1 } und I ≠ ∅ und l +1 ∈ I “ ersetzt und die Summanden entsprechend ange- 108 4 Ausgewählte Themen der Kombinatorik passt; der Summand Al +1 kann in die Summe mit aufgenommen werden ( I = { l + 1 } ). Damit wird die letzte Gleichung zu l +1 U Ai = i =1 = ∑ } (− 1) { ⋅ I Ai + ∑ } (− 1) { ⋅ I Ai . 1+ I i∈I I ⊆ 1, ..., l +1 und I ≠∅ und l +1∉I 1+ I ∑ } (− 1) { 1+ I I ⊆ 1, ..., l +1 und I ≠∅ und l +1∈I ⋅ I Ai i∈I i∈I I ⊆ 1, ..., l +1 und I ≠∅ Die Formel in Satz 4.3-1 gilt also auch für l + 1 Teilmengen. Eine direkte Folgerung aus Satz 4.3-1 ist der folgende Satz 4.3-2: Es seien A1 , ..., Al Teilmengen einer endlichen Menge M, l ≥ 1 Dann ist die Anzahl der x ∈ M , die in keiner der Mengen A1 , ..., Al liegen, gleich M + ∑ } (− 1) { I I ⊆ 1, ..., l und I ≠∅ ⋅ I Ai . i∈I Die Formel ergibt sich wie folgt: l l i =1 i =1 M \ U Ai = M − U Ai = M − ∑ } (− 1) { 1+ I = M + ∑ } (− 1) { I ⊆ 1, ..., l und I ≠∅ ⋅ I Ai i∈I I ⊆ 1, ..., l und I ≠∅ I nach Satz 4.3 - 1 ⋅ I Ai . i∈I Beide Sätze finden ihre Anwendung in vielen Teilen der Mathematik. Als Beispiel dient der Beweis von Satz 4.2-4: Es seien A und B endliche Mengen mit A = n und B = m und n ≥ m , A = { a1 , ..., an } , B = { b1 , ..., bm } . Die Mengen Ai werden definiert durch 4.3 Das Prinzip von Inklusion und Exklusion Ai = { f f : A → B und es gibt kein a ∈ A mit f (a ) = bi } 109 für i = 1, ..., m . Eine Abbildung f : A → B ist damit genau dann surjektiv, wenn f in keiner der Mengen Ai für i = 1, ..., m enthalten ist. Es sei M = { f f : A → B }. Nach Satz 4.3-1 ist M = m n . In der Terminologie von Satz 4.3-2 wird die Anzahl der f ∈ M gesucht, die in keiner der Mengen A1 , ..., Am liegen. Diese Anzahl ist M + ∑ } (− 1) { I ⊆ 1, ..., m und I ≠∅ I ⋅ I Ai = m n + i∈I ∑ } (− 1) { I ⊆ 1, ..., m und I ≠∅ I ⋅ I Ai . i∈I Für I ⊆ {1, ..., m } mit I ≠ ∅ wird I Ai betrachtet. Für jedes f ∈ I Ai gilt: es gibt kein i∈I i∈I a ∈ A , das durch f auf bi abgebildet wird, wobei i ∈ I ist. Also ist f eine Abbildung f : A → B \ { bi i ∈ I } . Ist umgekehrt f eine Abbildung mit f : A → B \ { bi i ∈ I } , so ist f ∈ I Ai . Daher ist nach i∈I Satz 4.2-1 I Ai = i∈I {f } f : A → B \ { bi i ∈ I } = (m − I ) . n ⎛ m⎞ Nach Satz 4.1-4 gibt es ⎜⎜ ⎟⎟ viele Teilmengen I ⊆ {1, ..., m } mit Mächtigkeit I . Damit ⎝I⎠ wird 110 M + 4 Ausgewählte Themen der Kombinatorik ∑ } (− 1) { I ⊆ 1, ..., m und I ≠∅ I ⋅ I Ai = m n + i∈I = mn + ∑ } (− 1) { I ⊆ 1, ..., m und I ≠∅ I ⋅ I Ai i∈I ∑ (−} 1) ⋅ (m − I ) { I n I ⊆ 1, ..., m und I ≠∅ m k ⎛m⎞ n = m n + ∑ (− 1) ⋅ ⎜⎜ ⎟⎟(m − k ) k =1 ⎝k⎠ m k ⎛m⎞ n = ∑ (− 1) ⋅ ⎜⎜ ⎟⎟(m − k ) k =0 ⎝k⎠ ⎛ m ⎞n ⎟⎟i ⋅ ⎜⎜ i =0 ⎝m −i⎠ m m −i ⎛ m ⎞ = ∑ (− 1) ⋅ ⎜⎜ ⎟⎟i n . i =0 ⎝i⎠ m = ∑ (− 1) m −i Das ist das Ergebnis aus Satz 4.2-4. mit der Indextransformation i = m − k mit Satz 4.1 - 3 (vi) 5 Ausgewählte Themen der Analysis Die für praktische Anwendungen wichtigsten Themen der Analysis werden im mathematischen Schulunterricht behandelt. Daher kann das vorliegende Kapitel als Wiederholung und Vertiefung dieser Themen betrachtet werden. 5.1 Folgen und Reihen Wird jedes n ∈ N nach einer bestimmten Vorschrift eine reelle Zahl an ∈ R zugeordnet, so entsteht eine reellwertige Zahlenfolge a 0 , a1 , a2 , .... Sie wird mit ( an ) n∈N bezeichnet. an heißt auch n-tes Folgenglied von ( an ) n∈N . In der Regel stellt a n eine von n abhängige Formel dar. Beispielsweise ist für an = n + 1 − n : (a n )n∈N = ( n +1 − n ) n∈N . Die Definition einer Folge kann auf unterschiedliche Weise geschehen, wie das folgende Beispiel zeigt: a0 = 1, a1 = 2, a2 = 4, a3 = 8, ..., an = 2 n , ... oder (an )n∈N = (2n )n∈N oder als rekursive Definition a0 = 1, an = 2 ⋅ an−1 für n ≥ 1 . Eine Zahl a ∈ R heißt Grenzwert (Limes) der Folge ( an ) n∈N , wenn folgender Sachverhalt gilt: 112 5 Ausgewählte Themen der Analysis Für jedes ε ∈ R mit ε > 0 gibt es eine (eventuell von ε abhängige) natürliche Zahl n0 = n 0 (ε ) mit der Eigenschaft: Für jedes n ∈ N mit n ≥ n0 gilt an − a < ε . Die Folge heißt dann gegen a konvergent (sie konvergiert gegen a), und man schreibt a = lim an bzw. an → a für n → ∞ . n→∞ Die Konvergenz der Folge ( an ) n∈N gegen den Wert a ∈ R bedeutet anschaulich, dass bei Vorgabe eines beliebig kleinen Werts ε > 0 alle Folgenglieder an , bis auf höchstens endlich viele Ausnahmen („fast alle“ Folgenglieder), „dicht“ bei a, genauer einen Abstand von a haben, der kleiner als ε ist. Verkleinert man ε auf den Wert ε ′ < ε , so steigt eventuell die Anzahl der Ausnahmen, die nicht dicht bei a liegen; es bleiben aber weiterhin höchstens endlich viele Ausnahmen. Beispiel: Die Folge (a n )n∈N = ( n +1 − n ) n∈N konvergiert gegen 0: Gibt man ε > 0 vor und setzt ⎡⎛ 1 ⎞ 2 ⎤ n0 = n0 (ε ) = ⎢⎜ ⎟ ⎥ + 1 , so gilt für n ≥ n0 : ⎢⎝ 2 ⋅ ε ⎠ ⎥ ( ) n +1 − n − 0 = n +1 − n ( )( ) n +1 − n n +1 + n n +1 + n 1 = n +1 + n 1 < (wegen n + 1 > n ) 2⋅ n 1 ≤ 2 ⋅ n0 = < (2 ⋅ ε )2 = ε 2 (nach Wahl von n0 ). Wie man sieht, ist es nicht immer ganz leicht, bei Vorgabe von ε > 0 die passende Zahl n0 (ε ) zu finden, von der an alle Folgenglieder dicht beim Grenzwert a liegen, den man zudem be- 5.1 Folgen und Reihen 113 reits kennen oder vermuten muss. Häufig berechnet man die Werte an einiger Folgenglieder für wachsende Werte von n. Falls man sieht, dass sich diese Werte einer Größe a annähern, stellt man die allgemeine Ungleichung an − a < ε auf und versucht diese nach n aufzulösen. Ergibt sich dabei eine Ungleichung der Form „ n > ... “, dann kann man als n0 (ε ) die kleinste natürliche Zahl wählen, von der an die Ungleichung „ n > ... “ gilt: Beispiel: Für die Folge (an )n∈N ⎛ 2n + (− 1)n ⎞ ⎟ werden zunächst einige Werte berechnet: = ⎜⎜ ⎟ 2n ⎝ ⎠ n∈N 2 3 4 5 10 15 n 0 1 an 2 1 2 5 4 7 8 17 16 31 32 1025 1024 32 767 32 768 100 1,0000000000000000000000000000008 Die Vermutung liegt nahe, dass diese Folge gegen a = 1 konvergiert, also wird versucht, die Ungleichung an − 1 < ε nach n aufzulösen: (− 1) = 1 < ε , d.h. 2n > 1 ε . 2n + (− 1) −1 = n 2 2n 2n n an − 1 = n Man kann die nächstgrößere 2er-Potenz oberhalb 1 ε wählen, und n0 ist dann der Exponent in dieser 2er-Potenz. Für jedes n ≥ n0 ist dann 2 n ≥ 2 n0 > 1 ε bzw. an − 1 = 1 2 n ≤ 1 2 n0 < ε . Eine Folge, die nicht konvergent ist, also keinen Grenzwert hat, heißt divergent. Für eine divergente Folge gilt entweder: (i) es gibt mindestens zwei reelle Zahlen a ∈ R und b ∈ R mit a ≠ b , so dass es sowohl beliebig dicht bei a als auch beliebig dicht bei b unendlich viele Folgenglieder gibt oder: (ii) die Werte an werden mit wachsendem n beliebig groß bzw. beliebig klein (Schreibweise dann an → ∞ , lim a n = ∞ , bzw. an → −∞ , lim a n = −∞ ). n →∞ n →∞ Im Fall (i) sagt man, die Folge habe mindestens zwei verschiedene (reelle) Häufungspunkte. ( Beispielsweise besitzt die Folge (an )n∈N = (− 1) und ist daher nicht konvergent. n ) n∈N die beiden Häufungspunkte + 1 und − 1 114 5 Ausgewählte Themen der Analysis Eine gegen eine reelle Zahl a konvergente Folge besitzt nur den einzigen Häufungspunkt a, der dann auch Grenzwert der Folge ist. Satz 5.1-1: (i) Jede Folge ( an ) n∈N , die gegen einen Grenzwert konvergiert, ist beschränkt, d.h. es gibt eine Konstante C ∈ R mit an < C für alle n ∈ N . (ii) Konvergiert die Folge ( an ) n∈N gegen a ∈ R , so ist a eindeutig bestimmt. Die Limesbildung und das Rechnen mit arithmetischen Ausdrücken ist häufig miteinander vertauschbar. So kann man den Grenzwert einer Folge, deren Folgenglieder sich als arithmetischer Ausdruck (gebildet mit den Operatoren +, − , . und /) von Folgenglieder konvergenter Folgen darstellen lassen, dadurch berechnen, dass man die Limesbildung in den arithmetischen Ausdruck hineinzieht: Man berechnet die Grenzwerte der einzelnen Teile und verknüpft diese dann gemäß dem arithmetischen Ausdruck. Konstante Faktoren, die nicht von n abhängen, kann man jeweils vor den Limes ziehen. Die Grundlage dieses Kalküls liefert der folgende Satz. 5.1 Folgen und Reihen 115 Satz 5.1-2: Es seien ( an ) n∈N bzw. ( bn ) n∈N zwei konvergente Folgen mit den Grenzwerten a bzw. b. Dann gilt: (i) lim( a n ± bn ) = a ± b , n →∞ lim( a n ⋅ bn ) = a ⋅ b . n →∞ (ii) Für r ∈ R ist lim( r ⋅ a n ) = r ⋅ lim a n = r ⋅ a . n →∞ n→∞ ⎛a ⎞ a (iii) Gilt b ≠ 0 und bn ≠ 0 für alle n ∈ N , so ist lim ⎜ n ⎟ = . n →∞ ⎝ b ⎠ b n (iv) Aus lim a n = a kann man lim a n = a schließen. n →∞ n →∞ Für a = 0 gilt auch die Umkehrung: lim a n = 0 impliziert lim a n = 0 . n →∞ (v) n →∞ Jede (fast überall) konstante Folge ( an ) n∈N konvergiert, genauer: Ist a n = a für (fast) alle n ∈ N , so ist lim a n = a . n→∞ „Ähnlich“ aussehende Folgen verhalten sich bezüglich der Konvergenz häufig sehr unterschiedlich: So ist die durch 2 n + ( −2) n an = 2n definierte Folge ( a n ) n∈N nicht konvergent. Dagegen konvergiert die durch bn = 2 n + ( −2 ) n 3n definierte Folge (bn ) n∈N gegen 0. 116 5 Ausgewählte Themen der Analysis Häufig ist das Konvergenzverhalten einer Folge ( an ) n∈N zu untersuchen. Ist eine Zahl a ∈ R „verdächtig“, Grenzwert der Folge ( an ) n∈N zu sein, so lässt sich durch Rückgriff auf die Definition des Limesbegriffs nachprüfen, ob die Folge tatsächlich konvergiert, und zwar gegen a, d.h. ob lim a n = a gilt. Kann man einer Folge, ohne von ihrem möglichen Grenzwert etwas n→∞ zu wissen, ansehen, dass sie konvergiert? Die folgenden Sätze liefern einige Konvergenzkriterien für Folgen. Daneben gibt es eine Reihe weiterer Konvergenzkriterien, die mit Hinweis auf die angegebene Literatur hier nicht angeführt werden. Satz 5.1-3: Es seien ( an ) n∈N bzw. ( bn ) n∈N zwei konvergente Folgen mit den Grenzwerten a bzw. b. Dann gilt: (i) Es seien ( an ) n∈N und ( bn ) n∈N zwei konvergente Folgen mit demselben Grenzwert a ∈ R . Für fast alle Folgenglieder c n der Folge ( cn ) n∈N gelte a n ≤ c n ≤ bn . Dann konvergiert auch die Folge ( cn ) n∈N , und zwar zum selben Grenzwert a. (ii) Jede beschränkte und monoton wachsende Folge konvergiert, und ihr Limes ist gleich der kleinsten oberen Schranke (Supremum) ihrer Wertemenge. Jede beschränkte und monoton fallende Folge konvergiert, und ihr Limes ist gleich der größten unteren Schranke (Infimum) ihrer Wertemenge. Eine unbeschränkte, monoton wachsende bzw. monoton fallende Folge strebt gegen ∞ bzw. – ∞ . Bemerkung: Nicht jede beschränkte Folge ist konvergent. (iii) Jede Umordnung und jede Teilfolge einer konvergenten Folge ist ebenfalls konvergent mit demselben Grenzwert. Dasselbe gilt, wenn man endlich viele Folgenglieder einer konvergenten Folge abändert. 5.1 Folgen und Reihen 117 Das folgende Konvergenzkriterium von Cauchy gibt eine notwendige und hinreichende Eigenschaft der Konvergenz einer Folge an: Satz 5.1-4: Eine Folge ( an ) n∈N ist genau dann konvergent, wenn es zu jedem ε ∈ R mit ε > 0 eine natürliche Zahl n 0 = n 0 (ε ) gibt, so dass gilt: a n − a m < ε für jedes n ∈ N und jedes m ∈ N mit n ≥ n0 und m ≥ n0 . Der folgende Satz liefert einige Beispiele konvergenter und divergenter Folgen. 118 5 Ausgewählte Themen der Analysis Satz 5.1-5: (i) Es sei q ∈ R . Dann gilt ⎧0 für − 1 < q < 1 lim q n = ⎨ ; n→∞ ⎩1 für q = 1 ( ) für q > 1 und q ≤ −1 ist q n n∈N divergent. Ist k ∈ N und q < 1, so ist lim( n k q n ) = 0 . n→∞ (ii) Es sei a ∈ R . Dann ist für a < 0 für a = 0 für a > 0 ⎧0 ⎪ lim n = ⎨ 1 n →∞ ⎪∞ ⎩ a . (iii) Für jedes a ∈ R ist an = 0. n →∞ n ! lim n (iv) 1 lim ⎛⎜1 + ⎞⎟ = e = 2.7182818284590... ; n →∞ ⎝ n⎠ e heißt Eulersche Konstante. (vi) Die Folge ( n) n∈N divergiert: mit wachsendem n werden die Folgenglieder belie- big groß. Hingegen werden die Zuwächse von einem Folgenglied zum nächsten mit wachsendem n beliebig klein; denn die Folge ( n +1 − n ) n ∈N konvergiert gegen 0. 1⎞ ⎛ 1 1 (vii) Die Folge ⎜1 + + + ... + ⎟ divergiert. n ⎠ n∈N ⎝ 2 3 5.1 Folgen und Reihen 119 Das Beispiel in Satz 5.1-5 (vii) zeigt eine Folge in einer speziellen Form: Das n-te Folgenglied ist selbst eine Summe aus einer endlichen Anzahl von Summanden, die aus einer Folge stammen, die nach einer einheitlichen Gesetzmäßigkeit aufgebaut ist. Derartige Folgen sollen nun genauer betrachtet werden. Zur Zahlenfolge ( a n ) n∈N wird eine neue Zahlenfolge ( s n ) n∈N durch n sn = ∑ ai i=0 definiert. Der Wert s n heißt n-te Partialsumme von ( a n ) n∈N : s0 = a0 , s 1 = a 0 + a1 , ... s n = a 0 + a1 + ... a n = s n −1 + a n . ⎛ n ⎞ Falls der Grenzwert lim s n = lim ⎜ ∑ a i ⎟ existiert, so heißt er unendliche Reihe der Folge n →∞ n →∞ ⎝ ⎠ i=0 (a n ) n∈N und wird mit ∞ ∑a i i= 0 bezeichnet. Gelegentlich schreibt man auch ∞ ∑a i= 0 i = a 0 + a1 + a 2 + ... 120 5 Ausgewählte Themen der Analysis Satz 5.1-6: ∞ Existiert der Grenzwert ∑a i i= 0 ∞ ∑a i , so konvergiert die Folge ( a n ) n∈N gegen 0, d.h. aus < ∞ folgt lim a n = 0 . n →∞ i= 0 Bemerkung: Die Umkehrung dieser Aussage gilt i.a. nicht, d.h. aus der Konvergenz der Folge (a n ) n∈N ∞ gegen 0 folgt i.a. nicht die Existenz von ( n) Folge (an )n∈N = 1 n∈N , wie das Beispiel der konvergiert gegen 0, aber die n∈N ⎛ n Folge der n-ten Partialsummen (sn )n∈N = ⎜⎜ ∑ 1 i ⎝ i _1 (vii)). i i= 0 ( n) zeigt: die Folge 1 ∑a ⎞ ⎟ konvergiert nicht (Satz 5.1-5 ⎟ ⎠ Satz 5.1-7: ∞ Es seien ∑ ai und i= 0 ∞ (i) (ii) ∞ ∑b i konvergent. Dann gilt: i für jedes c ∈ R . i= 0 ∞ ∑ ( c ⋅ a ) = c ⋅∑ a i i=0 i=0 ∞ ∞ ∞ i=0 i=0 i=0 ∑ (ai ± bi ) = ∑ a i ± ∑ bi . ∞ Zur Berechnung von ∑a i sind folgende Schritte erforderlich: i= 0 1. Schritt: n Man bildet die n-te Partialsumme sn = ∑ a i . Falls möglich, findet man hierfür einen gei=0 schlossenen Ausdruck, der von n abhängt. 5.1 Folgen und Reihen 2. Schritt: ⎛ n ⎞ ∞ Man vollzieht den Grenzübergang n → ∞ und erhält lim sn = lim ⎜ ∑ a i ⎟ = ∑ a i . n →∞ n→∞ ⎝ ⎠ i=0 i=0 Es sei m ∈ N . Unter ⎛ n ⎞ a versteht man den Grenzwert der Folge . ⎜ ∑ ai ⎟ ∑ i ⎝ i= m ⎠ n∈N, n≥ m i= m ∞ Satz 5.1-8: ∞ Falls ∑ ai existiert, so existiert auch i= 0 ∞ ∞ m−1 ∑a = ∑a − ∑a i i= m i i= 0 i . i= 0 Der folgende Satz liefert einige Beispiele: ∞ ∑a i= m i für jedes m ∈ N , und es gilt 121 122 5 Ausgewählte Themen der Analysis Satz 5.1-9: (i) Für q ∈ R mit − 1 < q < 1 ist ∞ ∑q i = 1 , 1− q i = q , 1− q i= 0 ∞ ∑q i=1 ∞ ∑ iq i = i= 0 q (1 − q) 2 . ∞ (ii) Die Reihen i ∑ (− 1) i=0 ∞ (iii) ∑ (− 1) i −1 i =1 ∞ und 1 ∑i existieren nicht (sind divergent). i=1 1 1 1 1 n −1 1 ⋅ = 1 − + − + ... + (− 1) ⋅ ± ... = ln (2) 2 3 4 i n ≈ 0,6931471805599 ∞ ∑ (− 1) i =1 i −1 ⋅ π 1 1 1 1 1 n −1 = 1 − + − + ... + ( − 1) ⋅ ± ... = 2i − 1 3 5 7 2n − 1 4 ≈ 0,7853981633974 1 1 1 1 1 π2 1 = + + + + ... + ... = ≈ 1,644934066848 ∑ 2 n2 4 9 16 6 i=1 i ∞ ∞ ∞ 1 1 = =1 . ∑ ∑ i =1 i ⋅ (i + 1) i = 2 i ⋅ (i − 1) ∞ (iv) 1 ∑ iα i =1 konvergiert für jedes α ∈ R mit α > 1 . 5.1 Folgen und Reihen 123 Die rationalen Zahlen werden in Kapitel 1.4 durch { Q = m | m ∈ Z und n ∈ Z und n ≠ 0 n } definiert. Im folgenden wird eine Charakterisierung mit Hilfe ihrer Dezialbruchentwicklung gegeben. Es sei r ∈ R eine reelle Zahl mit 0 ≤ r < 1 , deren Dezimalbruchentwicklung nach endlich vielen Stellen nur noch aus den Ziffern 0 besteht, d.h. nach endlich vielen Stellen abbricht: m r = [0, d −1d −2 ... d −m ]10 = ∑ d −i ⋅10−i mit d −i ∈ { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 } für i = 1, ..., m . i =1 Da jeder Summand d −i ⋅10 −i = r = [0, d −1d −2 ... d −m ]10 = d −i eine rationale Zahl ist, gilt auch r ∈ Q . In diesem Fall ist 10i [d −1d −2 ... d −m ]10 10 m (im Zähler steht die natürliche Zahl, deren Dezimalzahldarstellung aus der Ziffernfolge der Dezimalbruchentwicklung besteht, und im Nenner steht die Zahl, deren Dezimaldarstellung von links gelesen aus einer Ziffer 1, gefolgt von m Ziffern 0 besteht). Es sei nun r ∈ R eine reelle Zahl mit 0 ≤ r < 1 , deren Dezimalbruchentwicklung aus einem nichtperiodischen und einem periodischen Teil besteht, etwa [ ] r = 0, d −1d −2 ... d −m d −m−1d −m−2 ... d −m−k ... 10 Hierbei wiederholt sich die Ziffernfolge d − m−1 d − m− 2 ... d − m− k beliebig oft, und es kommen keine nichtperiodischen Abschnitte in der Dezimalziffernfolge mehr vor. Zu beachten ist, dass man mit der Periodennotation nur endlich viele Dezimalziffern notieren muss, obwohl die Zahl in ihrer Dezimaldarstellung unendlich viele Ziffern benötigt. Es ist [ ] r = 0, d −1d −2 ... d −m d −m−1d −m−2 ... d −m−k ... 10 ⎡ ⎤ = [0, d −1d −2 ... d −m ]10 + ⎢0, 00 ...30d −m−1d −m−2 ... d −m−k ...⎥ . 12 ⎣ m−mal ⎦10 Der zweite Summand hat den Wert 124 5 Ausgewählte Themen der Analysis ⎡ ⎤ ...30d −m−1d −m−2 ... d −m−k ...⎥ ⎢0, 00 12 ⎣ m−mal ⎦10 [ ] = 1 10m ⋅ 0, d −m−1d −m−2 ... d −m−k ... 10 ∞ = 1 10m ⋅ ∑ [d −m−1d −m−2 ... d −m−k ]10 (im Zähler die Dezimalzahl d −m−1d −m−2 ... d −m−k ) (10 ) k i i =1 ∞ = 1 10m ⋅ [d −m−1d −m−2 ... d −m−k ]10 ⋅ ∑ i =1 1 (10 ) k i = 1 10m ⋅ [d −m−1d −m−2 ... d −m−k ]10 ⋅ (1 10)k k 1 − (1 10 ) = 1 10m ⋅ [d −m−1d −m−2 ... d −m−k ]10 ⋅ 1 . 10 − 1 (nach Satz 5.1 - 9 (i)) k Insgesamt ergibt sich [ ] r = 0, d −1d −2 ... d −m d −m−1d −m−2 ... d −m−k ... 10 = [d −1d −2 ... d −m ]10 + [d −m−1d −m−2 ... d −m−k ]10 , ( ) 10 m ⋅ 10 k − 1 10 m ( ) (die Dezimaldarstellung der Zahl 10 m ⋅ 10k − 1 besteht von links gelesen aus k Ziffern 9, gefolgt von m Ziffern 0). Auch hier gilt wieder r ∈ Q . Bemerkung: Die Zahl 0,9 ... 0,9 ... = 0,9 9 ... = hat den Wert 1; denn mit m = 1 und k = 1 ist 9 9 + = 1. 10 10 ⋅ (10 − 1) a mit a ∈ N b und b ∈ N mit b ≥ 1 gegeben. Es ist ggT (a, b ) = 1 . Es werden drei Fälle unterschieden: Es sei umgekehrt die rationale Zahl r ∈ Q mit 0 ≤ r < 1 in gekürzter Form r = 1. Fall: b hat die Form b = 2i ⋅ 5 j mit i + j = m ≥ 1 . Dann teilt b die Zahl 2i+ j ⋅ 5i+ j = 10i+ j = 10 m , d.h. 10 m = b ⋅ b′ mit einer natürlichen a a a ⋅ b′ a = m . Da r = < 1 gilt, ist lässt sich erweitern zu Zahl b′ . Der Bruch b b 10 b m 0 ≤ a ⋅ b′ < 10 . Die Darstellung von a ⋅ b′ als Dezimalzahl hat endliche Länge und m −1 lautet a ⋅ b′ = ∑ d l ⋅10l mit den Dezimalziffern d 0 , ..., d m−1 ; zu beachten ist hierbei, l =0 dass a ⋅ b′ als Dezimalziffernfolge a ⋅ b′ = [d m−1 ... d 0 ]10 lautet. Damit ergibt sich 5.1 Folgen und Reihen m−1 a a ⋅ b′ = = b 10 m ∑d l =0 l ⋅10l 10 m m−1 m l =0 l =1 125 = ∑ d l ⋅10l −m = ∑ d m−l ⋅10 −l , also die endliche nichtperiodische Dezimalbruchentwicklung a = [0, d m−1 ... d 0 ]10 . b 2. Fall: ggT (b, 10 ) = 1 . Nach Satz 3.4-2 gilt in diesem Fall 10φ ( b ) ≡ 1 (mod b) . Es gibt also eine kleinste natürliche Zahl m ≤ φ (b) , so dass b die Zahl 10 m − 1 teilt. Wie im 1. Fall lässt sich der a a ⋅ b′ a = m . Wegen 0 ≤ a ⋅ b′ < 10m − 1 hat die Darstellung erweitern zu b 10 − 1 b Bruch m −1 von a ⋅ b′ als Dezimalzahl wieder endliche Länge und lautet a ⋅ b′ = ∑ dl ⋅ 10l mit l =0 den Dezimalziffern d 0 , ..., d m−1 ; wieder ist zu beachten, dass a ⋅ b′ als a ⋅ b′ = [d m−1 ... d 0 ]10 Dezimalziffernfolge ∞ 1 10 − 1 m ( = ∑ (1 10) i =1 ) m i lautet. Nach Satz 5.1-9 (i) gilt und damit ⎞ ⎞ ⎛ ∞ ⎛ m−1 a a ⋅ b′ = m = ⎜ ∑ d l ⋅10l ⎟ ⋅ ⎜ ∑10−m⋅i ⎟ b 10 − 1 ⎝ l =0 ⎠ ⎠ ⎝ i=1 ⎞ ⎛ ∞ ⎞ ⎛ ∞ ⎞ ⎛ ∞ = d 0 ⋅ ⎜ ∑10−m⋅i ⎟ + d1 ⋅10 ⋅ ⎜ ∑10−m⋅i ⎟ + ... + d m−1 ⋅10m−1 ⋅ ⎜ ∑10 −m⋅i ⎟ ⎠ ⎝ i=1 ⎠ ⎝ i=1 ⎠ ⎝ i=1 ⎞ ⎛ ∞ ⎞ ⎞ ⎛ ∞ ⎛ ∞ = ⎜ ∑ d 0 ⋅10−m⋅i ⎟ + ⎜ ∑ d1 ⋅10−m⋅i+1 ⎟ + ... + ⎜ ∑ d m−110−m⋅i+m−1 ⎟ ⎠ ⎝ i=1 ⎠ ⎠ ⎝ i=1 ⎝ i=1 ∞ ( = ∑ d 0 ⋅10−m⋅i + d1 ⋅10−m⋅i+1 + ... + d m−110−m⋅i+m−1 ) i =1 ∞ ⎞ ⎛ m−1 = ∑ ⎜ ∑ dl ⋅10l −m⋅i ⎟ i =1 ⎝ l =0 ⎠ ∞ ⎞ ⎛ m−1 = ∑ ⎜ ∑ d l ⋅10l −m−(i−1)⋅m ⎟ i =1 ⎝ l =0 ⎠ ∞ ⎞ ⎛ m−1 = ∑10 −(i−1)⋅m ⋅ ⎜ ∑ d l ⋅10l −m ⎟ i =1 ⎠ ⎝ l =0 ∞ ⎞ ⎛ m = ∑10−(i−1)⋅m ⋅ ⎜ ∑ d m−l ⋅10−l ⎟ . i =1 ⎠ ⎝ l =1 Diese Zahl in der Darstellung als Dezimalbruchentwicklung lautet 126 5 Ausgewählte Themen der Analysis ⎤ a ⎡ = ⎢0, d m−1 ... d 0 d m−1 ... d 0 d m−1 ... d 0 ...⎥ = 0, d m−1 ... d 0 ... 10 , 424 31 424 31 424 3 ⎥ b ⎢ 1 i =1 i =2 i =3 ⎣ ⎦10 [ ] ist also ein rein periodischer Dezimalbruch. 3. Fall: b hat die Form b = 2i ⋅ 5 j ⋅ b′ mit i + j = m ≥ 1 , b′ > 1 und ggT (b′, 10 ) = 1 . Wie im 1. Fall lässt sich der Bruch a b a a ⋅ 2 j ⋅ 5i a ⋅ 2 j ⋅ 5i . Gilt = i+ j i+ j = b 2 ⋅ 5 ⋅ b′ 10 m ⋅ b′ erweitern zu a ⋅ 2 j ⋅ 5i ≥ 1 , dann kann den Zähler in der Form a ⋅ 2 j ⋅ 5i = k ⋅ b′ + a′ mit k ∈ N und b′ ( ) 0 ≤ a′ = a ⋅ 2 j ⋅ 5i mod b′ < b′ schreiben, d.h. a ⋅ 2 j ⋅ 5i a′ a′ = k + , 0 ≤ < 1 . Ist b′ b′ b′ a ⋅ 2 j ⋅ 5i a′ a ⋅ 2 j ⋅ 5i < 1 , dann hat der Bruch ebenfalls die Form =k+ (mit k = 0 b′ b′ b′ und a′ = a ⋅ 2 j ⋅ 5i ). In beiden Fällen ergibt sich aus ggT (a, b ) = 1 und ggT (b′, 10 ) = 1 , dass auch ggT (a′, b′) = 1 ist; denn für 3.3-2: (( ) ) a ⋅ 2 j ⋅ 5i ≥ 1 folgt mit Satz b′ ( ) und für ⋅ 5 , b′) = 1 . Die Dezimalzahldarstel- ggT (a′, b′) = ggT a ⋅ 2 j ⋅ 5i mod b′, b′ = ggT a ⋅ 2 j ⋅ 5i , b′ = 1 , a ⋅ 2 j ⋅ 5i < 1 ist bereits ggT (a′, b′) = ggT a ⋅ 2 j b′ ( i h −1 lung von k sei k = ∑ d l ⋅10l = [d h−1 ... d 0 ]10 , die Darstellung von l =0 gemäß dem 2. Fall sei [ a′ als Dezimalbruch b′ ] a′ a ⋅ 2 j ⋅ 5i a′ = 0, d n′−1 ... d 0′ ... 10 Dann hat =k+ die Dezimalb′ b′ b′ [ ] a ⋅ 2 j ⋅ 5i a′ a als = k + = d h−1 ... d 0 , d n′ −1 ... d 0′ ... 10 . Die Darstellung von b′ b′ b Dezimalbruch enthält genau dieselbe Ziffernfolge, nur ist das Komma um m Stellen a nach links geschoben, d.h. die Dezimalbruchdarstellung von besteht aus einer b endlichen nichtperiodischen Ziffernfolge, gefolgt von einer endlichen periodischen Ziffernfolge. darstellung Die Betrachtung bezieht sich auf rationale Zahlen r ∈ Q mit 0 ≤ r < 1 . Sie ist natürlich auf ganz Q erweiterbar: { [ ] } Q = z + r | z ∈ Z und (r = [0, d −1d −2 ... d −m ]10 oder r = 0, d −1d −2 ... d −m d −m−1d −m−2 ... d −m−k ... 10 ) , 5.1 Folgen und Reihen 127 d.h. Q besteht aus allen Zahlen, deren gebrochener Anteil in Dezimaldarstellung entweder nach endlich vielen Dezimalziffern abbricht (es folgen nur noch Nullen) oder unendlich periodisch endet. Irrationalen Zahlen haben demzufolge einen gebrochenen Anteil in Dezimaldarstellung, der unendlich und nichtperiodisch ist. ∞ ∑ ai heißt absolut konvergent, wenn die Reihe Eine Reihe i= 0 ∞ ∑a i =0 i konvergiert. Es lässt sich zeigen, dass jede absolut konvergente Reihe auch konvergiert, d.h. aus der Kon∞ ∞ ∑a vergenz von i =0 i ∑a folgt die Konvergenz von i . i= 0 Unter bestimmten Voraussetzungen kann man Reihen miteinander multiplizieren, jedenfalls dann, wenn sie absolut konvergent sind. Die folgende (nichtmathematische) Darstellung liefert die Motivation für die etwas komplizierte Indizierung in den auftretenden Reihen. Zwei ∞ Reihen ∑a ∞ i und ∑b i =0 i= 0 i werden miteinander multipliziert, indem die einzelnen Summanden nach der Summe ihrer Indizes sortiert werden: (a0 + a1 + a2 + a3 + ... an + ...) ⋅ (b0 + b1 + b2 + b3 + ... bn + ...) = n a0 ⋅ b0 + a0 ⋅ b1 + a1 ⋅ b0 + a0 ⋅ b2 + a1 ⋅ b1 + a2 ⋅ b0 + ... + ∑ a j ⋅ bn− j + ... 123 142 4 43 4 144424443 j =0 Indexsumme 1 Indexsumme 2 1 4243 Indexsumme 0 Indexsumme n Satz 5.1-10: ∞ Sind die Reihen ∑ ai = a und i =0 ∞ ∑b i =0 i = b absolut konvergent, so ist auch die Reihe ⎞ ⎛ i ⎜ ∑ ak ⋅ bi−k ⎟ absolut konvergent, und es gilt ∑ i =0 ⎝ k =0 ⎠ ∞ ∞ ⎛ i ∑ ⎜⎝ ∑ a i =0 k =0 k ⎞ ⎛ ∞ ⎞ ⎛ ∞ ⎞ ⋅ bi−k ⎟ = ⎜ ∑ ai ⎟ ⋅ ⎜ ∑ bi ⎟ = a ⋅ b . ⎠ ⎝ i =0 ⎠ ⎝ i =0 ⎠ 128 5 Ausgewählte Themen der Analysis Im allgemeinen ist die Bestimmung des Konvergenzverhaltens einer Reihe nicht einfach, so dass sich die Frage nach Konvergenzkriterien für Reihen stellt. Ein „Negativkriterium“ lie∞ fert Satz 5.1-6: Falls für eine Reihe ∑a i= 0 i die Folge ( a n ) n∈N nicht gegen 0 konvergiert, exis- ∞ tiert auch der Grenzwert ∑a i nicht. Ein „Positivkriterium“ ergibt sich aus Satz 5.1-3: Ist die i= 0 ⎞ ⎛ n monoton wachsend und nach oben beschränkt, so konvergiert Folge ⎜ ∑ ai ⎟ ⎝ i =0 ⎠ n∈N ∞ ∑a i abso- i= 0 lut. Zwei weitere Konvergenzkriterien sind im folgenden Satz zusammengefasst. Satz 5.1-11: (i) (Majorantenkriterium) ∞ Ist ∑b i =0 i absolut konvergent und gilt ai ≤ bi für (fast) alle i ∈ N , so ist auch die ∞ Reihe ∑a i absolut konvergent. i= 0 (ii) (Quotientenkriterium) ∞ Die Reihe ∑a i besitze die Eigenschaft, dass ab einem Index n0 ∈ N stets i= 0 an+1 ≤ q für einen Wert q mit 0 < q < 1 gilt. Dann ist die Reihe an konvergent. Ist ab einem Index stets ∞ ∑a i absolut i= 0 an+1 > 1 , so ist die Reihe divergent. an ∞ xi Es sei x ∈ R . Die Reihe ∑ ist absolut konvergent; denn nach Satz 5.1-11 (ii) ist i =0 i! x x n+1 (n + 1)! x = = <1 2 n x n! n +1 n +1 für jedes n ∈ N mit n > 2 ⋅ x − 1 . Daher ist die Definition der folgenden Funktion sinnvoll. 5.1 Folgen und Reihen 129 Die Funktion ⎧R → ⎪ exp : ⎨ x → ⎪⎩ R xi ∑ i =0 i! ∞ heißt Exponentialfunktion. Wichtige Eigenschaften der Exponentialfunktion und verwandter Funktionen werden in Kapitel 5.5 behandelt. n 1 In Satz 5.1-5 (iv) wurde die Eulersche Konstante als lim ⎛⎜1 + ⎞⎟ = e = 2.7182818284590... n →∞ ⎝ n⎠ ⎛n⎞ 1 1 definiert. Wie man direkt nachrechnet, gilt ⎜⎜ ⎟⎟ ⋅ k ≤ . Daher ist (siehe Kapitel 4.1) k! ⎝k ⎠ n n n ⎛n⎞ 1 1 ⎛ 1⎞ ⎜1 + ⎟ = ∑ ⎜⎜ ⎟⎟ ⋅ k ≤ ∑ . ⎝ n⎠ k =0 ⎝ k ⎠ n k =0 k! n ⎛ n 1⎞ ∞ 1 ⎛ 1⎞ Daraus folgt e = lim⎜1 + ⎟ ≤ lim⎜ ∑ ⎟ = ∑ . Es sei umgekehrt n > m ≥ 1 . Dann ist n→∞ n→∞ ⎝ n⎠ ⎝ k =0 k ! ⎠ k =0 k ! n m ⎛ n ⎞ 1 m ⎛ 1 n n −1 n − k +1⎞ m ⎛ 1 ⎛ 1 ⎞ ⎛ 1⎞ ⎛ k −1 ⎞ ⎞ ⎜ ⎟ + > ⋅ = ⋅ ⋅ ⋅ ⋅ 1 ... ⎟ ∑⎜ ⎟ k ∑⎜ ⎜ ⎟ = ∑ ⎜⎜ ⋅1 ⋅ ⎜1 − ⎟ ⋅ ... ⋅ ⎜1 − ⎟ ⎟. n n ⎠ k =0 ⎝ k ! ⎝ n ⎠ n ⎠ ⎟⎠ ⎝ n⎠ ⎝ k =0 ⎝ k ⎠ n k =0 ⎝ k! n n n m 1 ⎛ 1⎞ Durch Limesbildung folgt e = lim⎜1 + ⎟ ≥ ∑ n→∞ ⎝ n⎠ k =0 k! und durch erneute Limesbildung ∞ 1 1 = ∑ . Insgesamt ergibt sich m→∞ k =0 k! k =0 k! m e ≥ lim ∑ ∞ 1 e = ∑ = exp(1) . i =0 i! Die Exponentialfunktion, die durch die Reihe ∞ xi ∑ i! definiert wird, kann man durch eine end- i =0 liche Summe und einen Restfehlerterm, dessen Größe man abschätzen kann, darstellen: 130 5 Ausgewählte Themen der Analysis Satz 5.1-12: Es sei n ∈ N und x ∈ R mit x ≤ 1 + n . Dann gilt: 2 n +1 n 2⋅ x xi xi exp( x) = ∑ = ∑ + Rn+1 ( x) mit Rn+1 ( x) ≤ . (n + 1)! i =0 i! i =0 i! ∞ Für x = 1 und n = 10 liefert Satz 5.1-12 die Abschätzung R11 (1) < 0,00000006 und damit 2,7182816 ≤ e ≤ 2,718282. 5.2 Eigenschaften reeller Funktionen einer Veränderlichen Im vorliegenden Kapitel werden eine Reihe wichtiger Definitionen vorgestellt, die Eigenschaften reeller Funktionen einer Veränderlichen beschreiben. Zur Erinnerung: Es seien a ∈ R und b ∈ R reelle Zahlen mit a ≤ b . Die Menge [ a, b] = { ]a, b[ = { [ a, b[ = { ]a, b] = { } heißt abgeschlossenes Intervall von a bis b, x ∈ R und a < x < b } heißt offenes Intervall von a bis b, x ∈ R und a ≤ x < b } heißt halboffenes Intervall von a bis b, x ∈ R und a < x ≤ b } heißt halboffenes Intervall von a bis b. x x ∈ R und a ≤ x ≤ b x x x Unter einem Intervall wird ein abgeschlossenes oder offenes oder halboffenes Intervall verstanden. Zusätzlich zu den Intervallen mit reellwertigen Begrenzungspunkten werden folgende Intervalle definiert: ]−∞, a] = { x ]−∞, a[ = { x [ a, ∞[ = { x ]a, ∞[ = { x x ∈ R und x ≤ a x ∈ R und x < a x ∈ R und a ≤ x x ∈ R und a < x }, }, }, } und 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 131 ]−∞, ∞[ = R . Im folgenden sei f : X → R , X ⊆ R , und I ⊆ R sei ein Intervall. f heißt auf I monoton steigend (bzw. monoton fallend), wenn für x 1 ∈ I und x 2 ∈ I gilt: Ist x 1 < x 2 , so ist f ( x1 ) ≤ f ( x 2 ) (bzw. ist x 1 < x 2 , so ist f ( x1 ) ≥ f ( x 2 ) ). Der Graph einer monoton steigenden Funktion fällt also mit wachsenden x-Werten nicht ab; der Graph einer monoton fallenden Funktion steigt also mit wachsenden x-Werten nicht. f heißt auf I streng monoton steigend (bzw. streng monoton fallend), wenn für x 1 ∈ I und x 2 ∈ I gilt: Ist x 1 < x 2 , so ist f ( x1 ) < f ( x 2 ) (bzw. ist x 1 < x 2 , so ist f ( x1 ) > f ( x 2 ) ). f heißt auf I beschränkt, wenn es ein c ∈ R ≥ 0 gibt, so dass für jedes x ∈ I gilt: f ( x ) ≤ c . Der Graph einer beschränkten Funktion verläuft also weder oberhalb von c noch unterhalb von − c . f heißt auf I nach oben beschränkt (bzw. nach unten beschränkt), wenn es ein c ∈ R gibt, so dass für jedes x ∈ I gilt: f ( x ) ≤ c bzw. f ( x ) ≥ c . f heißt konvex über I, wenn für x 1 ∈ I und x 2 ∈ I mit x 1 ≠ x 2 und für jedes l ∈ R mit 0 < l < 1 gilt: f (l ⋅ x 2 + (1 − l ) ⋅ x 1 ) ≤ l ⋅ f ( x 2 ) + (1 − l ) ⋅ f ( x1 ) . 132 5 Ausgewählte Themen der Analysis f(x) f(x2) f(x1) + l (f(x2) - f(x1)) = l f(x2) + (1 - l) f(x1) f(l x2 + (1 - l) x1) konvex f(x1) x1 l x2 + (1 - l) x1 x2 = x1 + l (x2 - x1) Nimmt man also zwei beliebige verschiedene Werte x 1 ∈ I und x 2 ∈ I und verbindet die Punkte ( x 1 , f ( x1 )) und ( x 2 , f ( x 2 )) des Graphen einer über I konvexen Funktion durch eine gerade Linie, so verläuft der Graph zwischen ( x 1 , f ( x1 )) und ( x 2 , f ( x 2 )) unterhalb dieser Verbindungslinie. Betrachtet man diese Verbindungslinie als Annäherung an den Graphen der Funktion zwischen ( x 1 , f ( x1 )) und ( x 2 , f ( x 2 )) , so macht man einen Approximationsfehler in Richtung größerer Werte, d.h. die Approximation liefert zu große Werte. f heißt konkav über I, wenn für x 1 ∈ I und x 2 ∈ I mit x 1 ≠ x 2 und für jedes l ∈ R mit 0 < l < 1 gilt: f (l ⋅ x 2 + (1 − l ) ⋅ x1 ) ≥ l ⋅ f ( x 2 ) + (1 − l ) ⋅ f ( x1 ) . Bei einer konkaven Funktion verläuft der Graph oberhalb der entsprechenden Verbindungslinie. Betrachtet man auch hier wieder die Verbindungslinie zwischen den Punkten ( x 1 , f ( x1 )) und ( x 2 , f ( x 2 )) als Annäherung an den Graphen der Funktion, so liefert sie hier zu kleine Werte. 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 133 f heißt streng konvex über I, wenn für x 1 ∈ I und x 2 ∈ I mit x 1 ≠ x 2 und für jedes l ∈ R mit 0 < l < 1 gilt: f (l ⋅ x 2 + (1 − l ) ⋅ x1 ) < l ⋅ f ( x 2 ) + (1 − l ) ⋅ f ( x1 ) . f heißt streng konkav über I, wenn für x 1 ∈ I und x 2 ∈ I mit x 1 ≠ x 2 und für jedes l ∈ R mit 0 < l < 1 gilt: f (l ⋅ x 2 + (1 − l ) ⋅ x1 ) > l ⋅ f ( x 2 ) + (1 − l ) ⋅ f ( x1 ) . Eine Funktion kann in Teilintervallen ihres Definitionsbereichs (streng) konvex und in anderen Teilintervallen (streng) konkav sein. Die Funktion f : X → R , X ⊆ R heißt stetig im Punkt x 0 ∈ X , wenn gilt: Für jedes ε ∈ R mit ε > 0 gibt es ein δ > 0 , das von ε und x 0 abhängen kann (d.h. δ = δ (ε , x 0 ) ), mit folgender Eigenschaft: Für jedes x ∈ X mit x − x0 < δ ist f ( x ) − f ( x 0 ) < ε . Die Funktion f : X → R heißt stetig in D ⊆ X , wenn f in jedem Punkt x 0 ∈ D stetig ist. Für einen Wert x ∈ R und ein ε > 0 bezeichnet man das offene Intervall { U ε ( x) = { z x − ε < z < x + ε } = z x − z < ε } als ε -Umgebung von x. Mit dieser Bezeichnung bedeutet die Stetigkeit einer Funktion f : X → R in einem Punkt x 0 ∈ X : Zu jeder ε -Umgebung U ( f ( x0 ), ε ) von f ( x 0 ) gibt es eine (von ε und x 0 abhängige) δ Umgebung U ( x0 , δ ) von x0 , die durch f ganz nach U ( f ( x0 ), ε ) abgebildet wird, d.h. für die f (U ( x0 , δ )) ⊆ U ( f ( x0 ), ε ) 134 5 Ausgewählte Themen der Analysis gilt. Anschaulich heißt dieses, dass für ein Argument x, das sich „nahe bei“ x 0 befindet (in der δ -Umgebung U ( x0 , δ ) von x0 ), der Funktionswert f ( x ) „nahe bei“ f ( x 0 ) liegt (in der ε -Umgebung U ( f ( x0 ), ε ) von f ( x0 ) ). Eine „sehr kleine Änderung“ des Arguments, d.h. der Übergang von x0 zu x mit x − x0 < δ , führt zu einer „sehr kleinen Änderung“ von f ( x 0 ) , d.h. der Funktionswert f ( x ) erfüllt f ( x ) − f ( x 0 ) < ε . Insbesondere macht der Graph der Funktion an der Stelle bzw. „nahe“ der Stelle x0 keinen Sprung. Graphen stetiger Funktionen lassen sich in einem Zuge zeichnen, ohne den Zeichenstift abzusetzen. Der Graph einer in x 0 ∈ X stetigen Funktion weist in ( x0 , f ( x0 )) keine Sprungstelle auf. Ändert sich die Funktion f in der Nähe von x 0 langsam, so wird man keine Mühe haben, zu vorgegebenem ε > 0 ein passendes δ > 0 zu finden; ändert sie sich rasch, so wird man δ entsprechend klein wählen müssen. Beispiele: Die Funktion ⎧R >0 f :⎨ x ⎩ → → R 1 x ist stetig in jedem Punkt x 0 ∈ R >0 : Zu ε > 0 kann man δ = δ (ε , x0 ) = ε ⋅ x02 > 0 nehmen. 1 + ε ⋅ x0 Ist nämlich x ∈ X mit x − x0 < δ , so ist f ( x) − f ( x0 ) = 1 x − 1 x0 = x0 − x δ δ . < < x ⋅ x0 x ⋅ x0 x0 ⋅ ( x0 − δ ) Die letzte Ungleichung ergibt sich aus der Annahme x − x0 < δ , die gleichbedeutend ist mit x0 − δ < x < x0 + δ (also gilt insbesondere x0 − δ < x bzw. 1 x < 1 ( x0 − δ ) ). Setzt man δ= δ ε ⋅ x02 ein, so sieht man = ε , also insgesamt f ( x) − f ( x0 ) < ε . 1 + ε ⋅ x0 x0 ⋅ ( x0 − δ ) 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 135 Die Funktion ⎧R ≥ 0 f :⎨ ⎩ x → → R x ist stetig in jedem Punkt x 0 ∈ R ≥ 0 . Zu ε > 0 und x 0 ≥ 0 wähle man z.B. δ = δ (ε , x 0 ) = ε 2 . Man beachte, dass δ hier nur von ε und nicht von x 0 abhängt. Ist nämlich x ∈ X mit x − x0 < δ und x ≠ x0 (für x = x0 gilt sowieso f ( x) − f ( x0 ) = 0 < ε ): f ( x) − f ( x0 ) = x − x0 = ( )( x − x0 ⋅ ( x + x0 x + x0 ) )= x − x0 x + x0 ≤ x − x0 x − x0 . Die letzte Ungleichung folgt aus der binomischen Formel: Sind a ∈ R ≥0 und b ∈ R ≥0 reelle Zahlen, so gilt: a + b ≤ a + b + 2⋅ a ⋅ b = ( ) 2 a+ b ; außerdem gilt a − b ≤ a + b und damit a −b ≤ a +b ≤ a + b . Die obige Ungleichung wird fortgesetzt: f ( x) − f ( x0 ) ≤ x − x0 x − x0 = x − x0 < δ = ε 2 = ε . Wie im Fall der Konvergenz ist das zu vorgegebenem ε > 0 „passende“ δ > 0 nicht immer leicht zu finden; hier ist häufig mathematische Phantasie gefragt. Man kann beispielsweise die konkrete Angabe von δ zunächst offen lassen und versuchen, die Ungleichung f ( x) − f ( x0 ) < ε so umzuformen, dass dort der Ausdruck x − x0 vorkommt, von dem man dann ja annimmt, dass er kleiner als δ ist. Dann versucht man, die so entstandene Ungleichung nach δ aufzulösen. Das folgende Beispiel soll die Vorgehensweise erläutern. Die Funktion ⎧R → R f :⎨ 2 ⎩x → x 136 5 Ausgewählte Themen der Analysis ist in jedem Punkt x0 ∈ R stetig. Zu ε > 0 und x 0 ∈ R setzt man beispielsweise δ = δ (ε , x0 ) = ? Es wird zunächst f ( x) − f ( x0 ) in Abhängigkeit von x − x0 und x0 bestimmt: f ( x) − f ( x0 ) = x 2 − x02 = ( x − x0 ) ⋅ ( x + x0 ) = x − x0 ⋅ x + x0 ≤ x − x0 ⋅ ( x + x0 ) < δ ⋅ (2 ⋅ x0 + δ ). In der letzten Ungleichung wurden die später zu treffende Annahme x − x0 < δ und die aus dieser Ungleichung leicht nachzurechnende Folgerung x < x0 + δ bereits verwendet. Wie ist also δ zu wählen, damit δ ⋅ (2 ⋅ x0 + δ ) < ε ist (hier reicht auch „=“ anstelle von „<“, da ja in der Ungleichungskette bereits „<“ vorkommt)? δ ⋅ (2 ⋅ x0 + δ ) = δ 2 + 2 ⋅ δ ⋅ x0 + x0 − x0 = (δ + x0 ) − x0 = ε 2 2 2 2 ergibt δ = δ (ε , x 0 ) = x0 2 + ε − x0 . 2 Da der Ausdruck unter dem Wurzelzeichen größer als x0 ist, ist auch δ > 0 . Wählt man den so angegebenen Wert von δ , so folgt aus x − x0 < δ die Ungleichung f ( x) − f ( x0 ) < ε . Die Funktion f : X → R heißt gleichmäßig stetig in D ⊆ X , wenn es für jedes ε ∈ R mit ε > 0 ein δ > 0 gibt, das höchstens von ε abhängt (d.h. δ = δ (ε ) ), mit folgender Eigenschaft: Für jedes x ∈ D und für jedes y ∈ D mit x − y < δ ist f ( x ) − f ( y) < ε . Jede in D ⊆ X gleichmäßig stetige Funktion ist dort natürlich auch stetig. Es gibt jedoch stetige Funktionen, die nicht gleichmäßig stetig sind, wie das Beispiel der Funktion ⎧R → R zeigt: f :⎨ 2 ⎩x → x 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 137 Angenommen, f wäre gleichmäßig stetig. Es sei ε > 0 vorgegeben, und δ > 0 sei der zugehörige Wert aus der Definition der gleichmäßigen Stetigkeit. Es wird ein Wert δ ′ gewählt mit 0 < δ ′ < δ und eine große reelle Zahl x ∈ R mit δ ′ ⋅ (2 ⋅ x + δ ′) ≥ ε (einen derartigen Wert x findet man immer, da der Ausdruck links beliebig groß gemacht werden kann). Außerdem wird y = x + δ ′ gesetzt. Dann ist x − y = x − ( x + δ ′) = δ ′ < δ , aber f ( x) − f ( y ) = x 2 − y 2 = y 2 − x 2 = ( x + δ ′) − x 2 = 2 ⋅ x ⋅ δ ′ + δ ′2 = δ ′ ⋅ (2 ⋅ x + δ ′) ≥ ε . 2 Es lässt sich zeigen, dass eine auf R gleichmäßig stetige Funktion „nicht zu schnell wächst“, nämlich höchstens wie eine lineare Funktion (genauer: Ist f : R → R gleichmäßig stetig, so gibt es eine Konstante C > 0 mit f ( x ) ≤ C ⋅ (1 + x ) ). Satz 5.2-1: Sind f : X → R und g: X → R mit X ⊆ R stetig, so auch die folgenden Abbildungen: (i) ⎧X f + g: ⎨ ⎩x (ii) ⎧X f ⋅ g: ⎨ ⎩x (iii) ⎧X f :⎨ ⎩x (iv) ⎧X c⋅ f :⎨ ⎩x → → → → R f ( x ) + g( x ) R f ( x ) ⋅ g( x ) → R → f (x) R → mit c ∈ R → c ⋅ f (x) ../.. (v) ⎧⎪ X Ist g( x 0 ) ≠ 0 , so ist f / g: ⎨ x ⎪⎩ → → R f ( x ) in x ∈ R stetig. 0 g( x ) (vi) Mit f und g ist auch g o f stetig. −1 −1 (vii) Ist f eine bijektive Funktion mit der Umkehrfunktion f , so ist auch f stetig. 138 5 Ausgewählte Themen der Analysis Satz 5.2-2: Die folgenden beiden Aussagen (a) und (b) sind gleichbedeutend: (a) f : X → R ist an der Stelle x 0 ∈ X stetig. und (b) Für jede Folge ( x n ) n∈N mit lim x n = x 0 gilt lim f ( x n ) = f ( x 0 ) . n →∞ n →∞ Mit Hilfe des Satzes 5.2-2 lässt sich häufig nachweisen, dass eine Funktion in einem Punkt x 0 ∈ X nicht stetig ist. Dazu braucht man nur eine einzige Folge ( x n ) n∈N anzugeben, die ge- gen x 0 ∈ X konvergiert, deren Bildwerte unter f aber nicht gegen f ( x 0 ) gehen. Beispiel: Die Funktion R ⎧R → ⎪ für x < 1 x ⎧ f :⎨ x → ⎨ ⎪⎩ ⎩ x + 1 für x ≥ 1 ist in x 0 = 1 nicht stetig. Dazu betrachte man die Folge ( x n ) n∈N mit x n = 1 − 1 (n + 1) . Es gilt lim x n = 1. n →∞ Andererseits ist f ( x n ) = 1 − 1 (n + 1) und f ( x 0 ) = f (1) = 2 , also lim f ( x n ) ≠ f ( x 0 ) . n →∞ Der folgende Satz drückt noch einmal aus, dass der Graph einer stetigen Funktion keine Sprünge aufweist. 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 139 Satz 5.2-3: (Zwischenwertsatz) (i) Es seien a ∈ R und b ∈ R reelle Zahlen mit a ≤ b . Die Funktion f : [a, b ] → R sei im Intervall [a, b] stetig. Außerdem gelte f (a) ≤ 0 ≤ f (b) . Dann gibt es ein γ ∈ [a, b] mit f (γ ) = 0 . (ii) Es seien a ∈ R und b ∈ R reelle Zahlen mit a < b . Die Funktion f : [a, b ] → R sei im Intervall [a, b] stetig. Es gelte f (a) < f (b) . Außerdem sei c ∈ R mit f (a) ≤ c ≤ f (b) . Dann gibt es ein γ ∈ [a, b] mit f (γ ) = c . Es seien X ⊆ R und f : X → R eine Funktion. Das Element x 0 ∈ X heißt Nullstelle von f, wenn f ( x 0 ) = 0 gilt. An einer Nullstelle schneidet der Graph von f die x-Achse. Die Funktion f : X → R besitzt im Punkt x 0 ∈ R den (endlichen) Grenzwert f 0 ∈ R , wenn gilt: Für jedes ε ∈ R mit ε > 0 gibt es ein (von ε abhängiges) δ = δ (ε ) mit folgender Eigenschaft: Für jedes x ∈ X mit x − x 0 < δ ist f ( x ) − f 0 < ε . Zu beachten ist, dass der Wert x 0 nicht zum Definitionsbereich von f gehören muss. Wählt man eine beliebig kleine ε -Umgebung von f 0 , so findet man immer eine δ Umgebung von x 0 , die durch f komplett in diese ε -Umgebung abgebildet wird. In jeder beliebig kleinen ε -Umgebung von f 0 findet man Bildpunkte (unter f), deren Urbilder nahe bei x 0 liegen (zu beachten ist, dass x 0 nicht zu X zu gehören braucht). Schreibweise: lim f ( x ) = f 0 . x → x0 Die Funktion f : X → R besitzt in x P ∈ R einen Pol, wenn gilt: 140 5 Ausgewählte Themen der Analysis Für jedes K ∈ R mit K > 0 gibt es ein (von K abhängiges) δ = δ ( K ) mit folgender Eigenschaft: Für jedes x ∈ X mit x − x P < δ ist f ( x ) > K . Die Funktionswerte wachsen über jede Grenze, wenn man sich dem Wert x P nähert. Dabei ist zu beachten , dass x P nicht zu X gehört. Schreibweise: lim f ( x ) = ±∞ . x→ xP Satz 5.2-4: Die folgenden beiden Aussagen (a) und (b) sind gleichbedeutend: (a) lim f ( x ) = 0 x→ xP und (b) Die durch ⎛⎜ 1 ⎞⎟( x ) = 1 definierte Funktion besitzt bei x P einen Pol. f ( x) ⎝ f⎠ Die Funktion f : X → R hat für x → ∞ die Asymptote s: X → R , wenn gilt: Für jedes ε ∈ R mit ε > 0 gibt es eine von ε abhängige Konstante C = C(ε ) > 0 mit folgender Eigenschaft: Für jedes x ∈ X mit x > C(ε ) ist f ( x ) − s( x ) < ε . Der Funktionsverlauf von f nähert sich beliebig dicht dem Funktionsverlauf von s an, wenn man x nur genügend groß wählt. Schreibweise: lim f ( x ) − s( x ) = 0 bzw. lim f ( x ) = s( x ) . x →∞ x →∞ 5.3 Polynome 5.3 141 Polynome Ein Polynom ist eine Funktion p : R → R , zu deren Berechnung man mit den Rechenoperationen Addition, Subtraktion und Multiplikation auskommt. ( ) Beispielsweise wird durch p ( x) = ( x − 1) ⋅ x 2 + 5 − 2 ⋅ x 7 = − 2 ⋅ x 7 + x 3 − x 2 + 5 ⋅ x − 5 ein Polynom definiert. Polynome lassen sich immer auf eine „standardisierte“ Form bringen: Eine Funktion ⎧R → R p:⎨ n n −1 ⎩ x → an ⋅ x + an−1 ⋅ x + ... a1 ⋅ x + a0 mit reellen Konstanten a n , a n −1 , ... , a1 , a 0 und a n ≠ 0 heißt Polynom vom Grad n. n Für p( x) = an ⋅ x n + an−1 ⋅ x n−1 + ... a1 ⋅ x + a0 schreibt man wie üblich p( x)= ∑ ai ⋅ x i . i =0 Beispiele: ( ) Die durch p ( x) = ( x − 1) ⋅ x 2 + 5 − 2 ⋅ x 7 = − 2 ⋅ x 7 + x 3 − x 2 + 5 ⋅ x − 5 definierte Funktion ist ein Polynom vom Grad 7. Die durch p ( x) = 5 ⋅ ( x 2 − x) ⋅ x 2 + 2,5 definierte Funktion ist ein Polynom vom Grad 4. Die durch p( x) = 3 ⋅ x 2 − x + 9 definierte Funktion ist kein Polynom. 142 5 Ausgewählte Themen der Analysis Polynome vom Grad 0: p( x ) = a 0 = const . Hier wird auch a0 = 0 zugelassen. Der Graph eines Polynoms vom Grad 0 ist eine Gerade, die im (x, y)-Koordinatensystem parallel zur x-Achse verläuft und die y-Achse im Punkt ( 0,a 0 ) schneidet. Polynome vom Grad 1: p( x) = a1 ⋅ x + a0 mit a1 ≠ 0 Die einzige Nullstelle ist x 0 = − a0 . a1 Der Graph eines Polynoms 1. Grades ist eine Gerade und schneidet im (x, y)Koordinatensystem die y-Achse im Punkt ( 0,a 0 ) . Polynome vom Grad 2: p( x) = a2 ⋅ x 2 + a1 ⋅ x + a0 mit a 2 ≠ 0 Es gibt zwei oder eine oder keine reelle Nullstelle. Die Nullstellen berechnen sich zu 2 x01, 02 = − a1 a1 a ± − 0 . 2 2 ⋅ a2 4 ⋅ a2 a2 2 Diese sind nur dann reellwertig, wenn a1 ≥ 4 ⋅ a2 ⋅ a0 ist. Ein häufig auftretender Spezialfall ist das Polynom der Form p( x) = x 2 + p ⋅ x + q mit p ∈R und q ∈ R . Dieses Polynom hat die Nullstellen x 01, 02 p =− ± 2 p2 −q. 4 5.3 Polynome 143 Die Bedingung für die Reellwertigkeit der Nullstellen lautet p 2 − 4 ⋅ q ≥ 0 . Der Graph eines Polynoms 2.Grades ist eine Parabel, die für a 2 > 0 nach oben und für a 2 < 0 nach unten geöffnet ist. Ist a 2 > 0 (bzw. a 2 < 0 ), so wird der minimale (bzw. maximale) Wert des Polynoms p( x) = a2 ⋅ x 2 + a1 ⋅ x + a0 an der Stelle xS = − a1 2 ⋅ a2 2 angenommen; der Funktionswert lautet dabei p( xS ) = a0 − a1 . 4 ⋅ a2 Im Spezialfall p( x) = x 2 + p ⋅ x + q lauten die entsprechenden Werte xS = − p 2 und p( x S ) = q − ⎛⎜⎝ p 2 ⎞⎟⎠ . 2 Polynome vom Grad ≥ 3 : Für Polynome 3. und 4. Grades gibt es noch eine geschlossene Formel zur Nullstellenbestimmung, für Polynome höheren Grades i.a. nicht. 144 5 Ausgewählte Themen der Analysis Satz 5.3-1: (i) p( x) = an ⋅ x n + an−1 ⋅ x n−1 + ... + a1 ⋅ x + a0 = n ∑a ⋅ x i =0 i i sei ein Polynom vom Grad n und x 0 eine Nullstelle von p (d.h. p( x 0 ) = 0 ). Dann gibt es ein Polynom p1 vom Grad n − 1 mit p( x ) = ( x − x 0 ) ⋅ p1 ( x ) . Man kann also den Linearfaktor x − x 0 aus p( x ) ausklammern. Im Spezialfall p( x ) = x n − a n mit a ≠ 0 lautet eine Nullstelle x 0 = a . Es ist n −1 p( x) = x n − a n = ( x − a) ⋅ ∑ a n−i−1 ⋅ x i . i =0 (ii) Ein Polynom vom Grad n hat höchstens n viele reelle Nullstellen. (iii) Ein Polynom von ungeradem Grad hat mindestens eine Nullstelle. Satz 5.3-2: n Das Polynom p( x) = ∑ ai ⋅ x i vom Grad n habe die reellen Nullstellen x 01 , ... , x 0 m ; i =0 hierbei werden mehrfache reelle Nullstellen jeweils auch mehrfach aufgeführt. Dann gilt p( x) = ( x − x01 ) ⋅ ... ⋅ ( x − x0 m ) ⋅ p g ( x) mit einem Polynom p g ( x ) von geradem Grad 2 ⋅ k , das keine reellen Nullstellen hat. Außerdem ist n = m + 2 ⋅ k . 5.4 Gebrochen rationale Funktionen Eine Funktion der Form ⎧⎪ X f :⎨ x ⎪⎩ → → R p( x ) q( x ) n m i =0 j =0 mit X ⊆ R und den Polynomen p( x) = ∑ ai ⋅ x i und q ( x) = ∑ b j ⋅ x j und bm ≠ 0 heißt gebrochen rationale Funktion. An den Nullstellen von q ist f nicht definiert, d.h. der Definitionsbereich von f lautet D( f ) = R \ { x0 | q( x0 ) = 0 }. Skizzierung einer gebrochen rationalen Funktion f: 1. Schritt: Bestimmung aller Nullstellen von p und aller Nullstellen von q. Alle diese Nullstellen seien x 01 , ... , x 0 l . Die Nullstellen von q gehören nicht zum Definitionsbereich von f. Für jede dieser Nullstellen x 0 i von p und q wird der 2. Schritt durchgeführt. 2. Schritt: Es werden 3 mögliche Fälle unterschieden: 1. Fall: x 0 i ist eine Nullstelle von p, aber nicht von q: p( x 0 i ) = 0 und q( x 0 i ) ≠ 0 Es gilt 146 5 Ausgewählte Themen der Analysis f ( x 0i ) = p( x 0 i ) 0 = = 0, q( x 0 i ) q( x 0 i ) d.h. x 0 i ist eine Nullstelle von f. 2. Fall: x 0 i ist keine Nullstelle von p, aber eine Nullstelle von q: p( x 0 i ) ≠ 0 und q( x 0 i ) = 0 Zu beachten ist, dass f für x 0 i nicht definiert ist. Es gilt lim q( x ) 0 x→ x0 i 1 lim f ( x ) = = = 0, x → x0 i lim p( x ) p( x 0 i ) x → x0 i d.h. f besitzt bei x 0 i einen Pol. 3. Fall: x 0 i ist sowohl eine Nullstelle von p, als auch eine Nullstelle von q: p( x 0 i ) = 0 und q( x 0 i ) = 0 Zu beachten ist, dass f für x 0 i nicht definiert ist. Ist x 0 i eine r-fache Nullstelle von p und eine s-fache Nullstelle von q, dann gilt ( x − x 0i ) r ⋅ p1 ( x ) f (x) = ( x − x 0 i ) s ⋅ q1 ( x ) mit p1 ( x 0 i ) ≠ 0 und q1 ( x 0 i ) ≠ 0 . Fall 3a: r > s lim f ( x ) = lim ( x − x 0 i ) x → x0 i x → x0 i r−s ⋅ p1 ( x 0 i ) =0 q1 ( x 0 i ) 5.4 Gebrochen rationale Funktionen 147 Fall 3b: r = s p1 ( x0i ) ≠0 q1 ( x0i ) lim f ( x ) = x → x0 i In beiden Fällen nennt man x 0 i eine behebbare Unstetigkeitsstelle von f, da man f stetig nach x 0 i fortsetzen kann. Fall 3c: r < s lim 1 x→ x0 i f ( x) = lim x→ x0 i (x − x0i )s−r ⋅ q1 ( x) = 0 , d.h. f hat bei p1 ( x) x 0 i einen Pol. 3. Schritt: Es wird das Verhalten von f ( x ) bei x → ±∞ untersucht. Es ist f ( x ) = n m p( x ) , p( x) = ∑ ai ⋅ x i , q ( x) = ∑ b j ⋅ x j und bm ≠ 0 . q( x ) i =0 j =0 Fall 4a: Der Grad von q ist größer als der Grad von p, d.h. m > n . an ⋅ x n + an−1 ⋅ x n−1 + ... + a1 ⋅ x + a0 m−1 x→∞ b ⋅ x m + b + ... + b1 ⋅ x + b0 m m −1 ⋅ x lim f ( x) = lim x→∞ = lim x →∞ an ⋅ 1 + an−1 ⋅ 1 m−( n−1) + ... + a1 ⋅ 1 m−1 + a0 ⋅ 1 m x m−n x x x 1 1 1 bm ⋅ 1 + bm−1 ⋅ + ... + b1 ⋅ m−1 + b0 ⋅ m x x x = 0, d.h. f hat bei x → ±∞ die Asymptote s( x ) = 0 (x-Achse). Fall 4b: Der Grad von q ist nicht größer als der Grad von p, d.h. m ≤ n . Durch Ausdividieren (Polynomdivision) von p( x ) q( x ) erhält man auf eindeutige Weise Polynome s( x ) und r ( x ) mit f ( x ) = s( x ) + r( x ) . Hierbei hat s( x ) den Grad q( x ) n − m und r ( x ) einen kleineren Grad als q( x ) , und es gilt: 148 5 Ausgewählte Themen der Analysis lim f ( x ) = s( x ) , d.h. f hat bei x → ±∞ die Asymptote s( x ) . x →±∞ 5.5 Exponential- und Logarithmusfunktion In Kapitel 5.1 wird die Exponentialfunktion ⎧R → ⎪ exp : ⎨ x → ⎪⎩ R xi ∑ i =0 i! ∞ definiert. Zunächst werden einige Eigenschaften dieser Funktion untersucht. Ein wichtiges Ergebnis, nämlich ∞ 1 exp(1) = ∑ = e = 2,718281... , i =0 i! wird in Kapitel 5.1 hergeleitet. Außerdem gilt ∞ ∞ xi xi = + 1 ∑ { ∑ , und daher exp(0) = 1 . i =0 i =0 i! i =1 i! Mit Satz 5.1-10 ergibt sich ⎛ ∞ xi ⎞ ⎛ ∞ y i ⎞ exp( x) ⋅ exp( y ) = ⎜⎜ ∑ ⎟⎟ ⋅ ⎜⎜ ∑ ⎟⎟ ⎝ i=0 i! ⎠ ⎝ i=0 i! ⎠ ∞ ⎛ i x k y i −k ⎞ ⎟⎟ = ∑ ⎜⎜ ∑ ⋅ i =0 ⎝ k =0 k! (i − k )! ⎠ ∞ ⎛1 i ⎞ i! = ∑ ⎜⎜ ⋅ ∑ ⋅ x k ⋅ y i−k ⎟⎟ i =0 ⎝ i! k =0 k!⋅(i − k )! ⎠ ∞ ⎛1 i⎞ = ∑ ⎜ ⋅ (x + y ) ⎟ ⎠ i =0 ⎝ i! = exp( x + y ) 2 ⎛r r⎞ ⎛ ⎛ r ⎞⎞ Für jedes r ∈ R gilt daher: exp(r ) = exp⎜ + ⎟ = ⎜⎜ exp⎜ ⎟ ⎟⎟ ≥ 0 . Wegen ⎝2 2⎠ ⎝ ⎝ 2 ⎠⎠ 5.5 Exponential- und Logarithmusfunktion 149 1 = exp(0) = exp(r − r ) = exp(r ) ⋅ exp(− r ) ist sogar exp(r ) > 0 . Daher kann der Wertebereich der Exponentialfunktion auf R >0 eingeschränkt werden. Es lässt sich zeigen, dass die so definierte Funktion exp : R → R >0 bijektiv und stetig ist. Für jedes n ∈ N lässt sich der Wert der Exponentialfunktion folgendermaßen berechnen: n exp(n) = exp(11 +4 12 + ... 4+ 31) = (exp(1) ) = e . n n − mal Dieses Ergebnis bedeutet, dass man zur Ermittlung des Werts von exp(n) anstelle der Grenzwertberechnung ∞ ni in R das n-fache Produkt der reellen Zahl e ∈ R bildet. Zur Berech∑ i =0 i! nung des Werts von exp(n) mit Hilfe eines Computers, in dem reelle Zahlen nur approximiert werden können, wird man eher die Reihenentwicklung ∞ ni verwenden und diese nach einer ∑ i =0 i! endlichen Anzahl Summanden, entsprechend der vorgegebenen Genauigkeit zur Darstellung reeller Zahlen, abbrechen. Für eine negative ganze Zahl m ∈ Z ist wegen exp(m) ⋅ exp(− m) = exp(0) = 1 : exp(m) = 1 1 = −m = e m . exp(− m) e Für eine rationale Zahl q = n mit n ∈ N und m ∈ N >0 ist m ⎛ ⎞ m ⎜n n ⎛ n⎟ ⎛ n ⎞⎞ ⎜⎜ exp⎜ ⎟ ⎟⎟ = exp⎜ + + ... + ⎟ = exp(n ) = e n , also m 44 m2443 m⎟ ⎝ m ⎠⎠ ⎝ ⎜1 m-mal ⎝ ⎠ ⎛n⎞ exp⎜ ⎟ = e m . ⎝m⎠ n Für eine rationale Zahl q < 0 ist wegen exp(q ) ⋅ exp(−q ) = exp(q − q ) = exp(0) = 1 : exp(q ) = 1 1 = −q = e q . exp(−q ) e Insgesamt ist also für jedes x ∈ Q gezeigt: exp( x) = e x . 150 5 Ausgewählte Themen der Analysis Aufgrund dieses Ergebnisses verwendet man für alle x ∈ R anstelle von exp(x) die Bezeichnung e x ; zu beachten ist, dass dieses für x ∈ Q bewiesen wurde, für x ∈ R \ Q stellt es eine abkürzende Schreibweise für den Grenzwert der Reihe ∞ xi ∑ i! dar. i =0 Die Ergebnisse fasst folgender Satz zusammen: Satz 5.5-1: (i) Die Exponentialfunktion ⎧R → ⎪ exp : ⎨ x → ⎪⎩ ] 0, ∞ [ ∞ xi ∑ i =0 i! ist bijektiv und stetig und erfüllt die Funktionalgleichung exp( x + y ) = exp( x) ⋅ exp( y ) bzw. e x+ y = e x ⋅ e y . (ii) Es seien x ∈ R und y ∈ R . Dann gilt exp(0) = 1 , exp(1) = e , exp( x − y ) = exp( x) ex bzw. e x− y = y . exp( y ) e Aufgrund von Satz 2.2-1 gibt es zur Exponentialfunktion eine eindeutig bestimmte Umkehrfunktion, die stetig und bijektiv ist (Satz 2.2-1 und Satz 5.2-1). Diese Funktion heißt natürlicher Logarithmus und wird mit ln bezeichnet: R ⎧] 0, ∞ [ → ln : ⎨ → ln( x) ⎩ x Es ist y = ln(x) genau dann, wenn x = e y = exp( y ) gilt. Weiter gilt: Mit z = ln(x) und z′ = ln( y ) ist exp( z + z′) = exp( z ) ⋅ exp( z ′) = x ⋅ y , also 5.5 Exponential- und Logarithmusfunktion 151 ln (exp( z + z ′) ) = z + z ′ = ln( x) + ln( y ) = ln (x ⋅ y ) . Die Ergebnisse und weitere Eigenschaften des natürlichen Logarithmus sind im folgenden Satz zusammengefasst. Satz 5.5-2: (i) Die natürliche Logarithmusfunktion R ⎧] 0, ∞ [ → ln : ⎨ → ln( x) ⎩ x ist bijektiv und stetig und erfüllt die Funktionalgleichung ln ( x ⋅ y ) = ln( x) + ln( y ) . (ii) Es seien x ∈ R >0 und y ∈ R >0 . Dann gilt ln(1) = 0 , ln(e) = 1 , ln ( x y ) = ln( x) − ln( y ) , ( ) ln (e ) = x und e ln x n = n ⋅ ln( x) für jedes n ∈ Z , x ln( x ) = x. Es sei a ∈ R mit a > 0 . Dann heißt die Funktion ] 0, ∞ [ ⎧R → exp a : ⎨ ln( a )⋅x ⎩ x → exp(ln(a) ⋅ x ) = e Exponentialfunktion zur Basis a. Statt exp a ( x) schreibt man a x . 152 5 Ausgewählte Themen der Analysis Satz 5.5-3: Es sei a ∈ R mit a > 0 . (i) Die Exponentialfunktion zur Basis a ] 0, ∞ [ ⎧R → exp a : ⎨ ln( a )⋅x ⎩ x → exp(ln(a) ⋅ x ) = e ist stetig. Für a > 1 ist sie streng monoton steigend, für a < 1 ist sie streng monoton fallend, für a = 1 ist sie konstant 1. Für a ≠ 1 ist die Exponentialfunktion zur Basis a bijektiv. (ii) Es seien x ∈ R und y ∈ R . Dann gilt exp a (0) = 1 bzw. a 0 = 1 , exp a (1) = a bzw. a1 = a , exp a ( x + y ) = exp a ( x) ⋅ exp a ( y ) bzw. a x+ y = a x ⋅ a y , exp a ( x − y ) = exp a ( x) ax bzw. a x− y = y , exp a ( y ) a (exp a (x ))y = exp a ( x ⋅ y ) ( ) bzw. a x y = a x⋅ y . Die letzte Gleichung soll verifiziert werden: (a ) = (exp (x )) = (e x y y = e ln (e a ln( a )⋅ x )⋅ y ) ln ( a )⋅ x y (nach Definition der Exponentialfunktion zur Basis a) (nach Definition der Exponentialfunktion zur Basis e ln( a )⋅x ) = e ln( a )⋅x⋅ y (da der natürliche Logarithmus und die Exponentialfunktion zueinander invers sind) = a x⋅ y (nach Definition der Exponentialfunktion zur Basis a). Für x ∈ R und y ∈ R mit y > 0 lässt sich nun auch der Ausdruck y x sinnvoll definieren: y x = e ln( y )⋅x . 5.5 Exponential- und Logarithmusfunktion Beispielsweise ist 1x = e ln(1)⋅x = e 0⋅x = 1 , und Werte wie π 2 153 oder 2e machen einen Sinn. Für a ∈ R mit a > 0 und a ≠ 1 heißt die zur Exponentialfunktion exp a existierende Um−1 kehrfunktion exp a , die Logarithmusfunktion zur Basis a und wird mit log a bezeichnet: R ⎧] 0, ∞ [ → . log a : ⎨ → log a ( x) ⎩ x Satz 5.5-4: Es sei a ∈ R mit a > 0 und a ≠ 1 . (i) Die Logarithmusfunktion zur Basis a R ⎧] 0, ∞ [ → log a : ⎨ → log a ( x) ⎩ x ist bijektiv und stetig und erfüllt die Funktionalgleichung log a ( x ⋅ y ) = log a ( x) + log a ( y ) . (ii) Es seien x ∈ R >0 und y ∈ R >0 . Dann gilt log a (1) = 0 , log a (a ) = 1 , log a ( x y ) = log a ( x) − log a ( y ) , ( ) log (a ) = x und a log a x m = m ⋅ log a ( x) für jedes m ∈ Z , x a log a ( x ) = x. Die folgenden Abbildungen zeigen die Verläufe einiger Exponential- und Logarithmusfunktionen. 154 5 Ausgewählte Themen der Analysis Exponentialfunktionen 10 3 x 8 e x 6 4 2 x 2 0 -2 -1 0 1 2 3 Logarithmusfunktionen 3 ln(x) 2 1 0 -1 -2 -3 -4 0,1 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 5.5 Exponential- und Logarithmusfunktion 155 Die Exponential- und Logarithmusfunktionen zu unterschiedlichen Basen a ∈ R mit a > 0 und a ≠ 1 und b ∈ R mit b > 0 und b ≠ 1 lassen sich ineinander umrechnen. Satz 5.5-5: Es seien a ∈ R und b ∈ R mit a > 0 , a ≠ 1 , b > 0 und b ≠ 1 . (i) Den Zusammenhang zwischen verschiedenen Exponentialfunktionen stellt die Gleichung exp a ( x ) = (exp b ( x )) log b ( a ) bzw. a x = ( b x ) log b ( a ) her. Verschiedene Exponentialfunktionen unterscheiden sich also durch potenzierte Werte. (ii) Der Zusammenhang zwischen verschiedenen Logarithmusfunktionen wird durch die Gleichung log a ( x) = 1 ln( x) ⋅ log b ( x) = log b (a) ln(a ) beschrieben. Verschiedene Logarithmusfunktionen unterscheiden sich also durch konstante Faktoren. ( ) (iii) log a b x = x ⋅ log a (b) . Die Herleitung dieser Gleichungen kann als gute Übung zum Umgang mit Exponential- und Logarithmusausdrücken angesehen werden: Zunächst wird der zweite Teil der Gleichung in (ii) gezeigt. Diese beschreibt, wie sich z = log a ( x) mit Hilfe des natürlichen Logarithmus ausdrücken lässt. Aus z = log a ( x ) folgt nacheinander az = x , e ln( a )⋅z = x ln(a) ⋅ z = ln( x) (Definition der Exponentialfunktion zur Basis a), (Übergang zur Umkehrfunktion, dem natürlichen Logarithmus), 156 5 Ausgewählte Themen der Analysis z = log a ( x) = ln( x) . ln(a) Daraus folgt direkt der erste Teil der Gleichung in (ii): log a ( x) = ln( x) ln( x) ⋅ ln(b) ln( x) ln(b) 1 = = ⋅ = log b ( x) ⋅ . ln(a ) ln(a) ⋅ ln(b) ln(b) ln(a ) log b (a) Die letzte Gleichung entsteht durch Setzen von x = a und a = b in der Formel ln( x) . log a ( x) = ln(a ) Gleichung (i) beschreibt, wie sich die Exponentialfunktion zur Basis a durch die Exponentialfunktion zur Basis b ausdrücken lässt. Dazu wird die Gleichung ax = by zunächst auf die ursprüngliche Definition zurückgeführt, dann nach y aufgelöst und die Gleichung in (ii) verwendet: a x = e ln( a )⋅x = b y = e ln(b )⋅ y ln(a) ⋅ x = ln(b) ⋅ y y= (Definition der Exponentialfunktion zur Basis a bzw. zur Basis b), (Übergang zur inversen Funktion, dem natürlichen Logarithmus), ln(a) ⋅ x = log b (a ) ⋅ x ln(b) (aus (ii)), ( ) a x = b y = b logb ( a )⋅x = b x logb ( a ) (Satz 5.5-3 (ii)). Gleichung (iii) ist eine Verallgemeinerung der Gleichung in 5.5-4 (ii) auf alle reellen Zahlen. Mit der Gleichung aus (ii) ergibt sich: ( ) log a b x = ( ) ( ) ln b x ln e ln(b )⋅x ln(b) ⋅ x = = = x ⋅ log a (b) . ln(a ) ln(a ) ln(a ) Im folgenden sei a > 1 . Die Exponentialfunktion zur Basis a steigt bei wachsendem x schnell an. Es gilt nämlich exp a ( x + 1) = a ⋅ exp a ( x ) bzw. a x +1 = a ⋅ a x , d.h. bei Vergrößerung des Argumentwerts um 1 vergrößert sich der Funktionswert um den Faktor a. Hingegen wachsen die entsprechenden Logarithmusfunktionen sehr langsam. Es gilt nämlich lim ( log a ( x + 1) − log a ( x )) = 0 , d.h. obwohl die Logarithmusfunktion bei wachsendem Argux →∞ mentwert gegen ∞ strebt, nehmen die Funktionswerte letztlich nur noch geringfügig zu: 5.5 Exponential- und Logarithmusfunktion 157 Es gilt nämlich wegen der Stetigkeit der Logarithmusfunktion (mit Satz 5.2-2): ⎛ ⎛ ⎛ n +1⎞⎞ ⎛ n +1⎞⎞ lim(log a (n + 1) − log a (n) ) = lim⎜⎜ log a ⎜ ⎟⎟ = log a ⎜⎜ lim⎜ ⎟ ⎟ ⎟⎟ = log a (1) = 0 . n→∞ n→∞ ⎝ n ⎠⎠ ⎝ ⎝ n→∞⎝ n ⎠ ⎠ Das Wachstumsverhalten der Exponential- und Logarithmusfunktionen im Vergleich mit Polynomen und Wurzelfunktionen zeigt der folgende Satz, dessen Beweis sich aus Überlegungen ergibt, die in Kapitel 5.7 angestellt werden. Satz 5.5-6: Es sei a ∈ R, a > 1 . (i) Es sei p(x ) ein Polynom. Dann gilt: lim p( x ) x→∞ ax = 0, d.h. die Exponentialfunktionen wachsen schneller als alle Polynome. (ii) Für jedes m ∈ N ist m ( log a ( x ) ) lim x→∞ x =0. Man sieht, dass selbst Potenzen von Logarithmusfunktionen im Verhältnis zu Polynomen (sogar zu Polynomen 1. Grades) langsamer wachsen. (iii) Für jedes m ∈ N ist log a ( x ) = 0. m x→∞ x lim Man sieht, dass Logarithmusfunktionen im Verhältnis zu Wurzelfunktionen langsamer wachsen. 158 5 Ausgewählte Themen der Analysis Die folgende Tabelle zeigt fünf Funktionen hi : R > 0 → R, i = 1, ..., 5 und einige ausgewählte (gerundete) Funktionswerte. Spalte 1 Spalte 2 Spalte 3 Spalte 4 Spalte 5 i hi ( x ) hi (10) hi (100) hi (1000) 1 log 2 ( x ) 3,3219 6,6439 9,9658 3,1623 10 31,6228 10 100 100 10.000 1000 1.000.000 1024 1,2676506 ⋅10 30 > 10 693 2 x 3 4 x 5 2x x 2 Die folgende Tabelle zeigt noch einmal die fünf Funktionen hi : R > 0 → R, i = 1, ..., 5 . Es sei y 0 > 0 ein fester Wert. Die dritte Spalte zeigt für jede der fünf Funktionen x-Werte x i mit hi ( x i ) = y 0 . In der vierten Spalte sind diejenigen x-Werte x i aufgeführt, für die ( ) hi x i = 10 ⋅ y 0 gilt, d.h. dort ist angegeben, auf welchen Wert man x i vergrößern muss, damit der Funktionswert auf den 10-fachen Wert wächst. Wie man sieht, muss bei der Logartihmusfunktion wegen ihres langsamen Wachstums der x-Wert stark vergrößert werden, während bei der schnell anwachsenden Exponentialfunktion nur eine additive konstante Steigerung um ca. 3,3 erforderlich ist. Spalte 1 Spalte 2 Spalte 3 Spalte 4 i hi ( x ) x i mit hi ( x i ) = y 0 x i mit hi x i = 10 ⋅ y 0 1 log 2 ( x ) x1 ( x1 )10 x2 100 ⋅ x 2 2 x ( ) 3 x x3 10 ⋅ x 3 4 x2 x4 ≈ 3,162 ⋅ x 4 5 2x x5 ≈ x 5 + 3,322 Die Logarithmusfunktion zu einer Basis B > 1 gibt u.a. näherungsweise an, wieviele Ziffern benötigt werden, um eine natürliche Zahl im Zahlensystem zur Basis B darzustellen: Gegeben sei die Zahl n ∈ N mit n > 0 . Sie benötige m = m( n, B) signifikante Stellen zur Darstellung im Zahlensystem zur Basis B, d.h. 5.5 Exponential- und Logarithmusfunktion 159 m −1 n = ∑ a i ⋅ B i mit a i ∈{0, 1, ..., B − 1} und a m−1 ≠ 0 . i=0 Es ist B m−1 ≤ n < B m und folglich m − 1 ≤ log B ( n ) < m . Daraus ergibt sich für die Anzahl der benötigten Stellen, um eine Zahl n im Zahlensystem zur Basis B darzustellen, m( n, B ) = ⎣log B ( n )⎦ + 1 = ⎡log B ( n + 1)⎤ . Die Anzahl an Dezimalziffern zur Darstellung einer Zahl n beträgt demnach ⎣ log 10 (n)⎦ + 1 , an Binärziffern ⎣ log 2 (n)⎦ + 1 und an Sedezimalziffern ⎣ log 16 (n)⎦ + 1 . Die folgende Tabelle zeigt die Zusammenhänge an benötigten Stellen zur Darstellung einer Zahl n in den in der Informatik üblichen Zahlensystemen. Dezimalsystem B = 10 m Stellenzahl im Binärsystem B=2 zwischen ⎣c10,2 ⋅ m⎦ − 3 und mit Sedezimalsystem B = 16 Zwischen ⎡c10,2 ⋅ m⎤ ⎣c10,16 ⋅ m⎦ − 1 und ⎡c10,16 ⋅ m⎤ mit c10, 2 = 1 log (2) ≈ 3,3219281 c10,16 = 1 log (16) ≈ 0,830482 10 10 Zwischen ⎣c 2,10 ⋅ m⎦ − 1 m und ⎡c 2,10 ⋅ m⎤ ⎡m⎤ ⎢⎢ 4 ⎥⎥ mit c 2,10 = log 10 (2) ≈ 0,30103 zwischen ⎣c16,10 ⋅ m⎦ − 1 4m m und ⎡c16,10 ⋅ m ⎤ mit c16,10 = log 10 (16) ≈ 1,20412 Hierbei ist ⎡ x ⎤ der nach oben auf die nächstgrößere ganze Zahl aufgerundete Wert von x und ⎣ x ⎦ der auf die nächstkleinere ganze Zahl abgerundete Wert von x. Werden zwei Zahlen n1 ∈ N und n2 ∈ N mit n1 ≥ n2 addiert, vergrößert sich u.U. die Stellenzahl der Summe im Vergleich zur Stellenzahl von n1 . Ohne die Logarithmusfunktion bemü- 160 5 Ausgewählte Themen der Analysis hen zu müssen, kann man die Stellenzahl der Summe n1 + n2 im Verhältnis zur Stellenzahl von n1 abschätzen: Die Zahl n1 besitze m signifikante Stellen, d.h. m −1 n1 = ∑ ai ⋅ B i mit ai ∈ {0, 1, ..., B − 1} und am−1 ≠ 0 . i =0 Der ungünstigste Fall liegt vor, wenn n1 und n2 möglichst groß sind, wenn also in n1 alle Ziffern den Wert B − 1 haben und n1 = n2 ist. Dann ist m −1 m−1 i =0 i =0 n1 = ∑ ( B − 1) ⋅ B i = ( B − 1) ⋅ ∑ B i = ( B − 1) ⋅ ( ) ( Bm −1 = B m − 1 und B −1 ) n1 + n2 = 2 ⋅ B m − 1 = 1 ⋅ B m + B m − 2 . Diese Zahl belegt (in der Darstellung im Zahlensystem zur Basis B) m + 1 Stellen: ⎤ ⎡ n1 + n2 = ⎢1 ( B − 1) ... ( B − 1) ( B − 2)⎥ . 2443 ⎥ ⎢ 144 (m-1 )-mal ⎦B ⎣ Bei der Addition zweier natürlicher Zahlen nimmt also die Stellenzahl der Summe um höchstens eine Stelle (bezüglich der Stellenzahl der größeren Zahl) zu. Bei der Multiplikation kann man eine ähnliche Betrachtung durchführen. Wieder liegt der ungünstigste Fall vor, wenn n1 = n2 = B m − 1 ist. Dann ist ( ) 2 ( ) n1 ⋅ n2 = B m − 1 = B 2⋅m − 2 ⋅ B m + 1 = B m ⋅ B m − 2 + 1 . Diese Zahl hat folgende Darstellung im Zahlensystem zur Basis B: ⎡ n1 ⋅ n2 = ⎢( B − 1) ... ( B − 1) ( B − 2) 0{ ... 0 2443 ⎢ 144 (m-1 )-mal (m-1 )-mal ⎣ ⎤ 1⎥ , ⎥ ⎦B belegt also 2 ⋅ m viele Stellen. Bei der Multiplikation zweier natürlicher Zahlen verdoppelt sich die Stellenzahl also höchstens (bezogen auf die Stellenzahl der größeren Zahl). 5.6 Einführung in die Differentialrechnung 5.6 161 Einführung in die Differentialrechnung Bei der Untersuchung des Kurvenverlaufs einer Funktion f ist es häufig notwendig zu wissen, wie sich der Wert von f ( x ) ändert, wenn man sich von einem festen Wert x 0 „um einen kleinen Betrag“ bis zum Wert x > x 0 entfernt. Man vergleicht dabei die Änderung von ∆y = f ( x ) − f ( x 0 ) mit der Änderung von ∆x = x − x 0 und bildet den Differenzenquotienten ∆y f ( x ) − f ( x 0 ) f ( x 0 + ∆x ) − f ( x 0 ) . = = ∆x x − x0 ∆x Geht man „nahe genug“ an x 0 heran, so wird bei vielen Funktionen der Differenzenquotient unabhängig von ∆x und beschreibt dann eine charakteristische quantitative Eigenschaft der Funktion f im Punkt x 0 : die Steigung der Funktion f im Punkt x 0 . f(x) f(x0+∆x) f(x0+∆x)-f(x0) Sekante Tangente in (x0, f(x0)) f(x0) ∆x x0 x0+∆x 162 5 Ausgewählte Themen der Analysis Im folgenden sei wieder X ⊆ R und f : X → R eine Funktion. Die Funktion f : X → R heißt an der Stelle x 0 ∈ X differenzierbar, wenn der Grenzwert lim ∆x → 0 f ( x0 + ∆x) − f ( x0 ) ∆x existiert. Dieser Grenzwert heißt Ableitung von f an der Stelle x 0 . Übliche Schreibweisen für die Ableitung von f an der Stelle x 0 sind: lim f ( x0 + ∆x) − f ( x0 ) , ∆x lim f ( x ) − f ( x0 ) , x − x0 ∆x → 0 x → x0 df ( x ) , dx x = x0 f ′( x 0 ) . Existiert dieser Grenzwert für jedes x 0 ∈ X , so heißt f (nach x) differenzierbar. f ′( x ) ist eine Funktion von x. Der Differenzenquotient f ( x 0 + ∆x ) − f ( x 0 ) ∆x gibt die durchschnittliche Veränderung im Intervall [ x 0 , x 0 + ∆x ] an und ist von x 0 und ∆x abhängig. Er ist gleich der Steigung der Sekante zwischen den Punkten ( x 0 , f ( x 0 )) und ( x 0 + ∆x, f ( x 0 + ∆x )) des Graphen von f. Nach dem Grenzübergang ∆x → 0 ist der Quo- tient gleich der Steigung der Tangente an den Graphen von f im Punkt ( x 0 , f ( x 0 )) und ist nur von x 0 abhängig. 5.6 Einführung in die Differentialrechnung 163 Die Tangente an den Graphen von f im Punkt ( x 0 , f ( x 0 )) hat die Geradengleichung yT ( x ) = f ′( x 0 ) ⋅ ( x − x 0 ) + f ( x 0 ) . Im Punkt x 0 + ∆x hat die Tangente also den Wert y T ( x 0 + ∆x ) = f ′( x 0 ) ⋅ ∆x + f ( x 0 ) . Der Wert f ′( x 0 ) ⋅ ∆x gibt also eine gute Näherung für die Veränderung von f von f ( x 0 ) bis zu f ( x 0 + ∆x ) , wenn sich x 0 um einen kleinen Wert ∆x ändert; diese Änderung ist proportional zu ∆x (mit dem Proportionalitätsfaktor f ′( x 0 ) ). f(x) Tangente in (x0, f(x0)) f(x0+∆x) . f’(x0) ∆x f(x0) ∆x x0 x0+∆x 164 5 Ausgewählte Themen der Analysis Satz 5.6-1: Ist f : X → R in x 0 ∈ X differenzierbar, so ist f in x 0 stetig. Die Umkehrung gilt im allgemeinen nicht, d.h. aus der Stetigkeit einer Funktion in einem Punkt x 0 folgt i.a. nicht die Differenzierbarkeit in x 0 . Ein Beispiel für eine Funktion, die überall stetig, aber nicht überall differenzierbar ist, ist die Betragsfunktion ⎧R → R . f :⎨ ⎩x → x Es gilt lim h→ 0 f (x + h) − f (x ) h = lim x=0 h→ 0 f (h) h = lim h→ 0 ⎧+ 1 für h > 0 =⎨ h ⎩− 1 für h < 0 h Der Grenzwert existiert also nicht, d.h. f ist in x 0 = 0 nicht differenzierbar (aber stetig). 5.6 Einführung in die Differentialrechnung 165 Satz 5.6-2: Die Funktionen f : X → R und g: X → R seien differenzierbar. Dann gilt: (i) d (a ⋅ f ( x) + b ⋅ g ( x) ) = a ⋅ df ( x) + b ⋅ dg ( x) , dx dx dx (a ⋅ f ( x) + b ⋅ g ( x) )′ = a ⋅ f ′( x) + b ⋅ g ′( x) . Hierbei sind a und b Konstanten, die insbesondere nicht von x abhängig sind. (ii) d ( f ( x) ⋅ g ( x) ) = df ( x) ⋅ g ( x) + f ( x) ⋅ dg ( x) , dx dx dx ( f ( x ) ⋅ g( x ))′ = f ′( x ) ⋅ g( x ) + f ( x ) ⋅ g ′( x ) (Produktregel) (iii) Für g( x ) ≠ 0 gilt: df ( x ) dg( x ) ⋅ g( x ) − f ( x ) ⋅ d ⎛ f ( x )⎞ dx dx , ⎜ ⎟= 2 dx ⎝ g( x ) ⎠ ( g( x )) ′ ⎛ f ( x )⎞ f ′( x ) ⋅ g ( x ) − f ( x ) ⋅ g ′( x ) ⎜ ⎟ = ⎝ g( x ) ⎠ ( g( x )) 2 (Quotientenregel) (iv) d df ( y ) dg( x ) ⋅ , ( f ( g( x ))) = dx dy y = g ( x ) dx ( f ( g( x )))′ = f ′( g( x )) ⋅ g ′( x ) (Kettenregel) (v) Hat f die Umkehrfunktion y 0 = f ( x 0 ): 1 d −1 = , f ( y) ( ) df x dy y = y0 dx x = x0 ′ ⎡ −f1 f ( x ) ⎤ = 1 . 0 )⎥ ⎢⎣ ( f ′( x 0 ) ⎦ −1 f und ist f ′( x 0 ) ≠ 0 für x 0 ∈ X , so ist für 166 5 Ausgewählte Themen der Analysis Für einige grundlegende Beispiele soll die jeweilige Ableitung in einem Punkt x0 des Definif ( x0 + ∆x) − f ( x0 ) und ∆x dann der Grenzübergang ∆x → 0 vollzogen oder es werden die Regeln des Satzes 5.5-2 mit bereits bekannten Ableitungen verwendet. tionsbereichs berechnet werden. Dazu wird entweder der Quotient Beispiel: Für die durch f ( x) = x n mit n ∈ N definierte Funktion ist f ( x0 + ∆x) − f ( x0 ) ( x0 + ∆x ) − x0n = ∆x ∆x n ⎛ n ⎞ n−i ⎜⎜ ⎟⎟ ⋅ x0 ⋅ ∆x i − x0n ∑ i = i =0 ⎝ ⎠ ∆x n ⎛n⎞ x0n + ∆x ⋅ ∑ ⎜⎜ ⎟⎟ ⋅ x0n−i ⋅ ∆x i−1 − x0n i =1 ⎝ i ⎠ = ∆x n ⎛n⎞ = ∑ ⎜⎜ ⎟⎟ ⋅ x0n−i ⋅ ∆x i−1 i =1 ⎝ i ⎠ n n ⎛n⎞ = n ⋅ x0n−1 + ∆x ⋅ ∑ ⎜⎜ ⎟⎟ ⋅ x0n−i ⋅ ∆x i−2 , also 123 i =2 ⎝ i ⎠ i =1 lim ∆x→0 f ( x0 + ∆x) − f ( x0 ) = n ⋅ x0n−1 bzw. ∆x (x )′ = n ⋅ x n n −1 . Beispiel: −1 Für die durch f ( x) = n x = x1 n mit n ∈ N definierte Funktion ist nach Satz 5.6-2 (v) (da −1 f ( x) die Umkehrfunktion zu der Funktion f ( x) = x n des vorherigen Beispiels ist) mit −1 y0 = f ( x0 ) , d.h. x0 = f ( y0 ) = n y0 , 5.6 Einführung in die Differentialrechnung d −1 1 1 1 f ( y) = = = n −1 df ( x) dy n ⋅ x0 n ⋅ n y0 y = y0 dx x= x0 ( ) ′ (x ) 1n n −1 = 1 ( ) n⋅ y 1 n n −1 0 = 167 1 1 = ⋅ y01 n−1 , bzw. 1−1 n n ⋅ y0 n 1 −1 1 = ⋅ xn . n Beispiel: Für die durch g ( x) = x q mit q ∈ Q und q > 0 , etwa q = n mit n ∈ N und m ∈ N >0 , defim nierte Funktion ist gemäß Kettenregel (Satz 5.6-2 (iv)): ′ ⎛ n⎞ ⎛ mn ⎞ ⎜ x ⎟ = d ⎜ x m ⎟ = d xn ⎜ ⎟ dx ⎜ ⎟ dx ⎝ ⎠ ⎝ ⎠ ( ) 1 m ( ) 1 = ⋅ xn m 1 −1 m ⋅n⋅ x n −1 n −1 n = ⋅ xm . m Beispiel: Die Berechnung der Ableitung der Exponentialfunktion exp( x) = e x erfolgt wieder direkt über die Definition der Ableitung. Dazu zunächst eine Vorbemerkung: Gemäß Satz 5.1-12 ist für einen kleinen Wert ∆x : 2 2 ⋅ ∆x ∆x i 2 exp(∆x) = ∑ + R2 (∆x) = 1 + ∆x + R2 (∆x) mit R2 (∆x) ≤ = ∆x . 2! i =0 i! 1 Damit ist exp( x0 + ∆x ) − exp( x0 ) exp( x0 ) ⋅ exp(∆x ) − exp( x0 ) exp(∆x ) − 1 = exp( x0 ) ⋅ , = ∆x ∆x ∆x und der Grenzübergang ergibt 168 5 Ausgewählte Themen der Analysis exp( x0 + ∆x ) − exp( x0 ) exp(∆x ) − 1 = lim exp( x0 ) ⋅ ∆x→0 ∆x→0 ∆x ∆x exp(∆x ) − 1 = exp( x0 ) ⋅ lim ∆x→0 ∆x (∆x + R2 (∆x) ) = exp( x0 ) ⋅ lim ∆x→0 ∆x R (∆x) ⎞ ⎛ = exp( x0 ) ⋅ ⎜1 + lim 2 ⎟. ⎝ ∆x→0 ∆x ⎠ lim Wegen R2 (∆x) ≤ ∆x folgt damit ∆x (exp( x) )′ = (e x )′ = e x = exp( x) . Wegen a x = e ln( a )⋅x ist mit der Kettenregel (Satz 5.6-2 (iv)): (exp a ( x) )′ = (a x )′ = (eln( a )⋅x )′ = eln(a )⋅x ⋅ ln(a) = ln(a) ⋅ a x . Beispiel: Die Ableitung des natürlichen Logarithmus als Umkehrfunktion der Exponentialfunktion wird wieder mit Hilfe von Satz 5.6-2 (v) berechnet: Es sei y0 = exp( x0 ) , d.h. x0 = ln ( y0 ) . 1 1 1 d −1 = = = , also exp( y ) exp( ) d x ( ) exp dy x y 0 0 y = y0 dx x= x0 (ln( x) )′ = 1 . x Die Ableitung der Logarithmusfunktion zu einer Basis a > 1 lautet nun ′ ⎛ ln( x) ⎞ 1 ⎟⎟ = (log a ( x) ) = ⎜⎜ . ⎝ ln(a) ⎠ ln(a) ⋅ x ′ 5.6 Einführung in die Differentialrechnung 169 Beispiel: Es kann nun auch die Ableitung der durch h( x) = x r mit r ∈ R bestimmten Funktion ermittelt mit Hilfe der Kettenregel (Satz 5.6-2 (iv)) werden: (x )′ = (e r ln( x )⋅r )′ = e ln( x )⋅r ⋅r ⋅ 1 1 = r ⋅ x r ⋅ = r ⋅ x r −1 . x x Beispiel: ( ) Die durch k ( x) = x 2 + 1 x gegebene Funktion hat die Eigenschaft, dass x sowohl in der „Ba- sis“ als auch im Exponenten vorkommt. In diesem Fall wendet man den Trick des Logarithmierens mit Satz 5.5-5 (iii) an: ( ) ln (k ( x) ) = x ⋅ ln x 2 + 1 ; die Ableitung der linken Seite lautet: ′ (ln(k ( x) ))′ = (k ( x) ) k ( x) , die Ableitung der rechten Seite lautet: (x ⋅ ln(x 2 ′ 2⋅ x + 1 = 1 ⋅ ln x 2 + 1 + x ⋅ 2 ; x +1 )) ( ) ′ beide Seiten werden gleichgesetzt und die entstandene Gleichung nach (k (x) ) aufgelöst: (k ( x) )′ 2 ⋅ x2 , = ln x + 1 + 2 k ( x) x +1 ( 2 ) ⎛ ⎞ ⎟. x + 1 ⎟⎠ (k ( x) )′ = (x 2 + 1)x ⋅ ⎜⎜ ln(x 2 + 1) + 22⋅ x ⎝ 2 Die folgende Tabelle fasst die Ergebnisse der Beispiele zusammen. 170 5 Ausgewählte Themen der Analysis f ′( x ) f (x ) xr , r ∈ R r ⋅ x r −1 c = const. 0 n ∑a ⋅ x i =0 1 n i i xn h( x ) ln( x ) = log e ( x ) ln( h( x )) ∑i ⋅ a ⋅ x i =0 i −1 i −n x n +1 h ′( x ) 2 h( x ) 1 x h ′( x ) h( x ) log a ( x ) 1 x ⋅ ln(a) ex ex a x , a > 0, a = const. a x ⋅ ln(a ) e h( x ) h ′( x ) ⋅ e h ( x ) a h ( x ) , a > 0, a = const. h ′( x ) ⋅ a h ( x ) ⋅ ln( a) Die Funktion f : X → R sei differenzierbar (und damit auch stetig). Dann ist f ′: X → R ebenfalls eine Funktion, die aber nicht unbedingt differenzierbar oder stetig sein muss. Ist sie jedoch differenzierbar, so kann man df ′( x ) dx bilden und nennt dieses die 2. Ableitung von f. Allgemein werden Ableitungen höherer Ordnung wie folgt definiert: Es ist f (0) ( x) = f ( x) ; ist die ( n − 1) -te Ableitung der Funktion f : X → R im Intervall I ⊆ X differenzierbar, so ist die n-te Ableitung von f gegeben durch 5.6 Einführung in die Differentialrechnung f (n) ( x) = 171 d ( n −1) f ( x) . dx Existieren für f alle Ableitungen bis zur n-ten Ableitung, so heißt f n-mal differenzierbar. Beispiel: Für die durch f ( x) = x ⋅ e x definierte Funktion lauten die ersten beiden Ableitungen: f ′( x) = 1⋅ e x + x ⋅ e x = (1 + x ) ⋅ e x , f ′′( x) = 1 ⋅ e x + (1 + x ) ⋅ e x = (2 + x ) ⋅ e x . Zu vermuten ist, dass die n-te Ableitung f ( n ) ( x) = (n + x ) ⋅ e x lautet. Für n = 0, 1 ,2 stimmt dieses, und die Vermutung gelte für n ≥ 2 . Die (n + 1) -te Ableitung ist dann ′ f ( n+1) ( x) = (n + x ) ⋅ e x = 1 ⋅ e x + (n + x ) ⋅ e x = (n + 1 + x ) ⋅ e x , d.h. ( ) die Vermutung gilt für jedes n ∈ N . Beispiel: Für das Polynom p( x) = x m lauten alle Ableitungen: ⎧m ⋅ (m − 1) ⋅ ... ⋅ (m − n + 1) ⋅ x m−n p ( x) = ⎨ ⎩0 (n ) für n ≤ m für n > m . Ableitungen höherer Ordnung werden insbesondere zur Untersuchung des Kurvenverlaufs von Graphen zu reellen Funktionen (Kurvendiskussion) eingesetzt. Diesem Thema ist der Rest des Kapitels gewidmet. Die Funktion f : X → R hat an der Stelle x 0 ∈ X ein (lokales) Maximum, wenn es eine ε - { } Umgebung U ( x0 , ε ) = x x − x0 < ε = { x x0 − ε < x < x 0 + ε x ∈U ( x0 , ε ) mit x ≠ x 0 gilt: f ( x ) < f ( x 0 ) . } von x 0 gibt, so dass für alle 172 5 Ausgewählte Themen der Analysis Die Funktion f : X → R hat an der Stelle x 0 ∈ X ein (lokales) Minimum, wenn es eine ε - { } Umgebung U ( x0 , ε ) = x x − x0 < ε = { x x0 − ε < x < x 0 + ε } von x 0 gibt, so dass für alle x ∈U ( x0 , ε ) mit x ≠ x 0 gilt: f ( x ) > f ( x 0 ) . Unter einem (lokalen) Extremwert versteht man ein lokales Maximum oder ein lokales Minimum. Die Funktion f : X → R hat an der Stelle x W einen Wendepunkt, wenn es ε -Umgebung { } U ( xW , ε ) = x x − xW < ε = { x xW − ε < x < xW + ε x ∈ U ( xW , ε ) mit xW − ε < x < xW } von x W gibt, so dass f für jedes streng konvex und für jedes x ∈ U ( xW , ε ) mit x W < x < x W + ε streng konkav ist bzw. für jedes x ∈ U ( xW , ε ) mit x W − ε < x < x W streng konkav und für jedes x ∈ U ( xW , ε ) mit x W < x < x W + ε streng konvex ist. 5.6 Einführung in die Differentialrechnung 173 Satz 5.6-3: Die Funktion f : X → R sei an der Stelle x 0 ∈ X mindestens n-mal differenzierbar. Ist f ( k ) ( x 0 ) = 0 für k = 1 , ..., n − 1 und f (n) ( x 0 ) ≠ 0 , und ist n gerade, so hat f an der Stelle x0 einen Extremwert, und zwar ein (lokales) Maximum, wenn f ( n ) ( x 0 ) < 0 ist bzw. ein (lokales) Minimum, wenn f ( n ) ( x 0 ) > 0 ist. Ist f ( k ) ( x 0 ) = 0 für k = 2 , ..., n − 1 und f (n) ( x 0 ) ≠ 0 und ist n ungerade, so hat f an der Stelle einen Wendepunkt; die Krümmung wechselt von konvex nach konkav, wenn f ( n ) ( x 0 ) < 0 ist; sie wechselt von konkav nach konvex, wenn f ( n ) ( x 0 ) > 0 ist. Gilt zusätzlich f ′( x 0 ) = 0 , so liegt ein Wendepunkt mit waagerechter Tangente (Sattelpunkt) vor. Das folgende Beispiel untersucht den Kurvenverlauf des Graphen zum Polynom, das durch p( x) = 0,2 ⋅ x 5 − x 3 + 1 definiert wird. Die Ableitungen lauten: p′( x) = x 4 − 3 ⋅ x 2 , p′′( x) = 4 ⋅ x 3 − 6 ⋅ x , p′′′( x) = 12 ⋅ x 2 − 6 , p (4 ) ( x) = 24 ⋅ x , p (5 ) ( x) = 24 , 174 5 Ausgewählte Themen der Analysis p (6 ) ( x ) = 0 . Die erste Ableitung p′(x) hat die Nullstellen x0,1 = 0 , x0, 2 = 3 , x0,3 = − 3 . Diese Werte werden in die höheren Ableitungen eingesetzt: p′′(x0,1 ) = p′′(0) = 0 , p′′′(x0,1 ) = p′′′(0) = −6 , also liegt hier ein Wendeüunkt mit waagerechter Tangente (Sattelpunkt) vor. ( ) p′′(x0, 2 ) = p′′ 3 = 6 ⋅ 3 > 0 , also liegt hier ein lokales Minimum vor. ( ) p′′(x0,3 ) = p′′ − 3 = −6 ⋅ 3 < 0 , also liegt hier ein lokales Maximum vor. Die Nullstellen der zweiten Ableitung lauten x0, 4 = x0,1 = 0 , x0,5 = 3 2 , x0,6 = − 3 2 . Die Werte x0,5 und x0,6 in die dritte Ableitung eingesetzt ergeben p′′′(x0,5 ) = p′′′(x0,6 ) = 12 . Es liegen also an diesen Werten Wendepunkte vor. Satz 5.6-4: Ist die Funktion f : X → R im Intervall I ⊆ X differenzierbar, so sind folgende Aussagen (a) und (b) gleichbedeutend: (a) f ist in I monoton fallend (bzw. steigend). und (b) Für jedes x ∈ I gilt f ′( x ) ≤ 0 (bzw. f ′( x ) ≥ 0 ). 5.6 Einführung in die Differentialrechnung 175 Satz 5.6-5: Ist die Funktion f : X → R im Intervall I ⊆ X zweimal differenzierbar, so sind folgende Aussagen (a) bis (d) gleichbedeutend: (a) f ist in I konvex (bzw. konkav). und Für Werte x 1 ∈ I und x 2 ∈ I mit x 1 < x 2 gilt (b) f ( x 2 − f ( x1 ) ≥ f ′( x 1 ) (bzw. x 2 − x1 f ( x 2 − f ( x1 ) ≤ f ′( x 1 ) ). x 2 − x1 und (c) Die Ableitung f ′( x ) ist in I monoton steigend (bzw. monoton fallend). und (d) Für jedes x ∈ I ist f ′′( x ) ≥ 0 (bzw. f ′′( x ) ≤ 0 ). Beispiel: Zu untersuchen ist das Krümmungsverhalten des durch p ( x) = − 1 5 ⋅ x + x3 10 definierten Polynoms. Seine zweite Ableitung lautet ( ) p′′( x) = −2 ⋅ x 3 + 6 ⋅ x = −2 ⋅ x ⋅ x 2 − 3 . Es ist ( ) ( ) p′′( x) ≤ 0 genau dann wenn (x ≥ 0 ) ∧ x 2 − 3 ≥ 0 oder (x ≤ 0 ) ∧ x 2 − 3 ≤ 0 gilt. Im ersten Fall gilt (x ≤ 0) ∧ ((− (x ≥ 0) ∧ ((x ≥ )) ) ( )) 3 ∨ x≤− 3 , also x≥ 3. Im zweiten Fall ist 3 ≤ x ≤ 3 , also − 3 ≤ x ≤ 0 . Für x ≥ 3 oder für − 3 ≤ x ≤ 0 ist also p konkav, für alle übrigen Bereiche konvex. 176 5.7 5 Ausgewählte Themen der Analysis Die Regel von de l’Hospital Häufig sind Grenzwerte der Form lim f ( x ) x→ x0 zu berechnen, wobei f (x) = g( x ) und lim g ( x ) = lim h( x ) = 0 x→ x0 x→ x0 h( x ) gelten. In diesem Fall ist der folgende Satz von Bedeutung (Regel von de l'Hospital, 16611704): Satz 5.7-1: Gegeben seien die Funktionen g: X → R und h: X → R , X ⊆ R . Dabei seien g und h (n + 1)-mal differenzierbar und ihre (n + 1)-te Ableitungen stetig. Für x 0 ∈ X gelte (*) g ( x 0 ) = g ′( x 0 ) = ... = g ( n ) ( x 0 ) = 0 , h( x 0 ) = h ′( x 0 ) = ... = h ( n ) ( x 0 ) = 0 und h ( n +1) ( x 0 ) ≠ 0 . Dann gilt: g( x ) g ′( x ) g ( n) (x) g ( n +1) ( x ) g ( n +1) ( x 0 ) lim = lim = ... = lim ( n ) = lim = . x → x 0 h( x ) x→ x 0 h ′( x ) x→ x0 h ( x ) x→ x0 h ( n +1) ( x ) h ( n +1) ( x 0 ) Es werden also Zähler- und Nennerfunktion getrennt abgeleitet. Beispiele: xn −1 lim =n x →1 x − 1 lim x→ 0 ex −1 =1 x 5.7 Die Regel von de l’Hospital 177 Der hier zitierte Satz steht für den „Fall 0/0“. Der Satz gilt auch, wenn eventuell x 0 ∉ X (als einzelner Wert) ist und die Bedingung (*) durch (**) g ( x 0 ) = g ′( x 0 ) = ... = g ( n ) ( x 0 ) = ∞ , h( x 0 ) = h ′( x 0 ) = ... = h ( n ) ( x 0 ) = ∞ und h ( n +1) ( x ) ≠ 0 für jedes x ∈ X . ersetzt wird („Fall ∞ / ∞ “). Die Regel von de l'Hospital ermöglicht auch die Berechnung unbestimmter Ausdrücke der Art ∞ − ∞, 0 ⋅ ∞, 1∞ , ∞ 0 , 0 0 . Diese werden zunächst so umgeformt, dass der „Fall 0/0“ oder der „Fall ∞ / ∞ “ entsteht. Die folgende Tabelle gibt die Umformungen auf den „Fall 0/0“ an: Typ Umformung „Fall 0/0“ ∞−∞ Funktion g ( x ) − h( x ) - 1 h( x ) − 1 g ( x ) 1 h( x ) ⋅ 1 g ( x ) ∞−∞ g ( x ) − h( x ) Exponentieren 1 e h( x ) 1 e g(x) 0⋅∞ g ( x ) ⋅ h( x ) - g( x ) 1 h( x ) 1∞ g ( x) h ( x ) Logarithmieren ln( g ( x )) 1 h( x ) ∞0 g ( x ) h( x ) Logarithmieren h( x ) 1 ln( g ( x )) 00 g ( x ) h( x ) Logarithmieren h( x ) 1 ln( g ( x )) Beispiel: Es soll lim(1 + x ) x→0 1 x bestimmt werden. Dieser Grenzwert ist vom Typ „1∞ “ mit den Funktio- nen g ( x) = 1 + x und h( x) = 1 . Logarithmieren der gesamten Funktion ergibt x 178 5 Ausgewählte Themen der Analysis ( ) ln g ( x) h ( x ) = h( x) ⋅ ln( g ( x) ) = ln( g ( x)) ln(1 + x) = . 1 h( x ) x Jetzt liegt der „Fall 0/0“ vor: 1 ln(1 + x) lim = lim 1 + x = 1 ; x→0 x→0 1 x Die Logarithmierung wird durch Exponentiation wieder rückgängig gemacht, also lim(1 + x ) 1 x→0 x = e1 = e . Beispiel: In Satz 5.5-6 (ii) wird formuliert, dass für jedes a ∈ R mit a > 1 und jedes Polynom p(x ) lim x →∞ p( x ) ax =0 gilt. Mit Hilfe der Regel von de l’Hospital für den „Fall ∞ / ∞ “ lässt sich dieses verifizieren: n Es sei p(x ) ein Polynom vom Grade n, d.h. p( x) = ∑ ai ⋅ x i mit an ≠ 0 . Es erfolgt eine Bei =0 schränkung auf den Fall p( x) ≥ 0 , so dass in der Limesbetrachtung auf die Betragsstriche verzichtet werden kann. Dann ist ( p( x) ) = lim n!⋅an = 0 . p ( x) lim x = lim (n ) x→∞ a x→∞ x→∞ a x ⋅ (ln(a ) )n ax (n ) ( ) Beispiel: In Satz 5.5-6 (ii) wird formuliert, dass für jedes a ∈ R mit a > 1 und m ∈ N m ( log a ( x ) ) lim x →∞ x =0 gilt. Dieser Grenzwert ist ebenfalls ein Beispiel für den „Fall ∞ / ∞ “; er wird verifiziert durch 5.8 Das Newton-Verfahren m ⋅ (log a ( x) ) 179 m−1 (log a ( x) ) lim m x→∞ x = lim x ⋅ ln(a ) 1 x→∞ m ⋅ (m − 1) ⋅ (log a ( x) ) m ⋅ (log a ( x) ) = lim x→∞ x ⋅ ln(a ) m−1 m−2 = lim x→∞ ln(a ) x ⋅ ln(a ) m ⋅ (m − 1) ⋅ (log a ( x) ) = lim 2 x→∞ x ⋅ (ln(a ) ) m−2 m ⋅ (m − 1) ⋅ ... ⋅ (m − (m − 2)) ⋅ (log a ( x) ) m −1 x→∞ x ⋅ (ln(a ) ) m!⋅(log a ( x) ) m! = lim = lim =0 . m − 1 x→∞ x ⋅ (ln(a ) ) x→∞ x ⋅ (ln(a ) )m m −( m −1) = ... = lim 5.8 Das Newton-Verfahren Bei der Lösung von Gleichungen kommt es häufig vor, dass eine explizite Auflösung nach der unbekannten Größe nicht möglich ist. Man ist dann an einer numerischen Lösung interessiert. Ähnliche Probleme ergeben sich bei der numerischen Bestimmung von Nullstellen von Funktionen. Gegeben sei eine Funktion f : X → R , die auf einem Intervall I = [ a , b], I ⊆ X mindestens zweimal differenzierbar mit stetiger 2. Ableitung ist. Außerdem seien folgende Bedingungen 1. bis 4. erfüllt: 1. f ( a ) ⋅ f ( b) < 0, d.h. f hat im Intervall I eine Nullstelle (das ergibt sich aus der Stetigkeit von f und der Tatsache, dass f im Intervall I das Vorzeichen wechselt, sie Satz 5.2-3(i)). 2. f ′( x ) ≠ 0 für jedes x ∈ I , d.h. die Nullstelle ist eindeutig (da in I kein Extremwert von f existiert). 3. f ′′( x ) ≤ 0 oder f ′′( x ) ≥ 0 für jedes x ∈ I , d.h. f ist entweder konkav oder konvex auf I. 4. Bezeichnet c denjenigen Endpunkt von [ a , b] , für den f ′( x ) kleiner ist als am anderen Endpunkt, so gilt f (c) ≤ b− a , f ′( c ) 180 5 Ausgewählte Themen der Analysis d.h. die Tangente an den Graph von f in demjenigen Endpunkt des Intervalls I, für den f ′( x ) am kleinsten ist, schneidet die x-Achse im Intervall I. Gesucht wird eine Lösung der Gleichung f ( x ) = 0 mit x ∈ I . Bei diesen Voraussetzungen über f approximiert das folgende Verfahren die gesucht Lösung x 0 ∈ I (für die dann f ( x 0 ) = 0 gilt): Man wählt einen beliebigen Punkt a 0 ∈ I . Man berechnet für n = 0, 1, 2, ... a n +1 = a n − f (an ) , f ′( a n ) bis sich aufeinanderfolgende Werte von a n+1 und a n nur noch „wenig“ unterscheiden (weniger als eine vorgegebene Genauigkeitsschranke). Die so definierte Folge ( a n ) n∈N approximiert die gesuchte Lösung x 0 ∈ I der Gleichung f (x) = 0 . Beispiele: Zur Bestimmung der Quadratwurzel c einer reellen Zahl c > 0 wählt man f (x) = x 2 − c . Die Folge ( a n ) n∈N lautet hierbei: a0 = c 2 , an+1 = 1 ⎛ c ⎞ ⋅ ⎜⎜ an + ⎟⎟ , n ∈ N. 2 ⎝ an ⎠ Zur Bestimmung der beliebigen Wurzel man k c=c 1 k mit k ∈ N > 0 einer reellen Zahl c > 0 wählt 5.8 Das Newton-Verfahren 181 f (x) = x k − c . Die Folge ( a n ) n∈N lautet hierbei: a0 > 0 beliebig, 1 ⎛ 1⎞ 1-k an+1 = ⎜1 − ⎟ ⋅ an + ⋅ c ⋅ an , n ∈ N. k ⎝ k⎠ Zur Berechnung des inversen Werts 1 c einer reellen Zahl c > 0 sind keine Divisionen erforderlich: Man wählt f ( x) = 1 −c. x Die Folge ( a n ) n∈N lautet hierbei: a0 = beliebig mit 0 < a0 < 2c −1 (Schätzung), an+1 = an ⋅ (2 − c ⋅ an ) , n ∈ N. Das Newton-Verfahren ist robust gegen Rundungsfehler. Ein Iterationsschritt im Verfahren, d.h. die Berechnung eines weiteren Werts a n+1 , verwendet nur den Wert a n und nicht vorherige Werte, etwa a n−1 , a n− 2 , ..., a 0 . Der Wert a n+1 hängt also nur von a n ab. Derartige „einstellige“ Iterationsverfahren haben den Vorteil, dass sich Rundungsfehler nicht akkumulieren. Außerdem zeigt das Newton-Verfahren ein gutes Konvergenzverhalten („quadratische Konvergenz“), d.h. nach wenigen Iterationsschritten bekommt man bereits eine gute Näherung an die gesuchte Lösung. Beispiel: Es wird eine Nullstelle der durch f ( x) = x 3 − x 2 + 2 ⋅ x + 5 gegebenen Funktion gesucht. Es ist f ′( x) = 3 ⋅ x 2 − 2 ⋅ x + 2 und f ′′( x) = 6 ⋅ x − 2 . Als „Suchintervall“ für eine Nullstelle kann I = [ − 2, − 1] genommen werden. Hierfür sind alle obigen Bedingungen 1. bis 4. erfüllt. Als Startwert der Iteration wird a 0 = − 1,5 gewählt. Die folgende Tabelle zeigt das Ergebnis nach 182 5 Ausgewählte Themen der Analysis dem Newton-Verfahren nach 6 Iterationsschritten (ermittelt mit einem Tabellenkalkulationsprogramm). Zusätzlich ist das Ergebnis angegeben, das das Tabellenkalkulationsprogramm mit der eingebauten „Berechne-für“-Funktion bei 100 Iterationen liefert. Offensichtlich ist hier das Newton-Verfahren bei weitem überlegen. n an f (an ) f ′( a n ) 0 1 2 3 4 5 6 − 1,5 − 1,1914893617021 − 1,1343122722156 − 1,1324954791357 − 1,1324936884782 − 1,1324936884764 − 1,1324936884764 − 3,625 − 0,49411980004431 − 0,014768016090808 − 1,4526940122457 . 10-05 − 1,4100025400726 . 10-11 − 7,6501305290577 . 10-16 − 7,6501305290577 . 10-16 11,75 8,6419194205523 8,1286175371279 8,1126289890596 8,1126132402848 8,1126132402696 8,1126132402696 Ergebnis der eingebauten „Berechne-für“-Funktion bei 100 Iterationen: f ( x 0 ) = − 2,8645504939842 . 10-06 x 0 = − 1,1324940415747 5.9 Taylorpolynome Im folgenden sei f : X → R mit X ⊆ R eine „genügend oft“ differenzierbare Funktion. Der Wert x 0 ∈ X sei ein festgewählter Punkt. Der Funktionsverlauf von f soll durch eine Folge (Tn (x; x0 ; f ))n∈N „einfacherer“ Funktionen angenähert werden, die mit f im Punkt ( x 0 , f ( x 0 )) übereinstimmen und folgenden Bedingungen genügen: Tn ( x; x0 ; f ) für n ≥ 0 ist dasjenige Polynom n-ten Grades, das mit f an der Stelle x 0 übereinstimmt und dessen sämtliche Ableitungen bis zur n-ten Ableitung mit den entsprechenden Ableitungen von f bei x 0 übereinstimmen. Zur Vereinfachung der Rechnung wird dabei nicht der n Ansatz Tn ( x; x0 ; f ) = ∑ bi ⋅ x i gewählt, sondern i =0 Tn ( x; x0 ; f ) = an ⋅ ( x − x0 ) + an−1 ⋅ (x − x0 ) n Tn ( x0 ; x0 ; f ) = f ( x0 ), Tn′( x0 ; x0 ; f ) = f ′( x0 ), ... Tn (n) (x0 ; x0 ; f ) = f ( n ) ( x0 ) . n −1 + ... + a1 ⋅ ( x − x0 ) + a0 mit 183 5.9 Taylorpolynome Zur Berechnung der Koeffizienten a0 , ..., an wird Tn ( x; x0 ; f ) nacheinander nach x abgeleitet und x0 eingesetzt: Tn( 0 ) ( x; x0 ; f ) x = x0 = Tn ( x0 ; x0 ; f ) = a0 = f ( x0 ) , Tn′( x; x0 ; f ) x= x = n ⋅ an ⋅ ( x − x0 ) n −1 0 + (n − 1) ⋅ an−1 ⋅ ( x − x0 ) n−2 Tn′′( x; x0 ; f ) x= x = n ⋅ (n − 1) ⋅ an ⋅ ( x − x0 ) n−2 0 + ... + a1 = a1 = f ′( x0 ) , x = x0 + (n − 1) ⋅ (n − 2) ⋅ an−1 ⋅ ( x − x0 ) = 2 ⋅ a2 = f ′′( x0 ), also a2 = n −3 + ... + 2 ⋅ a2 x = x0 1 ⋅ f ′′( x0 ), 2 ... Tn(n−1) ( x; x0 ; f ) x = x0 = n ⋅ (n − 1) ⋅ ... ⋅ 2 ⋅ an ⋅ ( x − x0 ) + (n − 1)!⋅an−1 x= x = (n − 1)!⋅an−1 0 = f (n−1) ( x0 ), also an−1 = Tn(n ) ( x; x0 ; f ) x = x0 = n ⋅ (n − 1) ⋅ ... ⋅ 2 ⋅1 ⋅ an = f (n ) ( x0 ), also an = x = x0 1 ⋅ f (n−1) ( x0 ), (n − 1)! = n!⋅an 1 (n ) ⋅ f ( x0 ). n! Insgesamt ergibt sich also n Tn ( x; x0 ; f ) = ∑ i =0 f ( i ) ( x0 ) i ⋅ ( x − x0 ) . i! Die Polynome Tn ( x; x0 ; f ) für n = 0 und n = 1 lauten: n = 0: T0 ( x; x0 ; f ) = f ( x0 ) , ist also die konstante Funktion mit Wert f ( x0 ) . n = 1: T1 ( x; x0 ; f ) = f ( x0 ) + f ′( x0 ) ⋅ ( x − x0 ) , d.h. T1 ist die Tangente an den Graphen von f im Punkt ( x 0 , f ( x 0 )) . Selbstverständlich ist f ( x ) in der Regel nicht gleich Tn ( x; x0 ; f ) , sondern es gilt f ( x) = Tn ( x; x0 ; f ) + Rn ( x; x0 ; f ) mit einer als Restglied bezeichneten Funktion Rn ( x; x0 ; f ) . Mit Sätzen der Differentialrechnung, die in den bisherigen Kapiteln nicht zitiert wurden (siehe daher angegebene Literatur), lässt sich das Restglied funktional ausdrücken. Das Ergebnis ist in folgendem Satz zusammengefasst. 184 5 Ausgewählte Themen der Analysis Satz 5.7-2: { } Die Funktion f : X → R sei in einer ε -Umgebung U ( x0 , ε ) = x x − x0 < ε ⊆ X von x 0 ∈ X (n+1)-mal differenzierbar. Dann gilt für alle x ∈U ( x0 , ε ) : n f ( x) = ∑ i =0 f ( i ) ( x0 ) i ⋅ ( x − x0 ) + Rn (x; x0 ; f ) . i! Die Summe n Tn ( x; x0 ; f ) = ∑ i =0 f ( i ) ( x0 ) i ⋅ ( x − x0 ) i! heißt Taylorpolynom n-ter Ordnung von f an der Stelle x 0 ; Rn ( x; x0 ; f ) heißt Restglied des Taylorpolynoms n-ter Ordnung von f an der Stelle x 0 . Die Darstellung von f (x) in der Form f ( x) = Tn ( x; x0 ; f ) + Rn ( x; x0 ; f ) nennt man Taylorentwicklung von f an der Stelle x 0 . Für das Restglied gilt: Rn ( x; x0 ; f ) = 1 n +1 f ( n+1) ( z ) ⋅ ( x − x0 ) . (n + 1)! Dabei ist z ein Wert mit x 0 < z < x , falls x 0 < x ist, bzw. mit x < z < x 0 , falls x < x 0 ist. Für x = x 0 ist Rn ( x ) = 0 . Bemerkung: In der mathematischen Literatur werden noch andere Darstellungen des Restglieds angegeben. Beispiel: Es soll die Taylorentwicklung für die Funktion f ( x) = e x 5.9 Taylorpolynome 185 an der Stelle x0 = 0 berechnet werden. Dabei sollen nur die Ableitungen von f (x) verwendet werden. Da für alle Ableitungen f (i ) ( x) = e x gilt und e 0 = 1 ist, ergibt sich für das n-te Taylorpolynom von f ( x) = e x an der Stelle x0 = 0 : ( ) n 1 x 2 x3 xn Tn x; 0; e x = ∑ ⋅ x i = 1 + x + + + ... + . 2 6 n! i =0 i! Mit Satz 5.7-2 ist ( ) n n 1 1 1 e x = ∑ ⋅ x i + Rn x; 0; e x = ∑ ⋅ x i + ⋅ e z ⋅ x n+1 mit 0 < z < x für x > 0 und ( ) i i n + ! ! 1 ! i =0 i =0 x < z < 0 für x < 0 . Nun gilt: ( ) lim Rn x; 0; e x = lim n→∞ n→∞ 1 ⋅ e z ⋅ x n+1 = 0 ; denn (n + 1)! ( ) (n 1+ 1)! ⋅ e ⋅ x , da 0 < z < x ist, und damit ⎛ 1 ⎞ ⋅ e ⋅ x ⎟⎟ = 0 (siehe Satz 5.1-5 (iii)). 0 ≤ lim R (x; 0; e ) ≤ lim⎜⎜ (n + 1)! für x > 0 ist 0 ≤ Rn x; 0; e x < x x x n→∞ n n +1 n→∞ ⎝ n +1 ⎠ x n+1 1 1 z n +1 z n +1 für x < 0 wird Rn (x; 0; e ) = betrachtet (die letzte ⋅e ⋅ x = ⋅e ⋅ x < (n + 1)! (n + 1)! (n + 1)! x Ungleichung ergibt sich aus e z < e 0 = 1 ): hier ergibt sich mit demselben Argument ( ) lim Rn x; 0; e x = 0 , und mit Satz 5.1-2 (v) folgt lim Rn (x; 0; e x ) = 0 . n→∞ n→∞ Insgesamt ist ∞ 1 e x = ∑ ⋅ x i für x ∈ R . i =0 i! Dieses ist ein Ergebnis, das nicht überrascht; denn so wurde die Exponentialfunktion ja definiert. Zu beachten ist aber, dass bei der Taylorentwicklung allein von der Tatsache Gebrauch gemacht wurde, dass f (i ) ( x) = f ( x) = e x und e 0 = 1 ist. Die folgende Abbildung zeigt den Verlauf der Exponentialfunktion und ihrer Taylorpolynome an der Stelle x0 = 0 für 0 ≤ n ≤ 5: 186 5 Ausgewählte Themen der Analysis Taylorpolynome e-Funktion 25 20 e x T5(x) T4(x) 15 T3(x) 10 T2(x) 5 T1(x) 0 -5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3 Um auch ein „numerisches Gefühl“ für die Qualität der Approximation der Exponentialfunktion durch ihr n-tes Taylorpolynom zu bekommen, werden in folgender Tabelle Werte des dritten Taylorpolynoms zur Exponentialfunktion an der Stelle x0 = 0 dicht an der Entwicklungsstelle und weit entfernt von der Entwicklungsstelle mit numerisch ermittelten Werten von e x verglichen. Man sieht dabei, dass für Werte, die dicht bei x0 = 0 liegen, bereits 1 + x häufig eine befriedigende Annäherung an e x liefert. Für große Werte von x ist ein n-tes Taylorpolynom mit einem großen Wert von n zu nehmen. x ( ) T3 x; 0; e x = 1 + x + x 2 x3 + 2 6 ex (letzte Stelle gerundet) 1 2, 6... 2,7182818284590452353602874713527 12 1,64583... 1,6487212707001281468486507878142 1 10 1,10516... 1,1051709180756476248117078264902 1 100 1,01005016... 1,0100501670841680575421654569029 20 1554, 3... 485 165 195,40979027796910683054154 Insbesondere gilt 187 5.9 Taylorpolynome ∞ e=∑ i=0 ∞ 1 1 1 1 1 1 1 = 1+ 1+ + + + + ... + + ∑ . i! n ! i = n +1i ! 2 6 24 120 Wegen a x = e ln( a )⋅x ist ∞ a =∑ x ( x ⋅ ln( a )) i für x ∈ R . i! i=0 Beispiel: Es soll nun die Taylorentwicklung der natürlichen Logarithmusfunktion ln ( x ) hergeleitet werden. Die Wahl x0 = 0 der Entwicklungsstelle ist hierbei nicht möglich, da ln ( x ) x= x nicht 0 definiert ist. Andererseits ist die Taylorentwicklung an der Entwicklungsstelle x0 = 0 besonders einfach. Es wird daher zunächst die durch → R ⎧R f ( x ) = ⎨ > −1 → ln (1 + x ) ⎩x definierte Funktion in eine Taylorreihe an der Stelle x0 = 0 entwickelt: Es ist f ′( x) = 1 −2 −3 −1 = (1 + x ) , f ′′( x) = −(1 + x ) , f ′′′( x) = 2 ⋅ (1 + x ) , 1+ x f (i ) ( x) = (− 1) ⋅ (i − 1)!⋅(1 + x ) und damit i −1 −i Tn ( x; 0; ln (1 + x )) = ln(1 + 0) n (− 1) ⋅ (i − 1)!⋅(1 + 0 ) +∑ ⋅ xi i! 0! i =1 i −1 n =∑ i =1 −i (− 1)i−1 ⋅ x i = x − x 2 + x 3 − x 4 + ... + (− 1)n−1 ⋅ x n 2 i 3 4 n Mit Satz 5.7-2 ist n ln (1 + x ) = ∑ i =1 (− 1)i−1 ⋅ x i + R (x; 0; ln(1 + x )) = i n (− 1)i−1 ⋅ x i + (− 1)n ⋅ (1 + z )−(n+1) ⋅ x n+1 ∑ (n + 1) i i =1 n mit 0 < z < x für x > 0 und x < z < 0 für − 1 < x < 0 . 188 5 Ausgewählte Themen der Analysis Das Restglied Rn ( x; 0; ln (1 + x )) = (− 1)n ⋅ (1 + z )−(n+1) ⋅ x n+1 (n + 1) lässt sich betragsmäßig abschätzen: Für 0 < z < x gilt (wegen 1 + z > 1 bzw. folgt daher lim Rn ( x; 0; ln (1 + x )) = 0 . 1 x n+1 < 1 ) Rn ( x; 0; ln (1 + x )) < . Für 0 ≤ x ≤ 1 1+ z n +1 n→∞ Für − 1 2 < x < z < 0 ist (wegen 0 < 1 − x = 1 − (− x ) = 1 + x < 1 + z < 1 bzw. 0 < n +1 x 1 ⎛⎜ x −( n +1) ⋅ (1 + z ) < ⋅ Rn ( x; 0; ln (1 + x )) = (n + 1) n + 1 ⎜⎝ 1 − x ⎞ ⎟ ⎟ ⎠ n +1 . Wegen x < 1 2 ist 1 1 ) < 1+ z 1− x x < 1 , so 1− x dass auch in diesem Fall lim Rn ( x; 0; ln (1 + x )) = 0 gilt. n→∞ Für − 1 < x ≤ − 1 2 und x < z < 0 verwendet man eine andere, mathematisch anspruchsvollere Darstellung des Restglieds und kann dann auch hier zeigen, dass lim Rn ( x; 0; ln (1 + x )) = 0 n→∞ gilt. Insgesamt ist ∞ ln (1 + x ) = ∑ i =1 (− 1)i−1 ⋅ x i i x x3 x 4 x 5 (−1) n+1 n ∞ (−1)i+1 i = x − + − + − ... + x +∑ x für x ∈ R mit − 1 < x ≤ 1. 2 3 4 5 n i i =n +1 2 . Die Taylorentwicklung für f ( x) = ln( x) für x > 0 erhält man aus der Substitution z = x − 1 , x = z +1: n ln ( x ) = ln( z + 1) = ∑ i =1 (− 1)i−1 ⋅ (x − 1)i + R (x − 1; 0; ln(1 + z )) und i n 5.9 Taylorpolynome ∞ ln ( x ) = ∑ 189 (− 1)i−1 ⋅ (x − 1)i i i =1 = x −1− ∞ ( x − 1) 2 ( x − 1)3 ( x − 1) 4 (−1) n+1 (−1)i+1 + − + ... + ( x − 1) n + ∑ ( x − 1)i 2 3 4 n i i = n +1 für x ∈ R mit 0 < x ≤ 2 . Daraus ergibt sich das Ergebnis aus Satz 5.1-9 (iii) ( −1) i +1 ln( 2) = ∑ i i =1 ∞ =1− ∞ 1 1 1 1 ( − 1) n +1 ( − 1) i +1 + − + − ... + + ∑ ≈ 0,6931471 . n i 2 3 4 5 i = n +1 Die folgende Abbildung zeigt den Verlauf der natürlichen Logarithmusfunktion und ihrer Taylorpolynome an der Stelle x0 = 1 für 0 ≤ n ≤ 5 ; man sieht sehr schön die Approximation der Taylorpolynome für x ∈ R mit 0 < x ≤ 2 . Taylorpolynome ln-Funktion 6 T5(x) 4 T3(x) 2 0 T2(x) T4(x) -2 ln(x) -4 -6 -8 -0,5 0 0,5 1 1,5 2 2,5 3 Es soll nun die Größe von n berechnet werden, die ausreicht, damit Tn ( x; 0; ln (1 + x )) eine Approximation an ln (1 + x ) liefert, die einer vorgegebenen Genauigkeit genügt. Hierbei sei 0 ≤ x ≤ 1 . Soll also Tn ( x; 0; ln (1 + x )) in der Dezimalentwicklung bis zur m-ten Nachkomma- 190 5 Ausgewählte Themen der Analysis stelle genau sein, so kann man folgendermaßen vorgehen: Die Dezimalentwicklung von ln (1 + x ) bzw. von Tn ( x; 0; ln (1 + x )) , die bis zur m-ten Nachkommastelle identisch sind, seien ln (1 + x ) = [d k d k −1 ... d1d 0 , d −1d −2 ... d −m d −m−1d −m−2 ...]10 bzw. Tn ( x; 0; ln (1 + x )) = [d k d k −1 ... d1d 0 , d −1d −2 ... d −m c−m−1c−m−2 ...]10 . Dann ist Rn ( x; 0; ln (1 + x )) = ln (1 + x ) − Tn ( x; 0; ln (1 + x )) = 0, 0{ ... 0 + (d − m −1 − c−m −1 ) ⋅10 −(m +1) + (d −m − 2 − c− m − 2 ) ⋅10 −(m + 2 ) + ... m − mal = ∞ ∑ (d i = m +1 −i − c−i ) ⋅10 −i , ∞ ∞ ∞ i = m+1 i =m+1 i =m +1 (− 9) ⋅ ∑10−i ≤ Rn (x; 0; ln(1 + x )) ≤ 9 ⋅ ∑10−i , d.h. wegen ∑10−i = 1 ⋅10−m : 9 − 10− m ≤ Rn ( x; 0; ln (1 + x )) ≤ 10− m bzw. 0 ≤ Rn ( x; 0; ln (1 + x )) ≤ 10 − m . Im angenommenen Fall 0 ≤ x ≤ 1 ist 0 ≤ Rn ( x; 0; ln (1 + x )) ≤ x n+1 . Die Anforderung an n laun +1 tet also x n+1 ≤ 10−m . n +1 Soll beispielsweise ln (1,5) auf 7 Nachkommastellen genau durch das n-te Taylorpolynom ann +1 12 ≤ 10 −7 , d.h. gegeben werden, so wird n so bestimmt, dass n +1 (n + 1) ⋅ 2n+1 (n + 1) ⋅ 2n+1 ≥ 107 ist; muss also mindestens 8 Dezimalstellen aufweisen. Die folgende Tabelle listet ei- nige Werte für (n + 1) ⋅ 2 n+1 auf: 5.9 Taylorpolynome n (n + 1) ⋅ 2n+1 1 2 ... 10 11 ... 17 18 19 8 24 ... 22 528 49 152 ... 4 718 592 9 961 472 10 971 520 191 In diesem Beispiel ist also n ≥ 19 zu wählen. Bemerkung: ln(1,5) = 0,40546510810816438197801311546435 (letzte Stelle gerundet) Zur Berechnung von ln(x) für x ∈ R mit 0 < x ≤ 2 kann man also ein n-tes Taylorpolynom mit genügend großem n als Approximation an ln(x) nehmen. Im allgemeinen (auch für x > 2 ) funktioniert dieser Ansatz nicht, da das Restglied nicht gegen 0 konvergiert. Nun gilt aber für h < 1: ∞ ln (1 + h ) = ∑ (− 1)i−1 ⋅ hi i =1 i ∞ und ln (1 − h ) = ln (1 + (− h )) = ∑ i =1 (− 1)i−1 ⋅ (− h )i = i ∞ ∑ i =1 −1 i ⋅ h und damit i ∞ (− 1) ⋅ hi − ∞ − 1 ⋅ hi = 2 ⋅ ∞ 1 ⋅ h 2⋅i+1 ⎛1+ h ⎞ ( ) ( ) = + h − − h = ln⎜ ln 1 ln 1 ⎟ ∑ ∑ ∑ i ⎝1− h ⎠ i =1 i =1 i i =0 2 ⋅ i + 1 i −1 ∞ ⎛ h3 h5 h 2⋅n+1 ⎞ h 2⋅i+1 ⎟⎟ + 2 ⋅ ∑ . = 2 ⋅ ⎜⎜ h + + + ... + 3 5 2 ⋅ n +1⎠ i =n +1 2 ⋅ i + 1 ⎝ Für x ∈ R mit x > 0 ist − 1 < x −1 x −1 1+ h < 1 . Setzt man h = , so ist h < 1 und x = . Dax +1 x +1 1− h mit ergibt sich ∞ ⎛ h3 h5 h 2⋅n+1 ⎞ h 2⋅i+1 ⎟⎟ + 2 ⋅ ∑ ln( x) = 2 ⋅ ⎜⎜ h + + + ... + für x ∈ R . 3 5 2 ⋅ n +1⎠ i =n +1 2 ⋅ i + 1 h = x −1 ⎝ x +1 192 5 Ausgewählte Themen der Analysis Beispiel: Für m ∈N ist m ⎛ m⎞ m ⋅ ( m − 1) ⋅ ... ⋅ ( m − i + 1) i x = ∑ ( ± 1) i ⎜ ⎟ x i für x ∈R . i! ⎝ i⎠ i= 0 m (1 ± x ) m = ∑ ( ± 1) i i= 0 Diese Formel ist ein Spezialfall der allgemeineren Formel m ⎛ m⎞ m ⋅ ( m − 1) ⋅ ... ⋅ ( m − i + 1) i m− i ( a ± b) = ∑ ( ± 1) a b = ∑ ( ± 1) i ⎜ ⎟ a i b m− i i! ⎝ i⎠ i= 0 i= 0 m m i für a ∈ R, b ∈ R . Für m ∈ R \ N mit m > 0 ist ∞ (1 ± x ) m = ∑ ( ± 1) i i= 0 m ⋅ ( m − 1) ⋅ ... ⋅ ( m − i + 1) i x i! m( m − 1) 2 m( m − 1)( m − 2) 3 ∞ m( m − 1)... ⋅ ⋅( m − i + 1) i = 1 ± mx + x ± x + ∑ ( ± 1) i x 2 6 i! i= 4 für x ∈R mit − 1 ≤ x ≤ 1 . Beispiel: Zur Berechnung eines Wertes der Form 1,000001 mit großer Genauigkeit kann die Taylor0,999999 2 entwicklung einer „geeigneten“ Funktion herangezogen werden. Mit ⎧R ≠1 ⎪ f :⎨ x ⎪⎩ ist → → R 1+ x (1 − x )2 ( ) 1,000001 = f 10 −6 . Das n-te Taylorpolynom der Funktion f wird ermittelt; dazu werden 0,9999992 die einige Ableitungen ermittelt, um daraus auf die Form der i-ten Ableitung zu schließen: f (0 ) ( x ) = f ( x ) = 1+ x , (1 − x )2 5.9 Taylorpolynome 193 1⋅ (1 − x ) − (1 + x ) ⋅ (− 2) ⋅ (1 − x ) 3+ x f ′( x) = = , 4 (1 − x ) (1 − x )3 2 (1 − x )3 − (3 + x ) ⋅ (− 3) ⋅ (1 − x )2 = 10 + 2 ⋅ x = 2 ⋅ (5 + x ) , (1 − x )6 (1 − x )4 (1 − x )4 4 3 2 ⋅ (1 − x ) − 2 ⋅ (5 + x ) ⋅ (− 4) ⋅ (1 − x ) 42 + 6 ⋅ x 6 ⋅ (7 + x ) ′ ′ ′ f ( x) = = = ; 8 (1 − x ) (1 − x )5 (1 − x )5 f ′′( x) = die i-te Ableitung lautet also (das kann man durch vollständige Induktion beweisen): f (i ) ( x ) = i!⋅(2 ⋅ i + 1 + x ) . (1 − x )i+2 Damit gilt für das n-te Taylorpolynom an der Stelle x0 = 0 : n Tn ( x; 0; f ( x) ) = ∑ i =0 n i!⋅(2 ⋅ i + 1) i ⋅ x = ∑ (2 ⋅ i + 1) ⋅ x i = 1 + 3 ⋅ x + 5 ⋅ x 2 + 7 ⋅ x 3 + ... + (2 ⋅ n + 1) ⋅ x n . i! i =0 Für − 1 < x < 1 konvergiert das Restglied Rn ( x; 0; f ( x) ) = (2 ⋅ n + 3 + z ) ⋅ x n+1 gegen 0, so dass gilt: ∞ 1+ x = ∑ (2 ⋅ i + 1) ⋅ x i für − 1 < x < 1 . 2 (1 − x ) i=0 Damit ist 1,000001 1+ x = 2 0,999999 (1 − x )2 = 1,0000030000050000070000090000110000130... x =10−6 Beispiel: Über die auf ganz R stetigen und differenzierbaren Funktionen g und h seien folgende Eigenschaften bekannt: g (0) = 0 , h ( 0) = 1 , g ′( x ) = h( x ) , h ′( x ) = − g ( x ) . Dann lautet wegen g (0) = 0 , g ′(0) = h(0) = 1 , 194 5 Ausgewählte Themen der Analysis g ′′(0) = h′(0) = − g (0) = 0 , g ′′′(0) = − g ′(0) = − h(0) = −1 , g (4 ) (0) = −h′(0) = g (0) = 0 , d.h. ⎧ 0 für (i mod 2 ) = 0 ⎪ g (0) = ⎨ 1 für (i mod 4 ) = 1 ⎪− 1 für (i mod 4 ) = 3 ⎩ (i ) das (2 ⋅ n + 1) − te Taylorpolynom von g an der Stelle x0 = 0 : n T2⋅n+1 (x; 0; g ( x) ) = ∑ i =0 (− 1)i (2 ⋅ i + 1)! ⋅ x 2⋅i+1 . Das Restglied konvergiert für jedes x ∈ R gegen 0 (die Begründung erfolgt wie bei der Exponentialfunktion), so dass ∞ g ( x) = ∑ (− 1)i i = 0 (2 ⋅ i + 1) ! ⋅ x 2 ⋅ i +1 gilt. Im vorliegenden Fall darf man die Bildung der unendlichen Reihe und die Ableitungsoperation miteinander vertauschen, so dass (− 1)i ⋅ (2 ⋅ i + 1) ⋅ x 2⋅i = ∞ (− 1)i ⋅ x 2⋅i ∑ (2 ⋅ i + 1)! i =0 i =0 (2 ⋅ i ) ! ∞ h( x) = g ′( x ) = ∑ gilt. Die Ausgangsbedingungen g (0) = 0 , h(0) = 1 , g ′( x ) = h( x ) und h ′( x ) = − g ( x ) legen die Funktionen g und h eindeutig fest. Die aus der Schule bekannte Sinus- und Kosinusfunktionen besitzen diese Eigenschaften: g ( x) = sin( x) , h( x) = cos( x) . Es ist daher ∞ sin( x) = ∑ i =0 (− 1)i (2 ⋅ i + 1)! ⋅ x 2⋅i+1 = x − (− 1) ⋅ x 2⋅n+1 + ∞ (− 1) ⋅ x 2⋅i+1 x3 x5 x 7 + − + ... + ∑ (2 ⋅ n + 1)! 3! 5! 7! i =n +1(2 ⋅ i + 1) ! n für x ∈ R . (− 1)i ⋅ x 2⋅i = 1 − x 2 + x 4 − x 6 + ... + (− 1)n ⋅ x 2⋅n + ∞ (− 1)i ⋅ x 2⋅i ∑ (2 ⋅ n )! 2 4! 6! i =0 (2 ⋅ i ) ! i = n +1(2 ⋅ i ) ! ∞ cos( x) = ∑ für x ∈ R . i 5.9 Taylorpolynome 195 Vergleicht man diese Taylorreihenentwicklung mit der Exponentialfunktion, so fällt die große Ähnlichkeit auf. Es gelten folgende Zusammenhänge zwischen der Exponential-, der Sinusund der Kosinusfunktion: Erweitert man die Definition der Exponentialfunktion von den reellen Zahlen auf die komplexen Zahlen (siehe Kapitel 1.4), so erhält man die komplexwertige Exponentialfunktion ⎧C → ⎪ exp : ⎨ z → ⎪⎩ C zi . ∑ i = 0 i! ∞ Die unendliche Reihe in dieser Definition wird wieder über endliche Partialsummen definiert, wobei hierbei alle Operationen in den komplexen Zahlen ausgeführt werden. Die bei den Konvergenzbetrachtungen auftretenden Betragswerte sind dann wegen z = a + bi = a 2 + b 2 reelle Zahlen, so dass Konvergenzbetrachtungen von den komplexen Zahlen auf die reellen Zahlen übertragen werden und in R stattfinden. Es lässt sich zeigen, dass auch hier wieder ∞ ∞ zi zi = exp( z ) absolut konvergiert, so dass der Grenzwert mit z ∈ C in der Tat exis∑ ∑ i =0 i! i =0 i! tiert. Zur Abkürzung schreibt man anstelle von exp(z ) wieder e z und meint damit den ∞ Grenzwert zi . ∑ i =0 i! Nun gilt für die imaginäre Zahl i: i 2 = −1 . Für x ∈ R ergibt sich: k ∞ (− i ⋅ x )k ei⋅x − e −i⋅x 1 ⎛ ∞ (i ⋅ x ) = ⋅ ⎜⎜ ∑ −∑ 2 2 ⎝ k =0 k! k! k =0 1 ∞ (i ⋅ x ) − (− i ⋅ x ) = ⋅∑ 2 k =0 k! k ⎞ ⎟ ⎟ ⎠ k ∞ 2⋅k ∞ (− 1) ⋅ x 2⋅k +1 = i ⋅ sin( x) , 1 ∞ 2 ⋅ (i ⋅ x ) i ⋅ x 2⋅k +1 = ⋅∑ = i⋅∑ = i⋅∑ 2 k =0 (2 ⋅ k + 1)! k =0 (2 ⋅ k + 1)! k =0 (2 ⋅ k + 1)! 2⋅k +1 k k ∞ (− i ⋅ x )k e i⋅x + e −i⋅x 1 ⎛ ∞ (i ⋅ x ) = ⋅ ⎜⎜ ∑ +∑ 2 2 ⎝ k = 0 k! k! k =0 1 ∞ (i ⋅ x ) + (− i ⋅ x ) = ⋅∑ 2 k =0 i! k k 1 ∞ 2 ⋅ (i ⋅ x ) ⋅∑ 2 k =0 (2 ⋅ k )! 2⋅k = Damit folgt ⎞ ⎟ ⎟ ⎠ (− 1)k ⋅ x 2⋅k (2 ⋅ k )! k =0 ∞ =∑ = cos( x) . 196 5 Ausgewählte Themen der Analysis ei⋅x + e −i⋅x ei⋅x − e − i⋅x e = + = cos( x) + i ⋅ sin( x) . 2 2 i⋅x Für x ∈ R ist also cos(x) der Realteil und sin(x) der Imaginärteil von ei⋅x . Die in Satz 5.5-1 für reelle Zahlen x und y definierte Funktionalgleichung exp( x + y ) = exp( x) ⋅ exp( y ) lässt sich auch für die komplexwertige Exponentialfunktion nachweisen, so dass insgesamt für z ∈ C , etwa z = a + b ⋅ i mit a ∈ R und b ∈ R , gilt: exp( z ) = exp(a + i ⋅ b ) = exp(a ) ⋅ exp(i ⋅ b ) = exp(a ) ⋅ (cos(b) + i ⋅ sin(b) ) . 5.10 Fibonacci-Zahlen In Kapitel 2.1 werden die Fibonacci-Zahlen als Funktion definiert: ⎧N → N ⎪ für n = 0 und n = 1 fib : ⎨n → ⎧n ⎨ ⎪⎩ ⎩ fib(n − 1) + fib(n − 2) für n ≥ 2. Die Fibonacci-Zahlen spielen in vielen Teilen der Mathematik und der Informatik (z.B. bei der Laufzeitberechnung des Zugriffs auf Daten, die in Form höhenbalancierter Bäume gespeichert sind) eine wichtige Rolle. Zur Vereinfachung der Darstellung wird Fn = fib(n) gesetzt, d.h. (Fn )n∈N ist die Folge der Fibonacci-Zahlen. Die ersten elf Fibonacci-Zahlen lauten: n 0 1 2 3 4 5 6 7 8 9 10 Fn 0 1 1 2 3 5 8 13 21 34 55 Gemäß obiger Definition ist für n = 0 oder n = 1 ⎧n Fn = ⎨ ⎩ Fn−2 + Fn−1 für n ≥ 2. Zur Berechnung der n-ten Fibonacci-Zahlen kann man z.B. folgende PASCAL-Funktion einsetzen, die wohl elegant ist, aber schlechtes Laufzeitverhalten zeigt: 5.10 Fibonacci-Zahlen 197 FUNCTION fib_1 (n : INTEGER) : INTEGER; BEGIN { fib_1 } IF n < 0 THEN Exit; CASE OF n 0 : fib_1 := 0; 1 : fib_1 := 1; ELSE fib_1 := fib_1(n-2) + fib_1(n-1); END; END { fib_1 }; Optimales Laufzeitverhalten zeigt folgende PASCAL-Funktion, die zur Berechnung der n-ten Fibonacci-Zahl Fn nacheinander alle Fibonacci-Zahlen Fi mit 0 ≤ i < n berechnet: FUNCTION fib_2 (n : INTEGER) : INTEGER; VAR f_n1, f_n2, f_n : INTEGER; idx : INTEGER; BEGIN { fib_2 } IF n < 0 THEN Exit; CASE 0 1 ELSE OF n : fib_2 := 0; : fib_2 := 1; BEGIN f_n2 := 0; f_n1 := 1; FOR idx := n DOWNTO 2 DO BEGIN f_n := f_n2 + f_n1; f_n2 := f_n1; f_n1 := f_n; END; fib_2 := f_n; END; END { CASE }; END { fib_2 }; Die Fibonacci-Zahlen sind rekursiv definiert, und es ist wünschenswert, den Wert der n-ten Fibonacci-Zahl direkt in Abhängigkeit von n zu erhalten. Hier hilft eine spezielle mathematische Methode, die Methode der erzeugenden Funktionen, weiter, die hier nur auf das vorliegende Beispiel angewandt werden soll. 198 5 Ausgewählte Themen der Analysis Zunächst fasst man die beiden Fälle der definierenden Gleichung der Fibonacci-Zahlen zu einer Gleichung zusammen. Dazu definiert man F−1 = F−2 = 0 und erhält Fn = Fn −1 + Fn − 2 + an für jedes n ∈ N ; hierbei ist a1 = 1 und an = 0 für n ≠ 1 . Beide Seiten werden mit x n multipliziert und alle Werte aufaddiert; hier ist nicht gesagt, welchen Wert x annimmt, und auch Fragen der Konvergenz spielen zunächst keine Rolle. Man erhält: ∞ ∞ ∞ ∞ n =0 n =0 n =0 n =0 ∞ ∞ n =0 n =0 ∑ Fn ⋅ x n = ∑ Fn−1 ⋅ x n + ∑ Fn−2 ⋅ x n + ∑ an ⋅ x n = ∑ Fn ⋅ x n+1 + ∑ Fn ⋅ x n+ 2 + x ∞ ∞ n =0 n =0 wegen F−1 = F−2 = 0 = x ⋅ ∑ Fn ⋅ x n + x 2 ⋅ ∑ Fn ⋅ x n + x. ∞ Setzt man F ( x) = ∑ Fn ⋅ x n , so erhält man die Gleichung n =0 F ( x) = x ⋅ F ( x) + x 2 ⋅ F ( x) + x , die man nach F(x) auflöst: F ( x) = x . 1 − x − x2 Diese Funktion erfüllt für x0 = 0 die Voraussetzungen von Satz 5.7-2, so dass man versuchen könnte, die Taylorentwicklung an der Stelle x0 = 0 herzuleiten. Wieder unter der Annahme, dass Konvergenz vorliegt, ergäbe sich dann: F (i ) (0) i ∞ F ( x) = ∑ ⋅ x = ∑ Fn ⋅ x n . i! i =0 n =0 ∞ Ein Koeffizientenvergleich lieferte Fn = F (n ) (0) . Dieser Weg ist jedoch mühsam, da die n! Ableiungen F (i ) (x) schwierig zu bestimmen sind. Daher wird ein anderer Weg beschritten: 5.10 Fibonacci-Zahlen 199 Es werden Zahlen A, B, α und β mit Hilfe der Partialbruchzerlegung bestimmt, für die gilt: F ( x) = x A B = + . 2 1− x − x 1−α ⋅ x 1− β ⋅ x A ⋅ (1 − β ⋅ x ) + B ⋅ (1 − α ⋅ x ) (1 − α ⋅ x ) ⋅ (1 − β ⋅ x ) 1−α ⋅ x 1− β ⋅ x A − A ⋅ β ⋅ x + B − B ⋅α ⋅ x = (1 − α ⋅ x ) ⋅ (1 − β ⋅ x ) x = . 1 − x − x2 A B + = Der Koeffizientenvergleich ergibt: A + B − ( A ⋅ β + B ⋅ α ) ⋅ x = x und (1 − α ⋅ x ) ⋅ (1 − β ⋅ x ) = 1 − x − x 2 . Mit x = 0 folgt aus der ersten Gleichung A + B = 0 bzw. A = − B . Zur Bestimmung von α und β werden die Nullstellen von 1 − x − x 2 bestimmt. Diese lauten (siehe Kapitel 5.3): ( ) ( ) 1 1 x01 = − ⋅ 1 + 5 und x02 = − ⋅ 1 − 5 . 2 2 Damit ist 1 − x − x 2 = −( x − x01 ) ⋅ ( x − x02 ) = −( x01 − x ) ⋅ ( x02 − x ) ⎛ x ⎞ ⎛ x ⎞ ⎟⎟ ⋅ ⎜⎜1 − ⎟⎟ = − x01 ⋅ x02 ⋅ ⎜⎜1 − ⎝ x01 ⎠ ⎝ x02 ⎠ ⎛ x ⎞ ⎛ x ⎞ ⎟⎟ ⋅ ⎜⎜1 − ⎟⎟ = ⎜⎜1 − x x 01 ⎠ ⎝ 02 ⎠ ⎝ = (1 − α ⋅ x ) ⋅ (1 − β ⋅ x ) und folglich wegen − x01 ⋅ x02 = 1 200 5 Ausgewählte Themen der Analysis ( 1 1 1− 5 1 = −2 ⋅ = −2 ⋅ = ⋅ 1− 5 x01 2 1+ 5 1+ 5 ⋅ 1− 5 ≈ −0,618034 α= ( )( ) ) und ( 1 1 1 = −2 ⋅ = ⋅ 1+ 5 x02 1− 5 2 ≈ 1,618034. β= ) Diese Werte für α und β werden in die Gleichung A + B − ( A ⋅ β + B ⋅ α ) ⋅ x = x eingesetzt, wobei A + B = 0 bzw. A = − B bereits bekannt ist, und der Wert x = 1 genommen wird. Man erhält ( ) 1 = − A ⋅ β + A ⋅ α = A ⋅ (α − β ) = A ⋅ − 5 bzw. A=− 1 1 und B = . 5 5 Damit ist x 1 − x − x2 A B = + 1−α ⋅ x 1− β ⋅ x F ( x) = = 1 ⎛ 1 1 ⎞ ⋅ ⎜⎜ − ⎟. 5 ⎝ 1 − β ⋅ x 1 − α ⋅ x ⎟⎠ Nun ist nach Satz 5.1-9 (i) für α ⋅ x < 1 bzw. β ⋅ x < 1 : ∞ 1 1−α ⋅ x = ∑ (α ⋅ x ) bzw. i =0 i 1 1− β ⋅ x und insgesamt F ( x) = 1 ⎛ 1 1 ⎞ ⋅ ⎜⎜ − ⎟ 5 ⎝ 1 − β ⋅ x 1 − α ⋅ x ⎟⎠ ∞ 1 ⎛ 1 ⎞ = ∑⎜ ⋅βn − ⋅α n ⎟ ⋅ xn 5 ⎠ n =0 ⎝ 5 ∞ = ∑ Fn ⋅ x n . n =0 ∞ = ∑ (β ⋅ x ) i =0 i . 5.11 Erzeugende Funktionen 201 Bemerkung: Diese Gleichung gilt wegen der Konvergenzanforderungen α ⋅ x < 1 und { β ⋅ x < 1 für jedes x ∈ R mit x < min 1 α , 1 β } = 1 β < 0,618034 , eine Tatsache, die hier nicht von Belang ist. Der Koeffizientenvergleich liefert: Die durch für n = 0 oder n = 1 ⎧n Fn = ⎨ ⎩ Fn−2 + Fn−1 für n ≥ 2 definierten Fibonacci-Zahlen erfüllen die Gleichung n n 1 ⎛⎜ ⎛ 1 + 5 ⎞ ⎛ 1 − 5 ⎞ ⎞⎟ ⎟ für jedes n ∈ N . ⎟ −⎜ Fn = ⋅ ⎜ 5 ⎜ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 ⎟⎠ ⎟ ⎠ ⎝ 5.11 Erzeugende Funktionen Im vorliegenden Kapitel wird die in Kapitel 5.10 erwähnte Methode der erzeugenden Funktionen beschrieben und im Kapitel 5.12 auf weitere interessante Fragestellungen der Informatik angewendet. Es sei (g n )n∈N eine Folge reeller Zahlen. Die erzeugende Funktion G der Folge (g n )n∈N wird ∞ durch G ( z ) = ∑ g n ⋅ z n definiert. Hierbei ist z eine „formale“ (komplexe oder reelle) Variabn =0 le. Bemerkung: Haben zwei Folgen dieselbe erzeugende Funktion, so sind die beiden Folgen gleich. Die erzeugende Funktion fasst die gesamte Information über die Folge (g n )n∈N in einem einzigen arithmetischen Ausdruck zusammen. Die z-Potenzen separieren dabei die einzelnen Folgenglieder. Natürlich kann man nach Konvergenzbedingungen in Abhängigkeit von z fragen. Im vorliegenden Zusammenhang spielen diese aber eine untergeordnete Rolle. 202 5 Ausgewählte Themen der Analysis In Kapitel 5.10 wird die erzeugende Funktion der Fibonacci-Folge (Fn )n∈N berechnet zu ∞ F ( z ) = ∑ Fn ⋅ z n = n =0 ( z . Hierbei ist zur Berechnung die Tatsache, dass diese Reihe nur 1− z − z2 ) für z < 2 ⋅1 1 + 5 ≈ 0,618034 konvergiert, ohne Belang. Die erzeugende Funktion der Fibonacci-Folge wird in eine Potenzreihe umgewandelt mit dem Ergebnis n n ∞ z 1 ⎛⎜ ⎛ 1 + 5 ⎞ ⎛ 1 − 5 ⎞ ⎞⎟ n ⎟ −⎜ ⎟ ⋅ z . Daraus lässt sich die n-te Fibonacci=∑ ⋅ ⎜ F ( z) = 1 − z − z 2 n=0 5 ⎜ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 ⎟⎠ ⎟ ⎝ ⎠ n n 1 ⎛⎜ ⎛ 1 + 5 ⎞ ⎛ 1 − 5 ⎞ ⎞⎟ ⎟ −⎜ ⎟ . Zahl in geschlossener Form ablesen: Fn = ⋅ ⎜ 5 ⎜ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 ⎟⎠ ⎟ ⎝ ⎠ Satz 5.11-1: Es seien ( f n )n∈N bzw. (g n )n∈N zwei Folgen mit den erzeugenden Funktionen F (z ) bzw. G (z ) und α und β Konstanten. (i) Die erzeugende Funktion der Folge (α ⋅ f n + β ⋅ g n )n∈N lautet ∞ ∑ (α ⋅ f n =0 (ii) n + β ⋅ gn )⋅ z n = α ⋅ F ( z) + β ⋅ G( z) . Die erzeugende Funktion der Folge, die man erhält, indem man (g n )n∈N um m ⎞ ⎛ ⎟ , lautet Plätze nach rechts verschiebt, also der Folge ⎜ 0, g g ..., 0 , , , ... ⎜ 123 0 1 ⎟ ⎠ ⎝ m ∞ ∞ ∞ n=m n =0 n =0 ∑ g n−m ⋅ z n = ∑ g n ⋅ z n + m = z m ⋅ ∑ g n ⋅ z n = z m ⋅ G ( z ) . (iii) Die erzeugende Funktion der Folge, die man erhält, indem man (g n )n∈N um m Plätze nach links verschiebt, also der Folge ( g m , g m+1 , g m+ 2 , ...) , lautet ∞ ∑ g n+ m ⋅ z n = n =0 G ( z ) − g 0 − g1 ⋅ z − g 2 ⋅ z 2 − ... − g m−1 ⋅ z m−1 . zm (iv) Die erzeugende Funktion der Folge (α n ⋅ g n )n∈N lautet ∞ ∑α n =0 ∞ n ⋅ g n ⋅ z n = ∑ g n ⋅ (α ⋅ z ) = G (α ⋅ z ) . n n =0 ../.. 203 5.11 Erzeugende Funktionen (v) Die erzeugende Funktion der Folge ((n + 1) ⋅ g n+1 )n∈N = ( g1 , 2 ⋅ g 2 , 3 ⋅ g 3 , ...) lautet ∞ ∑ (n + 1)⋅ g n =0 n +1 ⋅ z n = G′( z ) . (vi) Die erzeugende Funktion der Folge (n ⋅ g n )n∈N = (0, g1 , 2 ⋅ g 2 , 3 ⋅ g 3 , ...) lautet ∞ ∑n⋅ g n =0 n ⋅ z n = z ⋅ G′( z ) . 1 1 ⎛1 ⎞ ⎛ ⎞ (vii) Die erzeugende Funktion der Folge ⎜ ⋅ g n−1 ⎟ = ⎜ 0, g 0 , ⋅ g1 , ⋅ g 2 , ...⎟ , wobei 2 3 ⎝n ⎠ n∈N ⎝ ⎠ das 0-te Folgenglied den Wert 0 hat, lautet ∞ 1 ∑n⋅g n =1 ⋅ z n = ∫ G (t )dt . z n −1 0 ⎛ n ⎞ (viii) Die Faltung der Folgen ( f n )n∈N und (g n )n∈N , d.h. die Folge ⎜ ∑ f k ⋅ g n−k ⎟ , hat ⎝ k =0 ⎠ n∈N die erzeugende Funktion ⎛ n ⎞ ⎜ ∑ f k ⋅ g n−k ⎟ ⋅ z n = F ( z ) ⋅ G ( z ) . ∑ n =0 ⎝ k =0 ⎠ ∞ (ix) Die Folge, deren Glieder die n-ten Partialsummen der Folge (g n )n∈N bilden, d.h. ⎞ ⎛ n die Folge (g 0 , g 0 + g1 , g 0 + g1 + g 2 , ...) = ⎜ ∑ g k ⎟ hat die erzeugende Funktion ⎝ k =0 ⎠ n∈N ⎛ n ⎞ 1 ⋅ G( z) . ⎜ ∑ gk ⎟ ⋅ z n = ∑ 1− z n =0 ⎝ k =0 ⎠ ∞ (x) Die erzeugende Funktion der Folge, die aus (g n )n∈N entsteht, indem man die Folgenglieder mit ungeradem Index ∞ (g 0 , 0, g 2 , 0, g 4 , 0, ...) , lautet ∑ g 2⋅n ⋅ z 2⋅n n =0 durch 0 ersetzt, G ( z ) + G (− z ) . = 2 d.h. der Folge Die erzeugende Funktion der Folge, die aus (g n )n∈N entsteht, indem man die Folgenglieder mit geradem Index ∞ durch (0, g1 , 0, g3 , 0, g5 , 0, ...) , lautet ∑ g 2⋅n+1 ⋅ z 2⋅n+1 n =0 Die Aussagen (i) – (iv) sind unmittelbar einsichtig. Aussage (v) ergibt sich aus 0 ersetzt, d.h. G ( z ) − G (− z ) . = 2 der Folge 204 5 Ausgewählte Themen der Analysis ′ ⎛ ∞ n⎞ G′( z ) = ⎜ ∑ g n ⋅ z ⎟ = g1 + 2 ⋅ g 2 ⋅ z + 3 ⋅ g 3 ⋅ z 2 + ... ⎠ ⎝ n =0 ∞ = ∑ (n + 1) ⋅ g n+1 ⋅ z n . n =0 Aussage (vi) folgt aus (ii), indem man die Folge aus (v) um einen Platz nach rechts verschiebt. Aussage (vii) ergibt sich wie folgt (hier wird benutzt, dass unter der Voraussetzung der Konvergenz die Operationen der Integral- und Summenbildung vertauschbar sind; hinzu kommt ein wenig elementares Schulwissen): ∞ ∞ ∞ z ⎛ ∞ z n+1 1 n n⎞ G ( t ) dt g t dt = g ⋅ t dt = g ⋅ = ⋅ g n−1 ⋅ z n + 0 ⋅ z 0 . Dazu gehört = ⋅ ⎜ ⎟ ∑ ∑ ∑ n n ∫ n ∫0 ∫0 ⎝ ∑ 0 n + 1 n=1 n n =0 n =0 n =0 ⎠ z z 1 1 ⎛ ⎞ die Folge ⎜ 0, g 0 , ⋅ g1 , ⋅ g 2 , ... ⎟ . 2 3 ⎝ ⎠ Für Aussage (viii) ist ⎛ ∞ ⎞ ⎛ ∞ ⎞ F ( z) ⋅ G( z) = ⎜ ∑ f n ⋅ z n ⎟ ⋅ ⎜ ∑ gn ⋅ z n ⎟ ⎝ n =0 ⎠ ⎝ n =0 ⎠ = f 0 ⋅ g 0 + ( f 0 ⋅ g1 + f1 ⋅ g 0 ) ⋅ z + ( f 0 ⋅ g 2 + f1 ⋅ g1 + f 2 ⋅ g 0 ) ⋅ z 2 + ... ∞ ⎛ n ⎞ = ∑ ⎜ ∑ f k ⋅ g n−k ⎟ ⋅ z n n =0 ⎝ k =0 ⎠ zu beachten. ∞ Die erzeugende Funktion der konstanten Folge (1, 1, 1, ...) = (1)n∈N lautet F ( z ) = ∑ z n = n=0 Daher ist mit (viii) 1 ⋅ G ( z ) die erzeugende Funktion der Faltung von (1, 1, 1, ...) = (1)n∈N 1− z und (g n )n∈N . Das n-te Folgenglied der Faltung lautet n n k =0 k =0 ∑1⋅ g n−k = ∑ g k . Das zeigt die Aussa- ge (ix). Aussage (x) rechnet man direkt nach: ∞ ( n ( n ) G ( z ) + G (− z ) = ∑ g n ⋅ 1 + (− 1) ⋅ z n = n =0 ∞ ) G ( z ) − G (− z ) = ∑ g n ⋅ 1 − (− 1) ⋅ z n = n =0 1 . 1− z ∞ ∑g ∞ n n =0 n ist gerade ⋅ 2 ⋅ z n = 2 ⋅ ∑ g 2⋅n ⋅ z 2⋅n . Entsprechend ist n =0 ∞ ∞ n =0 n ist ungerade n =0 ∑ g n ⋅ 2 ⋅ z n = 2 ⋅ ∑ g 2⋅n+1 ⋅ z 2⋅n+1 . 205 5.11 Erzeugende Funktionen Die folgende Zusammenstellung zeigt einige wichtige Beispiele von Folgen mit ihren erzeugenden Funktionen. Auch hier sollen Fragen des Konvergenzverhaltens bezüglich der formalen Variablen z unberücksichtigt bleiben. Folge (g n )n∈N (i) erzeugende Funktion geschlossene Form 1⋅ z 0 G( z) = 1 1⋅ z m G( z) = z m g 0 = 1 , g n = 0 für n ≥ 1 : (1, 0, 0, 0, ...) (ii) g m = 1 , g n = 0 für n ≠ m , m ∈ N fest: ⎛ ⎞ 1 , 0, 0, 0, ...⎟ ⎜ 0, ..., 0, { Position m ⎝ ⎠ (iii) g n = 1 für n ∈ N : ∞ (1, 1, 1, 1, ...) ∞ G( z) = 1 1+ z 2⋅n G( z) = 1 1− z2 m⋅n G( z) = 1 1− zm G( z) = 1 (1 − z )2 G( z) = 1 1− c ⋅ z ∑ (− 1) (1, − 1, 1, − 1, ...) n ⋅ zn n =0 g 2⋅i = 1 , g 2⋅i+1 = 0 für i ∈ N : ∞ ∑z (1, 0, 1, 0, 1, ...) n =0 (vi) g m⋅n = 1 für n ∈ N , g i = 0 sonst: ∞ ∑z (1, 0, ..., 0, 1, 0, ..., 0, 1, 0, ...) n =0 (vii) g n = n + 1 für n ∈ N : ∞ ∑ (n + 1) ⋅ z (1, 2, 3, 4, ...) n n =0 ∞ (viii) g n = c n für n ∈ N , c ∈ R fest: ∑c (1, c, c , c , ...) 2 1 1− z n n =0 (iv) g 2⋅i = 1 , g 2⋅i+1 = −1 für i ∈ N : (v) G( z) = ∑z 3 n ⋅ zn n =0 ⎛ m⎞ (ix) g n = ⎜⎜ ⎟⎟ für n ∈ N , m ∈ N fest: ⎝n⎠ ⎛m⎞ n ⎜⎜ ⎟⎟ ⋅ z ∑ n =0 ⎝ n ⎠ ∞ G ( z ) = (1 + z ) m ⎞ ⎛ ⎛ m⎞ ⎛ m⎞ ⎜1, m, ⎜⎜ ⎟⎟, ⎜⎜ ⎟⎟, ..., m, 1, 0, 0, ... ⎟ ⎟ ⎜ ⎝2⎠ ⎝3⎠ ⎠ ⎝ ⎛ m + n − 1⎞ ⎟⎟ für n ∈ N , m ∈ N , g n = ⎜⎜ n ⎝ ⎠ m ≥ 1 fest: (x) ⎛ m + n − 1⎞ n ⎜⎜ ⎟⎟ ⋅ z ∑ n n =0 ⎝ ⎠ ∞ G( z) = 1 (1 − z )m ⎛ ⎛ m + 1⎞ ⎛ m + 2 ⎞ ⎞ ⎜1, m, ⎜⎜ ⎟⎟, ⎜⎜ ⎟⎟, ... ⎟⎟ ⎜ ⎝ 2 ⎠⎝ 3 ⎠ ⎠ ⎝ ../.. 206 5 Ausgewählte Themen der Analysis ⎛ m + n⎞ ⎟⎟ für n ∈ N , m ∈ N fest: (xi) g n = ⎜⎜ ⎝ n ⎠ ⎛m + n⎞ n ⎟⋅ z n ⎟⎠ n =0 ⎝ ∞ ∑ ⎜⎜ G( z) = 1 (1 − z )m+1 ⎛ ⎛ m + 1⎞ ⎛ m + 2 ⎞ ⎛ m + 3 ⎞ ⎞ ⎜1, ⎜⎜ ⎟⎟, ⎜⎜ ⎟⎟, ⎜⎜ ⎟⎟, ... ⎟⎟ ⎜ 2 3 3 ⎠⎝ ⎠⎝ ⎠ ⎠ ⎝ ⎝ (xii) g 0 = 0 , g n = 1 n für n ≥ 1 : (0, 1, 1 2 , 1 3 , 1 4 ...) n +1 (xiii) g 0 = 0 , g n = (− 1) ⋅1 n für n ≥ 1 : (0, 1, − 1 2 , 1 3 , − 1 4 ...) (xiv) g 0 = 0 , g n = 1 (n!) für n ≥ 1 : (1, 1, 1 2 , 1 6 , 1 24 , 1 120 , ...) ∞ ∑1 n ⋅ z ⎛ 1 ⎞ G ( z ) = ln⎜ ⎟ ⎝1− z ⎠ n n =1 ∞ ∑ (− 1) n +1 ⋅1 n ⋅ z n G ( z ) = ln (1 + z ) n =1 ∞ ∑1 (n!) ⋅ z n G( z) = e z n =0 Die Berechnung der geschlossenen Form der erzeugenden Funktion in den Beispielen (i) – (vi) und (viii) ist klar bzw. ergibt sich aus Satz 5.1-9. Beispiel (vii) kann ebenfalls mit Satz 5.1-9 oder auch mit Satz 5.11-1 (v) begründet werden: Setzt man dort g n = 1 , so folgt mit Beispiel (iii): ∞ ∞ n =0 n =0 ′ 1 ⎞ 1 . ⎟ = 2 ⎝ 1 − z ⎠ (1 − z ) ⎛ ∑ (n + 1)⋅ z n = ∑ (n + 1)⋅1⋅ z n = ⎜ Beispiel (ix) ist die binomische Formel. Beispiel (x) lässt sich durch Induktion über m zeigen: ∞ 1 + n −1 ⎛ ⎞ n ∞ n ⎟⎟ ⋅ z = ∑ z = 1 (1 − z ) = 1 (1 − z )1 . Die Behauptung gelte für m ≥ 1 . Für m = 1 ist ∑ ⎜⎜ n ⎠ n =0 ⎝ n =0 ⎛ m + 1 + n − 1⎞ n ∞ ⎛ m + 1⎞ n ⎜⎜ ⎟⎟ ⋅ z = ∑ ⎜⎜ ⎟⎟ ⋅ z . Nach Satz 4.1-3 (v) (dort für i den Wert n und ∑ n n =0 ⎝ n =0 ⎝ n ⎠ ⎠ ⎛ m + n ⎞ n ⎛ m −1+ k ⎞ ⎟⎟ = ∑ ⎜⎜ ⎟⎟ . Setzt man für n den Ausdruck m + n − 1 einsetzen) ist ⎜⎜ k ⎝ n ⎠ k =0 ⎝ ⎠ Dann ist ∞ ⎛ m + n − 1⎞ ⎟⎟ , so ist g n = ⎜⎜ n ⎝ ⎠ ⎛ m + 1⎞ n ∞ ⎛ n ⎛ m − 1 + k ⎞ ⎞ n ∞ ⎛ n ⎞ ⎜⎜ ⎟⎟ ⋅ z = ∑ ⎜⎜ ∑ ⎜⎜ ⎟⎟ ⎟⎟ ⋅ z = ∑ ⎜ ∑ g k ⎟ ⋅ z n . Nach Induk∑ k n =0 ⎝ n ⎠ n =0 ⎝ k =0 ⎝ n =0 ⎝ k =0 ⎠ ⎠⎠ ∞ tionsvoraussetzung lautet die erzeugende Funktion der Folge (g n )n∈N : ∞ ⎛ m + n − 1⎞ n 1 ⎟⎟ ⋅ z = . Mit Satz 5.11-1 (ix) folgt G ( z ) = ∑ ⎜⎜ n (1 − z )m n =0 ⎝ ⎠ ∞ ⎛ m + 1⎞ n ∞ ⎛ n ⎞ 1 1 ⎜⎜ ⎟⎟ ⋅ z = ∑ ⎜ ∑ g k ⎟ ⋅ z n = ⋅ G( z) = . ∑ 1− z (1 − z )m+1 n =0 ⎝ n ⎠ n =0 ⎝ k =0 ⎠ Beispiel (xi) ergibt sich aus (x) wie im Induktionsschritt zu (x). 207 5.11 Erzeugende Funktionen Die (0, 1, 1 2 , 1 3 , 1 4 ...) Folge ∞ ∞ ∞ n =1 n =1 n =1 in Beispiel (xii) hat die erzeugende Funktion ∑1 n ⋅ z n = ∑1 n ⋅1⋅ z n = ∑1 n ⋅ g n−1 ⋅ z n mit der konstanten Folge (g n )n∈N = (1)n∈N . Die Folge 1 . Mit Satz 5.11-1 (vii) folgt 1− z ∞ ∞ z z 1 1− z ⎛ 1 1⎞ ⎛ 1 ⎞ n ⋅ = ⋅ g n−1 ⋅ z n = ∫ G (t )dt = ∫ 1 n z dt = ∫ ⎜ − ⎟ dx = − ln (1 − z ) = ln⎜ ⎟. ∑ ∑ 0 0 1− t 1 ⎝ x⎠ ⎝1− z ⎠ n =1 n =1 n (g n )n∈N hat nach (iii) die erzeugende Funktion G ( z ) = Die Folge (0, 1, − 1 2 , 1 3 , − 1 4 ...) in Beispiel (xiii) hat die erzeugende Funktion ∞ ∞ n =1 n =1 ⎛ n +1 n ∑ (− 1) ⋅1 n ⋅ z n = −∑1 n ⋅ (− z ) = − ln⎜ 1 ⎞ ⎟ = ln (1 + z ) . ⎝1+ z ⎠ Beispiel (xiv) ist die Taylorentwicklung der Exponentialfunktion e z . Erzeugende Funktionen stellen ein sehr gutes Werkzeug bei der Auflösung von rekursiv definierten Folgen zur Verfügung. Dabei geht man wie folgt vor: Gegeben sei die Folge (g n )n∈N über ein rekursives Gleichungssystem. Gesucht ist eine geschlossene Darstellung von g n in Abhängigkeit von n. 1. Schritt: Man schreibt eine einzige Gleichung auf, die g n mit Hilfe anderer Folgenglieder definiert. Diese Gleichung sollte für alle n gelten; eventuell muss man Folgenglieder mit negativen Indizes formal anfügen, für die dann g −1 = g −2 = ... = 0 gesetzt wird. 2. Schritt: Beide Seiten der Gleichung aus dem 1. Schritt werden nacheinander mit z n multipliziert und jeweils aufsummiert, so dass auf der linken Seite der Gleichung die ∞ erzeugende Funktion G ( z ) = ∑ g n ⋅ z n entsteht. Die rechte Seite der Gleichung n =0 wird so umgeformt, dass sie ebenfalls einen arithmetischen Ausdruck in G (z ) darstellt. 3. Schritt: Die Gleichung aus dem 2. Schritt wird nach G (z ) aufgelöst. 4. Schritt: G (z ) wird in eine formale Potenzreihe entwickelt. Der Koeffizient von z n ist g n in geschlossener Form. 208 5 Ausgewählte Themen der Analysis Bemerkung: Der komplexeste Schritt ist im allgemeinen der 4. Schritt. Zur Illustration wird das Verfahren an der Darstellung der Fibonacci-Zahlen in geschlossener Form gezeigt. Die Einzelheiten sind in Kapitel 5.10 bereits ausgeführt. Die Folge (Fn )n∈N der Fibonacci-Zahlen ist rekursiv definiert durch für n = 0 oder n = 1 ⎧n Fn = ⎨ ⎩ Fn−1 + Fn−2 für n ≥ 2 . Die Ergebnisse der einzelnen Schritte lauten: 1. Schritt: Mit F−1 = F−2 = 0 ist Fn = Fn −1 + Fn − 2 + an für jedes n ∈ N ; hierbei ist a1 = 1 und an = 0 für n ≠ 1 . 2. Schritt: ∞ ∞ ∞ ∞ n =0 n =0 n =0 n =0 F ( z ) = ∑ Fn ⋅ z n = ∑ Fn−1 ⋅ z n + ∑ Fn−2 ⋅ z n + ∑ an ⋅ z n ∞ ∞ = ∑ Fn ⋅ z n+1 + ∑ Fn ⋅ z n+2 + z n =0 n =0 ∞ ∞ = z ⋅ ∑ Fn ⋅ z n + z 2 ⋅ ∑ Fn ⋅ z n + z n =0 n =0 = z ⋅ F ( z) + z F ( z) + z 2 3. Schritt: F ( z) = z 1− z − z2 4. Schritt: ∞ F ( z) = ∑ n =0 ∞ n n 1 ⎛⎜ ⎛ 1 + 5 ⎞ ⎛ 1 − 5 ⎞ ⎞⎟ n ⎟ −⎜ ⎟ ⋅z ⋅ ⎜ 5 ⎜ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 ⎟⎠ ⎟ ⎝ ⎠ = ∑ Fn ⋅ z n . n =0 5.12 Anzahlbetrachtungen in Binärbäumen 209 5.12 Anzahlbetrachtungen in Binärbäumen Eine der wichtigsten Datenstrukturen, die in der Informatik vorkommen, sind Binärbäume. Dazu einige einführende Definitionen: Ein gerichteter Graph G = (V, E) besteht aus einer endlichen Menge V = {v1 , ... , v n } von Knoten (vertices) und einer endlichen Menge E = {e1 , ... , e k } ⊆ V × V von Kanten (edges). Die Kante e = (v i , v j ) läuft von v i nach v j (verbindet v i mit v j ). Der Knoten v i heißt An- fangsknoten der Kante e = (v i , v j ) , der Knoten v j Endknoten von e = (v i , v j ) . Zu einem Knoten v ∈ V heißt pred (v) = {v ′ | (v ′, v ) ∈ E} die Menge der direkten Vorgänger von v, succ(v) = {v ′ | (v, v ′) ∈ E} die Menge der direkten Nachfolger von v. Ein Binärbaum Bn = (V, E) mit n Knoten wird durch folgende Eigenschaften 1. – 4. charakterisiert: 1. Entweder ist n ≥ 1 und V = n ≥ 1 und E = n − 1 , oder es ist n = 0 und V = E = ∅ (leerer Baum) 2. Bei n ≥ 1 gibt es genau einen Knoten r ∈ V , dessen Menge direkter Vorgänger leer ist; dieser Knoten heißt Wurzel von Bn. 3. Bei n ≥ 1 besteht die Menge der direkten Vorgänger eines jeden Knotens, der nicht die Wurzel ist, aus genau einem Element. 4. Bei n ≥ 1 besteht die Menge der direkten Nachfolger eines jeden Knotens aus einem Element oder zwei Elementen oder ist leer. Ein Knoten, dessen Menge der direkten Nachfolger leer ist, heißt Blatt. Beispiele: 210 5 Ausgewählte Themen der Analysis Rang 0 500 120 700 100 Rang 1 300 Rang 2 Höhe 6 110 220 400 200 Rang 3 Rang 4 210 Rang 5 13 18 8 4 1 16 12 7 15 20 17 19 23 21 27 In einem Binärbaum B = (V, E) gibt es für jeden Knoten v ∈ V genau einen Pfad von der Wurzel r zu v, d.h. es gibt eine Folge (( a 0 , a1 ), ( a1 , a 2 ), ..., ( a m −1 , a m )) mit r = a 0 , v = a m und ( a i −1 , a i ) ∈ E für i = 1, ..., m. Der Wert m gibt die Länge des Pfads an. Um den Knoten v 5.12 Anzahlbetrachtungen in Binärbäumen 211 von der Wurzel aus über die Kanten des Pfads zu erreichen, werden m Kanten durchlaufen. Diese Länge wird auch als Rang des Knotens v bezeichnet. Der Rang eines Knotens lässt sich auch folgendermaßen definieren: 1. 2. Die Wurzel hat den Rang 0. Ist v ein Knoten im Baum mit Rang r − 1 und w ein direkter Nachfolger von v, so hat w den Rang r. Unter der Höhe eines Binärbaums versteht man den maximal vorkommenden Rang eines Blattes + 1. Der zweite Binärbaum zeichnet sich dadurch aus, dass sich die Höhen der Teilbäume, die von einem Knoten ausgehen, höchstens um 1 unterscheiden. Bäume mit dieser Eigenschaft heißen AVL-Bäume. In einem Binärbaum bilden alle Knoten mit demselben Rang ein Niveau des Baums. Das Niveau 0 eines Binärbaums enthält genau einen Knoten, nämlich die Wurzel. Das Niveau 1 enthält mindestens 1 und höchstens 2 Knoten. Das Niveau j enthält höchstens doppelt so viele Knoten wie das Niveau j − 1 . Daher gilt: Satz 5.12-1: (i) Das Niveau j ≥ 0 eines Binärbaums enthält mindestens einen und höchstens 2 j Knoten. Die Anzahl der Knoten vom Niveau 0 bis zum Niveau j (einschließlich) beträgt mindestens j +1 Knoten und höchstens j ∑2 j = 2 j +1 − 1 Knoten. i=0 (ii) Ein Binärbaum hat maximale Höhe, wenn jedes Niveau genau einen Knoten enthält. Er hat minimale Höhe, wenn jedes Niveau eine maximale Anzahl von Knoten enthält. Also gilt für die Höhe h( Bn ) eines Binärbaums mit n Knoten: ⎣log 2 (n )⎦ + 1 = ⎡log 2 ( n + 1)⎤ ≤ h( Bn ) ≤ n . (iii) Für die Höhe h( Bn ) eines AVL-Baums mit n Knoten gilt ⎡log 2 (n + 1)⎤ ≤ h( Bn ) < 1,4404201⋅ log 2 (n + 2) . Aussage (i) ergibt sich durch vollständige Induktion. 212 5 Ausgewählte Themen der Analysis Aussage (ii) ergibt sich aus folgenden Überlegungen: Die obere Abschätzung h( Bn ) ≤ n ist offensichtlich. Für die untere Abschätzung betrachtet man einen Binärbaum mit n Knoten und minimaler Höhe h. Jedes Niveau, bis eventuell das höchste Niveau m, ist vollständig gefüllt. Es ist h = m + 1 . Bis zum Niveau m − 1 enthält der Binärbaum gemäß (i) insgesamt 2 m−1+1 − 1 = 2 m − 1 viele Knoten, auf Niveau m sind es mindestens einer und höchstens 2 m . 2m − 1 + 1 ≤ n ≤ 2m − 1 + 2m , also 2 m ≤ n ≤ 2 m+1 − 1 und damit Daraus folgt: m < log 2 (n + 1) ≤ m + 1 , d.h. ⎡log 2 ( n + 1)⎤ = m + 1 = h . Für einen beliebigen Binärbaum mit n Knoten gilt daher ⎡log 2 ( n + 1)⎤ ≤ h( Bn ) . Aussage (iii) zeigt, dass die Höhe eines AVL-Baums durch eine logarithmischen Größenordnung, gemessen in der Anzahl der Knoten bewegt. Aussage (iii) lässt sich mit Hilfe der Methode der erzeugenden Funktion (siehe Ende des Kapitels 5.11) nachweisen. Dazu werden die dort beschriebenen 4 Schritte durchgeführt. Da ein Binärbaum, dessen Niveaus, bis eventuell das höchste Niveau m, vollständig gefüllt sind, ein AVL-Baum ist, folgt die untere Abschätzung ⎡log 2 (n + 1) ⎤ ≤ h( Bn ) . Es sei ein AVL-Baum mit Höhe h + 1 gegeben, der eine minimale Knotenanzahl enthält. Dann sind unter der Wurzel zwei Binärbäume mit Höhen h und h − 1 mit jeweils minimaler Knotenanzahl. Es sei K h die minimale Knotenanzahl eines AVL-Baums bei Höhe h. Dann gilt: K 0 = 0 , K1 = 1 , K h = K h−1 + K h−2 + 1 für h ≥ 2 . Die erzeugende Funktion der Folge (K h )h∈N sei K (z ) . 1. Schritt: K h = K h−1 + K h−2 + 1 + ah für h ≥ 0 mit a0 = −1 , ai = 0 für i ≥ 1 . 2. Schritt: ∞ ∞ ∞ ∞ K ( z ) = ∑ K h ⋅ z = ∑ K h−1 ⋅ z + ∑ K h−2 ⋅ z + ∑ z h − 1 h h =0 h h =1 h h=2 ∞ ∞ ∞ h =0 h =0 h =0 h =0 = ∑ K h ⋅ z h+1 + ∑ K h ⋅ z h+2 + ∑ z h − 1 = z ⋅ K ( z) + z 2 ⋅ K ( z) + 3. Schritt: K ( z ) = 1 −1 . 1− z z 1 = F ( z) ⋅ ; hierbei ist F (z ) die erzeugende Funktion 2 (1 − z ) ⋅ 1 − z − z 1− z ( ) der Folge der Fibonacci-Zahlen. Die Folge (K h )h∈N ist also nach Satz 5.11-1 (viii) 5.12 Anzahlbetrachtungen in Binärbäumen 213 die Faltung der Folge der Fibonacci-Zahlen (Fn )n∈N mit der konstanten Folge (1, 1, 1, ...) . 4. Schritt: Dieser erübrigt sich, da die Lösung im 3. Schritt bereits ermittelt wurde: n n k =0 k =0 K h = ∑ Fk ⋅1 = ∑ Fk = Fn+2 − 1 . Die letzte Gleichung zeigt man beispielsweise durch vollständige Induktion (Übungsaufgabe 5.30 (b)). Für einen AVL-Baum mit Höhe h und n Knoten ist n ≥ minimale Knotenanzahl bei Höhe h = Fh+2 − 1 bzw. Fh+2 ≤ n + 1 . In Kapitel 5.10 wird n n 1 ⎛⎜ ⎛ 1 + 5 ⎞ ⎛ 1 − 5 ⎞ ⎞⎟ ⎟ −⎜ ⎟ für jedes n ∈ N ermittelt. Da Fn eine natürliche Zahl ist, Fn = ⋅ ⎜ 5 ⎜ ⎜⎝ 2 ⎟⎠ ⎜⎝ 2 ⎟⎠ ⎟ ⎠ ⎝ ⎢ 1 ⎛ 1 + 5 ⎞n 1 ⎥ ⎟ + ⎥ . Eingesetzt in die obige Ungleichung ergibt sich ⋅⎜ folgt Fn = ⎢ ⎢ 5 ⎜⎝ 2 ⎟⎠ 2 ⎥ ⎣ ⎦ Fh+2 1 ⎛1+ 5 ⎞ ⎟ = ⋅⎜ 5 ⎜⎝ 2 ⎟⎠ h+ 2 + 1 ≤ n + 2 . Löst man diese Ungleichung nach h auf, folgt unter 2 Verwendung von Satz 5.5-5: h < 1,4404201 ⋅ log 2 (n + 2 ) − 0,327724 < 1,4404201 ⋅ log 2 (n + 2 ) . Satz 5.12-2: (i) Die Anzahl strukturell verschiedener Binärbäume mit n Knoten mit n ≥ 0 beträgt 1 ⎛2⋅ n⎞ 4n ⎟= ⋅⎜ + C mit einer reellen Konstanten C > 0 . n + 1 ⎜⎝ n ⎟⎠ (n + 1) ⋅ π ⋅ n (ii) Die mittlere Anzahl von Knoten, die von der Wurzel aus bis zur Erreichung eines beliebigen Knotens eines Binärbaums mit n Knoten (gemittelt über alle n Knoten) besucht werden, d.h. der mittlere „Abstand“ eines Knotens von der Wurzel in einem Binärbaum mit n Knoten, ist C ′ ⋅ πn + C ′′ mit reellen Konstanten C ′ > 0 und C ′′ > 0 . Im günstigsten Fall (wenn also alle Niveaus voll besetzt sind) ist der größte Abstand eines Knotens von der Wurzel in einem Binärbaum mit n Knoten gleich ⎣log 2 ( n )⎦ + 1 = ⎡log 2 ( n + 1)⎤ ≈ log 2 ( n ) , im ungünstigsten Fall ist dieser Abstand gleich n. Beide Aussagen mit Hilfe des am Ende von Kapitel 5.11 beschriebenen Vefahrens bewiesen werden. 214 5 Ausgewählte Themen der Analysis Es sei bn für n ∈ N die Anzahl strukturell verschiedener Binärbäume mit n Knoten. B(z ) sei die erzeugende Funktion der Folge (bn )n∈N . Für kleine Werte von n kann man bn direkt angeben: b0 = 1 : der einzige Binärbaum ohne Knoten ist der leere Baum; b1 = 1 : der einzige Binärbaum mit genau 1 Knoten ist der Baum, der nur aus der Wurzel be- steht; b2 = 2 : die beiden Binärbäume mit genau 2 Knoten sind: und Für n ≥ 1 besteht ein Binärbaum mit n Knoten aus der Wurzel und zwei Binärbäumen mit zusammen n − 1 Knoten, die an den beiden Nachfolgerpositionen der Wurzel beginnen. An der linken Nachfolgerposition befindet sich ein Binärbaum mit k vielen Knoten, an der rechten Nachfolgerposition ein Binärbaum mit n −1 − k vielen Knoten. Daher gilt n −1 bn = ∑ bk ⋅ bn−1−k für n ≥ 1 . k =0 1. Schritt: Alle Gleichungen werden in einer einzigen Gleichung zusammengefasst: n −1 bn = ∑ bk ⋅ bn−1−k + an für n ∈ N ; hierbei ist a0 = 1 und an = 0 für n ≥ 1 . k =0 2. Schritt: Beide Seiten werden mit z n multipliziert und alle Werte aufaddiert. Man erhält: 5.12 Anzahlbetrachtungen in Binärbäumen 215 ∞ ∞ ⎛ n−1 ⎞ B ( z ) = ∑ bn ⋅ z n = ∑ ⎜ ∑ bk ⋅ bn−1−k + an ⎟ ⋅ z n n =0 n =0 ⎝ k =0 ⎠ ∞ ⎛ n−1 ⎞ = ∑ ⎜ ∑ bk ⋅ bn−1−k ⎟ ⋅ z n + 1 n =1 ⎝ k =0 ⎠ ∞ ⎛ n−1 ⎞ = z ⋅ ∑ ⎜ ∑ bk ⋅ bn−1−k ⎟ ⋅ z n−1 + 1 n =1 ⎝ k =0 ⎠ ∞ ⎛ n ⎞ = z ⋅ ∑ ⎜ ∑ bk ⋅ bn−k ⎟ ⋅ z n + 1 n =0 ⎝ k =0 ⎠ ⎛ n ⎞ = z ⋅ ∑ ⎜ ∑ bk ⋅ bn−k ⋅ z k ⋅ z n−k ⎟ + 1 n =0 ⎝ k =0 ⎠ ∞ ⎞ ⎛ ∞ ⎞ ⎛ ∞ = z ⋅ ⎜ ∑ bn ⋅ z n ⎟ ⋅ ⎜ ∑ bn ⋅ z n ⎟ + 1 ⎝ n =0 ⎠ ⎝ n =0 ⎠ nach Satz 5.1 - 10 = z ⋅ (B ( z ) ) + 1 . 2 1 1 2 3. Schritt: Es gilt (B( z ) ) − ⋅ B( z ) + = 0 bzw. z z B( z ) = = 1 1 1 ± − 2 2⋅ z 4⋅ z z 1± 1− 4 ⋅ z 2⋅ z Falls B ( z ) = ist B ( z ) = . 1+ 1− 4⋅ z gilt, so ergibt sich der Widerspruch B(0) = b0 = ∞ , also 2⋅ z 1− 1− 4 ⋅ z . 2⋅ z 4. Schritt: Mit der Regel von de l’Hospital gilt b0 = B (0) = 1− 1− 4 ⋅ z 2⋅ z = z =0 ( − (1 2 ) ⋅ (− 4 ) ⋅ 1 1 − 4 ⋅ z 2 ) = 1. z =0 Aus der in Kapitel 5.10 hergeleiten Formel ∞ (1 ± x) m = ∑ (±1)i i =0 m ⋅ (m − 1) ⋅ ... ⋅ (m − i + 1) i x, i! wobei m = 1 2 und anstelle von x der Wert − 4 ⋅ z gesetzt wird, ergibt sich ∞ 1− 1− 4 ⋅ z = 1− ∑ (1 2) ⋅ (− 1 2) ⋅ ... ⋅ (1 2 − i + 1) ⋅ (− 4 ⋅ z )i i! i =0 ⎛ (1 2) ⋅ (− 1 2) ⋅ ... ⋅ (1 2 − i + 1) ⋅ (− 4 ⋅ z )i−1 ⎞⎟. = 1 − ⎜1 + (− 4 ⋅ z ) ⋅ ∑ i! i =1 ⎝ ⎠ ∞ Damit ist 216 5 Ausgewählte Themen der Analysis 1− 1− 4⋅ z 2⋅ z ∞ (1 2) ⋅ (− 1 2) ⋅ ... ⋅ (1 2 − i + 1) ⋅ (− 4 ⋅ z )i−1. = 2⋅∑ i! i =1 B( z ) = Um diese etwas „unangenehm“ aussehende unendliche Reihe zu vereinfachen, wird folgende Nebenrechnung durchgeführt: (1 2) ⋅ (− 1 2) ⋅ (− 3 2) ... ⋅ ⎛⎜ − 2 ⋅ i − 3 ⎞⎟ (1 2) ⋅ (− 1 2) ⋅ ... ⋅ (1 2 − i + 1) = 2 ⎠ ⎝ i! i! i ⎛1⎞ i −1 ⎜ ⎟ ⋅ (− 1) ⋅1 ⋅ 3 ⋅ ... ⋅ (2 ⋅ i − 3) 2 ⋅ 4 ⋅ ... ⋅ (2 ⋅ i − 2 ) 2 =⎝ ⎠ ⋅ i! 2 ⋅ 4 ⋅ ... ⋅ (2 ⋅ i − 2 ) i ⎛1⎞ i −1 ⎜ ⎟ ⋅ (− 1) ⋅ (2 ⋅ i − 2 )! 2 =⎝ ⎠ i!⋅2i−1 ⋅ (i − 1)! i −1 1 ⎛ 1 ⎞ 1 ⎛ 2 ⋅i − 2⎞ ⎟. = ⋅ ⎜ − ⎟ ⋅ ⋅ ⎜⎜ 2 ⎝ 4 ⎠ i ⎝ i − 1 ⎟⎠ Damit ist ∞ B( z ) = 2 ⋅ ∑ (1 2) ⋅ (− 1 2) ⋅ ... ⋅ (1 2 − i + 1) ⋅ (− 4 ⋅ z )i−1. i! i =1 i −1 ∞ ⎛ 1 ⎞ 1 ⎛ 2 ⋅i − 2⎞ ⎟⎟ ⋅ (− 4 ⋅ z )i−1 = ∑ ⎜ − ⎟ ⋅ ⋅ ⎜⎜ 4 ⎠ i ⎝ i −1 ⎠ i =1 ⎝ ⎛ 1 ⎞ 1 ⎛2⋅i⎞ i = ∑⎜− ⎟ ⋅ ⋅ ⎜⎜ ⎟⎟ ⋅ (− 4 ⋅ z ) 4 ⎠ i +1 ⎝ i ⎠ i =0 ⎝ ∞ ∞ =∑ i =0 i 1 ⎛2⋅i⎞ i ⋅⎜ ⎟⋅ z i + 1 ⎜⎝ i ⎟⎠ 1 ⎛2⋅ n⎞ n ⎟⎟ ⋅ z . ⋅ ⎜⎜ n =0 n + 1 ⎝ n ⎠ ∞ =∑ ∞ 1 ⎛2⋅ n⎞ n ⎟⎟ ⋅ z ergibt ⋅ ⎜⎜ n =0 n + 1 ⎝ n ⎠ ∞ Der Koeffizientenvergleich in B ( z ) = ∑ bn ⋅ z n = ∑ n =0 bn = 1 ⎛2⋅ n⎞ ⎟. ⋅⎜ n + 1 ⎜⎝ n ⎟⎠ Damit ist der erste Teil der Formel in Satz 5.12-2 (i) bewiesen. Für den zweiten Teil wird die Stirling’sche Formel (siehe angegebene Literatur) ⎛n⎞ n!~ 2 ⋅ π ⋅ n ⋅ ⎜ ⎟ ⎝e⎠ n 5.12 Anzahlbetrachtungen in Binärbäumen 217 zusammen mit Satz 4.1-2 eingesetzt. Die Stirling’sche Formel ist eine sehr gute Approximation; der relative Fehler ist etwa 1 (12 ⋅ n ) . Damit ergibt sich: 1 ⎛2⋅ n⎞ 1 (2 ⋅ n )! ⎟⎟ ~ ⋅ ⋅ ⎜⎜ n + 1 ⎝ n ⎠ n + 1 n!⋅n! = 4 ⋅ π ⋅ n ⋅ (2 ⋅ n ) ⋅ e 2⋅n (n + 1) ⋅ e 2⋅n ⋅ (2 ⋅ π ⋅ n ) ⋅ n 2⋅n = 4n . (n + 1) ⋅ π ⋅ n 2⋅n Für einen Knoten v in einem Baum G mit n Knoten bezeichne r (v ) den Rang des Knotens v, d.h. die Anzahl der Kanten, die von der Wurzel aus durchlaufen werden, um v zu erreichen. Um v von der Wurzel aus zu erreichen, werden r (v ) + 1 Knoten durchlaufen. Es sei I (G ) = ∑ (r (v) + 1) , d.h. die Summe aller in G möglichen Pfadlängen, gemessen in der Anv zahl besuchter Knoten. Der linke Teilbaum unterhalb der Wurzel des Baum G sei Gl ; der rechte Teilbaum unterhalb der Wurzel sei Gr . Gl oder Gr können auch leer sein. Für einen Knoten v in Gl sei rl (v) der Rang von v bezogen auf Gl . Entsprechend bezeichne rr (v) für einen Knoten v in Gr den Rang von v bezogen auf Gr . Dann ist für einen Knoten v in Gl rl (v) = r (v) − 1 . Es gilt daher: I (G ) = ∑ (r (v) + 1) v in G = ∑ (r (v) + 2) + ∑ (r (v) + 2) + 1 l v in Gl = I (Gl ) + r (der Rang der Wurzel ist 1) v in Gr ∑1 + I (G ) + ∑1 + 1 r v in Gl = I (Gl ) + I (Gr ) + n v in Gr für n > 0, I (G ) = 0 für n = 0. Es sei I n = ∑ I (G) , d.h. die Summe aller möglichen Pfadlängen in Binärbäumen mit n G ist ein Baum mit n Knoten Knoten, gemessen in der Anzahl besuchter Knoten. Mit Hilfe des am Ende von Kapitel 5.11 beschriebenen Vefahrens wird eine geschlossene Formel für I n hergeleitet. Es bezeichne I (z ) die erzeugende Funktion der Folge (I n )n∈N . 218 5 Ausgewählte Themen der Analysis 1. Schritt: ∑ I (G) In = für n ≥ 1, Aufteilung nach linken Teilbäumen : G ist ein Baum mit n Knoten ⎞ ⎛ ⎟ ⎜ = ∑ ⎜ I (Gl ) + I (Gr ) + n ⎟ { 123 ⎟ i =0 ⎜ G enthält Gr enthält l ⎟ ⎜ i Knoten n −i −1 Knoten ⎠ ⎝ n −1 n −1 = ∑ (I i ⋅ bn−i−1 + I n−i−1 ⋅ bi ) + n ⋅ bn . i =0 Hierbei bezeichnet bn für n ∈ N wieder die Anzahl strukturell verschiedener Binärbäume mit n Knoten. 2. Schritt: ∞ I ( z) = ∑ I n ⋅ z n n =1 ∞ ⎛ n−1 ⎞ = ∑ ⎜ ∑ (I i ⋅ bn−i−1 + I n−i−1 ⋅ bi ) + n ⋅ bn ⎟ ⋅ z n n =1 ⎝ i =0 ⎠ ∞ ⎛ n−1 ⎞ = ∑ ⎜ ∑ (I i ⋅ bn−i−1 + I n−i−1 ⋅ bi ) ⋅ z n + n ⋅ bn ⋅ z n ⎟ n =1 ⎝ i =0 ⎠ ∞ ⎞ ∞ ⎛ n−1 ⎞ ∞ ⎛ n−1 = ∑ ⎜ ∑ (I i ⋅ bn−i−1 ) ⋅ z n ⎟ + ∑ ⎜ ∑ (I n−i−1 ⋅ bi ) ⋅ z n ⎟ + ∑ n ⋅ bn ⋅ z n n =1 ⎝ i =0 ⎠ n=1 ⎠ n=1 ⎝ i=0 n −1 Der Ausdruck f n−1 = ∑ I i ⋅ bn−i−1 ist das (n − 1) -te Folgenglied der Faltung der i =0 Folgen (I n )n∈N und (bn )n∈N . Dasselbe gilt für ∞ ∞ ∞ n =1 n =1 n =1 ∞ ∞ ∞ n =0 n =0 n =1 I ( z ) = ∑ f n−1 ⋅ z n + ∑ f n−1 ⋅ z n + ∑ n ⋅ bn ⋅ z n n −1 ∑I i =0 n −i −1 ⋅ bi = f n−1 . Daher ist mit Satz 5.11 - 1 = ∑ f n ⋅ z n+1 + ∑ f n ⋅ z n+1 + ∑ n ⋅ bn ⋅ z n = 2 ⋅ z ⋅ I ( z ) ⋅ B( z ) + z ⋅ B′( z ) 3. Schritt: I ( z ) = . 1 ⋅ z ⋅ B′( z ) . 1 − 2 ⋅ z ⋅ B( z ) Mit B ( z ) = 1− 1− 4 ⋅ z 1− 1− 4 ⋅ z − 2 ⋅ z ist und B′( z ) = 2⋅ z 2 ⋅ z2 ⋅ 1− 4 ⋅ z 2 ⋅ z − 1− 4 ⋅ z +1− 4 ⋅ z 2 ⋅ z ⋅ (1 − 4 ⋅ z ) 1 1 1 = − + 1− 4 ⋅ z 2 ⋅ z ⋅ 1− 4 ⋅ z 2 ⋅ z I ( z) = . 5.12 Anzahlbetrachtungen in Binärbäumen 219 4. Schritt: 1 1 1 − + 1− 4 ⋅ z 2 ⋅ z ⋅ 1− 4 ⋅ z 2 ⋅ z ∞ 1 ⎛ 1 ⎞ = ∑ 4n ⋅ z n − ⋅⎜ − 1⎟ . 2 ⋅ z ⎝ 1− 4 ⋅ z ⎠ n =0 I ( z) = Das Beispiel ⎛ m + n − 1⎞ n 1 ⎟⎟ ⋅ z = aus Kapitel 5.10 ist auf Werte m ∈ R n ⎠ (1 − z )m n =0 ⎝ ∞ ∑ ⎜⎜ verallgemeinerbar. Damit ist ∞ ∞ ⎛ n −1 2⎞ ⎛ n −1 1 ⎟⎟ ⋅ (4 ⋅ z )n = ∑ ⎜⎜ = ∑ ⎜⎜ n 1 − 4 ⋅ z n =0 ⎝ n ⎠ n =1 ⎝ 2⎞ ⎟⎟ ⋅ (4 ⋅ z )n + 1 und ⎠ 1 ⎛ 1 ⎞ ∞ ⎛ n −1 ⋅⎜ − 1⎟ = ∑ ⎜⎜ 2 ⋅ z ⎝ 1 − 4 ⋅ z ⎠ n=1 ⎝ n 2⎞ ⎟⎟ ⋅ 2 ⋅ (4 ⋅ z )n−1 ⎠ ∞ ⎛ 2 ⋅ n ⎞ 4 n−1 n−1 ⎟⎟ ⋅ n ⋅ z = 2 ⋅ ∑ ⎜⎜ . n=1 ⎝ n ⎠ 4 ⎛ n − 1 2 ⎞ ⎛ 2 ⋅ n ⎞ 2⋅n ⎟⎟ = ⎜⎜ ⎟⎟ 2 verwendet. Mit Hierbei wurde die Identität ⎜⎜ ⎝ n ⎠ ⎝ n ⎠ ⎛ 2 ⋅ n ⎞ (2 ⋅ n − 1) ⋅ 2 ⎛ 2 ⋅ (n − 1)⎞ ⎜⎜ ⎟⎟ = ⎟⎟ folgt weiter: ⋅ ⎜⎜ n ⎝ n ⎠ ⎝ n −1 ⎠ ∞ ⎛ 2 ⋅ n ⎞ 4 n−1 n−1 1 ∞ ⎛ 2 ⋅ n ⎞ n−1 ⎟⎟ ⋅ n ⋅ z = ⋅ ∑ ⎜⎜ ⎟⋅ z 2 ⋅ ∑ ⎜⎜ 2 n=1 ⎝ n ⎟⎠ n =1 ⎝ n ⎠ 4 ∞ ⎛ 2 ⋅ (n − 1)⎞ 2 ⋅ n − 1 n−1 ⎟⋅ = ∑ ⎜⎜ ⋅z n − 1 ⎟⎠ n n=1 ⎝ ∞ ⎛ 2 ⋅ n⎞ 2 ⋅ n +1 n ⎟⎟ ⋅ = ∑ ⎜⎜ ⋅z n +1 n =0 ⎝ n ⎠ ∞ = ∑ (2 ⋅ n + 1) ⋅ bn ⋅ z n . n =0 Insgesamt ist damit ∞ ( ) I ( z ) = ∑ 4 n − (2 ⋅ n + 1) ⋅ bn ⋅ z n und I n = 4 n − (2 ⋅ n + 1) ⋅ bn . n =0 Der Ausdruck In n ⋅ bn ist die mittlere Anzahl an Knoten, die in Binärbäumen mit n Knoten von der Wurzel aus zu einem Knoten durchlaufen werden. Mit dem gerade hergeleiteten Ergebnis folgt In n ⋅ bn = 4n 2 ⋅ n +1 − . Mit der Stirlingschen Formel ist n ⋅ bn n 220 5 Ausgewählte Themen der Analysis 1 ⎛2⋅ n⎞ 4n ⎟~ bn = ⋅⎜ und n + 1 ⎜⎝ n ⎟⎠ (n + 1) ⋅ π ⋅ n In n ⋅ bn ~ π ⋅n ⋅ n +1 1 − 2 + ≤ C ′ ⋅ π ⋅ n + C ′′ mit reellen Konstanten C ′ > 0 und C ′′ > 0 . n n 6 Ausgewählte Themen der Linearen Algebra Das vorliegende Kapitel wählt aus einem Gebiet der Mathematik, der Linearen Algebra, spezielle Themen aus, ohne die grundlegenden Theorien explizit zu behandeln. Im wesentlichen geht hier darum, ein effizientes Verfahren zur Lösung linearer Gleichungssysteme, wie sie in vielen Anwendungen der Mathematik vorkommen, vorzustellen. 6.1 Matrizen und Vektoren Ein rechteckiges Zahlenschema aus (reellen) Zahlen ⎡ a1,1 ⎢a ⎢ 2,1 ⎢ . A=⎢ ⎢ ai ,1 ⎢ . ⎢ ⎢⎣a m ,1 a1, 2 ... a1, j ... a 2,2 ... a 2, j ... . ... . ... ai , 2 ... ai , j ... ... . ... a m , j ... ... . am,2 a1,n ⎤ a 2 ,n ⎥ ⎥ . ⎥ ⎥ = A ( m ,n ) = [a i , j ]i =1,...,m; j =1,...,n a i ,n ⎥ . ⎥ ⎥ a m ,n ⎥⎦ heißt (reellwertige) Matrix vom Typ (m, n). Im Schnittpunkt der Zeile i und der Spalte j steht das Matrixelement ai , j ∈ R . Der erste Index gibt die Zeilennummer, der zweite Index die Spaltennummer an. Im folgenden werden Matrizen durch fett gedruckte Buchstaben bezeichnet. Zwei Matrizen A ( m ,n ) = [ai , j ] und B ( r ,s ) = [bl ,k ] sind gleich, wenn sie vom selben Typ sind, d.h. m = r und n = s , und sie elementweise gleich sind, d.h. wenn ai , j = bi , j für i = 1, ..., m und j = 1, ..., n gilt. Eine Matrix vom Typ (n, n) heißt quadratische Matrix. Eine Matrix, deren sämtliche Elemente 0 sind, heißt Nullmatrix; sie wird mit 0 bezeichnet. Die quadratische Matrix 222 I ( n ,n ) 6 Ausgewählte Themen der Linearen Algebra ⎡1 ⎢0 ⎢ ⎢. =⎢ ⎢0 ⎢. ⎢ ⎣0 0 0 ... 0 0 1 0 ... 0 0 . ... . ... . 0 0 ... 1 0 . ... . ... . 0 0 ... 0 0 0 ... 0 0⎤ 0 ... 0 0⎥ ⎥ ⎥ ⎥ 0 ... 0 0⎥ ⎥ ⎥ 0 ... 0 1⎦ vom Typ (n, n), die in der Diagonalen die Zahlen 1 und sonst nur Nullen enthält, heißt Einheitsmatrix vom Typ (n, n). Es ist ⎧1 für i = j I ( n ,n ) = [δ i , j ] mit δ i , j = ⎨ . ⎩0 für i ≠ j Eine Matrix vom Typ (1, n) heißt Zeilenvektor der Länge n. Eine Matrix vom Typ (m, 1) heißt Spaltenvektor der Länge m. In beiden Fällen verzichtet man meist auf die doppelte Indizierung: Ein Zeilenvektor wird geschrieben als r a = [a1 a2 ... a j ... a n ]. Ein Spaltenvektor wird geschrieben als ⎡ b1 ⎤ ⎢. ⎥ ⎢ ⎥ ⎢. ⎥ ⎢ ⎥ . r ⎢ ⎥ b = ⎢ bi ⎥ . ⎢ ⎥ ⎢. ⎥ ⎢. ⎥ ⎢ ⎥ ⎢. ⎥ ⎢b ⎥ ⎣ m⎦ Es sollen nun Rechenoperationen auf Matrizen definiert werden: Es seien A und B zwei Matrizen vom (gleichen) Typ (m, n). Die Summe von A und B ist die Matrix C = [ci , j ] = A + B mit ci , j = ai , j + bi , j . 6.1 Matrizen und Vektoren 223 Die Differenz von A und B ist die Matrix C = [ci , j ] = A − B mit ci , j = ai , j − bi , j . Die Summe (Differenz) zweier Matrizen vom Typ (m, n) ist wieder vom Typ (m, n). Man erhält sie also, indem man die Elemente an den sich entsprechenden Positionen addiert (subtrahiert). Es sei k ∈ R . Das Skalarprodukt der Matrix A D = [d i , j ] = k ⋅ A = A ⋅ k mit d i , j = k ⋅ ai , j = ai , j ⋅ k . mit (dem Skalar) k ist die Matrix Das Skalarprodukt einer Matrix A vom Typ (m, n) mit einer reellen Zahl ist wieder eine Matrix vom Typ (m, n). Bei der Bildung des Skalarprodukts einer Matrix mit einer Zahl werden also alle Matrixelemente mit dieser Zahl multipliziert. Es seien A, B und C Matrizen gleichen Typs, k ∈ R und h ∈ R . Dann gelten folgende Regeln: A+B =B+A, A + ( B + C) = ( A + B) + C , A+0 = 0+A = A, Mit − A = ( −1) ⋅ A ist A − A = 0 , k ⋅ (A + B ) = k ⋅ A + k ⋅ B , (k + h) ⋅ A = k ⋅ A + h ⋅ A , ( k ⋅ h ) ⋅ A = k ⋅ ( h ⋅ A) , 1⋅ A = A . Die Menge der Matrizen vom (gleichen) Typ (m, n) mit der definierten Addition von Matrizen und der Multiplikation von reellen Zahlen mit Matrizen bildet einen Vektorraum über R. Erläuterung: Eine algebraische Struktur (V , ⊕, K , ⋅) heißt Vektorraum über K, wenn gilt: (i) (V , ⊕ ) ist eine kommutative Gruppe (ii) K ist ein Körper („Skalarkörper“) ⎧K × V → V (iii) die Abbildung ⋅ : ⎨ genügt den folgenden Regeln: ⎩ (k , v ) → k ⋅ v für jedes k ∈ K , für jedes l ∈ K , für jedes v ∈ V und jedes w ∈ V gilt k ⋅ (l ⋅ v ) = (k ⋅ l ) ⋅ v , 1⋅ v = v , k ⋅ (v ⊕ w ) = (k ⋅ v ) ⊕ (k ⋅ w ) , (k + l ) ⋅ v = (k ⋅ v ) ⊕ (l ⋅ v ) . 224 6 Ausgewählte Themen der Linearen Algebra Das Produkt der beiden Matrizen A ( m ,n ) und B ( n ,k ) ist nur dann definiert, wenn der erste Faktor A ( m ,n ) genauso viele Spalten wie der zweite Faktor B ( n ,k ) Zeilen hat. Das Produkt ist eine Matrix C ( m ,k ) = [cr ,s ] = A ⋅ B vom Typ (m, k) mit n cr ,s = ∑ a r ,i ⋅ bi ,s für r = 1, ..., m , s = 1, ..., n . i =1 Es gilt: A ⋅ ( B ± C) = A ⋅ B ± A ⋅ C , ( A ± B) ⋅ C = A ⋅ C ± B ⋅ C . Im allgemeinen ist A ⋅ B ≠ B ⋅ A . Eine Matrix ⎡ a1,1 ⎢a ⎢ 2,1 ⎢ . A=⎢ ⎢ ai ,1 ⎢ . ⎢ ⎢⎣a m ,1 a1, 2 ... a1, j ... a 2,2 ... a 2, j ... . ... . ... ai , 2 ... ai , j ... ... . ... a m , j ... ... . am,2 a1,n ⎤ a 2 ,n ⎥ ⎥ . ⎥ ⎥ = A ( m ,n ) = [a i , j ]i =1,...,m; j =1,...,n a i ,n ⎥ . ⎥ ⎥ a m ,n ⎥⎦ r r r r kann als Menge { a1 , a 2 , ..., ai , ..., a m } ihrer Zeilenvektoren mit r ai = [ai ,1 ai , 2 ... ai , j { ... ai ,n ] für i = 1, ..., m } r r r r bzw. als Menge b1 , b2 , ..., b j , ..., bn ihrer Spaltenvektoren mit 6.1 Matrizen und Vektoren 225 ⎡ a1, j ⎤ ⎢a ⎥ ⎢ 2, j ⎥ ⎢ . ⎥ ⎥ ⎢ . ⎥ ⎢ r b j = ⎢ a i , j ⎥ für j = 1, ..., n ⎥ ⎢ ⎢ . ⎥ ⎢ . ⎥ ⎥ ⎢ ⎢ . ⎥ ⎢a ⎥ ⎣ m, j ⎦ aufgefasst werden. r r Eine Menge { a1 , ..., a r } von Vektoren heißt linear unabhängig, wenn gilt: Aus der Gleichung r r k1 ⋅ a1 + ... + k r ⋅ a r = 0 mit k i ∈ R für i = 1, ..., r folgt k1 = ... = k r = 0 . r r Andernfalls heißt { a1 , ..., a r } linear abhängig. Um zu überprüfen, ob eine Menge von Vektoren linear unabhängig ist, stellt man also die r r „Vektorgleichung“ k1 ⋅ a1 + ... + k r ⋅ a r = 0 auf, wobei die reellen Zahlen k1 , ..., k r zunächst „Unbekannte“ sind, und zeigt dann, dass diese Gleichung nur gültig sein kann, wenn alle Unr r bekannten k1 , ..., k r gleich 0 sind. Kann man andererseits die Gleichung k1 ⋅ a1 + ... + k r ⋅ a r = 0 aufstellen, wobei mindestens eine der Zahlen k1 , ..., k r von 0 verschieden ist, so sind die Vektoren linear abhängig. r r Sind die Vektoren a1 , ..., a r jeweils Spaltenvektoren mit m Komponenten, so ist die Vektorr r gleichung k1 ⋅ a1 + ... + k r ⋅ a r = 0 ein Gleichungssystem mit m Zeilen. r r r Ein Vektor a ist eine Linearkombination der Vektoren a1 , ..., a n , wenn es Zahlen k1 ∈ R , ..., k n ∈ R gibt mit r r r a = k1 ⋅ a1 + ... + k n ⋅ a n . 226 6 Ausgewählte Themen der Linearen Algebra In diesem Fall gilt die Vektorgleichung r r r k1 ⋅ a1 + ... + k n ⋅ an − 1 ⋅ a = 0 , d.h. die Menge { ar1 , ..., arr , ar} ist nicht linear unabhängig. Ist umgekehrt die Menge { ar1 , ..., arr } li- near abhängig, so sind in der Vektorgleichung r r k1 ⋅ a1 + ... + k r ⋅ a r = 0 nicht alle Skalare gleich 0, etwa k j ≠ 0 . Es ist dann r r r r r k j ⋅ a j = −k1 ⋅ a1 − ... − k j −1 ⋅ a j −1 − k j +1 ⋅ a j +1 − ... − k r ⋅ ar , also ⎛ k ⎞ r ⎛ k ⎞ r ⎛ k ⎞ r r ⎛ k ⎞ r a j = ⎜ − 1 ⎟ ⋅ a1 + ... + ⎜ − j −1 ⎟ ⋅ a j −1 + ⎜ − j +1 ⎟ ⋅ a j +1 + ... + ⎜ − r ⎟ ⋅ ar . ⎜ k ⎟ ⎜ k ⎟ ⎜ k ⎟ ⎜ k ⎟ j ⎠ j ⎠ ⎝ j⎠ ⎝ ⎝ ⎝ j⎠ Insgesamt ergibt sich damit Satz 6.1-1: Es sei n ≥ 2 . r r Die Vektoren a1 , ..., a n sind genau dann linear abhängig, wenn sich wenigstens ein Vek- tor dieser Menge als Linearkombination der anderen Vektoren dieser Menge darstellen lässt. Unter dem Zeilenrang rZ ( A ) einer Matrix A = A ( m ,n ) versteht man die Maximalzahl linear unabhängiger Zeilen (-vektoren). Unter dem Spaltenrang rS ( A ) einer Matrix A = A ( m ,n ) versteht man die Maximalzahl linear unabhängiger Spalten (-vektoren). Offensichtlich gilt rZ ( A ) ≤ m und rS ( A ) ≤ n . Der Beweis des folgenden Satzes erfordert eine Reihe weiterführender Überlegungen und einen ziemlich trickreichen Umgang mit den beteiligten Indizes. 6.1 Matrizen und Vektoren 227 Satz 6.1-2: Für jede Matrix A gilt: rZ ( A ) = rS ( A ) . Wegen Satz 6.1-2 kann man Rang r ( A ) einer Matrix A durch r ( A) = rZ ( A ) = rS ( A ) definieren. Ist A = A ( m ,n ) , d.h. A besitzt m Zeilen und n Spalten, dann ist r ( A ) ≤ min{ n, m}. 228 6 Ausgewählte Themen der Linearen Algebra Satz 6.1-3: Gegeben sei die Matrix A = A ( m ,n ) r ⎡ a1 ⎤ ⎢ . ⎥ ⎢ ⎥ r r = ⎢ . ⎥ = b1 ... bn . ⎢ ⎥ ⎢ r. ⎥ ⎢⎣a m ⎥⎦ [ ] r r r r (Die Vektoren a1 , ..., a m sind die Zeilen der Matrix A, die Vektoren b1 , ..., bn sind die Spalten von A.) Dann gilt: Zeilenrang und Spaltenrang von A ändern sich nicht, wenn man die Matrix A einer der folgenden elementaren Umformungen unterwirft: (z1) Zwei Zeilen von A werden vertauscht. r r r (z2) Eine Zeile ai von A wird ersetzt durch ai + k ⋅ a j , wobei k ∈ R \ {0}, 1 ≤ i ≤ m , 1 ≤ j ≤ m und i ≠ j gilt. r (Auf ai wird ein Vielfaches einer anderen Zeile addiert.) r r (z3) Eine Zeile ai von A wird ersetzt durch k ⋅ ai , wobei k ∈ R \ {0} und 1 ≤ i ≤ m gilt. r ( ai wird um ein Vielfaches verändert.) (s1) Zwei Spalten von A werden vertauscht. r r r (s2) Eine Spalte bi von A wird ersetzt durch bi + k ⋅ b j , wobei k ∈ R \ {0}, 1 ≤ i ≤ n , 1 ≤ j ≤ n und i ≠ j gilt. r (Auf bi wird ein Vielfaches einer anderen Spalte addiert.) r r (s3) Eine Spalte bi von A wird ersetzt durch k ⋅ bi , wobei k ∈ R \ {0} und 1 ≤ i ≤ n gilt. r ( bi wird um ein Vielfaches verändert.) 6.2 Lineare Gleichungssysteme 6.2 229 Lineare Gleichungssysteme Eine Menge von m Gleichungen in n Variablen der Form a1,1 ⋅ x1 a 2,1 ⋅ x1 . . . ai ,1 ⋅ x1 . . . a m ,1 ⋅ x1 + + a1, 2 ⋅ x 2 a 2,2 ⋅ x 2 + ... + + ... + a1, j ⋅ x j a 2, j ⋅ x j + ... + + ... + a1,n ⋅ x n a 2 ,n ⋅ x n = = b1 b2 + ai , 2 ⋅ x 2 + ... + ai , j ⋅ x j + ... + a i ,n ⋅ x n = bi + am,2 ⋅ x2 + ... + a m , j ⋅ x j + ... + a m ,n ⋅ x n = bm heißt lineares Gleichungssystem (in den Variablen x1 , ..., x n ). Abgekürzt lässt es sich schreiben als r r A ( m ,n ) ⋅ x( n ,1) = b( m ,1) . Die Matrix A = A ( m ,n ) ⎡ a1,1 ⎢a ⎢ 2,1 ⎢ . ⎢ ⎢ . ⎢ . =⎢ ⎢ ai ,1 ⎢ . ⎢ ⎢ . ⎢ . ⎢ ⎢⎣a m ,1 a1, 2 ... a 2,2 ... a 2, j ai , 2 ... am,2 ... a m , j a1, j ai , j a1,n ⎤ ... a 2,n ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ heißt Koeffizientenmatrix. ... ai ,n ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ... a m ,n ⎥⎦ ... r r Die Elemente der Koeffizientenmatrix und des Vektors b = b(m ,1) sind vorgegebene reelle Zahlen. 230 6 Ausgewählte Themen der Linearen Algebra r r Jeder Vektor x = x( n ,1) ⎡ x1 ⎤ ⎢x ⎥ ⎢ 2⎥ r ⎢.⎥ r = ⎢ ⎥ mit A ( m ,n ) ⋅ x( n ,1) = b( m ,1) heißt Lösung des linearen Glei⎢.⎥ ⎢.⎥ ⎢ ⎥ ⎣ xn ⎦ chungssystems. r r Ein lineares Gleichungssystem A ( m ,n ) ⋅ x( n ,1) = b( m ,1) heißt homogen, wenn b1 = b2 = ... = bm = 0 ist. Andernfalls heißt es inhomogen. r r Im linearen Gleichungssystem A ( m ,n ) ⋅ x( n ,1) = b( m ,1) heißt die Matrix [A ( m ,n ) r b( m ,1) ⎡ a1,1 ⎢a ⎢ 2,1 ⎢ . ⎢ ⎢ . r ⎢ . = A b =⎢ ⎢ a i ,1 ⎢ . ⎢ ⎢ . ⎢ . ⎢ ⎢⎣a m ,1 ] [ ] a1, 2 ... a 2,2 ... a 2, j a1, j ... a1,n | ... a 2,n | . . . ai ,2 ... ai , j ... a i ,n | . . . a m,2 ... a m , j ... a m ,n | b1 ⎤ b2 ⎥ ⎥ . ⎥ ⎥ . ⎥ . ⎥ ⎥ bi ⎥ . ⎥ ⎥ . ⎥ . ⎥ ⎥ bm ⎥⎦ die erweiterte Koeffizientenmatrix. Es stellt sich die Frage nach der Lösbarkeit eines linearen Gleichungssystems (existiert überhaupt eine Lösung? Ist die Lösung eindeutig bestimmt?) r r Gegeben sei das lineare Gleichungssystem A ( m ,n ) ⋅ x( n ,1) = b( m ,1) . Gesucht wird eine Lösung 6.2 Lineare Gleichungssysteme r r x = x( n ,1) 231 ⎡ x1 ⎤ ⎢x ⎥ ⎢ 2⎥ ⎢.⎥ = ⎢ ⎥. ⎢.⎥ ⎢.⎥ ⎢ ⎥ ⎣ xn ⎦ Im folgenden wird die Typangabe zur Vereinfachung der Schreibweise weggelassen, so dass r r das Gleichungssystem A ⋅ x = b lautet. 232 6 Ausgewählte Themen der Linearen Algebra Satz 6.2-1: r r Das lineare Gleichungssystem A ⋅ x = b ist genau dann lösbar, wenn der Rang der Koeffizienr tenmatrix gleich dem Rang der erweiterten Koeffizientenmatrix ist, d.h. wenn r (A ) = r A b r gilt. Ist r (A ) < r A b , so heißt das Gleichungssystem inkonsistent (und ist nicht lösbar). ([ ]) ([ ]) r r Für das lineare Gleichungssystem A ⋅ x = b mit einer m-zeiligen und n-spaltigen Koeffizienr tenmatrix A = A ( m ,n ) gelte r (A ) = r A b = r , so dass das Gleichungssystem lösbar ist. Es ([ ]) ist r ≤ m und r ≤ n . Ist r < m (= Anzahl der Zeilen bzw. Gleichungen), so ist das Gleichungssystem lösbar, aber m − r Gleichungen sind „überflüssig“, genauer: redundant, da sie Linearkombinationen der übrigen Gleichungen sind. Die Anzahl der Lösungen des Gleichungssystems hängt davon ab, wie sich der Rang r zu der Anzahl n der Variablen verhält: Ist r < n (= Anzahl der Spalten bzw. Variablen), so sind n − r Spaltenvektoren Linearkombinationen der anderen Spaltenvektoren. Das System ist lösbar, jedoch mit n − r freien Variablen, denen beliebige reelle Werte zugeordnet werden können. Es gibt also unendlich viele Lösungen. Die Werte, die den übrigen r Variablen zugeordnet werden, hängen von den zugeordneten Werten der freien Variablen ab. Ist r = n (= Anzahl der Spalten bzw. Variablen), so ist n ≤ m ( m − n Gleichungen sind redundant). Das System ist eindeutig lösbar, d.h. es gibt genau eine Lösung. Ist die Koeffizientenmatrix A eines linearen Gleichungssystems quadratisch, d.h. n = m , d.h. es gibt soviele Gleichungen wie Variablen, dann gilt: r Für r (A ) < r A b ≤ n gibt es keine Lösung; r für r (A ) = r A b = n gibt es genau eine Lösung; r für r (A ) = r A b < n gibt es unendlich viele Lösungen. ([ ]) ([ ]) ([ ]) ([ ]) r In einem homogenen linearen Gleichungssystem ist immer r (A ) = r A b . Es gibt dann we- nigstens eine Lösung (nämlich die triviale Lösung x1 = x 2 = ... x n = 0 ). Ist zudem r (A ) = n , dann gibt es nur diese Lösung. Ist r (A ) = r < n , dann gibt es weitere Lösungen mit n − r freien Variablen. Ist m < n , d.h. es gibt weniger Gleichungen als Unbekannte, dann ist auch r (A ) < n . Für m = n gibt es nur dann mehr als die triviale Lösung, wenn r (A ) < n ist. 6.2 Lineare Gleichungssysteme 233 Im folgenden wird eine Methode zur Lösung eines linearen Gleichungssystems (Gaußscher Algorithmus) und damit einhergehend eine Methode zur Bestimmung des Rangs einer Matrix vorgestellt. Gegeben sei das lineare Gleichungssystem a1,1 ⋅ x1 a 2,1 ⋅ x1 . . . ai ,1 ⋅ x1 . . . a m ,1 ⋅ x1 + + a1, 2 ⋅ x 2 a 2,2 ⋅ x 2 + ... + + ... + a1, j ⋅ x j a 2, j ⋅ x j + ... + + ... + a1,n ⋅ x n a 2 ,n ⋅ x n = = b1 b2 + ai , 2 ⋅ x 2 + ... + ai , j ⋅ x j + ... + a i ,n ⋅ x n = bi + am,2 ⋅ x2 + ... + a m , j ⋅ x j + ... + a m ,n ⋅ x n = bm bzw. r r A⋅x = b . Hierbei sei mindestens einer der Werte ai ,1 in der ersten Spalte von 0 verschieden; denn sonst käme x1 im Gleichungssystem gar nicht vor. Die erweiterte Koeffizientenmatrix sei wieder [A ( m ,n ) r b( m ,1) ⎡ a1,1 ⎢a ⎢ 2,1 ⎢ . ⎢ ⎢ . r ⎢ . = A b =⎢ ⎢ a i ,1 ⎢ . ⎢ ⎢ . ⎢ . ⎢ ⎢⎣a m ,1 ] [ ] a1, 2 ... a 2,2 ... a 2, j a1, j ... a1,n | ... a 2,n | . . . ai ,2 ... ai , j ... a i ,n | . . . a m,2 ... a m , j ... a m ,n | r b1 ⎤ ⎡ a1 r b2 ⎥ ⎢ a 2 ⎥ ⎢ . ⎥ ⎢ . ⎥ . ⎥ ⎢ . ⎢ . ⎥ ⎢ . ⎥=⎢r bi ⎥ ⎢ a i . ⎥ ⎢ . ⎥ ⎢ . ⎥ ⎢ . . ⎥ ⎢ . ⎥ ⎢r bm ⎥⎦ ⎢⎣a m | | . . . | . . . | b1 ⎤ b2 ⎥ ⎥ . ⎥ ⎥ . ⎥ . ⎥ ⎥ . bi ⎥ . ⎥ ⎥ . ⎥ . ⎥ ⎥ bm ⎥⎦ Sie wird durch elementare Umformungen in eine „Treppenmatrix“ (siehe unten) umgewandelt, aus der man dann die Lösung des Gleichungssystems ablesen kann. Bei diesem Umformungsvorgang wird schrittweise eine Folge von Matrizen A (1) , ... , A ( r ) erzeugt, die alle den- 234 6 Ausgewählte Themen der Linearen Algebra [ ] r selben Rang wie A b haben. Hierbei ist A (i ) das Ergebnis der Umformung von A ( i −1) nach dem i-ten Schritt ( i = 1, ..., r ). Um die Einträge von A (i ) von den Einträgen der übrigen Matrizen unterscheiden zu können, wird A (i ) ⎡ a1(,i1) ⎢ (i ) ⎢ a 2,1 ⎢ . ⎢ ⎢ . ⎢ . = ⎢ (i ) ⎢ ai ,1 ⎢ . ⎢ ⎢ . ⎢ . ⎢ (i ) ⎢⎣a m ,1 a1(,i2) a 2( i, 2) ... a1(,i j) ... a 2( i, )j ai(,i2) ... a m( i,)2 ... a m( i,) j ai(,ij) ... a1(,in) ... a 2( i,n) ... ai(,in) ... a m( i,)n | | . . . | . . . | r b1( i ) ⎤ ⎡a1( i ) ⎥ ⎢r b2( i ) ⎥ ⎢a 2( i ) . ⎥ ⎢ . ⎥ ⎢ . ⎥ ⎢ . . ⎥ ⎢ . ⎥ = ⎢r bi( i ) ⎥ ⎢ai( i ) . ⎥ ⎢ . ⎥ ⎢ . ⎥ ⎢ . . ⎥ ⎢ . ⎥ ⎢r bm( i ) ⎥⎦ ⎣⎢a m( i ) | | . . . | . . . | b1( i ) ⎤ ⎥ b2( i ) ⎥ . ⎥ ⎥ . ⎥ . ⎥ ⎥ bi( i ) ⎥ . ⎥ ⎥ . ⎥ . ⎥ ⎥ bm( i ) ⎦⎥ gesetzt. Zusätzlich wird eine Folge von Spaltennummern j1 , ..., jr erzeugt, deren Bedeutung aus dem Zusammenhang klar wird. Die Matrix A ( r ) , die nach dem r-ten Umformungsvorgang entstanden ist, hat die Form 6.2 Lineare Gleichungssysteme 235 1. Schritt: [ ] r In der 1. Spalte von A b wird von oben nach unten das erste von 0 verschiedene Element, d.h. ein Element der Form a s ,1 ≠ 0 , gesucht. Es wird p := a s ,1 gesetzt. Man nennt p das Pivot-Element (im 1. Schritt). [ ] r r Ist s > 1 , so wird die erste Zeile [a1 b1 ] von A b mit der s-ten Zeile ausgetauscht; ist bereits a1,1 ≠ 0 (d.h. s = 1 ), so findet kein Austausch statt. Die erste Zeile der durch den eventuellen r Zeilenaustausch entstandenen Matrix werde wieder mit [a1 b1 ] bezeichnet; entsprechend erhält die ursprünglich erste und nun an der s-ten Position stehende Zeile wieder die Bezeichr nung [a s bs ]. Insbesondere ist mit dieser Numerierung p = a1,1 . r Für k = 2, ..., m wird anschließend die Zeile [a k bk ] durch r r − a k ,1 ⋅ [a1 b1 ] + p ⋅ [a k bk ] ersetzt. [ ] r A (1) ist die so aus A b entstandene Matrix. Es wird j1 := 1 gesetzt. Ergebnis: Alle Zeilen von A (1) ab Zeile 2 enthalten mindestens in der ersten Spalte den Wert 0; es gilt außerdem a1(,1j)1 ≠ 0 . Eventuell sind auch in der zweiten und einigen folgenden Spalten von Zeile 2 abwärts ausschließlich die Werte 0 entstanden. Es wird i = 2 gesetzt und im i-ten Schritt fortgefahren. i-ter Schritt für 1 < i ≤ m : Die Matrix A ( i −1) sei bereits bestimmt. Sie hat die Form 236 A ( i −1) 6 Ausgewählte Themen der Linearen Algebra ⎡a1(,i1−1) ⎢ ⎢ 0 ⎢ . ⎢ 0 =⎢ ⎢ 0 ⎢ ⎢ 0 ⎢ . ⎢ ⎣⎢ 0 r ⎡a1( i −1) ⎢ r ( i −1) ⎢a 2 ⎢ . ⎢ r ( i −1) a = ⎢ ri(−i 1−1) ⎢a i ⎢ r ( i −1) ⎢a i +1 ⎢ . ⎢ r ( i −1) ⎣⎢a m a1(,i2−1) ... . 0 ... 0 a 2( i,−j21) . ... . . . . . ... a1(,in−1) a 2( i,−j21+) 1 . . . . ... a 2( i,n−1) . ... . . . . . . . ( i −1) i −1, ji −1 ( i −1) i −1, ji −1 +1 ( i −1) i , ji −1 +1 ( i −1) i +1, ji −1 +1 0 ... . . . . 0 a 0 ... . . . . 0 0 a ... a 0 ... . . . . 0 0 a ... a . ... . . . . . 0 ... . . . . . 0 0 a . a ( i −1) m , ji −1 +1 ... a ... ... a . ( i −1) i −1,n ( i −1) i ,n ( i −1) i +1,n . ( i −1) m ,n | b1( i −1) ⎤ ⎥ | b2( i −1) ⎥ | . ⎥ ⎥ | bi(−i1−1) ⎥ | bi( i −1) ⎥ ⎥ | bi(+i1−1) ⎥ | . ⎥ ⎥ | bm( i −1) ⎦⎥ | b1( i −1) ⎤ ⎥ | b2( i −1) ⎥ | . ⎥ ( i −1) ⎥ | bi −1 ⎥ | bi( i −1) ⎥ ⎥ | bi(+i1−1) ⎥ | . ⎥ ⎥ | bm( i −1) ⎦⎥ Es gilt für jede Zeile k mit 1 ≤ k ≤ i − 1 : • alle Elemente bis zur Spalte jk − 1 (einschließlich) sind gleich 0 • a k( i,−jk1 ≠ 0 • alle Elemente in der Teilmatrix, die durch die Zeilen i und m und die Spalten 1 und ji −1 (einschließlich) begrenzt wird, sind gleich 0. In der Teilmatrix ⎡ ai(,ij−i −11)+1 ⎢ ( i −1) ⎢ai +1, ji −1 +1 ⎢ . ⎢ ( i −1) ⎣⎢ a m , ji −1 +1 ... ai(,in−1) ... ai(+i −1,1n) ... . ( i −1) ... a m ,n | bi( i −1) ⎤ ⎥ | bi(+i1−1) ⎥ | . ⎥ ⎥ | bm( i −1) ⎦⎥ (das ist der untere rechte Teil) wird von links nach rechts gehend diejenige Spalte bestimmt, die zum ersten Mal Einträge enthält, die nicht sämtlich gleich 0 sind (hierbei wird die Zeilenund Spaltennumerierung aus der Matrix übernommen): Es wird also j = ji−1 + 1 gesetzt und die Bedingung ai(,ij−1) = a i(+i −1,1j) = ... = a m( i,−j1) = 0 6.2 Lineare Gleichungssysteme 237 geprüft. Gilt diese Bedingung und ist j < n (= Anzahl der Spalten von A), so wird j um 1 erhöht und die Bedingung erneut geprüft; gilt die Bedingung und ist bereits j = n , so ist das Verfahren beendet. Im folgenden sei j der kleinste Wert, für den die Bedingung nicht gilt, d.h. die Teilmatrix ⎡ ai(,ij−i −11)+1 ⎢ ( i −1) ⎢ai +1, ji −1 +1 ⎢ . ⎢ ( i −1) ⎢⎣ a m , ji −1 +1 ... ai(,in−1) ... ai(+i −1,1n) ... . ( i −1) ... a m ,n | bi( i −1) ⎤ ⎥ | bi(+i1−1) ⎥ | . ⎥ ( i −1) ⎥ | bm ⎥⎦ enthält in der Spalte j ein Element, das ungleich 0 ist. Die kleinste Zeilennummer, für die das zutrifft, laute s, d.h. ai(,ij−i 1−1)+1 = ai(+i −1,1j)i −1 +1 = ... a m( i,−j1i −)1 +1 = ... = ai(,ij−−11) = ai(+i −1,1j)−1 = ... a m( i,−j1−)1 = ai(,ij−1) = ai(+i −1,1j) = ... a s( i−−11, )j =0 und a s( i, −j 1) ≠ 0. Es wird p = as( i, −j 1) gesetzt. Der Wert p heißt Pivot-Element (im i-ten Schritt). Die i-te Zeile von A ( i −1) wird mit der s-ten Zeile ausgetauscht (und die Numerierungen der Zeilen wie im ersten Schritt angepaßt). Es wird ji = j gesetzt. [ ] r Für k = i + 1, ..., m wird nun Zeile a k( i −1) bk( i −1) durch [ ] [ r r − a k , ji ⋅ ai( i −1) bi( i −1) + p ⋅ a k( i −1) bk( i −1) ] ersetzt. Die so entstandene Matrix ist A (i ) . Es wird i um 1 erhöht und der i-te Schritt mit diesem neuen Wert für i wiederholt. 238 6 Ausgewählte Themen der Linearen Algebra Nach dem r-ten Schritt hat die Matrix A ( r ) die oben dargestellte Form A (r) ⎡a1(,rj)1 ⎢ ⎢ 0 ⎢ . ⎢ =⎢ 0 ⎢ 0 ⎢ ⎢ . ⎢ 0 ⎣ . . ... a1(,rn) ... 0 a 2( r, )j2 . . ... a 2( r,n) ... . . ... ... a r( ,rn) ... . . . . | b1( r ) ⎤ ⎥ | b2( r ) ⎥ | . ⎥ ⎥ | br( r ) ⎥ | br(+r1) ⎥ ⎥ | . ⎥ | bm( r ) ⎥⎦ . ... 0 . 0 a (r) r , jr ... 0 . 0 . ... 0 ... . . . . ... 0 ... 0 . 0 . ... 0 mit 1 = j1 < j2 < ... < jr und ai(,rj)i ≠ 0 für i = 1, ...., r . ([ ]) r Ist br(+r1) = ... bm( r ) = 0 , so ist r (A ) = r A b = r (A ( r ) ) = r , und das Gleichungssystem ist lösbar. Andernfalls ist das Gleichungssystem nicht lösbar. ([ ]) r Im folgenden sei r (A ) = r A b = r (A ( r ) ) = r . Es gilt: r r Das ursprüngliche Gleichungssystem A ⋅ x = b und das r-zeilige Gleichungssystem r r r A (r) ⋅ x = b (r) haben dieselbe Lösung x (da nur elementare Umformungen durchgeführt wurden). In ausgeschriebener Form (ohne die Zeilen, die nur Nullen enthalten) lautet r r A (r) ⋅ x = b (r) : a1(,r1) ⋅ x1 + ... a 2( r, )j2 ⋅ x 2 + ... . a r( ,rj)r ⋅ x jr . . . . + a1(,rn) ⋅ x n = b1( r ) + a 2( r,n) ⋅ x n = b2( r ) . . . a r( ,rn) ⋅ x n . = br( r ) Die Zeilen dieser Matrix (es sind die ersten r Zeilen von A (r) ) werden von unten nach oben bearbeitet, und dabei werden den Variablen x n , x n −1 , ..., x1 Werte zugeordnet: 239 6.2 Lineare Gleichungssysteme (r) Bearbeitung der Zeile mit der Nummer r: Den Variablen x jr +1 , x jr + 2 , ..., x n werden beliebige Werte aus R zugewiesen (freie Variablen): x jr +1 := u jr +1 , x jr + 2 := u jr + 2 , ... , x n := un . x jr wird aus der letzten Gleichung berechnet: x jr = 1 ar( ,r j)r n n ⎛ ⎞ ⎞ 1 ⎛ ⋅ ⎜⎜ br( r ) − ∑ ar( ,rk) ⋅ xk ⎟⎟ = ( r ) ⋅ ⎜⎜ br( r ) − ∑ ar( ,rk) ⋅ uk ⎟⎟ . k = jr +1 k = jr +1 ⎝ ⎠ ar , jr ⎝ ⎠ (i) Bearbeitung der Zeile mit der Nummer i mit 1 ≤ i < r : Die Zeilen i + 1, ..., r seien bereits bearbeitet. Die Variablen, die bisher entweder als freie oder berechnete Variablen ermittelt wurden, seien in aufsteigender Numerierung x k , x k +1 , ..., x n . Den Variablen x ji +1 , ..., x k −1 werden wieder beliebige Werte aus R zugewiesen (freie Variablen): x ji +1 = u ji +1 , ... , xk −1 := uk −1 . x ji wird berechnet zu: x ji = 1 ai(,rj)i n ⎛ ⎞ ⋅ ⎜⎜ bi( r ) − ∑ ar( ,rk) ⋅ xk ⎟⎟ . k = ji +1 ⎝ ⎠ Beispiel: Das Gleichungssystem − 4 x1 + 4 x2 − 8 x3 − 24 x 4 − 44 x 5 + 4 x6 − 56 x 7 − 44 x8 = − 24 3 x1 − 3 x2 + 6 x3 + 18 x4 + 30 x 5 − 9 x6 + 42 x 7 + 24 x8 = 15 2 x1 − 2 x2 + 4 x3 + 10 x4 + 16 x5 − 4 x6 + 20 x 7 + 12 x8 = 8 − 2 x1 2 x1 + 2 x2 − 2 x2 − 4 x3 + 4 x3 − 12 + 10 x4 x4 − 18 + 18 x5 x5 + 10 x 6 − 28 x 7 + 20 x 7 − 10 + 18 x8 x8 = − 8 = 10 240 6 Ausgewählte Themen der Linearen Algebra hat die erweiterte Koeffizientenmatrix 4 − 8 − 24 − 44 4 − 56 − 44 | − 24⎤ ⎡− 4 ⎢ 3 −3 6 18 30 − 9 42 24 | 15⎥ ⎢ ⎥ 4 10 16 − 4 20 12 | 8⎥ ⎢ 2 −2 ⎢ ⎥ 2 − 4 − 12 − 18 10 − 28 − 10 | − 8⎥ ⎢− 2 ⎢⎣ 2 − 2 4 10 18 0 20 18 | 10⎥⎦ 1. Schritt: p = a1,1 = −4 ≠ 0 ; die k-te Zeile für k = 2, 3, 4, 5 wird ersetzt durch − a k ,1 ⋅ (1. Zeile) − 4 ⋅ ( k - te Zeile) . Das ergibt: ⎡− 4 ⎢ 0 ⎢ ⎢ 0 ⎢ ⎢ 0 ⎢⎣ 0 4 − 8 − 24 − 44 4 − 56 − 44 0 0 0 12 24 0 36 0 0 8 24 8 32 40 0 0 0 − 16 − 32 0 − 48 0 0 8 16 − 8 32 16 | − 24⎤ | 12⎥ ⎥ | 16⎥ ⎥ | − 16⎥ | 8⎥⎦ Um die Größen der Zahlen zu reduzieren, werden die einzelnen Zeilen jeweils durch einen geeigneten Faktor dividiert, z.B. wird die 1. Zeile durch -4, die 2. Zeile durch 12, die 3. Zeile durch 8, die 4. Zeile durch -16 und die 5. Zeile durch 8 dividiert, und es entsteht: A (1) ⎡ 1 − 1 2 6 11 − 1 14 11 | 6⎤ ⎢0 0 0 0 1 2 0 3 | 1⎥ ⎢ ⎥ = ⎢0 0 0 1 3 1 4 5 | 2⎥ ⎢ ⎥ ⎢0 0 0 0 1 2 0 3 | 1⎥ ⎣⎢0 0 0 1 2 − 1 4 2 | 1⎥⎦ j1 = 1 i-ter Schritt für i = 2: Es ist j2 = 4 , s = 3 , p = 1 . Die 2. Zeile von Α (1) wird mit der 3. Zeile ausgetauscht, und es ergibt sich 6.2 Lineare Gleichungssysteme 241 ⎡ 1 − 1 2 6 11 − 1 14 11 | 6⎤ ⎢0 0 0 1 3 1 4 5 | 2⎥ ⎢ ⎥ ⎢0 0 0 0 1 2 0 3 | 1⎥ ⎢ ⎥ ⎢0 0 0 0 1 2 0 3 | 1⎥ ⎢⎣0 0 0 1 2 − 1 4 2 | 1⎥⎦ Für k = 3, 4, 5 wird die k-te Zeile ersetzt durch − a k ,4 ⋅ (2. Zeile) + 1 ⋅ ( k - te Zeile) . Damit ergibt sich A ( 2) ⎡ 1 − 1 2 6 11 − 1 14 11 ⎢0 0 0 1 3 1 4 5 ⎢ = ⎢0 0 0 0 1 2 0 3 ⎢ 1 2 0 3 ⎢0 0 0 0 ⎢⎣0 0 0 0 − 1 − 2 0 − 3 | 6⎤ | 2⎥ ⎥ | 1⎥ ⎥ | 1⎥ | − 1⎥⎦ i-ter Schritt für i = 3: Es ist j3 = 5 , s = 3 , p = 1 . Für k = 4, 5 wird die k-te Zeile ersetzt durch − a k ,5 ⋅ (3. Zeile) + 1 ⋅ ( k - te Zeile) Damit ergibt sich A ( 3) ⎡ 1 − 1 2 6 11 − 1 14 11 | 6⎤ ⎢0 0 0 1 3 1 4 5 | 2⎥ ⎢ ⎥ = ⎢0 0 0 0 1 2 0 3 | 1⎥ ⎢ ⎥ ⎢0 0 0 0 0 0 0 0 | 0⎥ ⎢⎣0 0 0 0 0 0 0 0 | 0⎥⎦ i-ter Schritt für i = 4: Für j = j3 + 1 ( = 6), ..., 8 ( = n ) gilt jeweils a 4( 3, )j = a5( ,3j) = 0 , so dass das Verfahren abbricht. Es ist r = 3 . Es wird daher gesetzt: 242 6 Ausgewählte Themen der Linearen Algebra x6 = u6 , x7 = u7 , x8 = u8 , 1 x5 = ⋅ (1 − (2 ⋅ x6 + 0 ⋅ x7 + 3 ⋅ x8 )) = 1 − 2 ⋅ u6 − 3 ⋅ u8 , 1 1 x4 = ⋅ (2 − (3 ⋅ x5 + 1 ⋅ x6 + 4 ⋅ x7 + 5 ⋅ x8 )) = −1 + 5 ⋅ u6 − 4 ⋅ u7 + 4 ⋅ u8 , 1 x2 = u2 , x3 = u3 , 1 x1 = ⋅ (6 − (− 1 ⋅ x2 + 2 ⋅ x3 + 6 ⋅ x4 + 11 ⋅ x5 − 1 ⋅ x6 + 14 ⋅ x7 + 11 ⋅ x8 )) 1 = 1 + u2 − 2 ⋅ u3 − 7 ⋅ u6 + 10 ⋅ u7 − 2 ⋅ u8 . Die (unendlich große) Lösungsmenge des Gleichungssystems ist also ⎧ ⎡ − 2⎤ ⎡ − 7⎤ ⎡ 10 ⎤ ⎡1⎤ ⎡ − 2⎤ ⎫ ⎡1 ⎤ ⎪ ⎢0⎥ ⎢0⎥ ⎢0⎥ ⎢0⎥ ⎢ 0 ⎥⎪ ⎢1 ⎥ ⎪ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎢ ⎥ ⎪ ⎢1⎥ ⎢0⎥ ⎢0⎥ ⎢0⎥ ⎢ 0 ⎥⎪ ⎢0⎥ ⎪ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎢ ⎥ r − 4⎥ − 1⎥ 0⎥ 0⎥ 5⎥ 4 ⎪ Xr ⎢ ⎢ ⎢ ⎢ ⎢ + u6 ⋅ + u7 ⋅ + u8 ⋅ ⎢ ⎥ ⎪⎪ + u2 ⋅ + u3 ⋅ ⎪ ( 8,1) X = ⎢0⎥ ⎢ − 2⎥ ⎢0⎥ ⎢1⎥ ⎢ − 3⎥ ⎬ ⎢0⎥ L=⎨ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎢ ⎥ ⎪ 0⎥ 0⎥ 0⎥ 1⎥ 0⎥ ⎢ ⎢ ⎢ ⎢ ⎢ 0 ⎥⎪ ⎢ ⎪ ⎢0⎥ ⎢0⎥ ⎢1⎥ ⎢0⎥ ⎢ 0 ⎥⎪ ⎢0⎥ ⎪ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎢ ⎥ ⎪ 0⎦ 0⎦ 0⎦ 0⎦ 0⎦ ⎣ ⎣ ⎣ ⎣ ⎣ 1 ⎦⎪ ⎣ ⎪ ⎪⎩ ⎪⎭ mit beliebigen reellen Zahlen u 2 , u3 , u6 , u7 und u8 6.3 Invertieren von Matrizen Eine quadratische Matrix A ( n ,n ) vom Typ (n, n) heißt regulär, wenn r (A ( n ,n ) ) = n ist. Sie heißt singulär, wenn r (A ( n ,n ) ) < n gilt. Es sei A ( n ,n ) eine quadratische Matrix vom Typ (n, n). Gibt es eine Matrix B ( n ,n ) vom Typ (n, n ) mit A ( n ,n ) ⋅ B ( n ,n ) = I ( n ,n ) , dann heißt B ( n ,n ) die zu A ( n ,n ) inverse Matrix und wird mit A (−n1,n ) bezeichnet. 6.3 Invertieren von Matrizen 243 Zur Erinnerung: Mit I ( n ,n ) wird die quadratische Matrix bezeichnet, die in der Diagonalen die Zahlen 1 und sonst nur Nullen enthält (Einheitsmatrix). Satz 6.3-1: A und B seien quadratische Matrizen, zu denen jeweils die inversen Matrizen A −1 und B −1 existieren. Dann gilt: (A ) −1 −1 = A, (A ⋅ B )−1 = B −1 ⋅ A −1 , (k ⋅ A )−1 = 1 k ⋅ A −1 für k ∈ R ≠0 Satz 6.3-2: Für eine quadratische Matrix A sind folgende Aussagen (a) und (b) äquivalent: (a) A ist eine reguläre Matrix. (b) Zu A existiert die inverse Matrix A −1 . Satz 6.3-3: Die Lösung der Matrixgleichung A ⋅ X = B mit einer regulären Matrix A lautet X = A −1 ⋅ B . Die Berechnung der inversen Matrix zu einer gegebenen quadratischen regulären Matrix A heißt Invertieren der Matrix A. Die quadratische Matrix A ( n ,n ) = [ai , j ]( n ,n ) sei regulär. Man kann zeigen, dass man die Zeilen einer regulären Matrix so vertauschen kann, dass nach dem Austausch alle Elemente der Diagonalen von 0 verschieden sind. Daher kann man gleich für ai ,i ≠ 0 für i = 1, ..., n voraussetzen. Die Matrix X ( n ,n ) = [xi , j ]( n ,n ) sei in Spaltenschreibweise: 244 6 Ausgewählte Themen der Linearen Algebra r r X = [x1 , ..., x n ] . r Der Vektor ei für i = 1, ..., n sei der Spaltenvektor, der in der i-ten Zeile eine 1 und sonst nur Nullen hat. Zur Invertierung der Matrix A sind simultan die n linearen Gleichungssysteme r r r r A ⋅ x1 = e1 , ..., A ⋅ x n = en zu lösen. Diese Gleichungssysteme kann man zu einem Gleichungssystem A ( n , n ) ⋅ X ( n ,n ) = I ( n ,n ) zusammenfassen und mit einer Variante des Gaußschen Verfahrens lösen (anstelle des Vekr tors b( m ,1) steht jetzt die Einheitsmatrix I ( n ,n ) ): Die zu A gehörende erweiterte Matrix hat die Form ⎡ a1,1 ⎢a [A | I] = ⎢ 2,1 ⎢ . ⎢ ⎣a n ,1 r ⎡ a1 ⎢ ar =⎢ 1 ⎢. ⎢r ⎣a n a1, 2 a 2,2 . a n ,2 | | | | ... a1,n ... a 2,n ... . ... a n ,n | | | | 1 0 0 ... 0 0 1 0 ... 0 . . . ... . 0 0 0 ... 0 1 0 0 ... 0 0⎤ 0 1 0 ... 0 0⎥ ⎥ . . . ... . . ⎥ ⎥ 0 0 0 ... 0 1⎦ 0⎤ 0⎥ ⎥ .⎥ ⎥ 1⎦ Sie wird schrittweise durch elementare Umformungen in eine „erweiterte Diagonalmatrix“ umgewandelt. Dabei wird eine Folge von Matrizen A (1) , ..., A ( n ) erzeugt; A ( i ) ist das Ergebnis nach dem i-ten Schritt: 1. Schritt: Es ist a1,1 ≠ 0 . Die 1. Zeile der erweiterten Matrix wird durch a1,1 geteilt. Anschließend wird für k = 2, ..., n die mit − a k ,1 multiplizierte 1. Zeile zur k-ten Zeile addiert. Das Ergebnis ist A (1) . Das Element in der 1. Spalte und der 1. Zeile ist gleich 1; alle Elemente der 1. Spalte ab Zeile 2 sind gleich 0. 6.3 Invertieren von Matrizen 245 Anschließend wird i = 2 gesetzt. i-ter Schritt für 1 < i ≤ n : Die Matrix A ( i −1) sei bereits ermittelt. Sie hat die Form A ( i −1) ⎡1 0 ⎢ ⎢0 1 ⎢. . ⎢ 0 0 =⎢ ⎢0 0 ⎢ ⎢0 0 ⎢. . ⎢ ⎢⎣0 0 r ⎡a1( i −1) ⎢ r ( i −1) ⎢a 2 ⎢ . ⎢ r ( i −1) a = ⎢ ri(−i 1−1) ⎢a i ⎢ r ( i −1) ⎢ai +1 ⎢ . ⎢ r ( i −1) ⎢⎣a n 0 ... 0 0 a1(,ii−1) 0 ... 0 0 a 2( i,i−1) . ... . . . a1(,ii−+11) a 2( i,i−+11) . ... a1(,in−1) ... a 2( i,n−1) | u1(,i1−1) | u 2( i,1−1) ... | . . 0 ... 0 1 ai(−i −1,1i) 0 ... 0 0 ai(,ii−1) ai(−i −1,1i)+1 ... ai(−i 1−,1n) ai(,ii−+11) ... ai(,in−1) | ui(−i −1,11) | ui(,i1−1) 0 ... 0 0 ai(+i −1,1i) ai(+i −1,1i)+1 ... ai(+i −1,1n) | ui(+i −1,11) . ... . . . 0 ... 0 0 a n( i,i−1) r | u1( i −1) ⎤ r ⎥ | u2( i −1) ⎥ | . ⎥ r ( i −1) ⎥ | ui −1 ⎥ r | ui( i −1) ⎥ r ⎥ | ui(+i1−1) ⎥ | . ⎥ r ( i −1) ⎥ | u n ⎥⎦ . a n( i,i−+11) ... . ... a n( i,−n1) | . | un( i,1−1) ... u1(,in−1) ⎤ ⎥ ... u 2( i,n−1) ⎥ ... . ⎥ ⎥ ... ui(−i −1,1n) ⎥ ... ui(,in−1) ⎥ ⎥ ... ui(+i −1,1n) ⎥ ... . ⎥ ⎥ ... u n( i,−n1) ⎥⎦ Man kann ai(,ii−1) ≠ 0 annehmen; ansonsten gibt es wegen der Regularität von A ein s ∈ { i, i + 1, ..., n} mit a s( i,i−1) ≠ 0 , und die s-te Zeile wird mit der i-ten Zeile ausgetauscht. Die i-te Zeile wird durch ai(,ii−1) geteilt, so dass sie in der i-ten Spalte (im Diagonalelement) den Wert 1 hat. Anschließend wird für k = 1, ..., i − 1, i + 1, ... , n die mit − a k( i,i−1) multiplizierte ite Zeile zur k-ten Zeile addiert. Zu beachten ist, dass hierbei sowohl Zeilen behandelt werden, die oberhalb der i-ten Zeile stehen ( k = 1, ..., i − 1 ), als auch Zeilen, die unterhalb der i-ten Zeile stehen ( k = i + 1, ... , n ). A ( i ) ist die so entstandene Matrix. Es wird i um1 erhöht und der i-te Schritt mit diesem neuen Wert für i wiederholt. A ( n ) hat die Form 246 A(n) 6 Ausgewählte Themen der Linearen Algebra ⎡1 ⎢ ⎢0 ⎢. ⎢ 0 = ⎢⎢ 0 ⎢ ⎢0 ⎢. ⎢ ⎢⎣0 0 1 . 0 0 0 . 0 0 0 . 0 0 0 . 0 ... ... ... ... ... ... ... ... [ = I ( n ,n ) | U ( n ,n ) 0 0 . 0 0 0 . 0 0 0 . 1 0 0 . 0 0 0 . 0 1 0 . 0 0 0 . 0 0 1 . 0 ... ... ... ... ... ... ... ... 0 0 . 0 0 0 . 1 | u1(,n1) | u2( n,1) | . (n) | ui−1,1 | ui(,n1) | ui(+n1),1 | . (n) | un ,1 ... u1(,nn) ⎤ ⎥ ... u2( n,n) ⎥ ... . ⎥ ⎥ ... ui(−n1),n ⎥ ... ui(,nn) ⎥ ⎥ ... ui(+n1),n ⎥ ... . ⎥ ⎥ ... un( n,n) ⎥⎦ ] Es gilt U ( n ,n ) = A −1 . Beispiel: ⎡1 2 3⎤ Bestimmung der zu A = ⎢2 3 2⎥ inversen Matrix: ⎢ ⎥ ⎢⎣1 2 2⎥⎦ Die folgenden Matrizen sind die Ergebnisse nach den Schritten : A (1) A ( 2) A ( 3) 3 | 1 0 0⎤ ⎡1 2 ⎢ = 0 − 1 − 4 | − 2 1 0⎥ ⎢ ⎥ ⎢⎣0 0 − 1 | − 1 0 1⎥⎦ ⎡ 1 0 − 5 | − 3 2 0⎤ = ⎢ 0 1 4 | 2 − 1 0⎥ ⎢ ⎥ ⎢⎣0 0 − 1 | − 1 0 1⎥⎦ 2 − 5⎤ ⎡1 0 0 | 2 ⎢ = 0 1 0 | − 2 −1 4 ⎥ ⎥ ⎢ 0 − 1⎥⎦ ⎢⎣0 0 1 | 1 2 − 5⎤ ⎡2 ⎢ Es gilt A = − 2 − 1 4 ⎥ . ⎥ ⎢ 0 − 1⎦⎥ ⎣⎢ 1 −1