23. Jahrgang, Heft 1, Oktober 2013, ISSN 0939-8821 L A n I F Mathematik für Wirtschaftsinformatik Ulrich Hoffmann Technical Reports and Working Papers Leuphana Universität Lüneburg Hrsg. der Schriftreihe FINAL: Ulrich Hoffmann Scharnhorststraße 1, D-21335 Lüneburg M a t h e m a ti k fü r W ir ts c h a ft s in f o r m a t ik P ro f. D r . r e r . n a t. U lr i c h H o ffm a n n Ü b e rarb e it et e F a s s u ng O k to be r 2 0 1 3 Das vorliegende Skript dient als begleitende Unterlage für die Veranstaltungen Mathematik für Wirtschaftsinformatik und weiterer Veranstaltungen an der Leuphana Universität Lüneburg mit inhaltlichem Bezug zur Mathematik für Wirtschaftsinformatiker und Informatiker. Die Durcharbeitung des Skripts ersetzt nicht den Besuch der Veranstaltungen, da dort zusätzlich Zusammenhänge, ergänzende Sachverhalte und im Skript nicht ausgeführte Inhalte behandelt werden. Dieses Skript ist eine überarbeitete Fassung der Veröffentlichung (mit Copyright): Hoffmann, U: Mathematik für Wirtschaftsinformatiker und Informatiker & Übungen, FINAL 17:2, 2007, ISSN 0939-8821. Gegenüber dieser Auflage wurden einige Fehler berichtigt und Beweisideen ergänzt. Die Kapitel zur Einführung der Integralrechnung und zur Wahrscheinlichkeitstheorie und Statistik sind neu hinzugekommen. Vorwort Das vorliegende Skript dient als Unterlage für Veranstaltungen zur Mathematik für Wirtschaftsinformatiker und Informatiker in den ersten Studiensemestern an der Leuphana Universität Lüneburg. Es werden Schulkenntnisse der Mathematik und der Wille, sich mit mehr oder weniger abstrakten Sachverhalten auseinandersetzen zu wollen, vorausgesetzt. Die Themenauswahl erfolgte mit Blick auf die Anwendungen in der Informatik und der Wirtschaftsinformatik. Schwerpunkte dieser Anwendungen sind die in späteren Semestern behandelten Analyseverfahren in der Theorie der Datenstrukturen und Algorithmen, der Theoretischen Informatik, insbesondere der Angewandten Komplexitätstheorie und der Kryptologie. Dem für die Vorgehensweise und Argumentationstechnik in der Informatik besonders wichtigen Prinzip der vollständigen Induktion wird ein eigenes Kapitel gewidmet und in späteren Kapiteln an mehreren auch nichttrivialen Beispielen dargestellt. Darüber hinaus werden Grundlagen vermittelt, die dem Verständnis wirtschaftswissenschaftlicher Zusammenhänge dienen. So wurden Themen aus verschiedenen Gebieten der Mathematik ausgewählt, deren Inhalte im späteren Studium von Belang sind: aus der elementaren Zahlentheorie, der Kombinatorik, der Analysis, der Linearen Algebra und der Wahrscheinlichkeitstheorie und der Statistik. Übungsaufgaben mit Lösungen zu den einzelnen Kapiteln ergänzen das Skript in einem gesonderten Text. Die Durcharbeitung des Skripts ersetzt nicht den Besuch der Veranstaltungen zur Mathematik, da dort zusätzlich wichtige Zusammenhänge, Beispiele und mathematische Beweise, die dem Verständnis der mathematischen Sätze dienen, erläutert und ergänzende Sachverhalte behandelt werden. Das Skript verzichtet gelegentlich auf die Darstellung der mathematischen Beweise, wenn sie über den Rahmen des Textes hinausgehen. Ansonsten werden die in den Sätzen dargestellten Sachverhalte auch formal begründet. Der Leser wird schnell feststellen, dass sich der Schwierigkeitsgrad bei der Erarbeitung der einzelnen Themen im Verlauf des Textes erhöht. Dieses vielen mathematischen Texten inhärente Problem sollte nicht davor abschrecken, sich weiter und tiefergehend mit mathematischen Sachverhalten zu beschäftigen. Vielmehr sollte es Anreiz sein, sich mit Geduld und Durchhaltewillen auch schwierige Inhalte anzueignen. Der intellektuelle Gewinn sollte dabei nicht unterschätzt werden. Literaturauswahl zur begleitenden Lektüre Aigner, M.: Diskrete Mathematik, 6. Aufl., Vieweg+Teubner, 2006. Bartholomé, A.; Rung, J.; Kern, H.: Zahlentheorie für Einsteiger, 7. Aufl.,Vieweg+Teubner, 2010. Beutelspacher, A.: Lineare Algebra, 7. Aufl.,Vieweg+Teubner, 2009. Beutelspacher, A.; Neumann, H.B.; Schwarzpaul, T.: Kryptografie in Theorie und Praxis, 2. Aufl., Vieweg+Teubner, 2010. Bornemann, F.: Konkrete Analysis, Springer, 2008. Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Aufl., Deutscher Verlag der Wissenschaften, 1989. Hachenberger, D.: Mathematik für Informatiker, 2. Aufl., Pearson Studium, 2008. Haggarty, R.: Diskrete Mathematik für Informatiker, Pearson Studium, 2004. Hartmann, P.: Mathematik für Informatiker, 5. Aufl., Vieweg+Teubner, 2012. Henze, N.: Stochastik für Einsteiger, 9. Aufl., Vieweg+Teubner, 2012. Meinel, C.; Mundhenk, M.: Mathematische Grundlagen der Informatik, 5. Aufl., Vieweg+Teubner, 2011. Purkert, W.: Brückenkurs Mathematik für Wirtschaftswissenschafter, 7. Aufl., Vieweg+Teubner, 2011. Schira, J.: Statistische Methoden der VWL und BWL, 4. Aufl., Pearson Studium, 2012. Sydsæter, K.; Hammond, P.: Mathematik für Wirtschaftswissenschaftler, 3. Aufl., Pearson Studium, 2009. Sydsæter, K.; Hammond, P.; Seierstad, A.; Strøm, A.: Further Mathematics for Economic Analysis, Pearson Education, 2005. Zwerenz, K.: Statistik verstehen mit Excel, 2. Aufl., Oldenbourg, 2008. Weiterführende mathematische Werke: Graham, R.L.; Knuth, D.E.; Patashnik, O.: Concrete Mathematics, 2. Aufl., AddisonWesley, 2001. Maurer, S.B.; Ralston, A.: Discrete Algorithmic Mathematics, 3. Aufl., Addison-Wesley, 2004. Yan, S.Y.: Number Theory for Computing, 2. Aufl., Springer, 2010. Inhaltsverzeichnis Literaturauswahl zur begleitenden Lektüre ................................................................................. 4 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte .......................................... 7 1.1 Mengen .................................................................................................................................. 7 1.2 Aussagen und deren logische Verknüpfung ........................................................................ 11 1.3 Beweistechniken.................................................................................................................. 17 1.4 Algebraische Grundstrukturen und Zahlensysteme ............................................................ 21 1.5 Vollständige Induktion ........................................................................................................ 46 1.6 Endliche Summen ............................................................................................................... 53 1.7 Elementare Ungleichungen ................................................................................................. 61 2 Abbildungen ........................................................................................................................... 65 2.1 Allgemeines ......................................................................................................................... 65 2.2 Grundlegende Eigenschaften von Abbildungen .................................................................. 69 3 Ausgewählte Themen der elementaren Zahlentheorie ...................................................... 80 3.1 Primzahlen ........................................................................................................................... 80 3.2 Modulare Artihmetik ........................................................................................................... 85 3.3 Der Euklidische Algorithmus .............................................................................................. 91 3.4 Weitere ausgewählte Ergebnisse der elementaren Zahlentheorie ....................................... 99 3.5 Anwendung in der Kryptologie ......................................................................................... 103 4 Ausgewählte Themen der Kombinatorik .......................................................................... 117 4.1 Binomialkoeffizienten ....................................................................................................... 117 4.2 Abbildungen zwischen endlichen Mengen ....................................................................... 127 4.3 Das Prinzip von Inklusion und Exklusion ......................................................................... 129 5 Ausgewählte Themen der Analysis .................................................................................... 135 5.1 Folgen und Reihen ............................................................................................................ 135 5.2 Eigenschaften reeller Funktionen einer Veränderlichen ................................................... 161 5.3 Polynome ........................................................................................................................... 174 5.4 Gebrochen rationale Funktionen ....................................................................................... 178 5.5 Exponential- und Logarithmusfunktion ............................................................................ 181 5.6 Einführung in die Differentialrechnung ............................................................................ 197 5.7 Die Regeln von de l’Hospital ............................................................................................ 216 5.8 Das Newton-Verfahren ..................................................................................................... 222 5.9 Taylorpolynome ................................................................................................................ 225 5.10 Fibonacci-Zahlen ............................................................................................................... 247 5.11 Erzeugende Funktionen ..................................................................................................... 253 5.12 Anzahlbetrachtungen in Binärbäumen .............................................................................. 261 5.13 Einführung in die Integralrechnung .................................................................................. 272 6 Das Lösen linearer Gleichungssysteme ............................................................................. 288 6.1 Matrizen und Vektoren...................................................................................................... 288 6.2 Lineare Gleichungssysteme............................................................................................... 296 6.3 Invertieren von Matrizen ................................................................................................... 309 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik............................. 315 7.1 Bezeichnungen und Ergebnisse aus der Wahrscheinlichkeitstheorie ............................... 315 7.2 Zufallsvariablen ................................................................................................................. 320 7.3 Mehrdimensionale Zufallsvariablen .................................................................................. 327 7.4 Kovarianz und Korrelationskoeffizient ............................................................................. 334 7.5 Bemerkungen zu erzeugenden und charakteristischen Funktionen .................................. 337 7.6 Beispiele von Verteilungen ............................................................................................... 343 7.7 Grenzwertsätze .................................................................................................................. 366 7.8 Punktschätzungen .............................................................................................................. 375 7.9 Intervallschätzungen.......................................................................................................... 383 7.10 Hypothesentests ................................................................................................................. 390 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte In diesem Kapitel werden grundlegende Definitionen, Bezeichnungen und Regeln aus verschiedenen Gebieten der Mathematik zusammengestellt. Dabei wird eine gewisse Vertrautheit mit der Symbolik der Mathematik vorausgesetzt. Exemplarisch für die axiomatische Einführung einer mathematischen Grundstruktur wird der systematische Aufbau des Zahlensystems von den natürlichen bis zu den komplexen Zahlen beschrieben. Die Mathematik begründet ihre Theorien formal jeweils durch ein System von Axiomen, d.h. Grundaussagen, die in einem Teil der mathematischen Welt als Basisbausteine dienen, um aus ihnen Aussagen und Erkenntnisse über diesen Teil der mathematischen Welt abzuleiten. Der Ableitungsvorgang wird durch definierte logische Schlussregeln gesteuert. So wurde versucht, den Aufbau der gesamten Mathematik, insbesondere den Aufbau des Zahlensystems und der Mengenlehre, streng axiomatisch zu begründen. Die Entwicklung entsprechender Axiomensysteme bzw. die Erkenntnis über Grenzen der Möglichkeiten dieses Ansatzes können als überragende Ergebnisse der mathematischen Forschung des 19. und 20. Jahrhunderts angesehen werden. Leider sprengt eine formale Behandlung dieser Themen den Rahmen einer universitären Anfängerveranstaltung, so dass im folgenden ausgewählte Themen aus einzelnen Teilgebieten der Mathematik, die für die spätere Informatikausbildung von Bedeutung sind, eher anschaulich und intuitiv beschrieben werden. Natürlich werden auch hierbei Präzision in den Begriffen und formale Korrektheit in der Argumentation versucht. 1.1 Mengen Die Definition des Begriffs Menge gehört zu den grundlegenden Bausteinen der Mathematik. Die formale Behandlung ist den Grundlagen der Mathematik vorbehalten. Georg Cantor (1845 – 1918), der Begründer der Mengenlehre, hat den Begriff der Menge anschaulich folgendermaßen definiert: Eine Menge ist eine Zusammenfassung von bestimmten, wohlunterscheidbaren Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen. Eine Menge A kann durch die Aufzählung der in ihr enthaltenen Elemente beschrieben werden, z.B. A a, b, c, d , e, f , g , h, i, j , k , l , m, n, o, p, q, r , r , t , u, v, w, x, y, z , als die Menge der Buchstaben unseres Alphabets in Kleinschreibung ohne Umlaute. Falls die einzelnen Elemente der Aufzählung allgemein geläufig sind, beschränkt man sich häufig auf die Angabe der ersten und letzten Elemente wie in A a, b, c, ... , x, y, z bzw. auf die Angabe 8 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte der ersten Elemente, z.B. A 4, 6, 8, ... als die Menge aller geraden Zahlen, die größer oder gleich 4 sind. Zu beachten ist, dass es bei der Aufzählung auf die Reihenfolge der Elemente einer Menge nicht ankommt und dass gleiche Elemente in der Aufzählung nur einmal angegeben werden. Sehr häufig wird eine Menge durch charakteristische Eigenschaften beschrieben, die je- dem ihrer Elemente zukommen, und zwar in der Form M x x hat die Eigenschaften ... , z.B. L z z ist Lösung der Gleichung x 2 2 x 3 0 oder in aufzählender Schreibweise L 3, 1 . Liegt ein Element a in der Menge A (ist a in der Menge A enthalten), so wird a A geschrieben; liegt a nicht in A, so wird a A geschrieben. Die leere Menge, bezeichnet mit , ist diejenige Menge, die kein Element enthält. Besitzen alle Elemente einer Menge A auch die Eigenschaften, durch die die Elemente einer Menge B gekennzeichnet sind, so ist A Teilmenge von B, geschrieben A B . Enthält B mindestens ein Element, das nicht in A vorkommt, so ist A echte Teilmenge von B, geschrieben A B. Werden also die Elemente von B durch die Eigenschaften E1, E2, ..., En charakterisiert, d.h. B x x hat die Eigenschaften E1 , ..., En , und werden die Elemente von A durch die Eigen- schaften E1 , ..., Em charakterisiert, d.h. A x x hat die Eigenschaften E1, ..., Em , wobei alle Eigenschaften E1, E2, ..., En unter den Eigenschaften E1 , ..., Em vorkommen oder sich aus den Eigenschaften E1 , ..., Em durch logische Schlüsse ableiten lassen, so ist A B . Die Elemente einer Teilmenge A einer Menge B werden also in der Regel durch mehr Eigenschaften charakterisiert als die Elemente der Obermenge B. Für jede Menge A gelten die beiden Teilmengenbeziehungen A und A A . Zwei Mengen A und B sind gleich, geschrieben A B , wenn für jedes Element a A auch a B und für jedes b B auch b A gilt, wenn also sowohl A B als auch B A gelten. 1.1 Mengen 9 Die Vereinigung der Mengen A und B, geschrieben A B , besteht aus den Elementen, die in A oder in B (oder in beiden Mengen) liegen: A B x x A oder x B . Der Schnitt der Mengen A und B, geschrieben A B , besteht aus den Elementen, die sowohl in A als auch in B liegen: A B x x A und x B . Die Differenz der Mengen B und A, geschrieben B \ A besteht aus den Elementen, die in B, aber nicht in A liegen: B \ A x x B und x A . Ist A B , so ist das Komplement der Menge A bezüglich der Menge B, geschrieben A B , definiert durch A B x x B und x A. Offensichtlich ist (für A B ) A B = B \ A. Für eine Menge A bezeichnet |A| die Anzahl der Elemente (oder die Mächtigkeit) von A. Mit P ( A) wird die Potenzmenge der Menge A bezeichnet, die aus allen Teilmengen der Menge A besteht, d.h. P A L | L A . Beispielsweise lautet für A 1, 2, 3 die Potenzmenge P ( A) , 1 , 2 , 3 , 1, 2 , 1, 3 , 2, 3 , 1, 2, 3 . Für Mengen A1 , A2 , ..., An wird das kartesische Produkt definiert als A1 A2 ... An a1 , a2 , ... , an | a1 A1 , a2 A2 , ... , an An . Ein Element a1 , a2 , ... , an A1 A2 ... An wird als n-Tupel bezeichnet. Bei einem 2-Tupel spricht man auch von einem Paar. M ... M . Bei Eine n-stellige Relation R auf einer Menge M ist eine Teilmenge von M n - mal einer zweistelligen Relation R M M schreibt man anstelle von a, b R häufig aRb . 10 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Die grundlegenden Rechenregeln für Operationen mit Mengen werden in folgendem Satz zusammengefasst: Satz 1.1-1: Es seien im folgenden A, B und C Mengen. Dann gilt: (i) A A, A . (ii) A B A, A B B , A A B , B A B . (iii) A B B A , A B B A (Kommutativgesetze). (iv) A B C A B C , A B C A B C (Assoziativgesetze); diese Regeln rechtfertigen die Schreibweisen A B C A B C A B C und A B C A B C A B C . (v) A B (A \ B) A B (B \ A), die rechte Seite ist eine disjunkte Zerlegung von A B . Dabei heißt eine Zerlegung M M 1 M 2 der Menge M disjunkt, wenn M 1 M 2 ist. (vi) A B C A B A C , A B C A B A C (Distributivgesetze) (vii) A A B A , A A B A . (viii) Ist A C , so ist A C A . C (ix) Sind A C und B C , so gelten A B C (x) A C B C , A B A C B C (Regeln von de Morgan). C Sind A C und B C , so folgt aus A B die Beziehung B C A C und umgekehrt. Bemerkung: Die Voraussetzungen A C bzw. B C in den Aussagen (viii) – (x) wurden nur gemacht, weil das Komplement einer Menge A relativ zu einer die Menge A umfassenden Menge C definiert wurde. 1.2 Aussagen und deren logische Verknüpfung 11 Diese Eigenschaften folgen direkt aus den Definitionen; ihr Nachweis wird dem Leser als Übung überlassen. 1.2 Aussagen und deren logische Verknüpfung Logische Aussagen in der Mathematik werden wie Mengen streng axiomatisch definiert. Auf diesen Ansatz soll hier ebenfalls zugunsten eines intuitiven Ansatzes verzichtet werden. Unter einer mathematisch logischen Aussage versteht man einen Satz (in einem logischen System), der entweder WAHR oder FALSCH ist (den Wahrheitswert WAHR oder FALSCH besitzt, umgangssprachlich: wahr oder falsch ist). Beispielsweise ist „13 ist eine Primzahl“ eine Aussage mit Wahrheitswert WAHR („eine wahre Aussage“) „ 2 ist eine rationale Zahl“ eine Aussage mit Wahrheitswert FALSCH („eine falsche Aussage“) „Jede gerade natürliche Zahl, die größer als 2 ist, lässt sich als Summe zweier Primzahlen darstellen“ eine Aussage, deren Wahrheitswert noch nicht bekannt ist, die aber einen der beiden Wahrheitswerte WAHR oder FALSCH besitzt. Der Satz „Dieser Satz hat den Wahrheitswert FALSCH“ ist keine mathematische Aussage, da er weder den Wahrheitswert WAHR noch FALSCH haben kann. Derartige Sätze, die eine selbstbezogene semantische Aussage versuchen, heißen Paradoxien. Sind P und Q Aussagen, so kann man sie mit Hilfe der logischen Junktoren („und“), („oder“) bzw. („nicht“) zu neuen Aussagen P Q , P Q bzw. P zusammensetzen. Dabei kann man häufig auf die Klammern verzichten, wenn man annimmt, dass der Junktor stärker als der Junktor und dieser stärker als der Junktor bindet. Die Wahrheitswerte der zusammengesetzten Aussagen ergeben sich aus den Wahrheitswerten der Teile gemäß folgender Wahrheitstafeln: Wahrheitswerte von P Q P Q P Q FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR FALSCH FALSCH FALSCH WAHR FALSCH WAHR WAHR WAHR Konjunktion Disjunktion Bezeichnung 12 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Wahrheitswerte von P P FALSCH WAHR WAHR FALSCH Bezeichnung Negation Neben diesen drei Junktoren werden in logischen Aussagen häufig noch die Junktoren („impliziert“, „hat zur Folge“, „aus ... folgt ...“), („... ist gleichbedeutend mit ...“, „... gilt genau dann wenn ... gilt“) und („exklusives oder“, in der englischsprachigen Fachliteratur auch XOR) verwendet, die durch folgende Wahrheitstafeln definiert sind: Wahrheitswerte von P Q P Q P Q P Q FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR FALSCH WAHR WAHR FALSCH FALSCH WAHR FALSCH WAHR WAHR FALSCH Implikation Äquivalenz Antivalenz Bezeichnung Um den Wahrheitswert einer komplexen Aussage zu ermitteln, die aus durch Junktoren verbundenen Teilaussagen besteht, werden alle Kombinationen von Wahrheitswerten in die Grundaussagen, d.h. in die Teilaussagen, die keine Junktoren erhalten, eingesetzt und durch Anwendung obiger Wahrheitstafeln die sich ergebenden Wahrheitswerte unter Beachtung der Klammersetzung bzw. Bindung der Junktoren ermittelt. Beispiele: P Q P Q ( P FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR FALSCH W W F F P Q P Q ( P FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR FALSCH WAHR WAHR WAHR WAHR WAHR W W F F Q) F W F F F W F W Q) W W F W F W F W 1.2 Aussagen und deren logische Verknüpfung 13 Eine zusammengesetzte Aussage, deren Wahrheitswert bei allen möglichen Belegungen mit Wahrheitswerten der Teilaussagen, die keine Junktoren enthalten, stets WAHR ist, heißt Tautologie. Beispielweise sind die Aussagen P P und P Q P Q Tautologien, nicht aber P Q P Q . Das Beispiel P Q P Q zeigt, dass man den Junktor durch die Junktoren und ausdrücken kann, indem man in einer Aussage jedes Auftreten einer Teilaussage der Form P Q durch die Teilaussage P Q ersetzt. Der Junktor ist im Grunde also überflüssig, nur vereinfacht er die Struktur der Aussagen und erhöht damit ihre Lesbarkeit. Der folgende Satz zeigt, dass sich auch die anderen Junktoren , und mit Hilfe der Junktoren und ausdrücken lassen, da sich jeweils links und rechts des Junktors die gleichen Wahrheitswerte ergeben. Teil (v) zeigt, dass man auch und nehmen kann, um alle Junktoren , , und auszudrücken. 14 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Satz 1.2-1: Es seien P und Q Aussagen. Dann sind die folgenden Aussagen Tautologien. (i) P Q P Q , in vereinfachter Schreibweise: P Q P Q . (ii) P Q P Q , in vereinfachter Schreibweise: P Q P Q . (iii) P Q P Q Q P , P Q P Q Q P , in vereinfachter Schreibweise: P Q P Q Q P , P Q P Q Q P , in vereinfachter Schreibweise: P Q P Q Q P . (iv) P Q P Q P Q , in vereinfachter Schreibweise: P Q P Q P Q , P Q P Q Q P , in vereinfachter Schreibweise: P Q P Q Q P . (v) P Q P Q , in vereinfachter Schreibweise: P Q P Q . (vi) P P Q Q (Modus ponens). Der Nachweis dieser Aussagen erfolgt durch Auswertung der entsprechenden Wahrheitstafeln. 1.2 Aussagen und deren logische Verknüpfung 15 Bemerkung: Man kommt sogar mit nur einem Junktor aus, um alle anderen Junktoren auszudrücken. Dazu wird der Junktor durch folgende Wahrheitstafel definiert: Wahrheitswerte von P Q P Q FALSCH FALSCH WAHR WAHR FALSCH WAHR FALSCH WAHR WAHR WAHR WAHR FALSCH Bezeichnung Sheffer-Operation Es gilt P Q P Q , und damit ist P gleichwertig mit (lässt sich ausdrücken durch) P Q P Q . P P , und es ist P Q gleichwertig mit Der folgende Satz zeigt strukturelle Äquivalenzen zwischen Sätzen der elementaren Mengenlehre (Satz 1.1-1) und der Aussagenlogik. Satz 1.2-2: Satz 1.1-1: Es seien P, Q und R Aussagen. Die Aussage W Es seien im folgenden A, B und C Mengen. habe den Wahrheitswert WAHR, die Aussage F habe den Wahrheitswert FALSCH. Dann sind die folgenden Aussagen Tautologien. Dann gilt: (i) P F P , PF F . (i) A A, A . (ii) P Q P , P Q Q , P P Q , Q P Q . (ii) A B A, A B B , A A B , B A B . (iii) P Q Q P , P Q Q P (iii) A B B A, A B B A (Kommutativgesetze). (Kommutativgesetze). ../.. 16 (iv) 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte P Q R P Q R , P Q R P Q R (Assozia- (iv) A B C A B C (Assozia- tivgesetze); diese Regeln rechtfertigen die Schreibweisen P Q R anstelle von P Q R und P Q R von P Q R . tivgesetze). anstelle (v) P Q P Q P Q Q P . (v) (vi) A B C A B C , P Q R P Q P R , P Q R P Q P R (vi) A B (A \ B) A B (B \ A). A B C A B A C , A B C A B A C (Di- (Di- stributivgesetze) stributivgesetze) (vii) P P Q P , P P Q P . (vii) A A B A , A A B A . (viii) P P . (viii) Ist A C , so ist A C A . (ix) P Q P Q , P Q P Q (Regeln (ix) C Sind A C und B C , so gelten A B C A B C von de Morgan) AC B C , A C B C (Regeln von de Morgan) (x) P Q Q P (x) Sind A C und B C , so folgt aus A B die Beziehung B C A C und umgekehrt. Allgemein gilt, dass ein Satz der elementaren Mengenlehre, der nur die Relationenzeichen = und und die Operatoren , bzw. C (Komplement) verwendet, eine korrespondierende logische Aussage besitzt und umgekehrt, indem man Ersetzungen gemäß folgender Tabelle vornimmt. Elementare Mengenlehre Aussagenlogik = C 1.3 Beweistechniken 17 Die Erweiterung der Aussagenlogik führt auf die Prädikatenlogik (erster Stufe), in der logische Sätze formuliert werden, die die Quantoren („für alle ...“) und („es gibt ...“) enthalten können, wobei über „freie Variablen“ in Formeln quantifiziert wird. Beispiel: x x N x 1 p p ist Primzahl p teilt x . Auf eine weiterführende Einführung in die mathematische Logik soll hier jedoch verzichtet werden. 1.3 Beweistechniken Um den Wahrheitswert einer komplexen Aussage zu ermitteln, die aus Teilaussagen besteht, die durch Junktoren verbundenen sind, wird ein mathematischer Beweis angeführt. Dieser besteht aus einer Aneinanderreihung logischer Schlüsse, die genau spezifizierten Schlussregeln folgen und jederzeit eindeutig nachvollziehbar sind (zumindest sein sollten). Die Grundlage aller Beweise in einem theoretischen System ist eine Menge von Axiomen, die als wahr angenommen werden und eine „vernünftige“ Basierung der zugrundeliegenden Theorie bilden. Außerdem gibt es eine endliche Menge von Schlussregeln, die es erlauben, aus Aussagen, die bereits als wahr erkannt wurden (dazu gehören die Axiome, deren Wahrheitswert als WAHR angenommen wird), neue wahre Aussagen herzuleiten. Formal ist ein Beweis eines mathematischen Satzes P eine Aneinanderreihung p1 , p2 , ..., pn von Aussagen, wobei am Anfang Axiome oder bereits bewiesene mathematische Sätze, d.h. Sätze mit dem Wahrheitswert WAHR, stehen, und pn gleich P ist. Den Übergang von einer Zeile pi zur Zeile pi1 erhält man beispielsweise, indem man eine Tautologie, etwa aus Satz 1.22, anwendet: Ist pi die linke Seite einer Tautologie der Form Q R , d.h. pi hat dieselbe Struktur wie Q, dann ist pi1 gleich R. Eine weitere Möglichkeit der Beweisführung besteht in der Anwendung der als Modus ponens bekannten Tautologie P P Q Q (Satz 1.2-1 (vi)). Ist p j mit j i eine Zeile, die mit der Aussage P gleichzusetzen ist und hat pi die Form P Q , dann ist pi1 gleich Q. Wenn man also die Aussage P in Zeile p j bereits als Aussage mit dem Wahrheitswert WAHR erkannt hat und in Zeile pi feststellt, dass die Gültigkeit der Aussage P die Gültigkeit der Aussage Q impliziert, dann ist Q eine Aussage mit dem Wahrheitswert WAHR. 18 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Ohne an dieser Stelle genauer auf den formalen Vorgang des Beweisens in der Mathematik einzugehen, werden einige mögliche Vorgehensweisen bei Beweisführung von Aussagen beschrieben. A. Direkter Beweis: Die oben beschriebene Vorgehensweise ist ein Beispiel für einen direkten Beweis. Häufig treten mathematische Aussagen der Form P Q auf. Für einen Beweis dieser Aussage kann man folgendermaßen vorgehen: Man nimmt an, dass P den Wahrheitswert WAHR besitzt (dass P wahr ist). Durch eine „geeignete“ Argumentation (Anwendung logischer Schlüsse) zeigt man, dass dann auch Q den Wahrheitswert WAHR hat (dass Q wahr ist). Beispiel: Es ist folgende Aussage zu beweisen: Ist p eine Primzahl1, die größer oder gleich 5 ist, so ist p 2 1 durch 24 teilbar. Die Aussage besitzt die Form P Q mit P: p ist eine Primzahl, die größer oder gleich 5 ist und Q: p 2 1 ist durch 24 teilbar. Für den Beweis kann folgendermaßen argumentiert werden: Es sei p eine Primzahl mit p 5 (Aussage P wird als WAHR angenommen). Die Zahlen p 1 , p und p 1 sind drei aufeinanderfolgende Zahlen. Genau eine von ihnen ist durch 3 teilbar. Da p Primzahl ist, also nur durch ±1 oder ±p teilbar ist und p 5 vorausgesetzt wird, kommt nur eine der Zahlen p 1 oder p 1 in Frage. Da p Primzahl und p 5 ist, sind sowohl p 1 als auch p 1 gerade Zahlen, also durch 2 teilbar. Eine von zwei aufeinanderfolgenden geraden Zahlen lässt sich durch 4 teilen. Insgesamt ergibt sich: Eine der Zahlen p 1 oder p 1 ist durch 3 teilbar, eine der Zahlen p 1 oder p 1 ist durch 4 teilbar, und die andere der beiden Zahlen ist durch 2 teilbar. Daher wird p 2 1 p 1 p 1 durch 24 geteilt (Aussage Q hat den Wahrheitswert WAHR). 1 Eine Primzahl p ist eine natürliche Zahl mit p 2 , die nur durch ±1 oder ±p (ohne Rest) teilbar ist. 1.3 Beweistechniken B. 19 Indirekter Beweis: Zum Beweis der Aussage P Q zeigt man Q P , weil eventuell die Argumentation in dieser Richtung einfacher ist. Der indirekte Beweis beruht auf der Tautologie P Q Q P (Satz 1.2-2 (x)). Beispiel: Es ist folgende Aussage zu beweisen: Ist a 2 ungerade, wobei a eine ganze Zahl ist, dann ist a ungerade. Die Aussage besitzt die Form P Q mit P: a 2 ist ungerade und Q: a ist ungerade. Für den Beweis kann folgendermaßen argumentiert werden: Es sei a gerade (Die Aussage Q wird als WAHR angenommen). Das bedeutet a 2 a mit einer ganzen Zahl a . Dann ist a 2 4 a2 gerade (Die Aussage P hat den Wahrheitswert WAHR). C. Beweis einer Äquivalenz: Um die Aussage P Q zu beweisen, sind zwei „Richtungen“ zu zeigen, nämlich ein Beweis für P Q und ein Beweis für Q P . Häufig treten Äquivalenzen auch in der Form P Q und Q R . In diesem Fall kann man anstelle der vier Beweise für P Q , Q P , Q R Beweise, nämlich für P Q , Q R und R P , erbringen. D. und R Q auch drei Beweis durch Widerspruch: Zum Beweis der Gültigkeit einer Aussage P nimmt man an, dass P den Wahrheitswert WAHR besitzt. Durch eine „geeignete“ Argumentation (Anwendung logischer Schlüsse) zeigt man von einer Aussage Q, deren Wahrheitswert vorher bereits als WAHR erkannt wurde, dass diese dann den Wahrheitswert FALSCH besitzt. Man zeigt also die Gültigkeit von 20 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte P Q Q . Diese Aussage kann jedoch aufgrund des Wahrheitswerts einer Implikation und wegen der Tatsache, dass Q Q immer den Wahrheitswert FALSCH besitzt, nur dann gültig sein, wenn P den Wahrheitswert FALSCH bzw. P den Wahrheitswert WAHR besitzt. Beispiel: Zu zeigen ist die Gültigkeit der Aussage 2 ist keine rationale Zahl bzw. 2 lässt sich nicht als Bruch p q mit natürlichen Zahlen p und q darstellen. Die Aussage P lautet hier: 2 lässt sich nicht als Bruch p q mit natürlichen Zahlen p und q darstellen. Es wird die Aussage P als WAHR angenommen, d.h. 2 p q mit natürlichen Zahlen p und q. In einem Bruch p q kann man Faktoren, die in p und q gemeinsam auftreten, heraus kürzen, d.h. p und q haben (bis auf 1) keinen gemeinsamen Faktor (das ist die Aussage Q: p und q haben (bis auf 1) keinen gemeinsamen Faktor; Q besitzt den Wahrheitswert WAHR). Aus 2 p q folgt q 2 p und 2 q 2 p 2 , also teilt 2 den Wert p 2 . Da 2 Primzahl ist, teilt 2 die Zahl p, d.h. p 2 p . Damit folgt 2 q 2 4 p2 und q 2 2 p2 . Jetzt ergibt sich, dass 2 den Wert q 2 und damit die Zahl q teilt (wieder, weil 2 Primzahl ist). Insgesamt ist die Zahl 2 Faktor sowohl von p als auch von q; die Aussage Q hat also den Wahrheitswert FALSCH. E. Beweis durch vollständige Induktion: Zum Beweis von Aussagen über natürliche Zahlen wird häufig die Beweismethode der vollständigen Induktion eingesetzt. Diese Methode beruht auf einer charakteristischen Eigenschaft der natürlichen Zahlen und wird in Kapitel 1.5 behandelt. 1.4 Algebraische Grundstrukturen und Zahlensysteme 1.4 21 Algebraische Grundstrukturen und Zahlensysteme Im Folgenden wird ein Überblick über den Aufbau der wichtigsten Zahlensysteme gegeben, und es werden einige grundlegende algebraische Strukturen definiert. Grundlage aller hier beschriebenen Zahlensysteme ist die Menge der natürlichen Zahlen. Diese wird durch ein Axiomensystem beschrieben, d.h. durch ein Regelsystem, das die Menge der natürlichen Zahlen eindeutig durch ihre Eigenschaften definiert: Axiom 1: 0 N Axiom 2: Für jedes n N gibt es ein als Nachfolger (Nachfolgerzahl) bezeichnetes Element n' N. Axiom 3: 0 ist nicht Nachfolger eines Elements n N, d.h. es gibt kein n N mit n' 0 . Axiom 4: Unterschiedliche Elemente n und m haben unterschiedliche Nachfolger. Gleichbedeutend damit ist: Sind die Nachfolger n' und m' zweier natürlicher Zahlen gleich, so sind die Zahlen n und m ebenfalls gleich. Axiom 5: Eine Menge M natürlicher Zahlen, die die Zahl 0 und mit jeder Zahl n auch ihren Nachfolger n' enthält, ist mit N identisch. N ist das einzige „Modell“ dieses Axiomensystems. Statt 0 schreibt man auch 1, statt 0 schreibt man 2, statt 0 schreibt man 3 usw. Der n-te Nachfolger der 0 ist die natürliche Zahl n. Insbesondere ist eine natürliche Zahl n 0 eine Nachfolgerzahl. Man schreibt üblicherweise N = { 0, 1, 2, 3, 4, ... }. Aufbauend auf den so definierten Grundeigenschaften der natürlichen Zahlen werden arithmetische Operationen auf den natürlichen Zahlen eingeführt: 22 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Die Addition + wird über den Nachfolger n einer natürlichen Zahl n definiert durch die („rekursiven“) Regeln m0 m, m n (m n) für jede natürliche Zahl m und jede natürliche Zahl n. Damit ist beispielsweise 2 3 2 0 (2 0) ((2 0)) (((2 0))) 2 (0) 5 . Auf ähnliche Weise und durch Zurückführung auf die Addition wird die Multiplikation eingeführt: m0 0 , m n m n m für jede natürliche Zahl m und jede natürliche Zahl n. Damit ist 7 3 7 2 7 2 7 7 1 7 7 1 7 7 7 7 7 21 . Die so eingeführten arithmetischen Operationen genügen wichtigen Gesetzmäßigkeiten: Es gilt für jede natürliche Zahl n, für jede natürliche Zahl m und für jede natürliche Zahl k: k m n k m n , k m n k m n (Assoziativgesetze) Das Assoziativgesetz besagt, dass es bei gleichen Operatoren auf die Reihenfolge der Klammerung nicht ankommt; sie wird daher in der Regel weggelassen. k m mk, k m mk (Kommutativgesetze) k m n k m k n (Distributivgesetz) Der Nachweis dieser Regeln erfolgt durch Rückführung auf obige Definitionen. Beispielsweise wird das Kommutativgesetz der Addition wie folgt gezeigt: Die Gültigkeit des Kommutativgesetzes wird zunächst für k 0 und alle m N nachgewiesen: Für m 0 ist 0 m 0 0 m 0 . Für eine Nachfolgerzahl m ist nach Definition der Addition und der Tatsache, dass das Kommutativgesetz für k 0 und m bereits nachgewiesen wurde, 1.4 Algebraische Grundstrukturen und Zahlensysteme 0 m (0 m) (m 0) m m 0 23 (nach Definition der Addition) (für m bereits gezeigt) (nach Definition der Addition) (nach Definition der Addition). Aus der Tatsache, dass das Kommutativgesetz für k bereits gezeigt wurde, wird seine Gültigkeit für k und alle m N nachgewiesen: Für m 0 ist k 0 k (k 0) (0 k ) 0 k (nach Definition der Addition) (nach Definition der Addition) (für k bereits nachgewiesen) (nach Definition der Addition). Für eine Nachfolgerzahl m ist nach Definition der Addition und der Tatsache, dass das Kommutativgesetz für k und m bereits nachgewiesen wurde, k m (k m) (nach Definition der Addition) (m k ) (für m bereits gezeigt) (m k ) (nach Definition der Addition) (k m) (für k bereits gezeigt) (k m) (nach Definition der Addition) (m k ) (für k bereits gezeigt) m k (nach Definition der Addition). Ähnlich geht es mit dem Kommutativgesetz der Multiplikation: Die Gültigkeit des Kommutativgesetzes wird zunächst für k 0 und alle m N gezeigt: Für m 0 ist 0 m 0 0 0 m 0 . Für eine Nachfolgerzahl m ist nach Definition der Multiplikation und der Tatsache, dass das Kommutativgesetz für k 0 und m bereits nachgewiesen wurde, 0 m (0 m) 0 (nach Definition der Multiplikation) (m 0) 0 (für m bereits gezeigt) m0 (nach Definition der Addition) 0 (nach Definition der Multiplikation) m 0 (nach Definition der Multiplikation). Aus der Tatsache, dass das Kommutativgesetz für k bereits gezeigt wurde, wird seine Gültigkeit für k und alle m N nachgewiesen: 24 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Für m 0 ist k 0 0 00 (k 0) 0 (0 k ) 0 0 k (nach Definition der Multiplikation) (nach Definition der Addition) (nach Definition der Multiplikation) (für k bereits nachgewiesen) (nach Definition der Multiplikation). Für eine Nachfolgerzahl m ist nach Definition der Multiplikation und der Tatsache, dass das Kommutativgesetz für k und m bereits nachgewiesen wurde, k m (k m) k (nach Definition der Multiplikation) (nach Definition der Addition) ((k m) k ) (für m bereits nachgewiesen) ((m k ) k ) ((m k ) m k ) (nach Definition der Multiplikation) ((k m) k m) (wegen der Kommutativität der Addition und da die Kommutativität für k bereits nachgewiesen ist) (nach Definition der Multiplikation) ((k m) m) (nach Definition der Addition) (k m) m (für k bereits nachgewiesen) (m k ) m (nach Definition der Multiplikation). m k Zu beachten ist hierbei, dass die Gültigkeit der Assoziativgesetze als bereits nachgewiesen vorausgesetzt wird. Satz 1.4-1: Es seien n N und m N . Dann gilt (i) n 1 n . (ii) Für n 0 und m 0 ist n m 0 . Die Gleichung n m 0 impliziert n 0 oder m 0. (iii) Die Gleichung n x n mit x N ist nur für x 0 erfüllt. Die Gleichung n m 0 ist nur für n m 0 erfüllt. Laut Definition der Multiplikation und der Addition ist n 1 n 0 n 0 n 0 n n 0 n . Für (ii) seien n und m Nachfolgerzahlen, d.h. n k und m l , dann ist 1.4 Algebraische Grundstrukturen und Zahlensysteme 25 n m k l k l k k l k , also eine Nachfolgerzahl. Mit Axiom 3 folgt die Be- hauptung. (iii) sieht man folgendermaßen: Für n 0 ist 0 0 x x . Ist n eine Nachfolgerzahl, n k , und ist k y k mit y N nur mit y 0 möglich, dann folgt aus k k x x k x k mit Axiom 4 k x k und x0. In der zweiten Gleichung in (iii) ist bei n 0 : 0 0 m m . Wäre n eine Nachfolgerzahl, n k , dann ist 0 k m m k m k . Das ist gemäß Axiom 3 nicht möglich. Daher gilt n 0 und m 0 . Die natürliche Zahl n heißt kleiner als die natürliche Zahl m, geschrieben n m , wenn die Gleichung n x m eine Lösung x N mit x 0 besitzt. Man schreibt n m , wenn n m oder n m gilt. Durch diese Festlegungen wird eine totale Ordnungsrelation auf den natürlichen Zahlen definiert. Erläuterung: Eine zweistellige Relation auf einer Menge M heißt partielle Ordnungsrelation, wenn für jedes a M , jedes b M und jedes c M gilt: (i) a a (Reflexivität) (ii) aus a b und b a folgt a b (Antisymmetrie) (iii) aus a b und b c folgt a c (Transitivität). Eine partielle Ordnungsrelation heißt totale Ordnungsrelation, wenn für jedes a M und für jedes b M zusätzlich gilt: a b oder b a (Vergleichbarkeit). Dass es sich bei der durch definierten Relation um eine partielle Ordnungsrelation handelt, sieht man wie folgt: Die Reflexivität n n ist wegen n n offensichtlich. 26 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Für den Nachweis der Antisymmetrie setzt man n m und m n voraus. Das bedeutet n x m mit x N und m y n mit y N . Ersetzt man in der ersten Gleichung n durch die Angabe der zweiten Gleichung, so erhält man m y x m . Mit Satz 1.4-1 (iii) folgt y x 0 und y x 0 . Aus n m und m k folgt n x m mit x N und m y k mit y N . Die erste Gleichung wird in die zweite Gleichung eingesetzt, und man erhält mit der Assoziativität der Addition k m y n x y n x y . Das zeigt n k , und damit gilt die Transitivität der Relation . Die so definierten arithmetischen Operationen erlauben nur wenige wirkliche Rechenmanipulationen. Operationen wie Differenzen- oder Quotientenbildung als Umkehroperationen der Addition bzw. der Multiplikation sind nur sehr eingeschränkt möglich, wenn man fordert, dass jeweils das Ergebnis einer dieser Operationen wieder ein Element aus N ergibt. Daher bildet man auf der Basis der natürlichen Zahlen einen Zahlenbereich, in den man N einbetten kann, und zwar so, dass die arithmetischen Operationen und die definierte Ordnungsrelation auf N fortgesetzt werden: Man definiert auf der Menge N N der Paare natürlicher Zahlen eine zweistellige Relation durch n, m k , l genau dann, wenn n l m k gilt (hier ist die definierte Addition auf den na- türlichen Zahlen gemeint). Diese Relation ist eine Äquivalenzrelation auf der Menge N N (siehe unten). Erläuterung: Eine zweistellige Relation ~ auf einer Menge M heißt Äquivalenzrelation, wenn für jedes a M , jedes b M und jedes c M gilt: (i) a ~ a (Reflexivität) (ii) aus a ~ b folgt b ~ a (Symmetrie) (iii) aus a ~ b und b ~ c folgt a ~ c (Transitivität). Für a M bezeichnet a ~ b b ~ a die zu a gehörende Äquivalenzklasse. 1.4 Algebraische Grundstrukturen und Zahlensysteme 27 Der folgende Satz führt einige wichtige Eigenschaften einer Äquivalenzrelation auf: Satz 1.4-2: Es sei ~ eine Äquivalenzrelation auf der Menge M, a M und b M . Dann gilt: (i) Es ist a ~ b genau dann, wenn a ~ b~ gilt. (ii) Es gilt entweder a ~ b ~ oder a ~ b~ . (iii) a ~ M (auf der linken Seite des Gleichheitszeichens steht die Vereinigung aM aller Äquivalenzklassen, die man mit Elementen aus M bilden kann). Die Gültigkeit der Aussagen sieht man wie folgt: Es gelte a ~ b , und es sei x a ~ . Dann ist x ~ a und mit der Transitivität auch x ~ b . Also ist x b~ , insgesamt a ~ b~ . Ist umgekehrt x b~ , also x ~ b , dann ist mit der Refle- xivität und der Transitivität b ~ a und x ~ a , d.h. b~ a ~ . Damit folgt aus x a ~ b~ nacheinander: x ~ a , x ~ b , a ~ x und a ~ b , also a ~ b ~ . Besitzen also zwei Äquivalenzklassen ein gemeinsames Element, dann sind sie gleich. a ~ M , da Äquivalenzklassen aus Elementen aus M bestehen. Ist umgekehrt x M , aM dann ist wegen der Reflexivität x ~ x und x x ~ und damit x a ~ . aM Die durch „ n, m k , l genau dann, wenn n l m k gilt“ definierte Relation ist eine Äquivalenzrelation auf der Menge N N : Dazu sind die Eigenschaften Reflexivität, Symmetrie und Transitivität nachzuweisen: Wegen n m m n ist n, m n, m (Reflexivität). Es gelte n, m k , l , d.h. n l m k . Dann gilt auch k m l n , also k , l n, m (Symmetrie). Aus n, m k , l und k , l g , h folgt n l m k und k h l g . Daher gilt n l k h m k l g . Die linke Seite kann geschrieben werden als n h l k , die rechte Seite als m g l k . Aus Axiom 4 der natürlichen Zahlen folgt daraus n h m g , d.h. n, m g , h (Transitivität). 28 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Die Menge der Äquivalenzklassen zu dieser Relation wird als Menge Z der ganzen Zahlen bezeichnet: Z = n, m n N und m N . Es sei n, m N N . Für n m sei x N die Lösung der Gleichung n x m (anschaulich x m n 0 ). Dann ist n, m 0, x und n, m 0, x . Für m n sei y N die Lösung der Gleichung m y n (anschaulich y n m 0 ). Dann ist n, m y, 0 und n, m y, 0 . Daher kann man auch Z = n, 0 n N 0, n n N, n 0 schreiben. Die Menge der natürlichen Zahlen lässt sich in Z einbetten, etwa durch die Vorschrift: Die natürliche Zahl n N wird mit der Äquivalenzklasse n, 0 identifiziert. Es ist dann N n, 0 n N , und es wird (obwohl mathematisch inkorrekt) N Z geschrie- ben. Auf Z werden nun die arithmetischen Operationen Addition, geschrieben Z , und Multiplikation, geschrieben Z , definiert: n, 0 Z m, 0 n m, 0 , 0, n Z 0, m 0, n m , x, 0 falls m n ist; hierbei ist x die Lösung der Gleichung m x n n, 0 Z 0, m 0, x falls n m ist; hierbei ist x die Lösung der Gleichung n x m. Beispielsweise ist 3, 0 Z 0, 4 0, 1 und 4, 0 Z 0, 3 1, 0 . n, m Z k , l n k m l , n l m k . Hierbei ist n, m und k , l jeweils mindestens ein Wert gleich 0 ist. zu beachten, dass in den Paaren Beispielsweise ist 3, 0 Z 4, 0 12, 0 und 3, 0 Z 0, 4 0, 12 . 1.4 Algebraische Grundstrukturen und Zahlensysteme 29 Man kann sich davon überzeugen, dass für die so definierten Operationen die Assoziativgesetze, Kommutativgesetze und Distributivgesetze gelten. Für jede ganze Zahl n, 0 bzw. jede ganze Zahl 0, m gelten die Beziehungen n, 0 Z 0, 0 n, 0 bzw. 0, m Z 0, 0 0, m und n, 0 Z 1, 0 n, 0 bzw. 0, m Z 1, 0 0, m . In der so definierten Menge Z ist nun jede Gleichung der Form n, m Z x1 , x2 k , l durch x1 , x2 m, n Z k , l lösbar: Für m 0 ist n, m Z x1, x2 n, 0 Z x1, x2 n, 0 Z 0, n Z k , l n, 0 Z 0, n Z k , l 0, 0 Z k , l k , l . Für n 0 zeigt man die Gleichung entsprechend. Diese Aussage bedeutet, dass es zu jeder ganzen Zahl n, m Z eine additiv inverse Zahl, nämlich m, n mit n, m Z m, n 0, 0 gibt. n, m 0, 0 (hierbei ist wieder mindestens einer der Werte n oder m gleich 0) hat als einzige Lösung x1 , x2 0, 0 : Ist etwa n 0 und n, 0 Z x1 , x2 0, 0 , dann gilt n x1 0 und n x2 0 und damit x1 0 Die Gleichung n, m Z x1, x2 0, 0 mit und x2 0 (in den natürlichen Zahlen folgt aus n x1 0 : n 0 oder x1 0 , siehe oben). Ge- nauso argumentiert man bei 0, m Z x1 , x2 0, 0 mit m 0 . Die Ordnungsrelation auf den natürlichen Zahlen wird zu einer Ordnungsrelation Z auf den ganzen Zahlen fortgesetzt: n, 0 Z m, 0 genau dann, wenn n m (in den natürlichen Zahlen) gilt; 30 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte 0, n Z m, 0 ; 0, n Z 0, m genau dann, wenn m n (in den natürlichen Zahlen) gilt. Mit diesen Definitionen bildet die algebraische Struktur Z, Z , Z , 0, 0 , 1, 0 einen nullteilerfreien kommunikativen Ring mit 1. Erläuterung: Eine algebraische Struktur G, mit der Menge G und der zweistelligen Operation heißt Gruppe, wenn gilt: (i) a b G für jedes a G und jedes b G (Abgeschlossenheit der Operation ) (ii) a b c a b c für jedes a G , jedes b G und jedes c G (Assoziativität) (iii) es gibt ein Element e G mit der Eigenschaft e a a e a für jedes a G (Existenz eines neutralen Elements) (iv) für jedes a G gibt es ein Element a 1 G mit a a 1 a 1 a e ; dieses Element heißt inverses Element zu a. Das neutrale Element e einer Gruppe wird meist in die Angabe der Gruppe mit aufgenommen: G, , e . Eine Gruppe G, heißt kommutative Gruppe, wenn zusätzlich gilt: a b b a für jedes a G und für jedes b G . ../.. 1.4 Algebraische Grundstrukturen und Zahlensysteme Eine algebraische Struktur R, , heißt Ring, wenn gilt: (i) R, , 0 ist eine kommutative Gruppe (mit neutralem Element 0 R ). Das zu a R bezüglich der Operation (additiv) inverse Element wird mit a bezeichnet. (ii) a b R für jedes a R und jedes b R (Abgeschlossenheit der Operation ) (iii) a b c a b c für jedes a R , jedes b R und jedes c R (Assoziativität der Operation ) (iv) a b c a b a c und b c a b a c a für jedes a R , jedes b R und jedes c R (Distributivität der Operation über die Operation ) Ein Ring R, , heißt Ring mit 1, wenn es ein Element 1 R gibt mit a 1 1 a a für jedes a R (Existenz eines neutralen Elements bezüglich der Operation ). Ein Ring R, , heißt kommutativer Ring, wenn zusätzlich gilt: a b b a für jedes a R und für jedes b R . Ein Ring R, , heißt nullteilerfreier Ring, wenn zusätzlich gilt: Die Gleichung a x 0 besitzt für jedes a R mit a 0 nur die Lösung x 0 . Für den Ring R, , mit 1 werden die neutralen Elemente mit in die Angabe des Rings aufgenommen: R, , , 0, 1 . Einige häufig verwendete Rechenregeln folgen unmittelbar aus diesen Axiomen: 31 32 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Satz 1.4-3: (i) Das neutrale Element e einer Gruppe G, , e ist eindeutig bestimmt. Das zu a G inverse Element a 1 G ist eindeutig bestimmt. Für a G und b G ist a b b 1 a 1 . 1 (ii) Ist R, , , 0, 1 ein Ring mit 1 mit bezüglich der Operation neutralem Element 0 R und bezüglich der Operation neutralem Element 1 R , dann gilt für a R und b R mit den additiv inversen Elementen a und b : a b b a a b , 0a a0 0, a 1 a , a b a b . Die Eindeutigkeit des neutralen Elements einer Gruppe G, , e sieht man wie folgt: Sind e1 G und e2 G neutrale Elemente in G, dann ist e1 e1 e2 (da e2 neutrales Element in G ist) e2 (da e1 neutrales Element in G ist). Die Eindeutigkeit des zu a G inversen Elements ergibt sich aus: Ist b G invers zu a G , dann ist b b e b a a 1 b a a 1 e a 1 a 1 . Damit ist a b b 1 a 1 a b b 1 a 1 a e a 1 a a 1 e , also wegen der Eindeutigkeit inverser Elemente a b b 1 a 1 . 1 Die Aussagen in (ii) lassen sich nachrechnen: Mit (i) und der Kommutativität der Operation folgt a b b a a b . 0 a a 0 a 1 a 0 1 a 1 a a ; wegen der Eindeutigkeit des neutralen Elements bezüglich der Operation ist daher 0 a 0 . Entsprechend ergibt sich a0 0. 1 a a 1 a 1 a 1 1 a 0 a 0 ; wegen der Eindeutigkeit inver- ser Elemente bezüglich der Operation ist daher a 1 a . Für die letzte Gleichung in (ii) zeigt man, dass a b additiv invers zu a b ist; nach Definition ist a b invers zu a b ; wegen der Eindeutigkeit inverser Elemente bezüglich der Operation ist dann a b a b : 1.4 Algebraische Grundstrukturen und Zahlensysteme 33 a b a b a b 1 a b a b a b a b b a 0 0 . Wie oben beschrieben, lässt sich N in Z durch die Identifizierung von n N mit n, 0 einbetten. Anstelle von 0, n , dem zu n, 0 n . In diesem Sinne bilden die ganzen Zahlen additiv inversen Element, schreibt man auch n, 0 n N die positiven ganzen Zah- len (einschließlich 0), entsprechend den natürlichen Zahlen N, und 0, n n N, n 0 die negativen ganzen Zahlen. Eine interessante Eigenschaft folgt direkt aus der Definition der Multiplikation ganzer Zahlen: Quadrate ganzer Zahlen ergeben immer positive ganze Zahlen: n, 0 Z n, 0 n n, 0 und 0, n Z 0, n n n, 0 . Zur Vereinfachung wird im Folgenden Z N n n N 0, 1, 1, 2, 2, 3, 3, ... geschrieben. Die in Z definierte Addition Z bzw. die in Z definierte Multiplikation Z wird wieder mit + bzw. bezeichnet, die Ordnungsrelation Z vereinfacht mit . Z erlaubt bereits eine Vielzahl interessanter arithmetischer Operationen, jedoch ist „richtiges Rechnen“, d.h. auch Division (Umkehrung der Multiplikation) nicht immer möglich. Daher wird Z auf die Menge der rationalen Zahlen erweitert. Auch diese Erweiterung erfolgt wieder formal über die Definition einer geeigneten Äquivalenzrelation auf Paaren, dieses Mal von ganzen Zahlen, und Übergang auf die zugehörigen Äquivalenzklassen und Einbettung von Z in die Menge dieser Äquivalenzklassen: Im Folgenden seien a Z, b Z, c Z, d Z, b 0 und d 0 . Man definiert auf der Menge Z Z der Paare ganzer Zahlen eine Relation ~ durch 34 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte a, b ~ c, d genau dann, wenn a d c b gilt (hier ist die definierte Multiplikation auf den ganze Zahlen gemeint). Die bezüglich dieser Äquivalenzrelation zum Paar a, b mit b 0 ganzer Zahlen gehörende Äquivalenzklasse wird mit a bezeichnet. Die rationalen Zahlen sind dann genau die Menge b dieser Äquivalenzklassen: a Q= a Z und b Z und b 0 . b Mit Satz 1.4-2 (i) ist Damit sind a c genau dann, wenn a d c b (in Z) gilt. b d a a 0 0 b 1 , und . b b b 1 b 1 Die Menge der ganzen Zahlen ist in der Menge der rationalen Zahlen eingebettet: a a a Z Q und aZ Z . 1 1 Daher schreiben wir Z Q (obwohl auch diese Aussage wieder mathematisch nicht korrekt ist). Auf Q lassen sich eine Addition Q und eine Multiplikation Q definieren, die die entsprechenden Operationen auf Z fortsetzen: Für a c Q und Q wird definiert: d b a c a d c b und Q b d bd a c ac . Q b d bd 0 1 ist neutrales Element der Addition, die rationale Zahl neutrales Ele1 1 ment der Multiplikation: Die rationale Zahl 1.4 Algebraische Grundstrukturen und Zahlensysteme 35 a a 1 a 1 a 0 a 1 b 0 a , Q . Q b b 1 b b 1 b 1 b 1 a Q gibt es eine eindeutige additiv inverse Zahl, geschrieben b a a a 0 a a a , mit Q , nämlich : b b b 1 b b b Zu jeder rationalen Zahl a a a b b a Q b b b b b a b a b b b a a bb 0 0 b b 1 Zu jeder rationalen Zahl r a mit a 0 gibt es eine eindeutige multiplikativ inverse Zahl, b -1 geschrieben r 1 b 1 a , mit r Q r . Es ist r 1 = : a 1 b 1 a b a b a b 1 . Q b a b a a b 1 Unter der Division r s in Q zweier Zahlen r a c und s mit c 0 versteht man die Mulb d tiplikation von r mit s 1 : r r Q s 1 s a b 1 c d a c a d ad . Q Q b d b c bc Die Ordnungsrelation wird von Z auf Q erweitert, geschrieben Q : a 0 Q genau dann, wenn 0 a und 0 b oder 1 b 0 a c c a dem ist Q genau dann, wenn Q Q gilt. 1 b d d b Es ist a 0 und b 0 gelten. Außer- 36 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte 0 a a 0 mit Q , die ) in Q sind die Werte 1 1 b b a a 0 mit Q und a 0 . Auch in den rationalen negativen rationalen Zahlen die Werte b b 1 a a aa , und es ist 0 a a und 0 b b (in Z, siehe zahlen sind Quadrate positiv: Q b b bb oben). Die positiven rationalen Zahlen (einschließlich 0 1 Mit diesen Festlegungen bildet die algebraische Struktur Q, Q , Q , , mit der Ordnungs1 1 relation Q einen angeordneten Körper (der Nachweis der einzelnen Eigenschaften wird als Übung empfohlen). Erläuterung: Eine algebraische Struktur K , , heißt Körper, wenn gilt: (i) K , , , 0, 1 ist ein kommutativer Ring mit 1 (ii) für jedes a K mit a 0 gibt es ein Element a 1 K mit a a 1 1 ; dieses Element heißt multipliktives inverses Element zu a. K , , 0 ist also eine kommutative Gruppe, die additive Gruppe des Körpers, (K \ { 0 }, , 1) ist eine kommutative Gruppe, die multiplikative Gruppe des Körpers, und es gelten die Distributivgesetze. Der Körper K , , heißt angeordneter Körper, wenn es eine totale Ordnungsrelation auf K gibt mit folgenden Eigenschaften: (i) für jedes x K , für jedes y K und für jedes z K gilt: aus x y folgt x z y z (ii) für jedes x K und für jedes y K gilt: aus 0 x und 0 y folgt 0 x y . 37 1.4 Algebraische Grundstrukturen und Zahlensysteme Aus den Definitionen folgt Satz 1.4-4: Es sei K , , ein angeordneter Körper mit der Ordnungsrelation und a K . Das bezüglich der Operation inverse Element wird wieder mit a und das bei a 0 bezüglich der Operation inverse Element mit a 1 bezeichnet. Dann gilt: (i) Für a 0 ist a a 1 ; 1 1 1 1 ; diese Aussagen gelten in jedem Körper (unabhängig von einer Anordnung). (ii) Bei 0 a ist a 0 ; bei a 0 ist 0 a . Insbesondere ist 0 1 und 1 0 . (iii) 0 a a . Für (i) wird zunächst 1 1 1 gezeigt (hierzu wird die Anordnung von K nicht verwendet): Für a K ist mit Satz 1.4-3 (ii) 1 1 a 1 1 a 1 a a a , also wegen der Eindeutigkeit 1 1 1 . Daraus 1 multiplikativ invers zu a ist; folglich ist dann a a 1 : a 1 a 1 a 1 1 a 1 1 a 1 a 1 . des multiplikativ neutralen Elements ergibt sich, dass a 1 In (ii) folgt bei 0 a : a 0 a a a 0 ; entsprechend folgt bei a 0 : 0 a a 0 a a . Die Aussage 0 1 ergibt sich aus (iii) mit a 1 . In (iii) folgt aus der Anordnungseigenschaft bei 0 a offensichtlich 0 a a . Für a 0 ist 0 a und 0 a a 1 a 1 a 1 1 a a a a . Zur Vereinfachung werde wieder die in Q definierte Addition Q bzw. die in Q definierte Multiplikation Q mit + bzw. bezeichnet, die Ordnungsrelation Q vereinfacht mit . Außerdem wird anstelle von a vereinfacht a geschrieben. 1 In Q, , , 0, 1 sind die wichtigsten arithmetischen Operationen möglich. Jedoch fehlt der Ordnungsrelation auf Q eine wichtige Eigenschaft, nämlich die Vollständigkeit. Beispielswei- 38 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte se sind die Elemente der Menge q q Q und q 0 oder q 2 2 wohl nach oben be- schränkt, z.B. durch r 3 2 , es gibt in Q aber keine kleinste obere Schranke für die Elemente dieser Menge (denn Q enthält kein Element, dessen Quadrat 2 ergibt). Daher wird die Menge der rationalen Zahlen so erweitert, dass die arithmetischen Operationen und die Ordnungsrelation von Q fortgesetzt werden und zusätzlich jede nichtleere nach oben beschränkte Menge eine kleinste obere Schranke besitzt. Im Beispiel der Menge q q Q und q 0 oder q 2 2 wird diese kleinste obere Schranke mit 2 bezeichnet. Das Resultat ist der Körper R, , , 0, 1 der reellen Zahlen. Der Erweiterungsprozess kann auf verschiedene Weisen unter topologischen Aspekten vollzogen werden (z.B. DedekindSchnitte, mittels Fundamentalfolgen, Intervallschachtelung oder durch Dezimalbruchentwicklung). Exemplarisch wird hier die Methode der Dedekind-Schnitte angegeben: Erläuterung: Eine Teilmenge S Q heißt (Dedekind-) Schnitt, wenn gilt: (i) S und S Q (ii) Für jedes r S ist die Menge q q Q und q r eine echte Teilmenge von S. Bedingung (ii) beinhaltet zwei Eigenschaften: (i’) Ist r S und q Q mit q r , so ist auch q S (Abgeschlossenheit nach unten) (ii’) Ist r S , so gibt es ein p S mit r p (Nichtexistenz eines Maximums). Jeder Schnitt S ist nach oben beschränkt: Denn wäre S nicht nach oben beschränkt, so gäbe es für jedes q Q ein r S mit q r . Mit (i’) folgt q S , also Q S und damit S Q , was aber gemäß (i) ausgeschlossen ist. Die Menge R der reellen Zahlen ist die Menge aller (Dedekind-) Schnitte. Im Folgenden werden Schnitte mit kleinen griechischen Buchstaben ( , , …) bezeichnet. 39 1.4 Algebraische Grundstrukturen und Zahlensysteme Die Menge der rationalen Zahlen lässt sich in R einbetten: Mit r Q wird der Schnitt x x Q und x r identifiziert: x x Q und x r R und x x Q und x r Q . Dass es sich für jedes r Q bei x x Q und x r um einen Schnitt handelt, ist klar: of- fensichtlich gilt (i); für den Nachweis von (ii) sei p x x Q und x r , dann ist q q Q und q p eine echte Teilmenge von x x Q und x r , da etwa pr pr x x Q und x r , aber q q Q und q p gilt. 2 2 Daher schreiben wir Q R (obwohl diese Aussage mathematisch nicht korrekt ist). Sind R und R verschiedene Schnitte, so gibt es ein q Q mit q \ oder q \ . Im ersten Fall ist gemäß (ii) r r Q und r q ; außerdem ist r r Q und r q (denn mit s und s q ist nach (ii) auch q , was aber im ersten Fall gerade nicht gilt); daher ist . Im zweiten Fall folgt entsprechend . Insgesamt wird auf der Menge der Schnitte, d.h. den reellen Zahlen, durch die Mengeninklusion eine totale Ordnungsrelation R definiert, die die Ordnungsrelation auf Q fortsetzt, d.h. für r1 Q und r2 Q mit r1 r2 ist x x Q und x r1 R x x Q und x r2 . Diese Fortsetzung der Ordnungsrelation auf die Schnitte in Q, d.h. auf die reellen Zahlen, hat die Eigenschaft, dass jede nichtleere nach oben beschränkt Teilmenge reeller Zahlen eine bezüglich R kleinste obere Schranke (Supremum) in R besitzt (Vollständigkeit der Ord- nungsrelation). Diese Eigenschaft sieht man wie folgt: Es sei B R nichtleer und nach oben beschränkt, etwa durch R . Dann gilt für jedes B : R bzw. definitionsgemäß . Es sei b . Offensichtlich ist b und B b und b Q . Die Menge b erfüllt also Bedingung (i) in der Definition eines Schnitts. Bedingung (ii) wird auch erfüllt: Sei r b , d.h. r für ein B . Da für Bedingung (ii) gilt, ist q q Q und q r eine echte Teilmenge von und damit von b. Die reelle Zahl b ist eine obere Schranke für B: Denn ist eine weitere obere Schranke für B und x b , dann gibt es ein B mit x . Wegen gilt x . Damit ist b , d.h. 40 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte mit b ist eine kleinste obere Schranke von B gefunden, die selbst wieder ein Schnitt, d.h. eine reelle Zahl ist. Damit hat der Schnitt q q Q mit q 0 q q Q mit q 0 und q 2 2 obere Schranke, die allerdings nicht in Q liegt, nämlich die als eine kleinste 2 bezeichnete reelle Zahl. Entsprechend lässt sich zeigen, dass jede nichtleere nach unten beschränkt Teilmenge reeller Zahlen eine bezüglich R größte untere Schranke (Infimum) in R besitzt. Statt R wird im Folgenden geschrieben. Die Operationen der Addition und der Multiplikation lassen sich von Q auf die Menge der Schnitte, d.h. R, fortsetzen, so dass insgesamt R, R , R , 0R , 1R zu einem vollständig angeordneten Körper wird (einige Details des Nachweises dieser Behauptung werden hier aus Platzgründen nicht dargestellt): Die Addition R zweier reeller Zahlen (Schnitte) und wird definiert durch R x y x und y . Mit x y ist hier die Addition in Q gemeint. Es lässt sich zeigen, dass hierdurch wieder ein Schnitt definiert wird, d.h. dass die obigen Bedingungen (i) und (ii) erfüllt sind. Außerdem bildet R, R , 0R eine kommutative Gruppe mit neutralem Element (der Addition) 0R x x Q und x 0 . Dass 0 R das neutrale Element der Addition ist, d.h. dass für jedes R die Gleichung R 0R gilt, sieht man wie folgt: Ist x R 0R , dann hat x die Form x a s mit a und s 0 . Insbesondere ist x a s a , und mit (i’) folgt x . Ist umgekehrt x , so ist wegen (ii) die Menge q q Q und q x eine echte Teilmenge von . Das bedeutet die Existenz eines Elements x1 mit x1 x . Es ist x x1 0 , d.h. x x1 0R , und x1 x x1 R 0R , d.h. x R 0R . Das additiv inverse Element zu R ist p p Q und es gibt r Q mit r 0 und p r . Es gilt nämlich R 0R : Es sei x R , also x a p mit a und p . Zu p gibt es ein r Q mit r 0 und p r . Wäre a p 0 , so ist a p und mit (i’) p . Wegen p r p ergibt sich der Widerspruch p r . Daher gilt a p 0 , d.h. x 0R . 41 1.4 Algebraische Grundstrukturen und Zahlensysteme Es sei umgekehrt x 0R , d.h. x 0 . Wegen (i) existiert ein y Q mit y , und es existiert zy x gilt y m x z ; man beachte, dass x 0 ist und sich dadurch die Ungleichung „umdreht“; ein z . Die Menge M m m N und y m x ist nicht leer (denn für m mit (i’) folgt y m x ). Folglich hat M als Menge aus natürlichen Zahlen ein kleinstes Element n0 M . Dann gilt y n0 x und y n0 1 x . Ist x0 y n0 1 x nicht das kleinste Element in Q \ , dann gibt es r 0 mit x0 r . Das bedeutet x0 . Der Wert x0 x y n0 1 x x y n0 x liegt in und damit x0 x x0 x in R . Ist y n0 1 x das kleinste Element in Q \ , so setzt man y y x 2 . Da x 0 gilt, ist y y . Außerdem ist y n0 x und y n0 1 x , und y n0 1 x ist nicht kleinstes Element in Q \ . Wie oben zeigt man x R . Die Multiplikation auf R wird folgendermaßen definiert: p Q und es gibt r mit r 0 Für 0R und 0R ist R p ; mit r s und es gibt s mit s 0 und p r s ist hier die Multiplikation in Q gemeint. Diese Multiplikation wird auf ganz R fortgesetzt durch R 0R 0R R 0R und R für 0R und 0R R R für 0R und 0R für 0 und 0 . R R R Auch hier lässt sich zeigen, dass R wieder ein Schnitt, d.h. eine reelle Zahl ist. Das neutrale Element der Multiplikation ist 1R x x Q und x 1 . Exemplarisch wird hier R 1R für 0R gezeigt: Nach Definition ist 0R 1R . Ist x R 1R , dann gibt es r mit r 0 und s 0 mit s 1 und x r s r . Mit (i’) folgt x . Es sei umgekehrt x . Ist x 0 , so ist wegen (ii) die Menge q q Q und q x eine echte Teilmenge von . Das bedeutet die Existenz eines Elements x1 mit x1 x 0 . Für r x x1 ist 0 r 1 , insbesondere r 1R , und x x1 r , also x R 1R . Ist x 0 , so gibt es wegen 0R ein x mit x 0 (man beachte, dass hier auch (ii) verwendet wurde). Hiermit folgt x R 1R . Nach (ii) ist q q Q und q x R 1R x q q Q und q x ebenfalls x R 1R . Zu 0R invers bezüglich der Multiplikation ist der Schnitt und wegen 42 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte 1 1 p p Q und p 0 oder p Q und p 0 und , der mit oder mit 1 bezeichp net wird. 1 . Zu 0R invers bezüglich der Multiplikation ist 1 Dazu soll exemplarisch für 0R die Gleichung R 1 1R gezeigt werden: Nach Definition ist 0R 1 . Es sei x R 1 . Dann gibt es a mit a 0 und es gibt p 0 mit Für x 0 ist x 1R . Ist x 0 , dann ist p 1 und x a p . p 1 1 1 ; denn wäre p , so wäre a und damit a a p 1 1 . Damit ergibt sich x a p a 1 , also x 1R . p a Sei umgekehrt x 1R , d.h. x 1 . Es wird der Fall x 1 mit 0 1 betrachtet. Für ein derartiges x wird x R 1 gezeigt (ist x 1R mit x 1 , so ist wegen (ii) dann ebenfalls x R 1 ): Da ist, gibt es a , und man kann wegen 0R mit (ii) annehmen, dass 0 a gilt. Es wird b a 1 0 gesetzt. Wegen b a ist b . Da beschränkt ist, gibt es ei2 n0 1 b . Es sei n0 b , also r . Außerdem ist 1 1 n 1 b 2 1 1 b a im Wider2 1 n0 1 (denn andernfalls wäre 0 1 1 n 1 b ). Damit ergibt sich b r 2 . Mit dieser Abschätzung folgt spruch zu 0 1 1 1 n0 1 b r b r 1 2 r 1 2 r . Man sieht, dass r , also 1 1 1 1 1 1 ne kleinste natürliche Zahl n0 mit r 1 1 1 und x R 1 . ist. Damit ist x r r r Hiermit ist R \ 0R , R , 1R eine kommutative Gruppe. Bezüglich Addition R und Multiplikation R gelten die Distributivgesetze, so dass R, R , R , 0R , 1R ein Körper ist. Mit der Ordnungsrelation R bzw. wird R, R , R zu 1.4 Algebraische Grundstrukturen und Zahlensysteme 43 einem vollständig angeordneten Körper. Es lässt sich zeigen, dass er strukturell der einzige angeordnete Körper ist. Elemente R mit R 0R heißen negative reelle Zahlen, Elemente R mit 0R R positive reelle Zahlen. Zur Vereinfachung wird für den Körper der reellen Zahlen im Folgenden wieder R, , , 0, 1 geschrieben, und es wird mit reellen Zahlen so gerechnet, wie man es aus der Schule gewohnt ist. Die Menge R \ Q wird als die Menge der irrationalen Zahlen bezeichnet. Eine irrationale Zahl heißt algebraische Zahl, wenn sie Lösung einer Gleichung der Form an x n an 1 x n 1 ... a1 x a0 0 ist, wobei n 1 , ai Z für i 1, ..., n und an 0 gelten. Beispielsweise ist 2 als Lösung der Gleichung x 2 2 0 eine algebraische Zahl. Eine irrationale Zahl, die nicht algebraisch ist, heißt transzendente Zahl. Zu den transzendenten Zahlen gehören und e. Leider sind auch in R, , , 0, 1 noch nicht alle arithmetischen Operationen möglich. So besitzt die Gleichung x 2 1 0 keine Lösung x R . Daher erweitert man den Zahlbereich R (unter Wahrung der arithmetischen Operationen): Die imaginäre Zahl i wird durch die Eigenschaft i 2 1 definiert. Dann ist die Menge der komplexen Zahlen definiert durch C = a b i a R und b R . In der Darstellung einer komplexen Zahl in der Form z a b i dienen die arithmetischen Symbole „+“ bzw. „ “ lediglich als Trennzeichen zwischen den Komponenten a und b i bzw. b und i. Es werden keine arithmetischen Operationen ausgeführt. Für z a b i heißt a der Realteil und b der Imaginärteil von z. Die Menge der reellen Zahlen ist in der Menge der komplexen Zahlen eingebettet: 44 r 0i 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte r R C und r 0 i r R R . Daher schreiben wir R C (obwohl auch diese Aussage mathematisch nicht korrekt ist). Die komplexen Zahlen lassen sich als Punkte in einer Ebene mit rechtwinkligem Koordinatensystem, der komplexen Ebene, darstellen. Dabei wird für eine komplexe Zahl z a bi ihr Realteil a auf der horizontalen Achse abgetragen, ihr Imaginärteil b auf der vertikalen Achse. Die folgende Abbildung zeigt die komplexen Zahlen z a b i , − 1 + 2.i, − 2 − i und 2 – 2.i. 3i -1 + 2i 2i z = a + bi bi i 1 -2 -i a -i 2 -2i Der Betrag z der komplexen Zahl z a b i ist geometrisch durch die Länge der Verbindungslinie des Punkts (0, 0) der komplexen Ebene mit dem Punkt (a, b) definiert: z a b i a 2 b2 . Die arithmetischen Operationen C (Addition) und C (Multiplikation) auf den komplexen Zahlen werden definiert durch (a b i ) C (c d i ) (a c) (b d ) i und (a b i ) C (c d i ) (a c b d ) (a d b c) i . In (a c) (b d ) i bzw. (a c b d ) (a d b c) i bedeuten „ a c “ und „ b d “ bzw. „ a c b d “ und „ a d b c “ arithmetische Operationen in den reellen Zahlen. 1.4 Algebraische Grundstrukturen und Zahlensysteme 45 Das neutrale Element der Addition ist die komplexe Zahl 0 0 i , das neutrale Element der Multiplikation ist 1 0 i . Wie man leicht nachrechnet, ist zu einer komplexen Zahl a b i additiv invers die komplexe a b 2 i : Zahl a b i a b i . Multiplikativ invers ist (a b i ) 1 2 2 a b a b2 b a (a b i ) C (a b i ) 1 (a b i ) C 2 2 i 2 2 a b a b a2 ba b2 a b 2 2 2 i 2 2 2 2 a b a b a b2 a b 1 0 i . Die Division zweier komplexer Zahlen a b i und c d i mit c 0 oder d 0 wird auf die Multiplikation zurückgeführt: (a b i ) / C (c d i ) (a b i ) C (c d i ) 1 d c (a + b i ) C 2 2 i 2 2 c d c d ac bd bc ad 2 2 i . c d2 c d2 Mit diesen Operationen bildet auch C, C , C , 0, 1 einen Körper. Auch hier wird wieder zur Vereinfachung der Schreibweise an den arithmetischen Operationen das Subskript weggelassen. Zu beachten ist, dass die Ordnungsrelation der reellen Zahlen, die R, , , 0, 1 zu einem vollständig angeordneten Körper macht, nicht auf die komplexen Zahlen fortgesetzt wird; denn der Körper C, C , C , 0, 1 lässt sich nicht anordnen: In einem angeordneten Körper K gilt nach Satz 1.4-4 (iii) 0 a a für jedes a K , d.h. Quadrate sind positiv; in C ist nach Definition i 2 0 1 i C 0 1 i 1 0 i , und 1 0 i 1 als Element in R ist negativ. Insgesamt gilt (mathematisch nicht korrekt): N Z Q R C . Die jeweiligen arithmetischen Operationen , , , / und die Ordnungsrelation , soweit sie in den einzelnen Zahlensystemen überhaupt definiert sind, werden für alle Zahlensysteme gleich bezeichnet. 46 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte 1.5 Vollständige Induktion Das vorliegende Kapitel behandelt eine der wichtigsten Beweismethoden, wenn es um Aussagen über natürliche Zahlen oder um Aussagen über Mengen geht, die strukturell äquivalent zu den natürlichen Zahlen sind: die vollständige Induktion. Wegen der großen Bedeutung dieser Methode für die Informatik werden in diesem Kapitel ausnahmsweise die durchgeführten Beweise in den Beispielen explizit angegeben. Es sei A(n) eine Aussage über die natürliche Zahl n N , d.h. die von n abhängt. Es soll gezeigt werden, dass diese Aussage für alle natürlichen Zahlen n n0 gilt. Häufig ist n0 0 ; dann soll A(n) für alle natürlichen Zahlen n bewiesen werden. Nach der Beweismethode der vollständigen Induktion geht man wie folgt vor: 1. Man zeigt die Gültigkeit der Aussage An0 (Induktionsanfang) 2. Man beweist die Gültigkeit der Implikation An An 1 (Induktionsschluss). Aus Axiom 5 der natürlichen Zahlen in Kapitel 1.4 („Eine Menge M natürlicher Zahlen, die die Zahl 0 und mit jeder Zahl n auch ihren Nachfolger n' enthält, ist mit N identisch.“) folgt dann, dass A(n) für alle natürlichen Zahlen gilt. Hier soll nur der Spezialfall n0 0 gezeigt werden. Dazu setzt man M m A(m) gilt für m . Der Induktionsanfang besagt n0 M ; der Induktionsschluss besagt: wenn n M ist, dann ist auch der Nachfolger n M ; Axiom 5 besagt nun gerade, dass M N gilt, d.h. dass A(n) für alle natürlichen Zahlen n gilt2. Die Beweismethode der vollständigen Induktion wird in unterschiedlichen Varianten an einigen Beispielen erläutert: Beispiel: Zu beweisen ist die Aussage 2 Der Fall n0 0 verläuft analog, indem man eine Variante (Folgerung) von Axiom 5 verwendet, nämlich: „Eine Menge M natürlicher Zahlen, die die Zahl n0 N und mit jeder Zahl n auch ihren Nachfolger n' enthält, ist mit n n N und n n0 identisch.“. 47 1.5 Vollständige Induktion Für alle n N gilt: 0 1 2 ... n n n 1 . 2 Induktionsanfang: Die Aussage gilt für n 0 , denn auf der linken Seite des Gleichheitszei0 1 ; beide chens steht nur 0, und auf der rechten Seite des Gleichheitszeichens steht 2 Seiten ergeben denselben Wert. n n 1 . Zu zeigen ist, dass dann die2 se Formel auch für die natürliche Zahl n + 1 gilt. Das lässt sich aber leicht nachrechnen: Auf der linken Seite des Gleichheitszeichens steht Induktionsschluss: Für n N gelte: 0 1 2 ... n 0 1 2 ... n n 1 . Für diese Summe gilt (da die Formel für n als gültig vorausgesetzt wird): 0 1 2 ... n n 1 n n 1 n n 1 2 n 1 n 2 3 n 2 n 1 ; 2 2 2 auf der rechten Seite des Gleichheitszeichens steht n 1 n 2 n 2 3 n 2 ; 2 2 beide Seiten sind gleich, also gilt die Formel auch für die natürliche Zahl n + 1. Beispiel: Zu beweisen ist die Aussage Ist A eine endliche Menge mit n Elementen, dann enthält die Potenzmenge P ( A) 2n viele Elemente (d.h. eine Menge mit n Elementen besitzt 2 n viele Teilmengen). Induktionsanfang: Die Aussage gilt für n 0 , denn wenn A kein Element besitzt, dann ist A ; andererseits ist P () B B , und diese Menge enthält 1 20 viele Elemente. Induktionsschluss: Die Aussage gelte für Mengen A mit n Elementen, d.h. P( A) 2 A 2n . Es sei B eine Menge mit n 1 Elementen. Zu zeigen ist, dass die Anzahl der Teilmengen von B gleich 2 n1 ist: Da B n 1 0 ist, gibt es ein Element b B . Die Teil- 48 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte mengen C von B werden danach klassifiziert, ob sie das Element b enthalten oder nicht. Jede Teilmenge C B , mit b C ist Teilmenge von B \ { b }. Da diese Menge genau n Elemente enthält, gibt es 2 n viele Teilmengen C B mit b C . Jeder Teilmenge C B mit b C entspricht genau eine Teilmenge C B mit b C , nämlich C C \ { b }. Umgekehrt entspricht jeder Teilmenge C B mit b C eine Teilmenge C B mit b C , nämlich C C b . Daher gibt es genauso viele Teilmengen C B mit b C wie Teilmengen C B mit b C , nämlich 2 n viele. Insgesamt ist die Anzahl an Teilmengen von B gleich 2 2n 2 n1 . Beispiel: Beim Spiel der Türme von Hanoi sind drei Stapel mit Bezeichnern A, B und C gegeben. Auf dem Stapel A befinden sich n Scheiben, die übereinander in absteigender Größe liegen; die beiden anderen Stapel sind leer. Die Aufgabe besteht darin, die Scheiben vom Ausgangsstapel A auf einen der anderen Stapel, etwa B, zu bewegen, wobei jeweils die Scheiben nur einzeln bewegt werden dürfen. Der dritte Stapel C kann als Zwischenablage verwendet werden. Dabei ist die Randbedingung, niemals eine größere auf eine kleinere Scheibe zu legen, einzuhalten. Wieviele Scheiben müssen genau bewegt werden? Es bezeichne T (n) die minimale Anzahl an Bewegungen, um n Scheiben von einem Stapel auf einen anderen Stapel unter Zuhilfenahme des dritten Stapels zu bewegen. Offensichtlich ist T (0) 0 , T (1) 1 , T (2) 3 . Folgende Lösungsstrategie führt zum Ziel: Man ignoriere zunächst die größte (unterste) Scheibe auf Stapel A und bringe die oberen n 1 Scheiben vom Stapel A zum Stapel C unter Zuhilfenahme des Stapels B als Zwischenspeicher unter Beachtung obiger Randbedingung. 49 1.5 Vollständige Induktion Anschließend bewege man die auf Stapel A verbliebene größte Scheibe zum Stapel B, er ja jetzt leer ist. Dann bringe man die n 1 Scheiben vom Stapel C zum Stapel B unter Zuhilfenahme des Stapels A als Zwischenspeicher unter Beachtung obiger Randbedingung. Der folgende (Pascal-) Programmausschnitt realisiert diese Startegie: CONST max = ...; TYPE disk_typ = 0 .. max; stab_typ = 1 .. 3; PROCEDURE move (anz: disk_typ; a : stab_typ; b : stab_typ; c : stab_typ); { move bewegt Scheiben, deren Anzahl in anz angegeben wird, vom Stab a zum Stab b, wobei der Stab c als Zwischenspeicher verwendet wird } BEGIN { move } IF anz > 0 THEN BEGIN move (anz - 1, a, c, b); Writeln ('Lege eine Scheibe von ', a, ' nach ', b, '.'); move (anz - 1, c, b, a) END END { move }; Es gilt T (0) 0 und T (n) 2 T (n 1) 1 für n 0 . Man kommt nicht mit weniger Scheibenbewegungen aus; denn um an die größte Scheibe auf dem Ausgangsstapel heranzukommen und diese vom Ausgangsstapel auf einen anderen Stapel zu bewegen, müssen zuvor n 1 kleinere Scheiben auf einem einzigen Stapel liegen. Dann kann die größte Scheibe bewegt werden (mindestens einmal), und dann müssen noch einmal n 1 kleinere Scheiben bewegt werden. Das bedeutet T (n) 2 T (n 1) 1 . Insgesamt gilt T (0) 0 und T (n) 2 T (n 1) 1 für n 0 . Es bleibt die Bestimmung von T (n) in alleiniger Abhängigkeit von n (und nicht von T (n 1) ). Dazu werde einige kleinere Werte für n ausprobiert: T (0) 0 , T (1) 2 T (0) 1 2 0 1 1 , T (2) 2 T (1) 1 2 1 1 3 , 50 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte T (3) 2 T (2) 1 2 3 1 7 , T (4) 2 T (3) 1 2 7 1 15 , T (5) 2 T (4) 1 2 15 1 31 , T (6) 2 T (5) 1 2 31 1 63 . Die Vermutung liegt nahe, dass T (n) 2n 1 für alle n N gilt (für n 0, ..., 6 wurde es explizit ausgerechnet. Für die übrigen n N wird die Vermutung durch vollständige Induktion nachgewiesen: Induktionsanfang: Die Aussage gilt für n 0, ..., 6 (siehe oben). Induktionsschluss: Die Aussage gelte bis n N . Dann ist T (n 1) 2 T (n) 1 (nach Definition von T (n)) 2 2 n 1 1 (Voraussetzung im Induktionsschluss) 2 n1 2 1 2 n1 1. Beispiel: Ein wichtiges Suchverfahren in der Informatik ist die Binärsuche: Gegeben sei ein Feld t[1], ..., t[n] mit ganzzahligen Einträgen (allgemeiner: mit bezüglich einer Ordnungsrelation vergleichbaren Einträgen), die nach aufsteigender Größe sortiert sind, d.h. es gilt t[1] t[2] ... t[ n 1 ] t[n]. Die Aufgabe besteht darin festzustellen, ob ein vorgegebener Wert a unter t[1], ..., t[n] vorkommt und in diesem Fall den Index i zu ermitteln, für den a = t[i] gilt. Anstelle das Feld linear von Anfang bis eventuell zum Ende zu durchsuchen, kann man folgendermaßen vorgehen: Zunächst wird das mittlere Element t[mitte] geprüft (bei einer geraden Anzahl von Elementen ist das mittlere Element das erste Element der zweiten Feldhälfte). Ist es gleich a, so ist der gesuchte Feldindex gefunden, und die Suche ist beendet. Andernfalls liegt a, wenn es überhaupt im Feld vorkommt, im vorderen Feldabschnitt, falls a < t[mitte] ist, oder im hinteren Feldabschnitt, falls a > t[mitte] ist. Die Entscheidung, in welchem Feldabschnitt weiterzusuchen ist, kann jetzt getroffen werden. Gleichzeitig wird durch diese Entscheidung die andere Hälfte aller potentiell auf Übereinstimmung mit a zu überprüfenden Feldelement ausgeschlossen. Im Feldabschnitt, der weiter zu überprüfen ist, wird nach dem gleichen Prinzip (also rekursiv) verfahren. Unter Umständen muss die Suche fortgesetzt werden, bis ein noch zu überprüfender Feldabschnitt nur noch ein Feldelement enthält. 1.5 Vollständige Induktion 51 Eine (Pascal-) Implementierung der Binärsuche lautet wie folgt: CONST n = ...; TYPE Tarray = ARRAY [1..n] OF INTEGER; FUNCTION Binaersuche (t a von bis : : : : Tarray; INTEGER; INTEGER; INTEGER) : INTEGER; VAR mitte : INTEGER; BEGIN { Binaersuche } Binaersuche := -1; IF von < bis THEN BEGIN { der Feldausschnitt t[von] , ... t[bis] enthält mindestens 2 Elemente } mitte := von + ((bis - von + 1) DIV 2); IF a = t[mitte] { } THEN Binaersuche := mitte ELSE BEGIN IF a < t[mitte] { } THEN Binaersuche := Binaersuche (t, a, von, mitte-1) ELSE Binaersuche := Binaersuche (t, a, mitte + 1, bis); END END ELSE BEGIN IF a = t[von] THEN Binaersuche := von; END; END { Binaersuche }; Der Aufruf zum Durchsuchen des Feldes t[1], ..., t[n] nach dem Element a lautet Binaersuche (t, a, 1, n); Der Rechenaufwand der Binärsuche ist proportional zur Anzahl der Vergleiche in der mit gekennzeichneten Zeilen. Zur Vereinfachung der Analyse des Rechenaufwands wird n 2m 1 angenommen (hat n nicht diese Form, dann ergibt sich eine ähnliche Abschätzung). Der Wert n beschreibt die Anzahl der Elemente des zu durchsuchenden Felds. In diesem Fall ist mitte = 1 n 1 1 DIV 2 1 2 m 1 DIV 2 2 m1 , 52 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte d.h. wenn a nicht in der Mitte des Felds vorkommt, enthält das Anfangsstück des Felds t[1], ..., t[mitte - 1] 2 m1 1 viele Elemente bzw. das Endstück t[mitte + 1], ..., t[n] ebenfalls 2 m1 1 viele Elemente; die Suche wird in einem dieser Abschnitte fortgeführt. Mit B(n) wird die Anzahl der Vergleiche des Elements a mit einem Feldelement bezeichnet, wenn das Feld n Elemente enthält. Dann gilt B (n) B 2 m 1 B 2 m1 1 2 , B1 B 21 1 1 . Um diese Ungleichungen nur in Abhängigkeit von n 2m 1 bzw. von m auszudrücken, werden einige Werte für m ausprobiert: B1 B 21 1 1 , B3 B 2 2 1 B 21 1 2 3 , B7 B 23 1 B 2 2 1 2 3 2 5 , B15 B2 4 1 B 23 1 2 5 2 7 , B31 B25 1 B 2 4 1 2 7 2 9 , B63 B 26 1 B 25 1 2 9 2 11 . Die Vermutung liegt nahe, dass folgende Gesetzmäßigkeit gilt: B 2 m 1 2 m 1 für jedes m N mit m 1 . Diese Gesetzmäßigkeit wird durch vollständige Induktion bezogen auf m („über m“) bewiesen: Induktionsanfang: Die Aussage gilt für m 1, ..., 6 (siehe oben). Induktionsschluss: Die Aussage gelte bis zur natürlichen Zahl m N . Dann ist B (2 m1 1) B(2m 1) 2 2 m 1 2 2 m 1 1. (aus dem Algorithmus) (Voraussetzung im Induktionsschluss) Dieses Ergebnis zeigt beispielsweise, dass die Binärsuche in einem Feld mit n 2.147.483.647 231 1 Elementen maximal nur 61 Feldelementvergleiche benötigt. Weitere Beispiele für Beweise durch vollständige Induktion finden sich in den folgenden Kapiteln. 1.6 Endliche Summen 53 Die Methode der vollständigen Induktion erfordert die sorgfältige Formulierung der zu beweisenden Aussage A(n) . Dabei muss man die zu beweisende Aussage bereits kennen (raten) und sie dann mit Hilfe des Induktionsanfangs und des Induktionsschlusses beweisen (verifizieren). Folgende Hinweise sollten beachtet werden: 1. Der Induktionsanfang ist wichtig. Fehlt er, kann der Beweis fehlschlagen. 2. Im Induktionschluss lautet die Annahme „Es gelte A(n) “, d.h. die Gültigkeit von A(n) wird nur für ein n N angenommen und nicht für alle n N . 3. Bei der Durchführung des Induktionsschlusses muss die Annahme der Gültigkeit von A(n) auch verwendet, d.h. in die Argumentation eingebaut werden. 1.6 Endliche Summen Häufig hat man es mit Summen mit einer endlichen Anzahl von Summanden zu tun, die alle jeweils nach einem ähnlichen Schema aufgebaut sind, etwa S a1 a 2 a 3 ... a n 1 a n . n Für diese Summe schreibt man abkürzend S a i . i 1 In die „Formel“ ai wird nacheinander i = 1, i = 2, ... , i = n 1 und i = n eingesetzt, und die so erhaltenen Summanden werden aufsummiert. Die Berechnung von S könnte also in einer Programmiersprache wie folgt formuliert werden (Pascal-Pseudocode): S := 0; FOR i := 1 TO n DO S := S + ai; bzw. 54 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte S := 0; i := 1; WHILE i <= n DO BEGIN S := S + ai; i := i + 1; END; Beispiel: Es sei ai 3i 2 1 . Dann ist 4 4 i 1 i 1 ai (3i 2 1) (3 12 1) (3 2 2 1) (3 3 2 1) (3 4 2 1) 4 13 28 49 94. Häufig beginnt eine Summe nicht mit dem kleinsten Index i = 1, sondern mit einer anderen ganzen Zahl (auch negative Zahlen sind zugelassen), so dass man es allgemein mit einer endn lichen Summe der Form S a i zu tun hat. Hierin heißt i der Summationsindex, die Zahl k i k die Summationsuntergrenze und die Zahl n die Summationsobergrenze. n Die Summe S a i enthält n k 1 viele Summanden. i k n In der Darstellung der Summe S a i wird deutlich, wie die einzelnen Summanden aufgei k baut sind, nämlich gemäß einer Formel a i a(i ) . Die Summe S ist nicht nur von den einzelnen Summanden, sondern auch von der Summationsuntergrenze und –obergrenze abhängig, n d.h. S S ( k , n ) . Die Darstellung S ( k , n ) ai zeigt nicht den Wert der Summe in Abhäni k gigkeit von der Summationsuntergrenze k und der Summationsobergrenze n. Eine Aufgabe besteht daher in der Berechnung des Werts der Summe in Abhängigkeit von den Summationsgrenzen (Berechnung der Summe S(k, n) in geschlossener Form). Beispiel: n Die Summe S(1, n) (3i 2 1) hat den Wert S(1, n) i 1 sich S(1, 4) = 94. n(2 (2n 1)(n 1)) . Bei n = 4 ergibt 2 55 1.6 Endliche Summen Eine endliche Summe lässt sich in Teilsummen zerlegen, die ihrerseits wieder mit jeweils einem Summenzeichen zusammengefasst werden können, z.B. a1 a 2 ... + a k 1 a k a k 1 a k 2 ... + a j 1 a j a j 1 a j 2 ... + a n 1 a n j a1 a 2 ... + a k 1 a i a j 1 a j 2 ... + a n 1 a n i k k 1 j n ai ai ai . i 1 i k i j 1 Die Bezeichnung i des Summationsindex kann beliebig geändert werden: n Anstelle von a i schreibt man auch i k a i n n i k k ai a . . k i n Ist I eine beliebige Menge (Indexmenge), so ist a i die Summe, die man dadurch enthält, i I dass man nacheinander ai für jedes i I bildet und die einzelnen Summanden aufaddiert. Auf die Reihenfolge, in der man die einzelnen Indizes i I betrachtet, kommt es nicht an. Beispiel: Die Summe der Quadrate aller geraden Zahlen zwischen 4 und 12 ist i 4 2 6 2 8 2 10 2 12 2 2 i 4 , 6 , 8,10 ,12 = (2 2) 2 (2 3) 2 (2 4) 2 (2 5) 2 (2 6) 2 6 = ( 2i ) 2 i =2 6 4i 2 4 2 2 4 3 2 4 4 2 4 5 2 4 6 2 i2 6 = 4 i 2 360. i =2 Aus der Darstellung der Summenberechnung mit Hilfe des oben angegebenen PascalPseudocodes sieht man, dass die Summe über eine leere Anzahl von Summanden gleich 0 ist: a i 0 und i n a i k i 0 für k > n. 56 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Der folgende Satz fasst einfache Rechenregeln mit endlichen Summen zusammen. Satz 1.6-1: (i) Ist c eine Konstante, die vom Summationsindex nicht abhängt, so ist ( c a ) c a i i I (ii) (a i I i . i I i bi ) a i bi . iI iI (iii) Ist c eine Konstante, die vom Summationsindex nicht abhängt, so ist n n i 1 i k c n c und c ( n k 1) c . (iv) Es sei k N mit 1 k n . Dann ist n n k 1 i 1 i k ai (v) a i k 1 (Indexverschiebung). n m ai b j a1 ... an b1 ... bm i 1 j 1 = a1 b1 ... bm ... an b1 ... bm m m = a1 b j ... an b j j 1 j 1 n m = ai b j i 1 j 1 n m = ai b j , i 1 j 1 a i bj ai bj . iI jJ iI , jJ 1.6 Endliche Summen 57 Satz 1.6-2: (i) Die Summe aller natürlichen Zahlen bis zur Zahl n ist gleich n i 1 2 ... (n 1) n i 0 n (n 1) . 2 Die Summe aller geraden natürlichen Zahlen bis zur Zahl n ist gleich i n 2 n 2 1. 0in und i ist gerade Die Summe aller ungeraden natürlichen Zahlen bis zur Zahl n ist gleich 2 n 1 . i 2 0i n und i ist ungerade (ii) Es sei q R eine Konstante. Dann ist n q i 1 q q 2 + q 3 + ... + q n 1 q n i 0 für q 1 n 1 n 1 n 1 q 1 = 1 q für q 1 1 q q 1 n Spezialfall: q = 2: 2 i 1 2 4 ... 2 n 2 n 1 1. i 0 n i q i q 2 q 2 + 3 q 3 + ... + (n 1) q n 1 n q n i 0 n (n 1) 2 = q (n 1) q n 1 n q n 2 (1 q) 2 Spezialfall: q = 2: für q 1 für q 1 n i 2 i (n 1) 2n 1 2 . i 0 ../.. 58 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte n i 2 i 0 (iii) q i q 4 q 2 + 9 q 3 + ... + (n 1) 2 q n 1 n 2 q n n (n 1) 2 n 1 6 = 2 q 1 q (n 1) 2 q n 1 n 2 2 q n 2 2 n 1 q n 3 (1 q )3 n 1 1 1 1 1 1 1 1 1 1 1 i (i 1) 2 6 12 ... n (n 1) 1 n für q 1 für q 1 . i2 n 1 i (i 1) 2 6 12 ... n (n 1) 1 n 1 . i 1 (iv) n i 2 1 4 9 ... (n 1) 2 n 2 i 0 n (n 1) (2 n 1) . 6 Für die Herleitung der einzelnen Aussagen werden teilweise Beweistechniken eingesetzt, die auch auf andere Formeln übertragbar sind. Diese Beweistechniken sollen exemplarisch erläutert werden. Für die Herleitung der Aussage (i) wird unterschieden, ob n gerade oder ungerade ist. Ist n gerade, etwa n 2 k , dann ist n i 1 2 ... (n 1) n i 0 k i i 0 2 k i i k 1 1 2 ... k k 1 k 2 ... k k . 1. Summe, k Summanden 2. Summe k Summanden Die Summationsreihenfolge wird geändert: Aus der 1. Summe wird der 1. Summand zum letzten Summanden in der 2. Summe addiert. Das Ergebnis ist 2 k 1 . Die Summe des zweiten Summanden in der 1. Summe mit dem vorletzten der 2. Summe lautet 2 k 1 2 2 k 1 . Allgemein ist die Summe des i-ten Summanden in der 1. Summe iletzten Summanden der 2. Summe gleich i 2 k i 1 2 k 1 . Diese Summenbildung kann man sooft vornehmen, wie es Summanden in der 1. Bzw. 2. Summe gibt, nämlich k-mal. n n n n 1 . Daher ist i k 2 k 1 n 1 2 2 i 0 Ist n ungerade, etwa n 2 k 1 , dann ist 1.6 Endliche Summen n i 59 2 k 1 i 0 i i 0 2 k i 2 k 1 i 0 i 2 k 1 2 k 2 k 1 2 k 1 2 n 1 n 2 n 2 n n 1 . 2 i Die Summe der geraden natürlichen Zahlen bis zur Zahl n ergibt sich wie folgt: 0i n und i ist gerade Ist n gerade, etwa n 2 k , dann ist k k j 0 j 0 i 2 j 2 j k k 1 0i n und i ist gerade n n n n 1 1 . 2 2 2 2 Ist n ungerade, etwa n 2 k 1 , dann ist i 0i n und i ist gerade i 0 i n 1 und i ist gerade Die Summe n 1 n 1 n n 1 1 . 2 2 2 2 i der ungeraden natürlichen Zahlen bis zur Zahl n ergibt sich wie folgt: 0i n und i ist ungerade i 0i n und i ist ungerade i i 0i n 0i n und i ist gerade Ist n gerade, so ist n n 1 n n 1 . 2 2 2 n n 1 n n n n 1 n n n n 1 1 . Für gerades n 2 2 2 2 2 2 2 2 n 1 n ist ; damit folgt das Ergebnis. 2 2 Ist n ungerade, so ist n n 1 n n n n 1 n 1 n 1 n 2 2 n 1 n 1 1 1 . Für unge4 2 2 2 2 2 2 2 2 n 1 2 k 2 n 1 2 k 2 rades n, etwa n 2 k 1 , ist k 1 und k 1 . Daher 2 2 2 2 gilt die Formel auch für ungerades n. 60 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte Bei der Herleitung von (ii) für q 1 kann eine spezielle Methode (Pertubationsmethode) eingesetzt werden: n Zur Berechnung von S (n) ai wird die Summe um einen weiteren Summanden an 1 eri 0 n n 1 n i 0 i 1 i 0 gänzt: Dann ist S (n) an 1 ai an 1 a0 ai a0 ai 1 . Dieser Ansatz wird hier gewählt: n S (n) q i , ai q i , a0 q 0 1 , ai 1 q i 1 q q i , i 0 n S (n) q n 1 1 q q i 1 q S (n) . Auflösung nach S (n) liefert das Ergebnis i 0 S (n) n 1 1 q q n 1 1 . 1 q q 1 n Ist S (n) i q i mit q 1 , dann ist ai i q i , a0 0 q 0 0 , ai 1 i 1 q i 1 , i 0 n n n i 0 i 0 i 0 S (n) n 1 q n 1 0 i 1 q i 1 q i q i q q i q S (n) q 1 q n 1 . Diese For1 q mel wird nach S (n) aufgelöst. n Ist S (n) i 2 qi mit q 1 , dann ist ai i 2 q i , a0 0 q 0 0 , ai 1 i 1 q i 1 , 2 i 0 n n n n S (n) n 1 q n 1 0 i 1 q i 1 q i 2 q i 2 q i qi q q i 2 2 i 0 q S ( n) 2 q i 0 i 0 n 1 q (n 1) q n q (1 q) 2 n2 q i 0 n 1 1 q 1 q . Auflösung der Formel nach S (n) ergibt das Ergebnis. Für q 1 wird die Formel (iv), siehe auch unten, genommen. Zur Herleitung der Formel in (iii) wird die Methode der Partialbruchzerlegung eingesetzt. 1 A B Dazu wird der Summand in eine Summe zerlegt, und es werden die Werte i i 1 i i 1 A und B bestimmt: 1 A B A i 1 B i A B i A . Diese Gleichung gilt i i 1 i i 1 i i 1 i i 1 für alle i 2 . Daher ist A B 0 und A 1 , also B 1 . Damit ergibt sich n n 1 1 n 1 1 n 1 1 1 1 n 1 1 . i i 2 i 1 i 2 i i 1 i i 2 i n i 2 i (i 1) i2 i 1 n n 1 1 1 1 . 1 n 1 i 1 i (i 1) i 2 i 1 i n 61 1.7 Elementare Ungleichungen Für (iv) könnte man wieder den Einsatz der Pertubationsmethode versuchen. Mit n S (n) i 2 , ai i 2 , a0 0 , ai 1 i 1 ist 2 i 0 n n n n i 0 i 0 S (n) n 1 i 1 i 2 i 1 S (n) 2 i 1 . 2 2 i 0 2 i 0 Die Auflösung nach S (n) gelingt nicht, da sich dieser Ausdruck auf beiden Seiten aufhebt. Es n bleibt aber bei der Summe der Quadrate (die sich leider aufhebt) die Summe i übrig. Viel- i 0 leicht könnte man die Summe der Kubikzahlen nach dem Ansatz der Pertubationsmethode zu berechnen versuchen und hoffen, dass sich diese Summe dann auch aufhebt und die Summe n der Quadrate übrig bleibt. Man setzt also Q(n) i 3 und berechnet i 0 n n n n n i 0 i 0 i 0 Q(n) n 1 i 1 i 3 3 i 2 3 i 1 i 3 3 i 2 3 i n 1 3 3 i 0 i 0 n Q ( n) 3 i 2 3 i 0 n Diese Gleichung wird nach i 2 n n 1 n 1. 2 aufgelöst. i 0 1.7 Elementare Ungleichungen Der Betrag einer reellen Zahl a R wird definiert durch für a 0 a a a für a 0 . Dann gelten folgende Regeln: Satz 1.7-1: Es seien a R , b R und c R . Dann gilt: (i) a 0 und a a . (ii) a b a b . (iii) a b ba . ../.. 62 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte (iv) ab ac cb (v) ab a b , ab a b . (vi) a b a b . (vii) Für a b 0 ist (Dreiecksungleichung). a b ab . 2 Teil (i) folgt unmittelbar aus der Definition. Teil (ii) sieht man folgendermaßen: Gilt a 0 und b 0 , so ist a b a b a b . Gilt a 0 und b 0 , dann ist a b a b a b a b ; genauso argumentiert man bei a 0 und b 0 . Gilt a 0 und b 0 , dann ist a b a b a b a b . Teil (iii) folgt aus (ii): a b 1 b a 1 b a b a . Für die Verifikation von Teil (iv) werden mehrere Fälle unterschieden und (iii) verwendet: Ist a c b , dann ist a b b a b a b c c a b c c a a c c b . Ist a b c , dann ist a c c a b a c b b a c b a b c b , also a b a c cb a c a c cb . Ist c a b , dann ist b c b c b a a c b a a c a b a c , also a b bc a c cb a c cb cb a c . Für b a wird ähnlich abhängig von der Lage von c relativ zu a und b argumentiert. Setzt man in (iv) c 0 , so erhält man die erste Ungleichung in Teil (v). Die zweite Ungleichung erhält man aus der ersten Ungleichung: a b a b a b a b . In Teil (vi) trifft man wieder Fallunterscheidungen und wendet Teil (v) an: Ist 0 a b oder 0 b a , so ist a b a b . Entsprechend ergibt sich bei a b 0 oder b a 0 : a b a b b a a b . Für b 0 a ist a b a b a b a b a b a b , da a b 0 ist. Aus Symmetriegründen gilt die Behauptung auch für a 0 b . 1.7 Elementare Ungleichungen 63 Teil (vii) folgt aus der binomischen Formel: Aus 0 a b a 2 2 a b b 2 ergibt sich 2 nacheinander 4 a b a 2 2 a b b 2 a b , a b 2 a b 2 , 4 a b ab . 2 Häufig werden Betragsgleichungen in Ungleichungen umgesetzt: Satz 1.7-2: Es seien x R , a R und R mit 0 . Dann gilt: Die Ungleichung x a ist gleichbedeutend mit a x a ; die Ungleichung x a ist gleichbedeutend mit a x a . Die Aussagen verifiziert man durch Unterscheidung aller möglichen Fälle: Ist x a , dann ist bei x a : x a x a , also x a ; x x 2 x a x 2 x a x a a a x a a . Ist umgekehrt a x a , dann ist x a , d.h. x a x a . Die Verifikation im Fall x a verläuft analog. Es seien a R und b R reelle Zahlen mit a b . Die Menge a, b a, b a, b a, b heißt abgeschlossenes Intervall von a bis b, x R und a x b heißt offenes Intervall von a bis b, x R und a x b heißt halboffenes Intervall von a bis b, x R und a x b heißt halboffenes Intervall von a bis b. x x R und a x b x x x Unter einem Intervall wird ein abgeschlossenes oder offenes oder halboffenes Intervall verstanden. Zusätzlich zu den Intervallen mit reellwertigen Begrenzungspunkten werden folgende Intervalle definiert: , a x x R und x a , , a x x R und x a , a, x x R und a x , a, x x R und a x und , R . 64 1 Grundlegende Definitionen, Bezeichnungen und Sachverhalte a b a b Mit Satz 1.7-2 ist dann a, b x x R und x 2 2 a b a b und a, b x x R und x . 2 2 Satz 1.7-3: Die folgenden Aussagen (a) und (b) sind gleichbedeutend: (a) Die Teilmenge I R ist ein Intervall. und (b) Für jedes x0 I und jedes x1 I ist x0 , x1 I . Der Nachweis der Korrektheit dieser Aussage erfolgt in zwei Richtungen: „ a b “: Es werden alle Möglichkeiten für I überprüft. Exemplarisch wird der Fall I a, b gezeigt: Ist x x0 , x1 , dann ist a x0 x x1 b , also x I . „ b a “: Auch hier werden alle Möglichkeiten für I überprüft. Ist beispielsweise I und nach oben und unten beschränkt, dann wird a als die größte untere Schranke von I und b als die kleinste obere Schranke von I gesetzt; beide Werte a und b existieren nach Konstruktion von R. Jetzt wird danach unterschieden, ob a I , a I , b I bzw. b I gilt. Es sei etwa a I und b I ; in den anderen Fällen argumentiert man entsprechend. Für x I gilt a x b , und x b ist wegen b I nicht möglich. Das bedeutet I a, b . Gilt umgekehrt x a, b , dann ist a x b . Wäre für jedes y I y x , dann wäre x obere Schranke von I mit x b im Widerspruch zur Wahl von b. Also gibt es y I mit a x y . Setz man in (b) x0 a und x1 y , so folgt a, y I und damit x I . Das bedeu- tet a, b I . Die Überprüfung der übrigen Fälle für I erfolgt auf ähnliche Weise. 2.1 Allgemeines 2 65 Abbildungen Abbildungen stellen Beziehungen zwischen Mengen A und B her. Sie können als Spezialisierung des Konzepts der Relationen zwischen Mengen definiert werden. 2.1 Allgemeines In Kapitel 1.4 wurden die Begriffe Äquivalenzrelation und der Ordnungsrelation eingeführt. Diese sind Spezialisierungen des allgemeineren Begriffs der Relation: Es seien A und B zwei Mengen. Eine Teilmenge R A B heißt Relation zwischen A und B. Eine Relation besteht also aus Paaren a, b mit a A und b B . Eine Relation R A B heißt linkstotal, wenn es zu jedem a A ein b B mit a, b R gibt. Bei einer linkstotalen Relation R kommen alle Elemente von A als erste Komponenten in den Paaren in R vor. Zu a A kann es auch mehrere b1 B , ..., bm B geben mit a, b1 R , ..., a, bm R . Eine Relation R A B heißt rechtstotal, wenn es zu jedem b B ein a A mit a, b R gibt. Bei einer rechtstotalen Relation R kommen alle Elemente von B als zweite Komponenten in den Paaren in R vor. Das Element a A , das es zu b B mit a, b R gibt, muss auch hier nicht eindeutig bestimmt sein, d.h. es kann zu b B mehrere a1 A , ..., an A geben mit a1 , b R , ..., an , b R . Eine Relation R A B heißt linkseindeutig, wenn gilt: aus a1 , b R und a2 , b R folgt a1 a2 . Bei einer linkseindeutigen Relation gilt dann: Sind a1 , b1 R und a2 , b2 R und gilt a1 a2 , so ist auch b1 b2 . Eine Relation R A B heißt rechteindeutig, wenn gilt: aus a, b1 R und a, b2 R folgt b1 b2 . Bei einer rechtseindeutigen Relation gilt dann: Sind a1 , b1 R und a2 , b2 R und gilt b1 b2 , so ist auch a1 a2 . Eine Relation f A B heißt Abbildung von A nach B, wenn f linkstotal und rechtseindeutig ist. Gleichbedeutend damit ist folgende Formulierung: f A B ist eine Abbildung, wenn es zu jedem a A genau ein b B gibt mit a, b f . 66 2 Abbildungen Da dieses eindeutig bestimmt Element b B „zu a A gehört“, schreibt man anstelle von a, b f auch b f (a) und bezeichnet es als Bild von a unter f. Häufig gibt es eine Rechenvorschrift, nach der zu gegebenem a A das Bild f (a ) zu bestimmen ist, etwa f (a) a 3 3a 2 2 . Dann wird eine Abbildung f von A nach B beschrieben durch A B f : a f ( a ) oder auch in der Form f : A B , f ( a ) ... Die Menge A heißt Definitionsbereich von f, die Menge W ( f ) b | b B, und es gibt a A mit f ( a ) b heißt Wertebereich von f. Es ist W ( f ) B . Anstelle von W ( f ) schreibt man auch f ( A) . Für eine Funktion f : A B ist also der Wertebereich gleich f ( A) b | b B, und es gibt a A mit f ( a ) b. Die Angabe f : A B legt fest, dass einem Element vom (Daten-) Typ, der „charakteristisch“ für A ist, jeweils genau ein Element vom (Daten-) Typ, der „charakteristisch“ für B ist, zugeordnet wird. Beispielsweise könnte die Menge A aus Objekten vom Objekttyp T und die Menge B aus natürlichen Zahlen bestehen. Dann legt die Angabe f : A B fest, dass jedem Objekt vom Objekttyp T in der Menge A durch f eine natürliche Zahl, die beispielsweise als Primärschlüsselwert interpretierbar ist, zugeordnet wird. Die Angabe f ( a ) ... beschreibt, wie diese Zuordnung für jedes Element a A geschieht. Das Bild eines Elements a A unter f ist eindeutig bestimmt, und es gilt f (a ) 1 für jedes a A . Andererseits kann es durchaus Werte a1 und a2 mit a1 a2 und f ( a1 ) f ( a2 ) ge- ben; beispielsweise ist für die durch f ( x ) x 2 für x R definierte Abbildung f (2) f (2) 4 . Die Menge f b a a A und f (a ) b wird als Urbild von b unter f bezeichnet. 1 Eine Abbildung f : A B mit A R und W ( f ) R heißt reelle Funktion einer Veränderlichen. 2.1 Allgemeines 67 Beispiele: R R f : 2 x x R \ {0} g: x R 3 x R [0, [ h: 1 e x x A id A : x A Identität auf A x R R para : Parabel x ax( x 1) R ] 10, [ 2 für 10 x 2 x 3 F: x x x für 2 x 20 2 x 8 für x 20 N N 1 für n 0 f !: n n f ! ( n 1) für n 0 Fakultätsfunktion Die hier aufgeführte Definition der Fakultätsfunktion zeigt die Form einer rekursiven Definition. Rekursive Funktionsdefinitionen werden häufig angewandt, wenn der Definitionsbereich der Funktion die natürlichen Zahlen oder eine Teilmenge der natürlichen Zahlen ist. Für den kleinsten Wert n des Definitionsbereich bzw. für mehrere der kleinsten Werte wird f ( n ) direkt angegeben. Für größere Werte n wird f ( n ) als arithmetischer Ausdruck, der n, eventuell kleinere Werte m und Funktionswerte f (m) mit m n enthält. Die Fakultätsfunktion kann auch nicht-rekursiv definiert werden: N N für n 0 f! : n 1 1 ... (n 1) n für n 0 68 2 Abbildungen Ein weiteres Beispiel einer rekursiven Funktion mit der zugehörigen nicht-rekursiven Definition ist die Fibonnacci-Funktion, die einen nichttrivialen Zusammenhang zwischen beiden Formen der Definition zeigt (siehe Kapitel 5.10): N N für n 0 und n 1 fib : n n fib(n 1) fib(n 2) für n 2 bzw. n n 1 1 5 1 5 fib( n ) für n 0 . 5 2 2 Im Folgenden werden hauptsächlich reelle Funktionen betrachtet. Gelegentlich wird auf die Angabe des Definitionsbereichs einer Abbildung verzichtet; dann wird implizit immer die größte Teilmenge von R genommen, für die die Abbildungsvorschrift definiert ist. Für eine Abbildung f : A B heißt die Menge (a, f (a )) | a A Graph der Abbildung f. Sind f : A B und g: B C zwei Abbildungen, dann heißt die Abbildung h: A C mit h( a) g( f ( a)) die Komposition (Zusammensetzung) der Abbildungen f und g, geschrieben h g f . Es ist W ( g f ) W ( g) C , und i.a. gilt g f f g . Beispiel: R \ {-1} f : x R 1 1 x R \ {-1} g f : x R f g:x R R g: 2 x x R 1 (1 x ) 2 R 1 1 x 2 2.2 Grundlegende Eigenschaften von Abbildungen 2.2 69 Grundlegende Eigenschaften von Abbildungen Eine Abbildung f : A B heißt surjektive Abbildung (Surjektion), wenn sie rechtstotal ist. Die Abbildung f : A B sei surjektiv. Dann ist f ( A) B , d.h. der Wertebereich von f um1 fasst ganz B. Für jedes b B ist also f b 1 , d.h. es gibt mindestens ein a A mit f (a) b (eventuell gibt es mehrere Werte a A , die auf b abgebildet werden). Beispiel: Die Abbildung R R f : 2 x x ist nicht surjektiv, da es zu keiner negativen Zahl y R einen Wert x R gibt mit f ( x ) x 2 y 0 . Durch Einschränkung der Zielmenge kann man jedoch die Surjektivität R R 0 erzwingen. Beispielsweise ist f 0 : surjektiv. 2 x x Eine Abbildung f : A B heißt injektive Abbildung (Injektion), wenn sie linkseindeutig ist. Beispiel: Die Abbildung R R f : 2 x x ist nicht injektiv, da für x1 1 und x2 1 offensichtlich x1 x 2 ist, aber f ( x1 ) f ( 1) ( 1) 2 1 f (1) f ( x 2 ) ist. Die Injektivität kann man durch Einschränkung des Definitionsbereichs erzwingen. BeiR 0 spielsweise ist die Funktion f 1 : x R injektiv. x2 Die Injektivität einer Funktion kann an ihrem Graphen abgelesen werden: Jede Parallele zur x-Achse schneidet den Graphen einer injektiven Funktion in höchstens einem Punkt. 70 2 Abbildungen Eine Abbildung heißt bijektive Abbildung (Bijektion), wenn sie sowohl surjektiv als auch injektiv ist. Die Begriffe bezüglich Relationen und Abbildungen fasst folgende Tabelle zusammen. Typ der Relation linkstotal rechtstotal linkseindeutig rechtseindeutig x x x x x x x x Abbildung Surjektion Injektion x x x x Bijektion Satz 2.2-1: Es sei f : A B eine bijektive Abbildung. Dann gilt: (i) Für jedes b B gibt es genau ein ab A mit b f (ab ) . (ii) Es gibt eine eindeutig bestimmte Abbildung g : B A mit g (b) ab ; außerdem gilt für jedes a A : g f a a und für jedes b B : f g b b . In (i) folgt die Existenz eines Elements ab A mit b f (ab ) aus der Surjektivität von f; die Eindeutigkeit folgt aus der Injektivität. Die Aussage in Satz 2.2-1 (i) kann man so interpretieren, dass es eine Eins-zu-EinsBeziehung zwischen den Elementen der Menge A und der Menge B gibt. Ist f : A B eine bijektive Abbildung, so heißt die gemäß Satz 2.2-1 (ii) existierende Funk1 tion g : B A die Umkehrabbildung von f und wird mit f bezeichnet. Es gilt: 1 1 1 f f id A und f f id B , d.h. f f (a) a und f f (b) b . 1 Beim Graph einer bijektiven Abbildung f : R R vollzieht sich der Übergang zur Umkehr1 funktion f durch Spiegelung an der Winkelhalbierenden (45°-Linie). 2.2 Grundlegende Eigenschaften von Abbildungen 71 Beispiele: Die Abbildung R R F : x ax b ist für festes a R mit a 0 und festem b R bijektiv und hat die Umkehrfunktion R F: y 1 R b . 1 y a a Im allgemeinen ist eine Abbildung der Form R R f : 3 2 x ax bx cx d mit festen rellen Werten a, b, c und d nicht bijektiv. Die Abbildung R R f1 : 2 x x ist weder injektiv noch surjektiv. Jedoch sind die Abbildungen R 0 f2: x R 0 R 0 und f 3 : 2 x x 1 R 0 jeweils bijektiv mit den durch f 2 ( y) y 2 x 1 bzw. f 3 ( y) y definierten Umkehrabbildungen. Häufig wird bereits für eine injektive Abbildung f : A B , die nicht notwendigerweise 1 surjektiv ist, die Umkehrabbildung f definiert, und zwar nur für die Werte b B aus dem 1 Wertebereich von f: f : f ( X ) X . 72 2 Abbildungen Satz 2.2-2: Es seien f : A B und g : B C Abbildungen. Dann gilt: (i) Sind f und g surjektiv, dann ist auch g f surjektiv. (ii) Sind f und g injektiv, dann ist auch g f injektiv. (iii) Sind f und g bijektiv, dann ist auch g f 1 g f 1 bijektiv. In diesem Fall gilt 1 fg. (i) und (ii) und der erste Teil von (iii) werden direkt mit den entsprechenden Definitionen 1 1 nachgeprüft. Für den zweiten Teil von (iii) zeigt man, dass f g die Umkehrabbildung zu g f ist: Dazu seien a A , b B mit b f (a ) und c C mit c g (b) g ( f (a)) . Es gilt 1 1 1 1 f g g ( f (a )) f g g ( f (a)) f f (a) a . 1 Für endliche Mengen A und B kann man die Existenz surjektiver, injektiver und bijektiver Abbildungen zwischen A und B folgendermaßen entscheiden: Satz 2.2-3: Die Mengen A und B seien endliche Mengen mit A n und B m . Dann gilt: (i) Es gibt genau dann eine surjektive Abbildung f : A B , wenn n m ist. (ii) Es gibt genau dann eine injektive Abbildung f : A B , wenn n m ist. (iii) Es gibt genau dann eine bijektive Abbildung f : A B , wenn n m ist. Für (i) sind zwei Beweisrichtungen zu zeigen, nämlich (i1) Wenn es eine surjektive Abbildung f : A B gibt, dann ist A B . (i2) Wenn A B ist, dann kann man eine surjektive Abbildung f : A B definieren. 73 2.2 Grundlegende Eigenschaften von Abbildungen Zu (i1): 1 Es sei b B . Wegen der Surjektivität von f ist f (b) 1 . Da f als Abbildung 1 1 rechtseindeutig ist, gilt für b1 B und b2 B mit b1 b2 : f (b1 ) f (b2 ) . Für 1 jedes b B wählt man einen „Repräsentanten“ ab f (b) . Diese sind paarweise verschieden. Da ab b B A ist, folgt B ab b B 1 1 A . ab Zu (i2): Es sei A a1 , ..., an A B f : a bi i bm und B b1 , ..., bm für i 1, ..., m mit a A n m . Die Abbildung ist surjektiv. für i m 1, ..., n Auch für (ii) sind zwei Beweisrichtungen zu zeigen, nämlich (ii1) Wenn es eine injektive Abbildung f : A B gibt, dann ist A B . (ii2) Wenn A B ist, dann kann man eine injektive Abbildung f : A B definieren. Zu (ii1): Injektivität bedeutet: Sind a1 A und a2 A mit a1 a2 , dann ist f a1 f a2 . Ist A a1 , ..., an Zu (ii2): Es sei und B f a1 , ..., f an , dann ist B B und A A a1 , ..., an und B b1 , ..., bm mit n m . Die Abbildung B B . A B ist injektiv. f : ai bi Bei (iii) folgt aus der Existenz einer bijektiven Abbildung f : A B , dass wegen der Injektivität von f n m und wegen der Surjektivität von f n m ist, also n m gilt. Ist umA B bijektiv. gekehrt n m , so ist die Abbildung f : ai bi Satz 2.2-3 lässt den Schluss zu, dass bei Abbildungen zwischen endlichen Mengen mit derselben Elementanzahl die Begriffe Injektivität, Surjektivität und Bijektivität zusammenfallen : 74 2 Abbildungen Satz 2.2-4: Die Mengen A und B seien endliche Mengen mit derselben Elementanzahl A B . Es sei f : A B eine Abbildung. Dann gilt: Die folgenden drei Aussagen (a), (b) und (c) sind äquivalent: (a) f ist eine injektive Abbildung. (b) f ist eine surjektive Abbildung. (c) f ist eine bijektive Abbildung. Die Äquivalenz von (a) und (b) ergibt sich wie folgt (die Äquivalenz zu (c) ergibt sich dann aus der Definition der Bijektivität): Ist f eine injektive Abbildung, dann ist f ( A) A B . Wegen f A B hat daher jedes b B ein Urbild, d.h. f ist surjektiv. Ist umgekehrt f nicht injektiv, dann gibt es a1 A und a2 A mit a1 a2 und f a1 f a2 . Daher ist f ( A) A B , und f ist nicht surjektiv. Satz 2.2-3 (iii) besagt für endliche Mengen, dass sie genau dann gleichmächtig sind, wenn es zwischen ihnen eine bijektive Abbildung gibt. Dieser Ansatz lässt sich auf unendliche Mengen übertragen: Zwei unendliche Mengen A und B heißen gleichmächtig, wenn es eine bijektive Abbildung f : A B gibt. Wegen der Existenz der bijektiven Umkehrfunktion g zu f ist diese Definition gleichbedeutend mit der Existenz einer bijektiven Abbildung g : B A . Bei unendlichen Mengen A und B tritt die folgende Situation auf, die sich am Beispiel der Vorgängerfunktion pred auf den natürlichen Zahlen verdeutlichen lässt: N N pred : 0 n n 1 . Die Funktion ist für alle natürlichen Zahlen n 1 definiert . Aus Axiom 2 der natürlichen Zahlen (siehe Kapitel 1.4) folgt, dass sie surjektiv ist; zu beachten ist, dass 0 im Definitionsbereich nicht enthalten ist. Axiom 4 besagt, dass sie injektiv ist. Es handelt es sich hierbei also um eine bijektive Abbildung, d.h. die Menge N der natürlichen Zahlen ist gleichmächtig mit 75 2.2 Grundlegende Eigenschaften von Abbildungen der echten Teilmenge N 0 = N \ { 0 }. Dieses Phänomen erlaubt es, die Endlichkeit bzw. Unendlichkeit einer Menge exakt zu definieren: Eine Menge A ist endlich von der Mächtigkeit n, wenn es eine bijektive Abbildung f : 0, ..., n 1 A gibt, d.h. man kann die Elemente in A mit den natürlichen Zahlen 0, ..., n 1 durchnumerieren: A f (0), ..., f (n 1) a0 , ..., an1 . Hierbei ist f (i ) f ( j ) bzw. ai a j für i j . Ist B eine echte Teilmenge von A, dann kann es nach Satz 2.2-3(iii) keine bijektive Abbildung f : B A geben. Diese Eigenschaft unterscheidet eine endliche Menge von einer Menge mit unendlicher Mächtigkeit. Eine Menge A ist von der Mächtigkeit unendlich, wenn es eine bijektive Abbildung f : B A zwischen einer echten Teilmenge B A und A gibt. Eine Menge heißt abzählbar, wenn sie entweder endlich oder gleichmächtig zu den natürlichen Zahlen ist. Eine unendliche Menge, die nicht abzählbar ist, heißt überabzählbar. Satz 2.2-5: (i) Es gibt eine bijektive Abbildung hZ : N Z , und es gibt eine bijektive Abbildung hQ : N Q . Die Mengen N, Z und Q sind daher abzählbar. (ii) Die Menge N der natürlichen Zahlen lässt sich nicht auf die Menge R der reellen Zahlen bijektiv abbilden. Die Menge R ist daher überabzählbar. Für Satz 2.2-5 (i) sind zwei bijektive Abbildungen hZ : N Z und hQ : N Q anzugeben. Die Abbildung hZ : N Z wird definiert durch N Z falls n gerade ist . hZ : n n 2 n 1 2 falls n ungerade ist Einige Werte dieser Abbildung sind n 0 1 2 3 4 5 6 7 8 9 10 11 hZ (n) 0 1 −1 2 −2 3 −3 4 −4 5 −5 6 Die Injektivität von hZ sieht man folgendermaßen: Es seien n1 N und n2 N mit n1 n2 . Ist n1 gerade und n2 ungerade, dann ist hZ n1 0 hZ n2 , insbesondere hZ n1 hZ n2 . Ist 76 2 Abbildungen n1 ungerade und n2 gerade, dann ist hZ n2 0 hZ n1 . Sind n1 und n2 beide gerade, dann ist hZ n1 n1 2 n2 2 hZ n2 . Sind n1 und n2 beide ungerade, dann ist hZ n1 n1 1 2 n2 1 2 hZ n2 . Zum Nachweis der Surjektivität sei z Z . Ist z 0 , dann ist n 2 z in N und 2 z hZ n hZ 2 z z . Ist z 0 , dann ist n 2 z 1 in N und 2 2 z 1 1 z . hZ n hZ 2 z 1 2 Die Abbildung hQ : N Q wird in zwei Schritten konstruiert. Zunächst wird eine bijektive Abbildung f Q : N Q 0 angegeben, die dann zu einer bijektiven Abbildung hQ : N Q erweitert wird: r Die rationalen Zahlen Q 0 r N 0 und t N 0 kann man sich in ein unendliches t Zahlenschema eingetragen denken, das aus Zeilen und Spalten besteht. In der ersten Zeile stehen alle Zahlen 1 1 , 1 2 , 1 3 , 1 4 , ... ; die zweite Zeile enthält 2 1 , 2 2 , 2 3 , 2 4 , ...; die ir in der r-ten Zeile und t-ten Spalt te. Dieses Zahlenschema wird durchnumeriert: 1 1 erhält die Nummer 1 ( 1 1 ist die einzige te Zeile enthält i 1 , i 2 , i 3 , i 4 , ... Dann steht die Zahl r r Q 0 mit r t 2 ). Dann kommen alle Zahlen Q 0 mit r t 3 , nach t t r aufsteigenden Zählern geordnet (das sind 1 2 und 2 1 ). Anschließend kommen alle Q 0 t mit r t 4 , nach aufsteigenden Zählern geordnet (das sind 1 3 , 2 2 und 3 1 ) usw. Die folrationale Zahl gende Tabelle zeigt einige kleine rationale Zahlen mit ihren Nummern. m r t mit r 1 , t 1 und r t m Anzahl Nummern 2 11 1 1 3 12 21 2 2 3 4 13 2 2 31 3 4 5 6 5 14 23 32 41 4 7 8 9 10 6 15 2 4 33 4 2 51 5 11 12 13 14 15 r Q 0 mit r t m , nämlich 1 m 1 , 2 m 2 , t u 3 m 3 , ..., m 1 1 . Vor diesem „Block“ von Zahlen liegen alle Zahlen Q 0 mit v u 1 , v 1 und u v i mit 2 i m 1 . Daher bekommt 1 m 1 die Nummer Es gibt genau m 1 rationale Zahlen 77 2.2 Grundlegende Eigenschaften von Abbildungen m 1 m 2 1 . i 1 1 i 1 m1 m2 i 2 i 1 2 Die Zahl k m k für k 1, ..., m 1 bekommt die Nummer m 1 m 2 k , d.h. die na2 türlichen Zahlen m 1 m 2 1 , m 1 m 2 2 , ..., m 1 m 2 m 1 m 1 m 2 2 2 numerieren die Zahlen 2 r Q 0 mit r t m . t Die Abbildung f Q : N Q 0 wird nun wie folgt definiert: f Q 0 0 . Für n 0 gibt es eine eindeutig bestimmte Zahl m N 0 mit m 1 m 2 n m 1 m . 2 2 m 1 m 2 folgende Zahl der Es gilt nämlich: Für m N 0 mit m 2 ist die nächste auf 2 k 1 k 2 mit k N die Zahl m 1 1 m 1 2 m m 1 . Daher liegt n Form 0 2 2 2 m 1 m 2 und m 1 m . eindeutig zwischen 2 2 m 1 2 3 4 5 6 7 8 9 10 11 12 m 1 m 2 0 0 1 3 6 10 15 21 28 36 45 55 0 1 3 6 10 15 21 28 36 45 55 66 2 m 1 m 2 Für n 17 ist m 7 , für n 21 ist m 7 , für n 22 ist m 8 . Die Anzahl der Werte n mit Es wird r n m 1 m 2 n m 1 m m 1 m 2 2 2 2 beträgt m 1 . und t m r gesetzt. Da m 1 m 2 gerade ist und m 1 m 2 n gilt, ist r N 0 . Außerdem ist 2 m 1 m 2 m 1 m m 1 m 2 m 1 und damit auch t N . r n 0 2 2 2 Es wird f Q n durch r (in dieser ungekürzten Darstellung) t definiert. Die folgende Tabelle zeigt die Ergebnisse f Q n für die m 1 Werte n mit f Q n 78 2 Abbildungen m 1 m 2 n m 1 m : 2 2 n m 1 m 2 1 m 1 m 2 2 ... m 1 m 1 m 1 m r 1 2 ... m2 m 1 t m 1 m2 ... 2 1 f Q n 1 m 1 2 m 2 m 2 2 m 1 1 2 2 Offensichtlich gilt für diese n jeweils f Q n 2 2 r mit 1 r m 1 , 1 t m 1 und r t m . t Die so definierte Abbildung f Q : N Q 0 ist bijektiv: Zum Nachweis der Surjektivität sei q Q 0 . Für q 0 wird n 0 gesetzt; nach Definition ist fQ n fQ 0 0 q . Für q 0 , etwa q r t mit r N , t N , r 0 und t 0 , sei m r t 2 . Es wird n r r t 1 r t 2 r m 1 m 2 gesetzt. Dann ist 2 2 m 1 m 2 n m t m 1 m 2 m 1 m 1 m 2 m m 1 . n N und 2 2 2 2 r Nach Definition von fQ ist f Q n . t Zum Nachweis der Injektivität seien n1 N und n2 N mit n1 n2 . Gilt m 1 m 2 n m m 1 für i 1 , i 2 und m N 0 , dann ist mit 2 2 m 1 m 2 und t m r für i 1 , i 2 : r r und f n r1 r2 f n . ri ni i i 1 2 Q 1 Q 2 2 t1 t2 i m2 1 m2 2 n m2 m2 1 mit m m m1 m1 1 und 1 2 2 2 2 2 2 m 1 mi 2 und t m r für i 1 , i 2 , dann folgt im Fall und setzt man ri ni i i i i 2 r r r1 r2 wegen der ungekürzten Darstellung von fQ : fQ n1 1 2 f Q n2 ; ist r1 r2 , dann t1 t2 Gilt m1 1 m1 2 n 1 ist t1 t2 und fQ n1 fQ n2 . Die gesuchte Bijektion hQ : N Q ergibt sich zu N Q falls n gerade ist f Q n 2 hQ : n f Q n 1 2 falls n ungerade ist . 79 2.2 Grundlegende Eigenschaften von Abbildungen Mit den geraden natürlichen Zahlen werden also die nichtpositiven rationalen Zahlen, mit den ungeraden natürlichen Zahlen die positiven rationalen Zahlen numeriert: n i mit n 2 i i mit n 2 i 1 0 1 2 3 4 5 6 7 8 9 10 11 … 0 1 2 3 4 5 … Numerierung der nichtpositiven rationalen Zahlen mittels fQ n 2 f Q i 1 2 3 4 5 6 … Numerierung der positiven rationalen Zahlen mittels fQ n 1 2 fQ i Für Satz 2.2-5 (ii) wird angenommen, dass es eine bijektive Abbildungen hR : N R gibt. Diese Annahme muss auf einen Widerspruch führen. Da dieses Vorgehen eine „klassische“ Beweismethode auch insbesondere der Theoretischen Informatik ist und auch in die populärwissenschaftliche mathematische Literatur Eingang gefunden hat, soll die Beweisidee hier skizziert werden: Es seien n1 n2 n3 ... diejenigen ni N , für die hR ni R mit 0 hR ni 1 ist. Jedes r R mit 0 r 1 hat eine eindeutige Nummer ni und lautet in Dezimalschreibweise r 0, d ni , 1d ni , 2 d ni , 3 ... mit den Dezimalziffern d ni , j 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 . Dabei ist 1 0,9 ... (siehe Kapitel 5.1). Es wird eine reelle Zahl r mit 0 r 1 durch folgende Vorschrift konstruiert: Die erste Dezimalziffer von r nach dem Komma lautet 9 d n1 , 1 (es wird aus der reellen Zahl mit der Nummer n1 die erste Dezimalziffer nach dem Komma genommen und von 9 abgezogen; dadurch entsteht wieder eine Ziffer zwischen 0 und 9); es ist 9 d n1 , 1 d n1 , 1 . Die zweite Dezimalziffer von r nach dem Komma lautet 9 d n2 , 2 (es wird aus der reellen Zahl mit der Nummer n2 die zweite Dezimalziffer nach dem Komma genommen und von 9 abgezogen); es ist 9 d n2 , 2 d n2 , 2 . Allgemein: die j-te Dezimalziffer von r nach dem Komma lautet 9 d n j , j ; es ist 9 d n j , j d n j , j . Da r eine reelle Zahl mit 0 r 1 ist und hR als bijektiv angenommen wurde, gibt es einen Wert nk N mit hR nk r ( r ist die reelle Zahl mit der Nummer nk ): r 0, d nk , 1d nk , 2 d nk , 3 ... d nk , k ... Die k-te Dezimalziffer von r nach dem Komma ist d nk , k . Nach Konstruktion von r lautet die k-te Dezimalziffer von r nach dem Komma jedoch 9 d nk , k , und es ist 9 d nk , k d nk , k . Daher kann es keinen Wert nk N mit hR nk r geben, und die Annahme der Existenz einer bijektiven Abbildung hR : N R ist falsch. 3 Ausgewählte Themen der elementaren Zahlentheorie In diesem Kapitel werden einige für die Informatik grundlegende und wichtige Themen der elementaren Zahlentheorie behandelt. Neben der Tatsache, dass sie zum mathematischen Basiswissen in jeder Disziplin gehören, haben diese Themen in den letzten Jahren insbesondere in der Kryptologie zunehmende Bedeutung erlangt. 3.1 Primzahlen Es seien a Z und b Z ganze Zahlen mit b 0 . Die Zahl a heißt durch b teilbar (b teilt a), geschrieben b | a , wenn es ein b Z gibt mit a b b . Der folgende Satz führt einige wichtige Teilbarkeitsregeln ganzer Zahlen auf: Satz 3.1-1: (i) Gilt c | b und b | a , so gilt auch c | a . (ii) Gilt b1 | a1 und b2 | a2 , so gilt auch b1b2 | a1a2 . (iii) Gilt b | a1 und b | a2 , so gilt für jedes x Z und für jedes y Z : b | xa1 ya2 . (iv) Gilt b | a und a | b , so ist a b oder a b . Die Teile (i) bis (iii) lassen sich durch Zurückführen auf obige Definition direkt verifizieren. Für (iv) setzt man b | a und a | b voraus, d.h. a b b mit b Z und b a a mit a Z . Dann ist a a a b , also a b 1 und folglich a 1 und b 1 . Bemerkung: Da trivialerweise immer a | a gilt, definiert wegen Satz 3.1-1 (i) und (iv) die durch „ n, m R genau dann, wenn n | m gilt“ definierte Relation eine partielle Ordnungsrelation (siehe Kapitel 1.4) auf NN . 3.1 Primzahlen 81 Eine wichtige Teilmenge der natürlichen Zahlen ist die Menge P der Primzahlen: P= p p N, p 2, und die einzigen Teiler von p sind 1 und p = { 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, ... }. Der folgende Satz zeigt, dass die Primzahlen als Grundbausteine der natürlichen Zahlen und damit des gesamten Zahlensystems angesehen werden können. Satz 3.1-2: Jedes n N mit n 2 lässt sich in ein Produkt aus Primzahlpotenzen zerlegen, d.h. n p1e1 p2e2 ... prer mit Primzahlen p1 , p 2 , ..., p r und natürlichen Zahlen e1 1 , e2 1 , ..., er 1 . Diese Zerlegung ist (bis auf die Reihenfolge der Primzahlpotenzen) eindeutig. Die Zerlegung in Primfaktoren lässt sich leicht durch vollständige Induktion zeigen: Für n 2 ist die Behauptung klar. Sie gelte für n 2 . Ist n 1 Primzahl, dann gilt die Behauptung auch für n 1 . Ist n 1 keine Primzahl, dann besitzt sie einen Teiler a mit 1 a n 1 und einen Teiler b mit 1 b n 1 und n 1 a b . Nach Induktionsvoraussetzung sind a und b Produkte von Primzahlpotenzen und damit auch n 1 . Auch die Eindeutigkeit der Zerlegung (bis auf die Reihenfolge) kann durch vollständige Induktion nachgewiesen werden: Für n 2 ist die Behauptung klar. Sie gelte für alle natürlichen Zahlen m mit 2 m n . Besitzt n 1 zwei unterschiedliche Darstellungen von Primzahlpotenzen, die sich nicht nur in der Reihenfolge der Faktoren unterscheiden, etwa n 1 p1e1 p2e2 ... prer q1e1 q2e2 ... qses , dann ist jedes pi von jedem q j verschieden (denn andernfalls kann man dieselbe Primzahl in beiden Darstellungen weglassen und erhielte eine Zahl m mit 2 m n , die der Induktionsvoraussetzung widerspricht). Insbesondere ist p1 q1 , und man kann p1 q1 annehmen. Es seien a p1e1 1 p2e2 ... prer und b q1e1 1 q2e2 ... qses , d.h. a ergibt sich durch Fortlassen der Primzahl p1 aus n 1 und b durch Fortlassen der Primzahl q1 aus n 1 . Für die Zahl m n 1 p1 b gilt m p1 a b q1 p1 b und 2 m n . Auf die Zahlen m, q1 p1 und b ist die Induktionsvoraussetzung anwendbar, und aus den eindeutigen Zerlegungen in Primzahlpotenzen von q1 p1 und b erhält man durch Multiplikation die eindeutige Zerlegung in Primzahlpotenzen von m. Wegen m p1 a b kommt p1 in der 82 3 Ausgewählte Themen der elementaren Zahlentheorie Zerlegung von m vor und damit auch in den Zerlegungen von q1 p1 oder b. Wegen p1 q j für j 1, ..., s scheidet die zweite Möglichkeit aus. Es folgt p1 | q1 p1 und wegen p1 | p1 der Widerspruch p1 | q1 . Beispielsweise ist 600 = 23 . 3 . 52. Der folgende Satz fasst einige wichtige Eigenschaften von Primzahlen zusammen: Satz 3.1-3: (i) Es gibt unendlich viele Primzahlen. (ii) Es gibt beliebig große Abstände zwischen zwei aufeinanderfolgenden Primzahlen. (iii) Es gibt unendlich viele Paare p, p 2 , die beide Primzahlen sind (Primzahl- zwillinge) (iv) Ist 2 n 1 eine Primzahl, so ist n eine Zweierpotenz. Ist 2 n 1 eine Primzahl, so ist n eine Primzahl. (v) Zum Nachweis der Aussage (i) wird angenommen, dass es nur endlich viele Primzahlen, etwa p1 , ..., pn , gibt. Dann wird m p1 ... pn 1 gesetzt, und es gilt m max p1 , ..., pn . Dann kann aber m nach Annahme keine Primzahl sein. Eine der Primzahlen p1 , ..., pn , etwa pi , muss aber nach Satz 3.1-2 ein Teiler von m sein. Das hätte aber pi | 1 zur Folge, ein Widerspruch zu pi 2 . Für den Nachweis von Aussage (ii) werden n aufeinanderfolgende natürliche Zahlen angegeben, die sämtlich keine Primzahlen sind: n 1!2 , n 1!3 , …, n 1!n 1 . Diese Zahlen sind nacheinander jeweils durch 2, 3, …, n 1 teilbar. Aussage (iii) erfordert weitergehende Betrachtungen aus der Zahlentheorie. Für den Nachweis von (iv) wird angenommen, dass n keine Zweierpotenz ist. Dann hat n einen ungeraden Teiler a, d.h. n a b und a 1 und b 1 . Setzt man in Satz 1.6-2(ii) q 2b und den oberen Laufindex der Summe auf den Wert a 1 , so ergibt sich 2 1 2 2 ... ... 2 a 1 i 0 b i b b 2 b a 1 1 2 1 2 1 2b 1 2b a a b b 1 2n . 1 2b 3.1 Primzahlen 83 Daher teilt 1 2b die Zahl 2n 1 ; diese ist somit keine Primzahl. Der Nachweis von (v) erfolgt auf ähnliche Weise: Ist n keine Primzahl, so hat n die Form n a b mit 1 a n und 1 b n . Es gilt 2 1 2 1 2 2 ... + 2 2 2 1 2 a 0 a b 1 a 1 b 1 a i i 0 a b n a a 1 . 1 Daher ist 2 1 keine Primzahl. n In der Praxis der Kryptographie werden ständig große Primzahlen benötigt (mit einer Stellenzahl von mehr als 150 Dezimalstellen). Dabei sind neben Primzahlen, deren Ziffernfolgen keinen festen Gesetzmäßigkeiten unterliegen, Primzahlen der Form 2 n 1 und 2 n 1 besonders interessant. Diese haben nämlich eine sehr einfache Binärdarstellung ( 2 n 1 1 0 ...0 1 , n1mal 2 n 1 1 ...1 ). Wegen Satz 3.1-3 (iv) kann man die Suche nach sehr großen Primzahlen der n mal Form 2 1 auf diejenigen n beschränken, die die Form n 2 m haben, d.h. auf Zahlen der n m m Form 2 n 1 2 2 1 . Zahlen der Form 2 2 1 heißen Fermat-Zahlen. Beispielsweise sind die Fermat-Zahlen 0 1 2 3 4 2 2 1 3 , 2 2 1 5 , 2 2 1 17 , 2 2 1 257 , 2 2 1 65.537 Primzahlen. Nicht jede Fermat-Zahl ist jedoch eine Primzahl, wie das Beispiel 5 2 2 1 641 6 700 417 zeigt. Man kennt heute 230 Fermat-Zahlen, die nachweislich keine Primzahlen sind. Satz 3.1-1(v) sagt nicht, dass jede Zahl der Form 2 p 1 mit einer Primzahl p selbst Primzahl ist. Die Zahlen der Form 2 p 1 mit einer Primzahl p heißen Mersenne-Zahlen. Nicht jede Mersenne-Zahl ist Primzahl. Beispielsweise sind die Zahlen 2 2 1 3 , 23 1 7 , 25 1 31 , 27 1 127 , 213 1 8191 Primzahlen, nicht aber 211 1 2047 23 89 . Die bisher bekannten größten Primzahlen sind Mersenne-Zahlen. 84 3 Ausgewählte Themen der elementaren Zahlentheorie Rekordprimzahlen nach Jahren (aus Wikipedia) Zahl 217−1 219−1 231−1 59 (2 −1)/179951 2127−1 (2148+1)/17 180·(2127−1)2+1 2521−1 2607−1 21.279−1 22.203−1 22.281−1 23.217−1 24.423−1 29.689−1 29.941−1 211.213−1 219.937−1 221.701−1 223.209−1 244.497−1 286.243−1 2132.049−1 2216.091−1 2216.193−1 2756.839−1 2859.433−1 21.257.787−1 21.398.269−1 22.976.221−1 23.021.377−1 26.972.593−1 213.466.917−1 220.996.011−1 224.036.583−1 225.964.951−1 230.402.457−1 232.582.657−1 243.112.609−1 257.885.161−1 Anzahl der Dezimalziffern 6 6 10 13 39 44 79 157 183 386 664 687 969 1.332 2.917 2.993 3.376 6.002 6.533 6.987 13.395 25.962 39.751 65.050 65.087 227.832 258.716 378.632 420.921 895.932 909.526 2.098.960 4.053.946 6.320.430 7.235.733 7.816.230 9.152.052 9.808.358 12.978.189 17.425.170 Jahr Entdecker (genutzter Computer) 1588 1588 1772 1867 1876 1951 1951 1952 1952 1952 1952 1952 1957 1961 1963 1963 1963 1971 1978 1979 1979 1982 1983 1985 1989 1992 1994 1996 1996 1997 1998 1999 2001 2003 2004 2005 2005 2006 2008 2013 Cataldi Cataldi Euler Landry Lucas Ferrier Miller & Wheeler (EDSAC1) Robinson (SWAC) Robinson (SWAC) Robinson (SWAC) Robinson (SWAC) Robinson (SWAC) Riesel (BESK) Hurwitz (IBM7090) Gillies (ILLIAC 2) Gillies (ILLIAC 2) Gillies (ILLIAC 2) Tuckerman (IBM360/91) Noll & Nickel (CDC Cyber 174) Noll (CDC Cyber 174) Nelson & Slowinski (Cray 1) Slowinski (Cray 1) Slowinski (Cray X-MP) Slowinski (Cray X-MP/24) „Amdahler Sechs“ (Amdahl 1200) Slowinski & Gage (Cray 2) Slowinski & Gage (Cray C90) Slowinski & Gage (Cray T94) Armengaud, Woltman (GIMPS, Pentium 90 MHz) Spence, Woltman (GIMPS, Pentium 100 MHz) Clarkson, Woltman, Kurowski (GIMPS, Pentium 200 MHz) Hajratwala, Woltman, Kurowski (GIMPS, Pentium 350 MHz) Cameron, Woltman, Kurowski (GIMPS, Athlon 800 MHz) Shafer (GIMPS, Pentium 4 2 GHz) Findley (GIMPS, Pentium 4 2,4 GHz) Nowak (GIMPS, Pentium 4 2,4 GHz) Cooper, Boone (GIMPS, Pentium 4 3 GHz) Cooper, Boone (GIMPS, Pentium 4 3 GHz) Smith, Woltman, Kurowski, et al. (GIMPS, Core 2 Duo 2,4 GHz) Cooper, Woltman, Kurowski, et al. (GIMPS) 3.2 Modulare Artihmetik 85 Einer der wichtigsten Sätze der Zahlentheorie beschreibt die Anzahl der Primzahlen unterhalb einer vorgegebenen Grenze x: Es sei ( x ) die Anzahl der Primzahlen, die x sind, d.h. x 1 . pP p x Mit pn werde die n-te Primzahl bezeichnet: p1 2 , p 2 3 , p3 5 , ... Satz 3.1-4: ( x ) ln( x ) 1 , d.h. ( x ) ~ x (für große x). ln( x ) (i) Es gilt lim (ii) x ln( x ) 1 . Für x 67 ist ln( x ) 3 2 ( x) 2 x x (iii) Für n 20 ist n ln(n ) ln(ln(n )) 3 2 p n n ln(n ) ln(ln(n )) 1 . 2 Auf der Grundlage dieser Sätze lässt sich ein sehr effizientes Verfahren zur Erzeugung von (großen) Zahlen angeben, die mit beliebig großer Wahrscheinlichkeit Primzahlen sind. Dabei wird in Kauf genommen, dass das Verfahren eine Zahl eventuell als Primzahl einstuft, die keine Primzahl ist. Die Fehlerwahrscheinlichkeit dieser falschen Entscheidung kann jedoch auf einfache Weise beliebig klein gehalten werden. Man spricht hier von einem probabilistischen Verfahren (nach dem Monte-Carlo-Prinzip). 3.2 Modulare Artihmetik Es sei n N eine natürliche Zahl mit n 1 . Auf den ganzen Zahlen Z wird durch die folgende Festlegung eine Relation definiert: Die Zahlen a Z und b Z heißen kongruent modulo n, geschrieben a b mod n , genau dann, wenn gilt: die Zahl n teilt a b . Anders ausgedrückt: a b mod n gilt genau dann, wenn es ein k Z mit a b k n gibt. Beispielsweise gilt 86 3 Ausgewählte Themen der elementaren Zahlentheorie 21 0 (mod 7) , 22 1 (mod 7) , 23 2 (mod 7) , 24 3 (mod 7) , 25 4 (mod 7) , 26 5 (mod 7) , 27 6 (mod 7) , 28 0 (mod 7) , 28 21 (mod 7) , 29 1 (mod 7) , 29 22 (mod 7) . Satz 3.2-1: Es sei n N eine natürliche Zahl mit n 1 . Die Relation ist eine Äquivalenzrelation auf den ganzen Zahlen Z, d.h. es gilt: (i) a a mod n für jedes a Z (ii) Aus a b mod n folgt b a mod n (iii) Aus a b mod n und b c mod n folgt a c mod n . Durch Anwendung der Definition lassen sich diese Aussagen nachweisen. Für a Z bezeichnet a n b b Z und a b mod n die zu a gehörende Restklasse (mod n). Beispielsweise ist 37 3, 10, 17, 24, 31, ... 4, 11, 18, 25, ... m es gibt k Z mit m k 7 3 . Allgemein ist für a Z an b b Z und a b mod n b es gibt k Z mit b k n a . Da die Relation eine Äquivalenzrelation ist, folgt mit Satz 1.4-2: 3.2 Modulare Artihmetik 87 Satz 3.2-2: Es sei n N eine natürliche Zahl mit n 1 . Dann gilt: (i) Es gilt a b ( mod n ) genau dann, wenn a n bn ist. (ii) Jeweils zwei Restklassen a n und bn sind entweder gleich oder disjunkt. (iii) Es gibt genau n disjunkte Restklassen modulo n, nämlich 0n , 1n , 2n , ..., n 1 n 1n , und es gilt a n Z . a 0 Jede Restklasse a n besteht aus unendlich vielen Elementen, nämlich aus allen Elementen der Form k n a mit k Z . Für ein festes k Z sind (wegen Satz 3.2-2 (i)) die Restklassen a n und k n a n gleich, d.h. jede Zahl der Form k n a a n repräsentiert die Restklasse a n . Man kann daher in jeder Restklasse a n eine Zahl a mit folgenden Eigenschaften (i) und (ii) finden: (i) (ii) 0 a n a a mod n , d.h. an a n . Für positives a Z erhält man dieses Element a beispielsweise dadurch, dass man von a so lange den Wert n abzieht, bis die Bedingung 0 a n erfüllt ist. Für negatives a Z wird der Wert n sukzessive addiert. Dieser kleinste Wert a mit 0 a n ist der Rest bei der ganzzahligen Division von a durch n und wird mit a mod n bezeichnet. Beispielsweise ist wegen 3 45 7 7 7 7 7 7 : 45 mod 7 3 und 457 37 und 5 16 7 7 7 : 16 mod 7 5 und 167 57 . Es gilt also: 0 a mod n n 1 und a mod n n a n . 88 3 Ausgewählte Themen der elementaren Zahlentheorie Für positives a Z ist nach Konstruktion a mod n a a n n ; für negatives a Z ist a mod n a a n n . Beispiele: 21 mod 7 0 , 28 mod 7 0 , 22 mod 7 1 , 29 mod 7 1 , 27 mod 7 6 , 6 mod 7 6 , 1 mod 7 6 . Für zwei Restklassen a n und bn gilt: Sind a1 a n und a 2 a n bzw. b1 bn und b2 bn , dann ist a1 b1 a 2 b2 a b mod n , d.h. a1 b1 n a 2 b2 n a bn . Entsprechend gilt a1 b1 a 2 b2 a b mod n . Daher kann man auf eindeutige Weise arithmetische Operationen n und n auf den Rest- klassen (modulo n) definieren: an n bn a bn und a n n bn a bn . Man nimmt also aus jeder Restklasse a n bzw. bn ein beliebiges Element a1 a n bzw. b1 bn und bildet a1 b1 n a bn . Entsprechendes gilt für die Multiplikation. Insbeson- dere folgt hieraus: Satz 3.2-3: (i) a mod n b mod n a b mod n a n n bn a b mod nn . (ii) a mod n b mod n a b mod n a n n bn a b mod nn . (mod n) , (mod n) , (iii) b a mod n a b mod n (mod n) . Die Teile (i) und (iii) sollen hier formal gezeigt werden (Teil (ii) wird ähnlich wie Teil (i) verifiziert): 3.2 Modulare Artihmetik 89 Da a mod n a mod n ist, gilt a mod n a n . Entsprechend ist b mod n bn . Daher ist an n bn a mod n b mod n n und an n bn a bn a b mod nn , a mod n b mod n n a b mod nn und a mod n b mod n a b mod n insgesamt (mod n) . Nach Definition ist a mod n a k n mit k Z . Dann ist b a mod n a b k b n a b mod n k n mit k Z , d.h. b a mod n a b mod n (mod n) . Beispiele: 37 7 67 3 6 mod 77 27 , 37 7 57 3 5 mod 77 17 , 37 12 412 3 4 mod 1212 012 . 0n , 1n , ..., n 1n bezeichnet. Häufig findet man auch die BenZ 0, 1, ..., n 1 und meint damit die Restklassen modulo n. Zusammen mit Mit Z nZ wird die Menge zeichnung Z den oben definierten arithmetischen Operationen auf Restklassen weist die endliche Menge Z nZ sehr ähnliche Eigenschaften zu der unendlichen Menge Z auf, wie man durch Nachrechnen nachweist: Satz 3.2-4: Z nZ , n , n bildet einen kommutativen Ring mit 1. Das neutrale Element der Addition ist 0n a | a k n mit k Z , das neutrale Element der Multiplikation ist 1n a | a k n 1 mit k Z . Das bezüglich der Addition n inverse Element zur Restklasse a n ist die Restklasse a n a n n a n . Eine Restklasse a n besitzt bezüglich der Multiplikation n genau dann ein inverses Element a n , wenn ggT ( a, n ) 1 ist (zur Definition von ggT (a, n) und zur Bestim1 mung der inversen Restklasse in diesem Fall siehe Kapitel 3.3). 90 3 Ausgewählte Themen der elementaren Zahlentheorie Beispiele: Die Additions- und Multiplikationstabellen von Z 7Z , 7 , 7 07 , 17 , 27 , 37 , 47 , 57 , 67 , 7 , 7 lauten (statt a 7 wird zur Vereinfachung a geschrieben): 7 0 1 2 3 4 5 6 7 1 2 3 4 5 6 0 1 2 3 4 5 0 1 2 3 4 5 1 2 3 4 5 6 2 3 4 5 6 0 3 4 5 6 0 1 4 5 6 0 1 2 5 6 0 1 2 3 6 0 1 2 3 4 1 2 3 4 5 6 1 2 3 4 5 6 2 4 6 1 3 5 3 6 2 5 1 4 4 1 5 2 6 3 5 3 1 6 4 2 6 5 4 3 2 1 6 6 0 1 2 3 4 5 In Z 7Z , 7 , 7 ist das inverse Element bezüglich der Addition zum Element 37 das Ele- ment 37 47 und das inverse Element bezüglich der Multiplikation zum Element 37 das Element 37 57 . 1 Die Additions- und Multiplikationstabellen von Z 12Z , 12 , 12 lauten (statt a 12 wird zur Vereinfachung wieder a geschrieben): 12 0 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11 0 2 3 4 5 6 7 8 9 10 11 0 1 3 4 5 6 7 8 9 10 11 0 1 2 4 5 6 7 8 9 10 11 0 1 2 3 5 6 7 8 9 10 11 0 1 2 3 4 6 7 8 9 10 11 0 1 2 3 4 5 7 8 9 10 11 0 1 2 3 4 5 6 8 9 10 11 0 1 2 3 4 5 6 7 9 10 11 0 1 2 3 4 5 6 7 8 10 11 0 1 2 3 4 5 6 7 8 9 11 0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 3.3 Der Euklidische Algorithmus 12 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11 1 2 2 4 3 6 4 8 5 10 6 0 7 2 8 4 9 6 10 8 11 10 3 6 9 0 3 6 9 0 3 6 9 4 8 0 4 8 0 4 8 0 4 8 5 10 3 8 1 6 11 4 9 2 7 6 0 6 0 6 0 6 0 6 0 6 7 2 9 4 11 6 1 8 3 10 5 8 4 0 8 4 0 8 4 0 8 4 9 6 3 0 9 6 3 0 9 6 3 10 11 8 10 6 9 4 8 2 7 0 6 10 5 8 4 6 3 4 2 2 1 91 In Z 12Z , 12 , 12 hat das Element 312 wegen 312 12 412 3 4 mod 1212 012 kein inverses Element bezüglich der Multiplikation. 3.3 Der Euklidische Algorithmus Es seien a Z und b Z . Besitzt d Z die Eigenschaften d | a und d | b , dann heißt d ge- meinsamer Teiler von a und b. Besitzt jeder gemeinsame Teiler c von a und b die Eigenschaft c | d , dann heißt d größter gemeinsamer Teiler von a und b und wird mit ggT ( a, b) bezeichnet. Zur Bestimmung des größten gemeinsamen Teilers zweier Zahlen a Z und b Z könnte man diese gemäß Satz 3.1-2 in ihre Primfaktoren zerlegen und alle gemeinsamen Primfaktoren in ihrer gemeinsamen Vielfachheit herausziehen. Beispielsweise ist 792 23 32 11 und 84 2 2 3 7 , d.h. ggT (792,84) 22 3 12 . Dieses Verfahren (Schulmethode) ist höchstens für kleine Zahlen praktisch einsetzbar; denn für große Zahlen (in der Praxis mit mehr als 100 Dezimalstellen) stößt man auf Effizienzgrenzen. Als äußerst effizient zur Bestimmung des größten gemeinsamen Teilers zweier ganzer Zahlen hat sich der Euklidische Algorithmus erwiesen (Euklid, um 325 v. Chr.). Dieses Verfahren geht läuft folgendermaßen ab: Für die beiden Zahlen a Z und b Z kann a b angenommen werden. Da es bei der Bestimmung von Teilern nicht auf das Vorzeichen ankommt, kann weiterhin b 0 angenommen werden, so dass insgesamt a b 0 ist. Es werden ganze Zahlen m1 und r1 bestimmt mit a m1 b r1 und 0 r1 b . 92 3 Ausgewählte Themen der elementaren Zahlentheorie Durch die Festlegung 0 r1 b sind m1 und r1 eindeutig bestimmt: r1 a mod b und b . Für r 0 endet das Verfahren hier, und es ist ggT (a, b) b . Ansonsten werden m1 a 1 ganze Zahlen m2 und r2 bestimmt mit b m2 r1 r2 und 0 r2 r1 . Man sieht, dass b die Rolle von a und r1 die Rolle von b übernimmt. Wieder sind durch die Festlegung 0 r2 r1 die Werte m2 und r2 eindeutig bestimmt. Für r2 0 endet das Verfahren hier, und es ist ggT (a, b) r1 (das muss man natürlich mathematisch beweisen). Ansonsten werden ganze Zahlen m3 und r3 bestimmt mit r1 m3 r2 r3 und 0 r3 r2 . Man sieht, dass r1 die Rolle von b und r2 die Rolle von r1 übernimmt. Das Verfahren wird so lange fortgesetzt, bis zum ersten Mal der Rest rn 0 entsteht. Insgesamt lassen sich die einzelnen Schritte wie folgt zusammenfassen: Man bestimmt ganze Zahlen m1 und r1 mit a m1 b r1 und 0 r1 b . Man bestimmt ganze Zahlen m2 und r2 mit b m2 r1 r2 und 0 r2 r1 . Man bestimmt ganze Zahlen m3 und r3 mit r1 m3 r2 r3 und 0 r3 r2 . usw. Man bestimmt ganze Zahlen mn und rn mit rn2 mn rn1 rn und 0 rn rn1 . Fortsetzung des Verfahrens, bis rn1 mn1 rn 0 gilt. Es gilt b r1 r2 ... rn1 rn 0 , d.h. die Reste r1 , r2 , ..., rn werden immer kleiner, so dass das Verfahren abbricht. Liest man das Schema von unten nach oben, so sieht man, dass rn die Zahl rn 1 teilt (letzte Zeile); aus der vorletzten Zeile erkennt man, dass rn dann auch rn 2 teilt usw. Bis zur zweiten Zeile folgt, dass rn die Werte r2 und r1 und damit b teilt. Die 1. Zeile liefert schließlich die Teilbarkeit von a durch rn . Das Lesen des Schemas von oben nach unten zeigt, dass ein gemeinsamer Teiler von a und b alle Werte ri für i 1, ..., n teilt. Daher gilt: 3.3 Der Euklidische Algorithmus 93 Satz 3.3-1: Das beschriebene Verfahren bestimmt den größten gemeinsamen Teiler zweier ganzer Zahlen a Z und b Z mit b 0 , und zwar gilt ggT (a, b) rn , d.h. der größte gemeinsame Teiler von a und b ist der letzte von 0 verschiedene Rest. Die folgende Pascal-Funktion ggT ist eine Implementierung des Verfahrens; sie bestimmt den größten gemeinsamen Teiler der als Parameter übergebenen ganzen Zahlen a und b. Die Anzahl der von ihm ausgeführten arithmetischen Operationen ist proportional zur Länge der Zahlendarstellung von a und b. FUNCTION ggT (a : INTEGER; b : INTEGER) : INTEGER; VAR r s t m : : : : INTEGER; INTEGER; INTEGER; INTEGER; BEGIN { ggT } r := b; s := a; WHILE r <> 0 DO BEGIN { t und s aus der vorherigen Iteration neu besetzen } t := s; s := r; { bilde t = m * s + r } m := t DIV s; r := t - m*s END; { der größte gemeinsame Teiler ist der letzte von 0 verschiedene Rest } ggT := s END { ggT }; 94 3 Ausgewählte Themen der elementaren Zahlentheorie Beispiele: a: 28 b: 15 t = m * 28 15 13 2 = = = = 1 1 6 2 ggT ( 28, a: 198 b: 84 s + * * * * 15 13 2 1 r + + + + 13 2 1 0 15 ) = 1 t = 198 84 30 24 = = = = a: 84 b: 198 m * 2 2 1 4 ggT (198, s + * * * * 84 30 24 6 r + + + + 30 24 6 0 84 ) = 6 t = s + r * 198 + * 84 + * 30 + * 24 + * 6 + 84 30 24 6 0 ggT ( 84, 198 ) = 6 84 198 84 30 24 = = = = = m * 0 2 2 1 4 Das obige Zahlenschema (eine typische Zeile i ist hinzugefügt) a m1 b r1 und 0 r1 b , Zeile 1 b m2 r1 r2 und 0 r2 r1 , Zeile 2 r1 m3 r2 r3 und 0 r3 r2 , Zeile 3 ... ri2 mi ri1 ri und 0 ri ri1 , Zeile i ... rn2 mn rn1 rn und 0 rn rn1 , Zeile n rn1 mn1 rn 0 , Zeile n 1 ggT (a, b) rn Mit r1 a mod b ergibt sich unmittelbar Satz 3.3-2: Für zwei Zahlen a Z und b Z ist ggT (a, b) a für b 0 ggT (b, a mod b) für b 0 . Löst man in dem Zahlenschema die Zeilen i für i 1, ..., n nach ri auf, so lassen sich ganze Zahlen a1 , ..., an und b1 , ..., bn definieren, für die gilt: Zeile 1: r1 a m1 b 1 a m1 b a1 a b1 b mit a1 1 , b1 m1 . 3.3 Der Euklidische Algorithmus Zeile 2: 95 r2 b m2 r1 b m2 a m1 b m2 a 1 m1 m2 b a2 a b2 b mit a2 m2 , b2 1 m1 m2 . Angenommen, in allen Zeilen l 1, ..., i 1 ließe sich der jeweilige Rest rl in der Form rl al a bl b schreiben. Dann geht das auch in Zeile i: Zeile i: ri ri2 mi ri1 ai2 a bi2 b mi ai1 a bi1 b ai2 mi ai1 a bi2 mi bi1 b ai a bi b mit ai ai2 mi ai1 , bi bi2 mi bi1 . Insbesondere Zeile n: ggT (a, b) rn an a bn b . Die Folgen a1 , ..., an und b1 , ..., bn werden also rekursiv definiert durch: a1 1 , a0 0 , ai ai2 mi ai1 für i 1, ..., n b1 0 , b0 1 , bi bi2 mi bi1 für i 1, ..., n . Die Berechnung dieser beiden Folgen kann in den Euklidischen Algorithmus direkt eingebaut werden. Die Pascal-Funktion ggt wird erweitert zur Funktion invers (die Wahl des Prozedurbezeichners ergibt sich aus den anschließenden Bemerkungen zu Satz 3.3-5). 96 3 Ausgewählte Themen der elementaren Zahlentheorie PROCEDURE invers (a : VAR VAR VAR LONGINT; b : LONGINT; a_inv : LONGINT; b_inv : LONGINT; ggt : LONGINT); { die Funktion berechnet zu a und b ganze Zahlen a_inv und b_inv mit a*a_inv + b*b_inv = ggT(a, b) } VAR r s t m a_min_2 a_min_1 b_min_2 b_min_1 store BEGIN r s a_min_2 a_min_1 b_min_2 b_min_1 := := := := := := : : : : : : : : : LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; LONGINT; b; a; 1; 0; 0; 1; WHILE r <> 0 DO BEGIN { t und s aus der vorigen Iteration neu besetzen } t := s; s := r; { bilde t = m * s + r } m := t DIV s; r := t - m*s; store a_min_2 a_min_1 store b_min_2 b_min_1 END; := := := := := := a_min_2; a_min_1; store - m * a_min_1; b_min_2; b_min_1; store - m * b_min_1 { der ggT (a, m) ist der letzte von 0 verschiedene Rest, d. h. der gegenwärtige Wert von s } ggT := s; a_inv := a_min_2; b_inv := b_min_2 END { invers }; 3.3 Der Euklidische Algorithmus 97 Satz 3.3-3: Zu zwei Zahlen a Z und b Z gibt es eindeutig bestimmte Zahlen a Z und b Z mit a a b b ggT ( a, b) . Die Zahlen a und b lassen sich mit der Pascal-Funktion invers, einer Erweiterung des Euklidischen Algorithmus, bestimmen. Der folgende Satz stellt einige wichtige Eigenschaften des ggT zusammen: Satz 3.3-4: (i) Es sei d ggT ( a, b) . Dann gibt es Zahlen a1 Z und b1 Z mit a d a1 und b d b1 und ggT ( a1 , b1 ) 1 . (ii) Es gilt ggT ( a, b) 1 genau dann, wenn es Zahlen x Z und y Z gibt mit a x b y 1. (iii) Es sei ggT ( a, b) 1 . Falls a das Produkt b c teilt, dann teilt a die Zahl c. (iv) Es sei ggT ( a, b) 1 . Falls a die Zahl c teilt und b die Zahl c teilt, dann teilt a b die Zahl c. Nur Teil (ii) bedarf einer kurzen Erläuterung: Ist ggT ( a, b) 1 , so besagt Satz 3.3-3: Es gibt eindeutig bestimmte Zahlen a Z und b Z mit a a b b ggT (a, b) 1 . Gilt umgekehrt a x b y 1 mit x Z und y Z , so teilt ggT (a, b) den Wert 1, daher ist ggT ( a, b) 1 . In vielen Anwendungen spielen lineare Kongruenzen eine wichtige Rolle. Dabei handelt es sich um Gleichungen der Form a x b (mod n ) , wobei a und b vorgegebene ganze Zahlen sind und n 1 eine natürliche Zahl ist. Gesucht wird nach einer ganzzahligen Lösung x. Die folgenden Sätze sagen aus, wann eine lineare Kongruenz lösbar ist. In diesem Fall lassen sich die Lösungen mit Hilfe der angegebenen Prozedur invers, d.h. im wesentlichen mit Hilfe des Euklidischen Algorithmus bestimmen. 98 3 Ausgewählte Themen der elementaren Zahlentheorie Satz 3.3-5: Es sei ggT ( a, n ) 1 . Dann hat die lineare Kongruenz a x b (mod n) eine Lösung. Alle Lösungen sind kongruent modulo n. Man sagt daher, dass die lineare Kongruenz a x b (mod n ) in diesem Fall genau eine Lösung modulo n besitzt. Nach Satz 3.3-3 lassen sich zu a und n mit der Prozedur invers Zahlen a und n finden, für die a a n n ggT ( a, n ) 1 gilt. Die gesuchte Lösung lautet dann x a b mod n . Diese Lösung ist modulo n eindeutig. In Satz 3.2-4 wird behauptet, dass eine Restklasse a n genau dann ein bezüglich der Multiplikation n inverses Element a n besitzt, wenn ggT ( a, n ) 1 gilt. Dazu bestimmt man wie 1 oben die Zahlen a und n mit a a n n ggT ( a, n ) 1 . Wegen a a 1 (mod n) gilt a an an n an 1n . Daher kann man a n1 an a mod nn setzen. Eine Verallgemeinerung von Satz 3.3-5 ist der folgende Satz. Satz 3.3-6: Es sei ggT ( a, n ) d . Dann hat die lineare Kongruenz a x b (mod n ) genau dann Lösungen, wenn d ein Teiler von b ist. Die Aussage des Satzes ergibt sich aus folgenden Überlegungen: Hat die lineare Kongruenz a x b (mod n) eine Lösung x, so gibt es ein l Z mit a x b l n bzw. a x l n b . Daher teilt ggT (a, n) die Zahl b. Ist umgekehrt ggT ( a, n ) d ein Teiler von b, so ist b d b1 . Es werden Zahlen a und n bestimmt, für die a a n n ggT (a, n) d gilt. Dann ist a b1 a b (mod n) . b1 a a b1 n n b1 d b und Ist d ein Teiler von b, so gilt b d b1 mit einer ganzen Zahl b1 . Alle Lösungen der linearen Kongruenz a x b (mod n ) erhält man folgendermaßen: Nach Satz 3.3-4 (i) gibt es Zahlen a1 Z und n1 Z mit a d a1 und n d n1 und ggT ( a1 , n1 ) 1 . Nach Satz 3.3-5 wird die modulo n1 eindeutige Lösung y der linearen Kon- 3.4 Weitere ausgewählte Ergebnisse der elementaren Zahlentheorie 99 gruenz a1 y b1 (mod n1 ) bestimmt. Alle Lösungen (es sind genau d viele) der linearen Kongruenz a x b (mod n ) lauten dann: y, y n1 , y 2 n1 , ..., y d 1 n1 . In der Tat gilt a y i n1 b (mod n) für i 0, ..., d 1 : Nach Konstruktion ist a1 y i n1 a1 y b1 (mod n1 ) . Daher teilt n d n1 den Wert d a1 y i n1 b1 und weiter den Wert d a1 y d b1 . Das bedeutet a y b (mod n) . 3.4 Weitere ausgewählte Ergebnisse der elementaren Zahlentheorie Die Eulersche -Funktion (Phi-Funktion) wird für jede natürliche Zahl n 1 definiert durch die Anzahl der natürlichen Zahlen a zwischen 1 und n (einschließlich) mit ggT ( a, n ) 1 , d.h. ( n) 1. a 1 a n , ggT ( a , n ) 1 Satz 3.4-1: (i) Ist p eine Primzahl, dann ist ( p) p 1 . Gilt umgekehrt (n) n 1 , dann ist n eine Primzahl. (ii) Ist p eine Primzahl, dann ist ( p k ) p k p k 1 . (iii) Für natürliche Zahlen n und m mit ggT ( n, m ) 1 ist n m (n) (m) . (iv) (n) n p teilt n p ist Primzahl 1 1 . p Teil (i) folgt unmittelbar aus der Definition. Für Teil (ii) wird die Menge M 1, 2, 3, ..., p k betrachtet, die p k viele Elemente enthält. Gesucht ist die Anzahl der Zahlen a in M mit ggT (a, p k ) 1 . Es gilt nun: Für die Zahl a ist genau dann ggT (a, p k ) 1 , wenn a ein Vielfaches von p ist. Zur Begründung: Gilt ggT (a, p k ) d 1 , dann teilt d die Zahl p k , hat also die Form d p k mit k 1 , 100 3 Ausgewählte Themen der elementaren Zahlentheorie und a hat die Form a d a p k a . Daher ist a ein Vielfaches von p. Ist umgekehrt a ein Vielfaches von p, etwa a a p , dann ist ggT (a, p k ) ggT (a p, p k ) p 1 . Die Vielfachen von p in M sind 1 p, 2 p, ..., p k 1 1 p, p k 1 p ; das sind p k 1 viele Werte. Daher ist ( p k ) p k p k 1 . Für Teil (iii) kann man folgendermaßen argumentieren: Wegen ggT ( n, m) 1 gibt es nach Satz 3.3-4(ii) eindeutig bestimmte Zahlen n und m mit n n m m 1 . Es wird eine Abbildung f definiert durch Z nZ Z mZ f : xn , y m Z n m Z . y m m x y nm Gilt f x1 n , y1 m f x2 n , y2 m , dann ist y1 m m x1 y1 nm y2 m m x2 y2 nm , d.h. y1 m m x1 y1 y2 m m x2 y2 modn m bzw. y1 y2 m m x2 y2 x1 y1 modn m , also y1 y2 m m x2 y2 x1 y1 t n m für ein t Z . Daher ist y1 y2 0 modm , y1 y2 modm und y1 m y2 m . Mit m m 1 n n folgt weiter f x n , y m y m m x y nm x n n y x nm . Damit ergibt sich (wie mit y1 und y2 ) aus f x1 n , y1 m f x2 n , y2 m : x1 n x2 n . Die Abbildung f ist also injektiv und (da Definitions- und Zielmenge gleichmächtig sind) sogar bijektiv (vgl. Satz 2.2-4). Die Umkehrabbildung zu f lautet Z n m Z f : z nm Z nZ Z mZ z mod nn , z mod mm : Ist nämlich z mod n z t n bzw. z mod m z s m mit t Z bzw. s Z , dann ist f z mod nn , z mod mm z s m m m z t n z s m nm z s m 1 m m m m t nnm z s m n n m m t nnm z nm . Die Anzahl der Restklassenpaare x n , y m Z nZ Z mZ mit ggT ( x, n) 1 und ggT ( y, m) 1 ist (n) (m) . Die Anzahl der Restklassen z nm Z n m Z mit ggT ( z , n m) 1 ist n m . Die Abbildung f bildet jedes Restklassenpaar x n , y m Z nZ Z mZ mit ggT ( x, n) 1 und ggT ( y, m) 1 auf eine Restklasse z nm Z n m Z mit ggT ( z , n m) 1 ab: Es seien x n Z nZ mit ggT ( x, n) 1 und y m Z mZ mit ggT ( y, m) 1 . Dann ist f x n , y m y m m x y nm x n n y x nm . Es sei d ggT y m m x y , n m , also y m m x y d t1 und n m d t2 mit t1 Z 1 und t2 Z . Dann folgt nacheinander 3.4 Weitere ausgewählte Ergebnisse der elementaren Zahlentheorie 101 y m m x y t2 d t1 t2 t1 n m , y m m x y t2 x n n y x t2 t1 n m , y t2 0 mod(m) , x t2 0 mod(n) . Da ggT ( x, n) 1 und ggT ( y, m) 1 gelten, sind x n in Z nZ und y m in Z mZ nach Satz 3.2-4 invertierbar. Daher folgt aus y t2 0 mod(m) (bzw. x t2 0 mod(n) (bzw. xn n t2 n 0n ) : t2 0 mod(m) y m m t2 m 0m ) und aus t2 0 mod(n) .3 Da und ggT ( n, m ) 1 ist, ergibt sich t2 k n m für ein k Z . Damit folgt nacheinander n m d t2 d k n m , d k 1 und d ggT y m m x y , n m 1 . Das bedeutet (n) (m) n m . Es sei umgekehrt z nm Z n m Z mit ggT ( z, n m) 1 . Dann ist z nm in Z n m Z nach znm Z n m Z mit z nm nm znm 1nm , also z z 1 modn m . Damit folgt z z 1 modn und z z 1 modm und weiter z mod n z 1 modn und z mod m z 1 modm . Durch Übergang auf die Restklassen ergibt sich z mod nn n zn 1n und z mod mm m zm 1m . Die Restklasse z mod nn ist also in Z nZ und die Restklasse z mod mm in Z mZ invertierbar. Mit Satz 3.2-4 folgt ggT z mod n , n 1 und ggT z mod m , m 1 . Die Restklasse z nm wird also Satz 3.2-4 invertierbar, d.h. es gibt 1 z mod nn , z mod mm Modul teilerfremd ist. Daher gilt n m (n) (m) . durch f auf ein Restklassenpaar abgebildet, das zum jeweiligen Teil (iv) folgt aus (iii) und Satz 3.1-2: Die Zahl n wird in ihre Primzahlpotenzen zerlegt: n p1e1 p2e2 ... prer . Dann ist (n) p1e p2e ... pre 1 2 r p p p p ... p p p 1 1 p p 1 1 p ... p 1 1 p p1e1 p2e2 ... prer e1 1 e1 1 1 e1 1 n e2 2 1 p teilt n p ist Primzahl e 2 1 2 e2 2 e r 1 r er r 2 er r r 1 1 . p Der folgende Satz (Satz von Euler) ist wichtig für die Korrektheit des Public Key EncryptionVerfahrens RSA: 3 In jedem Ring gilt a 0 a a a a a a a a a a a 0 . Genauso folgt 0 a 0 . Besitzt a in dem Ring ein multiplikativ inverses Element a 1 , dann folgt für jedes Element b des Rings aus a b 0 : 0 a 1 0 a 1 a b a 1 a b 1 b b . 102 3 Ausgewählte Themen der elementaren Zahlentheorie Satz 3.4-2: Es seien a und n natürliche Zahlen mit ggT ( a, n ) 1 . Dann ist a ( n ) 1 (mod n) . Zum Beweisdes Satzes seien a und n natürliche Zahlen mit ggT ( a, n ) 1 . Außerdem sei a1 eine natürliche Zahl mit 0 a1 n und ggT (a1 , n) 1 . Dann gilt auch ggT (a a1 , n) 1 ; denn: Es sei d ggT (a a1 , n) . Es gilt d | a a1 und d | n . Aus Satz 3.3-3 folgt die Existenz zweier ganzer Zahlen a1 und n mit a1 a1 n n 1 . Daher ist a1 a a1 n a n a . Damit folgt d | a . Wegen ggT ( a, n ) 1 ist d 1 . Die Menge M a1 , ..., a ( n ) bestehe aus allen natürlichen Zahlen ai mit 1 ai n und ggT (ai , n) 1 . Für jedes dieser ai gilt ggT (a ai , n) 1 und damit auch ggT (a ai mod n, n) 1 : Es ist nämlich a ai mod n a ai k n für ein k Z ; ist d ein Tei- ler von a ai mod n und von n, dann ist d auch ein Teiler von a ai und damit d 1 . Weiterhin gilt für i j : a ai mod n a a j mod n : Ist nämlich a ai mod n a a j mod n , dann ist a ai a a j mod n , und n teilt das Produkt a ai a j ; wegen ggT ( a, n ) 1 und n ai a j n ist ai a j bzw. i j . Damit ergibt sich M a1 , ..., a ( n ) a a1 mod n , ..., a a ( n ) mod n und a1 ... a ( n ) a a1 mod n ... a a ( n ) mod n . Mit Satz 3.2-3 (iii) folgt a a1 mod n ... a a ( n ) mod n a ( n) a1 mod n ... a ( n) mod n (mod n) . Da ai ai mod n mod n ist, folgt a1 ... a ( n ) a ( n ) a1 ... a ( n ) mod n und a ( n) 1 a1 ... a ( n ) 0 mod n . Wegen ggT (ai , n) 1 ist a ( n ) 1 0 mod n . Der folgende Satz (Satz von Fermat) ist ein Spezialfall von Satz 3.4-2: Satz 3.4-3: (i) Es sei a eine natürliche Zahl und p eine Primzahl mit ggT ( a, p ) 1 . Dann ist a p 1 1 (mod p ) . (ii) Es sei a eine natürliche Zahl und n eine ungerade natürliche Zahl mit ggT ( a, n ) 1 . Gilt nicht a n 1 1 (mod n ) , dann ist n keine Primzahl. 3.5 Anwendung in der Kryptologie 103 Mit Satz 3.3-5 wurde das zu einer Restklasse a n bezüglich der Multiplikation n inverse Element a n bestimmt, falls ggT ( a, n ) 1 gilt. Nach Satz 3.4-2 gilt (bei ggT ( a, n ) 1 ): 1 a a ( n ) 1 a ( n ) 1 (mod n) . Daher ist a n a ( n ) 1 n . Dieses Ergebnis führt (in Erweiterung 1 von Satz 3.3-5) auf Satz 3.4-4: Es sei ggT ( a, n ) 1 . Dann hat die lineare Kongruenz a x b (mod n ) genau eine Lö- sung modulo n, nämlich x b a ( n ) 1 n , d.h. für alle Lösungen x der linearen Kongruenz a x b (mod n ) gilt x b a ( n ) 1 (mod n) . 3.5 Anwendung in der Kryptologie Die folgende Abbildung zeigt das grundlegende Szenario, in dem kryptographische Verfahren zur Datenverschlüsselung und –entschlüsselung eingesetzt werden. Vertrauliche Daten werden von einem Sender A zu einem Empfänger B gesandt. Fragen der korrekten Datenübertragung sollen in diesem Zusammenhang ausgeklammert werden. Es soll lediglich garantiert werden, dass ein unberechtigter Dritter, der die Daten während der Übertragungsphase eventuell mithört, diese inhaltlich nicht interpretieren kann. Dieser „Angreifer“ auf das Übertragungssystem wird als Kryptoanalytiker bezeichnet; seine Tätigkeit heißt Kryptoanalyse. Zum Schutz werden die Daten vor ihrer Übertragung vom Sender verschlüsselt. Die unverschlüsselten Daten werden als Klartext bezeichnet, die verschlüsselten Daten als Schlüsseltext (Chiffretext). Der Schlüsseltext wird zum Empfänger gesendet und dort von diesem entschlüsselt, so dass er wieder den Klartext erhält. Zwischen Sender und Empfänger sind also Absprachen über das verwendete Verschlüsselungs- und Entschlüsselungsverfahren notwendig. 104 3 Ausgewählte Themen der elementaren Zahlentheorie Abbildung: Datenverschlüsselung und -entschlüsselung Die im folgenden beschriebenen Verfahren zur Verschlüsselung und Entschlüsselung von Daten zwischen einem Sender A und einem Empfänger B bestehen formal aus mehreren Teilen: 1. Mit dem Verschlüsselungsalgorithmus E (encryption, Verschlüsselung) verschlüsselt der Sender A Klartexte. Der Verschlüsselungsalgorithmus E hat zwei Eingabeparameter, nämlich einen Klartext x und einen Schlüssel (key) K AB , mit dem alle Klartexte, die von A nach B laufen, verschlüsselt werden. Für eine Kommunikationsbeziehung von A an einen Empfänger C mit C B wird ein Schlüssel K AC K AB , aber derselbe Verschlüsselungsalgorithmus E verwendet. Der aus einem Klartext x entstehende Schlüsseltext ist y E x, K AB . 3.5 Anwendung in der Kryptologie 2. 105 Beim Empfänger B ankommende Schlüsseltexte werden von ihm mit Hilfe des Entschlüsselungsalgorithmus D (decryption, Entschlüsselung) entschlüsselt. Der Entschlüsselungsalgorithmus D hat ebenfalls zwei Eingabeparameter, nämlich einen Schlüsseltext y und einen Schlüssel K̂ AB , mit dem alle Nachrichten, die von A nach B laufen, entschlüsselt werden. Zwischen den Algorithmen E und D und den Schlüsseln K AB und K̂ AB besteht die Beziehung D E x, K AB , Kˆ AB x , d.h. der gesendete Klartext kann aus dem empfangenen Schlüsseltext bei korrekter Verwendung der Verfahren wieder gewonnen werden. Der Sender A muss den vom Empfänger B eingesetzten Schlüssel K̂ AB zum Entschlüsseln eines Schlüsseltextes nicht notwendigerweise kennen. 3. Das Schlüsselpaar K AB , Kˆ AB wird für die Ver- bzw. Entschlüsselung aller Klartexte verwendet, die von A nach B laufen. Für die umgekehrte Kommunikationsrichtung ist eventuell ein anderes Schlüsselpaar erforderlich ebenso für die Kommunikation zwischen anderen Teilnehmern. Einige grundlegende Anforderungen an ein kryptographisches Verfahren sind: (i) Die Berechnung von y E x, K AB aus x und K AB (Verschlüsselung) muss vom Sender auf einfache Weise, d.h. mit geringem algorithmischen Aufwand, durchführbar sein. Außerdem sollte der Schlüsseltext y E x, K AB nicht wesentlich länger als der zugehörige Klartext x sein. Natürlich wird dabei vorausgesetzt, dass der Sender über geeignete Rechenkapazität verfügt. (ii) Die Berechnung von x aus einer empfangenen Nachricht der Form y E x, K AB mit Hilfe von K̂ AB (Entschlüsselung) muss vom Empfänger ebenfalls auf einfache Weise, d.h. mit geringem algorithmischen Aufwand, durchführbar sein. Auch hier wird vorausgesetzt, dass der Empfänger über geeignete Rechenkapazität verfügt. (iii) Ohne Kenntnis des Schlüssels K̂ AB zum Entschlüsseln ist es „unmöglich“, aus y E x, K AB auf den Klartext x zu schließen. Systematisches Probieren aller Werte, die als eventuelle Schlüssel K̂ AB in Frage kommen, ist mit einem derart großen algorithmischen Aufwand verbunden, dass diese experimentelle Suche praktisch nicht durchführbar ist. 106 3 Ausgewählte Themen der elementaren Zahlentheorie (iv) Die Verschlüsselungs- bzw. Entschlüsselungsalgorithmen E bzw. D sollten nicht geheim gehalten werden. Abgesehen davon, dass eine Geheimhaltung wahrscheinlich nur temporär möglich ist, wird durch eine Offenlegung von E und D erreicht, dass die Verfahren mathematisch analysiert und eventuelle Schwachstellen aufgedeckt und behoben werden können. Zusätzlich lässt sich eine korrekte Implementierung der Verfahren verifizieren. Die Angriffe durch einen unbefugten Kryptoanalytiker auf ein Verschlüsselungsverfahren lassen sich in verschiedene Gruppen einteilen: Der Kryptoanalytiker versucht, aus der Kenntnis von y E x, K AB den Klartext x zu erhalten. Man nennt diesen Angriff Cipher-text-only-Attacke. Diese Form der Attacke ist die schwierigste, denn im Normalfall hat man wenig Informationen darüber, welchen Inhalt der Klartext x aufweist. Gleichzeitig ist sie aber auch diejenige, die in der Praxis am häufigsten vorkommt. Ein anderes Ziel eines Kryptoanalytikers bei einer Ciphertext-only-Attacke ist die Ermittlung des Schlüssels K̂ AB zum Entschlüsseln aus der Kenntnis einer oder mehrerer verschlüsselter Nachrichten. Damit können dann spätere verschlüsselte Texte entschlüsselt werden. Der Kryptoanalytiker kennt eine von ihm nicht beeinflußte Auswahl von Klartexten x1 , ..., x n mit den zugehörigen Schlüsseltexten E x1 , K AB , ..., E x n , K AB und versucht daraus, das Schlüsselpaar K AB , Kˆ AB abzuleiten. Man nennt diesen Angriff Known- plaintext-Attacke. Eine derartige Attacke ist häufig dann möglich, wenn sich Nachrichten oder Teile davon wiederholen. Wenn Klartexte beispielsweise immer denselben Briefkopf oder dieselbe Anrede verwenden, sind zumindest Teile eines Klartextes bekannt. Der Kryptoanalytiker kann selbst eine Auswahl von Klartexten x1 , ..., x n vorschlagen und sieht die zugehörigen Schlüsseltexte E x1 , K AB , ..., E x n , K AB . Er wählt die Klar- texte so, dass er daraus eventuell leicht auf das verwendete Schlüsselpaar K AB , Kˆ AB schließen kann. Man nennt diesen Angriff Chosen-plaintext-Attacke. Ein gutes kryptographisches Verfahren muss gegen Chosen-plaintext-Attacke resistent sein. Der Kryptoanalytiker kennt das Verschlüsselungsverfahren E und das Entschlüsselungsverfahren D einschließlich des verwendeten Schlüssels K AB zum Verschlüsseln eines Klartextes (eine typische Situation der Public-Key-Encryption-Verfahren). Er verfügt über viel Zeit und Rechnerleistung, um aus dieser Kenntnis den Schlüssel K̂ AB zu ermitteln. 3.5 Anwendung in der Kryptologie 107 Bei einer Chosen-Plaintext-Attacke kann man versuchen, systematisch alle möglichen Schlüssel K̂ AB auszuprobieren (ein in der Praxis durchaus gängiger Ansatz). Dabei hofft man natürlich, schon nach wenigen Versuchen auf den richtigen Schlüssel zu stoßen. Eine derartige Attacke heißt Brute–Force–Attacke. Man muss sich jedoch darüber im klaren sein, dass die Anzahl auszuprobierender Schlüssel exponentiell wächst. Geht man davon aus, dass der Schlüssel K̂ AB eine Binärzahl der Länge n ist, so gibt es 2 n viele Kandidaten für K̂ AB . Um eine Vorstellung von der Größenordnung dieser Zahl zu bekommen, wird angenommen, dass die Erzeugung und das Ausprobieren eines einzigen Schlüssels nur 10 9 Sekunden benötigt. Dann dauert eine Brute–Force–Attacke bei einer Schlüssellänge von 56 Bits (eine heute nicht mehr als sicher angesehene Schlüssellänge), d.h. das Durchprobieren sämtlicher 2 56 7,20576 1016 verschiedener Schlüssel, insgesamt mehr als 8,34 Tage benötigt. Bei einer Schlüssellänge von 64 Bits braucht man dann bereits etwa 584 Jahre, um alle Schlüssel zu erzeugen. Nimmt man an, dass bei einer Schlüssellänge von 56 Bits alle Schlüssel in nur 1 Sekunde ausprobiert werden können, dann ergeben sich die folgenden Werte: Schlüssellänge n Anzahl an Schlüsseln Aufwand zur Erzeugung aller 2 n Schlüssel 56 Bits 7,20576 1016 1 Sekunde (angenommen) 64 Bits 1,84467 1019 4 Minuten 16 Sekunden 80 Bits 1,20893 10 24 194 Tage 112 Bits 5,19230 10 33 2,285 10 9 Jahre 128 Bits 3,40282 10 38 1,497 1014 Jahre 192 Bits 6,27710 10 57 2,7623 10 33 Jahre 256 Bits 1,15792 10 77 5,0956 10 52 Jahre Nimmt man an, dass die Erzeugung eines Schlüssels in einem Rechner die Zeit t benötigt, so beträgt der Aufwand zur Erzeugung aller Schlüssel der Länge n die Zeit t 2 n . Die minimale Zeit für einen Schaltvorgang in einem Rechner beträgt aus physikalischen Gründen (u.a. weil sich Elektronen mit einer Geschwindigkeit bewegen, die die Lichtgeschwindigkeit nicht überschreitet) mindestens t m 5,6 10 33 Sekunden. Setzt man für t diesen Wert ein, so beträgt die Dauer in einer Brute-Force-Attacke bei einer Schlüssellänge von 128 Bits allein zur Erzeugung aller 2128 Schlüssel immer noch mehr als 22 Tage. Das zeigt, dass eine Brute-ForceAttacke auf die Güte der Verschlüsselung nur unter massiver Parallelisierung sinnvoll ist, indem die Menge aller zu probierender Schlüssel auf eine Vielzahl gleichzeitig agierender Kryptoanalytiker aufgeteilt wird. Bei den symmetrischen Kryptologieverfahren werden für jede Kommunikationsbeziehung zwischen einem Sender A und einem Empfänger B zum Ver- und Entschlüsseln dieselben Schlüssel verwendet, d.h. es gilt K AB Kˆ AB . Der Sender verwendet den Schlüssel, um die 108 3 Ausgewählte Themen der elementaren Zahlentheorie Nachricht zu verschlüsseln und der Empfänger, um diese zu entschlüsseln. Folglich muss sowohl der Sender als auch der Empfänger denselben Schlüssel K AB kennen und gegenüber Dritten, auch anderen Kommunikationsteilnehmern, geheimhalten. Aus diesem Grund bietet sich an, den Schlüssel K AB auch für die Kommunikationsrichtung von B nach A zu verwenden. Es gilt dann K AB Kˆ AB K BA Kˆ BA . Bei den asymmetrischen Kryptologieverfahren werden verschiedene Schlüssel zum Verschlüsseln und Entschlüsseln der Nachrichten verwendet. Eine für die Praxis bedeutende Klasse asymmetrischer Verschlüsselungsverfahren bilden die öffentlichen Verschlüsselungsverfahren (PKE-Verfahren, public key encryption). Zunächst soll das allgemeine Prinzip eines PKE-Verfahrens am Nachrichtenaustausch zwischen einem Sender A und einem Empfänger B und weiteren Teilnehmern C erläutert werden. Jeder Kommunikationsteilnehmer B, der von anderen Kommunikationsteilnehmern verschlüsselte Nachrichten empfangen möchte, stellt einen Schlüssel c B in einem öffentlichen Regis- ter bereit, auf das alle Kommunikationsteilnehmer zugreifen können. Der Schlüssel c B („codieren“) dient allen Kommunikationsteilnehmern zur Verschlüsselung von Nachrichten, die an B gesendet werden. Zusätzlich besitzt jeder Empfänger B einen geheimen Schlüssel d B („decodieren“), mit dem er alle Nachrichten entschlüsselt, die an ihn gesandt wurden. Oben wurde der Schlüssel zum Verschlüsseln einer Nachricht von A nach B mit K AB bezeichnet. Um auszudrücken, dass alle Kommunikationsteilnehmer denselben Schlüssel für Nachrichten an B verwenden, wird er hier c B (anstelle von K AB bzw. K CB ) geschrieben. Entsprechend wird hier nicht die allgemeine Bezeichnung K̂ AB für den Schlüssel zum Entschlüsseln einer Nachricht verwendet, die B von einem Kommunikationsteilnehmer A empfangen hat, sondern d B , da B den Schlüssel d B zum Entschlüsseln aller Nachrichten an ihn, unabhängig vom Absender, verwendet. Das Eintragen des öffentlichen Schlüssels c B in das Register unterliegt keiner Geheimhaltung, da dieser Schlüssel ja sowieso öffentlich ist. Das Problem der Schlüsselverteilung wie bei symmetrischen Verfahren stellt sich hier nicht. Ein Klartext x, der von A nach B verschlüsselt gesandt werden soll, wird von A in den Schlüsseltext y E x, c B transformiert. Eine von B empfangene verschlüsselte Nachricht y wird von B in D y , d B entschlüsselt. Die folgende Abbildung zeigt drei Kommunikationsteilnehmer A, B und C mit den jeweiligen Schlüsseln. 3.5 Anwendung in der Kryptologie 109 Abbildung: Verschlüsselung und Entschlüsselung mit asymmetrischen Verfahren Verschlüsselungs- und Entschlüsselungsverfahren müssen folgende Bedingungen erfüllen: (i) Ein Empfänger B kann eine empfangene verschlüsselte Nachricht mit seinem Schlüssel korrekt entschlüsseln, d.h. D E x, c B , d B x . (ii) Die Verschlüsselung einer Nachricht, d.h. die Berechnung von E x, c B , und die Entschlüsselung einer Nachricht bei Kenntnis des Schlüssels d B , d.h. die Berechnung von D y , d B , sind mit geringem Rechenaufwand durchzuführen. (iii) Aus der Kenntnis eines öffentlichen Schlüssels c B zum Verschlüsseln der Nachrichten an einen Empfänger B kann man „nicht leicht“ auf den bei B geheim gehaltenen Schlüssel d B schließen. Die Forderung, eine Berechnung „nicht leicht“ durchführen zu können, wird mathematisch exakt durch den Begriff „intractable“ umschrieben, der ausdrückt, dass es zur Berechnung (beweisbar) keinen schnell ausführbaren Algorithmus gibt. (iv) Ohne d B zu kennen, kann ein Kryptoanalytiker aus einem Schlüsseltext E x, c B nicht leicht x ermitteln. Die Verschlüsselungsfunktion E ., . stellt eine sogenannte Einweg- 110 3 Ausgewählte Themen der elementaren Zahlentheorie funktion mit Falltür dar. Erst wenn man die geheime Zusatzinformation d B (die Falltürinformation) kennt, kann man die zu E inverse Funktion leicht berechnen. (v) Zur Realisierung eines Unterschriftenprotokolls wird zusätzlich die Vertauschbarkeit der Verschlüsselung und Entschlüssellung gefordert. Neben der in (i) formulierten Bedingung D E x, c B , d B x gilt auch E D y , d B , c B y . In der Literatur sind eine Reihe von PKE-Verfahren veröffentlicht. Ihre Sicherheit ist mit Einschränkungen mathematisch beweisbar und hat sich in der Praxis bewährt; die Einschränkung bezieht sich auf eine bisher unbewiesene mathematische Vermutung bezüglich der Komplexität nichtdeterministischer Rechenverfahren (das sogenannte P-NP-Problem bzw. gewisser zahlentheoretischer Problemstellungen). Zur Beschreibung eines PKA-Verfahrens muss angegeben werden, wie ein Kommunikationsteilnehmer B seinen geheimen Schlüssel d B und seinen öffentlichen Schlüssel c B festlegt, und wie die Verschlüsselungs- bzw. Entschlüsselungsalgorithmen E ., . bzw. D ., . definiert sind. Das bekannteste PKE-Verfahren wird nach seinen Entdeckern Rivest, Shamir und Adleman RSA-Verfahren genannt4. Es bietet bei sorgfältiger Auswahl einiger im Verfahren frei wählbarer Parameter und entsprechender Implementierung eine sehr hohe Sicherheit. Es ist ein rein softwaremäßig implementiertes Verfahren. Dadurch ist seine Verschlüsselungs- bzw. Entschlüsselungsgeschwindigkeit etwa um den Faktor 1.000 langsamer als beispielsweise bei DES (gängiges symmetrisches Verfahren, das hardwaremäßig implementierbar ist). Es erfordert eine besondere Arithmetik natürlicher Zahlen mit sehr großen Stellenzahlen. Daher eignet es sich zur Verschlüsselung langer Nachrichten bzw. zur online-Verschlüsselung nur begrenzt. Ein „Hybrid“-Verfahren, das den Vorteil der Schnelligkeit von Tripel-DES bzw. IDEA beim Verschlüsseln und Entschlüsseln mit der Sicherheit von RSA verbinden, ist das seit 1991 über das Internet als Shareware verbreitete PGP-Verfahren (pretty good privacy), das sich besonders im E-Mail-Bereich bewährt hat. Im folgenden werden einige Details des RSA-Verfahrens beschrieben. Das Verfahren beruht auf mathematischen, insbesondere zahlentheoretischen Grundlagen, Erkenntnissen der Komplexitätstheorie und dem Einsatz sehr großer Zahlen (mehr als 300 Dezimalstellen). Im RSA-Verfahren wird die Modulo-Arithmetik für ganze Zahlen (im folgenden nur natürliche Zahlen, d.h. nicht-negative ganze Zahlen) eingesetzt. Neben Additionen und Multiplikationen wird auch die Exponentiation verwendet. 4 Rivest, M.; Shamir, A.; Adleman, L.: A method for obtaining digital signatures and public-key cryptosystems, Comm. ACM, 21, S.120-126, 1978. 3.5 Anwendung in der Kryptologie 111 Die Festlegung des öffentlichen Schlüssels c B für die Verschlüsselung von Klartexten an einen Empfänger B und des geheimen Schlüssels d B zum Entschlüsseln eines Schlüsseltextes beim Empfänger B verläuft im RSA-Verfahren wie folgt. 1. Es werden zwei verschiedene sehr große Primzahlen p und q ausgewählt, z.B. in der Größenordnung von 150 Dezimalstellen. Dann wird die Zahl n p q gebildet. Die Zahl n hat dann mindestens 300 Dezimalstellen, d.h. etwa 1.000 Binärstellen; in der Praxis wählt man p und q so, dass die Zahl n eine Binärstellenzahl von 1.024 aufweist. Zum Auffinden von Primzahlen in dieser Größenordnung und zum Testen auf Primzahleigenschaft kennt man schnelle Verfahren. 2. Für B wird eine Zufallszahl d maxp, q ausgewählt, die mit n p 1 q 1 keinen gemeinsamen Teiler ausser 1 besitzt. Der Wert d darf nicht zu klein sein, da er Teil des geheim gehalten Schlüssels zum Entschlüsseln ist und daher von einem Kryptoanalytiker nicht durch systematisches Probieren gefunden werden darf. 3. Mit Hilfe der Erweiterung des Euklidischen Algorithmus (Funktion invers) ermittelt man zu d und n zwei Zahlen d und f mit d d n f 1 und setzt e d mod n . Dann ist 0 e (n) und e d k (n) mit einem Wert k Z . Es ist e d d k (n) d 1 f (n) d k (n) 1 f (n) mit f f d k . Insgesamt gilt 0 e (n) , e d f (n) 1 , e d 1 (mod (n)) und e d mod (n) 1 . Außerdem ist nach Satz 3.3-4(ii) ggT e, (n) 1 . 4. Der von B geheim gehaltene Schlüssel zum Entschlüsseln von Nachrichten, die an B gesendet werden, besteht aus der Zahlenfolge d B d , p, q, (n) . Zum Entschlüsseln wird nur d verwendet, es ist jedoch unbedingt erforderlich, die Werte p, q und (n) ebenfalls geheim zu halten, da ein Kryptoanalytiker aus der Kenntnis des öffentlichen Schlüssels (siehe 5.) und aus der Kenntnis eines der Werte p, q oder (n) den geheimen Schlüsselteil d leicht ermitteln kann (siehe unten). Die Zahlenfolge d B d , p, q, (n) stellt die Falltürinformation dar. 5. Der in das öffentliche Register eingetragene Schlüssel zum Verschlüsseln aller Nachrichten an B ist die Zahlenfolge c B e, n . 112 3 Ausgewählte Themen der elementaren Zahlentheorie Die Vorschrift zur Verschlüsselung von Nachrichten an B lautet: Ein eventuell sehr lange Klartext x wird als Binärmuster aufgefasst und in Blöcke xi mit jeweils log 2 ( n ) vielen Stellen aufgeteilt: x x1 x 2 ... x r . Eventuell wird dabei der letzte Teilblock x r mit binären Nullen aufgefüllt. Jeder Teilblock xi kann als Binärzahl interpretiert werden, die einen Wert 0 xi 2 log2 ( n ) n hat. Der Klartext x wird blockweise verschlüsselt; die einzelnen verschlüsselten Klartextblöcke werden dann wieder zu einem Schlüsseltext y zusammengesetzt: Die Verschlüsselung eines Blockes xi lautet y i E xi , c B E xi , e, n xie mod n . Diese Zahl kann wieder als Binärmuster mit log 2 ( n ) vielen Stellen aufgefasst werden. Die Hintereinanderreihung aller so entstandenen Binärmuster y1 , y 2 , ..., y r ergibt den zu x ge- hörenden Schlüsseltexte y E x, c B E x1 , c B E x 2 , c B ... E x r , c B . Es gibt sehr effiziente Algorithmen zur Berechnung von y i xie mod n , so dass die Verschlüsselung schnell erfolgen kann. Eine bei B ankommende verschlüsselte Nachricht y wird zur Entschlüsselung als Binärmuster interpretiert und in einzelne Blöcke mit log 2 ( n ) vielen Stellen zerlegt, d.h. y y1 y 2 ... y r . Jeder Block y i wird einzeln nach folgender Vorschrift entschlüsselt: D y i , d B D y i , d , p, q, ( n ) y id mod n . Die so entstehenden Zahlen werden als Bitmuster mit jeweils mit log 2 ( n ) vielen Stellen interpretiert und durch Hintereinanderreihung zum entschlüsselten Text zusammengesetzt. Der algorithmische Aufwand zur Entschlüsselung ist wie bei der Verschlüsselung klein. Die Korrektheit des Verfahrens, nämlich D E xi , c B , d B xie mod n xi , folgt aus Satz d 3.4-2: Dazu werden 3 Fälle unterschieden: 1. Fall: Weder p noch q teilen xi . Dann gilt ggT xi , n 1 und mit Satz 3.4-2: xi (n) 1 (mod n) . Nach Konstruktion ist e d f (n) 1 bzw. 113 3.5 Anwendung in der Kryptologie e d 1 f (n) . Also xie ist, ergibt sich xie d d 1 f ( n ) xi xi xi ( n ) f xi (mod n) . Da xi n mod n xi . 2. Fall: Genau eine der Zahlen p oder q teilt xi ; es sei dieses p . Dann gilt (wieder mit Satz 3.4-2): xi xi (q) f p 1 ( q ) teilt xi ed 1 (mod q ) . Damit folgt nacheinander 1 (mod q ) , xi xi ed 1 f p 1 ( q ) xi xi ed xi (mod q ) , d.h. q ed xi . Da nach Fallannahme die Zahl p den Wert xi teilt, teilt p auch xi , und daher teilt p den Wert xi d.h. xi f p 1 ( q ) ed xi . Mit Satz 3.3-4 (iv) folgt: n p q teilt xi xi (mod n) . Da xi n ist, ergibt sich wie im 1. Fall: xie 3. Fall: Beide Zahlen p und q teilen xi . Dann teilen p und q den Wert xi 3.3-4 (iv) folgt: n p q teilt xi sich wie im 1. Fall: xie d ed xi , d.h. xi ed ed d ed xi , mod n xi . xi und mit Satz xi (mod n) . Da xi n ist, ergibt mod n xi . Es gilt außerdem die Symmetriegleichung E D y i , d B , c B y id mod n y i , so dass das e RSA-Verfahren für ein digitales Unterschriftenprotokoll geeignet ist. Bei der Konstruktion des geheimen Schlüssels d B d , p, q, (n) besteht eine gewisse Freiheit bezüglich der Wahl der einzelnen Komponenten. Beispielsweise kann man den Wert d so groß wählen, dass er von einem Kryptoanalytiker nicht leicht durch systematisches Testen gefunden werden kann. Der Exponent e zum Verschlüsseln eines Klartextes an B ist nach Wahl von d eindeutig bestimmt. Der umgekehrte Weg, nämlich erst e zu wählen, und zwar so, dass e und n p 1 q 1 teilerfremd sind, und dann mit Hilfe des Euklidischen Algorithmus d zu ermitteln, ist ebenfalls möglich. Auf diese Weise kann man für e einen „günstigen“ Wert nehmen. Als günstige Werte haben sich die Primzahlen e 3 , e 17 und e 65.537 erwiesen, da diese Fermat-Zahlen in ihrer Binärdarstellung nur jeweils zwei binäre Einsen haben und damit die in der Verschlüsselung auszuführende Exponentiation sehr schnell abläuft. Die folgenden Empfehlungen bezüglich der im Verfahren auszuwählenden Zahlen zielen auf die Gewährung eines hohen Sicherheitsniveaus des RSA-Verfahrens. Die Primzahlen p und q sollten „zufällig“ gewählt und nicht etwa einer Primzahltabelle k entnommen werden und auch keine spezielle funktionale Form (etwa 2 2 1 ) aufweisen. 114 3 Ausgewählte Themen der elementaren Zahlentheorie Die Primzahlen p und q sollten nicht zu dicht zusammenliegen. Die Primzahlen p und q sollten so gewählt werden, dass p 1 und q 1 keine großen gemeinsamen Faktoren besitzen. Die Primzahlen p und q sollten so gewählt werden, dass (n) ( p 1) (q 1) nicht nur kleine Primfaktoren enthält. Der Wert d sollte nicht zu klein sein, damit man ihn nicht durch systematisches Testen ermitteln kann. Verschiedene Kommunikationspartner sollten nicht denselben Wert oder einen zu kleinen Wert für e nehmen. Die Klartexte (hier als numerische Werte aufgefasst) x 1 und x n 1 werden auf sich selbst verschlüsselt, d.h. in diesen Fällen gilt E x, c B x . Dasselbe Fixpunktverhalten der Funktion E zeigt sich, wenn e 1 ein gemeinsames Vielfaches von p 1 und q 1 ist, etwa e 1 (n) 2 . Dann gilt sogar für jeden Klartext x die Gleichung E x, c B x . In diesem Fall ist eine andere Wahl von d angeraten. Da beim RSA-Verfahren alle Komponenten bis auf den geheimen Schlüssel d B d , p, q, (n) öffentlich sind, bietet es für einen Kryptoanalytiker Angriffspunkte. Ein Kryptoanalytiker ist prinzipiell nur an der Kenntnis des Schlüsselteils d des geheimen Schlüssels d B interessiert, wobei er beide Teile e und n des öffentlichen Schlüssels c B kennt. Folgende Überlegungen zeigen, dass es erforderlich ist, neben d auch die Werte p, q und (n) geheimzuhalten. Kennt der Kryptoanalytiker die Werte e, n (aus dem öffentlichen Register) und (n) , dann kann er mit Hilfe des Euklidischen Algorithmus zwei Zahlen a und b berechnen, für die die Beziehung e a (n) b 1 gilt (hierbei ist zu beachten, dass nach Konstruktion des Verfahrens e und (n) teilerfremd sind). Damit folgt nacheinander e a (n) b e d f (n) , e a d f b (n) und a d mod (n) . Wegen 0 d (n) ist d a mod (n) . Kennt der Kryptoanalytiker die Werte e, n (aus dem öffentlichen Register) und mindestens einen der Werte p oder q, etwa p, dann kann er wegen (n) ( p 1) (q 1) und n p q bzw. (n) ( p 1) (n p 1) sofort (n) und damit d ermitteln. 115 3.5 Anwendung in der Kryptologie Offensichtlich ist die Geheimhaltung von (n) wesentlich. Natürlich könnte der Kryptoanalytiker versuchen, den Wert (n) direkt aus dem öffentlichen Schlüssel c B e, n zu gewinnen. Falls ihm dieses mit geringem Rechenaufwand gelänge, hätte er gleichzeitig einen schnellen Algorithmus, um die Zahl n in ihre Primfaktoren p und q zu zerlegen: Er berechnet nacheinander z (n) n 1 , y z 2 4 n , q 1 2 z y und p n q . Daher ist die schnelle Berechnung von (n) aus c B e, n gleichbedeutend mit der schnellen Primfaktorisierung von n. Andererseits kennt man bis heute kein schnelles Verfahren, um n zu faktorisieren. Die schnellsten bisher bekannten Verfahren zur Zerlegung einer Zahl n in ihre Primfaktoren haben eine Laufzeit, die proportional zu L( n ) e ln( n )ln(ln( n )) ist. Die folgende Tabelle zeigt einige Werte von L( n ) . n 1050 10100 10150 10 200 10 250 10300 L( n ) 1,42 1010 2,34 1015 3,26 1019 1,20 10 23 1,86 10 26 1,53 10 29 Wäre man heute technisch in der Lage, Rechengeschwindigkeit von 1012 Operationen pro Sekunde zu realisieren, würde die Faktorisierung einer 200-stellige Zahl immer noch etwa 1.000 Jahre erfordern, die Faktorisierung einer 300-stelligen Zahl sogar mehr als 10 6 viele Jahrtausende. Heutige Schlüssellängen von 1.024 Bits bzw. ca. 300 Dezimalstellen erscheinen daher heute sicher. Des weiteren könnte der Kryptoanalytiker versuchen, den Wert d direkt aus dem öffentlichen Schlüssel c B e, n zu ermitteln. Es lässt sich zeigen, dass ein schneller Algorithmus zur Ermittlung von d aus c B e, n in einen schnellen (probabilistischen) Algorithmus umge- wandelt werden kann, der mit beliebig großer Wahrscheinlichkeit die Zahl n in ihre Primfaktoren p und q korrekt zerlegt. Eine Brute-Force-Attacke, in der alle möglichen Werte für d systematisch probiert werden, verspricht darüber hinaus wegen der großen Schlüssellänge (Stellenzahl von n) keinen Erfolg. Zusammenfassend kann man feststellen, dass die Garantie der Sicherheit des RSA-Verfahrens darauf zurückzuführen ist, dass kein schnelles Verfahren bekannt ist, das eine gegebene natürliche Zahl in ihre Primfaktoren zerlegt. Sollte ein derartiges Verfahren für das Faktorisierungsproblem gefunden werden, ist das RSA-Verfahren nicht mehr sicher. Die bisher in diesem Kapitel beschriebenen Methoden beruhen auf der Anwendung zahlentheoretischer Erkenntnisse, die im wesentlichen im 18. Jahrhundert entdeckt wurden. Die Überlegungen zum Laufzeitverhalten der beteiligten Algorithmen stammen aus den letzten 30 Jahren des 20. Jahrhunderts. Seit etwa 1987 findet eine Theorie, deren Grundlagen zum Ende des 19. Jahrhunderts gelegt wurden, beim Entwurf kryptographischer Verfahren verstärkt 116 3 Ausgewählte Themen der elementaren Zahlentheorie Anwendung. Diese Kryptographie-Verfahren setzen zur Verschlüsselung die Arithmetik elliptischer Kurven über endlichen Körpern ein. Da zum Verständnis dieser Methoden jedoch weitergehende mathematische Kenntnisse erforderlich sind, wird auf deren Darstellung hier verzichtet. 4 Ausgewählte Themen der Kombinatorik Die Kombinatorik befasst sich im wesentlichen mit dem Abzählen endlicher Mengen und damit verwandter Fragestellungen. Die in diesem Kapitel behandelte Themenauswahl gehört zum mathematischen Handwerkszeug, das in vielen Teilgebieten der Mathematik und Informatik benötigt wird. Insbesondere in der Wahrscheinlichkeitsrechnung (diskrete Wahrscheinlichkeitsverteilungen) werden die Themen weiter vertieft. 4.1 Binomialkoeffizienten Es seien n N , x R und y R . Der aus der Schule bekannte binomische Lehrsatz besagt x y 2 x 2 2 x y y 2 . Wie man leicht nachrechnet, ist x y 3 x 3 3 x 2 y 3 x y 2 y 3 , x y 4 x 4 4 x 3 y 6 x 2 y 2 4 x y 3 y 4 . Es soll nun die allgemeine Form von x y als ausgeschriebene Summe hergeleitet werden n (das könnte wieder formal nach dem Induktionsprinzip geschehen; hier soll die Herleitung etwas informeller beschrieben werden). Durch vollständige Induktion kann man zeigen, dass die Summanden in der ausgeschriebenen Summe von x y n die Form ki , j x i y j mit i j n haben. Der Faktor ki , j im Summanden ki , j x i y ni der ausgeschriebenen Summe n n von x y heißt Binomialkoeffizient , gesprochen „n über i“, d.h. i n i ni n n n n n x y y x y n1 x 2 y n2 ... x n . i 0 i n 2 1 0 x y n n Das vorliegende Kapitel untersucht Eigenschaften und Interpretationen der Binomialkoeffizienten. 118 4 Ausgewählte Themen der Kombinatorik n n Offensichtlich gilt 1 und 1 . n 0 Aus n n i n i n n n n x y y x y n 1 x 2 y n 2 ... x n i 0 i n 0 1 2 n x y n y x n n n n n n n y i x n i x n y x n 1 y 2 x n 2 ... y n i 0 i 0 1 2 n folgt durch Koeffizientenvergleich die Symmetrie der Binomialkoeffizienten: n n für i N mit 0 i n . i n i Es ist x y x y n n 1 x y x y n 1 x x y n man ablesen, wie der Faktor im Summanden i n 1 y . Aus dieser Darstellung kann n i ni x y der ausgeschriebenen Summe i von x y entsteht: man sucht in der ausgeschriebenen Summe von x y n1 n denjenigen Summanden, in dem x mit der Potenz i 1 und y mit der Potenz n i steht, und denjenigen Summanden in der ausgeschriebenen Summe von x y , in dem x mit der Potenz i und y n 1 mit der Potenz n i 1 steht. Diese Summanden sind n 1 i1 ni n 1 i1 n1i1 n 1 i ni1 n 1 i n1i x y x y x y x y und . i 1 i i 1 i Wird der erste Summand mit x und der zweite Summand mit y multipliziert und anschließend beide Summanden addiert, entsteht n 1 n 1 i ni n 1 i1 ni n 1 i ni1 x y x x y x y y i 1 i i 1 i n x i y ni . i Damit ergibt sich 119 4.1 Binomialkoeffizienten Satz 4.1-1: Für jedes n N und für jedes i N ist n 1 , 0 n 1 , n n n 1 n 1 mit 0 i n . i i 1 i Mit Hilfe der Rekursionsformel in Satz 4.1-1 lassen sich die Binomialkoeffizienten berechnen. Die einzelnen Werte können in einem Schema in Dreicksform (Pascal’sche Dreieck) n angeordnet werden. Dabei steht in der n-ten Zeile und der i-ten Spalte der Wert für i n 0 und 0 i n . Dieser Eintrag ist die Summe, die sich aus dem direkt drüber stehenden n 1 n 1 links davon ergibt. Der Anfang des Pascal’schen und dem Eintrag Eintrag i 1 i Dreiecks lautet: Spalte 0 Zeile 0 Zeile n = 8 1 1 1 1 1 1 1 1 1 1 Spalte i = 5 1 2 3 4 5 6 7 8 9 1 3 6 10 15 21 28 36 1 4 10 20 35 56 84 1 5 15 35 70 126 ... 1 6 21 56 126 ... 1 7 28 84 1 8 36 1 9 1 n Der folgende Satz beschreibt, wie der Wert eines Binomialkoeffizienten direkt in Abi hängigkeit von n und i ausgedrückt werden kann: 120 4 Ausgewählte Themen der Kombinatorik Satz 4.1-2: Für jedes n N und für jedes i N mit 0 i n ist n n! . i i!n i ! Der Beweis soll hier als Beispiel eines Beweises durch vollständige Induktion angegeben werden: n 0 n! 0! Für n 0 ist 1 und 1. i!n i ! 0!0! i 0 Es wird angenommen, dass die Formel in Satz 4.1-2 für ein n N und für jedes i N mit 0 i n gilt. Zu zeigen ist, dass aus dieser Annahme die Gültigkeit der Formel auch für n 1 und für jedes i N mit 0 i n 1 folgt. n 1 n 1 n 1! n 1! 1 . 1 und Für i 0 ist i!n 1 i ! 0!n 1! i 0 n 1 n 1 n 1! 1 . 1 und Für i n 1 ist n 1!0! i n 1 Für 0 i n 1 verwendet man die Rekursionsformel aus Satz 4.1-1: n 1 n n i i 1 i n! n! i 1!n i 1! i!n i ! n!i n!n i 1 i! n i 1! n!i n i 1 i! n i 1! n 1! . i! n 1 i ! (nach Satz 4.1 - 1) (nach Induktionsannahme) Die Formel gilt also auch für n 1 . Im Pascal’schen Dreieck kann man einige Gesetzmäßigkeiten der Binomialkoeffizienten verin n n fizieren, die direkt aus der Definition x y x i y ni bzw. aus den Formeln in den i 0 i 4.1 Binomialkoeffizienten 121 vorherigen Sätzen folgen. Beispielsweise hat die Summe aller Binomialkoeffizienten in der nn ten Zeile des Pascal’schen Dreiecks den Wert 2n ; die Summe der Binomialkoeffizienten i n in Zeile n mit n 1 und geradem i ist gleich der Summe der Binomialkoeffizienten in i Zeile n mit ungeradem i; summiert man in der i-ten Spalte alle Binomialkoeffizienten bis zur n 1 ; summiert man Zeile n, so erhält man wieder einen Binomialkoeffizienten, nämlich i 1 alle Binomialkoeffizienten ab Zeile n i und Spalte 0 diagonal (von links oben nach rechts n 1 . Diese unten) bis zur Zeile n und Spalte i, so ist das Ergebnis der Binomialkoeffizient i und weitere Eigenschaften der Binomialkoeffizienten werden im folgenden Satz zusammengefasst. Satz 4.1-3: Es sei n N . Dann gilt: n i x 1 x n (i) (ii) i 0 n n i 0 i 2 n (iii) n i i 0 i mod 2 0 n n i für jedes x R . (Summe über die n-te Zeile im Pascal’schen Dreieck). n i 0 i mod 2 1 n bzw. i n n 1 i 0 i i 0 für n 1 (Die Summe der Binomialkoeffizienten mit geradem i ist gleich der Summe der Binomialkoeffizienten mit ungeradem i). (iv) n k n 1 k i i i 1 für i N mit 0 i n (Summe der i-ten Spalte bis zur Zeile n im Pascal’schen Dreieck). ../.. 122 4 Ausgewählte Themen der Kombinatorik (v) n i k n 1 für i N mit 0 i n k i k 0 i (Summe der Binomialkoeffizienten ab Zeile n i und Spalte 0 im Pascal’schen Dreieck diagonal abwärts bis zur Zeile n und Spalte i). (vi) n n für i N mit 0 i n i n i (Symmetrie der Binomialkoeffizienten). n n n 1 für i N mit 0 i n (vii) i i i 1 n n 1 für i N mit 0 i n . und n i n i i (viii) Durch F0 0, F1 1 und Fn Fn 1 Fn 2 wird die Folge der Fibonacci-Zahlen definiert (siehe Kapitel 5.10); die ersten dreizehn Fibonacci-Zahlen lauten 0, 1, 1, 2, 3, 5, 8,13, 21, 34, 55, 89, 144, … n 2 n k Fn 1 k 0 k (Summe der Binomialkoeffizienten ab Zeile n und Spalte 0 im Pascal’schen Dreieck diagonal aufwärts bis zur Diagonalen). Die Formel in Satz 4.1-3 (i) erhält man, indem man in der Definitionsgleichung n n x y n x i y ni den Wert y 1 setzt. Die Formel in Satz 4.1-3 (ii) erhält man aus i 0 i der Definitionsgleichung für x y 1 . Die Formel n n 1 i 0 i in Satz 4.1-3 (iii) erhält man aus der Definitionsgleichung für x 1 und y 1 ; bringt man in dieser Formel die i 0 in Summanden 1 mit ungeradem i auf die rechte Seite der Gleichung, so ergibt sich die i erste Formel in Satz 4.1-3 (iii). Die Formeln in Satz 4.1-3 (vi) und (vii) ergeben sich unmittelbar aus Satz 4.1-2. Die Formeln in Satz 4.1-3 (iv) und (v) können durch vollständige Induktion bewiesen werden oder durch direkte wiederholte Anwendung der Rekursionsgleichung aus Satz 4.1-1. Für die Formel aus Satz 4.1-3 (iv) ergibt sich ausgehend von der rechten Seite der Gleichung: 4.1 Binomialkoeffizienten n 1 n n i 1 i 1 i 123 (mit Satz 4.1 - 1) n 1 n 1 n (mit Satz 4.1 - 1, angewandt auf den ersten Binomialkoeffizienten) i i 1 i n 2 n 2 n 1 n i 1 i i i n l l n k i 1 k 0 i i 1 n i 1 n k i 1 k 0 i (allgemeine Form; mit l n i 1 :) n n 1 i 1 ... 1 i i i i n n 1 i 1 ... i i i i n k k i i . Für die Formel aus Satz 4.1-3 (v) ergibt sich wieder ausgehend von der rechten Seite der Gleichung: n 1 n n (mit Satz 4.1 - 1) i i i 1 n n 1 n 1 (mit Satz 4.1 - 1, angewandt auf den zweiten Binomialkoeffizienten) i i i 1 2 n n 1 n 2 n 2 i i 1 i 2 i 3 ... l n k n l k 0 i k i l 1 i 1 n k n i 1 k 0 i k 0 (allgemeine Form; mit l i 1 :) n n 1 n i 1 ... 1 i i 1 1 n i n n 1 n i 1 i n i k ... k 0 i i 1 1 k 0 124 4 Ausgewählte Themen der Kombinatorik Die Formel in 4.1-3 (viii) lässt sich durch vollständige Induktion zeigen: 0 0 0 k 0 1 k 1 1 F1 ; für n 1 ist 1 F2 ; für n 2 ist Für n 0 ist k 0 k k 0 k 0 0 1 2 k 2 1 3 k 3 2 1 2 3 F4 . 1 1 2 F ; für n 3 ist 3 k 0 1 k 0 k 0 k 0 1 Die Aussage gelte für n 3 . Für n 1 sieht man die Gültigkeit der Formel dann wie folgt: 1 n 1 2 n 1 k k 0 k 1 n 1 2 n 1 k k 1 k n 1 2 n k k 1 k k 1 k 1 n 1 2 n k n 1 2 1 n k 1 . k 0 k k 0 k 1 n 1 2 n k n 1 2 2 m 1 2 m n 2 n 2 und n 1 2 1 m 1 2 m 1 2 n 1 2 ; daher ergibt sich für die Summe mit der In- Ist n gerade, etwa n 2 m , dann ist duktionsannahme n 1 2 n k k 0 k n 1 2 1 n k k 0 1 n 2 n k n 1 2 n 1 k Fn 1 Fn Fn 2 . k k 0 k k k 0 Ist n ungerade, etwa n 2 m 1 , dann ist in der ersten Summe der letzte aufzusummierende m ; daher Binomialkoeffizient (bei k n 1 2 2 m 2 2 m 1 ) formal gleich m 1 läuft k in dieser Summe nur bis m 2 m 1 2 n 2 ; außerdem ist n 1 2 1 m 2 m 2 n 1 2 ; insgesamt ergibt sich mit der Induktionsannahme auch hier n 1 2 n k k 0 k n 1 2 1 n k k 0 1 n 2 n k n 1 2 n 1 k Fn 1 Fn Fn 2 . k k 0 k k k 0 Die Binomialkoeffizienten kommen nicht nur als Faktor ki , j im Summanden ki , j x i y ni der ausgeschriebenen Summe von x y vor, sondern auch in vielen praktischen Abzählprobn lemen. In Kapitel 1.5 wird gezeigt, dass eine endliche Menge A mit n Elementen genau 2 n viele Teilmengen besitzt. Es soll nun untersucht werden, wie viele Teilmengen A hat, die aus genau k Elementen (mit 0 k n ) bestehen. 125 4.1 Binomialkoeffizienten Es sei A a1 , ..., an . Unter einer Permutation von A versteht man eine feste Anordnung der Elemente von A. Beispielsweise sind alle Permutationen der Menge A 1,2, 3, 4 die Anordnungen 1234 1243 1423 4123 4132 1432 1342 1324 4321 3421 3241 3214 3124 3142 3412 4312 4213 2413 2143 2 1 3 4. 2314 2341 2431 4231 Eine Permutation der Menge A a1 , ..., an ist also ein Tupel a , ..., a i1 in mit ai j A für j 1, ..., n und ai j ail für i j il . Um die Anzahl aller Permutationen von A zu bestim- men, betrachtet man alle derartigen Tupel ai1 , ..., ain : Für ai1 gibt es n mögliche Werte, nämlich a1 , ..., an . Hat man sich für eine Möglichkeit entschieden, bleiben für ai2 noch n 1 Möglichkeiten. Für ai3 bleiben nach Auswahl für ai1 und ai2 noch n 2 Möglichkeiten usw. Für ain bleibt nach Festlegung der ersten n 1 Elemente nur noch 1 Möglichkeit. Insgesamt hat gibt es also n n 1 ... 1 n! viele Möglichkeiten zur Bildung einer Permutation einer nelementigen Menge. Unter einer k-Permutation von A versteht man ein Tupel a , ..., a i1 ik mit ai j A für j 1, ..., k und ai j ail für i j il . Beispielsweise sind alle 2-Permutationen von A 1,2, 3, 4 die Anordnungen 21 23 24 12 13 14 31 32 34 41 42 43 Um die Anzahl aller k-Permutationen von A zu bestimmen, betrachtet man wieder alle derartigen Tupel ai1 , ..., aik : Für ai1 gibt es n mögliche Werte, nämlich a1 , ..., an . Hat man sich für eine Möglichkeit entschieden, bleiben für ai2 noch n 1 Möglichkeiten. Für ai3 bleiben nach Auswahl für ai1 und ai2 noch n 2 Möglichkeiten usw. Für aik bleibt nach Festlegung der ersten k 1 Elemente noch n (k 1) n k 1 Möglichkeit. Insgesamt hat gibt es also n n 1 ... n k 1 n! n k ! 126 4 Ausgewählte Themen der Kombinatorik viele Möglichkeiten zur Bildung einer k-Permutation einer n-elementigen Menge. Für jede Teilmengen B A mit B k , etwa B ai1 , ..., aik , gilt ai j ail für i j il . Jede Permutation von B (davon gibt es k! viele) ist eine k-Permutation von A. Verschiedene Teilmengen B1 A und B2 A mit B1 B2 k ergeben paarweise verschiedene k- Permutation von A, da die k-Permutationen, die aus B1 entstanden sind, mindestens ein unterschiedliches Element zu den k-Permutationen enthalten, die aus B2 entstanden sind, und die Permutationen von B1 bzw. von B2 sind untereinander paarweise verschieden. Umgekehrt gibt es zu jeder k-Permutation von A eine k-elementige Teilmengen von A, nämlich die Menge ihrer Elemente. Bezeichnet Cn ,k die Anzahl k-elementiger Teilmengen von A, so gilt daher: C n ,k k! n! . n k ! Satz 4.1-4: Es sei A eine endliche Menge mit A n . Die Anzahl der Teilmengen B A mit B k für 0 k n ist n n! . k k!n k ! n Damit kann man auch noch einmal die Formel aus Satz 4.1-3 (ii) n i 2 n verifizieren: Links steht die Anzahl aller Teilmengen einer n-elementigen Menge, aufgeteilt nach den ielementigen Teilmengen für 0 i n , von der bereits früher gezeigt wurde, dass sie gleich i 0 2 n ist. 4.2 Abbildungen zwischen endlichen Mengen 4.2 127 Abbildungen zwischen endlichen Mengen In diesem Kapitel seien A und B endliche Mengen mit A n und B m : A a1 , ..., an , B b1 , ..., bm . Es sollen die Anzahlen der Abbildungen, der injektiven, surjektiven und bijektiven Abbildungen f : A B ermittelt werden. A. Anzahl der Abbildungen f : A B Jede Abbildung f : A B kann in Form einer endlichen Tabelle notiert werden: ai a1 ... an f ai f a1 ... f an Dabei genügt das Notieren der Funktionswerte in der Reihenfolge f a1 , ..., f an bzw. als n-Tupel f a1 , ..., f an . Verschiedene Abbildungen führen zu verschiedenen n-Tupeln. Umgekehrt kann man jedes nTupel b1 , ..., bn mit bi B für 1 i n als eine Abbildung f : A B auffassen, nämlich als die durch f ai bi definierte Abbildung, und unterschiedliche n-Tupel beschreiben unterschiedliche Abbildungen. Daher ist die Anzahl der Abbildungen f : A B gleich der Anzahl der n-Tupeln b1 , ..., bn mit bi B für 1 i n . Satz 4.2-1: Es seien A und B endliche Mengen mit A n und B m . Dann ist die Anzahl der Abbildungen f : A B gleich m n . 128 B. 4 Ausgewählte Themen der Kombinatorik Anzahl bijektiver Abbildungen f : A B Nach Satz 2.2-3 gilt im Falle bijektiver Abbildungen f :A B bezüglich der Mächtigkeiten: n m . Jede bijektive Abbildung f : A B bzw. in Tupel-Schreibweise f a1 , ..., f an beschreibt daher eine Permutation der Menge B. Verschiedene bijektive Abbildungen führen zu verschiedenen Permutationen. Umgekehrt kann jede Permutation b , ..., b von B mit einer bijektiven Abbildung i1 in A f : A B , nämlich mit f : a j B bi j gleichgesetzt werden. Die Anzahl bijektiver Abbildungen f : A B ist daher gleich der Anzahl der Permutationen der Menge B. Mit den Überlegungen am Ende von Kapitel 4.1 folgt Satz 4.2-2: Es seien A und B endliche Mengen mit A B n . Dann ist die Anzahl der bijektiven Abbildungen f : A B gleich n!. C. Anzahl injektiver Abbildungen f : A B Nach Satz 2.2-3 gilt im Falle injektiver Abbildungen f :A B bezüglich der Mächtigkeiten: n m . Der Wertebereich W ( f ) b | b B, und es gibt a A mit f ( a ) b ist A W ( f ) ist eine Bijektion eine n-elementige Teilmenge von B, und die Abbildung g : a f (a) zwischen A und W(f). Daher ist W(f) eine n-Permutation von B. Umgekehrt ist kann man jede A n-Permutation von B, etwa bi1 , ..., bin mit der injektiven Abbildung f : a j zieren. Mit den Überlegungen am Ende von Kapitel 4.1 folgt B bi j identifi- Satz 4.2-3: Es seien A und B endliche Mengen mit A n und B m und n m . Dann ist die Anzahl injektiver Abbildungen f : A B gleich m m! n! . m n ! n 4.3 Das Prinzip von Inklusion und Exklusion D. 129 Anzahl surjektiver Abbildungen f : A B f : A B bezüglich der Nach Satz 2.2-3 gilt im Falle surjektiver Abbildungen Mächtigkeiten: n m . Die Bestimmung der Anzahl surjektiver Abbildungen zwischen A und B ist schwieriger und benötigt Hilfsmittel, die in Kapitel 4.3 bereitgestellt werden. Das Ergebnis soll aber der Vollständigkeit halber hier bereits zitiert werden. Satz 4.2-4: Es seien A und B endliche Mengen mit A n und B m und n m . Dann ist die Anzahl surjektiver Abbildungen f : A B gleich m 1 i 0 4.3 m i m i n . i Das Prinzip von Inklusion und Exklusion Es seien A und B wieder endliche Mengen mit A n und B m . Nach Satz 1.1-1 (v) ist A B (A \ B) A B (B \ A) eine disjunkte Zerlegung von A B . Daraus folgt für die Mächtigkeit von A B : A B |A \ B| A B |B \ A|. Es sei A B i . Dann ist A B |A \ B| A B |B \ A| n i i m i n mi A B A B. Bei drei Mengen A, B und C mit A n , B m und C k lauten die entsprechenden Formeln: Die Menge A B C lässt sich disjunkt zerlegen in A B C ((A \ B) \ C) ((B \ A) \ C) ((C \ A) \ B) ( A B \ C) (B C \ A) ( A C \ B) A B C . 130 4 Ausgewählte Themen der Kombinatorik Mit i1 A B \ C , i2 B C \ A , i3 A C \ B und i4 A B C folgt daraus: A B C n i1 i3 i4 m i1 i2 i4 k i2 i3 i4 i1 i2 i3 i4 n m k i1 i4 i2 i4 i3 i4 i4 A B C A B B C AC A B C. Zur Berechnung von A B C wäre das Ergebnis A B C korrekt, wenn die drei Mengen disjunkt wären (Inklusion). Andernfalls zählt man die Elemente, die in jeweils zwei Mengen liegen, doppelt, und man muss die Anzahl der zwei Mengen gemeinsamen Elemente wieder abziehen (Exklusion). Allerdings hat man dadurch die Elemente „vergessen“, die in allen drei Mengen liegen, so dass diese wieder hinzugezählt werden müssen (Inklusion). Dieses Prinzip der Inklusion und Exklusion lässt sich auf eine endliche Anzahl von Mengen erweitern. l Es seien A1 , ..., Al Teilmengen einer endlichen Menge M. Mit Ai wird A1 ... Al abgei 1 kürzt; mit Ai mit I 1, ..., l wird der Schnitt derjenigen Mengen Ai bezeichnet, für deiI ren Index i I gilt. Satz 4.3-1: Es seien A1 , ..., Al Teilmengen einer endlichen Menge M, l 1 Dann gilt: l Ai i 1 1 1 I I 1, ..., l und I Ai . iI Die Summation geht über alle nichtleeren Teilmengen I der Indexmenge 1, ..., l. Der Satz kann durch vollständige Induktion bewiesen werden. Zuvor soll er auf den obigen Fall dreier Mengen angewendet werden ( A1 A , A2 B und A3 C ). Hierbei ist 1, ..., l 1, 2, 3 . Alle nichtleeren Teilmengen der Indexmenge sind 1 , 2 , 3 , 1, 2 , 1, 3 , 2, 3 und 1, 2, 3 . Die einzelnen Summanden lauten für I 1 : 1 1 I Ai 1 A1 A1 , 11 iI 4.3 Das Prinzip von Inklusion und Exklusion für I 2 : 1 Ai 1 A2 A2 , für I 3 : 1 Ai 1 A3 A3 , 1 I 131 11 iI 1 I 11 iI für I 1, 2 : 1 Ai 1 A1 A2 A1 A2 , für I 1, 3 : 1 Ai 1 A1 A3 A1 A3 , für I 2, 3 : 1 Ai 1 A2 A3 A2 A3 , 1 I 1 2 iI 1 I 1 2 iI 1 I 1 2 iI für I 1, 2, 3 : 1 1 I Ai 1 A1 A2 A3 A1 A2 A3 . 13 iI Der Beweis der Formel in Satz 4.3-1 erfolgt durch vollständige Induktion über die Anzahl l der beteiligten Teilmengen: Der Induktionsanfang für l 1 , l 2 und l 3 ist offensichtlich bzw. wurde in den obigen Beispielen gezeigt. Die Formel gelte für l 3 . Zu zeigen ist, dass aus dieser Annahme ihre Gültigkeit auch für l 1 folgt. l Es sei A Ai . Dann ist gemäß Induktionsanfang i 1 l 1 Ai A Al 1 A Al 1 A Al 1 . i 1 Nach Induktionsannahme ist l A Ai i 1 1 1 I I 1, ..., l und I Ai . iI Die in Satz 1.1-1 (vi) formulierten Distributivgesetze gelten auch für mehr als drei Mengen, so dass gilt: l l A Al 1 Ai Al 1 Ai Al 1 . i 1 i1 Hierbei handelt es sich also um die Vereinigung von l Mengen der Form Ai Al 1 , so dass die Induktionsannahme anwendbar ist: l A Al 1 Ai Al 1 i 1 1 1 I I 1, ..., l und I Ai Al 1 . iI 132 4 Ausgewählte Themen der Kombinatorik Insgesamt ergibt sich l 1 Ai i 1 1 1 I Ai Al 1 iI I 1, ..., l und I 1 1 I Ai Al 1 . iI I 1, ..., l und I In der ersten Summe lautet die Bedingung des Laufindex „ I 1, ..., l und I “. Man verändert nichts, wenn man diese durch „ I 1, ..., l 1 und I und l 1 I “ ersetzt. In der zweiten Summe lautet die Bedingung des Laufindex ebenfalls „ I 1, ..., l und I “, allerdings taucht als Summand nicht Ai , sondern Ai Al 1 auf, d.h. die iI iI durch den jeweiligen Laufindex I bestimmten Mengen Ai werden noch mit Al 1 geschnitten; man kann also zu jedem Laufindex I noch den Index l 1 hinzunehmen. In der zweiten Summe wird die Bedingung „ I 1, ..., l und I “ des Laufindex durch „ I 1, ..., l 1 und I und l 1 I “ ersetzt und die Summanden entsprechend angepasst; der Summand Al 1 kann in die Summe mit aufgenommen werden ( I l 1 ). Damit wird die letzte Gleichung zu l 1 Ai i 1 1 Ai 1 Ai . 1 I iI I 1, ..., l 1 und I und l 1I 1 I 1 1 I I 1, ..., l 1 und I und l 1I Ai iI iI I 1, ..., l 1 und I Die Formel in Satz 4.3-1 gilt also auch für l 1 Teilmengen. Eine direkte Folgerung aus Satz 4.3-1 ist der folgende Satz 4.3-2: Es seien A1 , ..., Al Teilmengen einer endlichen Menge M, l 1 Dann ist die Anzahl der x M , die in keiner der Mengen A1 , ..., Al liegen, gleich M 1 I 1, ..., l und I I Ai . iI Die Formel ergibt sich wie folgt: 4.3 Das Prinzip von Inklusion und Exklusion l l i 1 i 1 133 M \ Ai M Ai 1 1 I M 1 M I 1, ..., l und I Ai nach Satz 4.3 - 1 iI I 1, ..., l und I I Ai . iI Beide Sätze finden ihre Anwendung in vielen Teilen der Mathematik. Als Beispiel dient der Beweis von Satz 4.2-4: Es seien A und B endliche Mengen mit A n und B m und n m , A a1 , ..., an , B b1 , ..., bm . Die Mengen Ai werden definiert durch Ai f f : A B und es gibt kein a A mit f (a ) bi für i 1, ..., m . Eine Abbildung f : A B ist damit genau dann surjektiv, wenn f in keiner der Mengen Ai für i 1, ..., m enthalten ist. Es sei M f f : A B . Nach Satz 4.3-1 ist M m n . In der Terminologie von Satz 4.3-2 wird die Anzahl der f M gesucht, die in keiner der Mengen A1 , ..., Am liegen. Diese Anzahl ist M 1 I 1, ..., m und I I Ai m n iI 1 I 1, ..., m und I I Ai . iI Für I 1, ..., m mit I wird Ai betrachtet. Für jedes f Ai gilt: es gibt kein iI iI a A , das durch f auf bi abgebildet wird, wobei i I ist. Also ist f eine Abbildung f : A B \ bi i I . Ist umgekehrt f eine Abbildung mit f : A B \ bi i I , so ist f Ai . Daher ist nach iI Satz 4.2-1 Ai iI f f : A B \ bi i I m I . n 134 4 Ausgewählte Themen der Kombinatorik m Nach Satz 4.1-4 gibt es viele Teilmengen I 1, ..., m mit Mächtigkeit I . Damit I wird M 1 I 1, ..., m und I I Ai m n iI mn 1 I 1, ..., m und I I Ai iI 1 m I I n I 1, ..., m und I m k m n m n 1 m k k 1 k m k m n 1 m k k 0 k m n i i 0 m i m m i m 1 i n i 0 i m 1 m i Das ist das Ergebnis aus Satz 4.2-4. (mit der Indextransformation i m k ) (gemäß Satz 4.1 - 3 (vi)). 5 Ausgewählte Themen der Analysis Die für praktische Anwendungen wichtigsten Themen der Analysis werden im mathematischen Schulunterricht behandelt. Daher kann das vorliegende Kapitel als Wiederholung und Vertiefung dieser Themen betrachtet werden. Darüber hinaus werden weiterführende Themen wie Taylorpolynome und erzeugende Funktionen und ihre Anwendungen behandelt. 5.1 Folgen und Reihen Wird jedes n N nach einer bestimmten Vorschrift eine reelle Zahl an R zugeordnet, so entsteht eine reellwertige Zahlenfolge a0 , a1 , a2 , ... . Sie wird mit an nN bezeichnet. an heißt auch n-tes Folgenglied von an nN . In der Regel stellt a n eine von n abhängige Formel dar. Beispielsweise ist für a n n 1 n die entsprechende Folge a n nN n 1 n nN . Die Definition einer Folge kann auf unterschiedliche Weise geschehen, beispielsweise: a0 1, a1 2, a2 4, a3 8, ..., an 2 n , ... oder an nN 2n nN oder als rekursive Definition a0 1, an 2 an1 für n 1 . Eine Zahl a R heißt Grenzwert (Limes) der Folge an nN , wenn folgender Sachverhalt gilt: Für jedes R mit 0 gibt es eine (eventuell von abhängige) natürliche Zahl n0 n0 ( ) mit der Eigenschaft: Für jedes n N mit n n0 gilt an a . 136 5 Ausgewählte Themen der Analysis Die Folge heißt dann gegen a konvergent (sie konvergiert gegen a), und man schreibt a lim an bzw. an a für n . n Die Konvergenz der Folge an nN gegen den Wert a R bedeutet anschaulich, dass bei Vorgabe eines beliebig kleinen Werts 0 alle Folgenglieder an , bis auf höchstens endlich viele Ausnahmen („fast alle“ Folgenglieder), „dicht“ bei a, genauer einen Abstand von a haben, der kleiner als ist. Verkleinert man auf den Wert , so steigt eventuell die Anzahl der Ausnahmen, die nicht dicht bei a liegen; es bleiben aber weiterhin höchstens endlich viele Ausnahmen. Beispiel: Die Folge a n nN n 1 n nN konvergiert gegen 0: Gibt man 0 vor und setzt 1 2 n0 n0 1 , so gilt für n n0 : 2 n 1 n 0 n 1 n n 1 n n 1 n n 1 n 1 n 1 n 1 (wegen n 1 n ) 2 n 1 2 n0 2 2 2 (nach Wahl von n0 ). Wie man sieht, ist es nicht immer ganz leicht, bei Vorgabe von 0 die passende Zahl n0 zu finden, von der an alle Folgenglieder dicht beim Grenzwert a liegen, den man zudem bereits kennen oder vermuten muss. Häufig berechnet man die Werte an einiger Folgenglieder für wachsende Werte von n. Falls man sieht, dass sich diese Werte einer Größe a annähern, stellt man die allgemeine Ungleichung an a auf und versucht diese nach n aufzulösen. Ergibt sich dabei eine Ungleichung der Form „ n ... “, dann kann man als n0 die kleinste natürliche Zahl wählen, von der an die Ungleichung „ n ... “ gilt: 5.1 Folgen und Reihen 137 Beispiel: 2n 1n werden zunächst einige Werte berechnet: Für die Folge an nN n 2 nN 2 3 4 5 10 15 n 0 1 an 2 1 2 5 4 7 8 17 16 31 32 1025 1024 32 767 32 768 100 1,0000000000000000000000000000008 Die Vermutung liegt nahe, dass diese Folge gegen a 1 konvergiert, also wird versucht, die Ungleichung an 1 nach n aufzulösen: 1 1 , d.h. 2n 1 . 2n 1 an 1 1 n 2 2n 2n n n Man kann die nächstgrößere 2er-Potenz oberhalb 1 wählen, und n0 ist dann der Exponent in dieser 2er-Potenz. Für jedes n n0 ist dann 2 n 2 n0 1 bzw. an 1 1 2 n 1 2 n0 . Eine Folge, die nicht konvergent ist, also keinen Grenzwert hat, heißt divergent. Für eine divergente Folge gilt entweder: (i) es gibt mindestens zwei reelle Zahlen a R und b R mit a b , so dass es sowohl beliebig dicht bei a als auch beliebig dicht bei b unendlich viele Folgenglieder gibt oder: (ii) die Werte an werden mit wachsendem n beliebig groß bzw. beliebig klein (Schreibweise dann an , lim a n , bzw. an , lim a n ). n n Im Fall (i) sagt man, die Folge habe mindestens zwei verschiedene (reelle) Häufungspunkte. Beispielsweise besitzt die Folge an nN 1 n nN die beiden Häufungspunkte 1 und 1 und ist daher nicht konvergent. Eine gegen eine reelle Zahl a konvergente Folge besitzt nur den einzigen Häufungspunkt a, der dann auch Grenzwert der Folge ist. 138 5 Ausgewählte Themen der Analysis Satz 5.1-1: Jede Folge an nN , die gegen einen Grenzwert konvergiert, ist beschränkt, d.h. es (i) gibt eine Konstante C R mit an C für alle n N . Konvergiert die Folge an nN gegen a R , so ist a eindeutig bestimmt. (ii) Teil (i) ist anschaulich klar. Formal sieht man dessen Gültigkeit so: Konvergiert die Folge an nN gegen a R , so gibt es für 1 eine natürliche Zahl n0 , so dass für jedes n N mit n n0 an a 1 gilt. Dann ist an max a0 , ..., an0 1 für n n0 und an an a a an a a 1 a für n n 0 . Also gilt für alle n N : an max a0 , ..., an0 1 , 1 a . Teil (ii) sieht man folgendermaßen: Konvergiert die Folge an nN gegen a R und gegen b R mit a b , so gibt es für 1 2 b a 0 eine natürliche Zahl n0 , so dass für jedes n N mit n n0 an a gilt. Außerdem gibt es eine natürliche Zahl n1 , so dass für jedes n N mit n n1 an b gilt. Für n max n0 , n1 ergibt sich der Widerspruch b a b an an a b an an a 2 b a . Die Limesbildung und das Rechnen mit arithmetischen Ausdrücken ist häufig miteinander vertauschbar. So kann man den Grenzwert einer Folge, deren Folgenglieder sich als arithmetischer Ausdruck (gebildet mit den Operatoren +, − , . und /) von Folgenglieder konvergenter Folgen darstellen lassen, dadurch berechnen, dass man die Limesbildung in den arithmetischen Ausdruck hineinzieht: Man berechnet die Grenzwerte der einzelnen Teile und verknüpft diese dann gemäß dem arithmetischen Ausdruck. Konstante Faktoren, die nicht von n abhängen, kann man jeweils vor den Limes ziehen. Die Grundlage dieses Kalküls liefert der folgende Satz. 5.1 Folgen und Reihen 139 Satz 5.1-2: Es seien an nN bzw. bn nN zwei konvergente Folgen mit den Grenzwerten a bzw. b. Dann gilt: (i) lim( a n bn ) a b , n lim( a n bn ) a b . n (ii) Für r R ist lim( r a n ) r lim a n r a . n n a a (iii) Gilt b 0 und bn 0 für alle n N , so ist lim n . n b b n (iv) Aus lim a n a kann man lim a n a schließen. n n Für a 0 gilt auch die Umkehrung: lim a n 0 impliziert lim a n 0 . n (v) n Jede (fast überall) konstante Folge an nN konvergiert, genauer: Ist a n a für (fast) alle n N , so ist lim a n a . n Exemplarisch sollen die Teile (i), (iii) und (iv) bewiesen werden: Nach Definition der Konvergenz gibt es zu 0 eine natürliche Zahl n0 , so dass für jedes n N mit n n0 an a 2 gilt. Entsprechend gibt es eine natürliche Zahl n1 mit bn b 2 für jedes n N mit n n1 . Für n max n0 , n1 ist an bn a b an a bn b . Für die Folge (an bn ) nN wird entsprechend argu- mentiert. Es sei 0 gegeben. Da die Folge (an ) nN konvergiert, gibt es nach Satz 5.1-1 (i) eine Konstante C 0 mit an C für alle n N . Es wird 1 2C 0 und 2 2 1 b 0 ge- setzt. Dann gibt es natürliche Zahlen n0 und n1 mit an a 2 und bn b 1 für n max n0 , n1 . Für diese n gilt: 140 5 Ausgewählte Themen der Analysis an bn a b an bn b an b an a b an bn b b an a C 1 b 1 2 2 2 . Für Teil (iii) wird zunächst der Spezialfall an 1 und a 1 für alle n N untersucht. Der allgemeine Fall folgt dann aus (i). Es sei 0 . Aufgrund der Konvergenz der Folge bn nN gegen b gibt eine natürliche Zahl n1 mit bn b b 2 für jedes n N mit n n1 . Daraus folgt bn natürliche Zahl n0 mit bn b b 2 b 2 . Weiterhin gibt es eine 2 für jedes n N mit n n0 . Dann gilt für 2 b bn b 2 1 1 b bn n max n0 , n1 : . 2 bn b bn b bn b 2 b Für (iv) verwendet man Satz 1.7-1 (vi): Es ist a n a an a . Gilt also an a , dann auch a n a . Für a 0 ist an a an 0 an 0 an a . „Ähnlich“ aussehende Folgen verhalten sich bezüglich der Konvergenz häufig sehr unter2 n ( 2 ) n definierte Folge a n nN nicht konvergent. Daschiedlich: So ist die durch a n 2n 2 n ( 2 ) n gegen konvergiert die durch bn definierte Folge bn nN gegen 0. 3n Häufig ist das Konvergenzverhalten einer Folge an nN zu untersuchen. Ist eine Zahl a R „verdächtig“, Grenzwert der Folge an nN zu sein, so lässt sich durch Rückgriff auf die Definition des Limesbegriffs nachprüfen, ob die Folge tatsächlich konvergiert, und zwar gegen a, d.h. ob lim a n a gilt. Kann man einer Folge, ohne von ihrem möglichen Grenzwert etwas n zu wissen, ansehen, dass sie konvergiert? Die folgenden Sätze liefern einige Konvergenzkriterien für Folgen. Daneben gibt es eine Reihe weiterer Konvergenzkriterien, die mit Hinweis auf die angegebene Literatur hier nicht angeführt werden. 5.1 Folgen und Reihen 141 Satz 5.1-3: Es seien an nN bzw. bn nN zwei konvergente Folgen mit den Grenzwerten a bzw. b. Dann gilt: (i) Es seien an nN und bn nN zwei konvergente Folgen mit demselben Grenzwert a R . Für fast alle Folgenglieder c n der Folge cn nN gelte a n c n bn . Dann konvergiert auch die Folge cn nN , und zwar zum selben Grenzwert a. (ii) Jede nach oben beschränkte und monoton wachsende Folge konvergiert, und ihr Limes ist gleich der kleinsten oberen Schranke (Supremum) ihrer Wertemenge. Jede nach unten beschränkte und monoton fallende Folge konvergiert, und ihr Limes ist gleich der größten unteren Schranke (Infimum) ihrer Wertemenge. Eine unbeschränkte, monoton wachsende bzw. monoton fallende Folge strebt gegen bzw. – . Bemerkung: Nicht jede beschränkte Folge ist konvergent. (iii) Jede Umordnung und jede Teilfolge einer konvergenten Folge ist ebenfalls konvergent mit demselben Grenzwert. Dasselbe gilt, wenn man endlich viele Folgenglieder einer konvergenten Folge abändert. Teil (i) ist wieder anschaulich klar. Formal lässt sich die Aussage wie folgt nachweisen: Es sei 0 und n0 eine natürliche Zahl, so dass für jedes n N mit n n0 an a 6 gilt. Entsprechend gibt es eine natürliche Zahl n1 mit bn a 6 für jedes n N mit n n1 . Für n max n0 , n1 ist an bn an a a bn an a bn a 2 6 3 und cn a cn an an bn bn a cn an an bn bn a bn an an bn bn a 2 3 6 . Für (ii) wird nur der erste Teil dargestellt: Es sei an nN eine beschränkte und monoton wachsende Folge. Mit s werde die kleinste obere Schranke der Menge M an n N aller Folgenglieder bezeichnet. Weiterhin sei 0 vorgegeben. Dann ist an s s . Der Wert s ist keine obere Schranke von M. Daher gibt es eine natürliche Zahl n0 , so dass an0 s gilt. Für jedes n N mit n n0 gilt wegen 142 5 Ausgewählte Themen der Analysis der Monotonie der Folge ebenfalls an s , insgesamt s an s bzw. an s . Also konvergiert an nN gegen s. Teil (iii) lässt sich durch Umnumerierung der Folgenglieder zeigen. Auf Details soll hier verzichtet werden. Das folgende Konvergenzkriterium von Cauchy gibt eine notwendige und hinreichende Eigenschaft der Konvergenz einer Folge an: Satz 5.1-4: Eine Folge an nN ist genau dann konvergent, wenn es zu jedem R mit 0 eine natürliche Zahl n 0 n 0 ( ) gibt, so dass gilt: a n a m für jedes n N und jedes m N mit n n0 und m n0 . Bemerkung: Ohne Beschränkung der Allgemeinheit kann angenommen werden, dass m n gilt. Dann kann die Ungleichung auch in der Form an k an für jedes n N mit n n0 und jedes k N geschrieben werden. Der Satz beinhaltet zwei Beweisrichtungen: Die Folge an nN sei konvergent gegen a. Dann gibt es zu R mit 0 eine natürliche Zahl n0 , so dass für jedes n N und jedes m N mit n n0 und m n0 gilt: an a 2 und am a 2 . Damit folgt an am an a a am an a am a . Für die umgekehrte Richtung soll die Beweisidee nur skizziert werden: Gibt es zu 0 eine natürliche Zahl n0 mit an am 2 für jedes n N und jedes m N mit n n0 und m n0 , so ist die Folge an nN beschränkt; denn an an0 2 für alle n N mit n n0 impliziert an an0 2 ; daher ist die größere der beiden Zahlen max an n n0 und an0 2 ei- ne Schranke für die Werte der Folge an nN . Als beschränkte Folge besitzt sie einen Häu- fungspunkt a (hier ohne Beweis), also einen Wert, an dem unendlich viele Folgenglieder beliebig nahe liegen. Für unendlich viele m N gilt am a 2 . Man wählt ein derartiges m n0 und erhält für n n0 : an a an am am a an am am a . 5.1 Folgen und Reihen 143 Satz 5.1-5: (i) Es sei q R . Dann gilt 0 für 1 q 1 lim q n ; n 1 für q 1 für q 1 und q 1 ist q n nN divergent. Ist k N und q 1, so ist lim (n k q n ) 0 . n (ii) Es sei a R . Dann ist für a 0 für a 0 für a 0 0 lim n a 1 n . (iii) Für jedes a R ist an 0. n n ! lim n (iv) 1 lim 1 e 2.7182818284590... ; n n e heißt Eulersche Konstante. (v) Die Folge n nN divergiert: mit wachsendem n werden die Folgenglieder belie- big groß. Hingegen werden die Zuwächse von einem Folgenglied zum nächsten mit wachsendem n beliebig klein; denn die Folge n 1 n n N konvergiert gegen 0. 1 1 1 divergiert. (vi) Die Folge 1 ... + n nN 0 2 3 144 5 Ausgewählte Themen der Analysis Für Teil (i) sei zunächst 0 q 1 . Die Folge ist monoton fallend und nach unten beispielsweise durch 0 beschränkt. Daher ist sie gemäß Satz 5.1-3 (ii) konvergent, etwa gegen den Grenzwert a. Aus q n ten Folgenglieds von wird die neue Folge q n 1 nN q n nN nN gebildet, die durch Fortlassen des ers- entsteht. Diese konvergiert ebenfalls gegen a. Daher ist a lim q n lim q n 1 q lim q n q a , also a 1 q 0 . Wegen 0 q 1 ist a 0 . n n Es werde jetzt n n 1 q 1 1 k 1 k 1 1 q 1, 1 k 1 q , n n gewählt. Dann folgt nacheinander n 1 q n 1 1 1 q 1 . Das zeigt, dass die Folge n k q n 1 1 1 q und nN fast nk q n n n überall monoton fällt; sie ist nach unten beschränkt; also konvergiert sie. Der „vermutete“ Grenzwert ist 0. Diese Vermutung lässt sich bestätigen: k k k Für k 1 sei b der Grenzwert von n q n n 1 q n 1 nN nN . Dann ist b ebenfalls der Grenzwert von , und es gilt b lim n q n lim n 1 q n 1 q lim n q n q lim q n q b , n n n n also b 0 . Für k 1 kann man wie folgt argumentieren: Es sei 0 und n0 N so gewählt, dass für jedes n N mit n n0 gilt: n ist). Dann ist n k q n n q n k n (das ist möglich, da lim n k q 0 n q . k n k k k Ist 1 q 0 , so konvergieren die Folgen q 2 (iv) gilt lim q n 0 bzw. lim n k q n 0 . n k n nN bzw. n k q n nN gegen 0. Nach Satz 5.1- n Für Teil (ii) mit a 0 sei zu 0 die natürliche Zahl n0 N so gewählt, dass für jedes a 1 1 1 a 1 . Für diese n ergibt sich dann n a n n bedeutet Konvergenz gegen 0. n N mit n n0 gilt: a a . Das Für Teil (iii) wird eine Fallunterscheidung nach der Größe von a getroffen: 0n a n 1n 1 an . Mit Satz 5.1-3 (i) folgt lim 0. n n ! n! n! n! n! Für a 1 sei n1 N diejenige eindeutig bestimmte natürliche Zahl mit n1 a n1 1 . Für Für 0 a 1 ist 0 a an a a ... a a ... a a n n1 n n1 1 gilt dann 0 C C n n1 n! 1 2 ... n1 n1 1 ... n n1 1 n1 1 n n1 mit der 5.1 Folgen und Reihen von n unabhängigen Konstanten C 145 a a n1 . Da 1 ist, konvergiert gemäß Teil (i) die n1 ! n1 1 an 0. n n ! rechte Seite gegen 0, und damit ist lim n an 0 , und nach Satz 5.1-2 (iv) ist lim 0. Für a 0 ist lim n n! n n ! a 1 n monoton wächst und beschränkt ist. Für Teil (iv) wird gezeigt, dass die Folge 1 n nN 0 Die Berechnung des Grenzwerts erfolgt dann am Ende des Kapitels. Einige Zahlenbeispiele machen die Monotonie und Beschränktheit der Folge plausibel (die Zahlenwerte sind in den letzten Stellen teilweise gerundet): n an 1 2 2 3 4 5 6 2,25 2,3703 2,4414 2,4883 2,5216 100 2,7048 10.000 2,718146 1.000.000 2,7182804693 Wie man leicht durch vollständige Induktion zeigt, gilt für x R mit x 1 und n N die Bernoulli’sche Ungleichung: 1 x 1 n x . n n 1 Es sei an 1 . Dann ist n n 1 1 an 1 n 2 nn n 2 n 2 n 1 1 . Mit der Bernoul 1 n 1 n 2 an n 1 n 1 n 1 n 1 n 1 n 12 n n li’schen Ungleichung folgt n 1 1 1 1 an 1 n 1 1 1 1 , also an 1 an . 1 1 2 2 an n 1 n 1 n 1 n 1 n 13 Die Beschränkung folgt aus n n n n 1 n 1 1 1 k 1 1 k . Für k 2 ist n k 0 k n k 2 k n n 1 n n 1 ... n k 1 1 n n 1 n k 1 1 1 1 k ... k 1 . k k!n k! n n n k! 1 2 ... k 2 k n Insgesamt ist daher n n 1 n n n 1 1 1 2n n 1 1 1 1 1 1 3 3 . 1 2 k 2 k 1 2 k 2 n 2 k 2 k n k 2 2 k 1 2 11 2 146 5 Ausgewählte Themen der Analysis Die Aussage in Teil (v) wurde am Anfang des Kapitels nachgewiesen. In Teil (v) wird ein Folgenglied an 1 1 1 1 ... + in Teilsummen zerlegt. Dazu sei l so 2 3 n bestimmt, dass 2l 1 n 2l ist. Dann ist 1 1 1 1 1 1 1 1 an 1 ... + l 1 ... . Die k-te Teilsumme für 1 k l 1 , n 2 3 4 5 6 7 2 1 1 1 k 1 ... k viele Summanden, und es ist lautet tk k 1 k 1 ; sie hat 2 2 1 2 1 2 1 1 1 2k 1 k tk 2k 1 k 1 1 . Damit lässt sich an abschätzen: 2 2 2 l 1 l 1 1 l l 1 1 an t k + l 1 ... t k l . Mit n geht auch , daher diver2 n k 1 2 2 k 1 giert an nN 0 . Das Beispiel in Satz 5.1-5 (vi) zeigt eine Folge in einer speziellen Form: Das n-te Folgenglied ist selbst eine Summe aus einer endlichen Anzahl von Summanden, die aus einer Folge stammen, die nach einer einheitlichen Gesetzmäßigkeit aufgebaut ist. Derartige Folgen sollen nun genauer betrachtet werden. Zur Zahlenfolge a n nN wird eine neue Zahlenfolge s n nN durch n sn ai i0 definiert. Der Wert s n heißt n-te Partialsumme von a n nN : s0 a0 , s 1 a 0 a1 , ... s n a 0 a1 ... a n s n 1 a n . 147 5.1 Folgen und Reihen n Falls der Grenzwert lim s n lim a i existiert, so heißt er unendliche Reihe der Folge n n i0 a n nN a i und wird a mit bezeichnet. i Gelegentlich schreibt man auch i0 a 0 a1 a 2 ... i0 Satz 5.1-6: (i) Der Grenzwert a existiert genau dann, wenn es zu jedem 0 eine natürli- i i0 che Zahl n0 gibt, so dass nk a i n 1 i für jedes n N mit n n0 und jedes k N gilt. (ii) Existiert der Grenzwert a i0 a i , so konvergiert die Folge a n nN gegen 0, d.h. aus folgt lim a n 0 . n i0 In Aussage (i) ist i a i 0 i der Grenzwert der Folge der Partialsummen: n a lim s lim ai . Setzt man in Satz 5.1-4 die Folge der Partialsummen ein, so ist i n n n i 0 i 0 sn k sn nk n i 0 i 0 ai ai nk a i n 1 i . Setzt man in (i) k 1 , so erhält man (ii). Bemerkung: Die Umkehrung von (ii) gilt i.a. nicht, d.h. aus der Konvergenz der Folge a n nN gegen 0 folgt i.a. nicht die Existenz von n Folge an nN 1 nN n zeigt: die Folge 1 nN n Folge der n-ten Partialsummen sn nN 1 i i _1 (vi)). a i , wie das Beispiel der i0 konvergiert gegen 0, aber die konvergiert nicht (Satz 5.1-5 148 5 Ausgewählte Themen der Analysis Der folgende technische Satz ergibt sich unmittelbar aus den Sätzen zur Arithmetik von Grenzwerten: Satz 5.1-7: Es seien a i und i0 (i) (ii) b i konvergent. Dann gilt: i0 i0 i0 i0 i0 i0 c ai c ai für jedes c R . ai bi a i bi . Zur Berechnung von a i sind folgende Schritte erforderlich: i0 1. Schritt: n Man bildet die n-te Partialsumme sn a i . Falls möglich, findet man hierfür einen gei0 schlossenen Ausdruck, der von n abhängt. 2. Schritt: n Man vollzieht den Grenzübergang n und erhält lim sn lim a i a i . n n i0 i0 Es sei m N . Unter n a versteht man den Grenzwert der Folge . ai i i m nN, n m i m 5.1 Folgen und Reihen 149 Satz 5.1-8: Falls ai existiert, so existiert auch i0 i i i 0 a i für jedes m N , und es gilt i m m1 a a a i m i . i 0 Der folgende Satz liefert einige Beispiele. Gerade Teil (iii) zeigt dabei, dass ähnlich erscheinende Reihen ganz unterschiedliches Konvergenzverhalten aufweisen. 150 5 Ausgewählte Themen der Analysis Satz 5.1-9: (i) Für q R mit 1 < q < 1 ist q i 1 , 1 q i q , 1 q i0 q i 1 q i q 1 q i 2 i 0 i 2 qi i 0 , q 1 q . (1 q )3 (ii) Die Reihen i 1 i0 (iii) 1 i 1 i 1 und 1 i existieren nicht (sind divergent). i 1 1 1 1 1 n 1 1 1 ... + 1 ... ln 2 2 3 4 i n 0,6931471805599 1 i 1 i 1 1 1 1 1 1 n 1 1 ... + 1 ... 2i 1 3 5 7 2n 1 4 0,7853981633974 1 1 1 1 1 2 1 ... ... 1,644934066848 2 4 9 16 6 n2 i 1 i 1 1 1 . i 1 i (i 1) i 2 i (i 1) (iv) 1 i i 1 konvergiert für jedes R mit 1. 5.1 Folgen und Reihen 151 Teil (i) folgt direkt aus den Ergebnissen aus Satz 1.6-2 und den Rechenregeln mit Grenzwerten in Satz 5.1-2. Beispielsweise ist q (n 1) q n 1 n q n 2 q , da die Teile (n 1) q n 1 und n q n 2 jeweils 2 n (1 q) 1 q 2 i qi lim i 0 gegen 0 konvergieren. In Teil (ii) lautet die n-te Partialsumme n 1 1 0 i für gerades n . Die Folge der Partialfür ungerades n summen hat also zwei unterschiedliche Häufungspunkte und ist daher nicht konvergent. i 0 Der Wert der ersten Reihe in Teil (iii) wird in Kapitel 5.9 berechnet. Zur Herleitung der zweiten und dritten Reihe in Teil (iii) und zu der Aussage inTeil (iv) werden teilweise Hilfsmittel der Mathematik benötigt, die hier nicht behandelt werden. Die 2. Aussage in Teil (iii) folgt unmittelbar aus Satz 1.6-2 (iii). Die rationalen Zahlen werden in Kapitel 1.4 durch Q m | m Z und n Z und n 0 n definiert. Im Folgenden wird eine Charakterisierung mit Hilfe ihrer Dezimalbruchentwicklung gegeben. Es sei r R eine reelle Zahl mit 0 r 1 , deren Dezimalbruchentwicklung nach endlich vielen Stellen nur noch aus den Ziffern 0 besteht, d.h. nach endlich vielen Stellen abbricht: m r 0, d 1d 2 ... d m 10 d i 10 i mit d i 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 für i 1, ..., m . i 1 d i eine rationale Zahl ist, gilt auch r Q . In diesem Fall ist 10i d d ... d r 0, d 1d 2 ... d m 10 1 2 m m 10 (im Zähler steht die natürliche Zahl, deren Dezimal10 zahldarstellung aus der Ziffernfolge der Dezimalbruchentwicklung besteht, und im Nenner steht die Zahl, deren Dezimaldarstellung von links gelesen aus einer Ziffer 1, gefolgt von m Ziffern 0 besteht). Da jeder Summand d i 10 i 152 5 Ausgewählte Themen der Analysis Es sei nun r R eine reelle Zahl mit 0 r 1 , deren Dezimalbruchentwicklung aus einem nichtperiodischen und einem periodischen Teil besteht, etwa r 0, d 1d 2 ... d m d m1d m2 ... d mk ... 10 . Hierbei wiederholt sich die Ziffernfolge d m1 d m 2 ... d m k beliebig oft, und es kommen keine nichtperiodischen Abschnitte in der Dezimalziffernfolge mehr vor. Zu beachten ist, dass man mit der Periodennotation nur endlich viele Dezimalziffern notieren muss, obwohl die Zahl in ihrer Dezimaldarstellung unendlich viele Ziffern benötigt. Es ist r 0, d 1d 2 ... d m d m1d m2 ... d mk ... 10 0, d 1d 2 ... d m 10 0, 00 ... 0 d d ... d ... . 1 2 m m m k mmal 10 Der zweite Summand hat den Wert ...0d m1d m2 ... d mk ... 0, 00 mmal 10 1 10 m 0, d m1d m2 ... d mk ... 10 1 10 m d m1d m2 ... d mk 10 i 1 (im Zähler die Dezimalzahl d m1d m2 ... d mk ) 10 k i 1 10m d m1d m2 ... d mk 10 i 1 1 10 m 1 10 k i k 1 10 d m1d m2 ... d mk 10 k 1 1 10 1 10m d m1d m2 ... d mk 10 (nach Satz 5.1 - 9 (i)) 1 . 10 1 k Insgesamt ergibt sich r 0, d 1d 2 ... d m d m1d m2 ... d mk ... 10 d 1d 2 ... d m 10 d m1d m2 ... d mk 10 , 10 m 10m 10 k 1 (die Dezimaldarstellung der Zahl 10 m 10 k 1 besteht von links gelesen aus k Ziffern 9, gefolgt von m Ziffern 0). Auch hier gilt wieder r Q . Bemerkung: Die Zahl 0,9 ... 0,9 ... 0,9 9 ... 5.1 Folgen und Reihen 153 m 1 und k 1 ist hat den Wert 1; denn mit 9 9 1. 10 10 10 1 a mit a N b und b N mit b 1 gegeben. Es ist ggT a, b 1 . Im Folgenden wird gezeigt, dass r Es sei umgekehrt die rationale Zahl r Q mit 0 r 1 in gekürzter Form r entweder als endliche nichtperiodische Dezimalbruchentwicklung oder als rein periodische Dezimalbruchentwicklung oder als endliche nichtperiodische Ziffernfolge, gefolgt von einer endlichen periodischen Ziffernfolge dargestellt werden kann. In den letzten beiden Fällen ist die Periodenlänge kleiner oder gleich b 1. Für den Nachweis dieser Aussage werden drei Fälle unterschieden: 1. Fall: b hat die Form b 2i 5 j mit i j m 1 . Dann teilt b die Zahl 2i j 5i j 10i j 10m , d.h. 10m b b mit einer natürlichen a a a b a Zahl b . Der Bruch lässt sich umschreiben in m . Da r 1 gilt, ist b b 10 b m 0 a b 10 . Die Darstellung von a b als Dezimalzahl hat endliche Länge und m 1 lautet a b d l 10l mit den Dezimalziffern d 0 , ..., d m1 ; zu beachten ist hierbei, l 0 dass a b als Dezimalziffernfolge a b d m1 ... d 0 10 lautet. Damit ergibt sich m 1 a a b b 10 m d l 0 l 10l 10 m m 1 m l 0 l 1 d l 10l m d ml 10 l , also die endliche nichtperiodische Dezimalbruchentwicklung a 0, d m1 ... d 0 10 . b 2. Fall: ggT b, 10 1 Nach Satz 3.4-2 gilt in diesem Fall 10 ( b ) 1 (mod b) . Es gibt also eine kleinste natürliche Zahl m (b) , so dass b die Zahl 10m 1 teilt. Wie im 1. Fall ist 154 5 Ausgewählte Themen der Analysis a a a b mit b b 10m 1 . Wegen 1 ist 0 a b 10m 1 ; die Darstellung m b 10 1 b m 1 von a b als Dezimalzahl hat wieder endliche Länge und lautet a b dl 10l mit l 0 den Dezimalziffern d 0 , ..., d m1 ; zu beachten ist auch hier, dass a b als Dezimalziffernfolge a b d m1 ... d 0 10 lautet. Nach Satz 5.1-9 (i) gilt 1 10 1 m 1 10 i 1 m i und damit m1 a a b m d l 10l 10mi b 10 1 l 0 i1 d 0 10 mi d1 10 10mi ... d m1 10 m1 10mi i1 i1 i1 d 0 10mi d1 10mi1 ... d m110mim1 i1 i1 i1 d 0 10mi d1 10mi1 ... d m110mim1 i 1 m1 dl 10l mi i 1 l 0 m1 dl 10l mi1m i 1 l 0 m1 10i1m d l 10l m i 1 l 0 m 10i1m d ml 10l . i 1 l 1 Diese Zahl in der Darstellung als Dezimalbruchentwicklung lautet a 0, d m1 ... d 0 d m1 ... d 0 d m1 ... d 0 ... 0, d m1 ... d 0 ... 10 , b i 1 i 2 i 3 10 ist also ein rein periodischer Dezimalbruch. Offensichtlich ist (wegen b 3 ) m (b) b 1 . Das bedeutet, dass die Periodenlänge m kleiner oder gleich b 1 ist. 3. Fall: b hat die Form b 2i 5 j b mit i j m 1 , b 1 und ggT b, 10 1 . Wie im 1. Fall lässt sich der Bruch 2i j 5i j 10i j 10m . Gilt a b erweitern zu a a 2 j 5i a 2 j 5i i j i j b 2 5 b 10 m b mit a 2 j 5i 1 , dann kann man den Zähler in der Form b a 2 j 5i k b a mit k N und 0 a a 2 j 5i mod b b schreiben, d.h. 155 5.1 Folgen und Reihen a 2 j 5i a a a 2 j 5i 1 , dann hat der Bruch ebenfalls die k , 0 1 . Ist b b b b a 2 j 5i a k (mit k 0 und a a 2 j 5i ). In beiden Fällen ergibt sich b b aus ggT a, b 1 und ggT b, 10 1 , dass auch ggT a, b 1 ist; denn für Form a 2 j 5i 1 folgt mit Satz 3.3-2: b 5 , b 1 . Die ggT a, b ggT a 2 j 5i mod b, b ggT a 2 j 5i , b 1 , und für bereits ggT a, b ggT a 2 j i h 1 k d l 10l d h1 ... d 0 10 , die Darstellung von l 0 a 2 j 5i 1 ist b Dezimalzahldarstellung von k sei a als Dezimalbruch gemäß dem 2. b a a 2 j 5i a Fall sei k die Dezimaldarstellung 0, d n1 ... d 0 ... 10 Dann hat b b b a a 2 j 5i a als Dezimal k d h1 ... d 0 , d n 1 ... d 0 ... 10 . Die Darstellung von b b b bruch enthält genau dieselbe Ziffernfolge, nur ist das Komma um m Stellen nach a links geschoben, d.h. die Dezimalbruchdarstellung von besteht aus einer endlib chen nichtperiodischen Ziffernfolge, gefolgt von einer endlichen periodischen Ziffernfolge. Auch hier ist die Periodenlänge kleiner oder gleich b 1 b 1 . Die Betrachtung bezieht sich auf rationale Zahlen r Q mit 0 r 1 . Sie ist natürlich auf ganz Q erweiterbar: Q z r | z Z und (r 0, d 1d 2 ... d m 10 oder r 0, d 1d 2 ... d m d m1d m2 ... d mk ... 10 ) , d.h. Q besteht aus allen Zahlen, deren gebrochener Anteil in Dezimaldarstellung entweder nach endlich vielen Dezimalziffern abbricht (es folgen nur noch Nullen) oder unendlich periodisch endet. Irrationalen Zahlen haben demzufolge einen gebrochenen Anteil in Dezimaldarstellung, der unendlich und nichtperiodisch ist. Eine Reihe a i 0 i heißt absolut konvergent, wenn die Reihe a i 0 i konvergiert. 156 5 Ausgewählte Themen der Analysis nk ai Für jedes n N und jedes k N ist i n 1 nk a i n 1 i . Hieraus ergibt sich mit Satz 5.1-6 (i) unmittelbar, dass jede absolut konvergente Reihe auch konvergiert, d.h. aus der Konvergenz von ai . Mit n 0 und k ergibt sich ai folgt die Konvergenz von i 0 i 0 i 0 i 0 ai ai . Unter bestimmten Voraussetzungen kann man Reihen miteinander multiplizieren, jedenfalls dann, wenn sie absolut konvergent sind. Die folgende (nichtmathematische) Darstellung liefert die Motivation für die etwas komplizierte Indizierung in den auftretenden Reihen. Zwei Reihen ai und i 0 b i 0 werden miteinander multipliziert, indem die einzelnen Summanden i nach der Summe ihrer Indizes sortiert werden: a0 a1 a2 a3 ... an ... b0 b1 b2 b3 ... bn ... n a0 b0 a0 b1 a1 b0 a0 b2 a1 b1 a2 b0 ... a j bn j ... j 0 Indexsumme 0 Indexsumme 1 Indexsumme 2 Indexsumme n Satz 5.1-10: Sind die Reihen ai a und i 0 i a i 0 k 0 k b i 0 i b absolut konvergent, so ist auch die Reihe bik absolut konvergent, und es gilt i a b ai bi a b . k ik i 0 k 0 i 0 i 0 Auf den technisch aufwendigen Beweis wird hier verzichtet. Im allgemeinen ist die Bestimmung des Konvergenzverhaltens einer Reihe nicht einfach, so dass sich die Frage nach Konvergenzkriterien für Reihen stellt. Ein „Negativkriterium“ lie fert Satz 5.1-6: Falls für eine Reihe a i 0 i die Folge a n nN nicht gegen 0 konvergiert, exis- tiert auch der Grenzwert a i nicht. Zwei „Positivkriterien“ für absolute Konvergenz sind i 0 im folgenden Satz zusammengefasst. 157 5.1 Folgen und Reihen Satz 5.1-11: (i) (Majorantenkriterium) Ist b i 0 i absolut konvergent und gilt ai bi für (fast) alle i N , so ist auch die Reihe a absolut konvergent. i i 0 (ii) (Quotientenkriterium) Die Reihe a i besitze die Eigenschaft, dass ab einem Index n0 N stets i 0 an1 q für einen Wert q mit 0 q 1 gilt. Dann ist die Reihe an konvergent. Ist ab einem Index stets a i absolut i 0 an1 1 , so ist die Reihe divergent. an Es sei B bi . In Aussage (i) wird die Existenz von B vorausgesetzt. Damit ergibt sich i 0 n n a b B , d.h. die Folge ai ist monoton wachsend und nach oben be i i i 0 i 0 i 0 nN n schränkt. Nach Satz 5.1-3 (ii) konvergiert daher a i absolut. i 0 In Aussage (ii) gelte an1 q für n n0 , also an 1 q an ... q n n0 1 an0 . Für n n0 1 an ist daher an q n an0 q n0 . Die Reihe q a i 0 i n0 q n0 konvergiert nach Satz 5.1-9 (i) ab- solut und damit nach (i) auch a i . i 0 Es sei x R . Die Reihe xi ist absolut konvergent; denn nach Satz 5.1-11 (ii) ist i 0 i! x x n1 n 1! x 1 2 für jedes n N mit n 2 x 1 . Daher ist die Definition n x n! n 1 n 1 der folgenden Funktion sinnvoll. 158 5 Ausgewählte Themen der Analysis Die Funktion R exp : x R xi i 0 i! heißt Exponentialfunktion. Wichtige Eigenschaften der Exponentialfunktion und verwandter Funktionen werden in Kapitel 5.5 behandelt. n 1 In Satz 5.1-5 (iv) wurde die Eulersche Konstante als lim 1 e 2.7182818284590... n n n 1 1 definiert. Wie man direkt nachrechnet, gilt k . Daher ist (siehe Kapitel 4.1) k! k n n n n n 1 1 1 1 k . n k 0 k n k 0 k! n n 1 1 1 Daraus folgt e lim1 lim . Es sei umgekehrt n m 1 . Dann ist n n n k 0 k ! k 0 k ! n m n 1 m 1 n n 1 n k 1 m 1 1 1 k 1 ... 1 k 1 1 ... 1 . n n n k 0 k n k 0 k! n n k 0 k! n n m 1 1 Durch Limesbildung folgt e lim1 n n k 0 k! und durch erneute Limesbildung 1 1 . Insgesamt ergibt sich m k 0 k! k 0 k! m e lim 1 e exp(1) . i 0 i! n x Es sei x R . Die obige Abschätzung lässt sich auf 1 übertragen: n n n xk xk k 1 x 1 1 1 ... 1 1 und n n k 0 k! n k 0 k! m n xk x lim1 exp x . n n k 0 k! 5.1 Folgen und Reihen 159 Es lässt sich nun leicht zeigen, dass e keine rationale Zahl ist. Denn angenommen, e ließe sich als Bruch e p q mit p N 0 1 q 1 1 und q N 0 , dann folgt e und i 0 i! i 0 i! i q 1 i! q q! q! 1 q! e . Die linke Seite der letzten Gleichung ist gleich i 0 i! i q 1 i! i 1 q i ! q! q! q! p q 1! ... , also eine ganze Zahl. Da die rechte Seite positiv ist, ist die linke q! 0! 1! i q! 1 1 , Seite aus N 0 . Für die Summanden der rechten Seite gilt q i ! q 1 ... q i 2 also 0 i q! 1 1 1 1 . Dieses Ergebnis widerspricht der Folgerung, dass 11 2 i q 1 i! i 1 2 der Wert aus aus N 0 ist. Daher ist e irrational. xi Die Exponentialfunktion, die durch die Reihe definiert wird, kann man durch eine endi 0 i! liche Summe und einen Restfehlerterm darstellen, dessen Größe man abschätzen kann: Satz 5.1-12: Es sei n N und x R mit x 1 xi n : . Dann gilt mit Rn 1 ( x) 2 i n 1 i! n 1 n 2 x xi xi exp( x) Rn1 ( x) und Rn1 ( x) . n 1! i 0 i! i 0 i! Die Abschätzung des Restterms sieht man wie folgt: x x n n2 1 Wegen x 1 ist für jedes i 0 . n2i n2 2 2 2 Rn 1 ( x) i x i n 1 i! n 1 x n 1 n 1! i n 1 x i i n 1 n 1! i! 1 2 x0 x x ... n 1! 1 n 2 n 2 n 3 x n 1 n 1 1 2 x . n 1! i 0 2 n 1! x Für x 1 und n 10 liefert Satz 5.1-12 die Abschätzung R11 (1) 0,00000006 und damit 2,71828180 < e < 2,71828186. 160 5 Ausgewählte Themen der Analysis Der folgende Satz gibt ein Konvergenzkriterium für Reihen mit alternierenden Folgengliedern, d.h. jeweils aufeinanderfolgende Folgenglieder wechseln ihr Vorzeichen. Außerdem wird eine Abschätzung des Restterms gegeben, wenn die Reihe nach dem n-ten Folgenglied abgebrochen wird. Satz 5.1-13 (Leibnizkriterium): Es sei an nN eine Folge reeller Zahlen mit an 0 und an 1 an für alle n N und mit lim a n 0 . Dann konvergiert die Reihe n 1 a 1 a , und es gilt i i i 0 n 1 an 1 mit 0 n 1 . n 1 i i i n 1 Für die Folge der Partialsummen mit geraden Index s2n nN gilt 2 n s2n 1 ai a0 a1 a2 a3 ... a2n 2 a2n 1 a2n i i 0 a0 a1 a2 a3 ... a2n 2 a2n 1 a2n a2n 0 und s2n 2 s2n a2n 2 a2n 1 0 , d.h. s2n 2 s2n . Für die Folge der Partialsummen mit ungeraden Index s2n 1 nN gilt entsprechend s2n 1 2 n 1 1 a i i i 0 a0 a1 a2 a3 ... a2n a2n 1 a0 a1 a2 a3 ... a2n a2n 1 0 und s2n 3 s2n 1 a2n 3 a2n 2 0 , d.h. s2n 3 s2n 1 . Außerdem ist 0 s2n 1 s2n a2n 1 s2n a0 a1 a2 ... a2n 1 a2n a0 . Nach Satz 5.1-3 konvergieren s2n nN und s2n 1 nN . Es ist lim s2n 1 s2n lim a2n 1 lim a2n 1 0 , also ist lim s2n 1 lim s2n , und damit exis- n n n n n tiert S 1 ai lim sn , und es gilt 0 S a0 , also S a0 mit 0 1 . i n i 0 Der Restterm 1 a i n 1 i i ist nichts anderes als eine Reihe mit alternierenden Folgengliedern, die mit dem Index n 1 beginnt: i n 1 i 0 i 1 ai ai gen gelten auch für diese Reihe, so dass 0 n 1 gilt. mit ai 1 i n 1 i n 1 i 0 ai n 1 . Die Überlegun- i n 1 1 ai ai n a0 n 1 an 1 mit 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 5.2 161 Eigenschaften reeller Funktionen einer Veränderlichen Im vorliegenden Kapitel werden eine Reihe wichtiger Definitionen zusammengestellt, die Eigenschaften reeller Funktionen einer Veränderlichen beschreiben. Im Folgenden sei f : X R , X R , und I R sei ein Intervall (siehe Kapitel 1.7). f heißt auf I monoton steigend (bzw. monoton fallend), wenn für x 1 I und x 2 I gilt: Ist x 1 x 2 , so ist f ( x1 ) f ( x 2 ) (bzw. ist x1 x 2 , so ist f ( x1 ) f ( x 2 ) ). Der Graph einer monoton steigenden Funktion fällt also mit wachsenden x-Werten nicht ab; der Graph einer monoton fallenden Funktion steigt also mit wachsenden x-Werten nicht. f heißt auf I streng monoton steigend (bzw. streng monoton fallend), wenn für x 1 I und x 2 I gilt: Ist x1 x 2 , so ist f ( x1 ) f ( x 2 ) (bzw. ist x 1 x 2 , so ist f ( x1 ) f ( x 2 ) ). f heißt auf I beschränkt, wenn es ein c R 0 gibt, so dass für jedes x I gilt: f ( x ) c . Der Graph einer beschränkten Funktion verläuft also weder oberhalb von c noch unterhalb von c . f heißt auf I nach oben beschränkt (bzw. nach unten beschränkt), wenn es ein c R gibt, so dass für jedes x I gilt: f ( x ) c bzw. f ( x ) c . f heißt konvex über I, wenn für x 1 I und x 2 I mit x 1 x 2 und für jedes l R mit 0 l 1 gilt: f (l x 2 (1 l ) x 1 ) l f ( x 2 ) (1 l ) f ( x1 ) . 162 5 Ausgewählte Themen der Analysis f(x) f(x 2) f(x1 ) + l (f(x2 ) - f(x1 )) = l f(x2 ) + (1 - l) f(x1 ) f(l x2 + (1 - l) x1) konvex f(x1) x1 l x2 + (1 - l) x1 x2 = x1 + l (x2 - x1) Nimmt man also zwei beliebige verschiedene Werte x 1 I und x 2 I und verbindet die Punkte ( x 1 , f ( x1 )) und ( x 2 , f ( x 2 )) des Graphen einer über I konvexen Funktion durch eine gerade Linie, so verläuft der Graph zwischen ( x1 , f ( x1 )) und ( x 2 , f ( x 2 )) unterhalb dieser Verbindungslinie. Betrachtet man diese Verbindungslinie als Annäherung an den Graphen der Funktion zwischen ( x 1 , f ( x1 )) und ( x 2 , f ( x 2 )) , so macht man einen Approximationsfehler in Richtung größerer Werte, d.h. die Approximation liefert zu große Werte. f heißt konkav über I, wenn für x1 I und x 2 I mit x1 x 2 und für jedes l R mit 0 l 1 gilt: f (l x 2 (1 l ) x1 ) l f ( x 2 ) (1 l ) f ( x1 ) . Bei einer konkaven Funktion verläuft der Graph oberhalb der entsprechenden Verbindungslinie. Betrachtet man auch hier wieder die Verbindungslinie zwischen den Punkten ( x 1 , f ( x1 )) 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 163 und ( x 2 , f ( x 2 )) als Annäherung an den Graphen der Funktion, so liefert sie hier zu kleine Werte. f heißt streng konvex über I, wenn für x 1 I und x 2 I mit x 1 x 2 und für jedes l R mit 0 l 1 gilt: f (l x 2 (1 l ) x1 ) l f ( x 2 ) (1 l ) f ( x1 ) . f heißt streng konkav über I, wenn für x1 I und x 2 I mit x1 x 2 und für jedes l R mit 0 l 1 gilt: f (l x 2 (1 l ) x1 ) l f ( x 2 ) (1 l ) f ( x1 ) . Eine Funktion kann in Teilintervallen ihres Definitionsbereichs (streng) konvex und in anderen Teilintervallen (streng) konkav sein. Die Funktion f : X R , X R heißt stetig im Punkt x 0 X , wenn gilt: Für jedes R mit 0 gibt es ein 0 , das von und x 0 abhängen kann (d.h. ( , x 0 ) ), mit folgender Eigenschaft: Für jedes x X mit x x0 ist f ( x ) f ( x 0 ) . Die Funktion f : X R heißt stetig in D X , wenn f in jedem Punkt x 0 D stetig ist. Für einen Wert x R und ein 0 bezeichnet man das offene Intervall U ( x) z x z x z x z als -Umgebung von x. Mit dieser Bezeichnung bedeutet die Stetigkeit einer Funktion f : X R in einem Punkt x 0 X : Zu jeder -Umgebung U f x0 , von f x 0 gibt es eine (von und x 0 abhängige) Umgebung U x0 , von x0 , die durch f ganz nach U f x0 , abgebildet wird, d.h. für die 164 5 Ausgewählte Themen der Analysis f U x0 , U f x0 , gilt. Anschaulich heißt dieses, dass für ein Argument x, das sich „nahe bei“ x 0 befindet (in der -Umgebung U x0 , von x0 ), der Funktionswert f ( x ) „nahe bei“ f ( x 0 ) liegt (in der -Umgebung U f x0 , von f x0 ). Eine „sehr kleine Änderung“ des Arguments, d.h. der Übergang von x0 zu x mit x x0 , führt zu einer „sehr kleinen Änderung“ von f ( x 0 ) , d.h. der Funktionswert f ( x ) erfüllt f ( x ) f ( x 0 ) . Insbesondere macht der Graph der Funktion an der Stelle bzw. „nahe“ der Stelle x0 keinen Sprung. Graphen stetiger Funktionen lassen sich in einem Zuge zeichnen, ohne den Zeichenstift abzusetzen. Der Graph einer in x 0 X stetigen Funktion weist in ( x0 , f ( x0 )) keine Sprungstelle auf. Ändert sich die Funktion f in der Nähe von x 0 langsam, so wird man keine Mühe haben, zu vorgegebenem 0 ein passendes 0 zu finden; ändert sie sich rasch, so wird man entsprechend klein wählen müssen. Beispiele: Die Funktion R > 0 f : x R 1 x ist stetig in jedem Punkt x 0 R >0 : Zu 0 kann man ( , x0 ) x02 0 nehmen. 1 x0 Ist nämlich x X mit x x0 , so ist f ( x) f ( x0 ) 1 x 1 x0 x0 x . x x0 x x0 x0 x0 Die letzte Ungleichung ergibt sich aus der Annahme x x0 , die gleichbedeutend ist mit x0 x x0 (also gilt insbesondere x0 x bzw. 1 x 1 x0 ). Setzt man x02 , also insgesamt f ( x) f ( x0 ) . ein, so sieht man x0 x0 1 x0 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 165 Die Funktion R 0 f : x R x ist stetig in jedem Punkt x 0 R 0 . Zu 0 und x 0 0 wähle man z.B. ( , x 0 ) 2 . Man beachte, dass hier nur von und nicht von x 0 abhängt. Ist nämlich x X mit x x0 und x x0 (für x x0 gilt sowieso f ( x) f ( x0 ) 0 ): f ( x) f ( x0 ) x x0 x x0 x x0 x x0 x x0 x x0 x x0 x x0 . Die letzte Ungleichung folgt aus der binomischen Formel: Sind a R 0 und b R 0 reelle Zahlen, so gilt: a b a b 2 a b 2 a b ; außerdem gilt a b a b und damit a b a b a b . Die obige Ungleichung wird fortgesetzt: f ( x) f ( x0 ) x x0 x x0 x x0 2 . Wie im Fall der Konvergenz ist das zu vorgegebenem 0 „passende“ 0 nicht immer leicht zu finden; hier ist häufig mathematische Phantasie gefragt. Man kann beispielsweise die konkrete Angabe von zunächst offen lassen und versuchen, die Ungleichung f ( x) f ( x0 ) so umzuformen, dass dort der Ausdruck x x0 vorkommt, von dem man dann ja annimmt, dass er kleiner als ist. Dann versucht man, die so entstandene Ungleichung nach aufzulösen. Das folgende Beispiel soll die Vorgehensweise erläutern. Die Funktion R R f : 2 x x 166 5 Ausgewählte Themen der Analysis ist in jedem Punkt x0 R stetig. Zu 0 und x 0 R setzt man beispielsweise ( , x0 ) ? Es wird zunächst f ( x) f ( x0 ) in Abhängigkeit von x x0 und x0 bestimmt: f ( x) f ( x0 ) x 2 x02 x x0 x x0 x x0 x x0 x x0 x x0 2 x0 . In der letzten Ungleichung wurden die später zu treffende Annahme x x0 und die aus dieser Ungleichung leicht nachzurechnende Folgerung x x0 bereits verwendet. Wie ist also zu wählen, damit 2 x0 ist (hier reicht auch „=“ anstelle von „<“, da ja in der Ungleichungskette bereits „<“ vorkommt)? 2 x0 2 2 x0 x0 x0 x0 x0 2 2 2 2 ergibt ( , x 0 ) x0 2 x0 . 2 Da der Ausdruck unter dem Wurzelzeichen größer als x0 ist, ist auch 0 . Wählt man den so angegebenen Wert von , so folgt aus x x0 die Ungleichung f ( x) f ( x0 ) . Die Funktion f : X R heißt gleichmäßig stetig in D X , wenn es für jedes R mit 0 ein 0 gibt, das höchstens von abhängt (d.h. ( ) ), mit folgender Eigenschaft: Für jedes x D und für jedes y D mit x y ist f ( x ) f ( y) . Jede in D X gleichmäßig stetige Funktion ist dort natürlich auch stetig. Es gibt jedoch stetige Funktionen, die nicht gleichmäßig stetig sind, wie das Beispiel der Funktion R R f : zeigt: 2 x x 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 167 Angenommen, f wäre gleichmäßig stetig. Es sei 0 vorgegeben, und 0 sei der zugehörige Wert aus der Definition der gleichmäßigen Stetigkeit. Es wird ein Wert gewählt mit 0 und eine große reelle Zahl x R mit 2 x (einen derartigen Wert x findet man immer, da der Ausdruck links beliebig groß gemacht werden kann). Außerdem wird y x gesetzt. Dann ist x y x x , aber f ( x) f ( y ) x 2 y 2 y 2 x 2 x x 2 2 x 2 2 x . 2 Es lässt sich zeigen, dass eine auf R gleichmäßig stetige Funktion „nicht zu schnell wächst“, nämlich höchstens wie eine lineare Funktion (genauer: Ist f : R R gleichmäßig stetig, so gibt es eine Konstante C 0 mit f ( x ) C (1 x ) ). Satz 5.2-1: Die folgenden beiden Aussagen (a) und (b) sind gleichbedeutend: (a) f : X R ist an der Stelle x 0 X stetig. und (b) Für jede Folge x n nN mit lim x n x 0 gilt lim f ( x n ) f ( x 0 ) . n n Um die Äquivalenz beider Aussagen zu beweisen, wird zunächst „(a) (b)“ gezeigt: Die Funktion f : X R sei an der Stelle x 0 X stetig, und es sei x n nN eine Folge mit lim x n x 0 . Zu 0 gibt es 0 mit f ( x ) f ( x 0 ) für jedes x X mit x x0 . n Aufgrund der Konvergenz der Folge x n nN gibt es zu ein n0 N mit xn x0 für jedes n n0 . Daher ist f ( xn ) f ( x0 ) für jedes n n0 , d.h. die Folge f xn nN konvergiert gegen f ( x0 ) . Für die Umkehrung „(b) (a)“ wird (b) als gültig vorausgesetzt, aber angenommen, dass f in x0 nicht stetig ist. Das bedeutet, dass es 0 gibt, so dass für alle 0 ein x X mit x x0 , aber f ( x ) f ( x0 ) existiert. Es werden alle der Form 1 n mit n 1 betrachtet. Zu jedem n N mit n 1 gibt es also ein x1 n X mit x1 n x0 1 n , aber f ( x1 n ) f ( x0 ) . Die Folge x1 n nN, n 1 konvergiert gegen x0 . Nach Voraussetzung (b) 168 5 Ausgewählte Themen der Analysis konvergiert f ( x1 n ) nN , n 1 gegen f ( x0 ) , d.h. f ( x1 n ) f ( x0 ) für fast alle n N im Wi- derspruch zur Konstruktion von x1 n nN, n 1 . Mit Hilfe des Satzes 5.2-1 lässt sich häufig nachweisen, dass eine Funktion in einem Punkt x 0 X nicht stetig ist. Dazu braucht man nur eine einzige Folge x n nN anzugeben, die ge- gen x 0 X konvergiert, deren Bildwerte unter f aber nicht gegen f ( x 0 ) gehen. Beispiel: Die Funktion R R für x 1 x f : x x 1 für x 1 ist in x 0 1 nicht stetig. Dazu betrachte man die Folge x n nN mit x n 1 1 (n 1) . Es gilt lim x n 1. n Andererseits ist f ( x n ) 1 1 (n 1) und f ( x 0 ) f (1) 2 , also lim f ( x n ) f ( x 0 ) . n Satz 5.2-2: Sind f : X R und g: X R mit X R stetig, so auch die folgenden Abbildungen: (i) X f g: x (ii) X f g: x (iii) X f : x (iv) X c f : x R f ( x ) g( x ) R f ( x ) g( x ) R f (x) R mit c R c f (x) ../.. 5.2 Eigenschaften reeller Funktionen einer Veränderlichen (v) X Ist g( x 0 ) 0 , so ist f / g: x 169 R f ( x ) in x R stetig. 0 g( x ) (vi) Mit f und g ist auch g f stetig. (vii) Es sei X R ein Intervall und f : X R eine streng monoton steigende/fallende stetige Funktion. Dann ist f X ein Intervall, f : X f X ist bijektiv, und die Umkehrfunktion 1 f : f X X ist streng monoton stei- gend/fallend und stetig. Die Teile (i) – (v) ergeben sich mit Satz 5.2-1, jeweils zusammen mit den Regeln aus Satz 5.1-2. Die Teile (vi) und (vii) verifiziert man durch Anwendung von Satz 5.2-1. Teil (vi) wendet Satz 5.2-1 an: Es sei x0 X und x n nN eine Folge mit lim x n x 0 , dann n gilt wegen der Stetigkeit von f lim f ( x n ) f ( x 0 ) . Wegen der Stetigkeit von g ist n lim g f ( xn ) g f ( x0 ) . Daher ist g f in x0 stetig. n Teil (vii) bedarf einer genaueren Betrachtung, hier für den Fall, dass f streng monoton steigend ist: Dazu seien und y1 f X , etwa y0 f x0 und y1 f x1 mit x0 X und x1 X und x0 x1 . Wegen der Monotonie von f ist y0 f x0 f x1 y1 . Es sei y y0 , y1 . Im folgen- den Satz 5.2-3 (ii) wird nachgewiesen, dass es zu y R mit y0 y y1 ein x X mit x0 x x1 und f x y gibt5. Das bedeutet y f X bzw. y0 , y1 f X . Aus Satz 1.7-3 folgt, dass f X ein Intervall ist. Sind x0 X und x1 X mit x0 x1 , dann ist wegen der strengen Monotonie von f im Fall x0 x1 auch f x0 f x1 , und im Fall x0 x1 auch f x0 f x1 , also f x0 f x1 . Daher ist f injektiv (und f : X f X nach Definition surjektiv), und es existiert die Umkehrabbil1 dung f : f X X . Diese ist streng monoton steigend: Dazu seien y0 f X und y1 f X , etwa y0 f x0 und y1 f x1 mit x0 X und x1 X und y0 y1 . Wäre x0 x1 , so folgte wegen der Mono1 1 tonie von f ist y0 f x0 f x1 y1 . Also ist x0 f y0 f y1 x1 . 5 Da für Satz 5.2-3 (ii) die Aussage in Satz 5.2-2 (vii) nicht verwendet wird, ist dieser „Vorgriff“ zulässig. 170 5 Ausgewählte Themen der Analysis 1 Die Stetigkeit von f : f X X sieht man wie folgt: Es sei y0 f X und 1 yn nN eine Folge in f X eine Folge mit lim yn y0 . Es sei n 1 x0 f y0 und xn f yn , also lim f xn f x0 . Gemäß Satz 5.2-1 ist lim xn x0 zu zein n gen. Falls xn nN nicht gegen x0 konvergiert, so gibt es ein 0 , so dass für unendlich viele n N xn x0 gilt. Die Menge dieser natürlichen Zahlen (Indizes) sei M. Definiert man M n xn x0 und M n xn x0 , so ist M M M , und mindestens eine der Mengen M oder M hat unendlich viele Elemente, etwa M . Für jedes n M ist (wegen der strengen Monotonie von f) f xn f x0 f x0 . Das bedeutet: es gibt 0 , nämlich f x0 f x0 , so dass für unendlich viele n N , nämlich für jedes n M , die Abschätzung f xn f x0 f x0 f x0 gilt. Diese Schlussfolgerung steht im Widerspruch zu lim f xn f x0 . n Satz 5.2-2 (vii) begründet die Existenz der Wurzelfunktionen in den reellen Zahlen, d.h. die Bildung einer beliebigen Wurzel aus einer reellen Zahl. Dazu wird für n N mit n 1 die Funktion R0 R fn : 0 n x x betrachtet. Sie ist auf R 0 stetig und streng monoton steigend. Nach Satz 5.2-2 (vii) ist sie bijektiv, und die Umkehrabbildung ist streng monoton steigend und stetig. Sie wird als n-te Wurzelfunktion bezeichnet: R 0 fn : x 1 n 1 R 0 f n x n x x ist derjenige Wert y R , für den y n x gilt. Der folgende Satz, der in 5.2-2 (vii) bereits verwendet wurde, drückt noch einmal aus, dass der Graph einer stetigen Funktion keine Sprünge aufweist. 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 171 Satz 5.2-3: (Zwischenwertsatz) Es seien a R und b R reelle Zahlen mit a b . Die Funktion f : a, b R (i) sei im Intervall a, b stetig. Außerdem gelte f (a) 0 f (b) . Dann gibt es ein a, b mit f 0 . (ii) Es seien a R und b R reelle Zahlen mit a b . Die Funktion f : a, b R sei im Intervall a, b stetig. Es gelte f (a) f (b) . Außerdem sei c R mit f (a) c f (b) . Dann gibt es ein a, b mit f c . Aussage (i) ist richtig, wenn f (a) 0 oder f (b) 0 ist. Es gelte daher f (a) 0 f (b) . Es werden zwei Folgen xn nN und yn nN rekursiv definiert: x0 a , y0 b , xn yn 2 xn 1 xn x yn falls f n 0 2 x yn falls f n 0 2 Offensichtlich gilt xn nN und yn nN yn , yn 1 xn yn 2 x yn falls f n 0 2 . xn yn falls f 0 2 yn xn ba ... n . Die Folgen 2 2 definieren eine Intervallschachtelung, deren Länge gegen 0 konvergiert. xn 1, yn 1 xn , yn und yn 1 xn 1 Die linke und die rechte Intervallgrenzen konvergieren daher gegen eine Zahl R : lim xn lim yn . Mit Satz 5.2-1 folgt f lim f xn lim f yn . Nach Konstruktion ist n n n n f xn 0 und damit f 0 ; ebenso gilt nach Konstruktion f yn 0 und damit f 0 , insgesamt f 0 . Für den Nachweis von (ii) wird g : a, b R durch g ( x) f x c definiert. Dann ist g stetig, und es gilt g (a ) f a c 0 und g (b) f b c 0 . Gemäß Teil (i) gibt es ein a, b mit g 0 , d.h. f c . Es seien X R und f : X R eine Funktion. Das Element x 0 X heißt Nullstelle von f, wenn f ( x 0 ) 0 gilt. 172 5 Ausgewählte Themen der Analysis Die Funktion f : X R besitzt im Punkt x 0 R den (endlichen) Grenzwert f 0 R , wenn gilt: Für jedes R mit 0 gibt es ein (von abhängiges) ( ) mit folgender Eigenschaft: Für jedes x X mit x x 0 ist f ( x ) f 0 . Zu beachten ist, dass der Wert x 0 nicht zum Definitionsbereich von f gehören muss. Wählt man eine beliebig kleine -Umgebung von f 0 , so findet man immer eine Umgebung von x 0 , die durch f komplett in diese -Umgebung abgebildet wird. In jeder beliebig kleinen -Umgebung von f 0 findet man Bildpunkte (unter f), deren Urbilder nahe bei x 0 liegen. Schreibweise: lim f ( x ) f 0 . x x0 Die Funktion f : X R besitzt in x P R einen Pol, wenn gilt: Für jedes K R mit K 0 gibt es ein (von K abhängiges) ( K ) mit folgender Eigenschaft: Für jedes x X mit x x P ist f ( x ) K . Die Funktionswerte wachsen über jede Grenze, wenn man sich dem Wert x P nähert. Dabei ist zu beachten, dass x P nicht zu X gehört. Schreibweise: lim f ( x ) . x xP 5.2 Eigenschaften reeller Funktionen einer Veränderlichen 173 Unmittelbar aus der Definition folgt Satz 5.2-4: Die folgenden beiden Aussagen (a) und (b) sind gleichbedeutend: (a) lim f ( x ) 0 x xP und (b) Die durch 1 ( x ) 1 definierte Funktion besitzt bei x P einen Pol. f ( x) f Für den Nachweis von „ a b “ gelte lim f ( x ) 0 , und es sei K R mit K 0 . Zu x xP 1 K gibt es 0 , so dass für x X mit x x p gilt: f ( x) 0 f x 1 K . K , d.h. 1 besitzt bei x P einen Pol. Dann ist 1 ( x) 1 f f ( x) f Für die umgekehrte Implikation „ b a “ wird entsprechend argumentiert. Die Funktion f : X R hat für x die Asymptote s: X R , wenn gilt: Für jedes R mit 0 gibt es eine (von abhängige) Konstante C C( ) 0 mit folgender Eigenschaft: Für jedes x X mit x C ( ) ist f ( x ) s( x ) . Der Funktionsverlauf von f nähert sich beliebig dicht dem Funktionsverlauf von s an, wenn man x nur genügend groß wählt. Schreibweise: lim f ( x ) s( x ) 0 bzw. lim f ( x ) s( x ) . x x Entsprechend hat die Funktion f : X R hat für x die Asymptote s: X R , wenn gilt: Für jedes R mit 0 gibt es eine (von abhängige) Konstante C C( ) 0 mit folgender Eigenschaft: Für jedes x X mit x 0 und x C ( ) ist f ( x ) s( x ) . Schreibweise: lim f ( x) s ( x) 0 bzw. lim f ( x) s ( x) . x x 5.3 Polynome Ein Polynom ist eine Funktion p : R R , zu deren Berechnung man mit den Rechenoperationen Addition, Subtraktion und Multiplikation auskommt. Beispielsweise wird durch p ( x) x 1 x 2 5 2 x 7 2 x 7 x 3 x 2 5 x 5 ein Polynom definiert. Polynome lassen sich immer auf eine „standardisierte“ Form bringen: Eine Funktion R R p: n n 1 x an x an1 x ... a1 x a0 mit reellen Konstanten a n , a n 1 , ... , a1 , a 0 und a n 0 heißt Polynom vom Grad n. n Für p( x) an x n an1 x n1 ... a1 x a0 schreibt man wie üblich p( x) ai x i . i 0 Beispiele: Die durch p ( x) x 1 x 2 5 2 x 7 2 x 7 x 3 x 2 5 x 5 definierte Funktion ist ein Polynom vom Grad 7. Die durch p ( x) 5 ( x 2 x) x 2 2,5 definierte Funktion ist ein Polynom vom Grad 4. Die durch p( x) 3 x 2 x 9 definierte Funktion ist kein Polynom. Polynome vom Grad 0: p( x ) a 0 const . Hier wird auch a0 0 zugelassen. 5.3 Polynome 175 Der Graph eines Polynoms vom Grad 0 ist eine Gerade, die im (x, y)-Koordinatensystem parallel zur x-Achse verläuft und die y-Achse im Punkt 0, a 0 schneidet. Polynome vom Grad 1: p( x) a1 x a0 mit a1 0 Die einzige Nullstelle ist x 0 a0 . a1 Der Graph eines Polynoms 1. Grades ist eine Gerade und schneidet im (x, y)Koordinatensystem die y-Achse im Punkt 0, a 0 . Polynome vom Grad 2: p( x) a2 x 2 a1 x a0 mit a 2 0 Es gibt zwei oder eine oder keine reelle Nullstelle. Die Nullstellen berechnen sich zu 2 x01, 02 a a1 a 1 0 . 2 2 a2 4 a2 a2 2 Diese sind nur dann reellwertig, wenn a1 4 a2 a0 ist. Ein häufig auftretender Spezialfall ist das Polynom der Form p( x) x 2 p x q mit p R und q R . Dieses Polynom hat die Nullstellen x 01, 02 p 2 p2 q. 4 Die Bedingung für die Reellwertigkeit der Nullstellen lautet p 2 4 q 0 . Der Graph eines Polynoms 2.Grades ist eine Parabel, die für a 2 0 nach oben und für a 2 0 nach unten geöffnet ist. 176 5 Ausgewählte Themen der Analysis Ist a 2 0 (bzw. a 2 0 ), so wird der minimale (bzw. maximale) Wert des Polynoms p( x) a2 x 2 a1 x a0 an der Stelle xS a1 2 a2 2 angenommen; der Funktionswert lautet dabei p( xS ) a0 a1 . 4 a2 Im Spezialfall p( x) x 2 p x q lauten die entsprechenden Werte xS p 2 und p( x S ) q p 2 . 2 Polynome vom Grad 3 : Für Polynome 3. und 4. Grades gibt es noch eine geschlossene Formel zur Nullstellenbestimmung, für Polynome höheren Grades i.a. nicht. Satz 5.3-1: (i) p( x) an x n an1 x n1 ... a1 x a0 = n a x i 0 i i sei ein Polynom vom Grad n und x 0 eine Nullstelle von p (d.h. p( x 0 ) 0 ). Dann gibt es ein Polynom p1 vom Grad n 1 mit p( x ) ( x x 0 ) p1 ( x ) . Man kann also den Linearfaktor x x 0 aus p( x ) ausklammern. Im Spezialfall p( x ) x n a n mit a 0 lautet eine Nullstelle x 0 a . Es ist n 1 p( x) x n a n ( x a) a ni1 x i . i 0 (ii) Ein Polynom vom Grad n hat höchstens n viele reelle Nullstellen. (iii) Ein Polynom von ungeradem Grad hat mindestens eine Nullstelle. 177 5.3 Polynome Teil (i) sieht man durch Rechnen: Es ist im Spezialfall p( x) x n a n die rechte Seite der Gleichung n 1 ( x a) a n i 1 i 0 n 1 x a i n i 1 i 0 x i 1 n 1 a n i i 0 n x a i n i i 1 n 1 x a n i xi x n a n . i i 0 Es sei x 0 eine Nullstelle von p. Für x0 0 ist 0 p(0) a0 und n n i 1 i 1 p( x) an x n an 1 x n 1 ... a1 x x 0 ai x i 1 . Wegen an 0 ist p1 x ai x i 1 ein Polynom vom Grad n 1 . Für x0 0 ist p( x) p ( x) p( x0 ) n n i 0 i 0 ai xi ai x0i n ai xi x0i (gemäß Spezialfall mit a x0 ) i 1 n x x0 ai xi 1 x0 x i 2 x02 x i 3 ... x0i 2 x x0i 1 . i 1 n Setzt man p1 ( x) ai xi 1 x0 xi 2 x02 xi 3 ... x0i 2 x x0i 1 , so sieht man, dass es sich i 1 wegen an 0 um ein Polynom vom Grad n 1 handelt. Der Vorgang des Ausklammerns eines Linearfaktors kann höchstens n-mal durchgeführt werden (Teil (ii)). Teil (iii) kann mit Satz 5.2-3 nachgewiesen werden: n Es sei p( x) ai xi mit ungeradem n und an 0 . Es wird für x 0 i 0 f ( x) 1 an 1 a1 a0 ... gesetzt. Dann ist an x n f ( x) p( x) . Es gilt: n 1 n an x an x an x lim f ( x) 1 lim f ( x) . Bei negativem an ist daher lim p ( x) und lim p( x) ; bei x x x x positvem an 0 ist lim p( x) und lim p( x) . Es gibt also a R und b R mit x x p(a) 0 und p(b) 0 bzw. p(a) 0 und p(b) 0 , je nach Vorzeichen von an . Mit Satz 5.2-3 folgt die Aussage. 178 5 Ausgewählte Themen der Analysis Satz 5.3-2: n Das Polynom p( x) ai x i vom Grad n habe die reellen Nullstellen x 01 , ... , x 0 m ; i 0 hierbei werden mehrfache reelle Nullstellen jeweils auch mehrfach aufgeführt. Dann gilt p( x) ( x x01 ) ... ( x x0 m ) p g ( x) mit einem Polynom p g ( x ) von geradem Grad 2 k , das keine reellen Nullstellen hat. Außerdem ist n m 2 k . 5.4 Gebrochen rationale Funktionen Eine Funktion der Form X f : x R p( x ) q( x ) n m i 0 j 0 mit X R und den Polynomen p( x) ai x i und q ( x) b j x j und bm 0 heißt ge- brochen rationale Funktion. An den Nullstellen von q ist f nicht definiert, d.h. der Definitionsbereich von f lautet D ( f ) R \ x0 | q( x0 ) 0 . Skizzierung einer gebrochen rationalen Funktion f: 1. Schritt: Es werden alle Nullstellen von p und alle Nullstellen von q bestimmt. Alle diese Nullstellen seien x 01 , ... , x 0 l . 5.4 Gebrochen rationale Funktionen Die Nullstellen von q gehören nicht zum Definitionsbereich von f. Für jede dieser Nullstellen x 0 i von p und q wird der 2. Schritt durchgeführt. 2. Schritt: Es werden 3 mögliche Fälle unterschieden: 1. Fall: x 0 i ist eine Nullstelle von p, aber nicht von q: p( x 0 i ) 0 und q( x 0 i ) 0 Es gilt f ( x 0i ) p( x 0 i ) 0 0, q( x 0 i ) q( x 0 i ) d.h. x 0 i ist eine Nullstelle von f. 2. Fall: x 0 i ist keine Nullstelle von p, aber eine Nullstelle von q: p( x 0 i ) 0 und q( x 0 i ) 0 Zu beachten ist, dass f für x 0 i nicht definiert ist. Es gilt lim q( x ) 0 x x0 i lim 1 f ( x ) 0, x x0 i lim p( x ) p( x 0 i ) x x0 i d.h. f besitzt bei x 0 i einen Pol. 3. Fall: x 0 i ist sowohl eine Nullstelle von p, als auch eine Nullstelle von q: p( x 0 i ) 0 und q( x 0 i ) 0 Zu beachten ist, dass f für x 0 i nicht definiert ist. 179 180 5 Ausgewählte Themen der Analysis Ist x 0 i eine r-fache Nullstelle von p und eine s-fache Nullstelle von q, dann gilt x x 0 i r p1 ( x ) f ( x) x x 0 i s q1 ( x ) mit p1 ( x 0 i ) 0 und q1 ( x 0 i ) 0 . Fall 3a: r s lim f ( x ) lim x x 0 i x x0 i x x0 i rs p1 ( x 0 i ) 0 q1 ( x 0 i ) Fall 3b: r s p1 ( x0i ) 0 q1 ( x0i ) lim f ( x ) x x0 i In beiden Fällen nennt man x 0 i eine behebbare Unstetigkeitsstelle von f, da man f stetig nach x 0 i fortsetzen kann. Fall 3c: r s lim 1 x x0 i f ( x) lim x x0 i x x0i sr q1 ( x) 0 , d.h. f hat bei p1 ( x) x 0 i einen Pol. 3. Schritt: Es wird das Verhalten von f ( x ) bei x untersucht. Es ist f ( x ) n m p( x ) , p( x) ai x i , q ( x) b j x j und bm 0 . q( x ) i 0 j 0 Fall 4a: Der Grad von q ist größer als der Grad von p, d.h. m n . an x n an1 x n1 ... a1 x a0 m1 x b x m b ... b1 x b0 m m 1 x lim f ( x) lim x lim x = 0, an 1 an1 1 m( n1) ... a1 1 m1 a0 1 m x mn x x x 1 1 1 bm 1 bm1 ... b1 m1 b0 m x x x 5.5 Exponential- und Logarithmusfunktion 181 d.h. f hat bei x die Asymptote s( x ) 0 (x-Achse). Fall 4b: Der Grad von q ist nicht größer als der Grad von p, d.h. m n . Durch Ausdividieren (Polynomdivision) von p( x ) q( x ) erhält man auf eindeutige Weise Polynome s( x ) und r( x ) mit f ( x ) s( x ) r( x ) . Hierbei hat s( x ) den Grad q( x ) n m und r ( x ) einen kleineren Grad als q( x ) , und es gilt: lim f ( x ) s( x ) , d.h. f hat bei x die Asymptote s( x ) . x 5.5 Exponential- und Logarithmusfunktion In Kapitel 5.1 wird die Exponentialfunktion R exp : x R xi i 0 i! definiert. Zunächst werden einige Eigenschaften dieser Funktion untersucht. Ein wichtiges Ergebnis, nämlich 1 exp(1) e 2,718281... , i 0 i! wird in Kapitel 5.1 hergeleitet. Außerdem gilt Mit Satz 5.1-10 ergibt sich xi xi 1 , und daher exp(0) 1 . i 0 i 1 i! i 0 i! 182 5 Ausgewählte Themen der Analysis xi y i exp( x) exp( y ) i0 i! i0 i! i x k y i k i 0 k 0 k! i k ! 1 i i! x k y ik i 0 i! k 0 k!i k ! 1 i x y i 0 i! exp( x y ) 2 r r r Für jedes r R gilt daher: exp(r ) exp exp 0 . Wegen 2 2 2 1 exp(0) exp(r r ) exp(r ) exp( r ) ist sogar exp(r ) 0 . Daher kann der Wertebereich der Exponentialfunktion auf R 0 eingeschränkt werden. Für jedes n N lässt sich der Wert der Exponentialfunktion folgendermaßen berechnen: n exp(n) exp(1 1 ... 1) exp(1) e . n n mal Dieses Ergebnis bedeutet, dass man zur Ermittlung des Werts von exp(n) anstelle der Grenzwertberechnung ni i! in R das n-fache Produkt der reellen Zahl e R bildet. Zur Berech- i 0 nung des Werts von exp(n) mit Hilfe eines Computers, in dem reelle Zahlen nur approximiert werden können, wird man eher die Reihenentwicklung ni verwenden und diese nach einer i 0 i! endlichen Anzahl Summanden, entsprechend der vorgegebenen Genauigkeit zur Darstellung reeller Zahlen, abbrechen. Für eine negative ganze Zahl m Z , m n mit n N , ist wegen exp(m) exp(n) exp(n) exp(n) exp(0) 1 : exp( n) expn und 1 1 exp(m) exp(n) expn e n Für die vorletzte Gleichung e n 1 1 e n em . e n wurden die Regeln der wiederholten Produktbildung in einer kommutativen Gruppe G, verwendet: Für a G mit dem zu a inversen Element a 1 und dem neutralen Element 1 (hier: G = multiplikative Gruppe von R und a e ) und n N wird definiert: 1 a und a n a1 a 0 1 , a n a ... ... a 1 a n mal n mal n für n 1 . 5.5 Exponential- und Logarithmusfunktion 1 Damit ist wegen a n a n a1 ... ... a a a 1 : a n a n n mal 1 183 . n mal 1 Weiter wird in G für n N und m N 0 definiert: Ist für b G a b m , dann wird b mit a m bezeichnet; entsprechend wird b mit a n m 1 n m bezeichnet, wenn b m a n gilt. n m 2 n m 1 n m n m 2 Mit diesen Bezeichnungen ist a a a1 a2 : Es sei b1 a , b2 a n und c a1 a2 m . Dann ist b1m a1n , b2m a2n und c m a1 a2 a1n a2n b1m b2m b1 b2 n m und damit m c b1 b2 m b1 b2 . n Außerdem gilt wegen 1m 1n : 1m 1 . Schließlich wird a a n m n a m a 1 n m n m n a n 1 m definiert. Dann ist a a m a a 1 Für eine rationale Zahl q n m n m 1 mn a ; denn n 1m 1 . n mit n N und m N 0 ist m m n n n n exp exp ... expn e n , also m m m m m-mal n n exp e m . m Für eine rationale Zahl q 0 , p q 0 , ist wegen exp(q) exp( p) exp(q ) exp(q) exp(q q) exp(0) 1 : exp(q ) exp( q) und daher 1 exp(q ) exp( q) e q e q e q . 1 1 Insgesamt ist also für jedes x Q gezeigt: exp( x) e x . Aufgrund dieses Ergebnisses verwendet man für alle x R anstelle von exp(x) die Bezeichnung e x ; zu beachten ist, dass dieses für x Q bewiesen wurde, für x R \ Q stellt es eine abkürzende Schreibweise für den Grenzwert der Reihe xi dar. i 0 i! 184 5 Ausgewählte Themen der Analysis Diese und weitere Ergebnisse fasst folgender Satz zusammen: Satz 5.5-1: (i) Die Exponentialfunktion R exp : x 0, xi i 0 i! ist streng monoton steigend, bijektiv und stetig und erfüllt die Funktionalgleichung exp( x y ) exp( x) exp( y ) bzw. e x y e x e y . (ii) Es seien x R und y R . Dann gilt exp(0) 1 , exp(1) e , exp( x y ) exp( x) exp( y ) 1 bzw. e x y ex . ey Die Gültigkeit der Funktionalgleichung in Teil (i) wurde oben bereits gezeigt. Die strenge Monotonie der Exponentialfunktion zeigt man in zwei Schritten: Zunächst ist für z R mit z 0 ist expz 1 z i2 zi 1 . Für x R und y R mit x y ist i! z y x 0 und exp y exp y x x exp y x expx expz expx expx . Damit ist die Exponentialfunktion streng monoton steigend und auch injektiv. Zum Nachweis der Stetigkeit nutzt man die Abschätzung expx 1 2 x für x 1 , die aus Satz 5.1-12 (dort mit n 0 ) folgt, und Satz 5.2-1: Es sei x0 R und x n nN eine Folge mit lim x n x 0 . Zu zeigen ist: lim exp xn exp x0 . n n Es gilt xn x0 1 ab einem Index n0 N . Hiermit ist 0 exp xn x0 1 2 xn x0 und lim expxn x0 1 0 bzw. lim expxn x0 1 . Mit der Funktionalgleichung folgt n n lim exp xn lim exp xn x0 x0 lim exp xn x0 exp x0 exp x0 . n n n Die Surjektivität der Exponentialfunktion folgt mit dem Zwischenwertsatz Satz 5.2-3: Es sei y R 0 . Zu zeigen ist: es gibt x R mit exp x y . 5.5 Exponential- und Logarithmusfunktion 185 Für y 1 wird x 0 genommen. Ist y 1 , so setzt man a 0 und b n , so dass expn y ist. Diese Wahl für b ist möglich, da für x 0 wegen exp x 1 x i2 xi 1 x das Grenzverhalten lim exp x vorliegt. x i! Damit ist expa 1 expb und expa y expb . Aus der Stetigkeit der Exponentialfunktion folgt mit Satz 5.2-3 (ii) die Existenz von x a, b mit exp x y . Ist 0 y 1, so ist 1 y 1. Dann gibt es xR mit exp x 1 y und exp x exp x y . 1 Die letzte Gleichung in Teil (ii) ergibt sich aus exp( y ) exp( y ) exp( y y ) exp(0) 1 , also exp( y ) exp( y ) : exp( x y ) exp( x y ) exp( x) exp( y ) . 1 1 Aufgrund von Satz 2.2-1 gibt es zur Exponentialfunktion eine eindeutig bestimmte Umkehrfunktion, die stetig, bijektiv und streng monoton steigend ist (Satz 2.2-1 und Satz 5.2-1 (vii)). Diese Funktion heißt natürlicher Logarithmus und wird mit ln bezeichnet: R 0, ln : ln( x) x Es ist y ln( x) genau dann, wenn x exp( y ) e y ist. Weiter gilt: Mit z ln(x) und z ln( y ) ist exp( z z) exp( z ) exp( z) x y , also ln exp( z z ) z z ln( x) ln( y ) ln x y . Die Ergebnisse und weitere Eigenschaften des natürlichen Logarithmus sind im folgenden Satz zusammengefasst. 186 5 Ausgewählte Themen der Analysis Satz 5.5-2: (i) Die natürliche Logarithmusfunktion R 0, ln : ln( x) x ist streng monoton steigend, bijektiv und stetig und erfüllt die Funktionalgleichung ln x y ln( x) ln( y ) . (ii) Es seien x R 0 und y R 0 . Dann gilt ln(1) 0 , ln(e) 1 , ln( x) 0 für x 1 , ln( x) 0 für x 1 , ln x y ln( x) ln( y ) , ln e x und expln x x bzw. e ln x n n ln( x) für jedes n Z , x ln( x ) x. Es sei a R mit a 0 . Dann heißt die Funktion 0, R exp a : ln( a )x x expln(a) x e Exponentialfunktion zur Basis a. Statt exp a ( x) schreibt man a x . 5.5 Exponential- und Logarithmusfunktion 187 Satz 5.5-3: Es sei a R mit a 0 . (i) Die Exponentialfunktion zur Basis a 0, R expa : ln( a ) x x expln(a) x e ist stetig. Für a 1 ist sie streng monoton steigend, für a 1 ist sie streng monoton fallend, für a 1 ist sie konstant 1. Für a 1 ist die Exponentialfunktion zur Basis a bijektiv. (ii) Es seien x R und y R . Dann gilt exp a (0) 1 bzw. a 0 1 , exp a (1) a bzw. a1 a , exp a ( x y ) exp a ( x) exp a ( y ) bzw. a x y a x a y , expa ( x y ) expa ( x) expa ( y ) 1 expa x y expa ( x y ) bzw. a x y bzw. a x y ax , ay a x y . Die Stetigkeit in Teil (i) folgt aus Satz 5.2-2 (vi). Zum Nachweis der Monotonie sei zunächst a 1 . Dann ist lna 0 . Für x1 x2 ist ln a x1 ln a x2 und wegen der strengen Monotonie der Exponentialfunktion expa x1 expln(a) x1 expln(a) x2 expa x2 . Ist a 1 , dann ist ln a 0 und x1 x2 impliziert ln a x1 ln a x2 und daher expa x1 expln(a) x1 expln(a) x2 expa x2 . Die letzte Gleichung in Teil (ii) soll verifiziert werden: 188 5 Ausgewählte Themen der Analysis expa x y explna x y (nach Definition der Exponentialfunktion zur Basis a) expln expln a x y (nach Definition der Exponentialfunktion zur Basis expln a x ) (da der natürliche Logarithmus und die Exponentialfunktion expln a x y exp a x y zueinander invers sind) (nach Definition der Exponentialfunktion zur Basis a ). Für x R und y R mit y 0 lässt sich nun auch der Ausdruck y x sinnvoll definieren: y x expln y x eln( y ) x . Beispielsweise ist 1x e ln(1)x e 0x 1 , und Werte wie 2 oder 2e machen einen Sinn. Für a R mit a 0 und a 1 heißt die zur Exponentialfunktion exp a existierende Um1 kehrfunktion exp a , die Logarithmusfunktion zur Basis a und wird mit log a bezeichnet: R 0, . log a : log a ( x) x Satz 5.5-4: Es sei a R mit a 0 und a 1 . (i) Die Logarithmusfunktion zur Basis a R 0, log a : log a ( x) x ist streng monoton steigend, bijektiv und stetig und erfüllt die Funktionalgleichung log a x y log a ( x) log a ( y ) . ../.. 189 5.5 Exponential- und Logarithmusfunktion Es seien x R 0 und y R 0 . Dann gilt (ii) log a (1) 0 , log a (a ) 1 , log a ( x) 0 für x 1 , log a ( x) 0 für x 1 , log a x y log a ( x) log a ( y ) , log a x und a log a x m m log a ( x) für jedes m Z , x a loga ( x ) Die folgenden Abbildungen Logarithmusfunktionen. x. zeigen die Verläufe einiger Exponential- Exponentialfunktionen 10 3 x 8 e x 6 4 2 x 2 0 -2 -1 0 1 2 3 und 190 5 Ausgewählte Themen der Analysis Logarithmusfunktionen 3 ln(x) 2 1 0 -1 -2 -3 -4 0,1 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 Die Exponential- und Logarithmusfunktionen zu unterschiedlichen Basen a R mit a 0 und a 1 und b R mit b 0 und b 1 lassen sich ineinander umrechnen. 5.5 Exponential- und Logarithmusfunktion 191 Satz 5.5-5: Es seien a R und b R mit a 0 , a 1 , b 0 und b 1 . (i) Den Zusammenhang zwischen verschiedenen Exponentialfunktionen stellt die Gleichung exp a ( x ) exp b ( x ) log b ( a ) bzw. a x b x log b ( a ) her. Verschiedene Exponentialfunktionen unterscheiden sich also durch potenzierte Werte. (ii) Der Zusammenhang zwischen verschiedenen Logarithmusfunktionen wird durch die Gleichung log a ( x) 1 ln( x) log b ( x) log b (a) ln(a ) beschrieben. Verschiedene Logarithmusfunktionen unterscheiden sich also durch konstante Faktoren. (iii) log a b x x log a (b) . Die Herleitung dieser Gleichungen kann als gute Übung zum Umgang mit Exponential- und Logarithmusausdrücken angesehen werden: Zunächst wird der zweite Teil der Gleichung in (ii) gezeigt. Diese beschreibt, wie sich z log a ( x) mit Hilfe des natürlichen Logarithmus ausdrücken lässt. Aus z log a ( x ) folgt nacheinander expa z x expln(a ) z x (Definition der Exponentialfunktion zur Basis a), ln(a) z ln( x) (Übergang zur Umkehrfunktion, dem natürlichen Logarithmus), z log a ( x) ln( x) . ln(a) Daraus folgt direkt der erste Teil der Gleichung in (ii): 192 5 Ausgewählte Themen der Analysis log a ( x) ln( x) ln( x) ln(b) ln( x) ln(b) 1 log b ( x) . ln(a ) ln(a) ln(b) ln(b) ln(a) log b (a) Die letzte Gleichung entsteht durch Setzen von x a und a b in der Formel ln( x) . log a ( x) ln(a ) Gleichung (i) beschreibt, wie sich die Exponentialfunktion zur Basis a durch die Exponentialfunktion zur Basis b ausdrücken lässt. Dazu wird die Gleichung exp a ( x) expb ( y ) bzw. a x b y zunächst auf die ursprüngliche Definition zurückgeführt, dann nach y aufgelöst und die Gleichung in (ii) verwendet: exp(lna x) exp(lnb y ) (Definition der Exponentialfunktion zur Basis a ln(a ) x ln(b) y bzw. zur Basis b), (Übergang zur inversen Funktion, dem natürlichen Logarithmus), y ln(a ) x log b (a) x ln(b) (aus (ii)) exp a ( x) expb (logb a x) expb x log b a (Satz 5.5-3 (ii)). Gleichung (iii) ist eine Verallgemeinerung der Gleichung in 5.5-4 (ii) auf alle reellen Zahlen. Mit der Gleichung aus (ii) ergibt sich: ln b x ln expln(b) x ln(b) x log a b x log a (b) . ln(a) ln(a) ln(a) x Im folgenden sei a 1 . Die Exponentialfunktion zur Basis a steigt bei wachsendem x schnell an. Es gilt nämlich exp a ( x 1) a exp a ( x ) bzw. a x 1 a a x , d.h. bei Vergrößerung des Argumentwerts um 1 vergrößert sich der Funktionswert um den Faktor a. Hingegen wachsen die entsprechenden Logarithmusfunktionen sehr langsam. Es gilt nämlich lim log a ( x 1) log a ( x ) 0 , d.h. obwohl die Logarithmusfunktion bei wachsendem Argux mentwert gegen strebt, nehmen die Funktionswerte letztlich nur noch geringfügig zu: Es gilt nämlich wegen der Stetigkeit der Logarithmusfunktion (mit Satz 5.2-2): 5.5 Exponential- und Logarithmusfunktion 193 n 1 n 1 limlog a (n 1) log a (n) lim log a log a lim log a (1) 0 . n n n n n Das Wachstumsverhalten der Exponential- und Logarithmusfunktionen im Vergleich mit Polynomen und Wurzelfunktionen zeigt der folgende Satz, dessen Beweis sich aus Überlegungen ergibt, die in Kapitel 5.7 angestellt werden. Satz 5.5-6: Es sei a R, a 1 . (i) Es sei p( x ) ein Polynom. Dann gilt: lim p( x ) x ax 0, d.h. die Exponentialfunktionen wachsen schneller als alle Polynome. (ii) Für jedes m N ist m log a ( x ) lim x x 0. Man sieht, dass selbst Potenzen von Logarithmusfunktionen im Verhältnis zu Polynomen (sogar zu Polynomen 1. Grades) langsamer wachsen. (iii) Für jedes m N ist log a ( x ) 0. m x x lim Man sieht, dass Logarithmusfunktionen im Verhältnis zu Wurzelfunktionen langsamer wachsen. 194 5 Ausgewählte Themen der Analysis Die folgende Tabelle zeigt fünf Funktionen hi : R 0 R, i 1, ..., 5 und einige ausgewählte (gerundete) Funktionswerte. Spalte 1 Spalte 2 Spalte 3 Spalte 4 Spalte 5 i hi ( x ) hi (10) hi (100) hi (1000) 1 log 2 ( x ) 3,3219 6,6439 9,9658 3,1623 10 31,6228 10 100 100 10.000 1000 1.000.000 1024 1,2676506 10 30 10 693 2 x 3 4 x 5 2x x 2 Die folgende Tabelle zeigt noch einmal die fünf Funktionen hi : R 0 R, i 1, ..., 5 . Es sei y 0 0 ein fester Wert. Die dritte Spalte zeigt für jede der fünf Funktionen x-Werte x i mit hi ( x i ) y 0 . In der vierten Spalte sind diejenigen x-Werte x i aufgeführt, für die hi x i 10 y 0 gilt, d.h. dort ist angegeben, auf welchen Wert man x i vergrößern muss, damit der Funktionswert auf den 10-fachen Wert wächst. Wie man sieht, muss bei der Logartihmusfunktion wegen ihres langsamen Wachstums der x-Wert stark vergrößert werden, während bei der schnell anwachsenden Exponentialfunktion nur eine additive konstante Steigerung um ca. 3,3 erforderlich ist. Spalte 1 Spalte 2 Spalte 3 Spalte 4 i hi ( x ) x i mit hi ( x i ) y 0 x i mit hi x i 10 y 0 1 log 2 ( x ) x1 x1 10 x2 100 x 2 2 x 3 x x3 10 x 3 4 x2 x4 3,162 x 4 5 2x x5 x 5 3,322 Die Logarithmusfunktion zu einer Basis B 1 gibt u.a. näherungsweise an, wieviele Ziffern benötigt werden, um eine natürliche Zahl im Zahlensystem zur Basis B darzustellen: Gegeben sei die Zahl n N mit n 0 . Sie benötige m m( n, B) signifikante Stellen zur Darstellung im Zahlensystem zur Basis B, d.h. 5.5 Exponential- und Logarithmusfunktion 195 m 1 n a i B i mit a i 0, 1, ..., B 1 und a m1 0 . i0 Es ist B m1 n B m und folglich m 1 log B ( n ) m . Daraus ergibt sich für die Anzahl der benötigten Stellen, um eine Zahl n im Zahlensystem zur Basis B darzustellen, m( n, B ) log B ( n ) 1 log B ( n 1) . Die Anzahl an Dezimalziffern zur Darstellung einer Zahl n beträgt demnach log 10 (n) 1 , an Binärziffern log 2 (n) 1 und an Sedezimalziffern log 16 (n) 1 . Die folgende Tabelle zeigt die Zusammenhänge an benötigten Stellen zur Darstellung einer Zahl n in den in der Informatik üblichen Zahlensystemen. Dezimalsystem B 10 m Stellenzahl im Binärsystem B2 zwischen c10,2 m 3 und mit Sedezimalsystem B 16 Zwischen c10,2 m c10,16 m 1 und c10,16 m mit c10, 2 1 log (2) 3,3219281 c10,16 1 log (16) 0,830482 10 10 Zwischen c 2,10 m 1 m und c 2,10 m m 4 mit c 2,10 log 10 (2) 0,30103 zwischen c16,10 m 1 4m m und c16,10 m mit c16,10 log 10 (16) 1,20412 Hierbei ist x der nach oben auf die nächstgrößere ganze Zahl aufgerundete Wert von x und x der auf die nächstkleinere ganze Zahl abgerundete Wert von x. Werden zwei Zahlen n1 N und n2 N mit n1 n2 addiert, vergrößert sich u.U. die Stellenzahl der Summe im Vergleich zur Stellenzahl von n1 . Ohne die Logarithmusfunktion bemü- 196 5 Ausgewählte Themen der Analysis hen zu müssen, kann man die Stellenzahl der Summe n1 n2 im Verhältnis zur Stellenzahl von n1 abschätzen: Die Zahl n1 besitze m signifikante Stellen, d.h. m 1 n1 ai B i mit ai 0, 1, ..., B 1 und am1 0 . i 0 Der ungünstigste Fall liegt vor, wenn n1 und n2 möglichst groß sind, wenn also in n1 alle Ziffern den Wert B 1 haben und n1 n2 ist. Dann ist m 1 m 1 i 0 i 0 n1 ( B 1) B i ( B 1) B i ( B 1) Bm 1 B m 1 und B 1 n1 n2 2 B m 1 1 B m B m 2 . Diese Zahl belegt (in der Darstellung im Zahlensystem zur Basis B) m 1 Stellen: n1 n2 1 ( B 1) ... ( B 1) ( B 2) . (m-1 )-mal B Bei der Addition zweier natürlicher Zahlen nimmt also die Stellenzahl der Summe um höchstens eine Stelle (bezüglich der Stellenzahl der größeren Zahl) zu. Bei der Multiplikation kann man eine ähnliche Betrachtung durchführen. Wieder liegt der ungünstigste Fall vor, wenn n1 n2 B m 1 ist. Dann ist n1 n2 B m 1 B 2m 2 B m 1 B m B m 2 1 . 2 Diese Zahl hat folgende Darstellung im Zahlensystem zur Basis B: ... 0 n1 n2 ( B 1) ... ( B 1) ( B 2) 0 (m-1 )-mal (m-1 )-mal 1 , B belegt also 2 m viele Stellen. Bei der Multiplikation zweier natürlicher Zahlen verdoppelt sich die Stellenzahl also höchstens (bezogen auf die Stellenzahl der größeren Zahl). 5.6 Einführung in die Differentialrechnung 5.6 197 Einführung in die Differentialrechnung Bei der Untersuchung des Kurvenverlaufs einer Funktion f ist es häufig notwendig zu wissen, wie sich der Wert von f ( x ) ändert, wenn man sich von einem festen Wert x 0 „um einen kleinen Betrag“ bis zum Wert x x 0 entfernt. Man vergleicht dabei die Änderung von y f ( x ) f ( x 0 ) mit der Änderung von x x x 0 und bildet den Differenzenquotienten y f ( x ) f ( x 0 ) f ( x 0 x ) f ( x 0 ) . x x x0 x Geht man „nahe genug“ an x 0 heran, so wird bei vielen Funktionen der Differenzenquotient unabhängig von x und beschreibt dann eine charakteristische quantitative Eigenschaft der Funktion f im Punkt x 0 : die Steigung der Funktion f im Punkt x 0 . f(x) f(x0+x) f(x0+x)-f(x0) Sekante Tangente in (x0, f(x0)) f(x0) x x0 x0+x 198 5 Ausgewählte Themen der Analysis Im folgenden sei wieder X R und f : X R eine Funktion. Die Funktion f : X R heißt an der Stelle x 0 X differenzierbar, wenn der Grenzwert lim x 0 f ( x0 x) f ( x0 ) x existiert. Dieser Grenzwert heißt Ableitung von f an der Stelle x 0 . Übliche Schreibweisen für die Ableitung von f an der Stelle x 0 sind: lim f ( x0 x) f ( x0 ) , x lim f ( x ) f ( x0 ) , x x0 x 0 x x0 df ( x ) , dx x x0 f ( x 0 ) . Existiert dieser Grenzwert für jedes x 0 X , so heißt f (nach x) differenzierbar. f ( x ) ist eine Funktion von x. Der Differenzenquotient f ( x 0 x ) f ( x 0 ) x gibt die durchschnittliche Veränderung im Intervall x 0 , x 0 x an und ist von x 0 und x abhängig. Er ist gleich der Steigung der Sekante zwischen den Punkten x 0 , f ( x 0 ) und x 0 x, f ( x 0 x ) des Graphen von f. Nach dem Grenzübergang x 0 ist der Quoti- ent gleich der Steigung der Tangente an den Graphen von f im Punkt x 0 , f ( x 0 ) und ist nur von x 0 abhängig. 5.6 Einführung in die Differentialrechnung 199 Die Tangente an den Graphen von f im Punkt x 0 , f ( x 0 ) hat die Geradengleichung yT ( x ) f ( x 0 ) ( x x 0 ) f ( x 0 ) . Im Punkt x 0 x hat die Tangente also den Wert y T ( x 0 x ) f ( x 0 ) x f ( x 0 ) . Der Wert f ( x 0 ) x gibt also eine gute Näherung für die Veränderung von f von f ( x 0 ) bis zu f ( x 0 x ) , wenn sich x 0 um einen kleinen Wert x ändert; diese Änderung ist proportional zu x (mit dem Proportionalitätsfaktor f ( x 0 ) ). f(x) Tangente in (x0, f(x0)) f(x0+x) . f’(x0) x f(x0) x x0 x0+x 200 5 Ausgewählte Themen der Analysis Satz 5.6-1: Ist f : X R in x 0 X differenzierbar, so ist f in x 0 stetig. Die Umkehrung gilt im allgemeinen nicht, d.h. aus der Stetigkeit einer Funktion in einem Punkt x 0 folgt i.a. nicht die Differenzierbarkeit in x 0 . Hierzu ist nach Satz 5.2-1 zu zeigen, dass für jede Folge x n nN mit lim x n x 0 auch n lim f ( x n ) f ( x 0 ) gilt. Es sei 0 und n0 N , so dass für jedes n N mit n n0 die Un- n gleichung lim x x0 xn x0 gilt. Da f in x 0 differenzierbar ist, existiert der Grenzwert f ( x ) f ( x0 ) . Für Folgenglieder xn mit n n0 ist daher x x0 f ( xn ) f ( x0 ) beschränkt, xn x0 etwa durch C 0 . Es gibt n1 N , so dass für jedes n N mit n n1 die Ungleichung xn x0 C gilt. Für n max n0 , n1 ist f ( xn ) f ( x0 ) C xn x0 . Also gilt lim f ( x n ) f ( x 0 ) . n Ein Beispiel für eine Funktion, die überall stetig, aber nicht überall differenzierbar ist, ist die Betragsfunktion R R . f : x x Es gilt lim h 0 f (x h) f (x ) h lim x0 h 0 f (h) h lim h 0 1 für h 0 h 1 für h 0 h Der Grenzwert existiert also nicht, d.h. f ist in x 0 0 nicht differenzierbar (aber stetig). 5.6 Einführung in die Differentialrechnung 201 Satz 5.6-2: Die Funktionen f : X R und g: X R seien differenzierbar. Dann gilt: (i) d a f ( x) b g ( x) a df ( x) b dg ( x) , dx dx dx a f ( x) b g ( x) a f ( x) b g ( x) . Hierbei sind a und b Konstanten, die insbesondere nicht von x abhängig sind. (ii) d f ( x) g ( x) df ( x) g ( x) f ( x) dg ( x) , dx dx dx f ( x ) g( x ) f ( x ) g( x ) f ( x ) g ( x ) (Produktregel) (iii) Für g( x ) 0 gilt: d f ( x ) dx g( x ) df ( x ) dg( x ) g( x ) f ( x ) dx dx , 2 g( x ) f ( x ) f ( x ) g ( x ) f ( x ) g ( x ) g( x ) g( x ) 2 (Quotientenregel) (iv) d df ( y ) dg( x ) , f ( g( x )) dx dy y g ( x ) dx f ( g( x )) f ( g( x )) g ( x ) (Kettenregel) (v) Hat f die Umkehrfunktion y 0 f ( x 0 ): 1 d 1 , f ( y) ( ) df x dy y y0 dx x x0 f1 f ( x ) 1 . 0 f ( x 0 ) 1 f und ist f ( x 0 ) 0 für x 0 X , so ist für 202 5 Ausgewählte Themen der Analysis Teil (i) lässt sich direkt aus der Definition der Differenzierbarkeit ableiten. Für Teil (ii) wird berechnet: f g ( x0 x) f g ( x0 ) f ( x0 x) g ( x0 x) f ( x0 ) g ( x0 ) x x f ( x0 x) f ( x0 ) g ( x0 x) g ( x0 ) . g ( x0 x) f ( x0 ) x x f g ( x0 x) f g ( x0 ) f ( x ) g ( x ) f ( x ) g ( x ) . Daher ist ( f g )x0 lim 0 0 0 0 x 0 x Der Nachweis für (iii) erfolgt in zwei Schritten: 1 1 ist Mit x g ( x) g 1 1 1 1 ( x0 x) ( x0 ) g ( x0 x) g ( x0 ) g g x x g ( x0 x) g ( x0 ) 1 . x g ( x0 x) g ( x0 ) 1 1 ( x0 x) ( x0 ) g 1 1 g g ( x0 ) . Daher ist ( x0 ) lim x 0 x g ( x0 ) 2 g Im zweiten Schritt wird (ii) auf das Ergebnis des ersten Schritts angewandt: f 1 1 1 f f g f g f g f f f 2 . g g g g2 g g g Zum Nachweis von (iv) wird definiert: y0 g ( x0 ) und f ( y ) f y0 für y y0 f ( y) y y0 f y0 für y y0 . * Es ist f y f y0 y y0 f * y bzw. f y f y0 y y0 f * y . f g ( x0 x) f g ( x0 ) f g ( x0 x) f g ( x0 ) f y0 g ( x0 x) y0 f * g ( x0 x) f g ( x0 ) g ( x0 x) g ( x0 ) f * g ( x0 x) . Damit ist 5.6 Einführung in die Differentialrechnung lim x 0 203 f g ( x0 x) f g ( x0 ) lim g ( x0 x) g ( x0 ) f * g ( x0 x) x x 0 g x0 f y0 f g x0 g x0 . x * 1 Für (v) wird x1 f ( y0 y ) gesetzt. Dann ist gilt für y 0 : x1 x0 . 1 1 1 1 1 f ( y0 y ) f ( y0 ) x1 x0 lim . lim lim lim y 0 y 0 y y y y 0 f x f x x1 x 0 f x f x y f x0 1 0 1 0 0 0 x1 x0 x1 x0 Für einige grundlegende Beispiele soll die jeweilige Ableitung in einem Punkt x0 des Definif ( x0 x) f ( x0 ) und x dann der Grenzübergang x 0 vollzogen oder es werden die Regeln des Satzes 5.5-2 mit bereits bekannten Ableitungen verwendet. tionsbereichs berechnet werden. Dazu wird entweder der Quotient Beispiel: Für die durch f ( x) x n mit n N definierte Funktion ist f ( x0 x) f ( x0 ) x0 x x0n x x n n n i x0 x i x0n i i 0 x n n x0n x x0n i xi 1 x0n i 1 i x n n x0n i x i 1 i 1 i n n n n x0n 1 x x0n i x i 2 , also i2 i i 1 lim x0 f ( x0 x) f ( x0 ) n x0n1 bzw. x 204 5 Ausgewählte Themen der Analysis x n x n n 1 . Beispiel: 1 Für die durch f ( x) n x x1 n mit n N definierte Funktion ist nach Satz 5.6-2 (v) (da 1 f ( x) die Umkehrfunktion zu der Funktion f ( x) x n des vorherigen Beispiels ist) mit 1 y0 f x0 , d.h. x0 f y0 n y0 , d 1 1 1 1 f ( y) n 1 df ( x) dy n x0 n n y0 y y0 dx x x0 bzw. x 1n x 1n 1 1 n n 1 1 1 n n 1 0 n y 1 1 1 y01 n 1 11 n 1 n 1 n y0 n y0 n . Beispiel: Für die durch g ( x) x q mit q Q und q 0 , etwa q n mit n N und m N 0 , defim nierte Funktion ist gemäß Kettenregel (Satz 5.6-2 (iv)): mn n x d x m d xn dx dx 1 m 1 xn m 1 1 m n x n1 n n m 1 x . m Beispiel: Die Berechnung der Ableitung der Exponentialfunktion exp( x) e x erfolgt wieder direkt über die Definition der Ableitung. Dazu zunächst eine Vorbemerkung: Gemäß Satz 5.1-12 ist für einen kleinen Wert x : 2 2 x x i 2 exp(x) R2 (x) 1 x R2 (x) mit R2 (x) x . 2! i 0 i! 1 5.6 Einführung in die Differentialrechnung 205 Damit ist exp x0 x exp x0 exp x0 expx exp x0 expx 1 exp x0 , x x x und der Grenzübergang ergibt exp x0 x exp x0 expx 1 lim exp x0 x0 x0 x x expx 1 exp x0 lim x0 x x R2 (x) exp x0 lim x0 x R (x) exp x0 1 lim 2 . x0 x lim Wegen R2 (x) x folgt damit x exp( x) e x e x exp( x) . Wegen a x expln a x ist mit der Kettenregel (Satz 5.6-2 (iv)): expa ( x) explna x explna x ln(a) ln(a) a x . Beispiel: Die Ableitung des natürlichen Logarithmus als Umkehrfunktion der Exponentialfunktion wird wieder mit Hilfe von Satz 5.6-2 (v) berechnet: Es sei y0 exp x0 , d.h. x0 ln y0 . 1 1 1 d 1 , also exp( y ) d exp( x) exp x0 y0 dy y y0 dx x x0 ln( x) 1 . x Die Ableitung der Logarithmusfunktion zu einer Basis a 1 lautet nun 206 5 Ausgewählte Themen der Analysis ln( x) 1 log a ( x) . ln(a ) ln(a) x Beispiel: Es kann nun auch die Ableitung der durch h( x) x r mit r R bestimmten Funktion ermittelt mit Hilfe der Kettenregel (Satz 5.6-2 (iv)) werden: x e r ln( x )r e ln( x )r r 1 1 r x r r x r 1 . x x Beispiel: Die durch k ( x) x 2 1 x gegebene Funktion hat die Eigenschaft, dass x sowohl in der „Ba- sis“ als auch im Exponenten vorkommt. In diesem Fall wendet man den Trick des Logarithmierens mit Satz 5.5-5 (iii) an: ln k ( x) x ln x 2 1 ; die Ableitung der linken Seite lautet: k ( x) lnk ( x) , k ( x) die Ableitung der rechten Seite lautet: x lnx 2 2 x ; 1 1 ln x 2 1 x 2 x 1 beide Seiten werden gleichgesetzt und die entstandene Gleichung nach k (x) aufgelöst: k ( x) k ( x) ln x 2 1 2 x2 , x2 1 . x 1 k ( x) x 2 1x lnx 2 1 22 x 2 5.6 Einführung in die Differentialrechnung 207 Die folgende Tabelle fasst die Ergebnisse der Beispiele zusammen. f ( x ) f (x ) xr , r R r x r 1 c = const. 0 n n ai xi i a x 1 n i 0 xn h( x ) ln( x ) log e ( x ) ln( h( x )) i 0 i 1 i x n 1 h ( x ) 2 h( x ) 1 x h ( x ) h( x ) log a ( x ) 1 x ln(a) ex ex a x , a > 0, a = const. a x ln(a ) e h( x ) h ( x ) e h ( x ) a h ( x ) , a > 0, a = const. h ( x ) a h ( x ) ln( a) Die Funktion f : X R sei differenzierbar (und damit auch stetig). Dann ist f : X R ebenfalls eine Funktion, die aber nicht unbedingt differenzierbar oder stetig sein muss. Ist sie jedoch differenzierbar, so kann man df ( x ) dx bilden und nennt dieses die 2. Ableitung von f. Allgemein werden Ableitungen höherer Ordnung wie folgt definiert: Es ist f (0) ( x) f ( x) ; 208 5 Ausgewählte Themen der Analysis ist die ( n 1) -te Ableitung der Funktion f : X R im Intervall I X differenzierbar, so ist die n-te Ableitung von f gegeben durch f (n) ( x) d ( n 1) f ( x) . dx Existieren für f alle Ableitungen bis zur n-ten Ableitung, so heißt f n-mal differenzierbar. Beispiel: Für die durch f ( x) x e x definierte Funktion lauten die ersten beiden Ableitungen: f ( x) 1 e x x e x 1 x e x , f ( x) 1 e x 1 x e x 2 x e x . Zu vermuten ist, dass die n-te Ableitung f ( n ) ( x) n x e x lautet. Für n 0, 1 ,2 stimmt dieses, und die Vermutung gelte für n 2 . Die n 1 -te Ableitung ist dann f ( n1) ( x) n x e x 1 e x n x e x n 1 x e x , d.h. die Vermutung gilt für jedes n N . Beispiel: Für das Polynom p( x) x m lauten alle Ableitungen: m m 1 ... m n 1 x mn p ( x) 0 n für n m für n m . Ableitungen höherer Ordnung werden insbesondere zur Untersuchung des Kurvenverlaufs von Graphen zu reellen Funktionen (Kurvendiskussion) eingesetzt. Diesem Thema ist der Rest des Kapitels gewidmet. 5.6 Einführung in die Differentialrechnung 209 Die Funktion f : X R hat an der Stelle x 0 X ein (lokales) Maximum, wenn es eine - Umgebung U x0 , x x x0 x x0 x x 0 von x 0 gibt, so dass für alle x U x0 , mit x x 0 gilt: f ( x ) f ( x 0 ) . Die Funktion f : X R hat an der Stelle x 0 X ein (lokales) Minimum, wenn es eine - Umgebung U x0 , x x x0 x x0 x x 0 von x 0 gibt, so dass für alle x U x0 , mit x x 0 gilt: f ( x ) f ( x 0 ) . Unter einem (lokalen) Extremwert versteht man ein lokales Maximum oder ein lokales Minimum. Satz 5.6-3: Die Funktion f : X R sei in einer -Umgebung U x0 , x x x0 x x0 x x0 von x 0 X differenzierbar. Hat f in x0 einen lokalen Extremwert, so ist f ( x0 ) 0 . Diese Aussage lässt sich wie folgt beweisen: Der Extremwert sei ein Maximum. Dann gilt für x X mit x0 x x0 : x x0 0 und f ( x) f ( x0 ) 0 , also f ( x) f ( x0 ) 0 . Für x X mit x0 x x0 ist x x0 0 und x x0 f ( x) f ( x0 ) 0 , also f ( x) f ( x0 ) 0 . Da f bei x0 differenzierbar ist, existiert der Grenzx x0 wert lim x x0 f ( x) f ( x0 ) f ( x) f ( x0 ) und ist gleich f ( x0 ) . Es ist f x0 lim 0 und x x0 x x0 x x 0 x x 0 f x0 lim x x0 x x0 f ( x) f ( x0 ) 0 , also f ( x0 ) 0 . x x0 Ist X ein Intervall, dann gilt die Aussage des Satzes 5.6-3 nur für innere Punkte von X, bei denen die Funktion differenzierbar ist. Kandidaten für Extremwerte sind daher: die Randpunkte von X die inneren Punkte von X; hier ist die erste Ableitung gleich 0 210 5 Ausgewählte Themen der Analysis die Punkte von X, in denen die Funktion nicht differenzierbar ist. Satz 5.6-4: Die Funktion f : a, b R sei stetig und in a, b differenzierbar. Weiterhin gelte f (a) f (b) 0 . Dann gibt es ein x0 a, b mit f ( x0 ) 0 . Für konstantes f ist die Aussage klar. Ansonsten besitzt f in a, b einen lokalen Extremwert bei x0 a, b , für den nach Satz 5.6-3 f ( x0 ) 0 gilt. Satz 5.6-5: (Mittelwertsätze der Differentialrechnung) (i) Die Funktion f : a, b R mit a b sei stetig und in a, b differenzierbar. Dann gibt es ein x0 a, b mit f ( x0 ) (ii) f (b) f (a) . ba Die Funktionen f : a, b R und g : a, b R mit a b seien stetig und in a, b differenzierbar, x0 a, b mit und es gelte g ( x) 0 für x a, b . Dann gibt es ein f ( x0 ) f (b) f (a) . g ( x0 ) g b g a Teil (i) ist ein Spezialfall von Teil (ii), nämlich mit g x x . Teil (ii) folgt aus Satz 5.6-4: Zunächst ist g b g a 0 ; denn sonst gäbe es nach Satz 5.6-4 ein x0 a, b mit g ( x0 ) 0 . Für die Funktion h : a, b R mit h( x) f ( x) g x g a und h(b) f (b) g b g a f (b) f (a) gilt h(a) f (a) g b g a f (b) f (a) f a ha . Daher gibt es x0 a, b mit g b g a h( x0 ) 0 . Es ist h( x) f ( x) g x f (b) f (a ) f ( x0 ) f (b) f (a) . , also g b g a g ( x0 ) g b g a 5.6 Einführung in die Differentialrechnung 211 Bemerkung: Den Wert x0 a, b kann man in der Form x0 a b a mit 0 1 schreiben. Dann lautet die Formel in Satz 5.6-5 (i): f (b) f (a) f a b a mit 0 1 , und äquivalent ba f (a) f (b) f b 1 a b mit 0 1 1 . Die Voraussetzung a b ab kann entfallen: Man setzt h b a und erhält für einen Wert mit 0 1 : f (a h) f a h f a h mit h 0 (positiv oder negativ). Damit lässt sich die Aussage in Satz 5.6-5 (i) folgendermaßen formulieren: Es sei f : x0 , x1 R mit x0 x1 stetig und in x0 , x1 differenzierbar. Es gelte a x0 , x1 und a h x0 , x1 mit h 0 . Dann gibt es einen Wert mit 0 1 und f (a h) f a h f a h . Die Formel in Satz 5.6-5 (ii) lautet entsprechend: g a h g a f a h f (a) f a h mit 0 1 . g a h Satz 5.6-6: Ist die Funktion f : X R im Intervall I X differenzierbar, so sind folgende Aussagen (a) und (b) gleichbedeutend: (a) f ist in I monoton fallend (bzw. steigend). und (b) Für jedes x I gilt f ( x ) 0 (bzw. f ( x ) 0 ). Für „monoton fallend“ kann man wie folgt argumentieren: 0 für x 0 Für x I und x x I ist f x x f ( x) . Daher ist 0 für x 0 f ( x) lim x 0 f x x f ( x) 0. x Es gelte umgekehrt f ( x ) 0 für jedes x I . Es seien x1 I und x2 I mit x1 x2 . Dann gibt es gemäß Satz 5.6-5(i) ein x0 I mit x1 x0 x2 und f ( x0 ) ist f ( x2 ) f ( x1 ) 0 bzw. f ( x2 ) f ( x1 ) , d.h. f ist monoton fallend. f ( x2 ) f ( x1 ) 0 . Daher x2 x1 212 5 Ausgewählte Themen der Analysis Satz 5.6-7: Es seien f : X R und g : X R im Intervall I X differenzierbare Funktionen. (i) Gilt f ( x) 0 für jedes x I , dann ist f auf I konstant. (ii) Es gelte f ( x) g ( x) für jedes x I . Dann gibt es eine Konstante C R mit f ( x) g ( x) C für jedes x I . Für (i) argumentiert man wieder mit Satz 5.6-5: Angenommen f ist auf I nicht konstant. Dann gibt es x1 I und x2 I mit x1 x2 und f x1 f x2 . f ( x0 ) Gemäß Satz 5.6-5(i) gibt es ein x0 I mit x1 x0 x2 und f ( x2 ) f ( x1 ) . Da nach Voraussetzung f ( x0 ) 0 gilt, folgt aber f x1 f x2 . x2 x1 Teil (ii) folgt aus (i); denn die Funktion f g hat die Ableitung 0. Zu Beginn des Kapitels 5.2 wird der Begriff Konvexität bzw. Konkavität einer Funktion auf einem Intervall I eingeführt. Anschaulich bedeutet Konvexität einer Funktion f, dass der Graph der Funktion mit wachsenden x-Werten linksgekrümmt ist. Das besagt, dass die Steigung der Tangente an den Graphen in jedem Punkt x, f ( x) , d.h. die Ableitung f ( x) , monoton wächst. Entsprechend bedeutet Konkavität, dass die Ableitung f (x) monoton fällt. Ähnlich wie bei Satz 5.6-6 kann man die Aussagen des folgenden Satzes begründen. Satz 5.6-8: Ist die Funktion f : X R im Intervall I X zweimal differenzierbar, so sind folgende Aussagen (a) bis (c) gleichbedeutend: (a) f ist in I konvex (bzw. konkav). und (b) Die Ableitung f ( x ) ist in I monoton steigend (bzw. monoton fallend). und (c) Für jedes x I ist f ( x ) 0 (bzw. f ( x ) 0 ). 213 5.6 Einführung in die Differentialrechnung Beispiel: Zu untersuchen ist das Krümmungsverhalten des durch p ( x) 1 5 x x3 10 definierten Polynoms. Seine zweite Ableitung lautet p( x) 2 x 3 6 x 2 x x 2 3 . Es ist p( x) 0 genau dann wenn x 0 x 2 3 0 oder x 0 x 2 3 0 gilt. Im ersten Fall gilt x 0 x 0 x 3 x 3 , x 3. also Im zweiten Fall ist 3 x 3 , also 3 x 0 . Für x 3 oder für 3 x 0 ist also p konkav, für alle übrigen Bereiche konvex. Die Funktion f : X R hat an der Stelle x W einen Wendepunkt, wenn es -Umgebung U xW , x x xW x xW x xW x U xW , mit xW x xW von x W gibt, so dass f für jedes streng konvex und für jedes x U xW , mit x W x x W streng konkav ist bzw. für jedes x U xW , mit x W x x W streng konkav und für jedes x U xW , mit x W x x W streng konvex ist. Aus der Definition und Satz 5.6-8 folgt unmittelbar: Satz 5.6-9: Die Funktion f : X R sei in einer -Umgebung U x0 , x x x0 x x0 x x0 von x 0 X zweimal differenzier- bar. Hat f in x0 einen Wendepunkt, so ist f ( x0 ) 0 . Bei der Untersuchung des Funktionsverlaufs einer Funktion f : X R einem Intervall I (Kurvendiskussion) sind meist folgende Werte von Interesse: 214 5 Ausgewählte Themen der Analysis der Definitonsbereich (ist f für alle x I definiert?) die Nullstellen von f in I die Unstetigkeitsstellen von f in I die Stellen, an denen f differenzierbar ist die Extremwerte von f in I die Wendepunkte von f in I das Krümmungsverhalten (konvex/konkav) von f in I Zur Untersuchung der Extremwerte reicht es nicht aus, allein diejenigen Werte x zu bestimmen, für die f ( x) 0 gilt. Gemäß Satz 5.6-3 hat wohl bei einem Extremwert die erste Ableitung den Wert 0, aber nicht jedes x mit f ( x) 0 ist ein Extremwert, wie folgendes Beispiel zeigt: Für die Funktion f mit f ( x) x 3 gilt f (0) 0 , aber bei 0 liegt kein Extremwert, sondern ein Wendpunkt (mit waagerechter Tangente) vor. Entsprechend reicht es zur Untersuchung der Wendepunkte nicht aus, allein diejenigen Werte x zu bestimmen, für die f ( x) 0 gilt. Gemäß Satz 5.6-9 bei einem Wendepunkt die zweite Ableitung den Wert 0, aber nicht jedes x mit f ( x) 0 ist ein Wendpunkt, wie folgendes Beispiel zeigt: Für die Funktion f mit f ( x) x 4 gilt f (0) 0 , aber bei 0 liegt kein Wendepunkt, sondern Extremwert vor. Der folgende Satz, der hier ohne Beweis angeführt wird, gibt Auskunft über die Bestimmung von Extremwerten und Wendepunkte. 5.6 Einführung in die Differentialrechnung 215 Satz 5.6-10: Die Funktion f : X R sei an der Stelle x 0 X mindestens n-mal differenzierbar. Ist f ( k ) ( x 0 ) 0 für k 1 , ..., n 1 und f (n) ( x 0 ) 0 , und ist n gerade, so hat f an der Stelle x 0 einen Extremwert, und zwar ein (lokales) Maximum, wenn f ( n ) ( x 0 ) 0 ist bzw. ein (lokales) Minimum, wenn f ( n ) ( x 0 ) 0 ist. Ist f ( k ) ( x 0 ) 0 für k 2 , ..., n 1 und f (n) ( x 0 ) 0 und ist n ungerade, so hat f an der Stelle einen Wendepunkt; die Krümmung wechselt von konvex nach konkav, wenn f ( n ) ( x 0 ) 0 ist; sie wechselt von konkav nach konvex, wenn f ( n ) ( x 0 ) 0 ist. Gilt zusätzlich f ( x 0 ) 0 , so liegt ein Wendepunkt mit waagerechter Tangente (Sattelpunkt) vor. Das folgende Beispiel untersucht den Kurvenverlauf des Graphen zum Polynom, das durch p( x) 0,2 x 5 x 3 1 definiert wird. Die Ableitungen lauten: p( x) x 4 3 x 2 , p( x) 4 x 3 6 x , p( x) 12 x 2 6 , p 4 ( x) 24 x , p 5 ( x) 24 , 216 5 Ausgewählte Themen der Analysis p 6 ( x ) 0 . Die erste Ableitung p( x) hat die Nullstellen x0,1 0 , x0, 2 3 , x0,3 3 . Diese Werte werden in die höheren Ableitungen eingesetzt: px0,1 p0 0 , px0,1 p0 6 , also liegt hier ein Wendeüunkt mit waagerechter Tangente (Sattelpunkt) vor. px0, 2 p 3 6 3 0 , also liegt hier ein lokales Minimum vor. px0,3 p 3 6 3 0 , also liegt hier ein lokales Maximum vor. Die Nullstellen der zweiten Ableitung lauten x0, 4 x0,1 0 , x0,5 3 2 , x0, 6 3 2 . Die Werte x0,5 und x0,6 in die dritte Ableitung eingesetzt ergeben px0,5 px0,6 12 . Es liegen also an diesen Werten Wendepunkte vor. 5.7 Die Regeln von de l’Hospital Häufig sind Grenzwerte der Form lim f ( x ) x x0 zu berechnen, wobei f (x) g( x ) und lim g ( x ) lim h( x ) 0 x x0 x x0 h( x ) gelten. Hierbei muss x0 nicht im Definitionsbereich von f liegen bzw. es wird auch anstelle von x0 zugelassen. In diesen Fällen sind die folgenden Sätze von Bedeutung (Regeln von de l'Hospital, 1661-1704): 217 5.7 Die Regeln von de l’Hospital Satz 5.7-1: Gegeben seien die Funktionen g: X R und h: X R , X R . Für x0 R und ~ 0 bezeichne U die Menge x 0 x x0 ( -Umgebung von x0 mit Ausnahme von x0 ) bzw. das Intervall x a x x0 bzw. das Intervall x x0 x b, wobei für a oder b die reelle Zahl oder auch stehen können. Die Funktionen g und ~ h seien in U definiert und (n + 1)-mal differenzierbar. Ferner gelte (*) lim g ( x0 ) lim g ( x0 ) ... lim g ( n ) ( x0 ) 0 , x x0 ~ xU x x0 ~ xU x x0 ~ xU ~ lim h( x0 ) lim h( x0 ) ... lim h( n ) ( x0 ) 0 und h ( n 1) ( x) 0 für x U . x x0 ~ xU x x0 ~ xU x x0 ~ xU Dann gilt: Existiert lim x x0 ~ xU lim x x0 ~ xU g ( n 1) ( x) , dann ist h ( n 1) ( x) g ( x) g ( x) g ( n ) ( x) g ( n 1) ( x) lim ... lim ( n ) lim ( n 1) . x x0 h x x0 h h( x) xxU~x0 h( x) ( x ) ( x ) ~ ~ xU xU Es werden also Zähler- und Nennerfunktion getrennt abgeleitet. Die Gültigkeit des Satzes soll hier für n 0 gezeigt werden. Durch wiederholte Anwendung folgt dann die im Satz formulierte allgemeine Aussage. für x x0 für x x0 0 0 und H x , dann folgt mit Satz 5.6Setzt man G x g x für x x0 h x für x x0 5(ii) (und den anschließenden Bemerkungen): G x G x G x0 Gx0 x x0 für einen Wert mit 0 1 . Mit x x0 geht H x H x H x0 H x0 x x0 x0 x x0 x0 . Daher ist lim x x0 ~ xU g ( x) G x Gx0 x x0 g ( x) lim lim . lim x x x x x x x x h( x) xU~ 0 H x x0 x x0 U~ 0 H x0 x x0 xU~ 0 h( x) 0 0 218 5 Ausgewählte Themen der Analysis Beispiele: n x n 1 xn 1 lim lim n. x 1 x 1 x 1 1 Dieses Ergebnis erhält man natürlich auch aus der Gleichung aus Satz 5.3-1: n 1 x n 1 x 1 x i , also lim x 1 i 0 n 1 xn 1 lim x i n . x 1 x 1 i 0 ex 1 ex lim 1 . x 0 x 0 1 x Auch dieses Ergebnis lässt sich anders erzielen: lim e x exp x i 0 ex 1 x x i 1 xi xi x i 1 1 1 x und i! i 1 i! i 1 i! x i 1 i! x i 0 xi xi ex 1 xi 1 . , also lim 1 lim1 x 0 x 0 i 1! x i 1 i 1! i 1 i 1! Satz 5.7-1 gilt auch für Grenzwerte der Form lim x g ( x) g ( x) und lim (hier nur für den ersten x h( x ) h( x ) Fall formuliert): Satz 5.7-2: Gegeben seien die Funktionen g: X R und h: X R , X R . Sie seien im Intervall I x a x für eine reelle Zahl a definiert und (n + 1)-mal differenzierbar. Fer- ner gelte (*) lim g ( x0 ) lim g ( x0 ) ... lim g ( n ) ( x0 ) 0 , x x x lim h( x0 ) lim h( x0 ) ... lim h ( n ) ( x0 ) 0 und h ( n 1) ( x) 0 für x I . x x x Dann gilt: g ( n 1) ( x) Existiert lim ( n 1) , dann ist x h ( x) g ( x) g ( x) g ( n ) ( x) g ( n 1) ( x) lim ... lim ( n ) lim ( n 1) . x h( x ) x h( x ) x h ( x) x h ( x) lim 5.7 Die Regeln von de l’Hospital 219 Die Aussage des Satzes (hier nur wieder für n 0 ausgeführt) erhält man, indem man die Variablentransformation t 1 x durchführt. Ein Grenzübergang x entspricht dann einem Grenzübergang t 0 mit t 0 : g ( x) g 1 t lim lim x h( x ) t 0 h1 t t 0 d g 1 t (gemäß Satz 5.7 - 1) lim dt t 0 d t 0 h1 t dt g 1 t g x g 1 t t 2 lim lim . lim t 0 h1 t t 2 t 0 h1 t x h x t 0 t 0 Die hier zitierten Sätze stehen für den „Fall 0/0“. Sie gelten auch, wenn die Bedingung (*) durch (**) lim g ( x0 ) lim g ( x0 ) ... lim g ( n ) ( x0 ) , x x0 ~ xU x x0 ~ xU x x0 ~ xU ~ lim h( x0 ) lim h( x0 ) ... lim h( n ) ( x0 ) und h( n 1) ( x) 0 für x U . x x0 ~ xU x x0 ~ xU x x0 ~ xU ersetzt wird („Fall / “). Die Regeln von de l'Hospital ermöglicht auch die Berechnung unbestimmter Ausdrücke der Art , 0 , 1 , 0 , 0 0 . Diese werden zunächst so umgeformt, dass der „Fall 0/0“ oder der „Fall / “ entsteht. Die folgende Tabelle gibt die Umformungen auf den „Fall 0/0“ an: 220 5 Ausgewählte Themen der Analysis Typ Umformung „Fall 0/0“ Funktion g ( x ) h( x ) - 1 h( x ) 1 g ( x ) 1 h( x ) 1 g ( x ) g ( x ) h( x ) Exponentieren 1 e h( x ) 1 e g(x) 0 g ( x ) h( x ) - g( x ) 1 h( x ) 1 g ( x) h ( x ) Logarithmieren ln( g ( x )) 1 h( x ) 0 g ( x ) h( x ) Logarithmieren h( x ) 1 ln( g ( x )) 00 g ( x ) h( x ) Logarithmieren h( x ) 1 ln( g ( x )) Beispiel: Es soll lim1 x x0 1 x bestimmt werden. Dieser Grenzwert ist vom Typ „1 “ mit den Funktio- nen g ( x) 1 x und h( x) 1 . Logarithmieren der gesamten Funktion ergibt x ln g ( x) h ( x ) h( x) ln g ( x) ln( g ( x)) ln(1 x) . x 1 h( x ) Jetzt liegt der „Fall 0/0“ vor: 1 ln(1 x) 1 x 1 ; lim lim x 0 x 0 1 x die Logarithmierung wird durch Exponentiation wieder rückgängig gemacht, also lim1 x x0 1 x e1 e . 5.7 Die Regeln von de l’Hospital 221 Beispiel: In Satz 5.5-6 (ii) wird formuliert, dass für jedes a R mit a 1 und jedes Polynom p(x ) lim x p( x ) ax 0 gilt. Mit Hilfe der Regeln von de l’Hospital für den „Fall / “ lässt sich dieses verifizieren: n Es sei p(x ) ein Polynom vom Grade n, d.h. p( x) ai x i mit an 0 . Es erfolgt eine Bei 0 schränkung auf den Fall p( x) 0 , so dass in der Limesbetrachtung auf die Betragsstriche verzichtet werden kann. Dann ist p( x) lim n!an 0 . p ( x) lim x lim n x a x x a x ln(a ) n ax n Beispiel: In Satz 5.5-6 (ii) wird formuliert, dass für jedes a R mit a 1 und m N m log a ( x ) lim x x 0 gilt. Dieser Grenzwert ist ebenfalls ein Beispiel für den „Fall / “; er wird verifiziert durch m log a ( x) m 1 log a ( x) m lim x x lim x x ln(a ) 1 m m 1 log a ( x) m log a ( x) x x ln(a ) m 1 lim m2 lim x ln(a ) x ln(a ) m m 1 log a ( x) 2 x x ln(a ) m2 lim m m 1 ... (m (m 2)) log a ( x) ... lim m 1 x x ln(a ) m! lim 0 . x x ln(a ) m m ( m 1) 222 5.8 5 Ausgewählte Themen der Analysis Das Newton-Verfahren Bei der Lösung von Gleichungen kommt es häufig vor, dass eine explizite Auflösung nach der unbekannten Größe nicht möglich ist. Man ist dann an einer numerischen Lösung interessiert. Ähnliche Probleme ergeben sich bei der numerischen Bestimmung von Nullstellen von Funktionen. Gegeben sei eine Funktion f : X R , die auf einem Intervall I a , b, I X mindestens zweimal differenzierbar mit stetiger 2. Ableitung ist. Außerdem seien folgende Bedingungen 1. bis 4. erfüllt: 1. f ( a ) f ( b) 0 , d.h. f hat im Intervall I eine Nullstelle (das ergibt sich aus der Stetigkeit von f und der Tatsache, dass f im Intervall I das Vorzeichen wechselt, sie Satz 5.2-3(i)). 2. f ( x ) 0 für jedes x I , d.h. die Nullstelle ist eindeutig (da in I kein Extremwert von f existiert). 3. f ( x ) 0 oder f ( x ) 0 für jedes x I , d.h. f ist entweder konkav oder konvex auf I. 4. Bezeichnet c denjenigen Endpunkt von a , b , für den f ( x ) kleiner ist als am anderen Endpunkt, so gilt f (c) b a . f ( c ) Die Bedingung sichert die Konvergenz des Verfahrens. Gesucht wird eine Lösung der Gleichung f ( x ) 0 mit x I . Bei diesen Voraussetzungen über f approximiert das folgende Verfahren die gesucht Lösung x 0 I (für die dann f ( x 0 ) 0 gilt): Man wählt einen beliebigen Punkt a 0 I . Man berechnet für n = 0, 1, 2, ... 5.8 Das Newton-Verfahren a n 1 a n 223 f (an ) , f ( a n ) bis sich aufeinanderfolgende Werte von a n 1 und a n nur noch „wenig“ unterscheiden (weniger als eine vorgegebene Genauigkeitsschranke). Die so definierte Folge a n nN approximiert die gesuchte Lösung x 0 I der Gleichung f (x) 0 . Anschaulich lässt sich das Verfahren wie folgt darstellen. Nach Wahl von a0 konstruiert man die Tangente im Punkt a0 , f a0 an den Graphen von f. Die Tangenten besitzt die Gleichung yT x f a0 x a0 f a0 . Der Wert a1 ist der Schnittpunkt dieser Tangente mit der xAchse. Mit diesem Wert (anstelle von a0 ) iteriert man das Verfahren. Beispiele: Zur Bestimmung der Quadratwurzel c einer reellen Zahl c > 0 wählt man f (x) x 2 c . Die Folge a n nN lautet hierbei: a0 c 2 , an1 1 c an , n N. 2 an Zur Bestimmung der beliebigen Wurzel man f (x) x k c . Die Folge a n nN lautet hierbei: a0 0 beliebig, 1 1 1-k an1 1 an + c an , n N. k k k cc 1 k mit k N 0 einer reellen Zahl c > 0 wählt 224 5 Ausgewählte Themen der Analysis Zur Berechnung des inversen Werts 1 c einer reellen Zahl c > 0 sind keine Divisionen erforderlich: Man wählt f ( x) 1 c. x Die Folge a n nN lautet hierbei: a0 beliebig mit 0 a0 2c 1 (Schätzung), an+1 an (2 c an ) , n N. Das Newton-Verfahren ist robust gegen Rundungsfehler. Ein Iterationsschritt im Verfahren, d.h. die Berechnung eines weiteren Werts a n1 , verwendet nur den Wert a n und nicht vorherige Werte, etwa a n1 , a n 2 , ..., a 0 . Der Wert a n1 hängt also nur von a n ab. Derartige „einstellige“ Iterationsverfahren haben den Vorteil, dass sich Rundungsfehler nicht akkumulieren. Außerdem zeigt das Newton-Verfahren ein gutes Konvergenzverhalten („quadratische Konvergenz“), d.h. nach wenigen Iterationsschritten bekommt man bereits eine gute Näherung an die gesuchte Lösung. Beispiel: Es wird eine Nullstelle der durch f ( x) x 3 x 2 2 x 5 gegebenen Funktion gesucht. Es ist f ( x) 3 x 2 2 x 2 und f ( x) 6 x 2 . Als „Suchintervall“ für eine Nullstelle kann I 2, 1 genommen werden. Hierfür sind alle obigen Bedingungen 1. bis 4. erfüllt. Als Startwert der Iteration wird a 0 1,5 gewählt. Die folgende Tabelle zeigt das Ergebnis nach dem Newton-Verfahren nach 6 Iterationsschritten (ermittelt mit einem Tabellenkalkulationsprogramm). Zusätzlich ist das Ergebnis angegeben, das das Tabellenkalkulationsprogramm mit der eingebauten „Berechne-für“-Funktion bei 100 Iterationen liefert. Offensichtlich ist hier das Newton-Verfahren bei weitem überlegen. 5.9 Taylorpolynome n an f (an ) f ( a n ) 0 1 2 3 4 5 6 − 1,5 − 1,1914893617021 − 1,1343122722156 − 1,1324954791357 − 1,1324936884782 − 1,1324936884764 − 1,1324936884764 − 3,625 − 0,49411980004431 − 0,014768016090808 − 1,4526940122457 . 10-05 − 1,4100025400726 . 10-11 − 7,6501305290577 . 10-16 − 7,6501305290577 . 10-16 11,75 8,6419194205523 8,1286175371279 8,1126289890596 8,1126132402848 8,1126132402696 8,1126132402696 225 Ergebnis der eingebauten „Berechne-für“-Funktion bei 100 Iterationen: f ( x 0 ) − 2,8645504939842 . 10-06 x 0 − 1,1324940415747 5.9 Taylorpolynome Im folgenden sei f : X R mit X R eine „genügend oft“ differenzierbare Funktion. Der Wert x 0 X sei ein festgewählter Punkt. Der Funktionsverlauf von f soll durch eine Folge Tn x; x0 ; f nN „einfacherer“ Funktionen angenähert werden, die mit f im Punkt x 0 , f ( x 0 ) übereinstimmen und folgenden Bedingungen genügen: Tn x; x0 ; f für n 0 ist dasjenige Polynom n-ten Grades, das mit f an der Stelle x 0 übereinstimmt und dessen sämtliche Ableitungen bis zur n-ten Ableitung mit den entsprechenden Ableitungen von f bei x 0 übereinstimmen. Zur Vereinfachung der Rechnung wird dabei nicht der n Ansatz Tn x; x0 ; f bi x i gewählt, sondern i 0 Tn x; x0 ; f an x x0 an1 x x0 n 1 n ... a1 x x0 a0 mit Tn x0 ; x0 ; f f ( x0 ), Tn x0 ; x0 ; f f ( x0 ), ... Tn (n) x0 ; x0 ; f f ( n ) ( x0 ) . Zur Berechnung der Koeffizienten a0 , ..., an wird Tn x; x0 ; f nacheinander nach x abgeleitet und x0 eingesetzt: Tn( 0 ) x; x0 ; f x x0 Tn x0 ; x0 ; f a0 f x0 , Tn x; x0 ; f x x n an x x0 n 1 0 n 1 an1 x x0 n2 ... a1 x x0 a1 f x0 , 226 5 Ausgewählte Themen der Analysis Tn x; x0 ; f x x n n 1 an x x0 n2 0 n 1 n 2 an1 x x0 2 a2 f x0 , also a2 n 3 ... 2 a2 x x0 1 f x0 , 2 ... Tnn1 x; x0 ; f x x0 n n 1 ... 2 an x x0 n 1!an1 x x n 1!an1 0 f n1 x0 , also an1 Tnn x; x0 ; f x x0 n n 1 ... 2 1 an f n x0 , also an x x0 1 f n1 x0 , n 1! n!an 1 n f x0 . n! Insgesamt ergibt sich also n Tn x; x0 ; f i 0 f (i ) ( x0 ) i x x0 . i! Die Polynome Tn ( x; x0 ; f ) für n 0 und n 1 lauten: n 0: T0 x; x0 ; f f ( x0 ) , ist also die konstante Funktion mit Wert f ( x0 ) . n 1: T1 x; x0 ; f f ( x0 ) f ( x0 ) x x0 , d.h. T1 ist die Tangente an den Graphen von f im Punkt x 0 , f ( x 0 ) . Selbstverständlich ist f x in der Regel nicht gleich Tn x; x0 ; f , sondern es gilt f ( x) Tn x; x0 ; f Rn x; x0 ; f mit einer als Restglied bezeichneten Funktion Rn x; x0 ; f . 227 5.9 Taylorpolynome Satz 5.9-1: Die Funktion f : X R sei in einer -Umgebung U x0 , x x x0 X von x 0 X (n+1)-mal differenzierbar. Dann gilt für alle x U x0 , : n f ( x) i 0 f ( i ) ( x0 ) i x x0 + Rn x; x0 ; f . i! Die Summe n Tn x; x0 ; f i 0 f ( i ) ( x0 ) i x x0 i! heißt Taylorpolynom n-ter Ordnung von f an der Stelle x 0 ; Rn x; x0 ; f heißt Rest- glied des Taylorpolynoms n-ter Ordnung von f an der Stelle x 0 . Die Darstellung von f ( x) in der Form f ( x) Tn x; x0 ; f Rn x; x0 ; f nennt man Taylorentwicklung von f an der Stelle x 0 . Für das Restglied gilt: Rn x; x0 ; f 1 n 1 f ( n 1) ( z ) x x0 . (n 1)! Dabei ist z ein Wert mit x 0 z x , falls x 0 x ist, bzw. mit x z x 0 , falls x x 0 ist. Für x x 0 ist Rn ( x ) 0 . Das Restglied lässt sich auch in der Form Rn x; x0 ; f 1 n 1 f ( n 1) x0 x x0 x x0 mit 0 1 (n 1)! schreiben. Eine alternative Restglieddarstellung lautet Rn x; x0 ; f 1 ( n 1) x0 x x0 1 n x x0 n 1 mit 0 1 . f n! 228 5 Ausgewählte Themen der Analysis Es bleibt zunächst zu zeigen, dass Rn x; x0 ; f 1 n 1 f ( n 1) ( z ) x x0 für einen Wert z (n 1)! zwischen x und x0 ist. Es sei x x0 . Zur Abkürzung wird R( x) Rn x; x0 ; f und T ( x) Tn x; x0 ; f gesetzt. Dann R ( x) n 1 ist f ( x) T x r ( x) x x0 . Durch n 1 x x0 ist f ( x) T x R x . Mit r ( x) h( y ) f y T ( y ) r ( x) y x0 n 1 wird eine zwischen x und x0 n 1 -mal differenzierbare Funktion definiert, für die h x0 0 und hx 0 gilt. Nach Konstruktion von T gilt f ( i ) x0 T ( i ) x0 für i 0, ..., n . Daher ist h( i ) x0 0 für i 0, ..., n . Nach Satz 5.6-4 gibt es zwischen x und x0 einen Wert z1 mit h z1 0 . Nochmalige Anwendung des Satzes 5.6-4 liefert einen Wert z2 zwischen z1 und x0 mit h z2 0 . Die Anwendung des Satzes 5.6-4 lässt sich fortsetzen, und es entsteht eine Folge z1 , z2 , …, zn und zn 1 , der zwischen zn und x0 liegt, mit h( n 1) zn 1 0 . Da T ein Polynom n-ten Grades ist, gilt hn 1 ( y ) f n 1 y n 1!r ( x) , also mit z zn 1 : f n 1 z n 1!r ( x) bzw. R ( x) 1 n 1 . f ( n 1) z x x0 . n 1! Die Entwicklung der alternativen Restglieddarstellung 1 n n 1 Rn x; x0 ; f f ( n 1) x0 x x0 1 x x0 mit 0 1 ergibt sich aus foln! gender Überlegung: n Setzt man F t f x i 0 f ( i ) (t ) i x t und G t x t , dann gibt es nach Satz 5.6-5(ii) i! einen Wert z zwischen x und x0 , etwa z x0 x x0 mit 0 1 , mit d dt F t F x0 F x . Es ist d dt G t t z G x0 G x n f ( i ) (t ) i d dt F t d dt f x f t x t i! i 1 n f (i 1) (t ) f (i ) (t ) i i 1 f t x t i x t i! i! i 1 n n 1 f ( i 1) (t ) f ( i 1) (t ) i i f t xt x t i! i! i 1 i 0 ( n 1) f (t ) n x t und n! 5.9 Taylorpolynome d dt G t 1 . Weiter ist F x 0 , G x 0 , F x0 F x Rn x; x0 ; f 229 und G x0 G x x x0 . Damit ergibt sich F x0 F x Rn x; x0 ; f f ( n 1) ( z ) n x z G x0 G x x x0 n! Rn x; x0 ; f f ( n 1) x0 x x0 n x x0 1 , n! 1 ( n 1) x0 x x0 1 n x x0 n 1 . f n! Beispiel: Es soll die Taylorentwicklung für die Funktion f ( x) e x an der Stelle x0 0 berechnet werden. Dabei sollen nur die Ableitungen von f ( x) verwendet werden. Da für alle Ableitungen f i ( x) e x gilt und e0 1 ist, ergibt sich für das n-te Taylorpolynom von f ( x) e x an der Stelle x0 0 : 1 i x 2 x3 xn Tn x; 0; e x 1 x ... . 2 6 n! i 0 i! x n Mit Satz 5.7-2 ist n n 1 1 1 e x x i Rn x; 0; e x x i e z x n1 mit 0 z x für x 0 und n 1! i 0 i! i 0 i! x z 0 für x 0 . Nun gilt: 1 e z x n1 0 ; denn n n 1! lim Rn x; 0; e x lim n n 1 1! e für x 0 ist 0 Rn x; 0; e x x x n1 , da 0 z x ist, und damit 1 e x x n1 0 (siehe Satz 5.1-5 (iii)). 0 lim Rn x; 0; e x lim n n 1! n 230 5 Ausgewählte Themen der Analysis Für x 0 wird Rn x; 0; e x x n1 1 1 z n 1 z n 1 e x e x betrachtet (die letzte n 1! n 1! n 1! Ungleichung ergibt sich aus e z e0 1 ): hier ergibt sich mit demselben Argument lim Rn x; 0; e x 0 , und mit Satz 5.1-2 (v) folgt lim Rn x; 0; e x 0 . n n Insgesamt ist 1 e x x i für x R . i 0 i! Dieses ist ein Ergebnis, das nicht überrascht; denn so wurde die Exponentialfunktion ja definiert. Zu beachten ist aber, dass bei der Taylorentwicklung allein von der Tatsache Gebrauch gemacht wurde, dass f i ( x) f ( x) e x und e 0 1 ist. Die folgende Abbildung zeigt den Verlauf der Exponentialfunktion und ihrer Taylorpolynome an der Stelle x0 0 für 0 n 5: Taylorpolynome e-Funktion 25 20 e x T5(x) T4(x) 15 T3(x) 10 T2(x) 5 T1(x) 0 -5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3 Um auch ein „numerisches Gefühl“ für die Qualität der Approximation der Exponentialfunktion durch ihr n-tes Taylorpolynom zu bekommen, werden in folgender Tabelle Werte des dritten Taylorpolynoms zur Exponentialfunktion an der Stelle x0 0 dicht an der Entwicklungsstelle und weit entfernt von der Entwicklungsstelle mit numerisch ermittelten Werten 231 5.9 Taylorpolynome von e x verglichen. Man sieht dabei, dass für Werte, die dicht bei x0 0 liegen, bereits 1 x häufig eine befriedigende Annäherung an e x liefert. Für große Werte von x ist ein n-tes Taylorpolynom mit einem großen Wert von n zu nehmen. x T3 x; 0; e x 1 x ex x 2 x3 2 6 (letzte Stelle gerundet) 1 2, 6... 2,7182818284590452353602874713527 12 1,64583... 1,6487212707001281468486507878142 1 10 1,10516... 1,1051709180756476248117078264902 1 100 1,01005016... 1,0100501670841680575421654569029 20 1554, 3... 485 165 195,40979027796910683054154 Insbesondere gilt e i0 1 1 1 1 1 1 1 + + ... + . 1 1 i! n ! i n 1i ! 2 6 24 120 Wegen a x e ln( a )x ist a x x ln( a ) i i0 i! für x R . Beispiel: Es soll nun die Taylorentwicklung der natürlichen Logarithmusfunktion ln x hergeleitet werden. Die Wahl x0 0 der Entwicklungsstelle ist hierbei nicht möglich, da ln x x x nicht 0 definiert ist. Andererseits ist eine Taylorentwicklung an der Entwicklungsstelle x0 0 besonders einfach. Es wird daher zunächst die durch R R f ( x) 1 ln 1 x x definierte Funktion in eine Taylorreihe an der Stelle x0 0 entwickelt: Es ist 232 f ( x) 5 Ausgewählte Themen der Analysis 1 2 3 1 1 x , f ( x) 1 x , f ( x) 2 1 x , 1 x f (i ) ( x) 1 i 1!1 x und damit i 1 i ln(1 0) n 1 i 1!1 0 Tn x; 0; ln 1 x xi 0! i! i 1 i 1 n i 1i1 x i x x 2 x3 x 4 ... 1n1 x n 2 i i 1 3 4 n Mit Satz 5.7-2 ist n ln 1 x 1i1 x i R x; 0; ln1 x i 1 n i 1i1 x i 1n 1 z n1 x n1 n 1 i i 1 n mit 0 z x für x 0 und x z 0 für 1 x 0 . Das Restglied Rn x; 0; ln 1 x 1n 1 z n1 x n1 n 1 lässt sich betragsmäßig abschätzen: Für 0 z x gilt (wegen 1 z 1 bzw. folgt daher lim Rn x; 0; ln 1 x 0 . 1 x n1 1 ) Rn x; 0; ln 1 x . Für 0 x 1 n 1 1 z n Für 1 2 x z 0 ist (wegen 0 1 x 1 x 1 x 1 z 1 bzw. 0 n 1 x 1 x n 1 1 z Rn x; 0; ln 1 x n 1 n 1 1 x n 1 . Wegen x 1 2 ist 1 1 ) 1 z 1 x x 1 , so 1 x dass auch in diesem Fall lim Rn x; 0; ln 1 x 0 gilt. n Für 1 x 1 2 verwendet man die alternative Restgliedabschätzung in Satz 5.9-1: Rn x; 0; ln 1 x 1 n Es ist 0 1 n x n 1 mit 0 1 . 1 x n 1 1 1 1 1 1 und und damit 1 x 1 x 1 x 1 x 233 5.9 Taylorpolynome Rn x; 0; ln 1 x 1 1 x n 1 x n 1 . Daraus folgt auch hier lim Rn x; 0; ln 1 x 0 . n Insgesamt ist 1i 1 xi ln 1 x i i 1 x x3 x 4 x5 (1) n 1 n (1)i 1 i x + ... + x x für x R mit 1 x 1. 2 3 4 5 n i i n 1 2 . Die Taylorentwicklung für f ( x) ln( x) für x 0 erhält man aus der Substitution z x 1 , x z 1: n ln x ln( z 1) i 1 ln x i 1 1i1 x 1i R x 1; 0; ln1 z und i n 1i1 x 1i i x 1 ( x 1) 2 ( x 1)3 ( x 1) 4 (1) n1 (1)i1 + ... + ( x 1) n ( x 1)i 2 3 4 n i i n 1 für x R mit 0 x 2 . Daraus ergibt sich das Ergebnis aus Satz 5.1-9 (iii) ln(2) i 1 1 ( 1) i 1 i 1 1 1 1 ( 1) n 1 ( 1) i 1 + ... + 0,6931471 . 2 3 4 5 n i i n 1 Die folgende Abbildung zeigt den Verlauf der natürlichen Logarithmusfunktion und ihrer Taylorpolynome an der Stelle x0 1 für 0 n 5 ; man sieht sehr schön die Approximation der Taylorpolynome für x R mit 0 x 2 . 234 5 Ausgewählte Themen der Analysis Taylorpolynome ln-Funktion 6 T5(x) 4 T3(x) 2 0 T2(x) T4(x) -2 ln(x) -4 -6 -8 -0,5 0 0,5 1 1,5 2 2,5 3 Es soll nun die Größe von n berechnet werden, die ausreicht, damit Tn x; 0; ln 1 x eine Approximation an ln 1 x liefert, die einer vorgegebenen Genauigkeit genügt. Hierbei sei 0 x 1 . Soll also Tn x; 0; ln 1 x in der Dezimalentwicklung bis zur m-ten Nachkomma- stelle genau sein, so kann man folgendermaßen vorgehen: Die Dezimalentwicklung von ln 1 x bzw. von Tn x; 0; ln 1 x , die bis zur m-ten Nachkommastelle identisch sind, seien ln 1 x d k d k 1 ... d1d 0 , d 1d 2 ... d m d m1d m2 ...10 bzw. Tn x; 0; ln 1 x d k d k 1 ... d1d 0 , d 1d 2 ... d m cm1cm2 ...10 . Dann ist Rn x; 0; ln 1 x ln 1 x Tn x; 0; ln 1 x 0, 0 ... 0 d m 1 cm 1 10 m 1 d m 2 cm 2 10 m 2 ... m mal d i m 1 i ci 10 i , i m1 i m1 i m 1 9 10i Rn x; 0; ln1 x 9 10i , d.h. wegen 10i 1 10m : 9 5.9 Taylorpolynome 235 10 m Rn x; 0; ln 1 x 10 m bzw. 0 Rn x; 0; ln 1 x 10 m . Im angenommenen Fall 0 x 1 ist 0 Rn x; 0; ln 1 x x n1 . Die Anforderung an n laun 1 tet also x n1 10m . n 1 Soll beispielsweise ln 1,5 auf 7 Nachkommastellen genau durch das n-te Taylorpolynom ann 1 12 gegeben werden, so wird n so bestimmt, dass 10 7 , d.h. n 1 n 1 2n1 n 1 2n1 107 ist; muss also mindestens 8 Dezimalstellen aufweisen. Die folgende Tabelle listet ei- nige Werte für n 1 2 n1 auf: n n 1 2n1 1 2 ... 10 11 ... 17 18 19 8 24 ... 22.528 49.152 ... 4.718.592 9.961.472 10.971.520 In diesem Beispiel ist also n 19 zu wählen. Bemerkung: ln(1,5) = 0,40546510810816438197801311546435 (letzte Stelle gerundet) Zur Berechnung von ln(x) für x R mit 0 x 2 kann man also ein n-tes Taylorpolynom mit genügend großem n als Approximation an ln(x) nehmen. Im allgemeinen (auch für x 2 ) funktioniert dieser Ansatz nicht, da das Restglied nicht gegen 0 konvergiert. Nun gilt aber für h 1: ln 1 h i 1 1i1 hi i und ln 1 h ln 1 h i 1 1i1 h i i i 1 1 i h und damit i 1 hi 1 hi 2 1 h 2i1 1 h ln ln 1 h ln 1 h i 1 h i 1 i 1 i i 0 2 i 1 i 1 h3 h5 h 2n1 h 2i1 2 . 2 h ... 3 5 2 n 1 i n 1 2 i 1 236 5 Ausgewählte Themen der Analysis Für x R mit x 0 ist 1 1 h x 1 x 1 . Da 1 . Setzt man h , so ist h 1 und x 1 h x 1 x 1 mit ergibt sich h3 h5 h 2n1 h 2i1 2 ln( x) 2 h ... für x R . 3 5 2 n 1 i n 1 2 i 1 h x 1 x 1 Beispiel: Für m N ist m (1 x ) m ( 1) i i 0 m m m ( m 1) ... ( m i 1) i x ( 1) i x i für x R . i! i i 0 Diese Formel ist ein Spezialfall der allgemeineren Formel m ( a b) m ( 1) i i 0 m m m ( m 1) ... ( m i 1) i m i a b ( 1) i a i b m i i! i i 0 für a R, b R . Für m R \ N mit m > 0 ist (1 x ) m ( 1) i i 0 1 mx m ( m 1) ... ( m i 1) i x i! m( m 1) 2 m( m 1)( m 2) 3 m( m 1)... ( m i 1) i x x x ( 1) i 2 6 i! i 4 für x R mit 1 x 1 . Beispiel: Zur Berechnung eines Wertes der Form 1,000001 mit großer Genauigkeit kann die Taylor0,9999992 entwicklung einer „geeigneten“ Funktion herangezogen werden. Mit R 1 f : x R 1 x 1 x 2 5.9 Taylorpolynome ist 237 1,000001 f 10 6 . Das n-te Taylorpolynom der Funktion f wird ermittelt; dazu werden 0,9999992 einige Ableitungen ermittelt, um daraus auf die Form der i-ten Ableitung zu schließen: 1 x , 1 x 2 f 0 ( x ) f ( x ) f ( x) 1 1 x 1 x 2 1 x 3 x , 4 1 x 3 1 x 2 1 x 3 3 x 3 1 x 2 10 2 x 2 5 x , 1 x 6 1 x 4 1 x 4 4 3 2 1 x 2 5 x 4 1 x 42 6 x 6 7 x f ( x) ; 8 1 x 1 x 5 1 x 5 f ( x) die i-te Ableitung lautet also (das kann man durch vollständige Induktion beweisen): f i ( x ) i!2 i 1 x . 1 x i2 Damit gilt für das n-te Taylorpolynom an der Stelle x0 0 : n Tn x; 0; f ( x) i 0 n i!2 i 1 i x 2 i 1 x i 1 3 x 5 x 2 7 x 3 ... 2 n 1 x n . i! i 0 Für 1 x 1 konvergiert das Restglied Rn x; 0; f ( x) 2 n 3 z x n1 gegen 0, so dass gilt: 1 x 2 i 1 x i für 1 x 1 . 2 1 x i0 Damit ist 1,000001 1 x 2 0,999999 1 x 2 1,0000030000050000070000090000110000130... x 106 238 5 Ausgewählte Themen der Analysis Beispiel: Aus der Schule sind die trigonometrischen Funktionen Sinus-, Kosinus-, Tangens-, Kotangensfunktion und weitere daraus abgeleitete Funktionen bekannt. Grundlagen bilden die Sinus- und Kosinusfunktion, die über Längenverhältnisse in einem rechtwinkligen Dreieck definiert werden: C A B Der Sinus eines Winkels in einem rechtwinkligen Dreieck (siehe Abbildung) ist definiert als das Verhältnis der Länge der Seite BC zur Länge der Seite AC. Bezeichnet man die Länge einer Seite XY mit XY , dann ist sin BC . AC Der Kosinus eines Winkels in einem rechtwinkligen Dreieck ist definiert als das Verhältnis der Länge der Seite AB zur Länge der Seite AC: cos AB . AC Der Tangens eines Winkels in einem rechtwinkligen Dreieck ist definiert als das Verhältnis der Länge der Seite BC zur Länge der Seite AB: tan BC sin . AB cosa Der Kotangens eines Winkels in einem rechtwinkligen Dreieck ist definiert als das Verhältnis der Länge der Seite AB zur Länge der Seite BC: cot AB 1 . BC tan a Normiert man die Strecke AC zur Länge 1, so findet man die einzelnen Werte geometrisch aus folgender Abbildung, in der das definierende Dreieck in den Einheitskreis (Kreis mit Radius 1 um den Nullpunkt) eingezeichnet ist. Dabei folgt aus dem Strahlensatz sin AC 1 tan . , also AC cos sin cos Aus der Ähnlichkeit der Dreiecke 0DC und BA0 folgt DC 1 , also DC cot . 1 tan 239 5.9 Taylorpolynome 1 cot C D B 1 tan sin 0 A cos x 1 Die Winkelfunktionen lassen sich auch in Abhängigkeit der Länge x des Bogenstücks ausdrücken, das durch den Winkel auf dem Einheitskreis bestimmt wird. Die Umrechnung zwischen Winkel und Bogenstücklänge erfolgt über einen festen Faktor, der hier nicht weiter detailliert werden soll. Es ist dann sin sin x ; entsprechend für die anderen Funktionen. Offensichtlich gelten folgende Beziehungen (hier werden die Argumente der Funktionen in Abhängigkeit der Bogenlänge angegeben): sin 0 0 , cos0 1 , sin x 2 cosx 2 1 , sin x x tan x . Aus der letzten Gleichung ergibt sich wegen x cos x sin x x und cos x tan x sin x cos x bei x0: sin x 1 . Diese Ungleichung führt auf die später verwenx dete Limesbeziehung sin x 1. x 0 x lim Eine ähnliche später verwendete Limesbeziehung lässt sich für die Kosinusfunktion herleiten: 240 5 Ausgewählte Themen der Analysis cosx 1 cosx 1 cosx 1 x x cosx 1 cosx 2 1 x cosx 1 2 sin x x cosx 1 sin x sin x , x cosx 1 cosx 1 0. x 0 x lim Schließlich sollen noch die Additionstheoreme für die Sinus- und Kosinusfunktion (geometrisch) hergeleitet werden. Hierbei werden wieder Beziehungen im Dreieck betrachtet. Es gilt sin sin cos sin cos , cos cos cos sin sin . Zur Herleitung wird folgende Abbildung betrachtet: A 90 sin C B sin 1 D E F cos Die eingezeichneten Größen ergeben sich unmittelbar aus der Definition der Sinus- und Kosinusfunktion. Betrachtet man das Dreieck ADE, so erkennt man, dass der linke Winkel bei A die Größe 180 90 90 besitzt. Aus der Winkelsumme 180 im Drei- eck ADC ergibt sich die Größe 180 90 90 für den anderen Winkel bei 5.9 Taylorpolynome A. Aus sin BC sin folgt 241 BC sin sin ; aus cos AB sin folgt AB cos sin ; aus sin CF cos folgt CF sin cos ; aus cos DF cos folgt DF cos cos . Insgesamt ergibt sich sin CF AB sin cos sin cos und cos DF BC cos cos sin sin . Auch in diesen Gleichungen können wieder die Winkel durch entsprechende Bogenlängen im Einheitskreis ersetzt werden. Damit lassen sich nun die Ableitung der Sinus- und der Kosinusfunktion bestimmen, wobei die oben hergeleiteten Limesbeziehungen eingesetzt werden: sin x0 x sin x0 d sin x lim x 0 dx x x x0 sin x0 cosx sin x cos x0 sin x0 x 0 x sin x0 cosx 1 sin x cos x0 lim lim x 0 x 0 x x cosx 1 sin x cos x0 lim sin x0 lim x 0 x 0 x x cos x0 . lim cos x0 x cos x0 d cos x lim x 0 dx x x x0 cos x0 cosx sin x0 sin x cos x0 x 0 x cos x0 cosx 1 sin x0 sin x lim lim x 0 x 0 x x cosx 1 sin x sin x0 lim cos x0 lim x 0 x 0 x x sin x0 . lim Die Sinus- und die Kosinusfunktion bilden also ein Paar von (g, h) von Funktionen, die auf ganz R definiert und differenzierbar sind und die folgende Eigenschaften besitzen: g ( 0) 0 , h ( 0) 1 , g ( x ) h( x ) , h ( x ) g ( x ) . 242 5 Ausgewählte Themen der Analysis Mit dieser Betrachtungsweise erhält man einen analytischen Zugang zu den Winkelfunktionen, ohne ihre geometrische Herleitung zu bemühen. Im Folgenden wird gezeigt, dass diese wenigen Annahmen ausreichen, um g und h eindeutig festzulegen, und dass beide Funktionen genau denselben Gesetzmäßigkeiten folgen wie die Sinus- und Kosinusfunktion. Darüber hinaus ermöglicht dieser Ansatz einen nicht-geometrischen Weg, um zu definieren. Aus den obigen Annahmen folgt g ( 0) 0 , g (0) h(0) 1 , g (0) h(0) g (0) 0 , g (0) g (0) h(0) 1 , g 4 (0) h(0) g (0) 0 , d.h. 0 für i mod 2 0 g (0) 1 für i mod 4 1 1 für i mod 4 3 i Das 2 n 1 te Taylorpolynom von g an der Stelle x0 0 lautet: n T2n1 x; 0; g ( x) i 0 1i 2 i 1! x 2i1 . Das Restglied konvergiert für jedes x R gegen 0 (die Begründung erfolgt wie bei der Exponentialfunktion), so dass g ( x) i 0 1i 2 i 1! x 2i 1 gilt. Im vorliegenden Fall darf man die Bildung der unendlichen Reihe und die Ableitungsoperation miteinander vertauschen, so dass 1i 2 i 1 x 2i 1i x 2i 2 i 1! i 0 2 i ! i 0 h( x) g x Gilt (man hätte die Taylorentwicklung auch direkt herleiten können). Die Ausgangsbedingungen g (0) 0 , h(0) 1 , g ( x ) h( x ) und h ( x ) g ( x ) legen die Funktionen g und h eindeutig fest. Dieser Ansatz bildet die Grundlage einer analytischen Definition der Sinusfunktion und der Kosinusfunktion: 5.9 Taylorpolynome sin( x) i 0 1i 2 i 1! x 2i1 x 243 1 x 2n1 1 x 2i1 x3 x5 x 7 ... 2 n 1! 3! 5! 7! i n 12 i 1 ! n i für x R . 1i x 2i 1 x 2 x 4 x 6 ... 1n x 2n 1i x 2i 2 n ! 2 4! 6! i n 12 i ! i 0 2 i ! cos( x) für x R . Es zeigt sich, dass diese Funktionen dieselben Eigenschaften besitzen wie die über geometrische Betrachtungen am rechtwinkligen Dreieck eingeführten Sinus- und Kosinusfunktionen. Einige wichtige Formeln werden hier zusammengestellt: Aus der Definition folgt unmittelbar sin( x) sin x , cos( x) cos x , d sin( x) cos x , dx d cos( x) sin x . dx Definiert man für festes y R die Funktion f durch f x cosx y und entwickelt diese bei x0 0 in eine Taylorreihe, d.h. f x k 0 f x f ( k ) 0 k x , so erhält man mit k! d sin x y cosx y f x : dx Für k N ist f 2k x 1 f x und f 2k 1 x 1 f x , also k k 1k x 2k f 0 1k x 2k 1 k 0 2 k ! k 0 2 k 1! f 0 cos x f 0 sin x , f x cos x y f 0 also cos x y cos x cos y sin x sin y . Durch Ableiten von f x f 0 cos x f 0 sin x erhält man sin x y f 0 sin x f 0 cosx und sin x y sin x cos y cos x sin y . 244 5 Ausgewählte Themen der Analysis Damit ergibt sich cosx y cosx cos y sin x sin y und sin x y sin x cos y cosx sin y . Mit x y und cos0 1 folgt der Satz des Pythagoras: sin x 2 cosx 2 1 . Weiterhin ist mit x y cosx x cos2 x , also cos2 x cos x sin x und 2 2 sin 2 x 2 sin x cos x . 1i x 2i i 0 2 i ! Die Taylorentwicklung des Kosinus cos( x) ist eine unendliche Reihe mit al- ternierenden Folgengliedern, und es gilt für i 1 und 0 x 3 wie man leicht nachrechnet: x 2 i x 2i 1 . Damit ergibt sich mit Satz 5-1.13 2 i ! 2 i 1! x2 x2 x4 1 cos( x) 1 für 0 x 3 . 2 2 24 Das Polynom px 1 Polynoms qx 1 x2 hat die Nullstellen x p ,1 2 und x p , 2 2 . Die Nullstellen des 2 x2 x4 erhält man mit der Substitution z x 2 : zq ,1 6 2 3 und 2 24 zq , 2 6 2 3 sind Nullstellen von 1 z z2 , und damit sind xq ,1 6 2 3 , 2 24 xq , 2 6 2 3 , xq ,3 6 2 3 und xq , 4 6 2 3 die Nullstellen von q (nach aufsteigender Größe sortiert). Das bedeutet 0 cos( 2 ) und cos 6 2 3 0 . Nach Satz 5.2-3 gibt es (mindestens) eine Nullstelle x0 der Kosinusfunktion im Intervall 2, 6 2 3 . Die kleinste Nullstelle der Kosinusfunktion cos x für x 0 definiert den Wert 2 . Insgesamt cos 2 0 und 2 6 2 3 3,1849 . 245 5.9 Taylorpolynome Mit dem Satz des Pythagoras folgt 1 sin 2 cos 2 sin 2 , also 2 2 2 d sin( x) cos x ist die dx Sinusfunktion für diese Werte x streng monoton steigend. Die Stetigkeit der Sinusfunktion lässt daher nur den Wert sin 2 1 zu. sin 2 1 . Für x R mit 0 x 2 ist cos x 0 und wegen Aus sin x y sin x cos y cos x sin y folgt: sin x 2 sin x cos 2 cosx sin 2 cosx sin x 2 cosx cos x sin 2 x . Ersetzt man in der letzten Formel x durch x 2 , so erhält man sin x sin x sin x . Hier wird x durch x ersetzt, und man erhält sin x 2 sin x sin x . Die Nullstellen der Sinusfunktion sind die Werte x k mit k Z . Entsprechend ergibt sich die Herleitung von cosx 2 cosx . Die Nullstellen der Kosinusfunktion sind die Werte x 2 k mit k Z . Über die Sinus- und Kosinusfunktion definiert man wieder die übrigen trigonometrischen Funktionen: Tangensfunktion tan x sin( x) für x R mit x k für k Z , cos( x) 2 Kotangensfunktion cot x cos( x) für x R mit x k für k Z . sin( x) Auf weitere Details wird hier mit Verweis auf die angegebene Literatur verzichtet. 246 5 Ausgewählte Themen der Analysis Vergleicht man die Taylorreihenentwicklung der Kosinus- und der Sinusfunktion mit derjenigen der Exponentialfunktion, so fällt die große Ähnlichkeit auf. Es gelten folgende Zusammenhänge zwischen der Exponential-, der Sinus- und der Kosinusfunktion: Erweitert man die Definition der Exponentialfunktion von den reellen Zahlen auf die komplexen Zahlen (siehe Kapitel 1.4), so erhält man die komplexwertige Exponentialfunktion C exp : z C zk . k 0 k! Die unendliche Reihe in dieser Definition wird wieder über endliche Partialsummen definiert, wobei hierbei alle Operationen in den komplexen Zahlen ausgeführt werden. Die bei den Konvergenzbetrachtungen auftretenden Betragswerte sind dann wegen z a bi a 2 b 2 reelle Zahlen, so dass Konvergenzbetrachtungen von den komplexen Zahlen auf die reellen Zahlen übertragen werden und in R stattfinden. Es lässt sich zeigen, dass auch hier wieder zk zk absolut konvergiert, so dass der Grenzwert exp( z ) mit z C in der Tat exis k 0 k! k 0 k! tiert. Zur Abkürzung schreibt man anstelle von exp(z ) wieder e z und meint damit den Grenzwert zk . k 0 k! Nun gilt für die imaginäre Zahl i: i 2 1 . Für x R ergibt sich: k i x k eix e ix 1 i x 2 2 k 0 k! k! k 0 1 i x i x 2 k 0 k! k k 2k 1 x 2k 1 i sin( x) , 1 2 i x i x 2k 1 i i 2 k 0 2 k 1! k 0 2 k 1! k 0 2 k 1! 2k 1 k k i x k e ix e ix 1 i x 2 2 k 0 k! k! k 0 1 i x i x 2 k 0 i! 1 2 i x 2 k 0 2 k ! k k 2k 1k x 2k 2 k ! k 0 cos( x) . 247 5.10 Fibonacci-Zahlen Damit folgt eix eix e ix eix e ix cos( x) i sin( x) . 2 2 Für x R ist also cos(x) der Realteil und sin(x) der Imaginärteil von eix . cos( x) 2 sin( x) 2 Insbesondere ist ei x cos( x) i sin( x) 1 1. Die in Satz 5.5-1 für reelle Zahlen x und y definierte Funktionalgleichung exp( x y ) exp( x) exp( y ) lässt sich auch für die komplexwertige Exponentialfunktion nachweisen, so dass insgesamt für z C , etwa z a b i mit a R und b R , gilt: exp( z ) expa i b exp(a ) expi b exp(a ) cos(b) i sin(b) . Auch die komplexe Exponentialfunktion ist wie die Sinus- und Kosinusfunktion periodisch: expi x cos( x) i sin( x) cos( x 2 ) i sin( x 2 ) expi x 2 expi x i 2 . 5.10 Fibonacci-Zahlen In Kapitel 2.1 werden die Fibonacci-Zahlen als Funktion definiert: N N für n 0 und n 1 fib : n n fib(n 1) fib(n 2) für n 2. Die Fibonacci-Zahlen spielen in vielen Teilen der Mathematik und der Informatik (z.B. bei der Laufzeitberechnung des Zugriffs auf Daten, die in Form höhenbalancierter Bäume gespeichert sind) eine wichtige Rolle. Zur Vereinfachung der Darstellung wird Fn fib(n) gesetzt, d.h. Fn nN ist die Folge der Fibonacci-Zahlen. Die ersten elf Fibonacci-Zahlen lauten: n 0 1 2 3 4 5 6 7 8 9 10 Fn 0 1 1 2 3 5 8 13 21 34 55 Gemäß obiger Definition ist 248 5 Ausgewählte Themen der Analysis für n 0 oder n 1 n Fn Fn2 Fn1 für n 2. Zur Berechnung der n-ten Fibonacci-Zahlen kann man z.B. folgende Pascal-Funktion einsetzen, die wohl elegant ist, aber schlechtes Laufzeitverhalten zeigt: FUNCTION fib_1 (n : INTEGER) : INTEGER; BEGIN { fib_1 } IF n < 0 THEN Exit; CASE OF n 0 : fib_1 := 0; 1 : fib_1 := 1; ELSE fib_1 := fib_1(n-2) + fib_1(n-1); END; END { fib_1 }; Optimales Laufzeitverhalten zeigt folgende Pascal-Funktion, die zur Berechnung der n-ten Fibonacci-Zahl Fn nacheinander alle Fibonacci-Zahlen Fi mit 0 i n nach dem Prinzip der Dynamischen Programmierung berechnet: FUNCTION fib_2 (n : INTEGER) : INTEGER; VAR f_n1, f_n2, f_n : INTEGER; idx : INTEGER; BEGIN { IF n CASE 0 1 ELSE fib_2 } < 0 THEN Exit; OF n : fib_2 := 0; : fib_2 := 1; BEGIN f_n2 := 0; f_n1 := 1; FOR idx := n DOWNTO 2 DO BEGIN f_n := f_n2 + f_n1; f_n2 := f_n1; f_n1 := f_n; END; fib_2 := f_n; END; END { CASE }; END { fib_2 }; 5.10 Fibonacci-Zahlen 249 Die Fibonacci-Zahlen sind rekursiv definiert, und es ist wünschenswert, den Wert der n-ten Fibonacci-Zahl direkt in Abhängigkeit von n zu erhalten. Hier hilft eine spezielle mathematische Methode, die Methode der erzeugenden Funktionen, weiter, die hier nur auf das vorliegende Beispiel angewandt werden soll. Zunächst fasst man die beiden Fälle der definierenden Gleichung der Fibonacci-Zahlen zu einer Gleichung zusammen. Dazu definiert man F1 F2 0 und erhält Fn Fn 1 Fn 2 an für jedes n N ; hierbei ist a1 1 und an 0 für n 1 . Beide Seiten werden mit x n multipliziert und alle Werte aufaddiert; hier ist nicht gesagt, welchen Wert x annimmt, und auch Fragen der Konvergenz spielen zunächst keine Rolle. Man erhält: n 0 n 0 n 0 n 0 n 0 n 0 Fn x n Fn1 x n Fn2 x n an x n Fn x n1 Fn x n2 x n 0 n 0 wegen F1 F2 0 x Fn x n x 2 Fn x n x. Setzt man F ( x) Fn x n , so erhält man die Gleichung n 0 F ( x) x F ( x) x 2 F ( x) x , die man nach F(x) auflöst: F ( x) x . 1 x x2 Diese Funktion erfüllt für x0 0 die Voraussetzungen von Satz 5.7-2, so dass man versuchen könnte, die Taylorentwicklung an der Stelle x0 0 herzuleiten. Wieder unter der Annahme, dass Konvergenz vorliegt, ergäbe sich dann: 250 5 Ausgewählte Themen der Analysis F i 0 i F ( x) x Fn x n . i! i 0 n 0 Ein Koeffizientenvergleich lieferte Fn F n 0 . Dieser Weg ist jedoch mühsam, da die n! Ableiungen F i (x) schwierig zu bestimmen sind. Daher wird ein anderer Weg beschritten: Es werden Zahlen A, B, und mit Hilfe der Partialbruchzerlegung bestimmt, für die gilt: F ( x) x A B . 2 1 x x 1 x 1 x A 1 x B 1 x 1 x 1 x 1 x 1 x A A x B B x 1 x 1 x x . 1 x x2 A B Der Koeffizientenvergleich ergibt: A B A B x x und 1 x 1 x 1 x x 2 . Mit x 0 folgt aus der ersten Gleichung A B 0 bzw. A B . Zur Bestimmung von und werden die Nullstellen von 1 x x 2 bestimmt. Diese lauten (siehe Kapitel 5.3): 1 1 x01 1 5 und x02 1 5 . 2 2 Damit ist 5.10 Fibonacci-Zahlen 251 1 x x 2 x x01 x x02 x01 x x02 x x x 1 x01 x02 1 x01 x02 x x 1 1 x01 x02 wegen x01 x02 1 1 x 1 x und folglich 1 1 1 5 1 2 2 1 5 x01 2 1 5 1 5 1 5 0,618034 und 1 1 1 2 1 5 x02 1 5 2 1,618034. Diese Werte für und werden in die Gleichung A B A B x x eingesetzt, wobei A B 0 bzw. A B bereits bekannt ist, und der Wert x 1 genommen wird. Man erhält 1 A A A A 5 bzw. A 1 1 und B . 5 5 Damit ist x 1 x x2 A B 1 x 1 x F ( x) 1 1 1 . 5 1 x 1 x Nun ist nach Satz 5.1-9 (i) für x 1 bzw. x 1 : 252 5 Ausgewählte Themen der Analysis 1 1 x x bzw. i i 0 1 1 x x i 0 i . und insgesamt F ( x) 1 1 1 5 1 x 1 x 1 1 n n xn 5 n 0 5 Fn x n . n 0 Bemerkung: Diese Gleichung gilt wegen der Konvergenzanforderungen x 1 und x 1 für jedes x R mit x min 1 , 1 Tatsache, die hier nicht von Belang ist. Der Koeffizientenvergleich liefert: Die durch für n 0 oder n 1 n Fn Fn2 Fn1 für n 2 definierten Fibonacci-Zahlen erfüllen die Gleichung n n 1 1 5 1 5 für jedes n N . Fn 5 2 2 1 0,618034 , eine 5.11 Erzeugende Funktionen 253 5.11 Erzeugende Funktionen Im vorliegenden Kapitel wird die in Kapitel 5.10 erwähnte Methode der erzeugenden Funktionen beschrieben und im Kapitel 5.12 auf weitere interessante Fragestellungen der Informatik angewendet. Es sei g n nN eine Folge reeller Zahlen. Die erzeugende Funktion G der Folge g n nN wird durch G ( z ) g n z n definiert. Hierbei ist z eine „formale“ (komplexe oder reelle) Variabn 0 le. Die erzeugende Funktion fasst die gesamte Information über die Folge g n nN in einem einzigen arithmetischen Ausdruck zusammen. Die z-Potenzen separieren dabei die einzelnen Folgenglieder. Natürlich kann man nach Konvergenzbedingungen in Abhängigkeit von z fragen. Im vorliegenden Zusammenhang spielen diese aber eine untergeordnete Rolle. Aus der erzeugenden Funktion G ( z ) g n z n lassen sich die einzelnen Folgenglieder zun 0 rückgewinnen: Es gilt nämlich (vgl. Kapitel 5.6) für die i-te Ableitung von G (z ) : G i ( z ) n n 1 ... n i 1 g n z n i , also G n (0) n! g n bzw. g n n i 1 n G ( 0) . n! Daher sind zwei Folgen mit derselben erzeugenden Funktion identisch. In Kapitel 5.10 wird die erzeugende Funktion der Fibonacci-Folge Fn nN berechnet zu F ( z ) Fn z n n 0 z . Hierbei ist zur Berechnung die Tatsache, dass diese Reihe nur 1 z z2 für z 2 1 1 5 0,618034 konvergiert, ohne Belang. Die erzeugende Funktion der Fibonacci-Folge wird in eine Potenzreihe umgewandelt mit dem Ergebnis n n 1 1 5 1 5 n z z . Daraus lässt sich die n-te FibonacciF ( z) 1 z z 2 n0 5 2 2 n n 1 1 5 1 5 . Zahl in geschlossener Form ablesen: Fn 5 2 2 254 5 Ausgewählte Themen der Analysis Satz 5.11-1: Es seien f n nN bzw. g n nN zwei Folgen mit den erzeugenden Funktionen F (z ) bzw. G (z ) und und Konstanten. (i) Die erzeugende Funktion der Folge f n g n nN lautet f n 0 (ii) n gn z n F ( z) G( z) . Die erzeugende Funktion der Folge, die man erhält, indem man g n nN um m , lautet Plätze nach rechts verschiebt, also der Folge 0, g g ..., 0 , , , ... 0 1 m nm n 0 n 0 g nm z n g n z n m z m g n z n z m G ( z ) . (iii) Die erzeugende Funktion der Folge, die man erhält, indem man g n nN um m Plätze nach links verschiebt, also der Folge g m , g m1 , g m2 , ... , lautet g n m z n n 0 G ( z ) g 0 g1 z g 2 z 2 ... g m1 z m1 . zm (iv) Die erzeugende Funktion der Folge n g n nN lautet n 0 n g n z n g n z G ( z ) . n n 0 ../.. 255 5.11 Erzeugende Funktionen (v) Die erzeugende Funktion der Folge n 1 g n1 nN g1 , 2 g 2 , 3 g 3 , ... lautet n 1 g n 0 n 1 z n G( z ) . (vi) Die erzeugende Funktion der Folge n g n nN 0, g1 , 2 g 2 , 3 g 3 , ... lautet n g n 0 n z n z G( z ) . 1 1 1 (vii) Die erzeugende Funktion der Folge g n1 0, g 0 , g1 , g 2 , ... , wobei 2 3 n nN das 0-te Folgenglied den Wert 0 hat, lautet 1 ng n 1 z n 1 z n G (t )dt . 0 n (viii) Die Faltung der Folgen f n nN und g n nN , d.h. die Folge f k g nk , hat k 0 nN die erzeugende Funktion n f k g nk z n F ( z ) G ( z ) . n 0 k 0 (ix) Die Folge, deren Glieder die n-ten Partialsummen der Folge g n nN bilden, d.h. n die Folge g 0 , g 0 g1 , g 0 g1 g 2 , ... g k hat die erzeugende Funktion k 0 nN n 1 G( z) . gk z n 1 z n 0 k 0 (x) Die erzeugende Funktion der Folge, die aus g n nN entsteht, indem man die Folgenglieder mit ungeradem Index g0 , 0, g 2 , 0, g 4 , 0, ... , lautet g 2n z 2n n 0 durch 0 ersetzt, G ( z ) G ( z ) . 2 d.h. der Folge Die erzeugende Funktion der Folge, die aus g n nN entsteht, indem man die Folgenglieder mit geradem Index durch 0 ersetzt, 0, g1 , 0, g3 , 0, g5 , 0, ... , lautet g 2n1 z 2n1 G ( z ) G ( z ) . n 0 Die Aussagen (i) – (iv) sind unmittelbar einsichtig. Aussage (v) ergibt sich aus 2 d.h. der Folge 256 5 Ausgewählte Themen der Analysis n G( z ) g n z g1 2 g 2 z 3 g 3 z 2 ... n 0 n 1 g n1 z n . n 0 Aussage (vi) folgt aus (ii), indem man die Folge aus (v) um einen Platz nach rechts verschiebt. Aussage (vii) ergibt sich wie folgt (hier wird benutzt, dass unter der Voraussetzung der Konvergenz die Operationen der Integral- und Summenbildung vertauschbar sind; hinzu kommt ein wenig elementares Schulwissen): z z z n1 1 n n G ( t ) dt g t dt g t dt g g n1 z n 0 z 0 . Dazu gehört n n n 0 0 0 n 1 n1 n n 0 n 0 n 0 z 1 1 die Folge 0, g 0 , g1 , g 2 , ... . 2 3 Für Aussage (viii) ist F ( z) G( z) f n z n gn z n n 0 n 0 f 0 g 0 f 0 g1 f1 g 0 z f 0 g 2 f1 g1 f 2 g 0 z 2 ... n f k g nk z n n 0 k 0 zu beachten. Die erzeugende Funktion der konstanten Folge 1, 1, 1, ... 1nN lautet F ( z ) z n n0 Daher ist mit (viii) 1 G ( z ) die erzeugende Funktion der Faltung von 1, 1, 1, ... 1nN 1 z und g n nN . Das n-te Folgenglied der Faltung lautet n n k 0 k 0 1 g nk g k . Das zeigt die Aussa- ge (ix). Aussage (x) rechnet man direkt nach: n n G ( z ) G ( z ) g n 1 1 z n n 0 G ( z ) G ( z ) g n 1 1 z n n 0 1 . 1 z g n n 0 n ist gerade 2 z n 2 g 2n z 2n . Entsprechend ist n 0 n 0 n ist ungerade n 0 g n 2 z n 2 g 2n1 z 2n1 . 257 5.11 Erzeugende Funktionen Die folgende Zusammenstellung zeigt einige wichtige Beispiele von Folgen mit ihren erzeugenden Funktionen. Auch hier sollen Fragen des Konvergenzverhaltens bezüglich der formalen Variablen z unberücksichtigt bleiben. Folge g n nN (i) erzeugende Funktion geschlossene Form 1 z 0 G( z) 1 1 z m G( z) z m g 0 1 , g n 0 für n 1 : 1, 0, 0, 0, ... (ii) g m 1 , g n 0 für n m , m N fest: 1 , 0, 0, 0, ... 0, ..., 0, Position m (iii) g n 1 für n N : 1, 1, 1, 1, ... G( z) 1 1 z 2n G( z) 1 1 z2 mn G( z) 1 1 zm G( z) 1 1 z 2 G( z) 1 1 c z 1 1, 1, 1, 1, ... n zn n 0 g 2i 1 , g 2i1 0 für i N : z 1, 0, 1, 0, 1, ... n 0 (vi) g mn 1 für n N , g i 0 sonst: z 1, 0, ..., 0, 1, 0, ..., 0, 1, 0, ... n 0 (vii) g n n 1 für n N : n 1 z 1, 2, 3, 4, ... n n 0 (viii) g n c n für n N , c R fest: c 1, c, c , c , ... 2 1 1 z n n 0 (iv) g 2i 1 , g 2i1 1 für i N : (v) G( z) z 3 n zn n 0 m n z n 0 n m (ix) g n für n N , m N fest: n G ( z ) 1 z m m m 1, m, , , ..., m, 1, 0, 0, ... 2 3 m n 1 für n N , m N , g n n m 1 fest: (x) m n 1 n z n n 0 G( z) 1 1 z m m 1 m 2 1, m, , , ... 2 3 ../.. 258 5 Ausgewählte Themen der Analysis m n für n N , m N fest: (xi) g n n m n n z n n 0 G( z) 1 1 z m1 m 1 m 2 m 3 1, , , , ... 2 3 3 (xii) g 0 0 , g n 1 n für n 1 : 0, 1, 1 2 , 1 3 , 1 4 ... n 1 (xiii) g 0 0 , g n 1 1 n für n 1 : 0, 1, 1 2 , 1 3 , 1 4 ... (xiv) g 0 0 , g n 1 n! für n 1 : 1, 1, 1 2 , 1 6 , 1 24 , 1 120 , ... 1 n z 1 G ( z ) ln 1 z n n 1 1 n 1 1 n z n G ( z ) ln 1 z n 1 1 n! z n G( z) e z n 0 Die Berechnung der geschlossenen Form der erzeugenden Funktion in den Beispielen (i) – (vi) und (viii) ist klar bzw. ergibt sich aus Satz 5.1-9. Beispiel (vii) kann ebenfalls mit Satz 5.1-9 oder auch mit Satz 5.11-1 (v) begründet werden: Setzt man dort g n 1 , so folgt mit Beispiel (iii): 1 1 n 1 z n 1 1 z . 2 1 z 1 z n 0 n 0 n n Beispiel (ix) ist die binomische Formel. Beispiel (x) lässt sich durch Induktion über m zeigen: 1 n 1 n n z z 1 1 z 1 1 z 1 . Die Behauptung gelte für m 1 . Für m 1 ist n n 0 n 0 m 1 n 1 n m n n z z . Nach Satz 4.1-3 (v) (dort für i den Wert n und n n n 0 n 0 m n n m 1 k . Setzt man m n 1 einsetzen) ist für n den Ausdruck k n k 0 Dann ist m n 1 , so ist g n n m n n n m 1 k n n z z g k z n . Nach Inn k n 0 n 0 k 0 n 0 k 0 duktionsvoraussetzung lautet die erzeugende Funktion der Folge g n nN : m n 1 n 1 z . Mit Satz 5.11-1 (ix) folgt G ( z ) n 1 z m n 0 m n n n 1 1 z g k z n G( z) . n 1 z 1 z m 1 n 0 n 0 k 0 Beispiel (xi) ergibt sich aus (x) wie im Induktionsschritt zu (x). 259 5.11 Erzeugende Funktionen Die 0, 1, 1 2 , 1 3 , 1 4 ... Folge n 1 n 1 n 1 in Beispiel (xii) hat die erzeugende Funktion 1 n z n 1 n 1 z n 1 n g n1 z n mit der konstanten Folge g n nN 1nN . Die Folge 1 . Mit Satz 5.11-1 (vii) folgt 1 z z z 1 1 z 1 1 1 n g n1 z n G (t )dt 1 n z dt dx ln 1 z ln . 0 0 1 t 1 x 1 z n 1 n 1 n g n nN hat nach (iii) die erzeugende Funktion G ( z ) Die Folge 0, 1, 1 2 , 1 3 , 1 4 ... in Beispiel (xiii) hat die erzeugende Funktion n 1 n 1 n 1 n 1 1 n z n 1 n z ln 1 ln 1 z . 1 z Beispiel (xiv) ist die Taylorentwicklung der Exponentialfunktion e z . Erzeugende Funktionen stellen ein sehr gutes Werkzeug bei der Auflösung von rekursiv definierten Folgen zur Verfügung. Dabei geht man wie folgt vor: Gegeben sei die Folge g n nN über ein rekursives Gleichungssystem. Gesucht ist eine geschlossene Darstellung von g n in Abhängigkeit von n. 1. Schritt: Man schreibt eine einzige Gleichung auf, die g n mit Hilfe anderer Folgenglieder definiert. Diese Gleichung sollte für alle n gelten; eventuell muss man Folgenglieder mit negativen Indizes formal anfügen, für die dann g 1 g 2 ... 0 gesetzt wird. 2. Schritt: Beide Seiten der Gleichung aus dem 1. Schritt werden nacheinander mit z n multipliziert und jeweils aufsummiert, so dass auf der linken Seite der Gleichung die erzeugende Funktion G ( z ) g n z n entsteht. Die rechte Seite der Gleichung n 0 wird so umgeformt, dass sie ebenfalls einen arithmetischen Ausdruck in G (z ) darstellt. 3. Schritt: Die Gleichung aus dem 2. Schritt wird nach G (z ) aufgelöst. 4. Schritt: G (z ) wird in eine formale Potenzreihe entwickelt. Der Koeffizient von z n ist g n in geschlossener Form. 260 5 Ausgewählte Themen der Analysis Bemerkung: Der komplexeste Schritt ist im allgemeinen der 4. Schritt. Zur Illustration wird das Verfahren an der Darstellung der Fibonacci-Zahlen in geschlossener Form gezeigt. Die Einzelheiten sind in Kapitel 5.10 bereits ausgeführt. Die Folge Fn nN der Fibonacci-Zahlen ist rekursiv definiert durch für n 0 oder n 1 n Fn Fn1 Fn2 für n 2 . Die Ergebnisse der einzelnen Schritte lauten: 1. Schritt: Mit F1 F2 0 ist Fn Fn 1 Fn 2 an für jedes n N ; hierbei ist a1 1 und an 0 für n 1 . 2. Schritt: n 0 n 0 n 0 n 0 F ( z ) Fn z n Fn1 z n Fn2 z n an z n Fn z n1 Fn z n 2 z n 0 n 0 z Fn z n z 2 Fn z n z n 0 n 0 z F ( z) z F ( z) z 2 3. Schritt: F ( z) z 1 z z2 4. Schritt: F ( z) n 0 n n 1 1 5 1 5 n z 5 2 2 Fn z n . n 0 5.12 Anzahlbetrachtungen in Binärbäumen Eine der wichtigsten Datenstrukturen, die in der Informatik vorkommen, sind Binärbäume. Dazu einige einführende Definitionen: Ein gerichteter Graph G = (V, E) besteht aus einer endlichen Menge V v1 , ... , v n von Knoten (vertices) und einer endlichen Menge E e1 , ... , e k V V von Kanten (edges). Die Kante e (v i , v j ) läuft von v i nach v j (verbindet v i mit v j ). Der Knoten v i heißt Anfangsknoten der Kante e (v i , v j ) , der Knoten v j Endknoten von e (v i , v j ) . Zu einem Knoten v V heißt pred (v) v | (v , v) E die Menge der direkten Vorgänger von v, succ(v) v | (v, v ) E die Menge der direkten Nachfolger von v. Ein Binärbaum Bn = (V, E) mit n Knoten wird durch folgende Eigenschaften 1. – 4. charakterisiert: 1. Entweder ist n 1 und V n 1 und E n 1 , oder es ist n 0 und V E (leerer Baum) 2. Bei n 1 gibt es genau einen Knoten r V , dessen Menge direkter Vorgänger leer ist; dieser Knoten heißt Wurzel von Bn. 3. Bei n 1 besteht die Menge der direkten Vorgänger eines jeden Knotens, der nicht die Wurzel ist, aus genau einem Element. 4. Bei n 1 besteht die Menge der direkten Nachfolger eines jeden Knotens aus einem Element oder zwei Elementen oder ist leer. Ein Knoten, dessen Menge der direkten Nachfolger leer ist, heißt Blatt. 262 5 Ausgewählte Themen der Analysis Beispiele: Rang 0 500 120 700 100 Rang 1 300 Rang 2 Höhe 6 110 220 400 200 Rang 3 Rang 4 210 Rang 5 13 18 8 4 1 16 12 7 15 20 17 19 23 21 27 5.12 Anzahlbetrachtungen in Binärbäumen 263 In einem Binärbaum B = (V, E) gibt es für jeden Knoten v V genau einen Pfad von der Wurzel r zu v, d.h. es gibt eine Folge a 0 , a1 , a1 , a 2 , ..., a m 1 , a m mit r a 0 , v a m und a i 1 , a i E für i = 1, ..., m. Der Wert m gibt die Länge des Pfads an. Um den Knoten v von der Wurzel aus über die Kanten des Pfads zu erreichen, werden m Kanten durchlaufen. Diese Länge wird auch als Rang des Knotens v bezeichnet. Der Rang eines Knotens lässt sich auch folgendermaßen definieren: 1. 2. Die Wurzel hat den Rang 0. Ist v ein Knoten im Baum mit Rang r 1 und w ein direkter Nachfolger von v, so hat w den Rang r. Unter der Höhe eines Binärbaums versteht man den maximal vorkommenden Rang eines Blattes + 1. Der zweite Binärbaum zeichnet sich dadurch aus, dass sich die Höhen der Teilbäume, die von einem Knoten ausgehen, höchstens um 1 unterscheiden. Bäume mit dieser Eigenschaft heißen AVL-Bäume. In einem Binärbaum bilden alle Knoten mit demselben Rang ein Niveau des Baums. Das Niveau 0 eines Binärbaums enthält genau einen Knoten, nämlich die Wurzel. Das Niveau 1 enthält mindestens 1 und höchstens 2 Knoten. Das Niveau j enthält höchstens doppelt so viele Knoten wie das Niveau j 1 . Daher gilt: Satz 5.12-1: (i) Das Niveau j 0 eines Binärbaums enthält mindestens einen und höchstens 2 j Knoten. Die Anzahl der Knoten vom Niveau 0 bis zum Niveau j (einschließlich) beträgt mindestens j 1 Knoten und höchstens j 2 j 2 j 1 1 Knoten. i0 (ii) Ein Binärbaum hat maximale Höhe, wenn jedes Niveau genau einen Knoten enthält. Er hat minimale Höhe, wenn jedes Niveau eine maximale Anzahl von Knoten enthält. Also gilt für die Höhe h( Bn ) eines Binärbaums mit n Knoten: log 2 (n ) 1 log 2 ( n 1) h( Bn ) n . (iii) Für die Höhe h( Bn ) eines AVL-Baums mit n Knoten gilt log 2 (n 1) h( Bn ) 1,4404201 log 2 n 2 . 264 5 Ausgewählte Themen der Analysis Aussage (i) ergibt sich durch vollständige Induktion. Aussage (ii) ergibt sich aus folgenden Überlegungen: Die obere Abschätzung h( Bn ) n ist offensichtlich. Für die untere Abschätzung betrachtet man einen Binärbaum mit n Knoten und minimaler Höhe h. Jedes Niveau, bis eventuell das höchste Niveau m, ist vollständig gefüllt. Es ist h m 1 . Bis zum Niveau m 1 enthält der Binärbaum gemäß (i) insgesamt 2 m11 1 2 m 1 viele Knoten, auf Niveau m sind es mindestens einer und höchstens 2 m . Daraus folgt: 2m 1 1 n 2m 1 2m , also 2 m n 2 m1 1 und damit m log 2 n 1 m 1 , d.h. log 2 ( n 1) m 1 h . Für einen beliebigen Binärbaum mit n Knoten gilt daher log2 ( n 1) h( Bn ) . Aussage (iii) zeigt, dass die Höhe eines AVL-Baums durch eine logarithmischen Größenordnung, gemessen in der Anzahl der Knoten bewegt. Aussage (iii) lässt sich mit Hilfe der Methode der erzeugenden Funktion (siehe Ende des Kapitels 5.11) nachweisen. Dazu werden die dort beschriebenen 4 Schritte durchgeführt. Da ein Binärbaum, dessen Niveaus, bis eventuell das höchste Niveau m, vollständig gefüllt sind, ein AVL-Baum ist, folgt die untere Abschätzung log 2 (n 1) h( Bn ) . Es sei ein AVL-Baum mit Höhe h 1 gegeben, der eine minimale Knotenanzahl enthält. Dann sind unter der Wurzel zwei Binärbäume mit Höhen h und h 1 mit jeweils minimaler Knotenanzahl. Es sei K h die minimale Knotenanzahl eines AVL-Baums bei Höhe h. Dann gilt: K 0 0 , K1 1 , K h K h1 K h2 1 für h 2 . Die erzeugende Funktion der Folge K h hN sei K (z ) . 1. Schritt: K h K h1 K h2 1 ah für h 0 mit a0 1 , ai 0 für i 1 . 2. Schritt: h 0 h 1 h2 K ( z ) K h z h K h1 z h K h2 z h z h 1 h 0 h 0 h 0 K h z h1 K h z h2 z h 1 z K ( z) z 2 K ( z) 1 1 . 1 z h 0 5.12 Anzahlbetrachtungen in Binärbäumen 3. Schritt: K ( z ) 265 z 1 ; hierbei ist F (z ) die erzeugende Funktion F ( z) 2 1 z 1 z z 1 z der Folge der Fibonacci-Zahlen. Die Folge K h hN ist also nach Satz 5.11-1 (viii) die Faltung der Folge der Fibonacci-Zahlen Fn nN mit der konstanten Folge 1, 1, 1, ... . 4. Schritt: Dieser erübrigt sich, da die Lösung im 3. Schritt bereits ermittelt wurde: n n k 0 k 0 K h Fk 1 Fk Fn2 1 . Die letzte Gleichung zeigt man beispielsweise durch vollständige Induktion (Übungsaufgabe 5.30 (b)). Für einen AVL-Baum mit Höhe h und n Knoten ist n minimale Knotenanzahl bei Höhe h Fh2 1 bzw. Fh2 n 1 . In Kapitel 5.10 wird n n 1 1 5 1 5 für jedes n N ermittelt. Da Fn eine natürliche Zahl ist, Fn 5 2 2 1 1 5 n 1 . Eingesetzt in die obige Ungleichung ergibt sich folgt Fn 5 2 2 h2 1 1 5 h 2 1 1 5 1 1 n 1 und n 2 . Löst man diese Un Fh 2 2 2 5 2 5 2 gleichung nach h auf, folgt unter Verwendung von Satz 5.5-5: h 1,4404201 log 2 n 2 0,327724 1,4404201 log 2 n 2 . Satz 5.12-2: (i) Die Anzahl strukturell verschiedener Binärbäume mit n Knoten mit n 0 beträgt 1 2 n 4n C mit einer reellen Konstanten C 0 . n 1 n n 1 n (ii) Die mittlere Anzahl von Knoten, die von der Wurzel aus bis zur Erreichung eines beliebigen Knotens eines Binärbaums mit n Knoten (gemittelt über alle n Knoten) besucht werden, d.h. der mittlere „Abstand“ eines Knotens von der Wurzel in einem Binärbaum mit n Knoten, ist C n C mit reellen Konstanten C 0 und C 0 . Im günstigsten Fall (wenn also alle Niveaus voll besetzt sind) ist der größte Abstand eines Knotens von der Wurzel in einem Binärbaum mit n Knoten gleich log 2 ( n ) 1 log 2 ( n 1) log 2 ( n ) , im ungünstigsten Fall ist dieser Abstand gleich n. 266 5 Ausgewählte Themen der Analysis Beide Aussagen mit Hilfe des am Ende von Kapitel 5.11 beschriebenen Vefahrens bewiesen werden. Es sei bn für n N die Anzahl strukturell verschiedener Binärbäume mit n Knoten. B(z ) sei die erzeugende Funktion der Folge bn nN . Für kleine Werte von n kann man bn direkt angeben: b0 1 : der einzige Binärbaum ohne Knoten ist der leere Baum; b1 1 : der einzige Binärbaum mit genau 1 Knoten ist der Baum, der nur aus der Wurzel be- steht; b2 2 : die beiden Binärbäume mit genau 2 Knoten sind: und Für n 1 besteht ein Binärbaum mit n Knoten aus der Wurzel und zwei Binärbäumen mit zusammen n 1 Knoten, die an den beiden Nachfolgerpositionen der Wurzel beginnen. An der linken Nachfolgerposition befindet sich ein Binärbaum mit k vielen Knoten, an der rechten Nachfolgerposition ein Binärbaum mit n 1 k vielen Knoten. Daher gilt n 1 bn bk bn1k für n 1 . k 0 1. Schritt: Alle Gleichungen werden in einer einzigen Gleichung zusammengefasst: n 1 bn bk bn1k an für n N ; hierbei ist a0 1 und an 0 für n 1 . k 0 2. Schritt: Beide Seiten werden mit z n multipliziert und alle Werte aufaddiert. Man erhält: 5.12 Anzahlbetrachtungen in Binärbäumen 267 n1 B ( z ) bn z n bk bn1k an z n n 0 n 0 k 0 n1 bk bn1k z n 1 n 1 k 0 n1 z bk bn1k z n1 1 n 1 k 0 n z bk bnk z n 1 n 0 k 0 n z bk bnk z k z nk 1 n 0 k 0 z bn z n bn z n 1 n 0 n 0 nach Satz 5.1 - 10 z B ( z ) 1 . 2 1 1 2 3. Schritt: Es gilt B( z ) B( z ) 0 bzw. z z B( z ) 1 1 1 2 z 2 z 4 z 1 1 4 z 2 z Falls B ( z ) ist B ( z ) . 1 1 4 z gilt, so ergibt sich der Widerspruch B(0) b0 , also 2 z 1 1 4 z . 2 z 4. Schritt: Mit der Regel von de l’Hospital gilt b0 B (0) 1 1 4 z 2 z z 0 1 2 4 1 1 4 z 2 1. z 0 Aus der in Kapitel 5.10 hergeleiten Formel (1 x) m (1)i i 0 m (m 1) ... (m i 1) i x, i! wobei m 1 2 und anstelle von x der Wert 4 z gesetzt wird, ergibt sich 1 1 4 z 1 1 2 1 2 ... 1 2 i 1 4 z i i! i 0 1 2 1 2 ... 1 2 i 1 4 z i1 . 1 1 4 z i! i 1 Damit ist 268 5 Ausgewählte Themen der Analysis 1 1 4 z 2 z 1 2 1 2 ... 1 2 i 1 4 z i1. 2 i! i 1 B( z ) Um diese etwas „unangenehm“ aussehende unendliche Reihe zu vereinfachen, wird folgende Nebenrechnung durchgeführt: 1 2 1 2 3 2 ... 2 i 3 1 2 1 2 ... 1 2 i 1 2 i! i! i 1 i 1 1 1 3 ... 2 i 3 2 4 ... 2 i 2 2 2 4 ... 2 i 2 i! i 1 i 1 1 2 i 2 ! 2 i!2i1 i 1! i 1 1 1 1 2 i 2 . 2 4 i i 1 Damit ist B( z ) 2 1 2 1 2 ... 1 2 i 1 4 z i1. i! i 1 i 1 1 1 2 i 2 i 1 4 z 4 i i 1 i 1 i 1 1 2i i 4 z 4 i 1 i i 0 i 0 1 2i i z i 1 i 1 2 n n z . n 0 n 1 n 1 2 n n z ergibt n 0 n 1 n Der Koeffizientenvergleich in B ( z ) bn z n n 0 bn 1 2 n . n 1 n Damit ist der erste Teil der Formel in Satz 5.12-2 (i) bewiesen. Für den zweiten Teil wird die Stirling’sche Formel (siehe angegebene Literatur) n n!~ 2 n e n 5.12 Anzahlbetrachtungen in Binärbäumen 269 zusammen mit Satz 4.1-2 eingesetzt. Die Stirling’sche Formel ist eine sehr gute Approximation; der relative Fehler ist etwa 1 12 n . Damit ergibt sich: 1 2 n 1 2 n ! ~ n 1 n n 1 n!n! 4 n 2 n e 2n n 1 e 2n 2 n n 2n 4n . n 1 n 2n Für einen Knoten v in einem Baum G mit n Knoten bezeichne r (v ) den Rang des Knotens v, d.h. die Anzahl der Kanten, die von der Wurzel aus durchlaufen werden, um v zu erreichen. Um v von der Wurzel aus zu erreichen, werden r (v ) 1 Knoten durchlaufen. Es sei I (G ) r (v) 1 , d.h. die Summe aller in G möglichen Pfadlängen, gemessen in der Anv zahl besuchter Knoten. Der linke Teilbaum unterhalb der Wurzel des Baum G sei Gl ; der rechte Teilbaum unterhalb der Wurzel sei Gr . Gl oder Gr können auch leer sein. Für einen Knoten v in Gl sei rl (v) der Rang von v bezogen auf Gl . Entsprechend bezeichne rr (v) für einen Knoten v in Gr den Rang von v bezogen auf Gr . Dann ist für einen Knoten v in Gl rl (v) r (v) 1 . Es gilt daher: I (G ) r (v) 1 v in G r (v) 2 r (v) 2 1 l v in Gl I Gl r (der Rang der Wurzel ist 1) v in Gr 1 I G 1 1 r v in Gl I Gl I Gr n v in Gr für n 0, I (G ) 0 für n 0. Es sei I n I (G) , d.h. die Summe aller möglichen Pfadlängen in Binärbäumen mit n G ist ein Binärbaum mit n Knoten Knoten, gemessen in der Anzahl besuchter Knoten. Mit Hilfe des am Ende von Kapitel 5.11 beschriebenen Vefahrens wird eine geschlossene Formel für I n hergeleitet. Es bezeichne I (z ) die erzeugende Funktion der Folge I n nN . 270 5 Ausgewählte Themen der Analysis 1. Schritt: I (G) In für n 1, Aufteilung nach linken Teilbäumen : G ist ein Binärbaum mit n Knoten I G I G n l r G ist ein Binärbaum i 0 G enthält i lKnoten n Gir1enthält mit n Knoten Knoten n 1 n 1 I i bn i 1 I n i 1 bi n bn . i 0 Hierbei bezeichnet bn für n N wieder die Anzahl strukturell verschiedener Binärbäume mit n Knoten. 2. Schritt: I ( z) I n z n n 1 n1 I i bni1 I ni1 bi n bn z n n 1 i 0 n1 I i bni1 I ni1 bi z n n bn z n n 1 i 0 n1 n1 I i bni1 z n I ni1 bi z n n bn z n n 1 i 0 n1 n1 i0 n 1 Der Ausdruck f n1 I i bni1 ist das n 1 -te Folgenglied der Faltung der i 0 Folgen I n nN und bn nN . Dasselbe gilt für n 1 n 1 n 1 n 0 n 0 n 1 I ( z ) f n1 z n f n1 z n n bn z n n 1 I i 0 n i 1 bi f n1 . Daher ist mit Satz 5.11 - 1 f n z n1 f n z n1 n bn z n 2 z I ( z ) B ( z ) z B( z ) 3. Schritt: I ( z ) . 1 z B( z ) . 1 2 z B( z ) Mit B ( z ) 1 1 4 z 1 1 4 z 2 z ist und B( z ) 2 z 2 z2 1 4 z 2 z 1 4 z 1 4 z 2 z 1 4 z 1 1 1 1 4 z 2 z 1 4 z 2 z I ( z) . 5.12 Anzahlbetrachtungen in Binärbäumen 271 4. Schritt: 1 1 1 1 4 z 2 z 1 4 z 2 z 1 1 4n z n 1 . 2 z 1 4 z n 0 I ( z) Das Beispiel m n 1 n 1 z aus Kapitel 5.10 ist auf Werte m R n 1 z m n 0 verallgemeinerbar. Damit ist n 1 2 n 1 1 4 z n n 1 4 z n 0 n n 1 2 4 z n 1 und 1 1 n 1 2 2 4 z n1 1 2 z 1 4 z n1 n 2 n 4 n1 n1 n z 2 . n1 n 4 n 1 2 2 n 2n 2 verwendet. Mit Hierbei wurde die Identität n n 2 n 2 n 1 2 2 n 1 folgt weiter: n n n 1 2 n 4 n1 n1 1 2 n n1 z n z 2 2 n1 n n 1 n 4 2 n 1 2 n 1 n1 z n 1 n n1 2 n 2 n 1 n z n 1 n 0 n 2 n 1 bn z n . n 0 Insgesamt ist damit I ( z ) 4 n 2 n 1 bn z n und I n 4 n 2 n 1 bn . n 0 Der Ausdruck In n bn ist die mittlere Anzahl an Knoten, die in Binärbäumen mit n Knoten von der Wurzel aus zu einem Knoten durchlaufen werden. Mit dem gerade hergeleiteten Ergebnis folgt In n bn 4n 2 n 1 . Mit der Stirlingschen Formel ist n bn n 1 2 n 4n ~ bn und n 1 n n 1 n 272 In 5 Ausgewählte Themen der Analysis n bn ~ n 1 n 1 2 C n C mit reellen Konstanten C 0 und C 0 . n n 5.13 Einführung in die Integralrechnung Die grundlegende Aufgabe der Integralrechnung ist die Berechnung von Flächeninhalten von Gebieten im zweidimensionalen Raum bzw. von Volumina in höherdimensionalen Bereichen, die durch Graphen entsprechender Funktionen begrenzt werden. Weitere Anwendungen finden sich in der Bestimmung von Längen von Kurven, in der Statistik bei der Bestimmung von Momenten (Erwartungswert, Varianz usw.) bei stetigen Verteilungen und in zahlreichen anderen Gebieten der Mathematik. Ein interessanter Zusammenhang wird durch den Hauptsatz der Differential- und Integralrechnung formuliert: Differenzieren und Integrieren sind zueinander inverse Operationen. Im folgenden soll der Flächeninhalt zwischen dem Graphen einer Funktion f : I R in einem Intervall I R , der x-Achse und einer linken und einer rechten jeweils senkrecht auf der x-Achse an den Intervallgrenzen stehenden Begrenzungslinie bestimmt werden. Dabei kann angenommen werden, dass das Intervall die Form I a, b mit a R und b R hat und dass f auf I zumindest stückweise stetig ist. Das bedeutet, dass es in I höchstens endliche viele Unstetigkeitsstellen von f gibt und dass für jede Unstetigkeitsstelle s I die Grenzwerte lim f ( x) und lim f ( x) existieren (siehe nachfolgende Abbildung). Die letzte Bedingung bexs xs xs xs deutet, dass f an einer Unstetigkeitsstelle nicht etwa gegen Unendlich strebt. f(x) a Unstetigkeitsstelle s b x 5.13 Einführung in die Integralrechnung 273 Die Lösung dieser Aufgabe führt auf einen speziellen Integralbegriff, das Riemann’sche Integral. Es handelt sich dabei um einen Spezialfall verschiedener Integralbegriffe, die im Falle stückweise stetiger Funktionen jedoch zu einem übereinstimmenden Ergebnis kommen. Die folgende Betrachtung kann für jedes Teilintervall von I, in dem I keine Unstetigkeitsstellen besitzt, getrennt erfolgen, so dass gleich angenommen werden kann, dass f im gesamten Intervall I stetig ist. Das Intervall I wird durch k 1 Punkte x0 , ..., xk in k Teilintervalle zerlegt; diese Zerlegung werde mit Z bezeichnet: a x0 x1 x2 ... xk 1 xk b . Die Länge des i-ten Teilintervalls für i 1, ..., k ist xi xi xi 1 . Unter der Feinheit der Zerlegung Z versteht man den Wert Z max xi i 1, ... k . Für i 1, ..., k sei ai xi 1 , xi . Dann heißt k f a x i 1 i i eine Riemann’sche Summe von f zu Z. Eine Zerlegung Z 2 ist eine Verfeinerung der Zerlegung Z1 , wenn jeder Teilungspunkt von Z1 auch Teilungspunkte von Z 2 ist. Das bedeutet, dass die Teilungspunkte von Z 2 die Teilintervalle von Z1 in der Regel noch einmal unterteilen. Es sei Z n nN eine Folge von Zerlegungen von a, b mit der Eigenschaft, dass Z n 1 eine Verfeinerung von Z n ist und dass lim Z n 0 gilt. Sn sei eine Riemann’sche Summe zu Z n . n Die Anzahl der Teilintervalle der Zerlegung Z n sei k (n) . Wegen der Stetigkeit besitzt f im Intervall xi 1 , xi jeweils ein Minimum mi und ein Maximum M i . Mit k (n) k (n) i 1 i 1 U n mi xi und On M i xi gilt U n S n On . 274 5 Ausgewählte Themen der Analysis Anschaulich stellt U n für eine Funktion f : a, b R mit f ( x) 0 eine untere Abschätzung und On eine obere Abschätzung für den gesuchten Flächeninhalt dar. Die Zerlegung Z n laute a x0 x1 x2 ... xk ( n ) 1 xk ( n ) b , die Zerlegung Z n 1 sei a y0 y1 y2 ... yk ( n 1) 1 yk ( n 1) b . Das Teilintervall xi 1 , xi werde durch Z n 1 zerlegt in xi 1 yl yl 1 ... yl t xi . Für j 1, ..., t sei ml j das Minimum von f im Intervall y l j 1 , yl j ; entsprechend sei M l j das Maximum von f im Intervall yl j 1 , yl j . Dann ist mi xi mi yl j yl j 1 ml j yl j yl j 1 , t t j 1 j 1 M i xi M i yl j yl j 1 M l j yl j yl j 1 , t t j 1 j 1 und damit U n U n 1 und On On 1 , U n U n 1 On 1 On O1 und U1 U n 1 On 1 On . Das bedeutet, dass die Folge U n nN monoton steigt und nach oben beschränkt ist, während die Folge On nN monoton fällt und nach unten beschränkt ist. Nach Satz 5.1-3 konvergieren diese Folgen daher, d.h. es existieren U lim U n und O lim On , und es gilt U O . Mit wein n tergehenden Überlegungen zu stetigen Funktionen lässt sich sogar U O zeigen. Da für die Folge Sn nN der Riemann’schen Summen U n S n On gilt, konvergiert nach Satz 5.1-3 diese Folge gegen denselben Grenzwert. Weitere Überlegungen zeigen, dass dieser Grenzwert unabhängig von der speziellen Zerlegung des Intervalls a, b ist, solange die oben genannten Bedingungen eingehalten werden. Zusammenfassend gilt, ohne hier im einzelnen auf weitere technische Beweisschritte einzugehen: 5.13 Einführung in die Integralrechnung 275 Satz 5.13-1: Die Funktion f : a, b R sei stückweise stetig. Es sei Z n nN eine Folge von Zerlegungen von a, b mit der Eigenschaft lim Z n 0 und Sn eine Riemann’sche Summe zu Z n . Dann n existiert der Grenzwert lim Sn und ist von der speziellen Folge von Zerlegungen unabhängig. n Dieser Grenzwert heißt das bestimmte Integral von f über a, b und wird mit b f ( x)dx a bezeichnet. Die Werte a und b heißen Integrationsgrenzen, die Funktion f heißt Integrand und x Integrationsvariable. Hierbei ist die Benennung der Integrationsvariablen beliebig, etwa b a b f ( x)dx f (t )dt . a Die Funktion f heißt über I a, b integrierbar, wenn b f ( x)dx existiert. a a Man definiert für a b die Integrale b b f ( x)dx f ( x)dx und a a f ( x)dx 0 . a 276 5 Ausgewählte Themen der Analysis Satz 5.13-2: Es seien f und g über einem Intervall I integrierbare Funktionen. Es gelte a I , b I , c I und R . Dann gilt: b (i) dx b a . a (ii) (iii) (iv) (v) b c b a a c f ( x)dx f ( x)dx f ( x)dx . b b b a a a f ( x) g ( x)dx f ( x)dx g ( x)dx . b b a a f ( x)dx f ( x)dx . Ist f ( x) g ( x) für alle x a, b , so gilt b a b f ( x)dx g ( x)dx . a Die Aussagen ergeben sich aus der Definition des Integralbegriffs und der Rechenregeln für Grenzwerte. Der gesuchte Flächeninhalt zwischen dem Graphen einer Funktion f : I R in einem Intervall I a, b , der x-Achse und einer linken und einer rechten jeweils senkrecht auf der xb Achse an den Intervallgrenzen stehenden Begrenzungslinie wird durch f ( x)dx bestimmt. a Es muss der Betrag des bestimmten Integrals genommen werden, da Flächen, die unterhalb der x-Achse liegen, wegen f ( x) 0 negativ gerechnet werden. Zur konkreten Berechnung von Integralen werden noch einige mathematische Sätze benötigt. 5.13 Einführung in die Integralrechnung 277 Satz 5.13-3: (Mittelwertsatz der Integralrechnung) Es sei f auf a, b stetig. Dann gibt es ein Element y a, b mit b f ( x)dx b a f ( y) . a Die Aussage dieses Satzes folgt aus dem Zwischenwertsatz (Satz 5.2-3): Da f auf a, b stetig ist, besitzt es dort ein Minimum m f x1 und ein Maximum M f x2 . Es sei b b a a b 1 f ( x)dx . Für alle x a, b gilt m f ( x) M und damit b a a b mdx f ( x)dx Mdx bzw. mit Satz 5.13-2 a b b b a a a m b a mdx f ( x)dx b a Mdx M b a , also m M . Nach Satz 5.2-3 (ii) gibt es ein y zwischen x1 und x2 , also y a, b , mit f ( y ) , d.h. b f ( x)dx b a f ( y) . a Es sei I ein Intervall. Eine differenzierbare Funktion F : I R heißt Stammfunktion von f : I R , wenn F ( x) f ( x) für alle x I gilt. Satz 5.13-4: Es seien F und G Stammfunktionen von f. Dann ist F ( x) G ( x) C mit einer Konstanten C R eine Stammfunktion von f. Alle Stammfunktionen von f unterscheiden sich nur um eine Konstante. Die Aussage folgt aus der Tatsache, dass F ( x) G ( x) F ( x) G( x) f ( x) f ( x) 0 für alle x I gilt und dann durch Anwendung von Satz 5.6-7 (ii). 278 5 Ausgewählte Themen der Analysis Der folgende Satz stellt einen Zusammenhang zwischen den Operationen Differenzieren und Integrieren her und liefert das Werkzeug zur Berechnung von Integralen. Satz 5.13-5: Hauptsatz der Differential- und Integralrechnung Es sei I ein Intervall, a I und f : I R eine stetige Funktion. Dann ist die durch x Fa ( x) f (t )dt a definierte Funktion Fa : I R eine Stammfunktion von f, d.h. x d Fa( x) f (t )dt f ( x) . dx a Für jede Stammfunktion F von f gilt F ( x) Fa ( x) C für ein C R und b f ( x)dx F (b) F (a). a Zum Beweis der Aussage ist zunächst zu zeigen, dass Fa( x) lim x 0 Fa x x Fa x f ( x) x gilt. Dazu wird zunächst der Zähler berechnet: Fa x x Fa x x x x x x a a x f (t )dt f (t )dt f (t )dt f y x mit einem Wert y x, x x (siehe Satz 5.13-3). Damit gilt Fa x x Fa x f y x lim lim f y . x 0 x 0 x x Mit x 0 geht y x , also Fa( x) lim f y f ( x) . Fa( x) lim x 0 x 0 Es sei F eine beliebige Stammfunktion von f. Nach Satz 5.13-4 ist dann F ( x) Fa ( x) C für a ein C R . Dann ist F (b) Fa (b) C , und wegen Fa (a) f (t )dt 0 ist a b F (a ) Fa (a) C C . Insgesamt ergibt sich f (t )dt F (b) F (b) C F (b) F (a) . a a 279 5.13 Einführung in die Integralrechnung b Um ein bestimmtes Integral f ( x)dx zu berechnen, geht man also folgendermaßen vor: a 1. Man sucht eine Stammfunktion F von f, also eine Funktion mit F ( x) f ( x) . 2. Man bildet F (b) F (a) . Satz 5.13-6: Es seien f und g über einem Intervall I integrierbare Funktionen. Es gelte a I und b I . Dann gilt: (i) b b a a f ( x) g( x)dx f (b) g (b) f (a) g (a) f ( x) g ( x)dx (Partielle Integration) (ii) b g (b ) a g (a) f g ( x) g( x)dx f ( x)dx (Substitutionsregel) Es gilt ( f ( x ) g ( x )) f ( x ) g ( x ) f ( x ) g ( x ) . Also ist ( f g ) eine Stammfunktion von f g f g . Nach Satz 5.13-5 ist b f ( x) g ( x) f ( x) g ( x)dx f (b) g (b) f (a) g (a) . a b Nach Satz 5.13-2 (iii) ist f ( x) g ( x) a b b a a f ( x) g ( x) dx f ( x) g ( x) dx f ( x) g ( x) dx . Damit folgt die Aussage von (i). Es sei F eine Stammfunktion F ( g ( x)) F ( g ( x)) g ( x) von f. Es gilt f ( g ( x)) g ( x) , also ist F g gemäß Satz 5.6-2 (iv) eine Stammfunktion von b f g g . Damit ist mit Satz 5.13-5 f g ( x) g ( x) dx F g (b) F g (a) . a g (b ) Nach Satz 5.13-5 ist andererseits f x dx F g (b) F g (a) . Damit folgt die Aussage in g (a) (ii). 280 5 Ausgewählte Themen der Analysis Zur Vereinfachung wird folgende Schreibweise eingeführt: Für eine Funktion f : X R und a R und b R ist bedeutet f ( x) |xx ba die Differenz f (b) f (a) . Mit dieser Schreibweise lautet beispielsweise die Aussage aus Satz 5.13-6 (i): b b a a x b f ( x) g ( x)dx f g ( x) |x a f ( x) g ( x)dx . b Ist F eine Stammfunktion von f, dann ist f ( x)dx F ( x) | x b xa . a Im folgenden werden eine Reihe von Beispielen behandelt, die auf der Anwendung der vorherigen Sätze und Definitionen beruhen. Beispiele: 1. Für reelle Zahlen n mit n 1 ist wegen d x n 1 xn : dx n 1 x b x n 1 a x dx n 1 . xa b n 2. d 1 d d 1 1 ln( x) . Für x 0 ist ln x ln x . Daher dx dx dx x x x Es ist für x 0 gilt bei 0 a, b b 1 x dx ln x a 3. x b xa . Es sei R mit 0 . Dann ist b x b 1 x a e dx e . xa x d e x e x und damit dx 5.13 Einführung in die Integralrechnung d ln( x) Für reelle Zahlen n mit n 1 ist wegen dx n 1 n 1 4. b n ln( x) : x n 1 x b ln( x) n dx ln( x) n 1 x a . xa b 5. 281 Setzt man in der Regel f ( x) g ( x)dx a b f ( x) |xx ba f ( x) g ( x ) dx (partielle Integraa tion) f(x) ln(x ) und g(x) x , so erhält man b b x b x b x b x a ln( x)dx ln( x) x x a a x dx ln( x) x x x a x ln( x) 1 x a . 6. Mit Hilfe der partiellen Integration (dort f(x) x n und g(x) e x ) erhält man b x n e dx x e x n x x b a xa b n x n 1 e x dx . a Mit dieser Rekursionsformel berechnet man beispielsweise b x 2 e x dx x 2 e x a x b xa b 2 x e x dx a x e 2 x e x xa x x b 2 1 x 0 e x dx xa a 2 x 1 e x 2 x 1 e . x2 ex x b b x b x x b xa xa x x b 2 xa 7. Es seien R mit 0 und R . Mit Hilfe der Substitutionsregel aus Satz 5.13-6 x b lässt sich x 2 dx bestimmen: Setzt man f ( x) x und g ( x) x 2 , a dann ist f g ( x) g ( x) 2 x x 2 , also x b a x 2 dx g (b) 1 1 x1 2 dx x x 2 g (a) 2 x b 2 x a 2 . 282 8. 5 Ausgewählte Themen der Analysis Es sei h : X R eine stetige Funktion. Dann lassen sich mit Hilfe der Substitutionsreb gel aus Satz 5.13-6 Integrale der Form h( x) h( x) dx berechnen. Setzt man nämlich a f ( x) 1 h( x) und g ( x) h( x) , dann ist f g ( x) g ( x) , also x h( x ) h(b ) h(b) x h(b ) x b h( x) 1 dx dx ln( x ) ln( h ( x ) ) ln a h( x) h( a ) x h(a) xa x h(a) b . Beispielsweise ist 3 b2 7 6 x . dx ln 2 a 3 x 2 7 3 a 7 b 9. Das Beispiel greift die am Ende von Kapitel 9 angeführten und aus der Schulmathematik bekannten Sinus- und Kosinusfunktion auf: Es gilt sin( x) cos( x) , cos( x) sin( x) für x R und sin(i ) 0 und cos(2 i 1 2) 0 für i Z , sin( 2) 1 , sin( 2) 1 . Zeichnet man in einem x-y-Koordinatensystem einen Halbkreis mit Mittelpunkt 0, 0 und Radius 1, so werden die Punkte des Halbkreises für 1 x 1 durch Koordinaten x, y beschrieben, für die x 2 y 2 1 gilt. Die y-Koordinate ist also eine Funktion 1 f (x) mit f ( x) 1 x 2 . Die Fläche des Halbkreises beträgt daher 1 x 2 dx . 1 1 -1 f(x) x1 Wählt man in der Substitutionsregel aus Satz 5.13-6 b g (b ) a g (a) f g ( x) g ( x)dx f ( x)dx eine umkehrbare Funktion g, so kann man diese Regel auch als 1 g ( ) 1 f g ( x) g( x)dx f ( x)dx lesen. Die Sinusfunktion ist für x 2 , 2 um- g ( ) kehrbar. Damit ist mit g ( x) sin( x) und cos( x) 1 sin( x) 2 5.13 Einführung in die Integralrechnung 1 1 1 1 x dx f ( x)dx sin (1) 2 1 1 1 1 sin ( x) cos( x)dx 2 cos( x) dx . 2 2 sin ( 1) 283 2 Dieses Integral lässt sich mit partieller Integration lösen: 2 cos( x) dx sin( x) cos( x) 2 2 x 2 2 sin( x) dx 2 x 2 2 2 x 2 sin( x) cos( x) x 2 1 cos( x) dx 2 2 2 x 2 sin( x) cos( x) x 2 2 1dx cos( x) dx . 2 2 2 Insgesamt ist 2 1 cos( x) dx 2 sin( x) cos( x) x 2 x 2 x 2 2 1 1 sin( 2) cos( 2) 2 sin( 2) cos( 2) 2 2 2 2 . Die Zahl kann also als Fläche eines Kreises mit Radius 1 definiert werden. In Kapitel 5.3 werden Polynome p(x) behandelt. Diese sind stetig und integrierbar. Beispiel b 1 und Satz 5.13-2 liefern das Ergebnis für p( x)dx . a In den folgenden Ausführungen wird eine Methode zur Integration gebrochen rationaler Funktionen beschrieben. Eine gebrochen rationale Funktion (siehe Kapitel 5.4) der Form f ( x) p ( x) q ( x) mit Polynomen p und q ist an allen Stellen bis auf die Nullstellen von q definiert und stetig, also integrierbar. Ist der Grad von q nicht größer als der Grad von p, kann man f in eindeutiger Weise in r ( x) der Form f ( x) s( x) mit Polynomen s und r schreiben, wobei r einen kleineren Grad q( x) b als q besitzt. Dann ist a b b b r ( x) r ( x) dx s ( x)dx f ( x)dx s ( x) dx . Die Berechnung q( x) q ( x) a a a b von s( x)dx ist oben beschrieben. Sind x01 , ... , x0l die reellen Nullstellen von q, wobei mehr- a fache Nullstellen jeweils auch mehrfach aufgeführt sind, kann man q in der Form q ( x) ( x x01 ) ... ( x x0l ) qg ( x) mit einem Polynom qg (x) von geradem Grad, das keine reellen Nullstellen hat, schreiben. Mit dem algebraisch etwas aufwendigen Verfahren der Par- 284 5 Ausgewählte Themen der Analysis tialbruchzerlegung lässt sich r ( x) q ( x) in eine Summe von Brüchen zerlegen, die die Form A A x B oder mit k N und C 2 D haben. Jeden dieser Summanden k 1 k 1 2 x B x 2 C x D kann man getrennt integrieren. Es ist b A a x B k 1 A ln x B x b xa x b 1 A k k x B x a Den Summanden x x A x B 2 C x D k 1 2 für k 0 für k 0 . A x B 2 kann man noch einmal zerlegen: 2 C x D k 1 A 2 x C B AC . k 1 2 x 2 2 C x D x2 2 C x D k 1 Mit der Technik aus Beispiel 8 ist für k 0 mit h( x) x 2 2 C x D und h( x) 2 x C b x 2 a 2 x C dx ln x 2 2 C x D 2C x D x b xa . Für k 1 ist mit h( x) x ( k 1) und g ( x) x 2 2 C x D , g ( x) 2 x C : 2 x C b x a 2 2C x D k 1 b g (b ) a g (a) dx hg x g x dx b x Daher bleibt nur a h( x ) x 1 2 1 k 1 x a 1 2 2 C x D k 1 2 2C x D x b . k dx zu behandeln. Dazu wird t ( x) xa xC D C2 gesetzt. Dann ist t ( x) D C b 1 2 hx dx k x 1 2C x D 2 1 2 2 x C D C 2 x2 2 C x D , also und t ( x) 1 2 2 D C dx D C 2 k 1 2 b 1 dx t ( x) 1 ht ( x) t( x)dx . k 1 2 k 1 hx dx . a D C2 b k 11 2 a D C2 k 11 2 h (b) h(a) D C und 5.13 Einführung in die Integralrechnung h (b) hx dx x Es bleibt die Bestimmung des Integrals h( a) 1 2 1 k 1 285 dx mit h(a ) und h(b) . Durch Anwendung der partiellen Integration ist x 1 d 1 dx x k k x 2 1k x 2 1 2 x dx x 1 1 x dx x 1 x2 x 2 k x2 1k 1 dx . x 2 1k x Wegen x x2 2 1 k 1 x 1 2 x 1 k 1 2 ergibt sich 1 k 1 x 1 1 2k 2 1 dx x k dx 1 k k k 2 2 x 2 1 1 1 x x x 1 und damit eine Rekursionsformel für x 1 2 1 k 1 dx . Diese bleibt für k 1 zu bestimmen. Aus der Behandlung der trigonometrischen Funktionen, die hier ausgeklammert wurde, kennt man deren Ableitungen. Für die Umkehrfunktion arctg der Tangensfunktion, der Arcustangensfunktion, gilt x d 1 arctg ( y ) . Daher ist dy 1 y2 1 x dx arctg ( x) x . 1 2 b Bisher wurden Integrale der Form f ( x)dx behandelt, für die f in a, b wenigstens stück- a weise stetig ist. Es soll nun der Fall behandelt werden, dass f an einer oder beiden Intervallgrenzen einen Pol besitzt oder dass die Intervallgrenzen gegen oder laufen. Dieser Ansatz führt auf den Begriff des uneigentlichen Integrals: Falls der Grenzwert a t f ( x)dx lim f ( x)dx existiert, wird er als uneigentliches Integral bet a zeichnet. Entsprechend wird das uneigentliche Integral t f ( x)dx lim f ( x)dx definiert. t t 286 5 Ausgewählte Themen der Analysis a 0 a 0 b b b f ( x)dx lim f ( x)dx . Für ei Besitzt f bei a einen Pol, dann ist das uneigentliche Integral nen Pol bei b wird das uneigentliche Integral b f ( x)dx f ( x)dx lim 0 0 a a definiert. Beispiele: x t t 1. 1 1 1 1 dx lim lim 1 1 . 2 1 x2 dx lim t t x x x 1 t t 1 2. Der Grenzwert 3. In der Wahrscheinlichkeitsrechnung wird die Exponentialverteilung behandelt. Eine ex- t 1 1 x t dx limln( x) x 1 limln(t ) ln(1) . 1 x dx existiert nicht; denn lim t x t t 1 a xe ponentialverteilte Zufallsvariable X hat den Erwartungswert a x dx mit einem 0 f ( x) x , Parameter a 0 : Mit partieller Integration (hier g ( x) e a x , also 1 g ( x) e a x ) ist a t a xe 0 a x x t t 1 a x 1 dx a x e e a x dx a x 0 0 a x e x t x 0 1a e a x x 0 a x x t 1 1 t e a t e a t . a a t Damit folgt a x e a x dx lim a x e a x dx t 0 4. Die durch f ( x) 1 x 0 1 . a 1 definierte Funktion hat bei x 0 einen Pol. Damit ist 1 1 die Summe zweier uneigentlicher Integrale: 1 1 x 0 dx 1 1 x 1 dx 0 1 x 1 x dx dx . Eine 5.13 Einführung in die Integralrechnung Stammfunktion von h( x ) 1 0 0 1 1 1 1 x 1 x 1 x g ( x) 1 x G ( x) 2 x ; eine Stammfunktion von ist 1 ist H ( x) 2 x . Damit ist x 1 dx 0 1 1 dx lim dx lim 2 x 0 0 x x 0 0 dx lim 0 0 1 dx 4 . 1 1 dx lim 2 x 0 x 0 287 x x 1 x 1 x 2, 2 und 288 6 6 Das Lösen linearer Gleichungssysteme Das Lösen linearer Gleichungssysteme Das vorliegende Kapitel wählt aus einem Gebiet der Mathematik, der Linearen Algebra, ein spezielles Thema aus, nämlich die Behandlung eines effizienten Verfahrens zur Lösung linearer Gleichungssysteme, wie sie in vielen Anwendungen der Mathematik vorkommen. Damit verbunden ist das Invertieren von Matrizen (die Begriffe werden im Laufe des Kapitels erläutert). Die Lineare Algebra als zugrundeliegende Theorie hat sich zu einem der wichtigsten Teilgebiete der Mathematik entwickelt. Eine auch nur einführende Darstellung dieser Theorie würde jedoch den Rahmen dieses Textes sprengen. Daher wird in diesem Kapitel auf die Darstellung der Beweise weitgehend verzichtet. 6.1 Matrizen und Vektoren Ein rechteckiges Zahlenschema aus reellen Zahlen mit m Zeilen und n Spalten a1,1 a 2,1 . A ai ,1 . a m ,1 a1, 2 ... a1, j ... a 2,2 ... a 2, j ... . ... . ... ai , 2 ... ai , j ... ... . ... a m , j ... ... . am,2 a1,n a 2 ,n . A ( m ,n ) a i , j i 1,...,m; j 1,...,n a i ,n . a m ,n heißt reellwertige Matrix vom Typ (m, n). Im Schnittpunkt der Zeile i und der Spalte j steht das Matrixelement ai , j R . Der erste Index gibt die Zeilennummer, der zweite Index die Spaltennummer an. Im folgenden werden Matrizen durch fett gedruckte Buchstaben bezeichnet. Zwei Matrizen A ( m ,n ) ai , j und B ( r ,s ) bl ,k sind gleich, wenn sie vom selben Typ sind, d.h. m r und n s , und sie elementweise gleich sind, d.h. wenn ai , j bi , j für i 1, ..., m und j 1, ..., n gilt. Eine Matrix vom Typ (n, n) heißt quadratische Matrix. Eine Matrix, deren sämtliche Elemente 0 sind, heißt Nullmatrix; sie wird mit 0 bezeichnet. 6.1 Matrizen und Vektoren 289 Die quadratische Matrix I ( n ,n ) 1 0 . 0 . 0 0 0 ... 0 0 1 0 ... 0 0 . ... . ... . 0 0 ... 1 0 . ... . ... . 0 0 ... 0 0 0 ... 0 0 0 ... 0 0 0 ... 0 0 0 ... 0 1 vom Typ (n, n), die in der Diagonalen die Zahlen 1 und sonst nur Nullen enthält, heißt Einheitsmatrix vom Typ (n, n). Es ist 1 für i j I ( n ,n ) i , j mit i , j . 0 für i j Eine Matrix vom Typ (1, n) heißt Zeilenvektor der Länge n. Eine Matrix vom Typ (m, 1) heißt Spaltenvektor der Länge m. In beiden Fällen verzichtet man meist auf die doppelte Indizierung: Ein Zeilenvektor wird geschrieben als a a1 a2 ... a j ... a n . Ein Spaltenvektor wird geschrieben als b1 . . . b bi . . . . b m 290 6 Das Lösen linearer Gleichungssysteme Es sollen nun Rechenoperationen auf Matrizen definiert werden: Es seien A und B zwei Matrizen vom (gleichen) Typ (m, n). Die Summe von A und B ist die Matrix C ci , j A B mit ci , j ai , j bi , j . Die Differenz von A und B ist die Matrix C ci , j A B mit ci , j ai , j bi , j . Die Summe (Differenz) zweier Matrizen vom Typ (m, n) ist wieder vom Typ (m, n). Man erhält sie also, indem man die Elemente an den sich entsprechenden Positionen addiert (subtrahiert). Es sei k R . Das Skalarprodukt der Matrix A D d i , j k A A k mit d i , j k ai , j ai , j k . mit (dem Skalar) k ist die Matrix Das Skalarprodukt einer Matrix A vom Typ (m, n) mit einer reellen Zahl ist wieder eine Matrix vom Typ (m, n). Bei der Bildung des Skalarprodukts einer Matrix mit einer Zahl werden also alle Matrixelemente mit dieser Zahl multipliziert. Es seien A, B und C Matrizen gleichen Typs, k R und h R . Dann gelten folgende Regeln: AB BA, A ( B C) ( A B) C , A0 0A A, Mit A ( 1) A ist A A 0 , k A B k A k B , (k h) A k A h A , ( k h ) A k (h A) , 1 A A . Die Menge der Matrizen vom (gleichen) Typ (m, n) mit der definierten Addition von Matrizen und der Multiplikation von reellen Zahlen mit Matrizen bildet einen Vektorraum über R. 6.1 Matrizen und Vektoren 291 Erläuterung: Eine algebraische Struktur V , , K , heißt Vektorraum über K, wenn gilt: V , ist eine kommutative Gruppe (i) (ii) K ist ein Körper (Skalarkörper) K V V (iii) die Abbildung : genügt den folgenden Regeln: k , v k v für jedes k K , für jedes l K , für jedes v V und jedes w V gilt k l v k l v , 1 v v , k v w k v k w , k l v k v l v . Das Produkt der beiden Matrizen A ( m ,n ) und B ( n ,k ) ist nur dann definiert, wenn der erste Faktor A ( m ,n ) genauso viele Spalten wie der zweite Faktor B ( n ,k ) Zeilen hat. Das Produkt ist eine Matrix C ( m ,k ) cr ,s A B vom Typ (m, k) (mit der Zeilenanzahl von A und der Spaltenanzahl von B) mit n cr ,s a r ,i bi ,s für r 1, ..., m , s 1, ..., n . i 1 Durch Nachrechnen verifiziert man die Gültigkeit von A ( B C) A B A C , ( A B) C A C B C . Im allgemeinen ist (selbst für quadratische Matrizen) A B B A . 292 6 Das Lösen linearer Gleichungssysteme Eine Matrix a1,1 a 2,1 . A ai ,1 . a m ,1 a1, 2 a 2,2 ... a1, j ... a 2, j . ... . ai , 2 ... ai , j . ... . am,2 ... a m , j ... a1,n ... a 2,n ... . A ( m ,n ) a i , j i 1,...,m; j 1,...,n ... a i ,n ... . ... a m ,n kann man als Menge a1 , a 2 , ..., ai , ..., a m ihrer Zeilenvektoren mit ai ai ,1 ai ,2 ... ai , j ... ai ,n für i 1, ..., m bzw. als Menge b1 , b2 , ..., b j , ..., bn ihrer Spaltenvektoren mit a1, j a 2, j . . b j a i , j für j 1, ..., n . . . a m, j auffassen. Eine Menge a1 , ..., a r von Vektoren heißt linear unabhängig, wenn gilt: Aus der Gleichung k1 a1 ... k r a r 0 mit k i R für i 1, ..., r folgt k1 ... k r 0 . Andernfalls heißt a1 , ..., a r linear abhängig. Um zu überprüfen, ob eine Menge von Vektoren linear unabhängig ist, stellt man also die „Vektorgleichung“ k1 a1 ... k r a r 0 auf, wobei die reellen Zahlen k1 , ..., k r zunächst 6.1 Matrizen und Vektoren 293 „Unbekannte“ sind, und zeigt dann, dass diese Gleichung nur gültig sein kann, wenn alle Un bekannten k1 , ..., k r gleich 0 sind. Kann man andererseits die Gleichung k1 a1 ... k r a r 0 aufstellen, wobei mindestens eine der Zahlen k1 , ..., k r von 0 verschieden ist, so sind die Vektoren linear abhängig. Sind die Vektoren a1 , ..., a r jeweils Spaltenvektoren mit m Komponenten, so ist die Vektor gleichung k1 a1 ... k r a r 0 ein Gleichungssystem mit m Zeilen. Ein Vektor a ist eine Linearkombination der Vektoren a1 , ..., a n , wenn es Zahlen k1 R , ..., k n R gibt mit a k1 a1 ... k n a n . In diesem Fall gilt die Vektorgleichung k1 a1 ... k n an 1 a 0 , d.h. die Menge a1 , ..., ar , a ist nicht linear unabhängig. Ist umgekehrt die Menge a1 , ..., ar li- near abhängig, so sind in der Vektorgleichung k1 a1 ... k r a r 0 nicht alle Skalare gleich 0, etwa k j 0 . Es ist dann k j a j k1 a1 ... k j 1 a j 1 k j 1 a j 1 ... k r ar , also k k k k a j 1 a1 ... j 1 a j 1 j 1 a j 1 ... r ar . k k k k j j j j Insgesamt ergibt sich damit 294 6 Das Lösen linearer Gleichungssysteme Satz 6.1-1: Es sei n 2 . Die Vektoren a1 , ..., a n sind genau dann linear abhängig, wenn sich wenigstens ein Vek- tor dieser Menge als Linearkombination der anderen Vektoren dieser Menge darstellen lässt. Unter dem Zeilenrang rZ (A ) einer Matrix A A ( m ,n ) versteht man die Maximalzahl linear unabhängiger Zeilen (-vektoren). Unter dem Spaltenrang rS ( A ) einer Matrix A A ( m ,n ) versteht man die Maximalzahl linear unabhängiger Spalten (-vektoren). Offensichtlich gilt rZ (A ) m und rS ( A ) n . Der Beweis des folgenden Satzes erfordert eine Reihe weiterführender Überlegungen und einen ziemlich trickreichen Umgang mit den beteiligten Indizes. Satz 6.1-2: Für jede Matrix A gilt: rZ ( A ) rS ( A ) . Wegen Satz 6.1-2 kann man Rang r ( A ) einer Matrix A durch r ( A) rZ ( A ) rS ( A ) definieren. Ist A A ( m ,n ) , d.h. A besitzt m Zeilen und n Spalten, dann ist r ( A ) min n, m. Der folgende Satz beschreibt Operationen, die auf die Zeilen bzw. Spalten einer Matrix anwendbar sind, ohne ihren Rang zu ändern. Diese Operationen sind Grundlage des Verfahrens zur Lösung linearer Gleichungssysteme 6.1 Matrizen und Vektoren 295 Satz 6.1-3: Gegeben sei die Matrix A A ( m ,n ) a1 . . b1 ... bn . . a m (Die Vektoren a1 , ..., a m sind die Zeilen der Matrix A, die Vektoren b1 , ..., bn sind die Spalten von A.) Dann gilt: Zeilenrang und Spaltenrang von A ändern sich nicht, wenn man die Matrix A einer der folgenden elementaren Umformungen unterwirft: (z1) Zwei Zeilen von A werden vertauscht. (z2) Eine Zeile ai von A wird ersetzt durch ai k a j , wobei k R , 1 i m , 1 j m und i j gilt. (Auf ai wird ein Vielfaches einer anderen Zeile addiert.) (z3) Eine Zeile ai von A wird ersetzt durch k ai , wobei k R \ {0} und 1 i m gilt. ( ai wird um ein Vielfaches verändert.) (s1) Zwei Spalten von A werden vertauscht. (s2) Eine Spalte bi von A wird ersetzt durch bi k b j , wobei k R , 1 i n , 1 j n und i j gilt. (Auf bi wird ein Vielfaches einer anderen Spalte addiert.) (s3) Eine Spalte bi von A wird ersetzt durch k bi , wobei k R \ {0} und 1 i n gilt. ( bi wird um ein Vielfaches verändert.) 296 6.2 6 Das Lösen linearer Gleichungssysteme Lineare Gleichungssysteme Eine Menge von m Gleichungen in n Variablen der Form a1,1 x1 a 2,1 x1 . . . ai ,1 x1 . . . a m ,1 x1 a1, 2 x 2 a 2,2 x 2 ... ... a1, j x j a 2, j x j ... ... a1,n x n a 2 ,n x n b1 b2 ai , 2 x 2 ... ai , j x j ... a i ,n x n am,2 x2 ... a m , j x j ... a m ,n x n bi bm heißt lineares Gleichungssystem (in den Variablen x1 , ..., x n ). Abgekürzt lässt es sich schreiben als A ( m ,n ) x( n ,1) b( m ,1) . Die Matrix A A ( m ,n ) a1,1 a 2,1 . . . ai ,1 . . . a m ,1 a1, 2 ... a 2,2 ... a 2, j ai , 2 ... am,2 ... a m , j a1, j ai , j a1,n ... a 2,n heißt Koeffizientenmatrix. ... ai ,n ... a m ,n ... Die Elemente der Koeffizientenmatrix und des Vektors b b(m ,1) sind vorgegebene reelle Zahlen. 6.2 Lineare Gleichungssysteme Jeder Vektor y y( n ,1) 297 y1 y 2 . mit A ( m , n ) y( n ,1) b( m ,1) heißt Lösung des linearen Glei. . yn chungssystems. Ein lineares Gleichungssystem A ( m ,n ) x( n ,1) b( m ,1) heißt homogen, wenn b1 b2 ... bm 0 ist. Andernfalls heißt es inhomogen. Im linearen Gleichungssystem A ( m ,n ) x( n ,1) b( m ,1) heißt die Matrix A ( m ,n ) b( m ,1) a1,1 a 2,1 . . . A b a i ,1 . . . a m ,1 a1, 2 ... a 2,2 ... a 2, j a1, j ... a1,n | ... a 2,n | . . . ai ,2 ... ai , j ... a i ,n | . . . a m,2 ... a m , j ... a m ,n | b1 b2 . . . bi . . . bm die erweiterte Koeffizientenmatrix. Es stellt sich die Frage nach der Lösbarkeit eines linearen Gleichungssystems (existiert überhaupt eine Lösung? Ist die Lösung eindeutig bestimmt?) Gegeben sei das lineare Gleichungssystem A ( m ,n ) x( n ,1) b( m ,1) . Gesucht wird eine Lösung 298 y y( n ,1) 6 Das Lösen linearer Gleichungssysteme y1 y 2 . . . . yn Im folgenden wird die Typangabe zur Vereinfachung der Schreibweise weggelassen, so dass das Gleichungssystem A x b lautet. Der folgende Satz gibt an, in welchen Fällen ein lineares Gleichungssystem lösbar ist und wieviele Lösungen in diesem Fall existieren. 6.2 Lineare Gleichungssysteme 299 Satz 6.2-1: Das lineare Gleichungssystem A x b ist genau dann lösbar, wenn der Rang der Koeffizientenmatrix gleich dem Rang der erweiterten Koeffizientenmatrix ist, d.h. wenn r A r A b gilt. Ist r A r A b , so heißt das Gleichungssystem inkonsistent (und ist nicht lösbar). Für das lineare Gleichungssystem Koeffizientenmatrix A A ( m ,n ) Ax b mit einer m-zeiligen und n-spaltigen gelte r A r A b r , so dass das Gleichungssystem lös- bar ist. Es ist r m und r n . Ist r m (= Anzahl der Zeilen bzw. Gleichungen), so ist das Gleichungssystem lösbar, aber m r Gleichungen sind „überflüssig“, genauer: redundant, da sie Linearkombinationen der übrigen Gleichungen sind. Die Anzahl der Lösungen des Gleichungssystems hängt davon ab, wie sich der Rang r zu der Anzahl n der Variablen verhält: Ist r n (= Anzahl der Spalten bzw. Variablen), so sind n r Spaltenvektoren Linearkombinationen der anderen Spaltenvektoren. Das System ist lösbar, jedoch mit n r freien Variablen, denen beliebige reelle Werte zugeordnet werden können. Es gibt also unendlich viele Lösungen. Die Werte, die den übrigen r Variablen zugeordnet werden, hängen von den zugeordneten Werten der freien Variablen ab. Ist r n (= Anzahl der Spalten bzw. Variablen), so ist n m ( m n Gleichungen sind redundant). Das System ist eindeutig lösbar, d.h. es gibt genau eine Lösung. Ist die Koeffizientenmatrix A eines linearen Gleichungssystems quadratisch, d.h. n m , d.h. es gibt soviele Gleichungen wie Variablen, dann gilt: Für r A r A b n gibt es keine Lösung; für r A r A b n gibt es genau eine Lösung; für r A r A b n gibt es unendlich viele Lösungen. In einem homogenen linearen Gleichungssystem ist immer r A r A b . Es gibt dann we- nigstens eine Lösung (nämlich die triviale Lösung y1 y2 ... yn 0 ). Ist zudem r A n , dann gibt es nur diese Lösung. Ist r A r n , dann gibt es weitere Lösungen mit n r freien Variablen. Ist m n , d.h. es gibt weniger Gleichungen als Unbekannte, dann ist auch r A n . Für m n gibt es nur dann mehr als die triviale Lösung, wenn r A n ist. 300 6 Das Lösen linearer Gleichungssysteme Im folgenden wird eine Methode zur Lösung eines linearen Gleichungssystems (Gaußscher Algorithmus) und damit einhergehend eine Methode zur Bestimmung des Rangs einer Matrix vorgestellt. Gegeben sei das lineare Gleichungssystem a1,1 x1 a 2,1 x1 . . . ai ,1 x1 . . . a m ,1 x1 a1, 2 x 2 a 2,2 x 2 ... ... a1, j x j a 2, j x j ... ... a1,n x n a 2 ,n x n b1 b2 ai , 2 x 2 ... ai , j x j ... a i ,n x n am,2 x2 ... a m , j x j ... a m ,n x n bi bm bzw. Ax b . Hierbei sei mindestens einer der Werte ai ,1 in der ersten Spalte von 0 verschieden; denn sonst käme x1 im Gleichungssystem gar nicht vor. Die erweiterte Koeffizientenmatrix sei wieder A ( m ,n ) b( m ,1) a1,1 a 2,1 . . . A b a i ,1 . . . a m ,1 a1, 2 ... a 2,2 ... a 2, j a1, j ... a1,n | ... a 2,n | . . . ai ,2 ... ai , j ... a i ,n | . . . a m,2 ... a m , j ... a m ,n | b1 a1 b2 a 2 . . . . . . bi a i . . . . . . bm a m | | . . . | . . . | b1 b2 . . . . bi . . . bm Sie wird durch elementare Umformungen in eine „Treppenmatrix“ (siehe unten) umgewandelt, aus der man dann die Lösung des Gleichungssystems ablesen kann. Bei diesem Umformungsvorgang wird schrittweise eine Folge von Matrizen A (1) , ... , A ( r ) erzeugt, die alle den- 6.2 Lineare Gleichungssysteme 301 selben Rang wie A b haben. Hierbei ist A (i ) das Ergebnis der Umformung von A ( i 1) nach dem i-ten Schritt ( i 1, ..., r ). Um die Einträge von A (i ) von den Einträgen der übrigen Matrizen unterscheiden zu können, wird A (i ) a1(,i1) (i ) a 2,1 . . . (i ) ai ,1 . . . (i ) a m ,1 a1(,i2) a 2( i, 2) ... a1(,i j) ... a 2( i, )j ai(,i2) ... a m( i,)2 ... a m( i,) j ai(,ij) ... a1(,in) ... a 2( i,n) ... ai(,in) ... a m( i,)n | | . . . | . . . | b1( i ) a1( i ) b2( i ) a 2( i ) . . . . . . bi( i ) ai( i ) . . . . . . bm( i ) a m( i ) | | . . . | . . . | b1( i ) b2( i ) . . . bi( i ) . . . bm( i ) gesetzt. Zusätzlich wird eine Folge von Spaltennummern j1 , ..., jr erzeugt, deren Bedeutung aus dem Zusammenhang klar wird. Die Matrix A ( r ) , die nach dem r-ten Umformungsvorgang entstanden ist, hat die Form 302 6 Das Lösen linearer Gleichungssysteme 1. Schritt: In der 1. Spalte von A b wird von oben nach unten das erste von 0 verschiedene Element, d.h. ein Element der Form a s ,1 0 , gesucht. Es wird p : a s ,1 gesetzt. Man nennt p das Pivot-Element (im 1. Schritt). Ist s 1 , so wird die erste Zeile a1 b1 von A b mit der s-ten Zeile ausgetauscht; ist bereits a1,1 0 (d.h. s 1 ), so findet kein Austausch statt. Die erste Zeile der durch den eventuellen Zeilenaustausch entstandenen Matrix werde wieder mit a1 b1 bezeichnet; entsprechend erhält die ursprünglich erste und nun an der s-ten Position stehende Zeile wieder die Bezeich nung a s bs . Insbesondere ist mit dieser Numerierung p a1,1 . Für k 2, ..., m wird anschließend die Zeile a k bk durch a k ,1 a1 b1 p a k bk ersetzt. A (1) ist die so aus A b entstandene Matrix. Es wird j1 : 1 gesetzt. Ergebnis: Alle Zeilen von A (1) ab Zeile 2 enthalten mindestens in der ersten Spalte den Wert 0; es gilt außerdem a1(,1j)1 0 . Eventuell sind auch in der zweiten und einigen folgenden Spalten von Zeile 2 abwärts ausschließlich die Werte 0 entstanden. Es wird i 2 gesetzt und im i-ten Schritt fortgefahren. i-ter Schritt für 1 i m : Die Matrix A ( i 1) sei bereits bestimmt. Sie hat die Form 303 6.2 Lineare Gleichungssysteme A ( i 1) a1(,i11) 0 . 0 0 0 . 0 a1( i 1) ( i 1) a 2 . ( i 1) a i(i 11) a i ( i 1) a i 1 . ( i 1) a m a1(,i21) ... . 0 ... 0 a 2( i,j21) . ... . . . . . ... a1(,in1) a 2( i,j21) 1 . . . . ... a 2( i,n1) . ... . . . . . . . ( i 1) i 1, ji 1 0 ... . . . . 0 a 0 ... . . . . 0 0 a ... a 0 ... . . . . 0 0 a ... a . ... . . . . . 0 ... . . . . . 0 0 a ( i 1) i 1, ji 1 1 ( i 1) i , ji 1 1 ( i 1) i 1, ji 1 1 . a ( i 1) m , ji 1 1 ... a ... ... a . ( i 1) i 1,n ( i 1) i ,n ( i 1) i 1,n . ( i 1) m ,n | b1( i 1) | b2( i 1) | . | bi(i11) | bi( i 1) | bi(i11) | . | bm( i 1) | b1( i 1) | b2( i 1) | . ( i 1) | bi 1 | bi( i 1) | bi(i11) | . | bm( i 1) Es gilt für jede Zeile k mit 1 k i 1 : alle Elemente bis zur Spalte jk 1 (einschließlich) sind gleich 0 a k( i,jk1 0 alle Elemente in der Teilmatrix, die durch die Zeilen i und m und die Spalten 1 und ji 1 (einschließlich) begrenzt wird, sind gleich 0. In der Teilmatrix ai(,iji 11)1 ( i 1) ai 1, ji 1 1 . ( i 1) a m , ji 1 1 ... ai(,in1) ... ai(i 1,1n) ... . ( i 1) ... a m ,n | bi( i 1) | bi(i11) | . | bm( i 1) (das ist der untere rechte Teil) wird von links nach rechts gehend diejenige Spalte bestimmt, die zum ersten Mal Einträge enthält, die nicht sämtlich gleich 0 sind (hierbei wird die Zeilenund Spaltennumerierung aus der Matrix übernommen): Es wird also j ji1 1 gesetzt und die Bedingung 304 6 Das Lösen linearer Gleichungssysteme ai(,ij1) a i(i 1,1j) ... a m( i,j1) 0 geprüft. Gilt diese Bedingung und ist j n (= Anzahl der Spalten von A), so wird j um 1 erhöht und die Bedingung erneut geprüft; gilt die Bedingung und ist bereits j n , so ist das Verfahren beendet. Im folgenden sei j der kleinste Wert, für den die Bedingung nicht gilt, d.h. die Teilmatrix ai(,iji 11)1 ( i 1) ai 1, ji 1 1 . ( i 1) a m , ji 1 1 ... ai(,in1) ... ai(i 1,1n) ... . ( i 1) ... a m ,n | bi( i 1) | bi(i11) | . | bm( i 1) enthält in der Spalte j ein Element, das ungleich 0 ist. Die kleinste Zeilennummer, für die das zutrifft, laute s, d.h. ai(,iji 11)1 ai(i 1,1j)i 1 1 ... a m( i,j1i )1 1 ... ai(,ij11) ai(i 1,1j)1 ... a m( i,j1)1 ai(,ij1) ai(i 1,1j) ... a s( i11, )j 0 und a s( i, j 1) 0. Es wird p as( i, j 1) gesetzt. Der Wert p heißt Pivot-Element (im i-ten Schritt). Die i-te Zeile von A ( i 1) wird mit der s-ten Zeile ausgetauscht (und die Numerierungen der Zeilen wie im ersten Schritt angepaßt). Es wird ji j gesetzt. Für k i 1, ..., m wird nun Zeile a k( i 1) bk( i 1) durch a k , ji ai( i 1) bi( i 1) p a k( i 1) bk( i 1) ersetzt. Die so entstandene Matrix ist A (i ) . 6.2 Lineare Gleichungssysteme 305 Es wird i um 1 erhöht und der i-te Schritt mit diesem neuen Wert für i wiederholt. Nach dem r-ten Schritt hat die Matrix A (r ) die oben dargestellte Form A (r) a1(,rj)1 0 . 0 0 . 0 . . ... a1(,rn) ... 0 a 2( r, j)2 . . ... a 2( r,n) ... . . ... ... a r( ,rn) ... . . . . | b1( r ) | b2( r ) | . | br( r ) | br(r1) | . | bm( r ) . ... 0 . 0 a (r) r , jr ... 0 . 0 . ... 0 ... . . . . ... 0 ... 0 . 0 . ... 0 mit 1 j1 j2 ... jr und ai(,rj)i 0 für i 1, ...., r . Ist br(r1) ... bm( r ) 0 , so ist r A r A b r A ( r ) r , und das Gleichungssystem ist lösbar. Andernfalls ist das Gleichungssystem nicht lösbar. Im folgenden sei r A r A b r A ( r ) r . Es gilt: Das ursprüngliche Gleichungssystem A x b und das r-zeilige Gleichungssystem A (r) x b (r) haben dieselbe Lösung, da nur elementare Umformungen durchgeführt wurden. In ausgeschriebener Form (ohne die Zeilen, die nur Nullen enthalten) lautet A (r) x b (r) : a1(,r1) x1 ... a 2( r, )j2 x 2 ... . a (r) r , jr x jr . . . . a1(,rn) x n b1( r ) a 2( r,n) x n b2( r ) . . . xn b a (r) r ,n . (r) r Die Zeilen dieser Matrix (es sind die ersten r Zeilen von A (r) ) werden von unten nach oben bearbeitet, und dabei werden den Variablen xn , xn 1 , ..., x1 Werte zugeordnet: 306 6 Das Lösen linearer Gleichungssysteme (r) Bearbeitung der Zeile mit der Nummer r: Den Variablen x jr 1 , x jr 2 , ..., x n werden beliebige Werte aus R zugewiesen (freie Variablen): x jr 1 : u jr 1 , x jr 2 : u jr 2 , ... , x n : un . x jr wird aus der letzten Gleichung berechnet: x jr 1 ar( ,r j)r n n 1 br( r ) ar( ,rk) xk ( r ) br( r ) ar( ,rk) uk . k jr 1 k jr 1 ar , jr (i) Bearbeitung der Zeile mit der Nummer i mit 1 i r : Die Zeilen i 1, ..., r seien bereits bearbeitet. Die Variablen, die bisher entweder als freie oder berechnete Variablen ermittelt wurden, seien in aufsteigender Numerierung x k , x k 1 , ..., x n . Den Variablen x ji 1 , ..., x k 1 werden wieder beliebige Werte aus R zugewiesen (freie Variablen): x ji 1 u ji 1 , ... , xk 1 : uk 1 . x ji wird berechnet zu: x ji 1 ai(,rj)i n bi( r ) ar( ,rk) xk . k ji 1 Beispiel: Das Gleichungssystem 4 x1 4 x2 8 x3 24 x 4 44 x 5 4 x6 56 x 7 44 x8 24 3 x1 3 x2 6 x3 18 x4 30 x 5 9 x6 42 x 7 24 x8 15 2 x1 2 x2 4 x3 10 x4 16 x5 4 x6 20 x 7 12 x8 8 2 x1 2 x1 2 x2 2 x2 4 x3 4 x3 12 10 x4 x4 18 18 x5 x5 10 x 6 28 x 7 20 x 7 10 18 x8 x8 8 10 6.2 Lineare Gleichungssysteme 307 hat die erweiterte Koeffizientenmatrix 4 8 24 44 4 56 44 | 24 4 3 3 6 18 30 9 42 24 | 15 4 10 16 4 20 12 | 8 2 2 2 4 12 18 10 28 10 | 8 2 2 2 4 10 18 0 20 18 | 10 1. Schritt: p a1,1 4 0 ; die k-te Zeile für k 2, 3, 4, 5 wird ersetzt durch a k ,1 (1. Zeile) 4 ( k - te Zeile) . Das ergibt: 4 0 0 0 0 4 8 24 44 4 56 44 0 0 0 12 24 0 36 0 0 8 24 8 32 40 0 0 0 16 32 0 48 0 0 8 16 8 32 16 | 24 | 12 | 16 | 16 | 8 Um die Größen der Zahlen zu reduzieren, werden die einzelnen Zeilen jeweils durch einen geeigneten Faktor dividiert, z.B. wird die 1. Zeile durch 4, die 2. Zeile durch 12, die 3. Zeile durch 8, die 4. Zeile durch 16 und die 5. Zeile durch 8 dividiert, und es entsteht: A (1) 1 1 2 6 11 1 14 11 | 6 0 0 0 0 1 2 0 3 | 1 0 0 0 1 3 1 4 5 | 2 0 0 0 0 1 2 0 3 | 1 0 0 0 1 2 1 4 2 | 1 j1 1 i-ter Schritt für i = 2: Es ist j2 4 , s 3 , p 1 . Die 2. Zeile von Α (1) wird mit der 3. Zeile ausgetauscht, und es ergibt sich 308 6 Das Lösen linearer Gleichungssysteme 1 1 2 6 11 1 14 11 | 6 0 0 0 1 3 1 4 5 | 2 0 0 0 0 1 2 0 3 | 1 0 0 0 0 1 2 0 3 | 1 0 0 0 1 2 1 4 2 | 1 Für k 3, 4, 5 wird die k-te Zeile ersetzt durch a k ,4 (2. Zeile) 1 ( k - te Zeile) . Damit ergibt sich A ( 2) 1 1 2 6 11 1 14 11 0 0 0 1 3 1 4 5 0 0 0 0 1 2 0 3 0 0 0 1 2 0 3 0 0 0 0 0 1 2 0 3 | 6 | 2 | 1 | 1 | 1 i-ter Schritt für i = 3: Es ist j3 5 , s 3 , p 1 . Für k 4, 5 wird die k-te Zeile ersetzt durch a k ,5 (3. Zeile) 1 ( k - te Zeile) Damit ergibt sich A ( 3) 1 1 2 6 11 1 14 11 | 6 0 0 0 1 3 1 4 5 | 2 0 0 0 0 1 2 0 3 | 1 0 0 0 0 0 0 0 0 | 0 0 0 0 0 0 0 0 0 | 0 i-ter Schritt für i = 4: Für j j3 1 ( 6), ..., 8 ( n ) gilt jeweils a 4( 3, j) a5( ,3j) 0 , so dass das Verfahren abbricht. Es ist r 3 . Es wird daher gesetzt: 6.3 Invertieren von Matrizen 309 x6 u6 , x7 u7 , x8 u8 , 1 x5 1 2 x6 0 x7 3 x8 1 2 u6 3 u8 , 1 1 x4 2 3 x5 1 x6 4 x7 5 x8 1 5 u6 4 u7 4 u8 , 1 x2 u2 , x3 u3 , 1 x1 6 1 x2 2 x3 6 x4 11 x5 1 x6 14 x7 11 x8 1 1 u2 2 u3 7 u6 10 u7 2 u8 . Die (unendlich große) Lösungsmenge des Gleichungssystems ist also 2 7 10 1 2 1 0 0 0 0 0 1 1 0 0 0 0 0 4 1 0 0 5 4 X u6 u7 u8 u2 u3 ( 8,1) X 0 2 0 1 3 0 L 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 mit beliebigen reellen Zahlen u 2 , u3 , u6 , u7 und u8 6.3 Invertieren von Matrizen Eine quadratische Matrix A ( n ,n ) vom Typ (n, n) heißt regulär, wenn r A ( n ,n ) n ist. Sie heißt singulär, wenn r A ( n ,n ) n gilt. Es sei A ( n ,n ) eine quadratische Matrix vom Typ (n, n). Gibt es eine Matrix B ( n ,n ) vom Typ n, n mit A ( n ,n ) B ( n ,n ) I ( n ,n ) , dann heißt B ( n ,n ) die zu A ( n ,n ) inverse Matrix und wird mit A (n1,n ) bezeichnet. 310 6 Das Lösen linearer Gleichungssysteme Zur Erinnerung: Mit I ( n ,n ) wird die quadratische Matrix bezeichnet, die in der Diagonalen die Zahlen 1 und sonst nur Nullen enthält (Einheitsmatrix). Satz 6.3-1: A und B seien quadratische Matrizen, zu denen jeweils die inversen Matrizen A 1 und B 1 existieren. Dann gilt: (i) Aus B A A folgt B I . (ii) I A A 1 A 1 A . (iii) A 1 ist eindeutig bestimmt. (iv) A 1 (v) 1 A. A B 1 B 1 A 1 . (vi) k A 1 k A 1 für k R 0 . 1 Zunächst überzeugt man sich durch Nachrechnen, dass für quadratische Matrizen A, B und C die Assoziativität A B C A B C gilt, d.h. die Klammerung bei einer Folge von Matrixmultiplikationen ist irrelevant. (i) ergibt sich folgendermaßen: Ist B A A , dann ist B A A 1 A A 1 I und B A A 1 B . Damit folgt (ii): A 1 A 1 A A 1 A 1 A A 1 , und mit (i) ist A 1 A I A A 1 . Die Eindeutigkeit der inversen Matrix in (iii) sieht man wie folgt: Ist B eine zu A inverse Matrix, d.h. ist A B I , dann ist A 1 A 1 A B A 1 A B A A 1 B B . Nach Definition ist I A A 1 und A A 1 A 1 A . Also ist A 1 invertierbar, und wegen der Eindeutigkeit der inversen Matrix ist A 1 1 A. Mit (iii) ergibt sich (v): A B B 1 A 1 A B B 1 A 1 A A 1 I , also A B 1 B 1 A 1 . 6.3 Invertieren von Matrizen 311 Entsprechend sieht man die Gültigkeit von (v): k A 1 k A 1 A A 1 I , also k A 1 1 k A 1 . Satz 6.3-2: Für eine quadratische Matrix A sind folgende Aussagen (a) und (b) äquivalent: (a) A ist eine reguläre Matrix. (b) Zu A existiert die inverse Matrix A 1 . Den Beweis dieses Satzes, der einen tieferen Einstieg in die Lineare Algebra erfordert, findet man in der angegebenen Literatur6. Satz 6.3-3: Die Lösung der Matrixgleichung A X B mit einer regulären Matrix A lautet X A 1 B . Die Berechnung der inversen Matrix zu einer gegebenen quadratischen regulären Matrix A heißt Invertieren der Matrix A. Die quadratische Matrix A ( n ,n ) ai , j ( n ,n ) sei regulär. Man kann zeigen, dass man die Zeilen einer regulären Matrix so vertauschen kann, dass nach dem Austausch alle Elemente der Diagonalen von 0 verschieden sind. Daher kann man gleich für ai ,i 0 für i 1, ..., n voraussetzen. Die Matrix X ( n ,n ) xi , j ( n ,n ) sei in Spaltenschreibweise: X x1 , ..., x n . Der Vektor ei für i 1, ..., n sei der Spaltenvektor, der in der i-ten Zeile eine 1 und sonst nur Nullen hat. 6 Beutelspacher, A.: Lineare Algebra, 7. Aufl.,Vieweg+Teubner, 2009. 312 6 Das Lösen linearer Gleichungssysteme Zur Invertierung der Matrix A sind simultan die n linearen Gleichungssysteme A x1 e1 , ..., A x n en zu lösen. Diese Gleichungssysteme kann man zu einem Gleichungssystem A ( n , n ) X ( n ,n ) I ( n ,n ) zusammenfassen und mit einer Variante des Gaußschen Verfahrens lösen (anstelle des Vek tors b(m ,1) steht jetzt die Einheitsmatrix I ( n ,n ) ): Die zu A gehörende erweiterte Matrix hat die Form a1,1 a A | I 2,1 . a n ,1 a1 a 1 . a n a1, 2 a 2,2 . a n ,2 | | | | ... a1,n ... a 2,n ... . ... a n ,n | | | | 1 0 0 ... 0 0 1 0 ... 0 . . . ... . 0 0 0 ... 0 1 0 0 ... 0 0 0 1 0 ... 0 0 . . . ... . . 0 0 0 ... 0 1 0 0 . 1 Sie wird schrittweise durch elementare Umformungen in eine „erweiterte Diagonalmatrix“ umgewandelt. Dabei wird eine Folge von Matrizen A (1) , ..., A ( n ) erzeugt; A (i ) ist das Ergebnis nach dem i-ten Schritt: 1. Schritt: Es ist a1,1 0 . Die 1. Zeile der erweiterten Matrix wird durch a1,1 geteilt. Anschließend wird für k 2, ..., n die mit a k ,1 multiplizierte 1. Zeile zur k-ten Zeile addiert. Das Ergebnis ist A (1) . Das Element in der 1. Spalte und der 1. Zeile ist gleich 1; alle Elemente der 1. Spalte ab Zeile 2 sind gleich 0. Anschließend wird i 2 gesetzt. i-ter Schritt für 1 i n : Die Matrix A ( i 1) sei bereits ermittelt. Sie hat die Form 6.3 Invertieren von Matrizen A ( i 1) 1 0 0 1 . . 0 0 0 0 0 0 . . 0 0 a1( i 1) ( i 1) a 2 . ( i 1) a i(i 11) a i ( i 1) a i 1 . ( i 1) a n 0 ... 0 0 a1(,ii1) 0 ... 0 0 a 2( i,i1) . ... . . 0 ... 0 1 a 0 ... 0 0 a 0 ... 0 0 a . ... . . 0 ... 0 0 a | u1( i 1) | u 2( i 1) | . ( i 1) | ui 1 | ui( i 1) | ui(i11) | . | u n( i 1) a1(,ii11) a 2( i,i11) . ( i 1) i 1,i ( i 1) i ,i ( i 1) i 1,i . a ( i 1) i 1,i 1 ( i 1) i ,i 1 ( i 1) i 1,i 1 | u1(,i11) | u 2( i,11) ... | a ... a ... a a ... a . ( i 1) n ,i ... a1(,in1) ... a 2( i,n1) . a ( i 1) n ,i 1 ... ... a . ( i 1) i 1,n ( i 1) i ,n ( i 1) i 1,n . ( i 1) n ,n | u | u | u | | u . ( i 1) i 1,1 ( i 1) i ,1 ( i 1) i 1,1 . ( i 1) n ,1 313 ... u1(,in1) ... u 2( i,n1) ... . ( i 1) ... ui 1,n ... ui(,in1) ... ui(i 1,1n) ... . ... u n( i,n1) Man kann ai(,ii1) 0 annehmen; ansonsten gibt es wegen der Regularität von A ein s i, i 1, ..., n mit a s( i,i1) 0 , und die s-te Zeile wird mit der i-ten Zeile ausgetauscht. Die i-te Zeile wird durch ai(,ii1) geteilt, so dass sie in der i-ten Spalte (im Diagonalelement) den Wert 1 hat. Anschließend wird für k 1, ..., i 1, i 1, ... , n die mit a k( i,i1) multiplizierte ite Zeile zur k-ten Zeile addiert. Zu beachten ist, dass hierbei sowohl Zeilen behandelt werden, die oberhalb der i-ten Zeile stehen ( k 1, ..., i 1 ), als auch Zeilen, die unterhalb der i-ten Zeile stehen ( k i 1, ... , n ). A (i ) ist die so entstandene Matrix. Es wird i um1 erhöht und der i-te Schritt mit diesem neuen Wert für i wiederholt. A (n ) hat die Form 314 A(n) 6 Das Lösen linearer Gleichungssysteme 1 0 . 0 0 0 . 0 0 1 . 0 0 0 . 0 0 0 . 0 0 0 . 0 ... ... ... ... ... ... ... ... I ( n ,n ) | U ( n ,n ) 0 0 . 0 0 0 . 0 0 0 . 1 0 0 . 0 0 0 . 0 1 0 . 0 0 0 . 0 0 1 . 0 ... ... ... ... ... ... ... ... 0 0 . 0 0 0 . 1 | u1(,n1) | u2( n,1) | . (n) | ui1,1 | ui(,n1) | ui(n1),1 | . (n) | un ,1 ... u1(,nn) ... u2( n,n) ... . ... ui(n1),n ... ui(,nn) ... ui(n1),n ... . ... un( n,n) Es gilt U ( n ,n ) A 1 . Beispiel: 1 2 3 Bestimmung der zu A 2 3 2 inversen Matrix: 1 2 2 Die folgenden Matrizen sind die Ergebnisse nach den Schritten : A (1) A ( 2) A ( 3) 3 | 1 0 0 1 2 0 1 4 | 2 1 0 0 0 1 | 1 0 1 1 0 5 | 3 2 0 0 1 4 | 2 1 0 0 0 1 | 1 0 1 2 5 1 0 0 | 2 0 1 0 | 2 1 4 0 1 0 0 1 | 1 2 5 2 Es gilt A 2 1 4 . 0 1 1 1 7.1 Bezeichnungen und Ergebnisse aus der Wahrscheinlichkeitstheorie 7 315 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Das vorliegende Kapitel mit seinen Unterkapiteln gibt eine knappe Einführung in die Anwendungen der Schließenden Statistik und stellt dazu zunächst erforderliche Hilfsmittel aus der Wahrscheinlichkeitsrechnung zur Verfügung. Die einzelnen Sätze werden wieder bis auf wenige Ausnahmen, die weiterführende mathematische Betrachtungen erfordern, durch Argumente untermauert7. Die mathematischen Hilfsmittel sind entweder elementar oder ergeben sich aus den Ausführungen in Kapitel 5 und seinen Unterkapiteln. Auf Zahlenbeispiele wird mit Verweis auf die angegebene Literatur weitgehend verzichtet. Das Kapitel dient vielmehr als Leitfaden, um sich das Themengebiet (auch selbständig) zu erarbeiten. 7.1 Bezeichnungen und Ergebnisse aus der Wahrscheinlichkeitstheorie In diesem Kapitel werden Bezeichnungen und Ergebnisse aus der Wahrscheinlichkeitsrechnung zusammengestellt, wie sie in einer einführenden Veranstaltung behandelt werden. Mit werde eine Menge von Elementareignissen bezeichnet. wird auch Ereignisraum genannt. Bei der Durchführung eines Zufallsexperiments (z.B. Münzwurf, Würfeln, Ziehen eines produzierten Teils aus einem Produktionsvorgang) wird ein Elementarereignis ausgewählt. Das Zufallsexperiment wird nach einer bestimmten Vorschrift durchgeführt und kann unter den gleichen Rahmenbedingungen beliebig oft wiederholt werden. Welches Elementarereignis jeweils gewählt wird, ist nicht vorhersagbar. Lediglich die Menge der sich gegenseitig ausschließenden Versuchsausgänge ist bekannt. Ist endlich oder abzählbar unendlich, so handelt es sich um einen diskreten Ereignisraum. 7 Die ausgelassenen Beweise findet man in Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Aufl., Deutscher Verlag der Wissenschaften, 1989. 316 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Ein Mengensystem E P heißt Ereignismenge mit dem Ereignisraum , wenn folgende Bedingungen erfüllt sind: (i) E (ii) Mit A E gilt auch A E (iii) Mit A E und B E gilt auch A B E (iv) Ist Ai iI eine Folge von abzählbar vielen Mengen Ai E für i I , I N , so ist auch A E . i iI Mit A E und B E gilt auch A B E ; diese Aussage folgt aus einer mehrfa chen Anwendung der Regeln (i) und (ii) auf A B A B . Eine Menge A E , d.h. A , heißt (zufälliges) Ereignis. Das Ereignis A tritt bei einem Zufallsexperiment ein, wenn das ausgewählte Elementarereignis Element von A ist. Die Menge heißt sicheres Ereignis, die Menge unmögliches Ereignis. Eine Abbildung P, die jedem Ereignis A E eine reelle Zahl zuordnet, heißt Wahrscheinlichkeitsmaß auf , und P A heißt Wahrscheinlichkeit des Ereignisses A, wenn gilt: (i) 0 P A 1 für jedes Ereignis A E (ii) P 1 (iii) P A B P A PB für disjunkte Ereignisse A E und B E (iv) Ist Ai iI eine Folge abzählbar vieler paarweise disjunkter Mengen Ai E für i I , I N , so ist P Ai P Ai . iI iI 7.1 Bezeichnungen und Ergebnisse aus der Wahrscheinlichkeitstheorie 317 Ist die Menge der Elementarereignisse endlich, so kann man in (iv) nur endlich viele paarweise disjunkte Ereignisse Ai bilden. Beispiele: 1. Für a1 , ..., an und E P wird durch Pai 1 n ein Wahrscheinlichkeitsmaß mit P A A festgelegt (diskrete Gleichverteilung). n n 1 2. 1 Für N und E P wird durch Pn ein Wahrscheinlichkeitsmaß 2 festgelegt: Dazu ist lediglich die Bedingung (ii) zu prüfen: 1 PN P n Pn nN 2 nN nN n 1 1 1 1. 2 1 1 2 Direkt aus den obigen Bedingungen ergibt sich Satz 7.1-1: Es sei eine Menge von Elementarereignissen mit der Ereignismenge E und P ein Wahrscheinlichkeitsmaß auf . Dann gilt: (i) P A 1 P A für jedes Ereignis A E . (ii) P 0 . (iii) P A \ B P A PB für Ereignisse A E und B E mit B A . (iv) P A B P A PB P A B für Ereignisse A E und B E . (v) P A PB für Ereignisse A E und B E mit A B . Es seien A E und B E Ereignisse eines Ereignisraums , und es gelte PB 0 . Dann heißt P A B P A B die bedingte Wahrscheinlichkeit von A unter der BedinP B gung B (bedingte Wahrscheinlichkeit von A, wenn B eingetroffen ist). 318 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Bei festem B wird auf diese Weise ein Wahrscheinlichkeitsmaß auf definiert. Dazu sind die obigen Bedingungen (i) bis (iv) nachzuweisen: Es gilt P A B P A B P A B 0 und mit Satz 7.1-1 (v) wegen A B B auch 1. P B P B Weiter ist P B nisse, so ist P B PB 1 . Sind A1 E und A2 E disjunkte EreigP B P B P A1 A2 B P A1 B A2 B P A1 B P A2 B P B P B P B PA1 A2 B PA1 B P A2 B . Bedingung (iv) lässt sich auf ähnliche Art nachweisen. Bedingte Wahrscheinlichkeiten lassen sich in vielen Anwendungen häufig einfacher als „absolute“ Wahrscheinlichkeiten berechnen, da dazu vorausgesetzt werden kann, dass die in Frage kommende Bedingung B bereits eingetroffen ist. Man besitzt also Zusatzinformationen in Form des eingetretenen Ereignisses B, um die Wahrscheinlichkeit eines Ereignisses A zu bewerten. Aus der Definition der bedingten Wahrscheinlichkeit folgt unmittelbar: Satz 7.1-2: Es seien A E und B E Ereignisse eines Ereignisraums , und es sei PB 0 . Dann gilt: P A B P A B P B . Die Ereignisse A E und B E heißen (stochastisch) unabhängig, wenn P A B P A PB gilt. In diesem Fall gilt P A B P A und PB A PB . Die Ereignisse A1 E , …, An E heißen (stochastisch) unabhängig, wenn für beliebige Indizes k1 , …, ks mit 1 k1 ... ks n die Beziehung P Ak1 ... Ak s P Ak1 ... P Ak s gilt. 7.1 Bezeichnungen und Ergebnisse aus der Wahrscheinlichkeitstheorie 319 Die abzählbar vielen Ereignisse A1 E , A2 E , A3 E , … heißen (stochastisch) unabhängig, wenn für jedes n 2, 3, 4, ... die Ereignisse A1 , …, An (stochastisch) unabhän- gig sind. Der folgende Satz ist Grundlage vieler Berechnungen von Wahrscheinlichkeiten und weiteren Kenngrößen von Verteilungen (siehe unten). Satz 7.1-3: Die Ereignisse B1 E , …, Bn E seien eine paarweise disjunkte Zerlegung des Ereignisraums , d.h. B und B B i i j für i j . Dann gilt für das Ereignis i 1 A E : n n P A P A Bi PBi . i 1 Die Aussage folgt aus Satz 7.1-2 und den Eigenschaften des Wahrscheinlichkeitsmaßes P: Es ist A A Bi und A Bi A B j für i j . Daher gilt n i 1 n n i 1 i 1 P A P A Bi P A Bi PBi . Es seien A E und B E Ereignisse eines Ereignisraums mit P A 0 und PB 0 . Dann ist P A B P A B PB A P A . P B P B Die bedingte Wahrscheinlichkeit PA B lässt sich also mit Hilfe der bedingten Wahrscheinlichkeit P B A ausdrücken. Wendet man auf PB Satz 7.1-3 an, so erhält man den folgenden Satz. 320 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Satz 7.1-4 (Satz von Bayes): Die Ereignisse A1 E , …, An E seien eine paarweise disjunkte Zerlegung des Ereignisraums , d.h. n A und i Ai Aj für i j . Dann gilt für das Ereignis i 1 B E mit PB 0 und jedes Ai E : PAi B P B Ai P Ai PB n i 1 7.2 Ai P Ai . Zufallsvariablen Es sei E eine Ereignismenge mit dem Ereignisraum . Eine Abbildung X : R heißt Zufallsvariable, wenn zu jedem r R die Menge Ar e e und X (e) r in E ist. Ist der Wertebereich einer Zufallsvariablen X endlich oder abzählbar unendlich, so heißt X diskrete Zufallsvariable, ansonsten stetige Zufallsvariable. Unter der Wahrscheinlichkeit, dass die Zufallsvariable einen Wert den einen Wert zwischen a und b mit a R a mit P e e und X (e) a Wert aR aR annimmt, geschrieben annimmt, geschrieben P e e und X (e) a P X a , versteht man P X a , versteht man und b R annimmt, geschrieben Pa X b , versteht man P e e und a X (e) b . Die Funktion FX : R 0, 1 mit FX ( x) P X x P e e und X (e) x heißt Verteilungsfunktion der Zufallsvariablen X. Das Subskript X wird fortgelassen, wenn der Zusammenhang klar ist. 7.2 Zufallsvariablen 321 Satz 7.2-1: Für die Verteilungsfunktion einer FX einer Zufallsvariablen X gilt: (i) FX ist an jeder Stelle lim FX x x FX x . xR zumindest rechtsseitig stetig, d.h. x 0 (ii) FX ist monoton steigend, d.h. für a R und b R mit a b ist FX a FX b . (iii) FX hat die Grenzwerte lim FX x 0 und lim FX x 1 . x x Im folgenden werden Definitionen angeführt, die sich in der Darstellung für diskrete und stetige Zufallsvariablen unterscheiden. Die Zufallsvariable X sei diskret, d.h. sie nimmt endlich oder abzählbar unendlich viele Werte xi an. Dann heißt die Funktion P X xi für x xi f X : R 0, 1 mit f X x P X x (Wahrscheinlichkeits-) Massonst 0 senfunktion von X. Offensichtlich gilt 0 f X x 1 für jedes x R und f x 1 . Den Zusammenhang zwiX i alle i schen der Massenfunktion f X und der Verteilungsfunktion FX beschreibt FX x P X x f x und xi x X f X x FX x lim FX x x . x 0 Die Zufallsvariable X sei stetig mit Verteilungsfunktion FX . Die erste Ableitung f X von FX heißt (Wahrscheinlichkeits-) Dichtefunktion von X: d fX FX x . dx Aus der Definition und mit Satz 7.2-1 (ii) und (iii) folgt f X x 0 und f x dx 1 . X 322 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Zu beachten ist, dass eine Dichtefunktion keine Wahrscheinlichkeit beschreibt und daher im Einzelfall Werte x mit f X x 1 besitzen kann. Den Zusammenhang zwischen der Dichtefunktion f X und der Verteilungsfunktion FX beschreibt P X x FX x x b f X t dt und Pa X b FX b FX a f X t dt . a a Wegen P X a f X t dt 0 ist a Pa X b Pa X b Pa X b Pa X b FX b FX a . Für eine diskrete Zufallsvariable X mit den Werten xi und der Massenfunktion f X x definiert man den Erwartungswert von X durch EX xi P X xi xi f X xi . alle i alle i Für eine stetige Zufallsvariable X mit der Dichtefunktion f X x ist der Erwartungswert definiert durch E X x f x dx . X Natürlich müssen Summe bzw. Integral existieren. Den Erwartungswert einer Funktion g X einer Zufallsvariablen X definiert man entsprechend durch Eg X g xi P X xi g xi f X xi , falls X diskret mit den Werten xi und der alle i Massenfunktion f X x ist, alle i bzw. durch Eg X g x f x dx , falls X stetig mit der Dichtefunktion X f X x ist. Unterwirft man eine Zufallsvariable X einer linearen Transformation a b X , so erhält man: 7.2 Zufallsvariablen 323 Satz 7.2-2: Die Zufallsvariable X habe den Erwartungswert E X . Es seien a R und b R . Dann gilt: Ea b X a b E X . Die Herleitung sei hier nur für den stetigen Fall dargestellt: Ea b X a b x f x dx X a f X x dx b x f X x dx a f x dx b x f x dx X X a b E X . Die Varianz einer Zufallsvariablen X wird durch Var( X ) E X E X 2 definiert. Auch hier müssen natürlich die entsprechenden Summen bzw. Integrale existieren. Die Standardabweichung ist Var ( X ) . Satz 7.2-3: Die Zufallsvariable X habe den Erwartungswert E X und die Varianz Var( X ) . Dann gilt: (i) Var ( X ) E X 2 E X . 2 (ii) Var (a b X ) b 2 Var( X ) mit a R und b R . (i) rechnet man nach: EX Var ( X ) E X E X 2 2 2 X E X EX 2 EX E X E X 2 EX E X E X 2 2 2 2 . 324 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik (ii) rechnet man in drei Schritten nach: Var(b X ) Eb X Eb X Eb X E X b E X E X b Var( X ) Var(a X ) E a X Ea X E a X a E X E X E X Var( X ) , 2 2 2 2 2 2 2 2 und Var(a b X ) Var(b X ) b 2 Var( X ) . Der folgende Satz liefert zwei „nützliche“ Abschätzungen: Satz 7.2-4: (i) Für die Zufallsvariable X gelte X(e) 0 für alle e , und sie habe den Erwartungswert E X . Dann gilt für t R mit t 0 (Markoffsche Ungleichung): P X t E X t . (ii) Die Zufallsvariable X habe den Erwartungswert E X und die Varianz Var( X ) . Dann gilt (Tschebyscheffsche Ungleichung): P X E X t Var X t 2 . (iii) Die Zufallsvariable X habe den Erwartungswert E X und die Varianz Var( X ) . Dann gilt: P X E X Var X t 1 t 2 und P X E X Var X t 1 1 t 2 . (i) ergibt sich wie folgt: Die Zufallsvariable Y : R sei auf demselben Ereignisraum t für X (e) t wie X durch Y (e) definiert. Dann ist Y (e) X (e) für jedes e und da0 sonst mit EY E X . Es ist EY 0 P X t t P X t EX . (ii) wird hier nur für eine stetige Zufallsvariable mit Dichtefunktion f X gezeigt; für eine diskrete Zufallsvariable verläuft der Nachweis entsprechend. Es ist Var( X ) E X EX 2 x EX 2 f X ( x)dx E X t x EX 2 E X t f X ( x)dx x EX E X t 2 f X ( x)dx x EX E X t 2 f X ( x)dx 7.2 Zufallsvariablen E X t x EX 2 f X ( x)dx E X t 2 t x EX 2 325 f X ( x)dx E X t f X ( x)dx t 2 f X ( x)dx Ungleichung (*) E X t t 2 P X EX t P X EX t t 2 P X E X t . Ungleichung (*) gilt, da im ersten Integral x E X t und damit x E X t und x EX 2 t 2 ist; x EX 2 t 2 . im zweiten Integral gilt EX t x und damit x EX t und (iii) ist eine Umformulierung der Tschebyscheffschen Ungleichung. In vielen Anwendungsfällen ist eine Zufallsvariable Y als Funktion einer Zufallsvariablen X definiert, d.h. Y g X , wobei die Verteilung (Massenfunktion bzw. Dichtefunktion bzw. Verteilungsfunktion) von X bekannt oder vorgegeben ist. Der folgende Satz beschreibt den Sachverhalt für zwei wichtige Beispiele. 326 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Satz 7.2-5: Die Zufallsvariabel X habe die Verteilungsfunktion FX x P X x . (i) Die Zufallsvariable Y a X b mit Konstanten a R , a 0 , und b R hat die Verteilungsfunktion y b für a 0 FX a FY y PY y Fa X b y 1 FX y b für a 0 . a Ist X eine stetige Zufallsvariable mit Dichtefunktion f X x , so besitzt Y die Dichtefunktion fY y 1 y b fX . a a (ii) Die Zufallsvariable X sei stetig mit Dichtefunktion f X x . Dann hat die Zufallsvariable Y X 2 die Verteilungsfunktion 0 FY y PY y FX 2 y FX und die Dichtefunktion 0 fY y f X y F y X für y 0 für y 0 für y 0 y f y für y 0 . X 2 y y b y b In (i) ist für a 0 FY y Pa X b y P X FX . Für a 0 ist a a y b y b y b FY y Pa X b y P X 1 P X 1 FX . a a a über die Dichtefunktion erhält man durch die Bildung der Ableitung: 1 y b 1 y b fY y FY y FX fX für a 0 und a a a a Die Aussage 1 1 y b y b fY y FY y FX fX für a 0 . Beide Fälle zusammengefasst a a a a ergeben fY y 1 y b fX . a a Die Aussage in (ii) sieht man wie folgt: 0 FY y P X 2 y P y X y FX y F y X für y 0 für y 0 , 7.3 Mehrdimensionale Zufallsvariablen 0 fY y FX 7.3 y F y f y f y X X 2 y X 2 y 327 für y 0 für y 0 . Mehrdimensionale Zufallsvariablen Es sei E eine Ereignismenge mit dem Ereignisraum . Eine Abbildung X1, ..., X n : R n mit Zufallsvariablen X 1 , ..., X n heißt n-dimensionale Zufallsvariable. Im vorliegenden Kapitel wird n 2 genommen; alle Ergebnisse lassen sich aber auch auf höhere Dimensionen übertragen. Zur Schreibvereinfachung wird für X 1 , X 2 der Zufallsvektor X , Y geschrieben. Sind die Komponenten X und Y einer zweidimensionalen Zufallsvariablen diskrete Zufallsvariablen, so heißt die Funktion f X , Y : R 2 0, 1 mit f X , Y x, y P X x und Y y P e e und X (e) x e e und Y (e) y gemeinsame (Wahrscheinlichkeits-) Massenfunktion von X und Y. Nimmt X die (endlich oder abzählbar unendlich vielen) Werte xi und Y die (endlich oder abzählbar unendlich vielen) Werte y j an, so ist analog zum eindimensionalen Fall 0 f X , Y x, y 1 für jedes x R und jedes y R und f x , y 1 . X ,Y i j alle i alle j Die Komponenten X und Y einer zweidimensionalen Zufallsvariablen seien stetig. Es seien a R , b R , c R und d R mit a b und c d . Die Funktion f X , Y : R 2 R 0 mit b d f x, y dydx Pa X b und c Y d P e e und a X (e) b e X ,Y a c e und c Y (e) d heißt gemeinsame (Wahrscheinlichkeits-) Dichtefunktion von X und Y. 328 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Offensichtlich gilt f x, y dydx 1 . X ,Y Die gemeinsame Verteilungsfunktion von X und Y wird definiert durch F X , Y x, y P X x und Y y P e e und X (e) x e e und Y (e) y . Im diskreten Fall ist F X , Y x, y f X , Y xi , y j . xi x y j y Im stetigen Fall ist F X , Y x, y x y f u, v dvdu . X ,Y Der Erwartungswert einer Funktion g der zweidimensionalen Zufallsvariablen X , Y wird im diskreten Fall durch Eg X , Y g x , y f x , y i j X ,Y i j alle xi alle y j und im stetigen Fall durch Eg X , Y g x, y f x, y dxdy definiert. X ,Y Die Massenfunktion der Randverteilung von X bzw. von Y wird im diskreten Fall mit Hilfe der gemeinsamen Massenfunktion f X , Y definiert durch f X x P X x P e e und X (e) x f x, y X ,Y j alle j bzw. fY y PY y P e e und Y (e) y f X , Y xi , y . alle i Die Dichtefunktion der Randverteilung von X bzw. von Y wird im stetigen Fall ebenfalls mit Hilfe der gemeinsamen Dichtefunktion f X , Y definiert durch f X x f x, y dy X ,Y bzw. fY y f x, y dx . X ,Y 329 7.3 Mehrdimensionale Zufallsvariablen Die Randverteilungen lassen sich aus der gemeinsamen Massen- bzw. Dichtefunktion f X , Y ermitteln. Umgekehrt legen die Randverteilungen eine gemeinsame Verteilung nicht fest. Satz 7.3-1: x f x X Für die diskreten Zufallsvariablen X bzw. Y sei i X i bzw. alle xi Y y j fY y j . Dann ist E X alle y j EY x f x , y i X ,Y i j X bzw. alle xi alle y j y j f X , Y xi , y j Y . alle y j alle xi Für die stetigen Zufallsvariablen X bzw. Y sei X x f X x dx bzw. Y y f y dy . Y Dann ist EX x f x, y dxdy X ,Y X bzw. EY y f x, y dxdy X ,Y Y . Die Erwartungswerte werden also über die Erwartungswerte der Randverteilungen berechnet. Für die Varianzen gelten entsprechende Aussagen. Für den stetigen Fall sieht man die Aussage wie folgt (im diskreten Fall verläuft die Argumentation genauso): Mit g X , Y X ist Eg X , Y E X x f x, y dxdy X ,Y x f X , Y x, y dy dx x f x dx X X . 330 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik In Kapitel 7.1 wird die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung P A B B (bedingte Wahrscheinlichkeit von A, wenn B eingetroffen ist) durch P A B P B definiert. Dieses Konzept lässt sich auf bedingte Verteilungen übertragen: Die Massenfunktion f1 der bedingten Verteilung von X unter der Bedingung Y y j (bedingte Verteilung von X, wenn Y y j gilt) wird im diskreten Fall über die gemeinsame Dichtefunktion f X , Y und die Randverteilung fY von Y definiert durch f1 x y j f X , Y x, y j fY y j . Entsprechend ist die Massenfunktion f 2 der bedingten Verteilung von Y unter der Bedingung X xi (bedingte Verteilung von Y, wenn X xi gilt) im diskreten Fall über die gemeinsame Dichtefunktion f X , Y und die Randverteilung f X von X definiert durch f 2 y xi f X , Y xi , y f X xi . Im stetigen Fall lauten die Definitionen: Die Dichtefunktion der bedingten Verteilung von X für festes y der Zufallsvariablen Y wird durch die Dichtefunktion x, y f f1 x y X , Y fY y definiert. Die Dichtefunktion der bedingten Verteilung von Y für festes x der Zufallsvariablen X wird durch die Dichtefunktion x, y f f2 y x X , Y f X x definiert. Aus diesen Definitionen lassen sich bedingte Erwartungswerte ableiten: Im diskreten Fall ist der bedingte Erwartungswert von X für einen festen Wert Y y j gleich E X Y y j xi f1 xi y j xi alle i alle i f X , Y xi , y j fY y j . Entsprechend ist der bedingte Erwartungswert von Y für einen festen Wert X xi gleich 7.3 Mehrdimensionale Zufallsvariablen EY X xi y j f 2 y j xi y alle j j f X , Y xi , y j f X xi alle j 331 . Im stetigen Fall ist der bedingte Erwartungswert von X für einen festen Wert y der Zufallsvariablen Y gleich E X Y y f x, y x f x y dx x f y dx . X ,Y 1 Y Entsprechend ist der bedingte Erwartungswert von Y für einen festen Wert x der Zufallsvariablen X gleich EY X x y f 2 y x dy y f X , Y x, y f X x dy . Zu beachten ist, dass bedingte Erwartungswerte wieder Zufallsvariablen darstellen: EX Y y ist eine Funktion von y, d.h. der Zufallsvariablen Y; EY X x ist eine Funkti- on von x, d.h. der Zufallsvariablen X. Der folgende Satz wird in der Informatik häufig verwendet, um mittleres Verhalten von Algorithmen abzuschätzen. So lässt sich die mittlere Laufzeit ET eines Algorithmus eventuell aus Erwartungswerten bestimmen, die die Laufzeit beschreiben, wenn eine andere Zufallsvariable Y, die in dem Algorithmus vorkommt, einen festen Wert y annimmt, d.h. aus ET Y y . Satz 7.3-2: Es ist E X EEX Y y . Im diskreten Fall ist E X EX Y y j P Y y j . alle j Im stetigen Fall ist E X EX Y y fY ( y ) dy . Für den stetigen Fall soll die Aussage verifiziert werden (der diskrete Fall ergibt sich auf analoge Weise): 332 EX 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Y y fY ( y ) dy x f1 x y dx fY ( y ) dy x, y f x X , Y dx fY ( y ) dy fY y x f X , Y x, y dx dy x f x, y dxdy X ,Y x f x, y dydx X ,Y x f X , Y x, y dy dx x f x dx X E X . Die Zufallsvariablen X und Y heißen (stochastisch) unabhängig, wenn die gemeinsame Massen- bzw. Dichtefunktion f X , Y das Produkt der Randverteilungen ist: f X , Y x, y f X x fY y . Im Fall der Unabhängigkeit gilt für die gemeinsame Verteilungsfunktion F X , Y x, y FX x FY y . Diese Aussage lässt sich leicht verifizieren (hier nur für den stetigen Fall): 7.3 Mehrdimensionale Zufallsvariablen F X , Y x, y 333 x y f u, v dvdu X ,Y x y f u f v dvdu X v y f u X fv v dv du x x f u F y du X Y FY y x f u du X FY y FX x FX x FY y . Für die bedingten Verteilungen gilt im Fall der Unabhängigkeit: f1 x y f X , Y x, y fY y und f X , Y x, y f2 y x f X x f X x fY y f X x fY y f X x fY y fY y . f X x Die bedingten Verteilungen sind im Fall der Unabhängigkeit also die Randverteilungen. Der folgende Satz lässt sich bei der Erhebung von Stichproben anwenden, wenn die Stichprobenanzahl selbst eine Zufallsvariable darstellt. Satz 7.3-3: Die Zufallsvariable N nehme als Werte nur natürliche Zahlen ungleich 0 an. Sie sei von den Zufallsvariablen X i für i 1 unabhängig und habe den Erwartungswert EN . N Dann gilt für die durch Y X i definierte Zufallsvariable: i 1 Ist PN i E X , dann existiert der Erwartungswert von Y, und es ist i i 1 EY P N i E X i . i 1 Besitzen alle X i dieselbe Verteilung mit Erwartungswert E X i E X , dann ist EY E X EN . 334 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Mit Satz 7.3-2 ist (unter Berücksichtigung der Bedingung P N i E X ) i i 1 n EY P N n EY N n P N n E X i n 1 n 1 i 1 n i i 1 E X i P N n P N i E X i . i 1 Ist 7.4 E X i E X , dann ist i 1 i 1 EY E X P N i E X i P N i E X EN . Kovarianz und Korrelationskoeffizient Die Kovarianz einer zweidimensionalen Zufallsvariablen X , Y wird definiert durch Kov X , Y E X E X Y EY . Sie beschreibt eine Maßzahl für den stochastischen Zusammenhang zwischen den beiden Komponenten. Sind die Komponenten X und Y einer zweidimensionalen Zufallsvariablen diskrete Zufallsvariablen mit Werten xi bzw. y j und gemeinsamer Massenfunktion f X , Y x, y P X x und Y y , so ist Kov X , Y xi EX y j EY f X , Y xi , y j alle i alle j xi EX y j EY PX xi und Y y j . alle i alle j Sind X und Y stetige Zufallsvariablen mit gemeinsamer Dichtefunktion f X , Y x, y , so ist Kov X , Y x EX y EY f x, y dxdy . X ,Y Offensichtlich ist Kov X , X Var X . Satz 7.4-1: Es seien X und Y Zufallsvariablen, für die EX und EY existieren. Dann gilt: (i) Sind X und Y stochastisch unabhängig, so ist Kov X , Y 0 . (ii) E X Y E X EY Kov X , Y . (iii) Var X Y Var X VarY 2 Kov X , Y , Var X Y Var X Var Y 2 Kov X , Y . 7.4 Kovarianz und Korrelationskoeffizient 335 Die Aussagen sollen hier nur für den stetigen Fall dargestellt werden: Mit Satz 7.2-2 und 7.31 ist Kov X , Y x EX y EY f x, y dxdy X ,Y x EX y EY f x f y dxdy X Y wegen der stochastischen Unabhängigkeit x EX f X x y EY fY y dy dx 0 , denn y EY fY y dy y fY y dy EY fY y dy EY EY 0 . Durch Ausmultiplizieren erhält man Kov X , Y E X EX Y EY E X Y E X EY . E X EX Y EY E X E X 2 X E X Y EY Y EY Var X Y E X Y E X Y 2 2 2 2 Var X VarY 2 Kov X , Y . Existieren die Varianzen der Zufallsvariablen X und Y und sind jeweils von Null verschieden, so kann man ein Maß für ihre stochastische Abhängigkeit durch den Korrelationskoeffizienten von X und Y definieren: X , Y Kov X , Y . Var X Var Y Satz 7.4-2: Es seien X und Y Zufallsvariablen, für die die jeweiligen Varianzen existieren und von Null verschieden sind. Dann gilt: Kov X , Y 1. Var X VarY (i) 1 X , Y (ii) X , Y 1 gilt genau dann, wenn PY a X b 1 mit a R und b R ist. 336 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Die Aussage in (ii) lässt folgende Interpretation zu: Gilt X , Y 1 , dann ist die Wahrscheinlichkeit dafür, dass die Zufallsvariable X , Y Werte in der x, y -Ebene annimmt, die auf einer Geraden liegen, gleich 1. Dieser Fall stellt also den größten Gegensatz zur stochastischen Unabhängigkeit der Zufallsvariablen X und Y dar. Ist X , Y 1 , dann entsprechen größere Werte der einen Zufallsvariablen auch größeren Werten der anderen Zufallsvariablen. Bei X , Y 1 entsprechen größeren Werten der einen Zufallsvariablen kleinere Werte der anderen Zufallsvariablen. Zum Nachweis der beiden Aussagen in Satz 7.4-2 wird die Funktion hs, t E s X E X t Y EY betrachtet. 2 Es gilt hs, t 0 und hs, t s 2 Var X 2 s t Kov X , Y t 2 VarY . Die Nullstellen von h bezüglich s lauten wegen Var X 0 : t 2 Kov X , Y t 2 Var X VarY Kov X , Y t . Var X Var X 2 2 s01, 02 h hat bezüglich s bei t 0 nur höchstens eine Nullstelle (bei zwei Nullstellen würde h zwischen den Nullstellen oder jenseits der Nullstellen negative Werte annehmen). Daher ist t 2 Kov X , Y t 2 Var X VarY 0 (= 0 bedeutet eine Nullstelle, < 0 bedeutet keine 2 Nullstelle). Daraus folgt Kov X , Y Var X VarY bzw. 2 Var X Var Y Kov X , Y Var X Var Y und 1 X , Y Kov X , Y 1 . Das ist Aussage (i). Var X VarY Zum Nachweis von Aussage (ii) wird zunächst X , Y 1 , also X , Y 1 angenommen. 2 Daher ist Kov X , Y Var X VarY 0 , und die Funktion 2 (siehe oben) hat eine Nullstelle s , t für t d.h. hs , t Es X E X t Y EY 0 . Es gilt Es X E X t Y EY Es X E X t Y EY s X EX t Y EY 0 hs, t E s X E X t Y EY 2 0 2 0 0 0 0 2 0 0 2 0 0 0 Ps0 X E X t0 Y EY 0 0 E s0 X E X t0 Y EY s0 X E X t0 Y EY 0 2 Ps0 X E X t0 Y EY 0 E s0 X E X t0 Y EY s0 X EX t0 Y EY 0 2 Ps0 X E X t0 Y EY 0 . Damit dieser Ausdruck den Wert 0 annimmt, muss 0 0 0, 337 7.5 Bemerkungen zu erzeugenden und charakteristischen Funktionen Ps0 X E X t0 Y EY 0 0 bzw. Ps0 X E X t0 Y EY 0 1 gelten. s EY t0 E X s0 1 . Mit t0 0 folgt P Y 0 X t0 t0 Gilt umgekehrt PY a X b 1 mit a R und b R , dann ist PY a X b 0 . Damit ergibt sich EY EY Y a X b PY a X b EY Y a X b PY a X b Ea X b a E X b , EY EY Y a X b PY a X b EY EY Y a X b PY a X b Ea X b EY Ea X E X VarY E Y EY 2 2 2 2 2 2 a 2 VarX und Kov X , Y E X E X Y EY E X E X Y EY Y a X b PY a X b E X EX Y EY Y a X b PY a X b E X E X a X b EY E X E X a X b a E X b a Var X . Damit folgt X , Y 2 7.5 Kov X , Y 2 1 und Var X Var Y X , Y 1 . Bemerkungen zu erzeugenden und charakteristischen Funktionen In Kapitel 5.11 wurde die erzeugende Funktion G einer Folge g n nN durch G ( z ) g n z n n 0 definiert. Die erzeugende Funktion fasst die Informationen über unendlich viele Folgenglieder g n mit n N in einem einzigen arithmetischen Ausdruck zusammen. Umgekehrt lassen sich aus der erzeugenden Funktion G ( z ) g n z n die einzelnen Folgenglieder durch die Bezien 0 hung (siehe Kapitel 5.11) g n 1 n G (0) zurückgewinnen. n! 338 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Die Idee der erzeugenden Funktion lässt sich in folgendem Sinne auf die Wahrscheinlichkeitsrechnung übertragen: Die Informationen über die möglichen Ausprägungen der Zufallsvariablen X werden in einer einzigen eindeutig bestimmten Funktion zusammengefasst; diese Funktion legt auf eindeutige Weise die Verteilung von X fest. Es sei X eine diskrete bzw. stetige Zufallsvariable mit Massenfunktion bzw. Dichtefunktion f X . Dann heißt mef X (t ) E et X die momenterzeugende Funktion der Zufallsvariablen X. Im diskreten Fall ist mef X (t ) et xi f X xi et xi P X xi ; alle i im stetigen Fall ist mef X (t ) e tx alle i f X x dx . Die momenterzeugende Funktion der Zufallsvariablen muss nicht immer existieren, da Summe bzw. Integral eventuell nicht konvergieren. Satz 7.5-1: Es seien X und Y Zufallsvariablen, für die die momenteerzeugenden Funktionen mef X (t ) und mefY (t ) in einer Umgebung von t 0 existieren. Dann gilt: (i) X und Y besitzen genau dann dieselbe Verteilungsfunktion, wenn mef X mefY gilt. (ii) Existieren die k-ten Momente E X k der Zufallsvariablen X für k 1, ..., n , dann gilt E X k dk mef X t mef Xk 0 . k dt t 0 Insbesondere gilt EX mef X 0 und Var X mef X 0 mef X 0 . 2 (iii) Sind X und Y stochastisch unabhängig, so gilt mef X Y t mef X t mefY t . Besitzen in (i) X und Y dieselbe Verteilungsfunktion, dann ist mef X mefY . Existieren mef X und mefY und gilt mef X mefY , dann lassen sich nach (ii) die Momente beider Zufallsvariablen berechnen, und diese stimmen überein. In Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Aufl., Deutscher Verlag der Wissenschaften, 1989. wird gezeigt, dass dann die Verteilungen von X und Y identisch sind. 7.5 Bemerkungen zu erzeugenden und charakteristischen Funktionen 339 Für (ii) wird die k-te Ableitung von mef X nach t gebildet (hier nur für den diskreten Fall; der stetige Fall ergibt sich entsprechend). Dabei wird vorausgesetzt, dass diese Ableitungen existiert, d.h. insbesondere dass Summen- und Ableitungsbildung vertauscht werden können. k mef X dk t k mef X t dt dk k et xi P X xi alle i dt xik et xi P X xi alle i E X k et X und damit mef Xn 0 E X n . (iii) folgt aus der Eigenschaft des Erwartungswertoperators bei stochastischer Unabhängigkeit der beteiligten Zufallsvariablen. Dabei ist zu beachten, dass mit der stochastischen Unabhängigkeit von X und Y auch die Zufallsvariablen et X und et Y stochastisch unabhängig sind. mef X Y (t ) E et X Y E et X et Y E et X E et Y mef X (t ) mefY (t ) . Eine noch bedeutendere Rolle als die momenteerzeugende Funktion spielt die charakteristische Funktion cf X einer Zufallsvariablen X. Diese ist definiert durch8 cf X t E ei t X ei t xi P X xi falls X diskret ist alle i i t x falls X stetig mit Dichtefunktion f X ist . e f X ( x) dx Wegen ei y cos( y ) i sin( y ) (vgl. Kapitel 5.9) ist ei y dem gilt im diskreten Fall P X x 1 i alle i cos( y ) 2 sin( y ) 2 1 . Außer bzw. im stetigen Fall f X ( x)dx 1 , so dass cf X (t ) absolut und gleichmäßig konvergiert9 und eine stetige Funktion von t darstellt, insbe- sondere immer definiert ist. Die charakteristische Funktion einer Zufallsvariablen weist eine Reihe interessanter Eigenschaften auf. Einige der wichtigsten Eigenschaften werden im folgenden zitiert. Da zu deren Herleitung meist tiefergehende mathematische Kenntnisse aus der Analysis erforderlich sind, die hier aus Platzgründen nicht behandelt werden können, wird für Details der Herleitungen auf die angegebene Literatur verwiesen. 8 9 Hierbei ist i die durch i 2 1 definierte komplexe Zahl. Zu den Begriffen vergleiche man in der angegebenen Literatur die entsprechenden weiterführenden Kapitel aus der Analysis. 340 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Satz 7.5-2: Es seien X und Y Zufallsvariablen mit charakteristischer Funktion cf X bzw. cfY . Es gilt cf X 0 1 und cf X t 1 . (i) cf X t Ecost X i Esin t X , cf X t Ecost X i Esin t X . Existiert die ersten n Momente E X k der Zufallsvariablen X für k 1, ..., n , dann (ii) gilt E X k 1 dk cf Xk 0 für k 1, ..., n . cf t X ik i k dt k t 0 (iii) Die charakteristische Funktion der Zufallsvariablen Y a X b mit a R und b R lautet cfY t cf a X b t ei bt cf X a t . (iv) Sind die Zufallsvariablen X und Y stochastisch unabhängig, so gilt cf X Y t cf X t cfY t . (i) folgt aus der Definition der charakteristischen Funktion: cf X 0 E1 1 und cf X t E ei t X E ei t X E1 1 . cf X t E ei t X Ecost X i sin t X Ecost X i Esin t X , cf X t E e i t X Ecos t X i sin t X Ecost X i sin t X Ecost X i Esin t X . Bei (ii) benötigt man die Vertauschbarkeit von Summenbildung (im diskreten Fall) bzw. Integralbildung (im stetigen Fall) mit dem Ableitungsoperator. Diese wird durch die Annahme über die Existenz der ersten n Momente gewährleistet. Zu bemerken ist, dass die Umkehrung dieser Aussage nicht gilt: Es gibt Zufallsvariablen, deren charakteristische Funktion an der Stelle t 0 differenzierbar ist, aber deren Erwartungswert (erstes Moment) nicht existiert. Die charakteristische Funktion in (iii) ergibt sich aus cf a X b t E ei t a X b ei bt E ei t a X ei bt cf X a t . In (iv) ist zu beachten, dass mit der stochastischen Unabhängigkeit von X und Y auch die Zufallsvariablen ei t X und ei t Y stochastisch unabhängig sind. Dann ist 7.5 Bemerkungen zu erzeugenden und charakteristischen Funktionen 341 cf X Y t E ei t X Y E ei t X ei t Y E ei t X E ei t Y cf X t cfY t . Die charakteristische Funktion ist aus der Verteilungsfunktion einer Zufallsvariable berechenbar. Der folgende Satz beschreibt die Umkehrung dieses Sachverhalts: Durch die charakteristische Funktion ist die Verteilungsfunktion einer Zufallsvariablen eindeutig bestimmt. Satz 7.5-3: Es seien FX bzw. cf X die Verteilungsfunktion bzw. charakteristische Funktion einer Zufallsvariablen X. Es seien a h und a h für h 0 Stetigkeitsstellen der Verteilungsfunktion FX . Dann gilt: sin h t i t a e cf X t dt . T t T FX a h FX a h lim 1 T Es seien x1 und x2 Stetigkeitsstellen der Verteilungsfunktion FX . Dann lässt sich aus der Formel in Satz 7.5-3 die Differenz FX x2 FX x1 Px1 X x2 berechnen, indem man a x1 x2 2 und h x2 x1 2 ) setzt. Hält man x2 x fest und vollzieht den Grenzüber- gang x1 , so konvergiert die Folge der Differenzen FX x FX x1 , die aus der charak- teristischen Funktion bestimmt werden kann, gegen FX x . Damit ist FX x in jeder Stetig- keitsstelle und damit überall bestimmt. Ist die charakteristische Funktion cf X der Zufallsvariablen X überall absolut integrierbar, d.h. existiert das Integral cf t dt , dann existiert das in Satz 7.5-3 angegebene Integral. Weiter X 1 FX x h FX x h sin h t i t x gilt dann e cf X t dt . Man kann jetzt den 2h 2 h t Grenzübergang h 0 auf der linken Seite vollziehen und erhält die Dichtefunktion der Zufallsvariablen X. Auf der rechten Seite kann man Integralbildung und Grenzübergang vertauschen. In Kapitel 5.9 wird lim sin h t h t 1 gezeigt, und damit folgt h 0 342 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Satz 7.5-4: Es sei cf X die charakteristische Funktion einer Zufallsvariablen X. Das Integral cf t dt X existiere. Dann besitzt X die stetige Dichtefunktion f X x , die sich in der Form 1 FX x f X x e i t a cf X t dt 2 darstellen lässt. Der folgende Satz stellt ein zentrales Hilfsmittel bei der Untersuchung von Folgen von Verteilungen und Konvergenz gegen eine Grenzverteilung dar. Satz 7.5-5: (i) Konvergiert die Folge Fn x nN von Verteilungsfunktionen gegen die Verteilungsfunktion F x , so konvergiert die entsprechende Folge cf n t nN von charakteristischen Funktionen an jeder Stelle t mit t gegen die Funktion cf t , wobei cf t die charakteristische Funktion der Grenzverteilung F x ist. (ii) Konvergiert die Folge cf n t nN von charakteristischen Funktionen an jeder Stel- le t mit t gegen die Funktion cf t , die in einem gewissen Intervall , stetig ist, so konvergiert die entsprechende Folge Fn x nN von Vertei- lungsfunktionen gegen die Verteilungsfunktion F x , die die charakteristische Funktion cf t besitzt. In (i) ist es wichtig, dass F x eine Verteilungsfunktion ist; andernfalls kann die Konvergenz von cf n t nN nicht gesichert werden. In (ii) ist die Stetigkeit in einem gewissen Intervall , notwendig; die Stetigkeit im Punkt t 0 genügt nicht, um zu sichern, dass F x eine Verteilungsfunktion ist. 7.6 Beispiele von Verteilungen 7.6 343 Beispiele von Verteilungen In diesem Kapitel werden Beispiele für wichtige Verteilungen beschrieben. Dabei wird im Einzelnen angegeben, welcher Sachverhalt durch eine Zufallsvariable modelliert wird. Für die angegebenen Massen- bzw. Dichtefunktionen der Verteilungen wird gezeigt, dass sie den Anforderungen 0 f X x 1 und f x 1 (bei einer Massenfunktion X i f X ) bzw. alle i 0 f X x und f x dx 1 (bei einer Dichtefunktion X fX ) erfüllen. Außerdem werden wichtige Parameter wie Erwartungswert und Varianz und die charakteristische Funktion berechnet. Tabellen zu den jeweiligen Verteilungsfunktionen findet man in der angegebenen Literatur. Diskrete Gleichverteilung Modell: Die Zufallsvariable X nimmt endlich viele Werte x1 , ..., xn mit x1 ... xn jeweils mit gleicher Wahrscheinlichkeit p 1 n an. Massenfunktion: P X xi 1 n für x xi , i 1, ..., n f X x P X x sonst 0 Wegen 0 f X x 1 und f x n 1 n 1 X i handelt es sich offensichtlich um eine Mas- alle i senfunktion. Verteilungsfunktion: für x x1 0 FX x P X x i n für xi x xi 1 , i 1, ..., n 1 1 für x xn Ein häufig auftretender Spezialfall liegt vor, wenn X die Werte 1, …, n annimmt. Massenfunktion: P X i 1 n für i 1, ..., n f X x P X x sonst 0 344 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Verteilungsfunktion: für x 1 0 FX x P X x i n für i x i 1, i 1, ..., n 1 1 für x n n2 1 Varianz: Var( X ) 12 n 1 Erwartungswert: E X 2 Diese Werte ergeben sich wie folgt: 1 n n 1 E X i (mit Satz 1.6-2(i)). 2 n i 1 1 n 2 1 n Var ( X ) i i n i 1 n i 1 2 (mit Satz 7.2 - 3(i)) n 1 2 n 1 n 12 6 (mit Satz 1.6 - 2(i), (iv)) 4 n2 1 . 12 charakteristische Funktion: 1 n cf X t ei t j n j 1 Momente: E Xk cf Xk 0 1 n k j ik n j 1 (mit Satz 7.5-2(ii)) Stetige Gleichverteilung Modell: Die Dichtefunktion f X der Zufallsvariablen X nimmt auf dem endlichen Intervall a, b mit a b einen konstanten Wert c 0 an; außerhalb dieses Intervalls ist sie konstant 0. Um f X t dt 1 zu erfüllen, gilt 1 Dichtefunktion: 1 b a für a x b f X x sonst 0 b a f X t dt cdt c b a und c 1 b a . 7.6 Beispiele von Verteilungen 345 Verteilungsfunktion: 0 x a FX x P X x b a 1 für x a für a x b für x b 2 b a Varianz: Var ( X ) ab Erwartungswert: EX 2 Die Werte ergeben sich wie folgt: 1 1 x 2 E X x dx ba ba 2 a b b 12 ab . 2 xa x b 1 ab Var ( X ) x 2 dx ba 2 a 2 (mit Satz 7.2 - 3(i)) a b 1 b3 a 3 b a 3 4 2 4 b3 a 3 3 b a a b 12 b a 12 b a 2 b3 3 a b 2 3 a 2 b a 3 12 b a b3 3 a b 2 3 a 2 b a 3 12 b a b a 2 (siehe Kapitel 4.1). 12 charakteristische Funktion: sin t h cf X t ei t m t h Zur Berechnung wird m ßerdem sei h ergibt sich ab gesetzt, d.h. m ist der Mittelpunkt des Intervalls a, b . Au2 ba die halbe Länge des Intervalls. Dann ist a, b m h, m h . Damit 2 346 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik b cf X t ei t x 1 b a dx a mh 1 ei t x dx 2 h mh 1 e i t x 2h i t xmh xmh i t m h e i t m h 1 e i t 2h i t h 1 e i t h i t m e e 2h i t sin t h (siehe Kapitel 5.9). e i t m t h Momente: E Xk 1 b k 1 a k 1 ba k 1 Das Ergebnis folgt direkt aus der Definition des k-ten Moments: b E X k x k 1 b a dx a 1 1 b k 1 a k 1 . x k dx ba a ba k 1 b Einpunktverteilung: Modell: Die Zufallsvariable X nimmt nur die Werte 0 und 1 an. Der Wert1 wird als Treffer (Erfolg) eines Zufallsexperiments bezeichnet. Ein Treffer tritt mit Trefferwahrscheinlichkeit p ein. Massenfunktion: 1 p für x 0 f X x P X x p für x 1 0 sonst Hierbei handelt es sich offensichtlich um eine Massenfunktion. Verteilungsfunktion: für x 0 0 FX x P X x 1 p für 0 x 1 1 für 1 x 7.6 Beispiele von Verteilungen Erwartungswert: E X p 347 Varianz: Var X p 1 p Denn E X 0 1 p 1 p p und Var X 0 p 1 p 1 p p p 1 p . 2 2 charakteristische Funktion: cf X t 1 p ei t 1 Denn cf X t ei t 0 1 p ei t p 1 p ei t 1 . Momente: E Xk p Denn E X k 0k 1 p 1k p p . Binomialverteilung: Modell: Ein Experiment wird n-mal hintereinander durchgeführt. Bei jeder Ausführung kann ein Treffer auftreten (Wert 1) oder nicht (Wert 0). In jedem Experiment ist die Trefferwahrscheinlichkeit gleich p. Die Trefferwahrscheinlichkeit des i-ten Experiments hängt nicht von den Ausgängen der vorherigen Experimente ab. Die Zufallsvariable X zählt die Anzahl der Treffer, d.h. X nimmt die Werte 0, ... n an. Eine entsprechende Modellvorstellung wird durch das Urnenmodell mit Zurücklegen beschrieben: In einer Urne befinden sich N Kugeln, und zwar w weiße und N w schwarze Kugeln. Der Anteil der weißen Kugeln ist p w N . Es werden nacheinander n Kugeln gezogen. Dabei wird jeweils die Färbung der gezogenen Kugel notiert und anschließend diese sofort wieder in die Urne zurückgelegt. Die Zufallsvariable X zählt die Anzahl der gezogenen weißen Kugeln, d.h. X nimmt die Werte 0, ... n an. Massenfunktion: n k nk p 1 p f X k P X k k 0 Es ist 0 f X k und dere auch f X k 1 . für k 0, ..., n sonst n f k k p 1 p n k 0 n X k 0 k nk p 1 p 1 und damit insbesonn 348 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Verteilungsfunktion: FX x P X x n k p 1 p k 0 k x nk Erwartungswert: E X n p Varianz: Var X n p 1 p Zur Berechnung wird mehrmals Satz 4.1-3(vii) verwendet: n n nk E X k p k 1 p k 0 k n n 1 k 1 n 1 k 1 p 1 p n p k 1 k 1 n 1 n 1 k n 1 k p 1 p n p k 0 k n p p 1 p n 1 n p , n n nk 2 Var X k 2 p k 1 p n p k k 0 n n n n nk nk 2 k k 1 p k 1 p k p k 1 p n p k 0 k 0 k k n n 2 k 2 n 2 k 2 p 1 p n n 1 p 2 n p 1 n p k 2 k 2 n2 n 2 k n2k p 1 p n p 1 n p n n 1 p 2 k 0 k n n 1 p 2 n p 1 n p n p 1 p . charakteristische Funktion: cf X t 1 p ei t 1 n n n n n nk Denn cf X t ei t k p k 1 p p ei t 1 p 1 p ei t 1 . k 0 k Momente: E Xk cf Xk 0 (mit Satz 7.5-2(ii)). ik Insbesondere 349 7.6 Beispiele von Verteilungen E X cf X 0 i n 1 p e i t 1 E X 2 cf X 0 i 2 n 1 i p ei t t o i n p und n p i 2 ei t p n 1 1 p ei t 1 n p n n 1 p 2 . n2 e i t 1 p e i t 1 n 1 t o i2 Hypergeometrische Verteilung: Modell: Das Urnenmodell ohne Zurücklegen beschreibt folgende Situation: In einer Urne befinden sich N Kugeln, und zwar w weiße und N w schwarze Kugeln. Der Anteil der weißen Kugeln ist p w N . Es werden nacheinander n Kugeln gezogen. Bei jeder Ziehung wird die Färbung der Kugel notiert und anschließend die gezogene Kugel nicht wieder in die Urne zurückgelegt. Die Zufallsvariable X zählt die Anzahl der gezogenen weißen Kugeln. Ist n w , dann nimmt X maximal den Wert n; ist n w , dann ist der maximale Wert von X gleich w N p . Daher nimmt X einen Wert k mit k min n, N p an. Entsprechend kann für n N w (gleich Anzahl der schwarzen Kugeln) bei jedem Zug eine schwarze Kugel gezogen werden, d.h. die Variable X kann den Wert k 0 annehmen; für n N w können höchstens N w schwarze Kugeln gezogen werden, also werden mindestens n N w n N 1 p weiße Kugeln gezogen. Daher nimmt X die Werte k mit max 0, n N 1 p k min n, N p an. Die Anzahl der Möglichkeiten, bei den n gezogenen Kugeln genau k weiße Kugeln zu haben, n beträgt . Daher beträgt die Wahrscheinlichkeit, in den ersten k Zügen ohne Zurücklegen k jeweils eine weiße und in den nächsten n k Zügen jeweils eine schwarze Kugel zu ziehen, n w w 1 w k 1 N w N w 1 N w n k 1 ... ... . Dieser Ausdruck ist N k 1 N k N k 1 N k n k 1 k N N 1 auch die Wahrscheinlichkeit, dass man k weiße und n k schwarze Kugeln in einer beliebigen Reihenfolge zieht, da die Reihenfolge des Ziehens nur Einfluss auf die Faktorenanordnung des Zählers hat. Daher ist die Wahrscheinlichkeit, bei n Ziehungen ohne Zurücklegen k weiße und n k schwarze Kugeln zu ziehen gleich (siehe Kapitel 4.1) 350 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik n w w 1 w k 1 N w N w 1 N w n k 1 ... ... N k 1 N k N k 1 N k n k 1 k N N 1 n! w w 1 ... w k 1 N w N w 1 ... N w n k 1 k!n k ! N N 1 ... N n 1 w w 1 ... w k 1 k! N w N w 1 ... N w n k 1 n k ! N N 1 ... N n 1 n! w N w n k w k N N n w N w k n k . N n Massenfunktion: w N w k n k für max 0, n N 1 p k min n, N p f X k P X k N n 0 sonst Hierdurch wird eine Massenfunktion definiert: Es ist f X k 0 . Zum Nachweis, dass die a b l a b mit Summe aller definierten Werte gleich 1 ist, wird die Formel l i 0 i l i a N , b N und l N verwendet. Diese Formel erklärt sich wie folgt: Sind A und B disjunkte Mengen mit A a und B b . Dann steht auf der linken Seite des Gleichheitszeichens die Anzahl l-elementiger Teilmengen von A B . Es sei C eine l-elementige Teilmengen von A B . Hat C mit A genau i Elemente gemeinsam, dann hat C mit B genau l i Elemente gemeinsam. Das bedeutet, dass man jeder l-elementigen Teilmenge von A B , die genau i Elemente aus A enthält, alle l i -elementigen Teilmengen von B zuordnen kann. b viele. Daher gilt Das sind genau l i N w N w k f X k 1 n k k n k 1 Verteilungsfunktion: FX x P X x f X k kx a b l a b . Damit ist l i 0 i l i und insbesondere auch f X k 1 . 7.6 Beispiele von Verteilungen Erwartungswert: E X n p Varianz: Var X n p 1 p 351 N n N 1 Obige Formel wird auf den Erwartungswert und die Varianz angewandt: w N w N EX k k n k k 0 n n N w 1 N w 1 w k 1 k 1 n k n n n 1 w 1 N w N 1 w 1 n k n k k 0 N 1 N 1 w n 1 n n N n p w n Var X k 2 f X k n p 2 k 0 n n k 0 k 0 k k 1 f X k k f X k n p 2 w N w N n p 1 n p k k 1 k 0 k nk n n N w 2 N w n p 1 n p 1 w w 1 k 2 k 2 n k n n n2 w 2 N N w n p 1 n p 1 w w 1 k n 2 k k 0 n N N 2 n p 1 n p (mit w p N ) 1 w w 1 n n2 p N p N 1 n 1 n n p 1 n p N 1 N n p N n p 2 N n2 p 2 n p 2 N 1 N n n p 1 p N 1 Offensichtlich haben Binomialverteilung und hypergeometrische Verteilung denselben ErN n wartungswert. Die Varianzen unterscheiden sich um den Faktor , der für n 1 kleiner N 1 als 1 ist, d.h. die Varianz ist bei Ziehen ohne Zurücklegen kleiner. Bei festem Umfang N der Gesamtheit und großem Stichprobenumfang, d.h. n N , geht die Varianz gegen 0. Bei fes- 352 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik tem n und großem Umfang der Gesamtheit, d.h. N , geht die Varianz gegen die Varianz der Binomialverteilung, d.h. Ziehen mit und ohne Zurücklegen zeigen dann dasselbe statistische Verhalten. Als Faustregel findet sich für diese Situation in der Literatur die Angabe N 20 n . Poissonverteilung: Modell: Ein Experiment wird n-mal hintereinander durchgeführt. Bei jeder Ausführung kann ein Treffer auftreten (Wert 1) oder nicht (Wert 0). Die Trefferwahrscheinlichkeit des i-ten Experiments hängt nicht von den Ausgängen der vorherigen Experimente ab. Die Zufallsvariable X zählt die Anzahl der Treffer, d.h. X nimmt die Werte 0, ... n an. Das Experiment wird sehr oft durchgeführt: n . In jedem Experiment ist die Trefferwahrscheinlichkeit p sehr klein: p 0. Die Zufallsvariable X ist also binomialverteilt. Dabei wird der Grenzübergang n und p 0 so durchgeführt, dass der Erwartungswert n p konstant bleibt. Daher ist mit n auch p 0 erfüllt. Es wird n p gesetzt, d.h. p n (die hier beschriebene Verteilung gilt auch dann, wenn lim n p ist). Dann ist für k 1, ..., n n n k n k f X k lim 1 n k n n n n 1 ... n k 1 k n k lim 1 1 . k n n k! n n k 1 n n 1 ... n k 1 i 1 1 . Beim Grenzübergang k n n i 1 Der erste Faktor ist gleich n n 1 ... n k 1 n gilt daher lim 1 , lim1 lim1 e k n n n n n n n Kapitel 5.1) und lim1 n n k 1 . Insgesamt ist f X k k k! e . Massenfunktion: f X k k k! e für k N Es ist f X k 0 , k f k k! e e e 1 und k 0 X k 0 f X k 1 . n (siehe 7.6 Beispiele von Verteilungen Verteilungsfunktion: FX x P X x f k X k x Erwartungswert: E X Varianz: Var X k k 0 k! Zur Berechnung wird G ( z ) k k 0 k! k z k e z gesetzt. Nach Satz 5.11-1(vi) ist z k z Gz z e z , also (mit z 1 ) E X k k 0 k k! e e e . Var X k 2 f X k 2 k 0 k 1 e k k 1 k 1! k k 0 k! e k 1 2 2 k k e k 2 k 0 k! k 0 k! e e e 2 . charakteristische Funktion: cf X t e e it 1 n Denn cf X t e i t k k 0 n e k k! e k 0 e e e e e Momente: it E X k cf Xk 0 i k it . 1 i t e k! k k k 0 k! k e . Damit ist 353 354 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Geometrische Verteilung: Modell: Es wird ein Experiment durchgeführt, bei dem jeweils ein Treffer oder ein Nichttreffer auftreten kann, und zwar solange, bis zum ersten Male ein Treffer vorliegt. Die Trefferwahrscheinlichkeit ist gleich p. Die Trefferwahrscheinlichkeit des i-ten Experiments hängt nicht von den Ausgängen der vorherigen Experimente ab. Die Zufallsvariable X zählt die Anzahl der Nichttreffer bis zum ersten Treffer, d.h. X nimmt als Werte alle natürlichen Zahlen an. Massenfunktion: f X k 1 p p für k N k Offensichtlich ist 0 f X k 1 und p 1 p k p k 0 1 1. 1 1 p Verteilungsfunktion: FX x P X x 1 1 p x 1 Mit Satz 1.6-2(ii) gilt: x FX x p 1 p p k k 0 Erwartungswert: E X 1 1 p x 1 1 1 p . 1 1 p x 1 1 p p Varianz: Var X 1 p p2 Mit Satz 5.1-9(i) folgt E X k p 1 p p k k 0 1 p 1 p . 2 p 1 1 p Zur Berechnung der Varianz Var X E X 2 E X wird das 2-te Moment mit Hilfe der 2 charakteristischen Funktion (siehe unten) berechnet. 1 p 1 p 2 p 1 p 1 p . p Var X p k 1 p p p3 p2 k 0 p 2 2 k 2 charakteristische Funktion: cf X t ei t k p 1 p k k 0 1 p p 1 ei t 1 p , 1 e 1 p i t cf X t p 1 1 p ei t i 1 1 ei t 1 p p 1 p i ei t 1 ei t 1 p 2 , 2 355 7.6 Beispiele von Verteilungen cf X t p 1 p i ei t 1 ei t 1 p 2 p 1 p i i ei t 1 ei t 1 p 2 1 1 p i e ei t 2 1 ei t 1 p 3 i t 2 ei t 1 p 1 , p 1 p i 2 ei t 3 2 i t 1 ei t 1 p e p 1 1 Momente: E X k cf Xk 0 i k , insbesondere E X cf X 0 i p 1 p p 2 1 p p , 2 1 p 1 2 p E X 2 cf X 0 i 2 p 1 p 2 1 p 2 . 3 p p p Exponentialverteilung: Modell: Die Zufallsvariable X beschreibt die Dauer eines Ereignisses, für das kleine Werte „sehr wahrscheinlich“ sind und größere Werte nur mit exponentiell abnehmender Wahrscheinlichkeit auftreten. Dabei können beliebige nichtnegative Werte auftreten. Dichtefunktion: f X x e x für x R mit x 0 ; hierbei ist 0 ein fester Parameter. Es ist f X x 0 und h 1 e dt lim e dt lim e t h 0 t 0 h t t h t 0 1. Verteilungsfunktion: x FX x e t dt 0 tx 1 e t 1 e t t 0 Erwartungswert: E X 1 Varianz: Var X 1 2 Mit Beispiel 3. am Ende von Kapitel 5.13 ergibt sich EX t e t dt 1 . 0 Zur Berechnung der Varianz wird Satz 7.5-2(ii) herangezogen: Var X E X 2 E X , wobei das 2-te Moment mit Hilfe der charakteristischen Funktion 2 (siehe unten) berechnet wird. Var X 2 1 1 . 2 2 2 356 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik charakteristische Funktion: 1 cf X t i t 1 i t Denn xh 1 . cf X t ei t x e x dx lim ei t x e x dx lim e x i t x 0 h h i t i t 0 0 h Damit ist cf Xk t k! k ik 1 i t 1 k . Momente: E X k cf Xk 0 i k E X 1 , k! k , insbesondere E X 2 2 2 . Normalverteilung: Die Normalverteilung ist die wichtigste Verteilung in der Statistik. Viele empirisch beobachtbare Merkmale sind normalverteilt. Die besondere Bedeutung der Normalverteilung zeigt sich aber besonders in den Grenzwertsätzen der Statistik. Dichtefunktion: 1 x 1 f X x e 2 2 Die durch Y X 2 für x R . Hierbei sind 0 und feste Parameter. definierte Zufallsvariable hat nach Satz 7.2-5(ii) (dort mit a 1 und 1 x 1 1 fY y e 2 1 2 b ) die Dichtefunktion 2 x y 1 1 y2 1 e 2 . 2 Man nennt Y normiert (0,1)-normalverteilt. Der Nachweis, dass es sich bei der durch f x Dichtefunktion handelt, d.h. dass 1 x2 1 e 2 definierten Funktion um eine 2 f x dx 1 gilt, erfordert einige Hilfsmittel aus der Analy- 7.6 Beispiele von Verteilungen sis. Dazu wird zunächst I e 1 x2 2 357 dx bestimmt. Dieses Integral ist nicht elementar integrier- bar. Jedoch führt folgender Ansatz weiter: 1 x 2 y 2 1 x2 1 y 2 1 x2 1 y 2 I 2 e 2 dx e 2 dy e 2 e 2 dxdy e 2 dxdy . Die Integration geht über alle Punkte x, y R R . Ein derartiger Punkt (mit Ausnahme von 0, 0 ) lässt sich nicht nur eindeutig durch seine Koordinaten x und y darstellen, sondern auch eindeutig durch seinen Abstand r zum Punkt 0, 0 und durch den Winkel , den die Verbindungslinie von 0, 0 zu x, y und die positive x-Achse bildet: y r x Es gilt x, y r cos , r sin mit r 0 und 0 2 . Als Erweiterung der Substitutionsregel aus Satz 5.13-6(ii) auf mehrdimensionale Integrale (hier auf den zweidimensionalen Raum) gilt (siehe [SHSS]): Es sei x g1 r , und y g 2 r , . Dann gilt (unter bestimmten „vernünftigen“ Bedingungen an den Integrationsbereich und die beteiligten Funktionen) hx, y dxdy D hg r , , g r , drd 1 2 A A g1 r , g 2 r , g 2 r , g1 r , (hier stehen die jeweiligen partiellen Ab r r leitungen); A ist die Menge in r , -Koordinaten, die der Menge A in x, y -Koordinaten mit D entspricht. Im vorliegenden Fall ist hx, y e Mit An An e x, y 1 x2 y2 2 1 x2 y2 2 , D cos r cos sin r sin r . x 2 y 2 n 2 ist An r , r n und 0 2 und 2 dxdy 0 1 r 2 n r e 2 dr d 0 1 r 2 r n d e 2 0 r 0 1 n 2 2 e 2 1 . 2 358 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 1 x 2 y 2 2 Damit ist I lim e 2 dxdy lim 2 e n 1 2 und An n n 2 1 x2 1 2 e 2 dx 1 . Mit der Substitutionsregel aus Satz 5.13-6(ii) ist ebenfalls 1 x 1 2 f X x dx 2 e 2 dx f x x dx f x dx 1 . Y Y 1 x 2 1 Die Dichtefunktion f X x e 2 ist symmetrisch zum Punkt x und hat 2 folgende Eigenschaften: Durch Bildung der ersten und zweiten Ableitung findet man Extremwert und Wendepunkte: 1 x 2 2 2 x 2 12 x f X x 2 e , f X x 3 . 1 e 2 2 1 Der Extremwert liegt bei x ; wegen f X 3 0 handelt es sich um ein Ma 2 1 x 1 ximum. Die Wendepunkte liegen bei x1, 2 . Verteilungsfunktion: 1 t 1 e 2 FX ( x) 2 x 2 dt Erwartungswert: E X Varianz: Var X 2 Man bezeichnet X auch als , 2 -normalverteilt. Der Erwartungswert der normiert (0, 1)-normalverteilten Zufallsvariable Y berechnet sich zu t 1 1 1 x2 x2 x2 1 1 1 2 2 xe xe e 2 EY dx lim dx lim t t 2 2 2 t 0. x t Die Varianz der normiert (0, 1)-normalverteilten Zufallsvariable Y berechnet sich zu x t VarY E Y 2 1 . Das zweite Moment wird dabei mit Hilfe der charakteristischen Funktion berechnet (siehe unten). Der Erwartungswert von X σ Y μ lautet daher E X und die Varianz Var X 2 . charakteristische Funktion: Die charakteristische Funktion der normiert (0, 1)-normalverteilten Zufallsvariable Y lautet 359 7.6 Beispiele von Verteilungen cfY t e 1 t 2 2 Denn 1 x2 1 ei t x e 2 dx cfY t 2 x i t 1 1 t 2 t 2 i t x 12 x 2 1 1 2 2 e e e dx e 2 . dx 2 e 2 2 Mit Satz 7.5-2(iii) gilt dann für X σ Y μ : cf X t ei t e 1 2 t 2 2 . Momente: Die Momente der normiert (0, 1)-normalverteilten Zufallsvariable Y lauten E Y k cfYk 0 i k , insbesondere EY cfY 0 i t e 1 t 2 2 i 0, t 0 E Y 2 cfY0 i 2 e 1 t 2 2 i2 1. t 2 1 t 0 Die Verteilung von X ist stark um den Erwartungswert konzentriert. Dazu wird P X k mit k N 0 berechnet: X k P X k P P Y k P k Y k PY k 1 PY k 2 PY k 1 (denn PY k PY k 1 PY k ) mit der normiert (0, 1)-normalverteilten Zufallsvariable Y. Die Werte P Y k lassen sich den entsprechenden Tabellen entnehmen. Einige der Werte lauten: k P X k 1 2 3 0,6826 0,9544 0,9974 Die n Zufallsvariablen X i für i 1, ..., n seien stochastisch unabhängig und n normalverteilt. Die Zufallsvariable X i 1 i n n ist dann i , i2 -normalverteilt. i 1 i 1 , 2 i i 360 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Die Zufallsvariable 1 n 1 n 1 n X i ist i , 2 i2 -normalverteilt. n i 1 n i 1 n i 1 Die Aussage wird hier für n 2 gezeigt. Die charakteristische Funktion von X 1 lautet cf X 1 t ei 1 t e 1 12 t 2 2 , die von X 2 entsprechend cf X 2 t ei 2 t e 1 2 2 t 2 2 . Die charakteristi- sche Funktion von X 1 X 2 lautet gemäß Satz 7.5-2(iv) cf X 1 X 2 t e i 1 t e 1 12 t 2 2 e i 2 t e 1 2 2 t 2 2 e i 1 2 t e 1 1 2 2 2 t 2 2 . Dieses ist die charakteristi- sche Funktion einer 1 2 , 1 2 -normalverteilten Zufallsvariablen. Die zweite Aussa2 2 ge folgt mit den Sätzen 7.2-2 und 7.2-3(ii). Gamma-Verteilung: Modell: Die Gamma-Verteilung spielt in den Anwendungen der Schätz- und Testtheorie der Statistik eine wichtige Rolle. Die Verteilung ist eng verknüpft mit der durch p x p 1 e x dx für p R 0 0 definierten Gamma-Fuktion. Bevor die Dichtefunktion der Gamma-Verteilung definiert wird, werden einige Eigenschaften der Gamma-Funktion angegeben: p x p 1 e x dx ist für p R 0 definiert, d.h. das Integral ist endlich. (i) 0 Die Konvergenz des Integrals sieht man wie folgt: 0 x 0 p 1 e x 1 dx x p 1 e x dx x p 1 e x dx . Im ersten Integral auf der rechten Seite ist 1 0 0 e x 1 ; daher ist 1 x p 1 0 1 e x dx x p 1 dx 1 p x p 0 x 1 x 0 1 p . Für den Nachweis der Konvergenz des zweiten Integrals auf der rechten Seite sei n p 1 .Nach Satz 5.5.6-(i) zu- sammen mit den Überlegungen in den Beispielen von Kapitel 5.7 gilt lim x n 2 e x 0 ; dax her gibt es eine Zahl x0 R , so dass für x x0 die Abschätzung x n 2 e x 1 und damit x n e x 1 x 2 gilt. Daher ist 7.6 Beispiele von Verteilungen x 1 p 1 361 e x dx x n e x dx 1 x0 x n e x dx x0 x n 1 x0 x n x0 x n e x dx n k e x dx lim 1 x 2 dx k x0 k e x dx lim 1 x x 1 1 x x0 1 k e x dx 1 x0 . 1 (ii) p 1 p p für p R 0 . Denn p 1 x e p x dx e 0 (iii) x x p x x 0 p x p 1 e x dx p p . 0 1 1 und n 1 n! für n N 0 . Denn 1 e x dx lim e x t 0 x t x 0 1 ; mit vollständiger Induktion folgt n 2 n 1 n 1 n 1 n! n 1! . (iv) 2 n 1! . 1 1 3 ... 2 n 1 1 2 und n 2n 1 n 2 2 2 n 1! Auch hier erfolgt der Nachweis durch vollständige Induktion: Für n 0 ist mit der Substitution x t 2 2 , d.h. dx tdt , und Satz 5.13.6 (ii) t 2 1 2 2 2 2 1 1 2 x e dx e t 2 t dt 2 e t 2 dt 2 e t 2 dt . Für die 2 2 0 0 0 Dichtefunktion einer 0, 1 -normalverteilten Zufallsvariablen Y gilt (siehe oben) 1 2 x 2 1 e t 2 dt 1 . Damit ist 1 2 . Der Induktionsschritt erfolgt mit (ii): 2 362 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 1 1 n 1 n 1 2 2 1 1 n n 2 2 2 n 1 1 3 ... 2 n 1 1 3 ... 2 n 1 2 n 1 1 . n 2 2 2n 1 Es sei 0 . Dann gilt (v) p p x p 1 e x dx . 0 Diese Gleichung ist auch für ein komplexes 1 i 2 richtig. Diese Gleichung erhält man, wenn man in der Definitionsgleichung der Gamma-Funktion y x substituiert: p x 0 p 1 e x dx x p 1 p 1 e y dy . 0 Dichtefunktion: Eine Zufallsvariable X mit Gamma-Verteilung mit Parametern 0 und 0 wird über die Dichtefunktion f X x x 1 e x für x 0 definiert. Die obige Eigenschaft (v) der Gamma-Funktion zeigt, dass es sich um eine Dichtefunktion handelt. Verteilungsfunktion: x 1 x FX x x e dx 0 Erwartungswert: EX Varianz: Var X 2 Der Erwartungswert berechnet sich mit der Substitution y x , d.h. dy dx zu E X x 1 x e dx x e x dx 0 0 1 1 y e y dy 0 1 . Die Varianz ergibt sich wieder mit Hilfe der charakteristischen Funktion (siehe unten) und des zweiten Moments (siehe Satz 7.5-2(ii)): Var X E X 2 EX 2 1 2 . 2 2 363 7.6 Beispiele von Verteilungen charakteristische Funktion: cf X t e i t x f X x dx (wegen f X x 0 für x 0) i t x 1 x 1 i t x dx e x e dx x e 0 0 i t 1 . i t 1 Die k-te Ableitung lautet cf Xk t Momente: E X k cf Xk 0 i k 1 ... k 1 k i k 1 k i t 1 für k N . 1 ... k 1 . k Mit 1 erhält man als Spezialfall einer Gamma-Verteilung die Exponentialverteilung. Ist X 1 Gamma-verteilt mit Parametern 1 und und ist X 2 Gamma-verteilt mit Parametern 2 und und sind X 1 und X 2 stochastisch unabhängig, dann ist Y X 1 X 2 Gammaverteilt mit Parametern 1 2 und : Die charakteristische Funktion von Y lautet nämlich: cf X 1 X 2 t 1 1 i t 1 1 2 i t 1 1 1 1 i t 1 . Quadrierte Normalverteilung: Modell: Die Zufallsvariable ist definiert durch X Y 2 mit einer 0, 1 -normalverteilten Zufallsvariablen Y. Dichtefunktion: Nach Satz 7.2.5 (ii) lautet die Dichtefunktion von X für x 0 f X x fY x 1 x2 1 e 2 , also 2 fY x f x mit Y 2 x 364 f X x 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 1 2 x e 1 x 2 . Das ist die Dichtefunktion der Gamma-Verteilung mit 1 2 und 1 2. Erwartungswert: E X 1 Varianz: Var X 2 charakteristische Funktion: 1 cf X t 1 2 i t Momente: E X k cf Xk 0 i k 2k 1 2 1 2 1 ... 1 2 k 1 1 3 5 ... 2 k 1 2 -Verteilung (chi-Quadrat-Verteilung): Modell: Es seien X 1 , ..., X n stochastisch unabhängige jeweils 0, 1 -normalverteilte Zufallsvariablen n und Y X 12 ... X n2 X i2 . Dann sind die Zufallsvariablen X 12 , ..., X n2 jeweils Gammai 1 verteilt mit 1 2 und 1 2 (siehe oben). Y ist daher Gamma-verteilt mit n 2 und 1 2 (siehe Bemerkungen am Ende der Beschreibung der Gamma-Verteilung). Die Verteilung von Y, die in der Anwendung der Stichprobentheorie genutzt wird, heißt 2 Verteilung (chi-Quadrat-Verteilung) mit n Freiheitsgraden. Aus der Definition folgt unmittelbar folgende Aussage: Ist Yn 2 -verteilt mit n Freiheitsgraden und Ym 2 -verteilt mit m Freiheitsgraden, so ist Yn Ym 2 -verteilt mit n m Freiheitsgraden. Dichtefunktion: f X x 2n 2 n 2 x n 1 2 e Erwartungswert: E X n x 2 für x 0 Varianz: Var X 2 n 7.6 Beispiele von Verteilungen 365 charakteristische Funktion: 1 cf X t 1 2 i t n 2 Momente: E X k cf Xk 0 i k n n 2 n 4 ... n 2 k 1 . STUDENT-t-Verteilung: Modell: Die Zufallsvariablen Yn und Z seien stochastisch unabhängig. Yn sei 2 -verteilt mit n Freiheitsgraden, Z 0, 1 -normalverteilt. Dann heißt die Zufallsvariable Z 1 Yn n t-verteilt mit n Freiheitsgraden. Die t-Verteilung spielt eine wichtige Rolle in der Stichproben- und Schätztheorie. Tn Die folgenden Angaben werden nur der Vollständigkeit angeführt. Die Herleitung findet man beispielsweise in Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Aufl., Deutscher Verlag der Wissenschaften, 1989.. Dichtefunktion: n 1 n 1 2 2 x 2 1 für x . f Tn x n n n 2 Erwartungswert: ETn 0 Varianz: Var Tn n n2 Die t-Verteilung ist symmetrisch zu 0 und ähnelt der Normalverteilung. Für große Werte von n, etwa n 30 , wird die Dichtefunktion gut durch die Dichtefunktion der (0, 1)Normalverteilung approximiert. Die Werte der Verteilungsfunktion findet man in der Literatur tabelliert. 366 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik F-Verteilung: Modell: Die Zufallsvariable X m sei sei 2 -verteilt mit m Freiheitsgraden, die Zufallsvariable X n sei sei 2 -verteilt mit n Freiheitsgraden. Dann heißt die Zufallsvariable 1 Xm m m F-verteilt mit m und n Freiheitsgraden. Fn 1 Xn n Die F-Verteilung spielt eine wichtige Rolle in der Stichprobentheorie. Der Vollständigkeit halber werden die folgenden Werte angeführt: Erwartungswert: E Fnm Varianz: Var Fnm 7.7 n bei n 2 n2 2 n 2 m n 2 bei n 4 . 2 m n 2 n 4 Grenzwertsätze Grenzwertsätze spielen eine wichtige Rolle in der Anwendung der Stichproben- und Testtheorie. Bei den Grenzwertsätzen zeigt sich insbesondere die Bedeutung der Normalverteilung. Gegeben sei eine n-dimensionale Zufallsvariable X 1 , ..., X n , deren einzelne Komponenten stochastisch unabhängig und identisch verteilt sind. Jedes X i für i 1, ..., n habe den Erwartungswert E X i und die Varianz Var X i 2 . In der Praxis entsteht eine derartige Zufallsvariable in unterschiedlichen Situationen: Aus einer Grundgesamtheit wird eine Stichprobe vom Umfang n gezogen. Das Stichprobenergebnis x1 , ..., xn ist dann die Realisierung einer n-dimensionalen Zufallsvariablen X1, ..., X n . Die Grundgesamtheit hat dabei den Erwartungswert EX und die Varianz Var X 2 . Die stochastische Unabhängigkeit der einzelnen Komponenten wird dadurch gegeben, dass die Stichprobe mit Zurücklegen genommen wird, d.h. dass jedes gezogene Stichprobenelement xi in die Gesamtheit zurückgelegt wird, bevor das nächste Stichprobenelement xi 1 ermittelt wird. 7.7 Grenzwertsätze 367 Ein Zufallsexperiment, das eine Zufallsvariable X mit Erwartungswert E X und Varianz Var X 2 testet, wird n-mal durchgeführt. Das Ergebnis jedes Experiments erzeugt die Zufallsvariable X i für i 1, ..., n . Für die folgenden Betrachtungen werden die Bezeichnungen Sn und X n definiert: n Die Summe der Zufallsvariablen X 1 , ..., X n ist die Zufallsvariable Sn X i . i 1 Das arithmetische Mittel der Zufallsvariablen Xn X 1 , ..., X n ist die Zufallsvariable 1 n Xi . n i 1 Der folgende Satz besagt, dass der Erwartungswert des arithmetischen Mittels der Stichprobe dem Erwartungswert der Grundgesamtheit entspricht und die Varianz des arithmetischen Mittels der Stichprobe mit dem Faktor 1 n kleiner ist als die Varianz der Grundgesamtheit. Satz 7.7-1: Die Zufallsvariablen X 1 , ..., X n seien stochastisch unabhängig und identisch verteilt mit Erwartungswert EX i und Varianz Var ( X i ) 2 . Dann gilt: E X n und Var( X n ) 1 2 . n Die Aussagen ergeben sich wie folgt: 1 1 n 1 n E X n E X i E X i n und (mit Satz 7.2-3(ii) und Satz 7.4-1) n n i 1 n i 1 1 1 n 1 Var ( X n ) Var X i 2 n 2 2 . n n i 1 n Im Folgenden werden Folgen X n nN von Zufallsvariablen betrachtet und dann die Eigenschaften der zugehörigen Folge des arithmetischen Mittels beschrieben. Der folgende Satz zeigt, dass mit wachsendem Stichprobenumfang das arithmetische Mittel der Stichprobe mit „sehr großer“ Wahrscheinlichkeit in ein kleines Intervall um den Erwartungswert des zu untersuchenden Merkmals fällt. 368 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Satz 7.7-2: (Schwaches Gesetz der großen Zahlen) (i) Die Zufallsvariablen der Folge X n nN 0 seien paarweise unkorreliert mit existierenden Erwartungswerten E X i i und Varianzen Var ( X i ) i2 . Es gelte wein terhin lim n i 1 n2 2 i 0 . Dann gilt für jedes 0 : ... n 0 . lim P X n 1 n n (ii) Die Zufallsvariablen der Folge X n nN 0 seien stochastisch unabhängig mit identischem Erwartungswert EX i und existierenden Varianzen Var ( X i ) 2 . Dann gilt für jedes 0 : lim P X n 0 . n (iii) Die Zufallsvariablen der Folge X n nN 0 seien stochastisch unabhängig mit identischer Verteilung und Erwartungswert EX i . Dann gilt für jedes 0 : lim P X n 0 . n Bemerkungen: (1) Man beachte, dass Satz 7.7-2 (ii) nicht aussagt, dass X n mit wachsendem n im Sinne der üblichen Konvergenz gegen konvergiert. (2) Die Zufallsvariablen X i müssen in (ii) nicht dieselbe Verteilung besitzen. Es werden lediglich identische Erwartungswerte und Varianzen vorausgesetzt. (3) Teil (iii) ist anwendbar, wenn alle Zufallsvariablen X i dieselbe Verteilung besitzen. Über die Existenz von Varianzen wird hierbei nichts vorausgesetzt. ... n 1 n 1 n , Aussage (i) folgt aus Satz 7.2-4 (ii): Es ist E X n E X i E X i 1 n n i 1 n i 1 VarX n ... n also 0 P X n 1 2 n 1 n 2 i n 2 i 1 2 . Damit ist 7.7 Grenzwertsätze 369 ... n 0 . lim P X n 1 n n Die Aussage (ii) des Satzes ist ein Spezialfall von (i): Die stochastische Unabhängigkeit imn pliziert die Unkorreliertheit der Zufallsvariablen; die Bedingung lim n n und 2 i 2 i 1 n2 2 i n 2 n2 2 n i 1 n2 2 i 0 ist wegen erfüllt. Den Beweis von (iii), der weitere Hilfsmittel aus der Analysis erfordert, findet man in Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Aufl., Deutscher Verlag der Wissenschaften, 1989.. Man sagt, eine Folge Z n nN von Zufallsvariablen konvergiert stochastisch gegen 0, wenn für jedes 0 die Beziehung lim P Z n 1 . lim P Z n 0 n gilt. Gleichbedeutend damit ist n Eine Folge Z n nN von Zufallsvariablen konvergiert fast überall (mit Wahrscheinlichkeit 1) gegen 0, wenn P lim Z n 0 1 gilt. n Das schwache Gesetz großer Zahlen in Satz 7.7-2 (i) besagt demnach, dass ... n stochastisch gegen 0 konvergiert. In Satz 7.7-2 (ii) wird ausgesagt, Xn 1 n nN 0 dass X n nN 0 stochastisch gegen 0 konvergiert. Der folgende Satz wird hier nur zitiert. Satz 7.7-3: Konvergiert eine Folge Z n nN von Zufallsvariablen fast überall gegen 0, so konver- giert sie stochastisch gegen 0, d.h. P lim Z n 0 1 impliziert lim P Z n 0 für jen des 0 . n 370 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Die Umkehrung gilt nicht, wie das Beispiel der Folge Z n nN 0 mit 1 mit Wahrscheinlichkeit 1 n Zn 0 mit Wahrscheinlichkeit 1 1 n zeigt: Es sei 0 . Dann ist P Z n PZ n 1 1 n , also lim P Z n 0 , d.h. n Z n nN 0 konvergiert stochastisch gegen 0. Aber mit An Z n 1 ist P An 1 n und P A . Es lässt sich zeigen, dass die Wahrscheinlichkeit des Eintretens von unendlich n i 1 vielen Ereignissen An gleich 1 ist. Die Wahrscheinlichkeit für die Existenz einer Teilfolge von Z n nN 0 , die nicht gegen 0 konvergiert, ist somit gleich 1, im Widerspruch zu P lim Z n 0 1 . n Auch auf den Beweis des folgenden Satzes wird mit Hinweis auf die angegebene Literatur verzichtet. Satz 7.7-4: (Starkes Gesetz großer Zahlen) Die Zufallsvariablen der Folge X n nN 0 seien unabhängig mit existierenden Erwartungswerten E X i i und Varianzen Var ( X i ) , und es gelte 2 i i2 i i 1 2 . Dann ... n gilt P lim X n 1 0 1 . n n Satz 7.7-4 besagt also, dass unter den gegebenen Voraussetzungen, insbesondere wenn die Varianzen „nicht zu schnell“ wachsen (hier i2 i i 1 2 ), die Folge der Zufallsvariablen ... n nicht nur stochastisch gegen 0 (schwaches Gesetz großer Zahlen), Xn 1 n nN sondern sogar fast überall gegen 0 (starkes Gesetz großer Zahlen) konvergiert. Ein Experiment wird n-mal hintereinander durchgeführt. Bei jeder Ausführung kann ein Treffer auftreten (Wert 1) oder nicht (Wert 0). Das Ergebnis des i-ten Experiments ist eine Zufallsvariable X i . Die Trefferwahrscheinlichkeit des i-ten Experiments hänge nicht von den Ausgängen der vorherigen Experimente ab; in diesem Fall sind die einzelnen Zufallsvariablen der Folge X n nN 0 stochastisch unabhängig. In jedem Experiment sei die Trefferwahrschein- lichkeit gleich p, E X i p . Man nennt dieses Experiment auch Bernoullisches Versuchs- 7.7 Grenzwertsätze 371 n schema. Dann ist die Zufallsvariable Sn X i , die die Anzahl der Treffer nach n-maliger i 1 Versuchsausführung beschreibt, binomialverteilt (siehe Kapitel 7.6) mit Erwartungswert 1 n ESn n p und Varianz Var Sn n p 1 p . Die Zufallsvariable X n X i ben i 1 schreibt dann die relative Trefferhäufigkeit der Versuchsreihe. Es ist E X n p und Varianz VarX n p 1 p n . Das schwache Gesetz großer Zahlen (Satz 7.7-2 (ii)) besagt nun, dass die Wahrscheinlichkeit, dass mit wachsender Versuchsanzahl die relative Trefferhäufigkeit dicht bei p liegt, gegen 1 konvergiert, genauer: für jedes 0 ist lim P X n p 1 . Das starke Gesetz großer n Zahlen (Satz 7.7-4) besagt, dass die relative Trefferhäufigkeit mit wachsender Versuchsanzahl „mit Sicherheit“ gegen p konvergiert: P lim X n p 0 P lim X n p 1 . n n Es sei p 1 2 . Wie hoch muss die Versuchsanzahl liegen, damit mit 99%-iger Sicherheit die relative Trefferhäufigkeit zwischen 0,45 und 0,55 liegt? Die Antwort liefert Satz 7.7-2 (ii) 0,5 0,5 bzw. Satz 7.7-4 (ii): P X n 1 2 0,05 0,01 impliziert n 10.000 . n 0,052 Die Realisierung einer Zufallsvariablen X mit Verteilungsfunktion FX werde n-mal beobachtet, d.h. man nimmt eine Stichprobe x1 , ..., xn vom Umfang n, wobei die einzelnen Stichprobenwerte unabhängig voneinander ermittelt werden. Dabei kann es vorkommen, dass manche Stichprobenwerte gleich sind. Die Stichprobenwerte werden der Größe nach aufsteigend geordnet, so dass x1 x2 ... xn angenommen werden kann. Die empirische Verteilungsfunktion H n x wird definiert durch 0 H n x m n für x x1 für x x1; dabei ist m der größte Index mit xm x . Dann ist n H n x gleich der Anzahl der Werte xi mit xi x . Die Funktion H n x ist eine Treppenfunktion: Sind xi1 , ... , xik mit i1 1 und x1 xi1 xi2 ... xik die unterschiedlichen Werte in der Stichprobe und hi1 , ... , hik die Häufigkeiten der Werte xi1 , ... , xik , dann ist 372 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 0 l h i H n x j j 1 n 1 für x xi1 x1 für xil x xil 1 , 1 l k für x xik . Es wird zusätzlich angenommen, dass FX eine stetige Verteilungsfunktion ist. Dann ist die Wahrscheinlichkeit, dass zwei Stichprobenwerte gleich sind, gleich 0: Der i-te Stichprobenwert für i 1, ..., n werde durch die Zufallsvariable X i beschrieben. Wegen der Unabhängigkeit der Erhebung der Stichprobenwerte und der Stetigkeit der zugrundeliegenden Verteilung ist P X i x und X j x P X i x P X j x 0 0 0 . Es kann also für alle Stichprobenwerte x1 x2 ... xn angenommen werden. Es sei x ein fester Wert. Dann ist P X i x FX x für i 1, ..., n und n m nm Pn H n x m FX x 1 FX x . m Hierbei handelt es sich um das oben beschriebene Bernoullische Versuchsschema, in dem Treffer („ X i x “) und Nichttreffer gezählt werden; die Trefferwahrscheinlichkeit beträgt FX x ; die Zufallsvariable n H n x beschreibt die Anzahl der Treffer. Für die relative Tref- ferhäufigkeit der Versuchsreihe 1 n n H n x H n x gilt dann mit dem starken Gesetz großer Zahlen (siehe oben): P lim H n x FX x 0 P lim H n x FX x 1 . n n Der folgende Satz besagt, dass diese Beziehung gleichmäßig für alle x R gilt, wenn die Anzahl der Stichprobenelemente über alle Grenzen wächst. Das bedeutet, dass man bei einer genügend großen Stichprobe mit Wahrscheinlichkeit 1 aus der empirischen Verteilungsfunktion eine ausführliche Information über die gesamte Verteilungsfunktion FX x erhält. Satz 7.7-5: (Hauptsatz der Statistik) Es werde eine Stichprobe x1 , ..., xn vom Umfang n zu einem Merkmal X erhoben, das die Verteilungsfunktion FX besitzt. H n x bezeichne die empirische Verteilungsfunktion zur Stichprobe, d.h. n H n x ist gleich der Anzahl der Werte xi mit xi x . Es sei n sup H n x FX x x . Dann gilt: P lim n 0 1 . n Zur Erinnerung: Das Supremum einer Zahlenmenge ist ihre kleinste obere Schranke. 373 7.7 Grenzwertsätze In den Gesetzen der großen Zahlen (Satz 7.7-2 und Satz 7.7-4) wird ausgesagt, dass sich der Erwartungswert des arithmetischen Mittels von n unabhängigen identisch verteilten Zufallsvariablen X 1 , ..., X n in gewisser Weise um den Erwartungswert der gemeinsamen Verteilung gruppiert, je größer die Versuchsreihe oder der Stichprobenumfang ist. Über die Verteilungsfunktion des arithmetischen Mittels oder der Summe der Zufallsvariablen wird jedoch nichts ausgesagt. Es ist auch nicht immer einfach, aus X 1 , ..., X n die Verteilungsfunktion von Xn n 1 n X i und S n X i zu ermitteln. Ist zudem die Verteilung der X i unbekannt, so n i 1 i 1 ist die Berechnung der Verteilung des arithmetischen Mittels oder der Summe der Zufallsvariablen unmöglich. Der folgende Satz schafft hier Abhilfe. Er besagt nämlich, dass die Verteilung des arithmetischen Mittels oder der Summe der Zufallsvariablen gegen die Normalverteilung konvergiert. Hier zeigt sich die besondere Rolle, die der Normalverteilung in Theorie und Praxis zukommt. Satz 7.7-6: (Zentraler Grenzwertsatz) Es seien X 1 , ..., X n stochastisch unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert EX i und Varianz Var ( X i ) 2 . Mit Fn z werde die Verteilungsfunktion der Zufallsvariablen Zn Sn n X n n n bezeichnet. Dann gilt: z 1 t 2 1 e 2 dt . lim Fn z n 2 Die Beweisidee für diesen erstaunlichen Sachverhalt soll skizziert werden: n 1 S n X i . Die durch Yi X i definierten ZufallsvariabEs ist Z n n n n i 1 len sind identisch verteilt mit EYi 0 und VarYi E Yi 2 2 ; ihre charakteristische Funktion sei cfYi t . Nach Satz 7.5-2 (ii) und (iv) lautet die charakteristische Funktion von Z n : n t cf Z n t cfYi . n Es ist cfYi t E ei t Yi . Im stetigen Fall (mit Dichtefunktion fYi ) ist cfYi t e i t x fYi ( x) dx . Im diskreten Fall gilt eine entsprechende Formel. Die Reihenentwicklung von ei t x lautet 374 e i t x 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik i t x n 1 i t x t x 2 R i t x . n 0 n! 3 2 Damit ist (denn man darf die einzelnen Operationen Integral- und Reihenbildung hier vertauschen) 2 t x R3 i t x fYi ( x) dx cfYi t 1 i t x 2 1 i t EYi 1 t2 E Yi 2 ht 2 t2 2 ht . 2 Hierbei ist ht eine Funktion mit der Eigenschaft lim t 0 Setzt man diesen Wert in cf Z n t ein, so erhält man: t cf Z n t cfYi n n ht 0. t2 t h t t n 0. 1 h mit lim 2 2 t n 0 2 n t n n n 2 t2 t t h Für festes t ist daher lim n h , so ist 0 . Setzt man u n 2n n n ln cf Z n t n ln 1 u . Die Reihenentwicklung für ln 1 u (siehe Kapitel 5.9; diese gilt auch für komplexe Zahlen) liefert „für genügend kleine Werte“ von t n : t2 t ln cf Z n t n h g (t ) mit lim n g t 0 (hier argumentiert man ähnlich n n 2n wie mit h). Damit folgt lim ln cf Z n t t 2 2 bzw. lim cf Z n t e t n n 2 2 . Die rechte Seite ist die charakteristische Funktion einer normiert (0, 1)-normalverteilten Zufallsvariable (siehe Kapitel 7.6). Mit Satz 7.5-5 (ii) ergibt sich die Aussage des Satzes 7.7-6. Satz 7.7-6 lässt sich umformulieren zu Satz 7.7-7: Es seien X 1 , ..., X n stochastisch unabhängige und identisch verteilte Zufallsvariablen mit Erwartungswert E X i und Varianz Var ( X i ) 2 . Für s1 R und s2 R gelte s1 s2 . Dann gilt: lim Ps1 Sn s2 n z 1 2 t 2 1 s n s n e 2 dt mit z1 1 und z2 2 . 2 z1 n n S n z2 und mit Satz 7.7-6 Es ist nämlich Ps1 Sn s2 P z1 n n 7.8 Punktschätzungen 375 z 1 2 t 2 Sn n 1 z2 lim Fn z2 Fn z1 e 2 dt . lim P z1 n n n 2 z1 7.8 Punktschätzungen In einer Grundgesamtheit soll die Verteilung eines Merkmals X ermittelt werden. Häufig ist die Grundgesamtheit sehr groß, oder die vollständige Information über das Merkmal kann nur über eine Totalerhebung ermittelt werden. Dann begnügt man sich mit einer Stichprobe von kleinerem Umfang, um auf die Charakteristika des Merkmals zu schließen. Es gibt eine Reihe von Methoden, die beschreiben, wie Stichproben zu erheben sind, um die gewünschten Schlüsse über das Merkmal ziehen zu können. Dazu gehören insbesondere Zufallsstichproben, die durch das Urnenmodell (Ziehen mit oder ohne Zurücklegen) beschrieben werden. Im Folgenden werden Methoden beschrieben, um stochastische Parameter wie Erwartungswert und Varianz eines metrischen Merkmals X zu schätzen. Der Parameter u des Merkmals X sei unbekannt und soll durch eine Zufallsstichprobe geschätzt werden. Es wird dazu eine Zufallsstichprobe vom Umfang n gemäß dem Urnenmodell mit Zurücklegen genommen und aus den beobachteten Werten x1 , ..., xn auf den Wert des zu untersuchenden Parameters u geschlossen. Hierbei wird jedes einzelne Stichprobenelement nach seiner Entnahme aus der Grundgesamtheit zurückgelegt, so dass es potenziell auch bei der nächsten Entnahme von Stichprobenelementen ausgewählt werden kann. Man hat es also hier mit einem n-dimensionalen Zufallsvektor X 1 , ..., X n zu tun, dessen einzelne Komponenten stochastisch unabhängig und identisch verteilt sind. Mit Hilfe des Zufallsvektors X 1 , ..., X n bzw. der Beobachtung x1 , ..., xn wird die Schätzfunktion U n g X 1 , ..., X n mit einer „geeigneten“ Funktion g zur Schätzung des Parameters definiert. Eine einzelne Punktschätzung für den zu untersuchenden Parameter u ist dann der aus der Beobachtung gewonnene Wert g x1 , ..., xn . Dieser wird meistens vom wahren Wert u abweichen. Die Funktion g muss so gewählt werden, dass trotzdem akzeptable Schätzungen erreicht werden können. Durch Vergrößerung des Stichprobenumfangs n erhält man eine Folge U n nN von Schätzfunktionen für den zu untersuchenden Parameter u. Diese heißt konsistent, wenn lim P U n u 0 für jedes 0 gilt. Mit wachsendem Stichprobenumfang verringert n sich die Wahrscheinlichkeit, dass die Schätzung vom wahren Parameterwert abweicht, bzw. es steigt die Wahrscheinlichkeit der Genauigkeit der Schätzung. 376 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Die Schätzfunktion U n heißt erwartungstreu, wenn EU n u gilt. „Im Mittel“ (genommen über alle Stichproben x1 , ..., xn ) wird also für eine erwartungstreue Schätzfunktion der wahre Wert getroffen. Die Folge U n nN von Schätzfunktionen heißt asymptotisch erwartungstreu, wenn lim EU n u gilt. n Als Schätzfehler wird der Wert g X 1 , ..., X n u definiert. Der Erwartungswert des Schätzfehlers heißt Verzerrung (Bias). Eine Schätzfunktion mit Verzerrung 0, z.B. eine erwartungstreue Schätzung, heißt unverzerrt; eine Schätzfunktion mit einer Verzerrung, die ungleich 0 ist, heißt verzerrt. Eine erwartungstreue (unverzerrte) Schätzfunktion U heißt wirksamer als eine erwartungstreue (unverzerrte) Schätzfunktion V, wenn Var U Var V ist. Punktschätzung für den Erwartungswert E X : Der Erwartungswert sei unbekannt und soll durch eine Zufallsstichprobe vom Umfang n gemäß dem Urnenmodell mit Zurücklegen geschätzt werden. Aus den beobachteten Werte 1 n x1 , ..., xn wird als Punktschätzung für den Erwartungswert ̂ g x1 , ..., xn xi berechn i 1 net, d.h. die Schätzfunktion für den Erwartungswert lautet U n X n Gemäß Satz 7.7-1 ist E X n , d.h. die Schätzfunktion X n 1 n Xi . n i 1 1 n X i ist erwartungstreu. n i 1 Nach Satz 7.7-2(i) ist die Folge X n nN konsistent. Das bedeutet, dass mit steigendem Stichprobenumfang die Genauigkeit der Schätzung mit hoher Wahrscheinlichkeit zunimmt. 1 1 n 1 Die Varianz der Schätzfunktion ist Var X n Var X i 2 n 2 2 . n n i 1 n 7.8 Punktschätzungen 377 Punktschätzung für die Varianz Var X 2 bei bekanntem Erwartungswert E X : Aus den beobachteten Werte x1 , ..., xn der Stichprobe wird als Punktschätzung für die Varianz der Wert ˆ 2 g x1 , ..., xn Un 1 n 2 xi n i 1 berechnet, d.h. die Schätzfunktion lautet 1 n 2 X i . n i 1 Die Schätzfunktion ist erwartungstreu: 1 n 1 1 n 2 2 E X i E X i n 2 2 . n n i 1 n i 1 1 n 2 Weiterhin gilt lim P X i 2 0 für jedes 0 : n n i 1 1 n 2 Es ist 2 E X i . Daher gilt mit Satz 7.2-4(ii) und wegen der stochastischen n i 1 Unabhängigkeit der Zufallsvariablen X i mit v Var X i : 2 P 2 1 n 1 n 2 2 X Var Var X i i 2 n v 1 n 2 i 1 n i 1 . X i 2 2 2 n i 1 n 2 1 n 2 konsistent. Daher ist die Folge X i n i 1 nN Die Voraussetzung über die Kenntnis des Erwartungswerts ist jedoch in der Praxis unrealistisch. Daher wird auch dieser geschätzt. Punktschätzung für die Varianz Var X 2 bei unbekanntem Erwartungswert E X : Aus den beobachteten Werte x1 , ..., xn der Stichprobe wird als Punktschätzung für die Varianz der Wert ˆ 2 g x1 , ..., xn on lautet U n 1 n 1 n 2 xi ˆ mit ̂ xi berechnet, d.h. die Schätzfunktin i 1 n i 1 1 n 2 X i X n . n i 1 Diese Schätzfunktion ist nicht erwartungstreu: 378 Es ist 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 1 n 1 n 2 2 2 X i X n X i X n , denn n i 1 n i 1 1 n 1 n 1 n 2 2 2 2 2 X i X i X n X i 2 X i 2 X i 2 X i X n X n n i 1 n i 1 n i 1 1 n 1 n 2 2 X i 2 2 X n X i X n n i 1 n i 1 Xn 2 Xn 2 2 X n . 2 Damit ergibt sich 2 2 1 n 1 n 2 E X i X n E X i E X n n i 1 n i 1 n 1 2 2 E X i E X n n i 1 2 Var X n wegen Var X i 2 und E X n 2 1 n 2 mit Satz 7.7 - 1 n 1 2 n . Das bedeutet, dass durch die Schätzfunktion 1 n 2 X i X n die Varianz Var X 2 sysn i 1 tematisch mit Verzerrung 1 n 2 unterschätzt wird. Die Schätzung ist jedoch asymptotisch erwartungstreu. Eine erwartungstreue Schätzung für die Varianz bei unbekanntem Erwartungswert erhält man n 1 n 1 n 2 2 X i X n X i X n bzw. durch die aus der durch die Schätzfunktion n 1 n i 1 n 1 i 1 Stichprobe ermittelten Punktschätzung n 1 n 1 2 xi ˆ mit ̂ xi . n 1 i 1 n i 1 Auch hier lässt sich die Konsistenz der Schätzfunktion zeigen. Punktschätzung für den unbekannten Anteilswert p eines Merkmals in der Grundgesamtheit: Das Merkmal X trete mit einem unbekannten Anteil p in der Grundgesamtheit auf. In einer Stichprobe x1 , ..., xn wird gezählt, wie häufig das Merkmal X vorkommt. Als Schätzung für p 7.8 Punktschätzungen wird 379 1 n 1 n xi genommen, d.h. die Schätzfunktion lautet X i , wobei EX i p und n i 1 n i 1 Var X i p 1 p gilt. 1 1 n Diese Schätzung ist erwartungstreu: E X i n EX i p . Außerdem ist sie konsis n i 1 n tent. Die Grundgesamtheit enthalte N Elemente, die Stichprobe enthält n Elemente. Ist N gegenüber n groß (in einem noch zu präzisierenden Sinn, etwa, wenn N unendlich groß ist), so ist das Urnenmodell mit Zurücklegen gerechtfertigt; die Unabhängigkeit der einzelnen Stichprobenelemente kann wegen des Zurücklegens angenommen werden. Ist jedoch N gegenüber n klein oder auch endlich, so stellt das Urnenmodell mit Zurücklegen nur eine Annäherung an eine unabhängige Stichprobenerhebung dar. Es sollen daher die Urnenmodelle mit und ohne Zurücklegen zur Schätzung des Erwartungswerts des Merkmals X verglichen werden. Die Grundgesamtheit sei endlich, etwa a1 , ..., aN . Eine Stichprobe x1 , ..., xn im Urnenmodell mit Zurücklegen ist die Realisierung des Zufallsvektors X 1 , ..., X n , dessen Komponenten unabhängig sind. Als Schätzfunktion für werde Xn 1 n 1 n X i mit dem Schätzwert ̂ x xi genommen. Eine Stichprobe z1 , ..., zn im n i 1 n i 1 Urnenmodell ohne Zurücklegen ist die Realisierung eines Zufallsvektors Z1 , ..., Z n , dessen Komponenten jetzt jedoch nicht mehr unabhängig sind. Als Schätzfunktion für werde auch in diesem Modell Z n 1 n 1 n Z i mit dem Schätzwert ̂ z zi genommen. n i 1 n i 1 Jedes Element der Grundgesamtheit habe die gleiche Wahrscheinlichkeit 1 N , um beim Ziehen in die Stichprobe zu gelangen. Es gilt 1 N E X ai . N i 1 (Formel (i)) Die Varianz von X ist 1 N 1 N 2 Var X ai 2 ai2 2 E X 2 2 . N i 1 N i 1 Im Urnenmodell mit Zurücklegen ist die Varianz der Stichprobe gleich 1 Var X n 2 . n Im Urnenmodell ohne Zurücklegen ist die Varianz der Stichprobe gleich (Formel (ii)) (Formel (iii)) 380 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik EZ EZ . VarZ n E Z n E Z n 2 2 2 n (Formel (iv)) n Diese wird wie folgt ermittelt. Der Erwartungswert von Z n ist E Zn 1 n EZ i . n i 1 (Formel (v)) 1 n 2 1 n 2 n 1 n E Z n E Z i E 2 Z i2 2 E Z i Z k . (Formel (vi)) n i 1 n i 1 k i 1 n i 1 Hierbei wird die durch vollständige Induktion über die Elementanzahl n zu beweisende Iden- 2 2 n n 1 n n tität bi bi2 2 bi bk verwendet. i 1 i 1 k i 1 i 1 Der erste Summand auf der rechten Seite in Formel (vi) ist 1 n 1 1 n 1 n E 2 Z i2 2 E Z i2 2 E X 2 2 2 . n i 1 n n i 1 n i 1 (Formel (vii)) N Aus Formel (i) folgt a 0 . Durch Quadrieren erhält man i i 1 N a i 1 2 i N 1 2 N 1 N a a 2 N a a i 1 k i 1 i i 1 k i 1 i k k 0 . Mit Formel (ii) erhält man N ai N 2 . Daraus ergibt sich für i k E X i X k 2 i 1 N 1 N 1 ai ak mit L i 1 k i 1 N 1 L Anzahl der Werte ai N i 1 k i 1 E X i X k N 1 N 1 i 1 i 1 1 N i 1 1 i N N 1 . Also ist 2 2 N 1 (Formel (viii)) . Da EZ i Z k EZ i Z k 2 ist, erhält man für den zweiten Summanden auf der rechten Seite in Formel (vi): 2 n 1 n 2 n 1 n Z Z E i k n2 EZi Z k n 2 i 1 k i 1 i 1 k i 1 2 n 1 n 2 EZ i Z k 2 n i 1 k i 1 n 1 2 n 1 2 . n n N 1 2 Aus den Formeln (vi), (vii) und (ix) erhält man E Z n NN 1n n Var Z n E Z n E Z n 2 2 (Formel (ix)) N n 2 2 und schließlich N 1 n 2 . (Formel (x)) 381 7.8 Punktschätzungen N n 1 , d.h. Var Z n Var X n , d.h. das Urnenmodell ohne Zurücklegen gibt N 1 eine wirksamere Schätzung für den Erwartungswert als das Urnenmodell mit Zurücklegen. Für n 1 ist Wird die Varianz des Merkmals X im Urnenmodell ohne Zurücklegen aus einer beobachteten 1 n 1 n 2 2 Stichprobe z1 , ..., zn (Zufallsvektor Z1 , ..., Z n ) durch ˆ z zi ˆ z mit ̂ z zi n i 1 n i 1 geschätzt, so ist auch diese Schätzfunktion nicht erwartungstreu; denn 1 n 2 2 1 n 2 E Z i Z n E Z i E Z n n i 1 n i 1 2 Var X n (siehe oben) N n 2 N 1 n N n 1 2 N 1 n 2 . Eine erwartungstreue Schätzung für die Varianz bei unbekanntem Erwartungswert im Urnenmodell mit Zurücklegen erhält man durch die Schätzfunktion n n N 1 1 n N 1 2 2 X i X n X i X n bzw. durch die aus der Stichprobe n 1 N n i 1 N n 1 i 1 ermittelten Punktschätzung n 1 n N 1 2 zi ˆ z mit ̂ z zi . N n 1 i 1 n i 1 Abschließend werden exemplarisch zwei Methoden zur „geeigneten“ Festgelegung von Schätzfunktionen beschrieben. Methode der kleinsten Quadrate: Soll etwa ein unbekannter Mittelwert geschätzt werden, so kann bei gegebener Stichprobe x1 , ..., xn derjenige Wert ̂ als Schätzwert genommen werden, für den die Summe der quan drierten Abstände zu den Stichprobenwerten minimal ist. Es wird also x ̂ i 1 ̂ minimiert. Dazu wird die erste Ableitung von n x ̂ i 1 aufgelöst: n 2 xi ˆ 0 impliziert ̂ i 1 1 n xi . n i 1 2 i 2 i bezüglich gleich 0 gesetzt und nach ̂ 382 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Das ergibt die obige Schätzfunktion für den Erwartungswert. Maximum-Likelihood-Methode: Die Verteilung des Merkmals X in der Grundgesamtheit sei bis auf einen zu schätzenden Parameter u in Form der Massen- bzw. Dichtefunktion bekannt. Diese hängt auch von u ab, d.h. sie kann als f X x, u geschrieben werden. Es wird eine Stichprobe x1 , ..., xn nach dem Urnenmodell mit Zurücklegen genommen. Diese entspricht der Realisierung des ndimensionalen Zufallsvektors X 1 , ..., X n . Dessen Massen- bzw. Dichtefunktion lautet f x1 , ..., xn , u . Es wird nun für u derjenige Wert genommen, bei dem die Stichprobenwerte x1 , ..., xn den größte Massen- bzw. Dichtewert besitzen. Dieser Schätzwert für u ist somit der plausibelste Wert für die Stichprobenwerte x1 , ..., xn . Es sei X normalverteilt mit Erwartungswert und Varianz 2 . Beide seien unbekannt, d.h. der gesuchte Parameter ist u , . Die Dichtefunktion der Stichprobe lautet f x1 , ..., xn , , f X 1 x1 , , ... f X n xn , , 1 x1 1 e 2 2 1 2 n n e 1 2 2 2 1 xn 2 1 ... e 2 2 n x i 2 i 1 . Dieser Ausdruck ist bezüglich u , zu maximieren. Da der Berechnungsvorgang kompliziert ist, wird stattdessen der Logarithmus des Ausdrucks maximiert; aufgrund der Monotonie der Logarithmusfunktion hat er das Maximum an derselben Stelle wie der nichtd f x ln f x 0 genau dann, wenn f x 0 ist. logarithmierte Ausdruck, und es gilt dx f x Es ist ln f x1 , ..., xn , , n ln n ln 2 n 1 xi 2 . 2 2 i 1 Partielles Ableiten nach und und Nullsetzen beider Gleichungen führt auf die Schätzungen ̂ für den Erwartungswert und ̂ 2 für die Varianz: n 1 xi 0 , ln f x1 , ..., xn , , 2 1 2 2 i 1 n 1 1 xi 2 0 . ln f x1 , ..., xn , , n 2 3 2 i 1 n Aus der ersten der beiden Gleichungen folgt xi 0 i 1 und ̂ 1 n xi . n i 1 7.9 Intervallschätzungen 383 Dieser Wert wird in die zweite Gleichung eingesetzt und diese nach aufgelöst mit dem Ergebnis ˆ 2 1 n 2 xi ˆ . Diese Schätzfunktion ist asymptotisch erwartungstreu (siehe n i 1 oben). 7.9 Intervallschätzungen Bei der Punktschätzung eines Parameters der Verteilung eines Merkmals X in einer Grundgesamtheit ist es nicht sicher, dass der geschätzte Wert mit dem tatsächlichen Wert übereinstimmt. Aufgrund einer Stichprobe möchte man aber sagen, dass der tatsächliche Parameterwert „mit hoher Wahrscheinlichkeit“ nahe bei dem Ergebnis liegt, das man aus der Stichprobe ermittelt. Man sucht daher ein Intervall, das aufgrund der Stichprobe und nach Vorgabe einer Wahrscheinlichkeit den tatsächlichen Parameterwert mit dieser Wahrscheinlichkeit enthält. Es sei 1 (etwa 1 0,95 oder 1 0,99 ) eine vorgegebene Wahrscheinlichkeit. Der n-dimensionale Zufallsvektor X 1 , ..., X n bestehe aus unabhängigen, identisch verteilten Zufallsvariablen mit einem unbekannten Parameter u. Für die Stichprobenfunktionen U1 g1 X 1 , ..., X n und U 2 g 2 X 1 , ..., X n gelte PU1 u U 2 1 . Dann heißt das stochastische Intervall U1 ,U 2 ein Konfidenzintervall (Vertrauensintervall) für u mit Konfidenzniveau (Vertrauensniveau) 1 . Mit jeder Stichprobe x1 , ..., xn , d.h. jeder Realisierung des Zufallsvektors X 1 , ..., X n , erhält man Realisierungen u1 g1 x1 , ..., xn und u2 g 2 x1 , ..., xn der Zufallsvariablen U1 und U 2 , d.h. jeweils ein Intervall u1 , u2 . Man kann davon ausgehen, dass 100 1 % aller so berechneten Intervalle den unbekannten Parameter u enthalten. Im folgenden wird die (0, 1)-Normalverteilung eingesetzt, d.h. die Verteilung mit Dichtefunk1 x2 1 e 2 bzw. Verteilungsfunktion tion f ( 0,1) norm x 2 x 1 t 2 1 F( 0,1) norm ( x) e 2 dt . 2 Das Merkmal X habe den Erwartungswert E X und die Varianz Var( X ) 2 . Für die Zufallsstichprobe X 1 , ..., X n gilt dann nach Satz 7.7-1 und 7.7-6 mit X n 1 n Xi : n i 1 384 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 1 2 n (1) E X n und Var( X n ) (2) Xn ist für große n annähernd (0, 1)-normalverteilt, d.h. n X P z n z F( 0,1) norm ( z ) F( 0,1) norm ( z ) n F( 0,1) norm ( z ) 1 F( 0,1) norm ( z ) 2 F( 0,1) norm ( z ) 1 bzw. P X n z n X n z n 2 F( 0,1) norm ( z ) 1 . Konfidenzintervall für den unbekannten Erwartungswert bei gegebener Varianz 2 Zur Konstruktion eines Konfidenzintervalls für bei gegebener Varianz 2 werden folgende Schritte ausgeführt: 1. Schritt: Man wählt ein Vertrauensniveau 1 . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F( 0,1) norm ( x) der (0, 1)-Normalverteilung bestimmt man denjenigen Wert z1 2 mit 2 F( 0,1) norm ( z1 2 ) 1 1 1 1 1 . 2 2 Beispielsweise gelten für die üblichen Vertrauensniveaus folgende Werte z1 2 : bzw. F( 0,1) norm ( z1 2 ) 1 0,90 0,95 0,99 0,999 z1 2 1,65 1,96 2,58 3,29 3. Schritt: Man berechnet den Mittelwert x 1 n xi der Stichprobenwerte x1 , ..., xn . n i 1 4. Schritt: Das Konfidenzintervall für lautet x z1 2 Das Konfizenzintervall hat die Länge 2 z1 2 n , x z1 2 n . n ; diese hängt vom Vertrauensniveau, der Varianz und dem Stichprobenumfang ab. Ist die vorgegebene Varianz groß, so wird auch das Konfidenzintervall groß sein. Möchte man die Länge des Konfidenzintervalls halbieren, kann man dieses durch Vervierfachung des Stichprobenumfangs erreichen. Erhöht man das Vertrauensniveau, d.h. die Sicherheit, so vergrößert sich entsprechend die Länge des Konfidenzintervalls, d.h. die Genauigkeit der Intervallschätzung verringert sich. 7.9 Intervallschätzungen 385 Im allgemeinen ist die Varianz 2 nicht bekannt. Für große Stichprobenumfänge (Faustregel n 30 ) kann man die erwartungstreue Punktschätzung (siehe Kapitel 7.8) ̂ 2 n 1 2 xi x verwenden. Der dadurch entstehende Fehler kann meist vernachlässigt n 1 i 1 werden. Für kleine Stichprobenumfänge kann man keine Schätzung der Varianz verwenden. Für den Fall, dass X selbst normalverteilt ist, kann man folgendermaßen vorgehen: Konfidenzintervall für den unbekannten Erwartungswert bei unbekannter Varianz 2 (bei normalverteiltem Merkmal): Mit X n zung 1 n 1 n 1 n 2 2 2 X i , S 2 X i X n X i X n und der erwartungstreuen Schätn i 1 n i 1 n i 1 n 1 n S2 2 X i X n für Var X ist n 1 i 1 n 1 Xn 2 1 X i X n n 1 i 1 n n der Quotient zweier Zufallsvariablen (und nicht etwa eine Normierung der normalverteilten Zufallsvariablen X n auf Erwartungswert 0 und Varianz 1). Es ist Xn 2 1 X i X n n 1 i 1 n n Xn n 2 1 X i X n 1 i 1 n Xn n . 1 n S2 n 1 2 Im Zähler dieses Bruchs steht eine (0, 1)-normalverteilte Zufallsvariable. Die Zufallsvariable nS2 2 im Nenner des Bruchs ist 2 -verteilt mit n 1 Freiheitsgraden. Dieses wird durch fol- gende Überlegung plausibel: In Kapitel 7.8 wurde die Identität 1 n 1 n 2 2 2 S 2 X i X n X i X n gezeigt. Daraus folgt n i 1 n i 1 n S2 2 2 2 2 2 n n S2 Xn Xi X X n bzw. i . 2 n i 1 i 1 n n Auf der rechten Seite des Gleichheitszeichens steht eine 2 -verteilte Zufallsvariable mit n Freiheitsgraden; der zweite Summand auf der linken Seite ist eine 2 -verteilte Zufallsvariable mit 1 Freiheitsgrad; also ist nS2 2 2 -verteilt mit n 1 Freiheitsgraden (siehe Kapitel 7.6). 386 7 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Daher ist X 2 1 X i X n 1 i 1 n t-verteilt mit n 1 Freiheitsgraden. n Es werden folgende Schritte ausgeführt: 1. Schritt: Man wählt ein Vertrauensniveau 1 . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion Tn1 ( x) der t-Verteilung mit n 1 Freiheitsgraden bestimmt man denjenigen Wert z1 2 mit 2 Tn 1 ( z1 2 ) 1 1 bzw. Tn 1 ( z1 2 ) 1 1 1 . 2 2 3. Schritt: Man berechnet den Mittelwert x den Wert 2 n 1 2 xi x . n 1 i 1 1 n xi der Stichprobenwerte x1 , ..., xn und n i 1 4. Schritt: Das Konfidenzintervall für lautet x z1 2 n , x z1 2 n . Konfidenzintervall für die unbekannte Varianz 2 : Die Zufallsvariable S2 n S2 2 ist 2 -verteilt mit n 1 Freiheitsgraden; hierbei ist 1 n 1 n 2 X i X n und X n X i . Ein Konfidenzintervall für die unbekannte Varianz n i 1 n i 1 2 erhält man aus der Forderung, dass die Wahrscheinlichkeit, mit der nS2 2 in das Konfidenzintervall fällt, gleich 1 ist und die restliche Wahrscheinlichkeitsmasse zu gleichen Teilen aufgeteilt wird: Es sei F 2 ( x) die Verteilungsfunktion der 2 -Verteilung. Für den Wert z 2 gelte F 2 z 2 2 , für den Wert z1 2 gelte F 2 z1 2 1 2 . Dann lautet die Forderung zur n S2 Bestimmung des Konfidenzintervalls P z 2 2 z1 2 1 . Offensichtlich müssen hier keine Annahmen über den Mittelwert getroffen werden. Es werden folgende Schritte ausgeführt: 387 7.10 Hypothesentests 1. Schritt: Man wählt ein Vertrauensniveau 1 . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F 2 ( x) der 2 -Verteilung mit n 1 Freiheitsgraden bestimmt man diejenigen Werte z 2 mit F 2 z 2 2 und z1 2 mit F 2 z1 2 1 2 . 3. Schritt: Man berechnet den Mittelwert x den Wert s 2 1 n xi der Stichprobenwerte x1 , ..., xn und n i 1 1 n 2 xi x . n i 1 n s2 n s2 , 4. Schritt: Das Konfidenzintervall für 2 lautet dann . z1 2 z 2 Diese Methode ist anwendbar für Konfidenzintervalle für Varianzen bei kleinen Stichproben einer normalverteilten Grundgesamtheit. Der Erwartungswert der mit n 1 Freiheitsgraden -verteilten 2 Zufallsvariablen n S2 2 ist n S2 E 2 n 1, und die Varianz ist n S2 Var 2 2 n 1 . Für große Stichprobenumfänge konvergiert die 2 -Verteilung gegen die Normalverteilung, d.h. die auf Erwartungswert 0 und Varianz 1 normierte Zufallsvariable n S 2 2 n 1 ist annähernd (0, 1)-normalverteilt. Ein Konfidenzintervall zum Vertrau2 n 1 ensniveau 1 erhält man aus der Forderung n S 2 2 n 1 P z1 2 z1 2 1 2 n 1 F( 0,1) norm ( z1 2 ) 1 2 mit der Stelle z1 2 , an der ist. Das Konfidenzintervall für 2 zum Vertrauensniveau 1 lau- tet dann ns2 ns2 , . n 1 z1 2 2 n 1 n 1 z1 2 2 n 1 7.10 Hypothesentests Bei der Konstruktion eines Konfidenzintervalls wurde aus den Werten einer Stichprobe auf die Lage eines unbekannten Parameters geschlossen, die mit vorgegebener, d.h. in der Regel hoher Wahrscheinlichkeit zutrifft. Im vorliegenden Kapitel wird eine Hypothese (Vermutung) über den Wert eines unbekannten Parameters oder über eine unbekannte Verteilung 388 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik aufgestellt und aufgrund einer Stichprobe, d.h. eines statistischen Tests, entschieden, ob die Hypothese beibehalten werden kann oder ob die Hypothese verworfen werden muss. Es wird keine Aussage darüber getroffen, ob die Hypothese wahr oder falsch ist. Natürlich wird der Schluss aus der Stichprobe auf das Beibehalten bzw. Verwerfen der Hypothese so gezogen, dass die Wahrscheinlichkeiten, eine richtige Hypothese zu verwerfen und eine falsche Hypothese anzunehmen, gering sind. Man unterscheidet eine Reihe statistischer Testverfahren je nach Art der aufgestellten Hypothese: Ein Parametertest überprüft eine Hypothese über den Wert eines oder mehrerer unbekannter Parameter einer Grundgesamtheit. Ein Verteilungs- oder Anpassungstest überprüft Annahmen über Wahrscheinlichkeitsverteilungen in einer Grundgesamtheit. Bei einem Unabhängigkeitstest werden Hypothesen über die stochastische Unabhängigkeit bzw. Abhängigkeit von Zufallsvariablen oder Merkmalen in einer Grundgesamtheit getestet. Zunächst werden Parametertests beschrieben. Es wird eine Hypothese über den Zahlenwert u0 eines unbekannten Parameters u einer Verteilung aufgestellt. Die Hypothese kann sich aus früheren statistischen Beobachtungen, theoretischen Überlegungen, Plausibilitätsüberlegungen oder anderen Betrachtungen ergeben. Diese Hypothese über den Wert u0 von u wird als Nullhypothese (Ausgangshypothese) H 0 bezeichnet. Die Gegenhypothese (Alternativhypothese) wird mit H1 bezeichnet. Je nach Fragestellung sind verschiedene Formen der Null- und Gegenhypothese üblich: H 0 : u u0 gegen H1 : u u0 (zweiseitige Fragestellung) H 0 : u u0 gegen H1 : u u0 (einseitige Fragestellung) H 0 : u u0 gegen H1 : u u0 (einseitige Fragestellung). Man zieht eine Stichprobe x1 , ..., xn , berechnet daraus den Wert einer Stichprobenfunktion und trifft die Testentscheidung, H 0 beizubehalten oder H 0 abzulehnen. Dabei können viele Ergebnisse zu Überlegungen aus Kapitel 7.9 verwendet werden. Die Testentscheidung und die Realität können differieren, so dass fehlerhafte Testentscheidungen auftreten: 7.10 Hypothesentests 389 Der Fehler 1. Art ( -Fehler) ist die Wahrscheinlichkeit, H 0 abzulehnen, obwohl H 0 wahr ist, d.h. PH 0 ablehnen H 0 ist wahr . Der Fehler 2. Art ( -Fehler) ist die Wahrscheinlichkeit, H 0 beizubehalten, obwohl H 0 falsch ist, d.h. PH 0 beibehalten H 0 ist falsch . Realität Testentscheidung aufgrund einer Stichprobe H 0 ist wahr H 0 ist falsch H 0 beibehalten korrekt Fehler 2. Art, -Fehler H 0 ablehnen Fehler 1. Art, -Fehler korrekt Ziel des Hypothesentests ist es, den Fehler 1. Art möglichst klein zu halten und dabei den Fehler 2. Art nicht zu groß werden zu lassen. Im Extremfall könnte man sich aufgrund der Stichprobe immer für H 0 entscheiden (dann macht man keinen Fehler 1. Art, d.h. 0 ); dann ist allerdings 1 . Üblicherweise wird der Fehler 1. Art vorgegeben, etwa 0,05 oder 0,01 . Der Fehler 2. Art müsste dann berechnet werden, was sich im Einzelfall als schwierig erweisen kann. Hypothesentest des Erwartungswerts bei bekannter Varianz 2 und großem Stichprobenumfang Der unbekannte Parameter sei der Erwartungswert eines metrischen Merkmals X in einer Grundgesamtheit. Die Varianz 2 sei bekannt, etwa aus früheren Hypothesentests oder aufgrund einer numerischen Vorgabe. Die Nullhypothese lautet bei zweiseitiger Fragestellung H 0 : 0 . Der Mittelwert x 1 n xi einer genommenen Stichprobe x1 , ..., xn , d.h. die Realisierung ein i 1 ner Zufallsstichprobe X 1 , ..., X n , wird vom hypothetischen Wert 0 meist abweichen. Han- 390 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik delt es sich um eine große Stichprobe ( n 30 ), so ist der Stichprobenmittelwert Xn 1 n X i annähernd normalverteilt (siehe Kapitel 7.7): n i 1 X 0 X 0 P n z 0 P z n z 0 n n F( 0,1) norm ( z ) F( 0,1) norm ( z ) 2 F( 0,1) norm ( z ) 1 . Daher bietet sich folgender Hypothesentest an: 1. Schritt: Man wählt den Fehler 1. Art . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F( 0,1) norm ( x) der (0, 1)-Normalverteilung bestimmt man denjenigen Wert z1 2 mit 2 F( 0,1) norm ( z1 2 ) 1 1 1 1 1 . 2 2 Beispielsweise gelten für die üblichen Werte folgende Werte z1 2 : bzw. F( 0,1) norm ( z1 2 ) 0,1 0,05 0,01 0,001 z1 2 1,65 1,96 2,58 3,29 3. Schritt: Man berechnet den Mittelwert x 4. Schritt: Bei 1 n xi der Stichprobenwerte x1 , ..., xn . n i 1 x 0 x 0 z1 2 wird H 0 beibehalten, bei z1 2 wird H 0 abgelehnt. n n Man sieht: X 0 P falsche Entscheidung 0 P n z1 2 0 n X 0 1 P n z1 2 0 n 1 2 F( 0,1) norm ( z1 2 ) 1 1 2 1 1 2 . Der Fehler 1. Art wird also eingehalten. 7.10 Hypothesentests 391 Bei einseitiger Fragestellung lautet die Nullhypothese H 0 : 0 . X 0 Dann gilt P n z 0 F( 0,1) norm ( z ) . Zu beachten ist, dass eigentlich die bedingte n X 0 Wahrscheinlichkeit P n z 0 genommen werde müsste; dies ist jedoch rechne n risch komplex, und man begnügt sich mit einer Annäherung an den Fehler 1. Art (Höchstwert für den Fehler 1. Art). Der Hypothesentest lautet nun: 1. Schritt: Man wählt den Fehler 1. Art . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F( 0,1) norm ( x) der (0, 1)-Normalverteilung bestimmt man denjenigen Wert z1 mit F( 0,1) norm ( z1 ) 1 . Beispielsweise gelten für die üblichen Werte folgende Werte z1 : 0,1 0,05 0,01 0,001 z1 1,28 1,64 2,33 3,08 3. Schritt: Man berechnet den Mittelwert x 4. Schritt: Bei 1 n xi der Stichprobenwerte x1 , ..., xn . n i 1 x 0 x 0 z1 wird H 0 beibehalten, bei z1 wird H 0 abgelehnt. n n Wieder sieht man: P falsche Entscheidung 0 . Bei der einseitiger Fragestellung mit Nullhypothese H 0 : 0 wird der obige Schritt 4 ersetzt durch 4. Schritt: Bei x 0 x 0 z1 wird H 0 beibehalten, bei z1 wird H 0 abgelehnt. n n 392 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Hypothesentest des Erwartungswerts bei unbekannter Varianz 2 und großem Stichprobenumfang Ist die Varianz 2 unbekannt, und ist der Stichprobenumfang groß ( n 30 ), so kann man für n 1 2 xi x 2 nehmen. die erwartungstreue Schätzung (siehe Kapitel 7.8) n 1 i 1 Hypothesentest des Erwartungswerts bei unbekannter Varianz 2 und kleinem Stichprobenumfang und normalverteiltem Merkmal der Grundgesamtheit In diesem Fall gilt (siehe Kapitel 7.9 bei der Konstruktion des entsprechenden Konfidenzintervalls): Die Größe X 0 n 2 1 X i X n 1 i 1 ist t-verteilt mit n 1 Freiheitsgraden. n Der Hypothesentest lautet nun: 1. Schritt: Man wählt den Fehler 1. Art . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion Tn1 ( x) der t-Verteilung mit n 1 Freiheitsgraden bestimmt man denjenigen Wert z1 2 mit 2 Tn 1 ( z1 2 ) 1 1 bzw. Tn 1 ( z1 2 ) 1 1 1 . 2 2 3. Schritt: Man berechnet den Mittelwert x 4. Schritt: Bei bei x 0 n 1 2 xi x n 1 i 1 z1 2 wird H 0 beibehalten, n x 0 n 1 2 xi x n 1 i 1 1 n xi der Stichprobenwerte x1 , ..., xn . n i 1 z1 2 wird H 0 abgelehnt. n Wieder sieht man: P falsche Entscheidung 0 . Bei einseitiger Fragestellung wird entsprechend vorgegangen. 7.10 Hypothesentests 393 Hypothesentest der unbekannten Varianz 2 Es ist die Nullhypothese zu überprüfen, dass die unbekannte Varianz der Grundgesamtheit einen definierten Wert annimmt: H 0 : 2 02 . Dazu wird die Zufallsvariable n S2 02 mit S 2 1 n 1 n 2 X i X n und X n X i herangen i 1 n i 1 zogen. Diese ist 2 -verteilt mit n 1 Freiheitsgraden (siehe Kapitel 7.9). Der Hypothesentest lautet: 1. Schritt: Man wählt den Fehler 1. Art . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F 2 ( x) der 2 -Verteilung mit n 1 Freiheitsgraden bestimmt man diejenigen Werte z 2 mit F 2 z 2 2 und z1 2 mit F 2 z1 2 1 2 . 3. Schritt: Man berechnet den Mittelwert x den Wert s 2 4. Schritt: Bei 0 2 z 2 n bei s 2 1 n xi der Stichprobenwerte x1 , ..., xn und n i 1 1 n 2 xi x . n i 1 s 2 0 2 z1 2 n 0 2 z1 2 n oder s 2 wird H 0 beibehalten, 0 2 z 2 n wird H 0 abgelehnt. Wieder sieht man: 0 2 z 2 0 2 z1 2 2 2 P falsche Entscheidung 1 P 02 s n n 1 F 2 z1 2 F 2 z 2 2 2 0 1 1 2 2 . 394 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Ist die Nullhypothese zu überprüfen, dass die unbekannte Varianz der Grundgesamtheit einen definierten Wert nicht überschreitet, d.h. H 0 : 2 02 , so wird im 2. Schritt derjenige Wert z 2 mit F 2 z1 1 bestimmt; die Entscheidung im 4. Schritt lautet nun: Bei s 2 0 2 z1 n wird H 0 beibehalten, bei s 2 0 2 z1 n wird H 0 abgelehnt. Entsprechend wird verfahren, wenn die Nullhypothese H 0 : 2 02 lautet. Hypothesentest für den Vergleich von Erwartungswerten Es werden zwei Stichproben x1 , ..., xn1 und y1 , ..., yn2 als Realisierung der Zufallsvektoren X , ..., X und Y , ..., Y unabhängig voneinander genommen, und man möchte feststellen, 1 n1 1 n2 ob sie derselben Grundgesamtheit entstammen bzw. ob die Grundgesamtheiten wenigstens denselben Erwartungswert aufweisen. Hierbei seien die beiden Erwartungswerte 1 bzw. 2 . Es sei X n1 1 n1 1 n2 X i und Yn2 Yi . n1 i 1 n2 i 1 Die Nullhypothese lautet H 0 : 1 2 . Sind die Stichprobenumfänge n1 und n2 groß oder sind die Merkmale in den Grundgesamtheiten normalverteilt mit den Varianzen 12 bzw. 22 , so ist die Testgröße X n1 Yn2 (asymptotisch) normalverteilt mit dem Erwartungswert 1 2 und der Varianz 12 n1 22 n2 . Kennt man die Varianzen 12 bzw. 22 nicht, so kann man sie bei großen Stichproben 2 s2 durch die erwartungstreuen Schätzwerte n1 1 2 s xi x n1 1 i 1 2 1 n2 1 n1 1 n2 1 2 yi y mit x xi und y yi ersetzen. n2 1 i 1 n1 i 1 n2 i 1 und 7.10 Hypothesentests 395 Der Hypothesentest lautet: 1. Schritt: Man wählt den Fehler 1. Art . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F( 0,1) norm ( x) der (0, 1)-Normalverteilung bestimmt man denjenigen Wert z1 2 mit 2 F( 0,1) norm ( z1 2 ) 1 1 bzw. F( 0,1) norm ( z1 2 ) 1 1 1 . 2 2 1 n1 1 n2 3. Schritt: Man berechnet die Mittelwerte x xi und y yi der Stichprobenn1 i 1 n2 i 1 werte. 4. Schritt: Bei xy n1 n2 2 1 2 2 z1 2 wird H 0 beibehalten, bei xy n1 22 n2 2 1 z1 2 wird H 0 abgelehnt. Sind die Stichprobenumfänge klein und die Merkmale in den Grundgesamtheiten normalverteilt und gilt zusätzlich 12 22 2 , so wird die Testgröße X n1 Yn2 ˆ 2 n1 ˆ 2 n2 X n1 Yn2 n n ˆ 1 2 n1 n2 den. Dabei wird ˆ 2 genommen. Diese ist t-verteilt mit n1 n2 2 Freiheitsgra- aus den Beobachtungen beider Stichproben geschätzt: Mit 2 t12 1 n1 1 n2 n t n2 t22 2 2 xi x und t22 yi y wird ˆ 2 1 1 gesetzt. Im 2. Schritt n1 i 1 n2 i 1 n1 n2 2 bestimmt man aus einer Tabelle der Verteilungsfunktion Tn1 n2 2 ( x) der t-Verteilung mit n1 n2 2 Freiheitsgraden denjenigen Wert z1 2 mit 2 Tn1 n2 2 ( z1 2 ) 1 1 bzw. Tn1 n2 2 ( z1 2 ) ten; bei 1 1 1 . Im 4. Schritt wird bei 2 2 xy z1 2 wird H 0 abgelehnt. n1 n2 ˆ n1 n2 xy z1 2 H 0 beibehaln1 n2 ˆ n1 n2 396 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Hypothesentest für den Vergleich von Varianzen Es werden zwei Stichproben x1 , ..., xn1 und y1 , ..., yn2 als Realisierung der Zufallsvektoren X , ..., X und Y , ..., Y unabhängig voneinander genommen, und man möchte feststellen, 1 n1 1 n2 ob sie derselben Grundgesamtheit entstammen bzw. ob sie wenigstens Grundgesamtheiten mit denselben Varianzen entnommen wurden. Die Nullhypothese lautet H 0 : 12 22 2 . Es sei X n1 1 n1 1 n2 n S2 X i und Yn2 Yi . Die Zufallsvariable 1 2 1 ist 2 -verteilt mit n1 i 1 n2 i 1 n1 1 Freiheitsgraden; hierbei ist S12 1 n1 n S2 2 X i X n1 . Die Zufallsvariable 2 2 2 ist 2 n1 i 1 1 n2 verteilt mit n2 1 Freiheitsgraden; hierbei ist S Yi Yn2 n2 i 1 2 2 . Die Zufallsvariable 2 n1 S12 n 1 ist F-verteilt mit den Freiheitsgraden n1 1 und n2 1 . Fnn2111 1 n2 2 S2 n2 1 Es werden folgende Schritte ausgeführt: 1. Schritt: Man wählt ein Vertrauensniveau 1 . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion FF n11 der F-Verteilung mit den Frein2 1 heitsgraden n1 1 und n2 1 bestimmt man diejenigen Werte z 2 mit FF n11 z 2 2 und z1 2 mit FF n11 z1 2 1 2 . n2 1 n2 1 1 n1 1 n2 2 2 2 3. Schritt: Man berechnet die Werte s xi x und s2 yi y mit n1 i 1 n2 i 1 2 1 x 1 n1 1 n2 xi und y yi . n1 i 1 n2 i 1 7.10 Hypothesentests 397 n1 n1 s12 s12 n1 1 n1 1 4. Schritt: Bei z 2 z1 2 wird H 0 beibehalten; bei z 2 oder n2 n2 2 2 s2 s2 n2 1 n2 1 n1 s12 n1 1 z1 2 wird H 0 abgelehnt. n2 2 s2 n2 1 Anpassungstest Bei einem Anpassungstest prüft man, ob ein Merkmal X in einer Grundgesamtheit einer vorgegebenen Verteilung genügt. Das Merkmal besitze die unbekannte Verteilungsfunktion F. Man untersucht also nicht einzelne Parameter wie Erwartungswert oder Varianz der Verteilung, sondern stellt eine Hypothese über die gesamte Verteilung auf. Man bezeichnet einen derartigen Test auch als nichtparametrischen Test. Ein prominenter Vertreter von Anpassungstests ist der 2 -Anpassungstest. Die Nullhypothese lautet in diesem Fall: H 0 : F F0 , wobei F0 eine vollständig bekannte Verteilungsfunktion ist. Man geht wie folgt vor, um die Nullhypothese zu bestätigen oder zu verwerfen. Man zerlegt die Menge der reellen Zahlen in r paarweise disjunkte Mengen Sk . Es sei k die Wahrscheinlichkeit, dass X einen Wert in Sk annimmt. Nimmt man für Sk beispielsweise das Intervall ak , ak 1 , dann ist k F0 ak 1 F0 ak für k 1, ..., r 1 . Es wird eine unabhängige Stichprobe x1 , ..., xn genommen. Die Anzahl der Beobachtungen im Intervall r 2 k 1 ak , ak 1 nk n k 2 n k sei nk . Für festes k ist nk binomialverteilt. Die Testgröße ist für großes n (Faustregel n k 10 ) asymptotisch 2 -verteilt mit r 1 Freiheitsgraden. Im Einzelnen führt man die folgenden Schritte aus: 1. Schritt: Man wählt den Fehler 1. Art . 398 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F 2 ( x) der 2 -Verteilung mit r 1 Freiheitsgraden bestimmt man denjenigen Wert z1 mit F 2 z1 1 . r 3. Schritt: Man berechnet k 1 4. Schritt: Bei r r k 1 n k nk n k 2 z 1 wird H 0 beibehalten; nk n k 2 z 1 wird H 0 abgelehnt. n k k 1 bei nk n k 2 . n k Ist die hypothetische Verteilungsfunktion F0 nicht vollständig bekannt – man weiß etwa nur, dass sie einer Klasse von Verteilungsfunktionen angehört, jedoch fehlt die Kenntnis einiger ihrer Parameter – , so kann man eventuell nach dem Maximum-Likelihood-Prinzip (siehe Kapitel 7.8) verfahren. Weiß man etwa, dass die Verteilungsfunktion F0 über die Dichtefunktion f 0 1 , ..., m definiert ist, wobei 1 , ..., m unbekannt sind, so nimmt man eine unabhängige n Stichprobe x1 , ..., xn und bildet L f 0 xi , 1 , ..., m . Die unbekannten Parameterwerte i 1 1 , ..., m werden geschätzt, und zwar durch die Lösungen, die sich aus den Gleichungen ln L 0 für i 1, ..., m ergeben. Anschließend kann man wie im obigen Anpassungstest i fortfahren. Unabhängigkeitstests Die Elemente einer Stichprobe werden im Hinblick auf zwei Merkmale X und Y klassifiziert. Der Bereich der möglichen Werte von X wird in r Gruppen, der Bereich der möglichen Werte von Y wird in s Gruppen eingeteilt. Es wird eine Stichprobe vom Umfang n genommen. Mit ni , k für i 1, ..., r und k 1, ..., s werde die Anzahl der Stichprobenelemente, die zur i-ten Gruppe bezüglich des Merkmals X und zur k-ten Gruppe bezüglich des Merkmals Y gehören. Die Anzahl der Stichprobenelemente in Gruppe i bezüglich des Merkmals X ist dann gleich s ni , ni , k . Die Anzahl der Stichprobenelemente in Gruppe k bezüglich des Merkmals Y ist k 1 r r s gleich n, k ni , k . Außerdem gilt n ni , k . i 1 i 1 k 1 399 7.10 Hypothesentests Anzahl der Stichprobenelemente Gruppe 1 bzgl. Y Gruppe 2 bzgl. Y . . . Gruppe s bzgl. Y Gruppe 1 bzgl. X n1,1 n1, 2 . . . n1, s n1, Gruppe 2 bzgl. X n2,1 n2, 2 ... n1, s n2, . . . nr ,1 . . . ... ... ... nr , 2 ... . . . nr , s . . . nr , n,1 n, 2 ... n, s n . . . Gruppe r bzgl. X zusammen n, k zusammen ni , Es wird die folgende Nullhypothese aufgestellt: H 0 : Die Merkmale X und Y sind stochastisch unabhängig. Bezeichnet pi , k für i 1, ..., r und k 1, ..., s die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Element bezüglich des Merkmals X zur i-ten Gruppe und bezüglich des Merkmals Y zur k-ten Gruppe gehört, und bezeichnen pi , und p, k die entsprechenden Randwahrscheinlichkeiten, dann ist die Hypothese H 0 äquivalent zu pi , k pi , p, k für i 1, ..., r und k 1, ..., s , wobei r s i 1 k 1 pi, p,k 1 gilt. Die Hypothese H 0 sagt nichts über die r s vielen Werte pi , und p, k aus. Zwei dieser r pi, 1 und Werte lassen sich aus den beiden Gleichungen i 1 s p k 1 , k 1 bestimmen, so dass r s 2 Werte unbekannt sind. Die unbekannten Parameter pi , und p, k werden gemäß dem Maximum-Likelihood-Prinzip ermittelt: Bei Gültigkeit von H 0 ist r s n r s L pi ,ik,k pi , p, k i 1 k 1 i 1 k 1 r ni ,k r 1 n n i 1 k 1 r pr , und p, s ergeben sich aus s r s n n pi ,i ,k p,ik,k pi ,i , p,k,k . p i 1 i , 1 bzw. i 1 s p k 1 , k k 1 1 zu s 1 pr , 1 pi , und p, s 1 p, k . i 1 r 1 Damit ist L 1 pi , i 1 k 1 nr , s 1 1 p, k k 1 n , s r 1 n s 1 n pi ,i , p,k,k und i 1 k 1 s 1 r 1 s 1 r 1 ln L nr , ln1 pi , n, s ln1 p, k ni , ln pi , n, k ln p, k . k 1 i 1 k 1 i 1 400 Ausgewählte Themen der Wahrscheinlichkeitstheorie und Statistik Daraus ergibt sich das Gleichungssystem nr , n n n ln L i , i , r , 0 für i 1, ..., r 1 , r 1 pi , pi , pi , pr , 1 pi , i 1 ln L p, k n, s s 1 1 p, k n, k p, k n, k p, k n, s p, s 0 für k 1, ..., s 1 . k 1 Setzt man A nr , und B pr , n, s p, s , so folgt pi , ni , A für i 1, ..., r und p, k n, k B für k 1, ..., s . r r ni, i 1 A Es ist 1 pi , i 1 r s n und 1 p, k A k 1 n k 1 , k B n , also A B n . B Insgesamt ergibt sich n n pi , i , für i 1, ..., r und p, k , k für k 1, ..., s . n n r Wie im obigen Anpassungstest (dort lautet die Testgröße 2 k 1 Testgröße r s 2 n i,k i 1 k 1 n pi , k nk n k 2 ) wird jetzt die n k 2 n pi , k gewählt. Bei Gültigkeit der Nullhypothese ist pi , k pi , p, k ; die Werte und pi , für i 1, ..., r und p, k für k 1, ..., s wurden nach dem Maximum-Likelihood-Prinzip bestimmt. Damit ist 2 r s 2 n n pi , p, k 2 i,k n pi , p, k i 1 k 1 2 n n n n ni , k i , , k ni , k i , , k r s r s n n . Da aus n ni , n, k ni , n, k i 1 k 1 i 1 k 1 n der Stichprobe r s 2 Parameter pi , für i 1, ..., r 1 und p, k für k 1, ..., s 1 bestimmt wurden (die beiden Parameter pr , und p, s liegen damit fest), besitzt diese Testgröße asymptotisch eine 2 -Verteilung mit r s r s 2 1 r 1 s 1 Freiheitsgraden. Der so konstruierte Unabhängigkeitstest lautet: 1. Schritt: Man wählt den Fehler 1. Art . 2. Schritt: Aus einer Tabelle der Verteilungsfunktion F 2 ( x) der 2 -Verteilung mit r 1 s 1 Freiheitsgraden F z1 1 . 2 bestimmt man denjenigen Wert z1 mit 7.10 Hypothesentests 2 n n ni , k i , , k r s n 3. Schritt: Man berechnet 2 n . ni , n, k i 1 k 1 2 n n ni , k i , , k r s n 4. Schritt: Bei n z1 wird H 0 beibehalten; ni , n, k i 1 k 1 2 ni , n, k n i k , r s n bei n z1 wird H 0 abgelehnt. ni , n, k i 1 k 1 401 In der Reihe FINAL sind bisher erschienen: 1. Jahrgang 1991: 1. Hinrich E. G. Bonin; Softwaretechnik, Heft 1, 1991 (ersetzt durch Heft 2, 1992). 2. Hinrich E. G. Bonin (Herausgeber); Konturen der Verwaltungsinformatik, Heft 2, 1991 (überarbeitet und erschienen im Wissenschaftsverlag, Bibliographisches Institut & F. A. Brockhaus AG, Mannheim 1992, ISBN 3-411-15671-6). 2. Jahrgang 1992: 1. Hinrich E. G. Bonin; Produktionshilfen zur Softwaretechnik --- Computer-Aided Software Engineering --- CASE, Materialien zum Seminar 1992, Heft 1, 1992. 2. Hinrich E. G. Bonin; Arbeitstechniken für die Softwareentwicklung, Heft 2, 1992 (3. überarbeitete Auflage Februar 1994), PDF-Format. 3. Hinrich E. G. Bonin; Object-Orientedness --- a New Boxologie, Heft 3, 1992. 4. Hinrich E. G. Bonin; Objekt-orientierte Analyse, Entwurf und Programmierung, Materialien zum Seminar 1992, Heft 4, 1992. 5. Hinrich E. G. Bonin; Kooperative Produktion von Dokumenten, Materialien zum Seminar 1992, Heft 5, 1992. 3. Jahrgang 1993: 1. Hinrich E. G. Bonin; Systems Engineering in Public Administration, Proceedings IFIP TC8/ WG8.5: Governmental and Municipal Information Systems, March 3--5, 1993, Lüneburg, Heft 1, 1993 (überarbeitet und erschienen bei North-Holland, IFIP Transactions A-36, ISSN 0926-5473). 2. Antje Binder, Ralf Linhart, Jürgen Schultz, Frank Sperschneider, Thomas True, Bernd Willenbockel; COTEXT --- ein Prototyp für die kooperative Produktion von Dokumenten, 19. März 1993, Heft 2, 1993. 3. Gareth Harries; An Introduction to Artificial Intelligence, April 1993, Heft 3, 1993. 4. Jens Benecke, Jürgen Grothmann, Mark Hilmer, Manfred Hölzen, Heiko Köster, Peter Mattfeld, Andre Peters, Harald Weiss; ConFusion --- Das Produkt des AWÖ-Projektes 1992/93, 1. August 1993, Heft 4, 1993. 5. Hinrich E. G. Bonin; The Joy of Computer Science --- Skript zur Vorlesung EDV ---, September 1993, Heft 5, 1993 (4. ergänzte Auflage März 1995). 6. Hans-Joachim Blanke; UNIX to UNIX Copy --- Interactive application for installation and configuration of UUCP ---, Oktober 1993, Heft 6, 1993. 4. Jahrgang 1994: 1. Andre Peters, Harald Weiss; COMO 1.0 --- Programmierumgebung für die Sprache COBOL --- Benutzerhandbuch, Februar 1994, Heft 1, 1994. 2. Manfred Hölzen; UNIX-Mail --- Schnelleinstieg und Handbuch ---, März 1994, Heft 2, 1994. 3. Norbert Kröger, Roland Seen; EBrain --- Documentation of the 1994 AWÖ-Project Prototype ---, June 11, 1994, Heft 3, 1994. 4. Dirk Mayer, Rainer Saalfeld; ADLATUS --- Documentation of the 1994 AWÖ-Project Prototype -- -, July 26, 1994, Heft 4, 1994. 5. Ulrich Hoffmann; Datenverarbeitungssystem 1, September 1994, Heft 5, 1994. (2. überarbeitete Auflage Dezember 1994). 6. Karl Goede; EDV-gestützte Kommunikation und Hochschulorganisation, Oktober 1994, Heft 6 (Teil 1), 1994. 7. Ulrich Hoffmann; Zur Situation der Informatik, Oktober 1994, Heft 6 (Teil 2), 1994. 5. Jahrgang 1995: 1. Horst Meyer-Wachsmuth; Systemprogrammierung 1, Januar 1995, Heft 1, 1995. 2. Ulrich Hoffmann; Datenverarbeitungssystem 2, Februar 1995, Heft 2, 1995. 3. Michael Guder / Kersten Kalischefski / Jörg Meier / Ralf Stöver / Cheikh Zeine; OFFICE-LINK --- Das Produkt des AWÖ-Projektes 1994/95, März 1995, Heft 3, 1995. 4. Dieter Riebesehl; Lineare Optimierung und Operations Research, März 1995, Heft 4, 1995. 5. Jürgen Mattern / Mark Hilmer; Sicherheitsrahmen einer UTM-Anwendung, April 1995, Heft 5, 1995. 6. Hinrich E. G. Bonin; Publizieren im World-Wide Web --- HyperText Markup Language und die Kunst der Programmierung ---, Mai 1995, Heft 6, 1995. 7. Dieter Riebesehl; Einführung in Grundlagen der theoretischen Informatik, Juli 1995, Heft 7, 1995. 8. Jürgen Jacobs; Anwendungsprogrammierung mit Embedded-SQL, August 1995, Heft 8, 1995. 9. Ulrich Hoffmann; Systemnahe Programmierung, September 1995, Heft 9, 1995 (ersetzt durch Heft 1, 1999). 10. Klaus Lindner; Neuere statistische Ergebnisse, Dezember 1995, Heft 10, 1995. 6. Jahrgang 1996: 1. Jürgen Jacobs / Dieter Riebesehl; Computergestütztes Repetitorium der Elementarmathematik, Februar 1996, Heft 1, 1996. 2. Hinrich E. G. Bonin; "Schlanker Staat" & Informatik, März 1996, Heft 2, 1996. 3. Jürgen Jacobs; Datenmodellierung mit dem Entity-Relationship-Ansatz, Mai 1996, Heft 3, 1996. 4. Ulrich Hoffmann; Systemnahe Programmierung, (2. überarbeitete Auflage von Heft 9, 1995), September 1996, Heft 4, 1996 (ersetzt durch Heft 1, 1999). 5. Dieter Riebesehl; Prolog und relationale Datenbanken als Grundlagen zur Implementierung einer NF2-Datenbank (Sommer 1995), November 1996, Heft 5, 1996. 7. Jahrgang 1997: 1. Jan Binge, Hinrich E. G. Bonin, Volker Neumann, Ingo Stadtsholte, Jürgen Utz; Intranet/Internet- Technologie für die Öffentliche Verwaltung --- Das AWÖ-Projekt im WS96/97 --(Anwendungen in der Öffentlichen Verwaltung), Februar 1997, Heft 1, 1997. 2. Hinrich E. G. Bonin; Auswirkungen des Java-Konzeptes für Verwaltungen, FTVI'97, Oktober 1997, Heft 2, 1997. 8. Jahrgang 1998: 1. Hinrich E. G. Bonin; Der Java-Coach, Heft 1, Oktober 1998, (CD-ROM, PDF-Format; aktuelle Fassung). 2. Hinrich E. G. Bonin (Hrsg.); Anwendungsentwicklung WS 1997/98 --- Programmierbeispiele in COBOL & Java mit Oracle, Dokumentation in HTML und tcl/tk, September 1998, Heft 2, 1998 (CD-ROM). 3. Hinrich E. G. Bonin (Hrsg); Anwendungsentwicklung SS 1998 --- Innovator, SNiFF+, Java, Tools, Oktober 1998, Heft 3, 1998 (CD-ROM). 4. Hinrich E. G. Bonin (Hrsg); Anwendungsentwicklung WS 1998 --- Innovator, SNiFF+, Java, Mail und andere Tools, November 1998, Heft 4, 1998 (CD-ROM). 5. Hinrich E. G. Bonin; Persistente Objekte --- Der Elchtest für ein Java-Programm, Dezember 1998, Heft 5, 1998 (CD-ROM). 9. Jahrgang 1999: 1. Ulrich Hoffmann; Systemnahe Programmierung (3. überarbeitete Auflage von Heft 9, 1995), Juli 1999, Heft 1, 1999 (CD-ROM und Papierform), Postscript-Format, zip-Postscript-Format, PDF-Format und zip-PDF-Format. 10. Jahrgang 2000: 1. Hinrich E. G. Bonin; Citizen Relationship Management, September 2000, Heft 1, 2000 (CDROM und Papierform), PDF-Format. 2. Hinrich E. G. Bonin; WI>DATA --- Eine Einführung in die Wirtschaftsinformatik auf der Basis der Web_Technologie, September 2000, Heft 2, 2000 (CD-ROM und Papierform), PDFFormat. 3. Ulrich Hoffmann; Angewandte Komplexitätstheorie, November 2000, Heft 3, 2000 (CD-ROM und Papierform), PDF-Format. 4. Hinrich E. G. Bonin; Der kleine XMLer, Dezember 2000, Heft 4, 2000 (CD-ROM und Papierform), PDF-Format, aktuelle Fassung. 11. Jahrgang 2001: 1. Hinrich E. G. Bonin (Hrsg.): 4. SAP-Anwenderforum der FHNON, März 2001, (CD-ROM und Papierform), Downloads & Videos. 2. J. Jacobs / G. Weinrich; Bonitätsklassifikation kleiner Unternehmen mit multivariater linear Diskriminanzanalyse und Neuronalen Netzen; Mai 2001, Heft 2, 2001, (CD-ROM und Papierform), PDF-Format und MS Word DOC-Format 3. K. Lindner; Simultanttestprozedur für globale Nullhypothesen bei beliebiger Abhängigkeitsstruktur der Einzeltests, September 2001, Heft 3, 2001 (CD-ROM und Papierform). 12. Jahrgang 2002: 1. Hinrich E. G. Bonin: Aspect-Oriented Software Development. März 2002, Heft 1, 2002 (CDROM und Papierform), PDF-Format. 2. Hinrich E. G. Bonin: WAP & WML --- Das Projekt Jagdzeit ---. April 2002, Heft 2, 2002 (CDROM und Papierform), PDF-Format. 3. Ulrich Hoffmann: Ausgewählte Kapitel der Theoretischen Informatik (CD-ROM und Papierform), PDF-Format. 4. Jürgen Jacobs / Dieter Riebesehl; Computergestütztes Repetitorium der Elementarmathematik, September 2002, Heft 4, 2002 (CD-ROM und Papierform), PDFFormat. 5. Verschiedene Referenten; 3. Praxisforum "Systemintegration", 18.10.2002, Oktober 2002, Heft 5, 2002 (CD-ROM und Papierform), Praxisforum.html (Web-Site). 13. Jahrgang 2003: 1. Ulrich Hoffmann; Ausgewählte Kapitel der Theoretischen Informatik; Heft 1, 2003, (CD-ROM und Papierform) PDF-Format. 2. Dieter Riebesehl; Mathematik 1, Heft 2, 2003, (CD-ROM und Papierform) PDF-Format. 3. Ulrich Hoffmann; Mathematik 1, Heft 3, 2003, (CD-ROM und Papierform) PDF-Format und Übungen. 4. Verschiedene Autoren; Zukunft von Verwaltung und Informatik, Festschrift für Heinrich Reinermann, Heft 4, 2003, (CD-ROM und Papierform) PDF-Format. 14. Jahrgang 2004: 1. Jürgen Jacobs; Multilayer Neural Networks; Heft 1, 2004, (CD-ROM und Papierform) PDFFormat. 15. Jahrgang 2005: 1. Ulrich Hoffmann; Mathematik für Wirtschaftsinformatiker; Heft 1, 2005, (CD-ROM und Papierform) PDF-Format. 2. Ulrich Hoffmann; Übungen & Lösungen zur Mathematik für Wirtschaftsinformatiker; Heft 1, 2005, (CD-ROM und Papierform) PDF-Format. 3. Ulrich Hoffmann; Datenstrukturen & Algorithmen; Heft 2, 2005, (CD-ROM und Papierform) PDF-Format. 16. Jahrgang 2006: 1. Hinrich E. G. Bonin; Systemanalyse für Softwaresysteme; Heft 1, August 2006, (CD-ROM und Papierform) PDF-Format. 2. Hinrich E. G. Bonin; Faszination Programmierung; Heft 2, August 2006, (CD-ROM und Papierform) PDF-Format. 3. Dieter Riebesehl; Strukturanalogien in Datenmodellen, Heft 3, Dezember 2006, (CD-ROM und Papierform) PDF-Format. 17. Jahrgang 2007: 1. Ulrich Hoffmann; Ausgewählte Kapitel der Theoretischen Informatik; Heft 1, August 2007, (CD-ROM und Papierform) PDF-Format. 2. Ulrich Hoffmann; Mathematik für Wirtschaftsinformatiker und Informatiker; Heft 2, August 2007, (CD-ROM und Papierform) PDF-Format. 3. Hinrich E. G. Bonin; Der Java-Coach, Heft 3, September 2007, (CD-ROM und Papierform) PDF-Format. 4. Jürgen Jacobs; Dichteprognose autoregressiver Zeitreihen, Heft 4, September 2007, (CDROM und Papierform) PDF-Format. 18. Jahrgang 2008: 1. Verschiedene Autoren; Festschrift für Prof. Dr. Meyer-Wachsmuth; Heft 1, Juli 2008, (CDROM und Papierform) PDF-Format. 2. Ulrich Hoffmann; Ausgewählte Kapitel der Theoretischen Informatik; Heft 2, Dezember 2008, (CD-ROM und Papierform) PDF-Format. 19. Jahrgang 2009: 1. Verschiedene Autoren; Festschrift für Prof. Dr. Goede; Heft 1, August 2009, (CD-ROM und Papierform) PDF-Format. 20. Jahrgang 2010: 1. Hinrich E. G. Bonin; Konstrukte, Konstruktionen, Konstruktionsempfehlungen – Programmieren in LISP; Heft 1, März 2010, (CD-ROM und Papierform) PDF-Format. 2. Verschiedene Autoren; Festschrift für Prof. Dr. Bonin; Heft 2, April 2010, (CD-ROM und Papierform) PDF-Format. 3. Verschiedene Autoren; Frühwarnindikatoren und Risikomanagement, 1. Forschungssymposiuman der Leuphana Universität Lüneburg, Oktober 2009; Heft 3, April 2010, (CD-ROM und Papierform) PDF-Format. 21. Jahrgang 2011: 1. Verschiedene Autoren; Frühwarnindikatoren und Risikomanagement, 2. Forschungssymposium an der Leuphana Universität Lüneburg, November 2010; Heft 1, Februar 2011, (CD-ROM und Papierform) PDF-Format. 22. Jahrgang 2012: 1. Andreas Mastel, Jürgen Jacobs; Mining User-Generated Financial Content to Predict Stock Price Movements, Heft 1, Dezember 2012, (CD-ROM und Papierform) PDF-Format. 23. Jahrgang 2013: 1. Ulrich Hoffmann; Mathematik für Wirtschaftsinformatik, Heft 1, Oktober 2013, (Papierform) PDF-Format. Herausgeber der Schriftenreihe FINAL: Prof. Dr. Ulrich Hoffmann Leuphana Universität Lüneburg, Scharnhorststraße 1, D-21335 Lüneburg, Germany email: [email protected] Verlag: Eigenverlag (Fotographische Vervielfältigung), Leuphana Universität Lüneburg (vormals Fachhochschule Nordostniedersachsen) Erscheinungsweise: ca. 4 Hefte pro Jahr. Für unverlangt eingesendete Manuskripte wird nicht gehaftet. Sie sind aber willkommen. Digitales FInAL-Archiv: http://www.leuphana.de/institute/iwi/final.html Copyright: All rights, including translation into other languages reserved by the authors. No part of this report may be reproduced or used in any form or by any means --- graphic, electronic, or mechanical, including photocopying, recording, taping, or information and retrieval systems --- without written permission from the authors, except for noncommercial, educational use, including classroom teaching purposes. Copyright: Hoffmann Apr-1995,..., Oktober 2013, all rights reserved