Apl.-Prof. Dr. Jens Wirth Institut für Analysis, Dynamik und Modellierung Universität Stuttgart Schulmathematik vom Höheren Standpunkt Sommersemester 2017 c Jens Wirth Inhaltsverzeichnis 0 Einleitung 5 1 Zahlen 1.1 Natürliche Zahlen . . . . . . . . . . . . 1.2 Zahl und Maß . . . . . . . . . . . . . . 1.3 Kettenbrüche . . . . . . . . . . . . . . 1.4 Unendliche Kettenbrüche . . . . . . . . 1.5 Die Suche nach π . . . . . . . . . . . . 1.6 Algebraische und transzendente Zahlen 2 Funktionen 2.1 Polynome . . . . . . . . . . . . . . 2.2 Polynomgleichungen . . . . . . . . 2.3 Potenz- und Logarithmusfunktionen 2.4 Trigonometrische Funktionen . . . 2.5 Hyperbelfunktionen . . . . . . . . . 2.6 Arcus- und Areafunktionen . . . . . 2.7 Fortsetzungen ins Komplexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 7 7 16 21 27 30 . . . . . . . 37 37 45 48 58 73 77 85 3 Strukturen 95 3.1 Axiomatischer Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2 Konstruktiver Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3 Axiome und Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 3 Inhaltsverzeichnis 4 0 Einleitung Warum das Ganze? Mathematik ist mehr als die Gesamtheit auswendigzulernender Aussagen, mehr als ein Spiel mit Axiomatik und logischen Folgerungen. Mathematik ist ebenso Kulturgeschichte der Menschheit, Ergebnis einer langen und historisch bedingten Entwicklung und damit auch im Wechselspiel mit außermathematischen Einflüssen zu verstehen. Wir legen hier keinen Wert auf eine brilliant saubere Formulierung ausgehend von Axiomen, die für sich genommen nur die zugrundeliegenden logischen Zusammenhänge formalisieren aber keine darüber hinausgehende Bedeutung besitzen. Wir fragen stattdessen lieber nach dem Warum? bei Definitionen und interessieren uns, wieso man Mathematik genau in dieser Weise tut. Wir wollen Mathematik, also insbesondere die Elementarmathematik, vor ihrem historischen Hintergrund aber nichtsdestotrotz mathematisch sauber betrachten. Inhalte der Vorlesung knüpfen an den Schulstoff an, Schlagwörter erinnern mit Absicht an aktuelle Bildungspläne. Die Aufbereitung ist historisch motiviert, der Großteil der Darstellung selbst aber aus der Blickrichtung der Analysis gestaltet. Wir betrachten in den folgenden Abschnitten (1) Zahlen Kommensurabilität und Inkommensurabilität von Strecken. Kettenbruchsdarstellungen. Rationale Approximationen. Geometrische Konzepte. Irrationalität und Transzendenz. (2) Funktionen Elementarfunktionen und deren Definition. Grundlegende Eigenschaften. Funktionalgleichungen. Differenzierbarkeit und Stetigkeit. Analytizität. (3) Grundlegende Konzepte moderner Mathematik Mengenlehre. Axiomatische Modelle im Rahmen der Mengenlehre. Es gibt kein Buch, dem wir direkt folgen. Allerdings empfiehlt es sich einen Blick in die beiden Bände Felix Klein. Elementarmathematik vom Höheren Standpunkte aus. (Springer-Verlag 1924-28) zu werfen. Felix Klein war der erste, der eine Vorlesung zur Elementarmathematik speziell für Lehramtsstudenten angeboten hat. Ebenso lesenswert, aber schwer zu finden, sind Skripte späterer Vorlesungen zur Schulmathematik, wie zum Beispiel Hellmuth Kneser. Wissenschaftliche Grundlagen der Schulmathematik. (Vorlesungsskript. Universität Tübingen 1954) 5 0 Einleitung 6 1 Zahlen 1.1 Natürliche Zahlen Über natürliche Zahlen N = {1, 2, 3, . . . } (1.1.1) kann man viel berichten, wir setzen diese trotz allem sowohl konzeptionell als auch inhaltlich voraus1 und beschäftigen uns mit weiterführenden Zahlkonzepten. Die natürlichen Zahlen hat der liebe Gott gemacht, alles andere ist Menschenwerk. (Leopold Kronecker) 1.2 Zahl und Maß Die natürlichen Zahlen treten natürlich beim Zählen von Objekten auf. Ein neuartiger und von den natürlichen Zahlen abweichender Zahlbegriff tritt auf, wenn man statt (zählbarer) Entitäten geometrische Objekte in ihrer Größe vergleichen will. Damit verbundene Probleme sind typisch für die Mathematik der griechischen Antike. Wir müssen dazu etwas ausholen und einen Exkurs zur Geometrie unternehmen. Unser Ziel ist es, die Länge einer Strecke im Vergleich zu einer gegebenen Strecke (einer Längeneinheit) zu bestimmen. Dazu nutzen wir • ein Lineal, welches es uns erlaubt durch zwei gegebene Punkte eine Gerade zu zeichnen; • einen Zirkel, der es uns nur erlaubt Längen zu übertragen; sowie zum wirklichen messen eine vorgegebene Referenzstrecke. Wir nehmen an, dass Punkte und Geraden Objekte der ebenen Euklidischen Geometrie sind. Andere Geometrien waren den Griechen der Antike auch nicht bekannt... 1 Zu bemerken ist allerdings, dass natürliche Zahlen in zwei Konzepten auftreten. Sie sind einerseits Ordinalzahlen und beschreiben als solche die Anordnung von Objekten. Verstanden als Ordinalzahlen beginnen die natürlichen Zahlen bei Eins und das ist die Konvention der wir hier folgen werden. sowie andererseits Kardinalzahlen und beschreiben in dieser Eigenschaft Anzahlen von Objekten. Verstanden als Kardinalzahlen ist es natürlich, die natürlichen Zahlen bei Null beginnen zu lassen. 7 1 Zahlen Die erlaubten Operationen beschränken sich damit auf (1) das Zeichnen eines beliebigen Punktes; (2) das Zeichnen einer Geraden durch zwei gegebene Punkte; (3) das Bestimmen des Schnittpunktes zweier gegebener Geraden (so existent); (4) das Aufnehmen des Abstandes zweier Punkte in den Zirkel und Abtragen des Abstands von einem gegebenen Punkt einer Geraden in eine vorgegebene (durch ein Punktepaar bestimmte) Richtung; (5) das Feststellen, dass zwei Punkte übereinstimmen. (6) das Feststellen, ob ein Punkt auf einer Geraden zwischen zwei anderen Punkten liegt. Das ist im Gegensatz zu sonst üblichen Konstruktionen mit Zirkel und Lineal eine eingeschränkte Nutzbarkeit des Zirkels. Für unser Messproblem ist sie allerdings ausreichend. Für Konstruktionen nutzt man einen besseren Zirkel. Dieser kann zusätzlich (7) um einen gegebenen Punkt einen Kreis mit einem vorher aufgenommenen Abstand als Radius zeichnen; (8) die Schnittpunkte des Kreises mit schon vorher gezeichneten Kreisen oder Geraden (so existent) bestimmen. Man beachte, dass das ideale Lineal sehr mächtig ist. Es kann insbesondere zu zwei gegebenen Geraden (also zwei Punktepaaren) bestimmen, ob sich die beiden Geraden schneiden oder ob sie parallel sind. Ebenso ist der Zirkel mächtig, er kann bestimmen ob eine Gerade weiter als der aufgenommene Abstand von einem Punkt entfernt ist. Alle diese Operationen sind nicht als näherungsweise ausgeführt sondern als exakt zu verstehen. Im folgenden bezeichne P die Menge der Punkte der Ebene. Unter einer Strecke verstehen wir ein Paar von Punkten. Die Gesamtheit aller Strecken sei mit S bezeichnet, es gilt also S = {A, B} : A, B ∈ P, A 6= B , (1.2.1) manchmal sollten Strecken orientiert sein, dann nutzt man alternativ So = (A, B) : A, B ∈ P, A 6= B . (1.2.2) Durch vergessen der Orientierung kann man Elementen von So Elemente aus S zuordnen. Weiter nennen wir zwei Strecken a ∈ S und b ∈ S kongruent, in Zeichen a ' b, wenn sie mit dem Zirkel aufeinander abtragbar, also von gleicher Länge, sind. Kongruenz von Strecken ist eine Äquivalenzrelation auf S. Offenbar gilt stets a ' a. Weiterhin ist die Symmetrie der Relation a'b gilt genau dann, wenn b'a (1.2.3) eine direkte Folgerung aus der Symmetrie des Zirkels (also den beiden ununterscheidbaren Spitzen des Zirkels). Ebenso ist die Transitivität der Relation a'b und b'c impliziert a'c (1.2.4) konstruktionsbedingt klar. Wir können Operationen für Strecken definieren. Dazu verwenden wir zuerst orientierte Strecken und definieren zu a ∈ So und b ∈ So ihre Summe a + b als diejenige (orientierte) Strecke, die entsteht, wenn man die im Zirkel aufgenommene Strecke b auf der durch a bestimmten Geraden über den Endpunkt hinaus abträgt. 8 1.2 Zahl und Maß Proposition 1.2.1. Für a, b ∈ So gilt a + b ' b + a. (1.2.5) Motivation und Beweis. Für einen Beweis siehe nachfolgendes Bild. Die Strecken a und b sind dazu parallel gewählt, sich entsprechende Dreiecke sind aufgrund einer übereinstimmenden Seite und gleicher Winkel kongruent. Proposition 1.2.2. Seien a, b, c ∈ So und gelte a ' b. Dann folgt a + c ' b + c. Proposition 1.2.3. Seien a, b, c ∈ So gilt a + (b + c) ' (a + b) + c. Weiter sei zu einer Strecke a ∈ So und einer natürlichen Zahl n durch n·a ∈ So die Strecke, die durch n-faches Abtragen ihrer Länge auf der durch die Strecke verlaufenden Geraden entsteht, bezeichnet. Es gilt also 1 · a := a, (n + 1) · a := n · a + a. (1.2.6) Wie zu erwarten gilt dann Proposition 1.2.4. Seien a, b ∈ So und n ∈ N. Dann gilt n · (a + b) ' n · a + n · b. Beweis. Wir zeigen dies per Induktion über n. Für n = 1 gilt offenbar a + b ' a + b. Für den Induktionsschritt nehmen wir an, für ein n ∈ N sei n · (a + b) ' n · a + n · b (1.2.7) gezeigt. Dann gilt nach Definition und Proposition 1.2.2 (n + 1) · (a + b) ' n · (a + b) + a + b ' n · a + n · b + a + b ' (n + 1) · a + (n + 1) · b (1.2.8) und die Behauptung folgt per Induktion. 9 1 Zahlen Das Rechnen mit natürlichen Zahlen überträgt sich auf Strecken, es gilt Proposition 1.2.5. Für a, b ∈ So und m, n ∈ N gilt m · a + n · a ' (m + n) · a ' n · a + m · a, (1.2.9) m · (n · a) ' (mn) · a ' n · (m · a). (1.2.10) sowie Beweis.2 Wir beginnen mit der Addition. Da wir nach Proposition 1.2.1 schon m · a + n · a ' n · a + m · a wissen, genügt es, die erste der Identitäten zu zeigen. Da die Strecke n · a für a ∈ So und n ∈ N rekursiv definiert ist, bietet sich hier ein Induktionsbeweis an. Wir führen Induktion über n, der Induktionsanfang ist durch die Aussage m · a + a ' (m + 1) · a (1.2.11) gegeben, diese entspricht der Definition. Sei nun weiter schon für ein n m · a + n · a ' (m + n) · a (1.2.12) gezeigt. Dann gilt nach Definition und Proposition 1.2.2 und 1.2.3 m · a + (n + 1) · a ' m · a + n · a + a ' (m + n) · a + a ' (m + n + 1) · a (1.2.13) und die Behauptung folgt per Induktion. Für die Multiplikation und die erste Identität nutzen wir Induktion über m. Als Induktionsanfang haben wir für m = 1 1 · (n · a) ' (1n) · a = n · a ' n · (1 · a) (1.2.14) nach Definition von 1 · a := a. Nehmen wir also an, die Identität gelte für ein m, m · (n · a) ' (mn) · a ' n · (m · a). (1.2.15) Dann folgt (m + 1) · (n · a) ' m · (n · a) + (n · a) ' (mn) · a + n · a ' (mn + n) · a ' ((m + 1)n) · a (1.2.16) sowie analog mit Proposition 1.2.4 n·((m+1)·a) ' n·(m·a+a) ' n·(m·a)+n·a ' (nm)·a+n·a ' (nm+n)·a ' (n(m+1))·a. (1.2.17) Wiederum folgt die Behauptung per Induktion. Statt auf So und mit der dort wohldefinierten Addition von Strecken rechnen wir im folgenden mit Äquivalenzklassen modulo '. Da die Äquivalenzklassen von So modulo ' und die entsprechenden Klassen von S modulo ' übereinstimmen, betrachten wir auch wieder nichtorientierte Strecken aus S und rechnen mit diesen.3 2 3 Die Beweise sind zur Vollständigkeit mit angegeben. Wem das zu abenteuerlich klingt, der nutze auch weiter orientierte Strecken. Das Ergebnis wird dasselbe sein. 10 1.2 Zahl und Maß Definition 1.2.6 (Euklid4 ). Zwei Strecken a, b ∈ S heißen kommensurabel , falls es eine weitere Strecke c ∈ S (die gemeinsame Einheit) und natürliche Zahlen m, n ∈ N mit a'm·c und b'n·c (1.2.18) gibt. Es stellen sich zwei Fragen: (1) Wie entscheidet man, ob zu gegebenen a, b ∈ S eine solche Strecke c ∈ S und entsprechende Zahlen m, n ∈ N gibt? (2) Wie findet man dann die gemeinsame Einheit c ∈ S und die Zahlen m, n ∈ N? Zumindest auf die zweite Frage gibt es eine einfache algorithmische Antwort. Dazu eine weitere Definition. Sind a, b ∈ S zwei Strecken so gilt entweder a ' b oder eine der Strecken ist kürzer. Wir sagen a ≺ b wenn a beim Abtragen in b (vom Anfangspunkt aus) im Inneren von b endet. Weiter sagen wir a b, falls b ≺ a. In diesem Fall endet das Abtragen von a in b (vom Anfangspunkt aus) außerhalb b. Damit kommen wir zum Algorithmus von Euklid : Gegeben seien zwei Strecken a1 , b1 ∈ S. (S1) Gilt a1 ' b1 , so endet der Algorithmus mit dem Rückgabewert a1 . (S2) Sei a1 ≺ b1 (sonst vertausche a1 und b1 ). Wir tragen a1 so oft wie möglich im Inneren von b1 ab und bezeichnen den dann auftretenden Rest mit b2 , b1 ' k1 · a1 + b2 mit b2 ≺ a1 oder b2 ' a1 . (1.2.19) Gebe k1 aus und beginne wieder mit dem Paar der Strecken b2 , a1 . Angenommen, a, b ∈ S sind kommensurabel. Es gibt also ein c ∈ S mit a ' m · c und b ' n · c. Dann impliziert a ≺ b offenbar m < n und da k · a ' (km) · c ≺ b ' n · c gilt, folgt b1 ' (n − km) · c und die Strecken b1 und a sind kommensurabel zur selben Einheit c ∈ S. Der Trick des Algorithmus besteht also darin, Paare kommensurabler Strecken in kürzere Paare kommensurabler Strecken zur selben Einheit zu transformieren. Terminiert der Algorithmus, so liefert er eine (endliche) Folge natürlicher Zahlen k1 , k2 , ..., kN und die letzte bestimmte Reststrecke c. Ausgeschrieben erhalten wir also Darstellungen (mit sinnvoller Änderung der Bezeichnungen und vorausgesetzt der Algorithmus stoppt nach einer endlichen Anzahl Schritten) ' k 1 · a1 + b 2 ' k2 · b2 + a2 ' k 3 · a2 + b 3 ' k 4 · b 3 + a3 .. . b N ' k N aN + aN b1 a1 b2 a2 4 (1.2.20) oder aN −1 ' kN · bN + bN . Euklid von Alexandria, 3. Jahrhundert v.u.Z. 11 1 Zahlen Iterativ ineinander eingesetzt liefert dies Darstellungen aller ak und aller bk als Vielfache des Restes c ' aN (oder c ' bN ). k=1 k=2 k=1+1 Abbildung 1.1: Schematisches Beispiel. Der Algorithmus entspricht hier der Bestimmung des größten gemeinsamen Teilers von 5 und 7. Satz 1.2.7. Für a, b ∈ S sind folgenden Aussagen äquivalent: (1) Die Strecken a und b sind kommensurabel, es existieren also ein c ∈ S und m, n ∈ N mit a ' m · c und b ' n · c. (2) Der Euklidische Algorithmus zum Startpaar a, b ∈ S terminiert nach endlich vielen Schritten. Beweis. Aus (1) folgt (2): Seien dazu a und b kommensurabel. Dann existiert c ∈ S und m, n ∈ N mit a ' m · c und b ' n · c. Wir ersetzen das Paar (a, b) ∈ S2 durch das Zahlenpaar (m, n) ∈ N2 . Dann ist entweder m = n oder der Algorithmus von Euklid liefert in einem Schritt ausgehend von m < n eine Zahl k ∈ N mit km < n und n − km ≤ m, transformiert das Paar (m, n) also in (n − km, m). Würde der Algorithmus nicht terminieren, wäre nun in jedem Schritt n − km < m. Da es aber nur endlich viele Paare natürlicher Zahlen kleiner (m, n) gibt, kann dies nicht sein. Widerspruch. Aus (2) folgt (1): Terminiert umgekehrt der Algorithmus, so liefert die letzte Reststrecke nach der vor dem Beweis gegebenen Argumentation die Einheit, mit welcher a und b gemessen werden können und a und b sind kommensurabel. Wir betrachten ein Beispiel. Sei a ' 5 · c und b ' 7 · c als Beispiel zweier kommensurabler Strecken a und b. Dann liefert der Algorithmus a b Rest k 5·c 2·c 1·c 7·c 5·c 2·c 2·c 1·c 1·c 1 2 1 1·c 1·c — 1 und somit die Folge [1, 2, 1, 1] für k, sowie die gemeinsame Einheit c. Schematisch dargestellt ist das Beispiel in Abbildung 1.1. 12 1.2 Zahl und Maß Abbildung 1.2: Beispiel zum Algorithmus Euklids. Hier liefert er die Zahlen k1 = 2, k2 = 4, k3 = 3, .... und wahrscheinlich noch einige mehr. Nicht alle Paare von Strecken sind kommensurabel. Das wohl bekannteste Beispiel geht wahrscheinlich auf Hippasos von Metapont5 zurück. Wir nutzen zum Beweis die Charakterisierung kommensurabler Strecken durch den Algorithmus von Euklid. Satz 1.2.8 (Hippasos). Seite und Diagonale in einem regelmäßigen Fünfeck sind inkommensurabel. Beweis. Wir zerlegen den Beweis in drei Schritte. Zuerst zeigen wir, dass einige der Strecken im Fünfeck in Abbildung 1.3 kongruent sind. Danach wenden wir den Algorithmus an und in einem dritten Schritt zeigen wir, dass der Algorithmus (aufgrund der Ähnlichkeit auftretender Figuren) nicht terminieren kann. Schritt 1. Wir bestimmen einige der auftretenden Winkel. Da die Außenwinkel den Vollkreis in fünf Teile teilen, ergibt sich der Innenwinkel eines regulären Fünfecks zu 1 ∠BAE = 180◦ − 360◦ = 108◦ 5 (1.2.21) und dieser Winkel stimmt ebenso mit ∠HGF und ∠BGA überein. Weiter gilt ∠BGH = 180◦ − ∠BGA = 180◦ − 108◦ = 72◦ (1.2.22) was wiederum mit ∠BHG übereinstimmt. Damit folgt ∠GBH = 180◦ − ∠BGH − ∠BHG = 180◦ − 72◦ − 72◦ = 36◦ = ∠GAF 5 (1.2.23) Hippasos von Metapont, ca. 500 v.u.Z. 13 1 Zahlen D E J C I F H G A B Abbildung 1.3: Zur Existenz inkommensurabler Strecken Da aus Symmetriegründen weiterhin ∠BAG = 1 1 ∠BAE − ∠GAF = 108◦ − 72◦ ) = 36◦ 2 2 (1.2.24) gilt, folgt ∠ABH = ∠ABG + ∠GBH = 36◦ + 36◦ = 72◦ = ∠BHA und das Dreieck 4ABH ist gleichschenklig. Schritt 2. Wir wissen also nun, dass die Strecken AB ' AH kongruent sind. Weiter sind auch AG ' HC kongruent. Damit kann man die ersten Schritte des Algorithmus anwenden. Dieser liefert a b Rest k AB HC ... AC AH ... HC GH ... 1 1 ... Schritt 3. Die Strecken AG und GI sind kongruent. Um das zu sehen, nutzen wir aus dem ersten Schritt ∠ABG = 36◦ und ∠GBH = ∠GBI = 36◦ (1.2.25) und damit sind wegen AB ' AH ' BI auch die Dreieck 4ABG und 4BIG kongruent. Also gilt AG ' GI und (bis auf eine Skalierung) sind wir wieder bei der Ausgangssituation angelangt und wenden für die weiteren Schritte wiederum den Algorithmus auf eine Seite 14 1.2 Zahl und Maß und eine Diagonale eines regelmäßigen Fünfecks an. Das widerspricht der Terminiertheit des Algorithmus.6 Was hat all das mit messen zu tun? Wir nehmen nun an, wir haben eine Strecke a ∈ S und eine zweite, festgelegte, Einheit e ∈ S. Sind beide kommensurabel, so existiert eine ’fiktive’ Einheit c und Zahlen m, n ∈ N mit a ' m·c und e ' n·c. Da uns c nicht interessiert, schreiben wir das formal als m · e, (1.2.26) a' n nutzen also Brüche als Vielfache der Einheit. Eine Strecke ist zu e kommensurabel genau dann, wenn sie in diesem Sinne rationales Vielfaches von e ist. Das Rechnen rationaler Zahlen überträgt sich, wichtige Regeln sind zumindest n m ·b gilt genau dann, wenn b' ·a (1.2.27) a' n m und m k mk m k m` + kn · a ' · a, ·a+ ·a' · a. (1.2.28) n ` n` n ` n` Mit dieser Vereinbarung kann man das Messen der Strecke a in Bezug auf eine gegebene Einheit e auf die Anwendung von Euklids Algorithmus reduzieren. Wir betrachten nur ein Beispiel und nehmen an der Algorithmus terminiert nach vier Schritten, er liefert also a ' k1 · e + a1 , e ' k2 · a1 + a2 , a1 ' k3 · a2 + a3 , a2 ' k4 · a3 + a3 a1 ≺ e, a2 ≺ a1 , a3 ≺ a2 , (1.2.29) und damit nach Einsetzen (im Prinzip und selber nachzurechnen) explizite Formeln für a als rationales Vielfaches von e. Schlauer ist das schrittweise aufzubauen. Es gilt a2 ' (k4 + 1) · a3 . (1.2.30) Also gilt auch a3 ' und damit 1 a1 ' k 3 · a2 + k4 + 1 sowie im nächsten Schritt 1 · a2 k4 + 1 · a2 ' k3 + 1 · a1 ' e ' k2 · a1 + k3 + k41+1 sowie (1.2.31) 1 k4 + 1 · a2 1 k2 + k3 + k41+1 ! a ' k1 · e + 1 k2 + 1 k3 + k 1+1 4 · e ' k1 + (1.2.32) · a1 (1.2.33) 1 k2 + 1 ·e (1.2.34) k3 + k 1+1 4 Das Prinzip sollte klar geworden sein, eine genauere Betrachtung von Kettenbrüchen folgt im nächsten Abschnitt. 6 Was der Algorithmus aber liefert ist eine unendliche Folge [1, 1, 1, . . .]. 15 1 Zahlen 1.3 Kettenbrüche Wir betrachten zuerst reguläre und endliche Kettenbrüche. Dies sind Ausdrücke der Form k1 + 1 k2 + (1.3.1) 1 k3 + 1 k4 + 1 ... 1 kN mit natürlichen Zahlen k1 , k2 , . . . , kN ∈ N. Es sinnvoll für k1 auch 0 oder allgemeiner ganze Zahlen zuzulassen, ebenso ist es aus rein praktischen Gründen zum Rechnen sinnvoll, rationale oder reelle Zahlen ungleich Null für die ki , i > 1, zu erlauben. Wir vereinbaren eine Kurzschreibweise 1 (1.3.2) [k1 , k2 , . . . , kN ] = k1 + k2 + k3 + 1 1 1 k4 + ... 1 kN und, um alle Unklarheiten zu beseitigen, definieren diese noch explizit rekursiv durch [k1 , k2 ] := k1 + 1 k2 (1.3.3) sowie für 2 ≤ n ≤ N 1 . [k1 , k2 , . . . , kn−1 , kn ] := k1 , k2 , . . . , kn−1 + kn (1.3.4) Man zeigt leicht, dass dann ebenso [k1 , k2 , . . . , kn ] = k1 + 1 = k1 , [k2 , . . . , kn ] [k2 , . . . , kn ] (1.3.5) gilt. Die Zahlen ki werden als Teilnenner des Kettenbruchs bezeichnet. Proposition 1.3.1. Seien die (endlichen) Folgen pn und qn durch die Rekursion p1 = k1 , q1 = 1, p2 = k2 k1 + 1, q2 = k2 , pn = kn pn−1 + pn−2 qn = kn qn−1 + qn−2 (1.3.6) pn . qn (1.3.7) definiert. Dann gilt für 1 ≤ n ≤ N [k1 , k2 , . . . , kn ] = Sind alle kn , 1 ≤ n ≤ N natürliche Zahlen, so sind auch die pn und qn natürlich. Die Zahlen pn und qn werden als Zähler und Nenner des n-ten Näherungsbruchs des Kettenbruchs bezeichnet. Beweis. Wir zeigen dies per Induktion über n. Induktionsanfang: Es gilt p1 = k1 , q1 16 p2 k1 k2 + 1 1 = = k1 + . q2 k2 k2 (1.3.8) 1.3 Kettenbrüche Induktionsschritt: Angenommen, die Aussage ist für ein n gezeigt. Dann gilt also [k1 , . . . , kn ] = kn pn−1 + pn−2 pn , = qn kn qn−1 + qn−2 (1.3.9) wobei auf Grund der Rekursionsvorschrift die Zahlen pn−1 , pn−2 , qn−1 , qn−2 nicht vom Wert von kn abhängen. Also folgt 1 [k1 , . . . , kn , kn+1 ] = k1 , . . . , kn + k n+1 1 kn + kn+1 pn−1 + pn−2 = 1 qn−1 + qn−2 kn + kn+1 (1.3.10) kn+1 (kn pn−1 + pn−2 ) + pn−1 = kn+1 (kn qn−1 + qn−2 ) + qn−1 kn+1 pn + pn−1 = kn+1 qn + qn−1 und die zu zeigende Aussage ist bewiesen. Die Rekursionsformeln sehen einfacher aus, wenn man sie als Matrixmultiplikation schreibt. Es gilt für n ≥ 2 pn qn kn 1 pn−1 qn−1 = (1.3.11) pn−1 qn−1 1 0 pn−2 qn−2 Bildet man jeweils k det n 1 Determinanten, so folgt wegen 1 p2 q2 k1 k2 + 1 k2 = −1, det = det =1 0 p1 q1 k1 1 (1.3.12) insbesondere: Korollar 1.3.2. Die Zähler und Nenner der Näherungsbrüche eines Kettenbruchs erfüllen pn qn−1 − pn−1 qn = (−1)n . (1.3.13) Im Weiteren nehmen wir wieder an, dass alle Teilnenner kn , 1 ≤ n ≤ N , natürliche Zahlen sind. Dann folgt insbesondere Korollar 1.3.3. Zähler pn und Nenner qn der Näherungsbrüche sind teilerfremd. Beweis. Sei d ein Teiler von pn und qn . Dann impliziert Korollar 1.3.2, dass d ein Teiler von (−1)n sein muss. Damit ist aber d = 1. Weiter impliziert die Rekursionsvorschrift für pn und qn im Falle natürlicher kn sofort pn+1 = kn pn + pn−1 > pn , n ≥ 1, (1.3.14) qn+1 = kn qn + qn−1 > qn , n ≥ 1, (1.3.15) sowie und beide Folgen pn und qn sind streng monoton wachsend. Insbesondere ergibt sich pn > n, qn+1 > n, n ≥ 4. (1.3.16) 17 1 Zahlen Proposition 1.3.4. Die Näherungsbrüche eines Kettenbruchs erfüllen pn pn+1 − = 1 < 1 qn qn+1 qn qn+1 qn2 (1.3.17) Beweis. Folgt direkt aus Korollar 1.3.2 zusammen mit der Monotonie der qn . Proposition 1.3.5. Für die Näherungsbrüche eines Kettenbruchs gilt p1 p2n−1 p2n+1 p2n+2 p2n p2 < ··· < < < ··· < < < ··· < . q1 q2n−1 q2n+1 q2n+2 q2n q2 (1.3.18) Beweis. Folgt wiederum direkt aus Korollar 1.3.2, die Differenzen (−1)n pn pn−1 − = qn qn−1 qn qn−1 (1.3.19) sind alternierend und betragsmäßig monoton fallend. Also gilt p2n−1 p2n+1 p2n+2 p2n < < < q2n−1 q2n+1 q2n+2 q2n da 1 > q2n−1 q2n 1 1 > q2n q2n+1 q2n+1 q2n+2 (1.3.20) (1.3.21) gilt. Bezeichnet man nun den dargestellten Kettenbruch mit so haben wir insbesondere x = [k1 , . . . , kN ] (1.3.22) p2n p2n−1 <x< q2n−1 q2n (1.3.23) für alle 2n < N gezeigt. Um die Approximationseigenschaften genauer zu beschreiben, untersuchen wir den Abstand der Näherungsbrüche zu x. Dazu nutzen wir die n-ten vollständigen Quotienten kn0 = [kn , . . . , kN ] (1.3.24) des Kettenbruchs. Es gilt also insbesondere x= k10 1 k20 k1 + 1 = k1 + 0 = k2 k20 (1.3.25) und nach nochmaligem Einsetzen von k20 = k2 + 1/k30 x= k30 p2 + p1 k30 (k2 k1 + 1) + k1 = . k30 k2 + 1 k30 q2 + q1 Analoge Formeln gelten auch für spätere vollständige Quotienten. Es gilt 18 (1.3.26) 1.3 Kettenbrüche Proposition 1.3.6. Für die durch einen Kettenbruch dargestellte Zahl gilt x= kn0 pn−1 + pn−2 , kn0 qn−1 + qn−2 n ≥ 3, (1.3.27) mit den Teilzählern und -nennern pn und qn und den vollständigen Quotienten kn0 . Beweis. Dies zeigen wir wieder per Induktion. Der Induktionsanfang für n = 3 wurde oben schon angegeben. Angenommen, die Aussage ist für ein n gezeigt. Dann gilt 1 kn + k0 pn−1 + pn−2 k 0 pn−1 + pn−2 n+1 x = n0 = kn qn−1 + qn−2 kn + k0 1 qn−1 + qn−2 (1.3.28) n+1 0 0 (kn pn−1 + pn−2 ) + pn−1 k k pn + pn−1 = n+1 = n+1 0 0 qn + qn−1 kn+1 (kn pn−1 + pn−2 ) + pn−1 kn+1 und die Behauptung folgt. Betrachtet man nun die Differenz von x zu den Näherungsbrüchen, so ergibt sich 0 pn + pn−1 pn kn+1 pn pn qn−1 − pn−1 qn x− = 0 − =− 0 qn kn+1 qn + qn−1 qn qn (kn+1 qn + qn−1 ) (1.3.29) 0 0 und mit der Bezeichnung qn+1 = kn+1 qn + qn−1 damit (−1)n+1 pn , = x− 0 qn qn qn+1 (1.3.30) p n x − = 1 < 1 , 0 qn qn qn+1 qn2 (1.3.31) 0 > qn also insbesondere wegen qn+1 für alle n ≥ 2. Korollar 1.3.7. Von zwei aufeinanderfolgenden Näherungsbrüchen eines Kettenbruches erfüllt mindestens einer x − p < 1 . (1.3.32) q 2q 2 Beweis. Angenommen, die Abschätzung wäre für beide Näherungsbrüche pn /qn und pn+1 /qn+1 falsch. Dann würde, da die Näherungsbrüche abwechselnd größer und kleiner als x sind pn pn+1 p p 1 n n+1 = x − + x − ≥ 1 + 1 = − (1.3.33) 2 qn qn+1 qn qn+1 qn qn+1 2qn2 2qn+1 oder (qn − qn+1 )2 ≤ 0 (1.3.34) folgen. Dies kann aber nur für n = 0 und q0 = q1 = k2 gelten. 19 1 Zahlen Proposition 1.3.8. Die Folge qn0 ist streng monoton wachsend. Damit gilt für die Näherungsbrüche pn /qn eines Kettenbruchs x = [k1 , . . . , kN ] x − pn < x − pn−1 , (1.3.35) qn qn−1 sowie |qn x − pn | < |qn−1 x − pn−1 | (1.3.36) für alle n ≥ 2. Beweis. Es bleibt die Monotonie zu zeigen. Dazu nutzen wir, dass für n < N kn < kn0 < kn + 1 (1.3.37) gilt. Damit folgt einerseits für alle n ≥ 3 qn0 = kn0 qn−1 + qn−2 > kn qn−1 + qn−2 = qn (1.3.38) und andererseits qn0 = kn0 qn−1 + qn−2 < kn qn−1 + qn−2 + qn−1 = qn + qn−1 ≤ kn qn + qn−1 = qn+1 . (1.3.39) Also gilt qn < qn0 < qn+1 und da die qn streng monoton wachsend sind, sind auch die qn0 streng monoton wachsend. Die Näherungsbrüche eines Kettenbruches sind die besten Approximationen des Kettenbruchs durch rationale Zahlen mit kleineren Nennern. Genauer gilt Satz 1.3.9 (Bestapproximationseigenschaft). Seien p, q ∈ N mit 1 ≤ q ≤ qn und p/q 6= pn /qn . Dann gilt p p n x − < x − , (1.3.40) qn q sowie |qn x − pn | < |qx − p|. (1.3.41) Beweis. Die zweite Ungleichung impliziert die erste, da ja 0 < q ≤ qn gilt. Wir beschränken uns also auf den Beweis der zweiten. Dieser besteht aus drei Schritten. Schritt 1. Wir nehmen an, q = qn . Dann gilt wegen (1.3.30) p n x − ≤ 1 , qn 2qn (1.3.42) sowie auf Grund von pn /qn 6= p/qn pn p − ≥ 1. qn qn q n (1.3.43) p p 1 n ≥ ≥ x − q 2qn qn (1.3.44) Also folgt x − 20 1.4 Unendliche Kettenbrüche und damit die Behauptung. Schritt 2. Wir zeigen die Aussage für qn−1 < q < qn und schreiben dazu p = µpn + νpn−1 , q = µqn + νqn−1 (1.3.45) mit noch zu bestimmenden µ und ν. Die Zahlen µ und ν sind eindeutig bestimmt, es gilt wegen Korollar 1.3.2 pqn−1 − pn−1 q = (µpn + νpn−1 )qn−1 − pn−1 (µqn + νqn−1 ) = (−1)n µ (1.3.46) pn q − pqn = pn (µqn + νqn−1 ) − (µpn + νpn−1 )qn = (−1)n ν. (1.3.47) und Damit sind µ und ν ganzzahlig und haben also insbesondere auch verschiedene Vorzeichen. Also haben µ(qn x − pn ) und ν(qn−1 x − pn−1 ) gleiches Vorzeichen und folgt aus qx − p = µ(qn x − pn ) + ν(qn−1 x − pn−1 ) (1.3.48) |qx − p| > |qn−1 x − pn−1 | > |qn x − pn |. (1.3.49) die Behauptung Schritt 3. Nun folgt die Aussage, für q ≤ qn−1 existiert ein m < n mit qm−1 < q ≤ qm und damit |qx − p| > |qm x − pm | > |qn x − pn | (1.3.50) unter Ausnutzung von Proposition 1.3.8. 1.4 Unendliche Kettenbrüche Wir betrachten nun allgemeiner Kettenbrüche mit unendlich vielen Teilnennern, also Brüche der Form 1 [k1 , k2 , k3 , . . .] = k1 + , k1 ∈ Z, ki ∈ N, i > 1. (1.4.1) k2 + k3 +1 1 .. . Die meisten der im vorigen Abschnitt getroffenen Aussagen übertragen sich direkt. So bestimmt die Folge der kn Folgen pn und qn über die Rekursion aus Proposition 1.3.1, die wiederum sich schachtelnde, gekürzte Näherungsbrüche pn /qn mit und p2n+1 p2n+2 p2n p2n−1 < < < q2n−1 q2n+1 q2n+2 q2n (1.4.2) pn pn+1 = 1 − qn qn+1 qn qn+1 (1.4.3) liefern. Wir wollen jedem unendlichen Kettenbruch eine/die reelle Zahl \ p2n−1 p2n x∈ , q q2n 2n−1 n (1.4.4) 21 1 Zahlen zuordnen. Da qn → ∞ gilt, ist die Zahl x eindeutig bestimmt. Die zu fordernde Existenz der Zahl x entspricht der Vollständigkeit der reellen Zahlen. Bezeichnet nun wieder kn0 = [kn , kn+1 , . . .] (1.4.5) den n-ten vollständigen Quotiententen als die dem bei kn startenden Kettenbruch zugeordnete reelle Zahl, so übertragen sich die weiteren Aussagen des vorigen Abschnitts. Es gilt insbesondere die Darstellung aus Proposition 1.3.8 und damit die Fehlerabschätzung x − pn = 1 < 1 , n ≥ 2, (1.4.6) 0 qn qn qn+1 qn2 0 0 wobei wiederum qn+1 = kn+1 qn + qn−1 gesetzt wurde, sowie die Bestapproximationseigenschaft der Näherungsbrüche aus Satz 1.3.9. Satz 1.4.1. (1) Jeder rationalen Zahl x ∈ Q entsprechen zwei endliche Kettenbruchsdarstellungen x = [k1 , . . . , kn ] = [k1 , . . . , kn − 1, 1] (1.4.7) mit kn 6= 1; umgekehrt sind alle endlichen Kettenbrüche rational. (2) Jeder irrationalen Zahl x ∈ R \ Q entspricht ein eindeutig bestimmter unendlicher Kettenbruch; umgekehrt ist jedem unendlichen Kettenbruch eine Irrationalzahl zugeordnet. Solche unendlichen Kettenbrüche sind uns schon begegnet. Sind zwei Strecken inkommensurabel, so liefert der Algorithmus Euklids eine nicht abbrechende Folge von Teilnennern kn und damit eine unendliche Kettenbruchsdarstellung der Länge der zweiten Strecke als Vielfaches der ersten. Wir haben dies für die Diagonale in einem regelmäßigen Fünfeck gesehen. Falls die Seitenlänge des Fünfecks 1 ist, ergibt sich damit für die Diagonale τ = [1, 1, 1, . . .] = [1]. Die Zahl τ erfüllt also τ =1+ 1 1 =1+ [1, 1, 1, . . .] τ (1.4.8) (1.4.9) und damit die quadratische Gleichung τ 2 = τ + 1. Diese kann man zur Bestimmung der Diagonalenlänge τ lösen, es ergibt sich durch quadratisches Ergänzen 2 1 5 2 τ −τ −1= τ − − (1.4.10) 2 4 und damit, da τ > 1 gelten muss, √ 1+ 5 τ= . (1.4.11) 2 Die Zahl ist als goldener Schnitt bekannt. Der goldene Schnitt ist die am schlechtesten durch rationale Zahlen approximierbare reelle Zahl. √ Um die Kettenbruchsentwicklung der Zahl 2 zu bestimmen, gehen wir wie folgt vor. Da √ 1 < 2 < 4 gilt, folgt 1 < 2 < 2. Damit liefert der Algorithmus Euklids, diesmal auf reelle Zahlen angewandt, √ √ √ √ ( 2 − 1)( 2 + 1) 1 1 √ √ =1+ √ (1.4.12) 2 = 1 + ( 2 − 1) = 1 + =1+ 2+1 1+ 2 2 + ( 2 − 1) 22 1.4 Unendliche Kettenbrüche und somit √ 2 = [1, 2, 2, 2, . . .] = [1, 2]. (1.4.13) Der entstehende Kettenbruch ist wieder periodisch. Das gilt allgemeiner. Jeder periodische Kettenbruch entspricht einer quadratischen Irrationalzahl und umgekehrt ist jede solche durch einen periodisch endenden Kettenbruch darstellbar. Dies wurde von Lagrange7 gezeigt, seine Ideen wollen wir kurz zusammenfassen. Wir bezeichnen zwei Zahlen ξ, η ∈ R als äquivalent, falls es ganze Zahlen a, b, c, d ∈ Z mit ξ= aη + b , cη + d ad − bc = ±1, (1.4.14) gibt. Proposition 1.4.2. Die so definierte Äquivalenz von Zahlen ist eine Äquivalenzrelation. Beweis. Aus ξ= a1 η + b 1 c1 η + d1 und η= a2 ζ + b 2 c2 ζ + d2 (1.4.15) folgt a3 ζ + b 3 c3 ζ + d 3 b3 a2 b 2 a1 b 1 = d3 c2 d 2 c1 d 1 ξ= mit a3 c3 (1.4.16) (1.4.17) als Matrixmultiplikation. Damit ergibt sich der Beweis. Die Relation ist 1 0 • reflexiv. Dazu nutzt man Einheitsmatrix . 0 1 • symmetrisch. Dies folgt, da die inverse Matrix −1 1 a b d −b = c d ad − bc −c a (1.4.18) ganzzahlige Einträge mit derselben Determinante besitzt. • transitiv. Dies ergibt sich direkt aus obiger Matrixmultiplikation und der Ganzzahligkeit aller Matrixeinträge. Korollar 1.4.3. Jede rationale Zahl ist zu 0 äquivalent. Beweis. Sei p/q gekürzter Bruch. Dann liefert der Euklidische Algorithmus Zahlen k und ` mit pk − q` = 1 (1.4.19) und damit die gewünschte Darstellung p `·0+p = q k·0+q (1.4.20) und die Aussage ist bewiesen. 7 Joseph-Louis Lagrange, 1736–1813 23 1 Zahlen Dass Äquivalenz mit Kettenbrüchen zu tun hat, lässt folgende Aussage vermuten. Proposition 1.4.4. Angenommen, für eine reelle Zahl x gilt x= Pζ + R Qζ + S (1.4.21) mit ζ > 1 reell und ganzzahligen P, Q, R, S ∈ Z mit P S − QR = ±1 und Q > S > 0. Dann sind R/S und P/Q aufeinanderfolgende Näherungsbrüche aus der Kettenbruchsentwicklung von x. Darüberhinaus ist ζ der zu P/Q gehörende vollständige Quotient des Kettenbruchs. Beweis. Wir schreiben die rationale Zahl P/Q als Kettenbruch P pn = [k1 , k2 , . . . , kn ] = Q qn (1.4.22) P S − QR = ±1 = (−1)n (1.4.23) und wählen dabei n so, dass gilt. Dann sind P und Q teilerfremd und wegen Q > 0 ist auch P = pn und Q = qn . Also folgt pn S − qn R = P S − QR = pn qn−1 − pn−1 qn (1.4.24) pn (S − qn−1 ) = qn (R − pn−1 ). (1.4.25) und damit auch Da pn und qn teilferfremd sind, muss damit aber qn ein Teiler von S − qn−1 sein. Wegen qn = Q > S > 0 und qn ≥ qn−1 > 0 impliziert dies aber schon S − qn−1 = 0 und damit S = qn−1 . Analog folgt R = pn−1 und somit gilt x= pn ζ + pn−1 , qn ζ + qn−1 (1.4.26) also auch x = [k1 , . . . , kn , ζ] = [k1 , . . . , kn , kn+1 , . . .] (1.4.27) mit der Kettenbruchsentwicklung ζ = [kn+1 , . . .] und unter Ausnutzung von ζ > 1, also kn+1 ∈ N. Damit ist die Aussage bewiesen. Proposition 1.4.5. Zwei irrationale Zahlen ξ, η sind genau dann äquivalent, wenn ihre Kettenbruchsentwicklungen bis auf endlich viele Teilnenner übereinstimmen. Beweis. Wenn die Kettenbruchsentwicklung bis auf endliche viele Teilnenner übereinstimmt, dann sind die Zahlen äquivalent. Das folgt direkt aus [k1 , k2 , k3 , . . .] = k1 + 1 k1 [k2 , k3 , . . .] + 1 = [k2 , k3 , . . .] [k2 , k3 , . . .] + 0 (1.4.28) zusammen mit Transitivität und Symmetrie der Relation. Zu beweisen ist die Rückrichtung. Gelte also aη + b ξ= (1.4.29) cη + d 24 1.4 Unendliche Kettenbrüche mit Zahlen a, b, c, d ∈ Z und mit ad − bc = ±1. Wir wählen die Vorzeichen der Zahlen so, dass cη + d > 0 gilt. Wir schreiben η als η= pn ω + pn−1 qn ω + qn−1 (1.4.30) für hinreichend groß gewähltes n. Dann gilt ω > 1. Für ξ erhalten wir daraus ξ= (apn + bqn )ω + (apn−1 + bqn−1 ) Pω + R = (cpn + dqn )ω + (cpn−1 + dqn−1 ) Qω + S (1.4.31) mit ganzen Zahlen P, Q, R, S ∈ Z und P S − QR = ±1. Weiterhin gilt wegen (1.3.30) pn = ηqn + δ , qn pn−1 = ηqn−1 + δ0 (1.4.32) qn−1 mit |δ| < 1 und |δ 0 | < 1 und damit Q = (cη + d)qn + cδ , qn S = (cξ + η)qn−1 + cδ 0 . qn−1 (1.4.33) Also gilt für hinreichend großes n auch Q > S > 0 und Proposition 1.4.4 ist anwendbar. Damit gilt ξ = [`1 , . . . , `m , ω] für geeignetes m und wegen η = [k1 , . . . , kn , ω] folgt die Behauptung. Satz 1.4.6 (Lagrange). Jede quadratische Irrationalzahl ist äquivalent zu einem periodischen Kettenbruch und umgekehrt. Beweis. Rückrichtung. Sei x durch einen periodischen Kettenbruch x = [k1 , . . . , kL ] = [k1 , . . . , kL , x] (1.4.34) mit Periode L dargestellt. Dann gilt x= pL x + pL−1 qL x + qL−1 (1.4.35) und damit qL x2 + (qL−1 − pL−1 )x + pL−1 = 0. (1.4.36) Also löst x eine quadratische Gleichung mit ganzzahligen Koeffizienten und ist (da irrational) quadratische Irrationalzahl. Sei nun allgemeiner y äquivalent zu x, gelte also mit Zahlen a, b, c, d ∈ Z und ad − bc = ±1 ax + b y= . (1.4.37) cx + d Das implizert aber dy − b x=± (1.4.38) a − cy und somit nach Einsetzen in obige quadratische Gleichung 2 dy − b dy − b a ±b + c = 0. a − cy a − cy (1.4.39) 25 1 Zahlen Das ist aber nach Multiplikation mit (a − cy)2 eine quadratische Gleichung für y und somit auch y quadratische Irrationalzahl. Hinrichtung. Jede quadratische Irrationalzahl löst eine quadratische Gleichung der Form ax2 + bx + c = 0 (1.4.40) mit ganzzahligen Koeffizienten a, b, c ∈ Z und mit b2 6= 4ac. Wir schreiben die Zahl x als Kettenbruch (1.4.41) x = [k1 , k2 , . . . , kn−1 , kn , kn+1 , . . .] = [k1 , k2 , . . . , kn−1 , kn0 ] und dies wiederum als x= pn−1 kn0 + pn−2 qn−1 kn0 + qn−2 (1.4.42) durch den n-ten vollständigen Quotienten kn0 . Eingesetzt in die quadratische Gleichung für x liefert dies 2 pn−1 kn0 + pn−2 pn−1 kn0 + pn−2 a +b +c=0 (1.4.43) qn−1 kn0 + qn−2 qn−1 kn0 + qn−2 und damit nach Umformen eine quadratische Gleichung für y = kn0 , An y 2 + Bn y + Cn = 0. (1.4.44) Dabei sind die Koeffizienten (wie man durch Nachrechnen leicht findet) durch 2 An = ap2n−1 + 2bpn−1 qn−1 + cqn−1 Bn = 2apn−1 pn−2 + b(pn−1 qn−2 + pn−2 qn−1 ) + 2cqn−1 qn−2 2 Cn = ap2n−2 + 2bpn−2 qn−2 + cqn−2 = An−1 (1.4.45) gegeben. Damit gilt Bn2 − 4An Cn = (b2 − 4ac)(pn−1 qn−2 − pn−2 qn−1 )2 = (b2 − ac) (1.4.46) unabhängig von n. Weiter gilt wegen (1.3.30) pn−1 = xqn−1 + δn−1 qn−1 mit Zahlen |δn−1 | < 1. Das impliziert δn−1 δn−1 2 An = a xqn−1 + + 2b xqn−1 + qn−1 + cqn−1 qn−1 qn−1 δ2 2 + 2axδn−1 + a n−1 + bδn−1 = (ax2 + bx + c)qn−1 qn−1 2 δ = 2axδn−1 + a n−1 + bδn−1 qn−1 (1.4.47) (1.4.48) schon |An | < 2|ax| + |a| + |b| 26 und |Cn | = |An−1 | < 2|ax| + |a| + |b|. (1.4.49) 1.5 Die Suche nach π Weiter folgt damit Bn2 ≤ 4|An Cn | + |b2 − 4ac| < 4(2|ax| + |a| + |b|)2 + |b2 − 4ac| (1.4.50) Also sind die Beträge von An , Bn und Cn gleichmäßig in n beschränkt. Damit gibt es aber nur endlich viele verschiedene solche Tripel (An , Bn , Cn ) und damit auch nur endlich viele verschiedene Lösungen y zugehöriger quadratischer Gleichungen (1.4.44). Damit gibt es aber Zahlen m und L, so dass die vollständigen Quotienten 0 0 = km+L km (1.4.51) erfüllen, also insbesondere 0 0 ] ] = [k1 , . . . , km−1 , km , . . . , km+L−1 , km x = [k1 , . . . , km−1 , km = [k1 , . . . , km−1 , km , . . . , km+L−1 ] (1.4.52) gilt. Der Satz ist bewiesen. Kettenbrüche rationaler Zahlen und Kettenbrüche quadratischer Irrationalzahlen haben also eine einfache und gut zu beschreibende Struktur. Ähnliches lässt sich über Kettenbrüche zu Kubikwurzeln oder interessanten anderen mathematischen Konstanten wie π nicht aussagen. Wir enden den Abschnitt mit einigen Beispielen. Es gilt, wie leicht nachzurechnen ist, √ 2=1+ 1 2+ = [1, 2], (1.4.53) = [1, 1, 2], (1.4.54) = [2, 4], (1.4.55) = [2, 1, 1, 1, 4]. (1.4.56) 1 1 2+ 2+ 1 2+ 1 ... √ 3=1+ 1 1+ 1 2+ 1 1+ 1 2+ 1 .. √ 5=2+ . 1 4+ 1 4+ 1 4+ 1 4+ 1 .. √ 7=2+ 1 1+ 1 1+ . 1 1+ 1 4+ 1 ... 1.5 Die Suche nach π In diesem Abschnitt werden wir einige klassische Approximationen für die Zahl π kennenlernen. Wir gehen dabei von der ‘naiven’ Definition der Zahl 2π als der Länge eines Kreisbogens vom Radius 1 beziehungsweise als Fläche vom Radius 1 aus. Dass ein Kreisbogen eine Länge haben muss, war in der Antike zumindest intuitiv klar; ein Beweis und eine entsprechend saubere Definition des Längenbegriffs entstammt der Analysis des 19. Jahrhunderts. Dass beide 27 1 Zahlen B B E C H D C F M M A A G Abbildung 1.4: Zur Bestimmung von π nach Archimedes Definitionen von π dieselbe Zahl liefern, ergibt sich aus den nachfolgenden Betrachtungen und wurde rigoros von Archimedes von Syrakus8 gezeigt. Wir approximieren einen Kreis durch eine Folge regelmäßiger Polygone, sowohl von innen als auch von außen. Wir betrachten dazu ein dem Kreis einbeschriebenes Sechseck, sowie ein dem Kreis umbeschriebenes vom Radius 1) den √ √ Umfang √ Sechseck. Ersteres besitzt (für einen Kreis 6 und die Fläche 3 3/3, während letzteres den Umfang 4 3 und die Fläche 2 3 besitzt. In jedem Schritt verdoppeln wir die Seitenzahl des ein- und umbeschriebenen regelmäßigen Polygons und bestimmen erneut Umfang und Fläche. Im Folgenden bezeichne sn die Seitenlänge eines einbeschriebenen regelmäßigen 3 · 2n -Ecks, σn die Seitenlänge des zugehörigen umbeschriebenen 3 · 2n -Ecks und hn den Abstand der Seiten zum Mittelpunkt. In den Bezeichnungen von Abbildung 1.4 gilt also sn = AB = 2AH, hn = M H, σn = 2AC, ηn = M C. (1.5.1) Wir beginnen mit einigen Beziehungen zwischen diesen Größen. Alle Resultate basieren auf der Normierung M A = 1. Proposition 1.5.1. Es gilt σn hn = sn , sowie σn+1 1 = = hn , σn − σn+1 ηn und (1.5.2) 2hn+1 sn+1 = sn . (1.5.3) Beweis. Da die Dreiecke 4M AC und 4M HA ähnlich sind, folgt AC : 1 = HA : M H und damit (1.5.2). Weiterhin gilt, da M F Winkelhalbierende zu ∠AM C ist, die Identität 8 Archimedes von Syrakus, 287–212 v.u.Z. 28 1.5 Die Suche nach π AF : F C = M A : M C und damit die erste Gleichung aus (1.5.3). Für die zweite Betrachten wir das Dreieck 4GDB. Da GB parallel zu M E ist, ist das Dreieck rechtwinklig und es gilt GB = 2hn+1 . Weiter gilt DB = sn+1 . Damit ist sein Flächeninhalt sowohl durch hn+1 sn+1 , als auch durch 1 · sn /2 gegeben und die zweite Gleichung aus (1.5.3) folgt. Korollar 1.5.2. Es bezeichne an den Umfang des einbeschriebenen Polygons und bn den Umfang des umbeschriebenen Polygons mit 3 · 2n Seiten. Dann gilt p 2an bn bn+1 = , an+1 = an bn+1 (1.5.4) an + b n √ zusammen mit den Startwerten a1 = 6 und b1 = 4 3. Beweis. Wegen an = 3 · 2n · sn und bn = 3 · 2n · σn folgt die Behauptung direkt aus σn+1 = sn sn σ n hn σn = σn = hn + 1 sn + σn sn + σ n (1.5.5) und 1 s2n+1 = hn+1 σn+1 sn+1 = σn+1 sn 2 nach Multiplikation mit 3 · 2n+1 beziehungsweise (3 · 2n+1 )2 . (1.5.6) Korollar 1.5.3. Es bezeichne An den Flächeninhalt des einbeschriebenen Polygons und Bn den Flächeninhalt des umbeschriebenen Polygons mit 3 · 2n Seiten. Dann gilt p 2An+1 Bn An+1 = An Bn , Bn+1 = (1.5.7) An+1 + Bn √ √ zusammen mit A1 = 3 2 3 und B1 = 2 3. Darüberhinaus gilt √ 2 3 1−n An < π < B n , Bn − An < 4 . (1.5.8) 3 Beweis. Die Rekursion folgt wiederum direkt aus An = 3 · 2n · sn hn an−1 = 3 · 2n−2 sn−1 = 2 2 (1.5.9) und bn σn = 3 · 2n−1 σn = (1.5.10) 2 2 kombiniert mit den gerade gezeigten Formeln für an und bn . Weiterhin gilt, da das innere 3 · 2n -Eck im Kreis enthalten ist und dieser im äußeren 3 · 2n -Eck liegt Bn = 3 · 2n · An < π < Bn (1.5.11) für die Kreisfläche π. Ebenso ist An monoton wachsend (da jeweils Dreiecksflächen hinzugefügt werden) und Bn monoton fallend, da Dreiecksflächen abgeschnitten werden. Damit folgt insbesondere sn (ηn − hn ) s2 1 = 3 · 2n−1 (1 − h2n )σn = 3 · 2n−1 n σn = A2 Bn 2 √ 4 9 · 4n n+1 (1.5.12) 2 3 1 3 < B = 9 · 4n 1 3 · 4n−1 und damit die Behauptung. Bn − An = 3 · 2n 29 1 Zahlen Archimedes hat auf diese Weise mit n = 5, also den Umfängen der ein- und umbeschriebenen 96-Ecke, die Abschätzung 10 1 3+ <π <3+ (1.5.13) 71 7 gezeigt. Dies bestimmt π auf zwei Nachkommastellen genau. Für bessere Approximationen ist entsprechend größeres n zu wählen, pro Iterationsschritt verbessern sich zwei Ziffern der Binärdarstellung von π. Das (numerische) Ergebnis für n = 20 ist in der folgenden Tabelle angegeben. n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 An 2.59807621135 3.00000000000 3.10582854123 3.13262861328 3.13935020305 3.14103195089 3.14145247229 3.14155760791 3.14158389215 3.14159046323 3.14159210600 3.14159251669 3.14159261937 3.14159264503 3.14159265145 3.14159265306 3.14159265346 3.14159265356 3.14159265358 3.14159265359 Bn 3.46410161514 3.21539030917 3.15965994210 3.14608621513 3.14271459965 3.14187304998 3.14166274706 3.14161017660 3.14159703432 3.14159374877 3.14159292739 3.14159272204 3.14159267070 3.14159265787 3.14159265466 3.14159265386 3.14159265366 3.14159265361 3.14159265359 3.14159265359 Bn − An 0.866025403784 0.215390309173 0.0538314008673 0.0134576018502 0.0033643965985 0.000841099089315 0.000210274771387 0.0000525686928321 0.0000131421732079 0.00000328554330142 0.000000821385825134 0.000000205346456283 0.0000000513366140709 0.0000000128341537398 0.00000000320853832392 0.000000000802134358935 0.0000000002005329236 0.0000000000501332309 0.0000000000125330856804 0.0000000000031334934647 Die letzte berechnete Ziffer in Zeile 20 ist numerisch bedingter Rundungsfehler, korrekt wäre eine 8. 1.6 Algebraische und transzendente Zahlen Dazu untersuchen wir zuerst Approximationsordnungen von Irrationalzahlen. Definition 1.6.1. Eine Zahl ξ ∈ R heißt zur Ordnung n ∈ N approximierbar, falls es eine (nur von ξ abhängende) Konstante K gibt, so dass p − ξ ≤ K (1.6.1) q qn unendlich viele teilerfremde Lösungen p, q ∈ Z, q > 0, besitzt. 30 1.6 Algebraische und transzendente Zahlen Satz 1.6.2. Jede rationale Zahl ξ ∈ Q ist zur Ordnung 1 approximierbar, aber nicht zu höherer Ordnung. Beweis. Sei ξ = a/b mit ggT(a, b) = 1. Dann besitzt die Gleichung bp − aq = 1 (1.6.2) Lösungen p, q (erweiterter Euklidischer Algorithmus) und damit auch unendlich viele Lösungen q + ka, p + kb mit k ∈ Z. Damit besitzt aber p a − ≤ 1 (1.6.3) q b bq unendlich viele Lösungen und ξ ist zur Ordnung 1 approximierbar. Umgekehrt impliziert p a |aq − bp| 1 − = ≥ (1.6.4) q b bq bq zusammen mit p a K − ≤ q b qn (1.6.5) schon die Abschätzung q n−1 ≤ Kb. Damit kann es für n > 1 nur endlich viele verschiedene q geben, als insgesamt auch nur endlich viele Lösungen p, q zu diesem Approximationsproblem und die Aussage ist gezeigt. Satz 1.6.3. Jede quadratische Irrationalzahl ξ ∈ R \ Q ist zur Ordnung 2 approximierbar, aber nicht höher. Beweis. Die Approximierbarkeit zur Ordnung 2 haben wir für alle Irrationalzahlen schon mit Abschätzung (1.4.6) an die Näherungsbrüche der Kettenbruchsnäherung gezeigt. Wir zeigen, dass es keine bessere Approximierbarkeit geben kann. Dazu nutzen wir, dass nach Satz 1.4.6 eine quadratische Irrationalzahl eine periodisch endende Kettenbruchsdarstellung ξ = [k1 , k2 , . . . , km , km+1 , . . . , km+L ] (1.6.6) besitzt. Insbesondere existiert also eine Zahl M mit 1 ≤ ki < M, i ≥ 2. (1.6.7) Damit folgt aber aus 0 0 qn+1 = kn+1 qn + qn−1 < (kn+1 + 1)qn + qn−1 < (M + 2)qn (1.6.8) und entsprechend qn+1 < (M + 2)qn , qn < (M + 2)qn−1 für alle q mit qn−1 < q ≤ qn die Abschätzung p pn 1 1 1 − ξ ≥ − ξ = 1 > > > 2 q qn q 0 qn (M + 2)qn2 (M + 2)3 qn−1 (M + 2)3 q 2 n+1 (1.6.9) (1.6.10) aus der schon gezeigten Bestapproximationseigenschaft der Kettenbruchsnäherungen. Also ist ξ nicht zu höherer Ordnung approximierbar. 31 1 Zahlen Wir bezeichnen das höchste n, so dass ξ zur Ordnung n approximierbar ist, also die Approximationsordnung von n. Zahlen der Approximationsordnung 1 sind rational, quadratische Irrationalzahlen haben Approximationsordnung 2. Nicht jede Zahl der Approximationsordnung 2 ist eine quadratische Irrationalzahl. Das sieht man direkt aus obigem Beweis, die Argumentation hat nur genutzt, dass die Kettenbruchsentwicklung beschränkte Teilnenner besitzt. Definition 1.6.4. Eine Zahl ξ ∈ R heiße algebraisch vom Grad kleiner oder gleich m ∈ N, falls es ganze Zahlen a0 , a1 , . . . , am ∈ Z, am 6= 0, mit am ξ m + · · · a1 ξ + a0 = 0 (1.6.11) gibt. Eine Zahl heißt transzendent, falls sie nicht algebraisch ist. √ 2 ist algebraisch vom Grad 2, ebenso Beispiele algebraischer Zahlen sollten klar sein. Die Zahl √ ist 3 7 algebraisch vom Grad 3. Dass nicht alle reellen Zahlen algebraisch sind, folgt schon aus Cantor’s zweitem Diagonalargument. Da die ganzen Zahlen abzählbar sind, ist die Menge der Gleichungen zur Bestimmung algebraischer Zahlen abzählbar und somit insbesondere auch die Menge der algebraischen Zahlen. Die Menge R ist aber nicht abählbar. Damit sind die meisten Zahlen transzendent. Allerdings weiß man es von den wenigsten bekannten Zahlen, dass sie transzendent sind. So ist zum Beispiel nicht bekannt, ob π e transzendent ist. Ein interessantes Transzendenzkriterium liefert Satz 1.6.5 (Liouville9 ). Eine irrationale algebraische Zahl vom Grad m lässt keine Approximation höherer Ordnung als m zu. Beweis. Sei ξ ∈ R algebraisch vom Grad m mit f (ξ) = am ξ m + · · · a1 ξ + a0 = 0. (1.6.12) Damit f ein Polynom ist, existiert insbesondere ein M , so dass f 0 (x) < M für jedes ξ − 1 < x < ξ + 1 (1.6.13) gilt. Sei nun p/q 6= ξ eine rationale Näherung mit ξ−1< p < ξ + 1, q (1.6.14) welche näher an ξ als an jeder anderen Nullstelle von f liegt. Insbesondere gilt f (p/q) 6= 0. Dann folgt m m−1 q + · · · + a1 pq m−1 + a0 q m | 1 f p = |am p + am−1 p ≥ m, (1.6.15) m q q q sowie wegen p p p f =f − f (ξ) = − ξ f 0 (x) q q q 9 Joseph Liouville, 1809–1882 32 (1.6.16) 1.6 Algebraische und transzendente Zahlen für ein x zwischen p/q und ξ auch p − ξ l = |f (p/q)| ≥ 1 . q |f 0 (x)| M qm (1.6.17) Damit ist aber Approximierbarkeit höherer Ordnung ausgeschlossen, da nur endlich viele q zu solchen höheren Approximationsordnungen existieren können. Beispiel 1.6.6 (Liouville). Die durch den Kettenbruch ξ = [10, 102! , 103! , 104! , . . .] (1.6.18) dargestellte Zahl ist transzendent. Dazu zeigen wir, dass die Zahl zu jeder Ordnung approximierbar ist. Seien pn /qn die n-ten Näherungsbrüche der Kettenbruchsentwicklung. Wegen pn 1 1 − ξ = 1 < < 0 qn q 0 qn 2 kn+1 qn kn+1 n+1 (1.6.19) 0 0 0 unter Ausnutzung von qn+1 = kn+1 qn + qn−1 > kn+1 qn und qn > 1. Wegen q1 < k1 + 1, qn+1 qn−1 = kn+1 + < kn+1 + 1 qn qn (1.6.20) impliziert kn = 10n! die Abschätzung qn < (k1 + 1)(k2 + 1) · · · (kn + 1) = (1 + 1 1 1 )(1 + ) · · · (1 + )k1 · · · kn k1 k2 kn 1 1 1 )(1 + 2 ) · · · (1 + n! )101!+2!+···+n! 10 10 10 < 2 · 102(n!) = kn2 . = (1 + Also gilt, wiederum wegen kn = 10n! , pn 1 1 1 1 − ξ < 1 = < 2 < n/2 < N/2 qn kn+1 2 n+1 (kn ) kn qn qn (1.6.21) (1.6.22) für jedes n > N . Damit gibt es aber zu jedem geraden N unendlich vieler Näherungsbrüche mit Approximation an ξ zur Ordnung N/2. Da N beliebig ist, impliziert Liouville’s Theorem die Transzendenz von ξ. Eine Zahl, die zu beliebiger Ordnung rational approximierbar ist, wird als Liouvillezahl bezeichnet. Jede Liouvillezahl ist transzendent. Allerdings sind nicht alle interessanten transzendenten Zahlen Liouville, der Transzendenzbeweis interessanter mathematischer Konstanten wird damit oft wesentlich schwerer. Satz 1.6.7 (Hermite10 ). Die Eulersche Zahl e ist transzendent. 10 Charles Hermite, 1822–1901 33 1 Zahlen Beweis. Bevor wir mit dem Beweis beginnen, einige Vorbemerkungen. Für ein Polynom f (x) = m X ak x k (1.6.23) k=0 vom Grad m und mit Koeffizienten ak aus R (oder später C) betrachten wir Integrale Z t et−x f (x) dx. (1.6.24) I(t) = 0 Mit partieller Integration erhält man die Darstellung t I(t) = e m X f (j) (0) − j=0 m X f (j) (t) (1.6.25) j=0 als Kombination von Ableitungen des Polynoms. Bezeichne nun f¯(x) = m X |ak |xk (1.6.26) k=0 das Polynom mit Koeffizienten |ak |. Dann gilt |f (x)| ≤ f¯(|x|) ≤ f¯(|t|) für |x| < |t|. Also folgt Z t |I(t)| ≤ |et−x f (x)| dx ≤ |t|e|t| f¯(|t|). (1.6.27) 0 Nun zum eigentlichen Beweis. Angenommen, die Zahl e ist algebraisch. Dann existieren also ganze Zahlen b0 , . . . , bn ∈ Z mit b0 + b1 e + · · · + bn en = 0. (1.6.28) Sei nun I(t) definiert wie oben durch das Polynom f (x) = xp−1 (x − 1)p · · · (x − n)p (1.6.29) für eine große Primzahl p und bezeichne J = b0 I(0) + b1 I(1) + · · · + bn I(n). (1.6.30) Wir schätzen nun J sowohl nach oben und als auch nach unten ab. Einerseits gilt aufgrund von (1.6.25) und (1.6.28) ! ! m m m m X X X X J = b0 f (j) (0) − f (j) (0) + b1 e f (j) (0) − f (j) (1) + j=0 · · · + bn e j=0 n m X j=0 j=0 f (j) (0) − m X j=0 j=0 ! f (j) (n) =− m X n X (1.6.31) bk f (j) (k) j=0 k=0 mit m = (n + 1)p − 1 und die hier auftretenden Summanden sind einfach zu untersuchen. Einerseits gilt für j < p und k > 0 beziehungsweise j < p − 1 und k = 0 stets f (j) (k) = 0. 34 1.6 Algebraische und transzendente Zahlen Damit ist aber für alle j und k mit Ausnahme von j = p − 1 und k = 0 die Zahl f (j) (k) ganz und durch p! teilbar. Für j = p − 1 gilt f (p−1) (0) = (p − 1)! (−1)np (n!)p (1.6.32) und für p > n ist dies durch (p − 1)!, aber nicht durch p! teilbar. Damit teilt (p − 1)! die Zahl J, die Zahl p! aber nicht. Insbesondere ist J 6= 0 und damit |J| ≥ (p − 1)! (1.6.33) Andererseits gilt für Polynome f, g offenbar f g(x) ≤ f¯(x)ḡ¯(x) und damit f¯(k) ≤ k 2p−1 (k + 1)p · · · (k + n)p < (2n)m , m = (n + 1)p − 1 (1.6.34) und somit |J| ≤ |b1 |ef¯(1) + · · · + |bn |nen f¯(n) < (|b1 |e + · · · + |bn |nen )(2n)m = cp (1.6.35) mit einer nur von e und den Zahlen b1 bis bn abhängenden Konstanten c. Das widerspricht für p → ∞ aber der unteren Schranke (p − 1)!, die ja schneller wächst. Also ist e transzendent. Eine Bemerkung zum gezeigten Resultat. Ganz analog folgt auch, dass eπ transzendent ist. Wäre eπ algebraisch, gäbe es ganze Zahlen b0 , . . . , bn mit b0 + b1 eπ + b2 e2π + · · · + bn enπ = 0. (1.6.36) J = b0 I(0) + b1 I(π) + b2 I(2π) + · · · + bn I(nπ), f (x) = xp−1 (x − π)p · · · (x − nπ)p (1.6.37) Setzt man nun so folgt ganz analog die untere Schranke |J| ≥ (p − 1)! und eine obere Schranke |J| ≤ cp , also wiederum ein Widerspruch. Satz 1.6.8 (Lindemann11 ). Die Zahl π ist transzendent. Beweis. Wir versuchen analog zum vorigen Beweis vorzugehen, müssen dazu aber etwas ausholen. Zur Definition von π verwenden wir die (hier nicht gezeigte) Eulersche Identität eiπ + 1 = 0, (1.6.38) benötigen also insbesondere komplexe Zahlen. Wir benötigen auch einige Aussagen zu Polynomen mit komplexen ganzen Koeffizienten, diese werden wir später im nächsten Kapitel noch beweisen. Wäre π nun algebraisch, so auch die Zahl θ = iπ. Angenommen, diese besitzt den Grad d, es gibt also ein Polynom vom Grad d mit ganzen Gaußschen Zahlen (also aus Z + iZ) als Koeffizienten, welches θ als Nullstelle besitzt. Seien θ1 = θ, θ2 ,. . . , θd alle Nullstellen des Polynoms und bezeichne ` den führenden Koeffizienten des Polynoms. Dann folgt (1 + eθ1 )(1 + eθ2 ) · · · (1 + eθd ) = 0, 11 (1.6.39) Carl Louis Ferdinand von Lindemann, 1852–1939 35 1 Zahlen da der erste Faktor ja schon Null ist. Ausmultipliziert gibt dies eine Summe von 2d Termen der Form eΘ mit Θ = 1 θ1 + · · · + n θn und j ∈ {0, 1}. Es sind sicher nicht alle dieser Θ gleich Null. Seien α1 ,. . . , αn die von Null verschiedenen Zahlen Θ. Dann folgt mit q = 2d − n eα1 + · · · + eαn + q = 0. (1.6.40) Wir betrachten nun wieder die Zahl J = I(α1 ) + I(α2 ) + · · · I(αn ) + qI(0), (1.6.41) wobei I(t) analog zum letzten Beweis definiert ist, allerdings für das Polynom f (x) = `np xp−1 (x − α1 )p · · · (x − αn )p (1.6.42) mit komplexen Koeffizienten und großer Primzahl p. Analog zu vorher sieht man, dass auch für komplexes α die Abschätzung |I(α)| ≤ |α| e|α| f¯(|α|) (1.6.43) gilt. Damit folgt aus der Darstellung (1.6.25) und damit J = −q m X f (j) (0) − j=0 m X n X f (j) (αk ) (1.6.44) j=0 k=1 die obere Abschätzung |J| ≤ |α1 |e|α1 | f¯(|α1 |) + · · · + |αn |e|αn | f¯(|αn |) ≤ (|α1 |e|α1 | + · · · + |αn |e|αn | )(2M )(n+1)p−1 ≤ cp (1.6.45) mit M = maxk |αk | und einer damit von p unabhängigen Konstanten c. Andererseits sind die Terme n X f (j) (αk ) (1.6.46) k=1 symmetrische Polynome mit ganzen Koeffizienten in den Variablen `α1 bis `αn . Diese sind (nach dem noch zu beweisenden Hauptsatz über symmetrische Polynome) wiederum Polynome in den elementarsymmetrischen Polynomen `α1 + · · · + `αn , `2 α1 α2 + `2 α1 α3 + · · · + `2 αn−1 αn bis `n α1 · · · αn . Diese elementarsymmetrischen Polynome sind selbst wiederum symmetrische Polynome in den Variablen θ1 , . . . , θn mit ganzen Koeffizienten, also auch durch Polynome in den zugehörigen elementarsymmetrischen Polynomen darstellbar. Diese sind aber gerade die Koeffizienten des Ausgangspolynoms und damit nach Voraussetzung ganz. Also folgt, dass alle Summen der Form (1.6.46) ganze Zahlen aus Z + iZ liefern. Damit kann man wie im vorigen Beweis argumentieren, es gilt für j < p stets f (j) (αk ) = 0 und damit ist p! ein Teiler von f (j) (αk ) für alle j. Weiter ist f (j) (0) ganz und durch p! teilbar solange j 6= p − 1 und f (p−1) (0) = (p − 1)! (−`)np (α1 · · · αn )p (1.6.47) ist durch (p − 1)! teilbar, aber nicht durch p! falls p > |`n α1 · · · αn |. Ist nun auch p > q, so folgt insbesondere |J| ≥ (p − 1)! und wir erhalten einen Widerspruch zur oberen Schranke, wenn wir p gegen Unendlich gehen lassen. Also ist π transzendent. Damit haben wir gezeigt, dass die Zahlen e, eπ und π transzendent sind. Für die Zahl π e ist bis heute nicht einmal bekannt, ob sie irrational ist. 36 2 Funktionen In einem zweiten Kapitel soll es um Funktionen und den Funktionsbegriff gehen. Dazu werden wir Klassen elementarer Funktionen und ihre Eigenschaften diskutieren und Anwendungen dieser, insbesondere in der Geometrie, in den Mittelpunkt stellen. 2.1 Polynome Polynome sind spezielle Ausdrücke / Funktionen der Form p(x) = m X ak x k (2.1.1) k=0 mit Koeffizienten ak . Wir werden im folgenden annehmen, dass die Koeffizienten aus einem der Körper Q, R, Q+iQ oder C = R+iR sind. Einige Resultate werden sich auch auf Koeffizienten aus Z beziehungsweise Z + iZ beziehen, das wird aber in der Formulierung der Resultate dann besonders hervorgehoben. Wir sagen, ein Polynom besitzt den Grad m ≥ 0, falls es von der Form (2.1.1) mit am 6= 0 ist. Der Grad eines solchen Polynoms p sei als deg p bezeichnet. Das Nullpolynom besitzt die Koeffizienten ak = 0 für alle k. Für dieses vereinbaren wir den Grad −∞. Proposition 2.1.1. Seien p und q Polynome. Dann erfüllt Gradfunktion deg (1) für die Summe (p + q)(x) = p(x) + q(x) deg(p + q) ≤ max{deg p, deg q}; (2.1.2) (2) und für das Produkt (pq)(x) = p(x)q(x) deg(pq) = deg p + deg q. (2.1.3) Insbesondere impliziert pq = 0 stets p = 0 oder q = 0. Beweis. Der Beweis folgt durch Nachrechnen. Aus p(x) = m X k ak x , q(x) = k=0 m X bk x k (2.1.4) k=0 folgt (p + q)(x) = m X (ak + bk )xk (2.1.5) k=0 37 2 Funktionen und für ak = bk = 0 folgt ak + bk = 0. Damit gilt die erste Aussage. Für die zweite Aussage seien p und q beide verschieden vom Nullpolynom und es gelte p(x) = m X k ak x , q(x) = k=0 n X b` x ` mit am 6= 0 und bn 6= 0. Dann gilt deg p = m, deg q = n und ! n ! m+n ! m X X X X (pq)(x) = ak x k b` x ` = ak b ` x j k=0 (2.1.6) `=0 j=0 `=0 (2.1.7) k+`=j impliziert, dass der Koeffizient vor xm+n durch am bn 6= 0 gegeben ist. Damit gilt aber die Behauptung deg(pq) = m + n. Wir beginnen mit einfachen algebraischen Eigenschaften von Polynomen. Die Gradfunktion erlaubt es, eine sinnvolle Division mit Rest zu definieren. Proposition 2.1.2 (Division mit Rest). Seien p und q Polynome mit deg p ≥ deg q und q 6= 0. Dann existieren eindeutig bestimmte Polynome r und s mit deg r < deg q und p(x) = q(x)s(x) + r(x). (2.1.8) Wir bezeichnen den auftretenden Rest als p mod q. Beweis. Wir skizzieren den Algorithmus zur Bestimmung von s und r. Da m = deg p ≥ deg q = n gilt, haben wir eine Darstellung p(x) = m X k=0 ak x k , q(x) = n X b` x ` (2.1.9) `=0 mit am 6= 0 und bn 6= 0. Bildet man nun die Polynome am m−n x , r1 (x) = p(x) − q(x)s1 (x), s1 (x) = bn (2.1.10) so gilt nach Konstruktion deg r1 < deg p. Gilt nun deg r1 < deg q, so sind wir fertig. Andernfalls setzen wir dies iterativ fort, beginnen also wieder mit dem Paar der Polynome r1 , q. Dies geht solange, bis für ein j dann deg rj < deg q gilt. Dann folgt aber die behauptete Darstellung mit r = rj und s = s1 + · · · + sj . Es bleibt die Eindeutigkeit der Darstellung. Aus qs − r = qs̃ − r̃ folgt r − r̃ = q(s − s̃) und damit entweder s = s̃ oder deg(r − r̃) ≥ deg q im Widerspruch zur Annahme deg r < deg q. Also ist s und damit auch r eindeutig bestimmt. Die Division mit Rest erlaubt es, den Algorithmus Euklids auf Polynome anzuwenden. Wir erinnern kurz an den Algorithmus. Gegeben seien zwei Polynome p und q mit deg p ≥ deg q. (S1) Bestimme r = p mod q. Ist r das Nullpolynom, so endet der Algorithmus mit dem Rückgabewert q. (S2) Ersetze das Paar (p, q) durch (q, r) und gehe zu Schritt 1. 38 2.1 Polynome Der erweiterte Algorithmus liefert in jedem zweiten Schritt noch den Quotienten k, also das Polynom mit deg(p − qk) < deg p. Die Folge der k entspricht der Folge der Teilnenner in Kettenbruchsentwicklungen aus dem vorherigen Kapitel, spielt hier aber nur eine untergeordnete Rolle. Den Rückgabewert des Algorithmus bezeichnen wir mit ggT(p, q) für gegebene Polynome p und q. Satz 2.1.3 (Euklidischer Algorithmus). Seien p und q Polynome mit deg p ≥ deg q und q 6= 0. (1) Der Euklidische Algorithmus endet nach maximal deg q Iterationsschritten. (2) Es gilt für r = ggT(p, q) die Bezout-Darstellung p(x)s(x) + q(x)t(x) = r(x) (2.1.11) mit Polynomen s und t. (3) Jedes Polynom, welches p und q teilt, teilt auch r. Beweis. Der Algorithmus ersetzt in jedem Iterationsschritt das Paar der Polynome (p, q) durch Polynome (q, r1 ) mit deg r1 < deg q. Damit ist nach spätestens deg q Schritten deg r = 0 erreicht. Die erste Aussage folgt. Für die zweite Aussage folgen benötigen wir die Folge der Quotienten aus den einzelnen Schritten. Es gilt p(x) = q(x)k1 (x) + r1 (x), q(x) = r1 (x)k2 (x) + r2 (x), r1 (x) = r2 (x)k3 (x) + r3 (x), .. . rn−3 (x) = rn−2 (x)kn−1 (x) + rn−1 (x), rn−2 (x) = rn−1 (x)kn (x) (2.1.12) und r = ggT(p, q) = rn−1 . Einsetzen der oberen Zeilen (als Darstellungen der jeweiligen Reste) in die vorletzte liefert die Behauptung. Es gilt r1 (x) = p(x) − q(x)k1 (x), r2 (x) = q(x) − r1 (x)k2 (x) = −p(x)k2 (x) + q(x)(1 + k1 (x)k2 (x)) (2.1.13) und induktiv aus Darstellungen für ri (x) = p(x)si (x) + q(x)ti (x), i < j, rj (x) = rj−2 (x) − rj−1 (x)kj (x) = p(x)sj−2 (x) + q(x)tj−2 (x) − p(x)sj−1 (x)kj (x) − q(x)tj−1 (x)kj (x) (2.1.14) die entsprechende Darstellung für den Rest rj (x) mit Polynomen sj (x) = sj−2 (x)−sj−1 (x)kj (x) und tj (x) = tj−2 (x) − tj−1 (x)kj (x). Für die dritte Aussage nutzen wir die Darstellung aus der zweiten. Teilt u sowohl p als auch q, so existieren Polynome v und w mit p(x) = u(x)v(x) und q(x) = u(x)w(x), es gilt also r(x) = u(x)(v(x)s(x) + w(x)t(x)) und u teilt auch r. 39 2 Funktionen Bis jetzt haben wir nicht genutzt, dass die Koeffizienten der Polynome rationale, reelle oder komplexe Zahlen sind. Das wird nun anders. Wir betrachten Nullstellen der Polynome, also Lösungen der Gleichung p(x) = 0, und beobachten als erstes, dass zu einer gegebenen Zahl α lα (x) = x − α (2.1.15) bis auf konstante Faktoren das einzige Polynom vom Grad 1 mit der Nullstelle α ist. Damit folgt aus Proposition 2.1.2: Korollar 2.1.4. Angenommen, α ist Nullstelle des Polynoms p. Dann ist lα (x) = x − α ein Teiler von p, es gibt also insbesondere ein Polynom q mit p(x) = q(x)lα (x). Beweis. Division mit Rest liefert die Darstellung p(x) = q(x)lα (x) + r(x) mit einem Polynom r mit deg r < deg lα = 1. Damit muss aber r(x) = b eine Zahl sein. Einsetzen von α gibt b = 0. Korollar 2.1.5. Ein Polynom vom Grad m besitzt höchstens m verschiedene Nullstellen. Beweis. Ist α Nullstelle von p, so gilt p(x) = lα (x)q(x) mit einem Polynom q(x). Ist β 6= α ebenso Nullstelle, so muss wegen lα (β) 6= 0 offenbar auch q(β) = 0 gelten. Damit teilt also lα lβ das Polynom p. Angenommen, α1 , . . . , αn sind Nullstellen. Dann teilt das Produkt lα1 (x) · · · lαn (x) das Polynom p(x). Da ersteres den Grad n besitzt, folgt deg p ≥ n und damit die Behauptung. Satz 2.1.6 (Gauß1 , Fundamentalsatz der Algebra). Jedes nicht konstante Polynom (mit komplexen Koeffizienten) besitzt Nullstellen in C. Beweis. Wir folgen der originalen Beweisidee von Gauß und betrachten ein Polynom p(z) = m X ak z k (2.1.16) k=0 vom Grad m in der komplexen Variablen z = x+iy. Insbesondere gilt also am 6= 0. Zugeordnet betrachten wir die zwei (reellen) Polynome u(x, y) = Re p(x + iy), v(x, y) = Im p(x + iy). (2.1.17) Um zu zeigen, dass p eine (komplexe) Nullstelle besitzt, genügt es gemeinsame Nullstellen der beiden reellen Funktionen u und v zu finden. Wir betrachten zuerst die Nullstellenmenge von u. Für große Werte von |z| verhält sich u wie u(x, y) ∼ Re(am (x + iy))m = Re(am z m ) (2.1.18) und das rechtsstehende homogene Polynom besitzt m sich im Ursprung schneidende Geraden als Nullstellenmenge. Zwischen diesen ist die Funktion abwechselnd positiv und negativ. Betrachtet man also die Nullstellenmenge von u, so erhält man Kurven, die die komplexe Ebene in Bereiche teilen, in denen u(x, y) > 0 beziehungsweise u(x, y) < 0 gilt, siehe Abbildung 2.1. 1 Carl Friedrich Gauß, 1777–1855 40 2.1 Polynome − + + − − + Abbildung 2.1: Nullstellenmenge von u(x, y) und entstehende Bereiche Entsprechendes gilt für die Nullstellenmenge von v(x, y). Allerdings gilt hier für den homogenen Teil höchster Ordnung Im(am z m ) ∼ 0 statt Re(am z m ) ∼ 0 und dies führt zu einer Familie von Geraden, die Winkelhalbierenden der Ausgangsgeraden sind. Auch diese sind wieder zu Kurven zu verbinden, die entsprechende Bereiche in denen v(x, y) < 0 und v(x, y) > 0 gilt, trennen. Betrachtet man nun einen unbegrenzten Bereich, in dem u(x, y) < 0 und v(x, y) < 0 gilt, so treten zwei Fälle auf. Entweder ist der Bereich von mindestens zwei sich nicht schneidenden Kurven berandet und läuft damit in mindestens zwei Richtungen ins Unendliche, oder er besitzt nur eine Randkurve und diese damit einen Punkt auf dem u(x, y) = v(x, y) = 0 gilt. Im ersten Fall betrachten wir eine der Komponenten des Komplements dieses Bereiches. In jeder dieser Komponenten befinden sich ins Unendliche verlaufende Nullstellenkurven mindestens einer der Funktionen u oder v (da zwischen denen Nullstellenkurven von u jeweils auch eine von v ins Unendliche verläuft). Wir beginnen in einer der Komponenten erneut und wählen einen Bereich, in dem u(x, y) > 0 und v(x, y) > 0 gilt. Es treten wieder zwei Fälle auf. Etc. Wir können diese Argumentation iterativ fortsetzen. Das Vorgehensweise muss nach endlich vielen Schritten enden, da maximal nur 4n solche unbegrenzten Bereiche existieren können. Pm k Wir nennen ein Polynom p(x) = k=0 ak x vom Grad m monisch (manchmal auch also normiert bezeichnet), falls der führende Koeffizient durch am = 1 gegeben ist. Korollar 2.1.7. Sei p ein monisches Polynom vom Grad m ≥ 0. Dann existieren (nicht notwendig verschiedene) Zahlen α1 , . . . αm ∈ C mit p(x) = m Y (x − αj ). (2.1.19) j=1 Beweis. Nach dem Fundamentalsatz der Algebra existiert zu p eine Zahl α1 ∈ C mit p(x) = (x − α1 )q1 (x) mit deg q1 = m − 1. War m = 1, so ist man insbesondere fertig. Andernfalls existiert zu q1 wieder eine Zahl α2 ∈ C mit q1 (x) = (x − α2 )q2 (x) und deg q2 = m − 2. Iterative Fortsetzung führt direkt zum Beweis. 41 2 Funktionen Abbildung 2.2: Nullstellenmengen von u(x, y) und v(x, y) und Nullstellen des Polynoms Die Zahlen αj werden als Wurzeln des Polynoms p bezeichnet. Die Anzahl der Faktoren (x−α) zu gegebenem α nennt man die Vielfachheit der Wurzel αj . Proposition 2.1.8 (Wurzelsatz von Vieta2 ). Sei m X p(x) = (−1)m−k ck xk (2.1.20) k=0 ein monisches Polynom vom Grad m mit Wurzeln α1 , . . . , αm . Dann gilt cm = 1 und für alle k < m, k ∈ N0 X Y ck = αj . (2.1.21) J⊂{1,...,m} j∈J #(J)=m−k Beweis. Ausmultiplizieren der Darstellung (2.1.19) liefert die Behauptung. Die hier auftretenden Polynome, welche die Koeffizienten ck als Funktionen in αj darstellen, sind symmetrisch. Das ist klar, da die Reihenfolge der Wurzeln beim ausmultiplizieren der Produktdarstellung unerheblich ist. Die entstehenden Polynome werden als elementarsymmetrische Polynome bezeichnet. In den Fällen m = 2 und m = 3 sind diese durch s1 = α1 + α2 , s2 = α1 α2 (2.1.22) und s1 = α1 + α2 + α3 , s2 = α1 α2 + α2 α3 + α3 α1 , gegeben, ihre allgemeine Form ist für gegebenes k und m X Y sk (α1 , . . . , αm ) = αj . s3 = α1 α2 α3 (2.1.23) (2.1.24) J⊂{1,...,m} j∈J #(J)=k Sie sind interessant, da jedes symmetrische Polynom in mehreren Variablen selbst Polynom in diesen elementarsymmetrischen Polynomen ist. Dies besagt 2 Franciscus Vieta, 1540–1603 42 2.1 Polynome Satz 2.1.9 (Hauptsatz über symmetrische Polynome). Sei g ein Polynom in m Variablen α1 , . . . , αm , welches die Symmetriebedingung g(α1 , . . . , αm ) = g(απ(1) , . . . , απ(m) ) (2.1.25) für jede Permutation π ∈ Sm erfüllt. Dann existiert ein Polynom f in m Variablen mit g(α1 , . . . , αm ) = f (s1 (α1 , . . . , αm ), . . . , sm (α1 , . . . , αm )). (2.1.26) Besitzt das Polynom g Koeffizienten aus Z, Z + iZ, Q, Q + iQ oder R, so auch f . Bevor wir zum Beweis übergehen, vorerst eine Vorbemerkung. Es genügt, die Aussage für symmetrisierte Monome zu beweisen. Im Falle m = 2, ergeben sich die ersten Schritte aus nachfolgender Tabelle. Grad Symmetrisiertes Monom Darstellung 0 1 1 1 α1 + α2 s1 2 α1 α2 s2 2 2 2 α1 + α2 s1 − 2s2 2 2 3 α1 α2 + α1 α2 s1 s2 α13 + α23 s31 − 3s1 s2 4 α12 α22 s22 α13 α2 + α1 α23 s2 (s21 − 2s2 ) 4 4 4 α1 + α2 s1 − 4s2 (s21 − 2s2 ) − 6s22 5 α13 α22 + α12 α23 s1 s22 α14 α2 + α1 α24 (s41 − 4s2 (s21 − 2s2 ) − 6s22 )s2 5 5 5 α1 + α2 s1 − 5(s41 − 4s2 (s21 − 2s2 ) − 6s22 )s2 − 10s1 s22 .. .. .. . . . Im Falle m = 3 gilt entsprechend Grad 0 1 2 3 .. . Symmetrisiertes Monom 1 α1 + α2 + α3 α1 α2 + α1 α3 + α2 α3 α12 + α22 + α32 α1 α2 α3 2 2 α1 α2 + α1 α3 + α1 α22 + α22 α3 + α1 α32 + α2 α32 α13 + α23 + α33 .. . Darstellung 1 s1 s2 s21 − 2s2 s3 s1 s2 s31 − 3s1 s2 + 3s3 .. . und die Fortsetzung der Tabellen verbleibt als Übung. Für den Beweis obigen Satzes genügt es zu zeigen, dass für alle Multiindices ν = (ν1 , . . . , νm ) ∈ Nm 0 und zugehörige Monome ν α = m Y ν αj j (2.1.27) j=1 43 2 Funktionen die entsprechenden symmetrisierten Monome 1 X π(ν) (αν )sym = α , m! π∈S π(ν) = (νπ(1) , . . . , νπ(m) ), (2.1.28) m entsprechend darstellbar sind. Dazu führen wir Induktion über |ν| = ν1 + · · · + νm und in jedem dieser Schritte über die lexikographische Ordnung der Multiindices, also µ ν falls die erste auftretende nichttriviale Differenz µj − νj positiv ist. Im folgenden betrachten wir insbesondere geordnete Multiindices, also ν mit νi ≥ νj für i ≤ j. Diese bestimmen die symmetrisierten Monome eindeutig und es gilt für jede Permutation π ∈ Sm insbesondere die Ungleichung ν π(ν). (2.1.29) Für symmetrische Polynome in m Variablen bezeichnen wir den lexikographisch größten auftretenden Multiindex als seinen (symmetrischen) Grad. Beweis. Wir nutzen Induktion über die lexikographische Ordnung der Multiindices. Die kleinsten geordneten Multiindices entsprechen gerade den elementarsymmetrischen Polynomen, X k = (1, . . . , 1, 0, . . . , 0) απ(k ) , (2.1.30) ! sk (α) = | {z } π∈Sm k mal und diese sind damit dargestellt. Sei nun µ ein geordneter Multiindex. Angenommen die symmetrischen Monome X απ(ν) , µ ≺ ν, (2.1.31) π∈Sm sind schon alle als Polynome in elementarsymmetrischen Polynomen mit ganzzahligen Koeffizienten dargestellt. Betrachtet man nun das Polynom X s1 (α)µ1 −µ2 s2 (α)µ2 −µ3 · · · sm (α)µm − απ(µ) , (2.1.32) π∈Sm so ist dieses nach Konstruktion symmetrisch. Wir bestimmen das Monom mit dem (lexikographisch) größten Multiindex, welches in diesem Polynom vorkommt. Für den letzten Summanden ist dies offenbar µ, für das Produkt der elementarsymmetrischen Monome ergibt sich wegen (2.1.29) dafür (µ1 − µ2 )1 + (µ2 − µ3 )2 + · · · + µm m = µ. (2.1.33) Beide haben Koeffizienten 1 und kürzen sich damit. Also ist das Polynom (2.1.32) vom Grad lexikographisch kleiner als µ und damit nach Induktionsvoraussetzung ein Polynom mit ganzen Koeffizienten in elementarsymmetrischen Polynomen. Satz 2.1.10. Sei g ein antisymmetrisches Polynom in m Variablen, gelte also g(α1 , . . . , αm ) = sign(π) g(απ(1) , . . . , απ(m) ) für jede Permutation π ∈ Sm . Dann existiert eine symmetrisches Polynom h mit Y g(α1 , . . . , αm ) = h(α1 , . . . , αm ) (αi − αj ). i<j 44 (2.1.34) (2.1.35) 2.2 Polynomgleichungen Beweis. Betrachtet man g als Polynom in α1 mit Polynomen in den verbleibenden m − 1Variablen als Koeffizienten, so besitzt es für α1 = αj , j > 1, aufgrund der Antisymmetrie jeweils eine Nullstelle. Bezeichnet man nun den lexikographisch größten auftretenden Multiindex als lexikographischen Grad des Polynoms, so gilt analog zu Proposition 2.1.2 g(α1 , . . . , αm ) = h1 (α1 , . . . , αm )(α1 − α2 ) + r1 (α1 , . . . , αm ) (2.1.36) mit einem Rest, dessen lexikographischer Grad kleiner ist als der von (α1 − α2 ), also insbesondere unabhängig von α1 und α2 ist. Setzt man dies fort, so erhält man eine Darstellung m Y g(α1 , . . . , αm ) = h2 (α1 , . . . , αm ) (α1 − αj ) + r2 (2.1.37) j=2 mit einem von allen Variablen unabhängigen Rest. Dieser muss (nach Einsetzen von α1 = · · · = αm = 0) identisch verschwinden, ist also Null. Setzt man dies iterativ fort, so folgt die behauptete Darstellung. Die Symmetrie von h ist offensichtlich. Wir skizzieren ein kurzes Beispiel zur Anwendung der letzten Aussage. Gegeben sei das Polynom (x − y)3 + (y − z)3 + (z − x)3 . (2.1.38) Dieses ist antisymmetrisch, besitzt also den Faktor (x − y)(y − z)(z − x) und es bleibt den symmetrischen Quotienten zu bestimmen. Dieser muss vom (symmetrischen) Grad 0 sein und damit konstant. Also folgt durch Einsetzen von x = 1, y = 0 und z = −1 die Identität (x − y)3 + (y − z)3 + (z − x)3 = 3(x − y)(y − z)(z − x). (2.1.39) 2.2 Polynomgleichungen Lineare Gleichungen in einer Variablen sind trivial lösbar, wir verzichten hier darauf. Interessanter werden Lösungsverfahren zu Gleichungen höheren Grades. Reine Gleichungen der Form xm = w (2.2.1) löst man nicht, sondern nutzt ihre Lösung zur Definition der (komplexen) Wurzelfunktionen x= √ m w. (2.2.2) Diese sind m-wertig, wobei sich die m verschiedenen Werte um die m-ten Einheitswurzeln, also die Lösungen zu xm = 1 als Faktoren unterscheiden. 45 2 Funktionen Quadratische Gleichungen löst man durch quadratisches Ergänzen. Um alle Lösungen zu x2 + 2px + q = 0 (2.2.3) zu bestimmen, schreiben wir die Gleichung um zu (x + p)2 + q − p2 = 0, (2.2.4) und erhalten damit x = −p ± p p2 − q. (2.2.5) Gleichungen mit reellen Lösungen sind allein mit dem reellen Wurzelbegriff lösbar. Kubische Gleichungen können mit einem durch Gerolamo Cardano3 publizierten und nach ihm benannten Verfahren gelöst werden. Entdeckt wurde die Methode von Nicolo Tartaglia4 oder Scipione del Ferro5 . Eine allgemeine Gleichung dritten Grades der Form x3 + ax2 + bx + c = 0 (2.2.6) kann durch die Substitution x = y − a/3 zu y 3 − py − q = 0 (2.2.7) vereinfacht werden. Es genügt als letztere zu betrachten. Mit dem Ansatz y = ξ + η mit noch zu bestimmenden Zahlen ξ und η wird diese zu 0 = (ξ + η)3 − p(ξ + η) − q = ξ 3 + η 3 + 3ξη(ξ + η) − p(ξ + η) − q. (2.2.8) Dies ist erfüllt, falls ξ und η die Gleichungen p = 3ξη, und q = ξ 3 + η3 (2.2.9) erfüllen. Damit sind aber ξ 3 und η 3 Lösungen der quadratischen Gleichung p3 t − qt + = 0, 27 3 (2.2.10) also von der Form r r q2 p3 q q2 p3 q 3 − , η = − − . ξ = + 2 4 27 2 4 27 Als Lösungen der kubischen Gleichung ergeben sich also Zahlen der Form s s r r 2 3 3 q 3 q q p q2 p3 + − + − −+ , 2 4 27 2 4 27 3 3 Gerolamo Cardano, 1501–1576 Nicolo Tartaglia, 1499–1557 5 Scipione del Ferro, 1456–1526 4 46 (2.2.11) (2.2.12) 2.2 Polynomgleichungen wobei die beiden dritten Wurzeln so zu wählen sind, dass ihr Produkt gerade p/3 liefert. Nutzt man dies, so kommt mit einer Wahl der dritten Wurzel aus und erhält s r 3 q q2 p3 p + − + r (2.2.13) q 2 4 27 3 q q2 p3 3 2 + 4 − 27 als allgemeine Lösung der kubischen Gleichung. Mit dem rein reellen Wurzelbegriff ergeben sich hier Probleme. Genau dann, wenn die Gleichung drei verschiedene reelle Lösungen besitzt, sind die auftretenden Quadratwurzeln echt komplex. Quartische Gleichungen wurden durch Lodovico Ferrari6 erstmalig allgemein gelöst. Jede solche Gleichung x4 + ax3 + bx2 + cx + d = 0 (2.2.14) kann vermittels der Substitution x = z − a/3 auf die Normalform z 4 + αz 2 + βz + γ = 0 (2.2.15) transformiert werden. Deshalb betrachten wir nur diese Gleichung. Die Grundidee besteht nun darin, dieses Polynom vierten Grades als Differenz zweier Quadrate zu schreiben. Dazu führen wir einen neuen Parameter ξ ein und nutzen, dass (z 2 + α + ξ)2 − (z 4 + αz 2 + βz + γ) = (α + 2ξ)z 2 − βz + ((α + ξ)2 − γ) (2.2.16) genau dann ein vollständiges Quadrat (als Polynom in z) ist, wenn dieses eine doppelte Nullstelle besitzt. Dies gilt, wenn die Diskriminante der quadratischen Gleichung verschwindet, also 4(α + 2ξ)((α + ξ)2 − γ) − β 2 = 0 (2.2.17) gilt. Dies ist eine kubische Gleichung. Sei ξ eine ihrer Nullstellen. Dann existieren Zahlen η und ζ mit p η 2 = α + 2ξ, η = α + 2ξ, p (2.2.18) ζ 2 = (α + ξ)2 − γ, ζ = (α + ξ)2 − γ, mit 2ηζ = β. Die letzte Bedingung bestimmt die Wahl der Quadratwurzeln. Mit diesen Zahlen gilt nach Konstruktion von ξ, η und ζ z 4 + αz 2 + βz + γ = (z 2 + α + ξ)2 − (ηz − ζ)2 (2.2.19) und die Lösungen z der quartischen Gleichung erhält man als die Lösungen einer der quadratischen Gleichungen z 2 − 2ηz + α + ξ + ζ = 0, oder z 2 + 2ηz + α + ξ − ζ = 0. (2.2.20) Damit kann man alle vier Lösungen der quartischen Gleichung durch iterierte Quadrat- und Kubikwurzeln darstellen. 6 Lodovico Ferrari, 1522–1565 47 2 Funktionen Quintische Gleichungen der allgemeinen Form x5 + ax4 + bx3 + cx2 + dx + e = 0 (2.2.21) kann man wieder durch Substitutionen vereinfachen. Eine lineare Substitution x = z − a/5 würde den quartischen Term eliminieren. Das kann man etwas besser machen und versuchen möglichst viele der Koeffizienten zum Verschwinden zu bringen. Diese Idee hat Tschirnhaus7 versucht, allerdings konnte er damit die quintische Gleichung nicht im lösen. Die so maximal mögliche Reduktion gelang Bring8 . Der Ansatz z = x4 + αx3 + βx2 + γx + δ (2.2.22) mit zu bestimmenden Parametern α, β, γ, δ führt nach langem Rechnen auf die Normalform z 5 + pz + q = 0. (2.2.23) Damit ist aber Schluss, eine Lösung der Gleichung durch Wurzelausdrücke ist nämlich im allgemeinen nicht möglich. (Satz von Abel9 –Ruffini10 ) Lösungsdarstellungen existieren mit Mitteln der Analysis. So kann man die Lösungen der Gleichung der Normalform als Werte einer hypergeometrischen Reihe darstellen. 2.3 Potenz- und Logarithmusfunktionen Die nach Polynomen einfachsten Funktionen sind Potenz- und Logarithmusfunktionen. Diese entstehen, wenn man versucht den Potenzbegriff a = bc auf möglichst viele Werte von c (und a) zu erweitern. Für natürliche Zahlen n sollte dabei natürlich bn den Potenzen entsprechen, die sich durch n-fache Multiplikation von b ergeben. Für rationale Zahlen c = n/m ergeben sich schon Wahlmöglichkeiten, will man √ √ m m bn/m = bn = ( b)n (2.3.1) sinnvoll definieren, so hat man eine Auswahl aus den m Werten der Wurzelfunktion zu treffen. Die sinnvolle Auswahl hängt dabei mit der gewünschten stetigen Abhängigkeit des Ergebnisses vom Exponenten zusammen. Satz 2.3.1. Sei b > 0. Dann existiert genau eine stetige Funktion f : R → R mit (1) der Funktionalgleichung f (x + y) = f (x)f (y); (2) der Normierung f (1) = b. Der Wertebereich von f ist die Menge R+ der positiven reellen Zahlen. Die Funktion wird als Exponentialfunktion f (x) = by zur Basis b bezeichnet. 7 Ehrenfried Walther von Tschirnhaus, 1651–1708 Erland Samuel Bring, 1736–1798 9 Niels Henrik Abel, 1802–1829 10 Paolo Ruffini, 1765–1822 8 48 2.3 Potenz- und Logarithmusfunktionen Beweisskizze. In einem ersten Schritt beobachten wir, dass für alle natürlichen Zahlen n und damit entsprechend auch f (n) = f (1)n = bn (2.3.2) n m f = f (n) = bn m (2.3.3) gilt. Damit folgt f n = √ m bn = bn/m (2.3.4) m mit einer entsprechend zu wählenden Wurzel. Für ungerades m ist die Wurzel stets positiv, für gerades m kann sie positiv oder negativ sein. Will man eine auf Q stetige Funktion, so ist die Wurzel dabei positiv zu wählen. Damit ist die Funktion als stetige Fortsetzung von Q auf R aber eindeutig bestimmt. Die Logarithmusfunktion wird gewöhnlich als Umkehrfunktion der Exponentialfunktion eingeführt. Dies ist möglich, da für b 6= 1 die soeben konstruierte Exponentialfunktion wegen √ √ n m m > f x+ = f (x)bn/m = f (x) bn , bn { > (2.3.5) < } 1 für b { < } 1 m streng monoton ist. Satz 2.3.2. Sei b > 0. Dann existiert genau eine stetige Funktion g : R+ → R mit (1) der Funktionalgleichung g(xy) = g(x) + g(y); (2) der Normierung g(b) = 1. Die Funktion wird als Logarithmusfunktion g(y) = logb y zur Basis b bezeichnet. Beweisskizze. Wir gehen analog vor. Aufgrund der Funktionalgleichung gilt wegen g(b) = 1 g(bn ) = ng(b) = n (2.3.6) mg(bn/m ) = g(bn ) = m, (2.3.7) und damit auch also n . m dicht in R+ ist und die so konstruierte Funktion wegen g(bn/m ) = Da bn/m g(x) − n n = g(xb−n/m ) < g(x) < g(xbn/m ) = g(x) + m m (2.3.8) (2.3.9) für n, m ∈ N auch auf Q+ stetig ist, existiert eine eindeutig bestimmte stetige Fortsetzung auf die Menge der positiven reellen Zahlen. Die Logarithmusfunktion wurde insbesondere als Rechenhilfsmittel in Verbindung mit Logarithmentafeln zu einem zentralen Bestandteil der Mathematik des frühen 17. bis späten 19. Jahrhunderts. Zu nennen sind dabei insbesondere die auf John Napier11 und unabhängig davon 11 John Napier, 1550–1617 49 2 Funktionen Jost Bürgi12 , die erste Logarithmentafeln zu den Basen 0.9999999 und 1.0001 veröffentlichten. Logarithmen zur Basis 10 wurden zuerst von Henri Briggs13 eingeführt, weitere Tafeln gehen auf Johannes Kepler14 und Nicolaus Mercator15 zurück. Zu beachten ist, dass alle diese Tafeln von Hand zu berechnen waren. Sie dienten für lange Zeit als wichtigstes Hilfsmittel zum Berechnen komplizierter Multiplikationen, Divisionen und Wurzelausdrücke. Die 1783 von Jurij Vega16 herausgegebenen siebenstelligen Logarithmustafeln waren nicht nur für ihre Fehlerfreiheit gerühmt, sie waren insbesondere zentral für Berechnungen im Ingenieurwesen. Davon zeugen die vielen Neuauflagen, die diese Tafeln bis hin in die Mitte des 20ten Jahrhunderts erfahren haben. Um zu verstehen, wie solche Tafeln erstellt wurden, versuchen wir uns an einem kleinen Beispiel und konstruieren eine Tafel zur Basis 2 und zur Basis 1,1. Es gilt 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 1 (1,5) 2 (2,25) (2,5) (2,75) 3 (3,125) (3,25) (3,375) (3,5) (3,625) (3,75) (3,875) 4 1 1,1 1,21 1,331 1,4641 1,61051 1,771561 1,9487171 2,14358881 2,357947691 2,5937424601 2,85311670611 3,138428376721 3,4522712143931 3,79749833583241 4,177248169415651 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Die zweite Spalte liefert in den (schwarz markierten) Zeilen, in welchen eine 2er-Potenz dargestellt ist, den korrekten Wert und dazwischen eine lineare Interpolation, die jeweils zu klein ist. In der rechten Tabelle sind alle Zeilen korrekt. Nach Runden auf eine oder zwei Nachkommastellen würde sich daraus eine gute Ausgangstabelle ergeben, die sich wiederum mit linearer Interpolation verbessern ließe. Proposition 2.3.3. Die durch Satz 2.3.3 definierte Logarithmusfunktion erfüllt für gegebenes b 6= 1, b > 0, und alle x, y > 0 (1) logb (xy) = logb x + logb y; (2) logb 1 = 0 und logb b = 1; (3) logb 12 1 x = − logb x; Jost Bürgi, 1552–1632 Henri Briggs, 1561–1630 14 Johannes Kepler, 1571–1630 15 Nicolaus Mercator, 1620–1687 16 Georg Freiherr von Vega, 1754–1802 13 50 2.3 Potenz- und Logarithmusfunktionen (4) logb (xy ) = −y logb x für alle y ∈ Q;17 (5) logb x = logc x logc b für jedes c 6= 1, c > 0. Beweis. (1) entspricht direkt der definierenden Funktionalgleichung. Setzt man darin y = 1, so erhält man für alle x > 0 logb x = logb (x · 1) = logb x + logb 1 (2.3.10) und damit logb 1 = 0. Das ist aber gerade die erste Identität von (2). Die zweite Identität entspricht der Normierungsbedingung aus Satz 2.3.3. Setzt man in (1) für y = 1/x, so folgt 1 1 = logb x + logb 0 = logb 1 = logb x x x (2.3.11) und damit die Behauptung aus (3). Für y ∈ N ist (4) eine direkte Folgerung der Funktionalgleichung. Zusammen mit (3) folgt also logb xn = n logb x, n∈Z (2.3.12) und ebenso m logb x1/m = logb (x1/m )m = logb x, (2.3.13) also auch für y = n/m mit m, n ∈ Z logb xy = logn xn/m = n 1 logb xn = logb x m m (2.3.14) und damit die Behauptung. Für die Aussage (5) nutzen wir die Eindeutigkeitsaussage aus Satz 2.3.3. Dazu betrachten wir die Funktion f (x) = logc x . logc b (2.3.15) Diese erfüllt nach obigen Regeln die Funktionalgleichung f (xy) = f (x) + f (y). Setzt man nun logc b = 1 und damit gilt f (x) = logb x. speziell x = b, so folgt f (b) = log b c Proposition 2.3.4. Die durch Satz 2.3.3 definierte Logarithmusfunktion erfüllt für alle b > 1 (1) logb x > 0 für alle x > 1; (2) logb y > logb x für alle y > x; (3) die Konkavitätsungleichung logb (θx + (1 − θ)y) > θ logb x + (1 − θ) logb y (2.3.16) für alle x 6= y und alle θ ∈ (0, 1). 17 und y ∈ R für die durch stetiges Fortsetzen für festes x definierte Exponentialfunktion xy 51 2 Funktionen Beweis. Für x = bm/n mit m > n und m, n ∈ N gilt m > 0. (2.3.17) n Da die Menge dieser x auf R+ dicht ist, folgt die erste Aussage zusammen mit der geforderten Stetigkeit der Logarithmusfunktion. Für die zweite Aussage nutzen wir die Funktionalgleichung, es gilt für y > x stets y/x > 1 und damit y (2.3.18) logb y − logb x = logb > 0 x aufgrund der ersten Aussage. Es bleibt die Konkavität. Dazu nutzen wir eine einfach Idee und betrachten zuerst nur den Fall θ = 1/2. Dann gilt für x 6= y die Ungleichung vom geometrischen und arithmetischen Mittel x+y √ > xy (2.3.19) 2 und damit aufgrund der Monotonie der Logarithmusfunktion logb x = logb bm/n = x+y logb x + logb y √ > logb xy = . (2.3.20) 2 2 Sei nun θ ∈ (0, 1) beliebig und z = θx + (1 − θ)y. Dann konstruieren wir durch Intervallhalbierungen eine Intervallschachtelung die z approximiert. Sei dazu z1 = (x + y)/2 und entsprechend falls z im linken Teilintervall liegt z2 = (x + z1 )/2 und falls z im rechten Teilintervall liegt entsprechend z2 = (z1 + y)/2. Fortgesetzt liefert dies eine Folge von Teilungspunkten zn mit zn → z, die jeweils von der Form zn+1 = (zn + ξn )/2 mit dem entsprechenden ξn ∈ {x, y, z1 , . . . , zn−1 }. logb x z2 z z3 z1 y Abbildung 2.3: Zum Beweis der Konkavität des Logarithmus Nun gilt aber nach dem ersten Beweisteil logb zn + logb ξn (2.3.21) 2 und nach Konstruktion (der aufeinandergestapelten Dreiecke) auch (im Falle θn+1 < 12 , sonst die mittlere Abschätzung leicht anders) logb zn+1 > logb zn + logb ξn x+y > 2θn+1 logb x+(1−2θn+1 ) logb > θn+1 logb x+(1−θn+1 ) logb y (2.3.22) 2 2 52 2.3 Potenz- und Logarithmusfunktionen für θn+1 mit zn+1 = θn+1 x + (1 − θn+1 )y. Für n → ∞ folgt logb z > θ logb x + (1 − θ) logb y (2.3.23) und damit die Behauptung. Man beachte, dass hier nur die Stetigkeit der Logarithmusfunktion und die Funktionalgleichung von Bedeutung war. Der vermeintlich moderne Beweis mittels Differentialrechnung wirkt zwar eleganter, nutzt aber viel mehr an Analysis. Die hier gezeigten Ungleichungen konnten schon vor der Erfindung der Differentialrechnung abgeleitet werden. Wir kommen zurück zur Konstruktion der Logarithmentafeln. Jost Bürgi nutzte als Basis die Zahl 1, 0001 = 1 − 104 . Dies erlaubt es, in der n-ten Zeile der Tabelle die Zahlen (x, y) mit x = (1, 0001)y (2.3.24) einzutragen. Für die Differenz aufeinanderfolgender x-Werte gilt dabei ∆x = (1, 0001)y+1 − (1, 0001)y = (1, 0001)y (1, 0001 − 1) = x , 104 (2.3.25) zusammen mit ∆y = 1 gilt also insbesondere 104 ∆y = . ∆x x (2.3.26) Entsprechendes gilt für die Tafeln John Napiers mit −107 statt 104 . Um dies einheitliche Logarithmen, bedarf es einer Verschiebung von Nachkommastellen. Wir ersetzen dazu y durch 104 y und erhalten 1 ∆y = , ∆y = 10−4 , (2.3.27) ∆x x oder im Falle Napiers mit y ersetzt durch −107 y 1 ∆y = , ∆x x ∆y = 10−7 . (2.3.28) Dies kann man sich graphisch veranschaulichen. Dazu addieren wir die auftretenden y-Differenzen und erhalten neben der formellen Darstellung y= X ∆x x (2.3.29) das in Abbildung 2.4 dargestellte Bild. Der Wert y ergibt sich als Summe der Rechtecksflächen zwischen 1 und x, jede der Flächen hat den festen Inhalt ∆y. Für ∆y → 0 liefert dies eine ‘natürliche’ Wahl des Logarithmus, wie er zuerst von Mercator18 verwendet wurde. Dieser definierte den natürlichen Logarithmus einer Zahl x > 1 als den Flächeninhalt zwischen der Hyperbel (ξ, 1/ξ) und der Achse im Bereich 1 < ξ < x, also in moderner Notation Z x dξ ln x = log nat x = . (2.3.30) ξ 1 18 Nikolaus Mercator, 1620–1687 53 2 Funktionen Abbildung 2.4: Logarithmentafeln als Flächeninhalte Dass es sich tatsächlich um eine Logarithmusfunktion handelt, ist einfach nachzurechnen. Es gilt Z xy Z x Z xy Z x Z y dξ dξ dξ dξ dξ ln(x + y) = = + = + = ln x + ln y, (2.3.31) ξ ξ ξ ξ ξ 1 1 x 1 1 wobei im zweiten Integral ξ zu xξ substituiert wurde. Es bleibt die Basis dieses Logarithmus zu bestimmen. Diese wird als Eulersche Zahl e bezeichnet. Einerseits gilt Z e dξ 1 = ln e = , (2.3.32) ξ 1 andererseits liegt der formale (und sich aus obiger Argumentation mit ∆y = Grenzübergang ny 1 1 x = lim 1 + , ∆y = → 0 n→0 n n vor, was die Vermutung n 1 e = lim 1 + n→∞ n 1 n ergebende) (2.3.33) (2.3.34) nahelegt. Ein Beweis ergibt sich aus der Theorie des Riemannintegrals, die aufaddierten Flächeninhalte sind Obersummen und streben gegen die Fläche unter dem Graphen. Mercator war auch der Erste, der eine Reihendarstellung des Logarithmus angegeben hat. Die Reihe ist für 0 < x < 1 alternierend, die Konvergenz der Reihe ergibt sich aus dem Intervallschachtelungsprinzip. Proposition 2.3.5 (Mercator). Die natürliche Logarithmusfunktion erfüllt für 0 < x < 1 ∞ X x2 x3 x4 xk ln(1 + x) = x − + − + −··· = − (−1)k 2 3 4 k k=1 (2.3.35) Beweis. Wir folgen dem Originalbeweis Mercators und zeigen dies durch gliedweise Integration und Abschätzung aller Partialsummen. Es gilt, wiederum in moderner Notation, Z 1+x Z x Z xX ∞ dξ dξ ln(1 + x) = = = (−1)k ξ k dξ (2.3.36) ξ 1 + ξ 1 0 0 k=0 54 2.3 Potenz- und Logarithmusfunktionen unter Ausnutzung der (damals bekannten) Darstellung der geometrischen Reihe. Da die Reihe für 0 < ξ ≤ x < 1 alternierend ist, gilt N 1 X − (−1)k ξ k < ξ N +1 (2.3.37) 1 + ξ k=0 und damit impliziert Z N Z x x dξ X 1 − xN +2 → 0, (−1)k ξ k dξ ≤ 0 1+ξ N + 2 k=0 0 N → ∞, (2.3.38) die Vertauschbarkeit von Reihe und Integral und die Behauptung Z ln(1 + x) = 1 1+x ∞ dξ X = ξ k=0 Z 0 x ∞ X ∞ X 1 xk k+1 (−1) ξ dξ = x =− (2.3.39) (−1) (−1)k k + 1 k k=0 k=1 k k k folgt. Durch Inversion der Reihendarstellung des Logarithmus ergibt sich eine Darstellung der natürlichen Exponentialfunktion. Dieser Schritt wurde zuerst von Newton19 gegangen. Proposition 2.3.6 (Newton). Die Exponentialfunktion besitzt die Reihendarstellung x e = ∞ X xk k=0 k! . (2.3.40) Insbesondere gilt für die Basis des natürlichen Logarithmus ∞ X 1 . e= k! k=0 (2.3.41) Beweisskizze. Wir wissen, dass für x = ln y = ln ex und 1 ≤ y < 2 die Reihendarstellung aus Proposition 2.3.5 gilt. Newtons Vorgehen bestand nun darin, diese Reihendarstellung zu invertieren und eine entsprechende Reihe für die Umkehrfunktion abzuleiten. Ohne auf das Problem der Konvergenz einzugehen, nutzen wir dazu formal den Ansatz x e =1+ ∞ X an x n (2.3.42) n=1 und setzen diesen in die Exponentialreihe ein. Das (so nicht gerechtfertigte) Vertauschen der Summationsreihenfolge und (der ebenso zu rechtfertigende) Koeffizientenvergleich in ∞ X 1 x = ln(1 + ex − 1) = − (−1)k k k=1 19 ∞ X !k an x n (2.3.43) k=1 Sir Isaac Newton, 1643–1727 55 2 Funktionen liefern dann Bedingungen für die Koeffizienten ak und damit die gewünschte Reihendarstellung. Soweit die Idee, das Umsetzen der Idee führt auf x: x2 : x3 : x4 : 1 = a1 , a1 = 1, 1 2 1 1 0 = − −a2 + a1 = a2 − , a2 = , 2 2 2 1 1 1 1 1 3 0 = − a3 − (a1 a2 + a2 a1 ) + a1 = −a3 + − , a3 = = , (2.3.44) 2 2 3 6 3! 1 1 1 0 = − −a4 + (a1 a3 + a22 + a3 a1 ) − (a1 a1 a2 + a1 a2 a1 + a2 a1 a1 ) + a41 2 3 4 1 1 1 1 1 1 1 1 1 1 1 = a4 − + + + + + − = a4 − , a4 = . 2 6 4 6 3 2 2 2 4 4! 4! und damit zumindest die Vermutung an = n!1 . Umgekehrt reduziert sich im Falle an = n!1 der Koeffizientenvergleich auf eine Reihe kombinatorischer Identitäten. Darüberhinaus konvergiert die Reihe für alle Werte von x. Wenn wir schon bei Newtons Exponentialreihe angekommen sind, so sollte man die anderen Reihendarstellungen Newtons nicht vergessen. Zu erwähnen ist seine Verallgemeinerung des Binomischen Satzes zur Binomialreihe. Proposition 2.3.7 (Newton). Für y > 0 und −1 < x < 1 gilt y (1 + x) = ∞ X y k=0 k xk (2.3.45) mit y y(y − 1)(y − 2) · · · (y − k + 1) . = k! k (2.3.46) Beweisskizze. Hier genügt es Mercators Logarithmusreihe in die Exponentialreihe einzusetzen. Es gilt !n ∞ ∞ k X X 1 x (1 + x)y = ey ln(1+x) = −y (−1)k n! k n=0 k=1 2 x3 1 2 x x2 1 3 3 x2 1 2 2 = 1 + yx + −y + y x + y − y x + x + y x + · · · 2 2 3 2 2 2 3! y(y − 1) 2 y(y − 1)(y − 2) 3 = 1 + yx + x + x + ··· 2 6 (2.3.47) Wiederum sind für eine rigorose Darstellung des Beweises Konvergenzuntersuchungen zu führen um das Vertauschen der Summationsreihenfolgen zu rechtfertigen. Ebenso sind natürlich alle Koeffizienten zu berechnen und nicht nur die ersten drei. Letzteres führt aber wieder auf kombinatorische Identitäten. 56 2.3 Potenz- und Logarithmusfunktionen 5. 4. 3. 2. 1. −4. −3. −2. −1. −1. 0 1. 2. 3. 4. 5. 6. 7. 8. −2. −3. Abbildung 2.5: Die Funktionen y = ex und x = ln y. Nach all diesen Reihendarstellungen von Exponential-, Logarithmus- und trigonometrischen Funktionen gab Brook Taylor20 seine bekannte Taylorsche Reihendarstellung an. Alle diese oben angegebenen Reihen wurden direkt gezeigt, ohne auf das heute übliche Verfahren zur Entwicklung in Taylorreihen zurückzugreifen. Euler21 war derjenige, der die oben schon angegebene Grenzwertdefinition der Zahl e angegeben hat. Er zeigte Proposition 2.3.8 (Euler). Für die Basis des natürlichen Logarithmus gilt e = lim n→∞ 1 1+ n n . (2.3.48) und folgerte daraus unter Anwendung der Binomialreihe Newtons nx ∞ ∞ X X 1 nx −k 1 nx(nx − 1) · · · (nx − k + 1) e = lim 1 + = lim n = lim n→∞ n→∞ n→∞ n k! nk k k=0 k=0 X ∞ ∞ X 1 k−1 1 k 1 ··· x − = = lim x x − x . n→∞ k! n n k! k=0 k=0 x Das Vertauschen von Grenzwert und Reihe ist hier allerdings wiederum zu rechtfertigen. Von Euler sind keine Begründungen für seine formalen Reihenmanipulationen überliefert. Allerdings gilt der Versuch, Rechnungen Eulers rigoros zu begründen, als eine der Hauptmotivationen für Cauchys22 Entwicklung des Konvergenzbegriffs und der damit verbundenen modernen rigorosen Analysis. 20 Brook Taylor, 1685–1731 Leonhard Euler, 1707–1783 22 Augustin Louis Cauchy, 1789–1859 21 57 2 Funktionen 2.4 Trigonometrische Funktionen Dreiecksgeometrie Trigonometrische Funktionen haben ihren Ursprung in Berechnungen am (allgemeinen) Dreieck und dem Rechnen mit Winkeln. Bevor wir zu einer Definition kommen können, müssen wir uns allerdings noch kurz mit dem Winkelmessen an sich beschäftigen. Analog zum Bestimmen von Längen im Abschnitt 1.2 nutzen wir dazu Zirkel und Lineal, diesmal jedoch einen voll funktionsfähigen Zirkel, der das Zeichnen von Kreisen erlaubt. Abbildung 2.6: Zum Messen von Winkeln Abbildung 2.7: Zum Messen von Winkeln 58 2.4 Trigonometrische Funktionen Winkel sind eine Eigenschaft sich schneidender Geraden. Wir wollen zwei Winkel als gleich bezeichnen, wenn man sie mit Zirkel und Lineal aufeinander abtragen kann. Ebenso kann man mit Zirkel und Lineal entscheiden, ob ein Winkel kleiner als ein anderer Winkel ist. Damit kann man für ein Paar von Winkeln • den Kleineren in den Größeren abtragen; • Zählen wie oft er in den Größeren passt; • mit dem entstehenden Rest und dem Kleineren der beiden Winkel analog weiterverfahren. Das entspricht dem Algorithmus Euklid’s und liefert eine Folge natürlicher Zahlen, die wiederum eine Kettenbruchsentwicklung liefern. Im Gegensatz zur Streckenmessung, bei der die Einheit frei wählbar ist, bietet es sich für Winkel an, einen Vollwinkel als Referenzwinkel zu nehmen. Um Winkel mit der Länge des Kreisbogens (zum Radius 1) zu identifizieren, bezeichnen wir den Vollwinkel als 2π und geben Winkel als Vielfache von π an. Proposition 2.4.1 (Stufenwinkelsatz und Wechselwinkelsatz, Euklid). Gegeben seien zwei parallele Geraden, die durch eine dritte geschnitten werden. Dann sind die Stufen- und Wechselwinkel (siehe Abbildung 2.8) gleich. Abbildung 2.8: Stufen- und Wechselwinkelsatz Sind umgekehrt die Stufenwinkel gleich, so sind die Geraden parallel. Beweisidee. Wir sind zu nah an nicht formulierten Axiomen, um hier einen Beweis zu geben. In einer richtig axiomatisch aufgebauten Geometrie (zum Beispiel der Hilberts23 ) handelt es sich um einen aus dem (sws)-Axiom gefolgerten Satz. Wir nehmen die Aussage als gegeben hin. Korollar 2.4.2 (Euklid). Die Innenwinkelsumme eines Dreiecks beträgt π. Beweis. Anwendung des Stufen- und Wechselwinkelsatzes liefert direkt die Behauptung. Siehe Abbildung 2.9. 23 David Hilbert, 1862–1943 59 2 Funktionen Abbildung 2.9: Zur Innenwinkelsumme des Dreiecks Abbildung 2.10: Zum Zentri- und Peripheriewinkelsatz Proposition 2.4.3 (Zentri- und Peripheriewinkelsatz, Euklid). Gegeben sei ein Kreis und eine vom Durchmesser verschiedene Sehne, sowie ein auf dem längeren Kreisbogen liegender Punkt. Dann ist der Zentriwinkel doppelt so groß wie der Peripheriewinkel zur Sehne. Insbesondere ist der Peripheriewinkel unabhängig von dem gewählten Punkt auf dem Bogen. Beweis. Zum Beweis genügt es zu zeigen, dass der Peripheriewinkel stets halb so groß wie der Zentriwinkel ist. Dann ist die zweite Aussage eine direkte Folgerung. Es gilt ∠ACB = ∠ACM + ∠M CB und ∠M CB = ∠M BC sowie ∠ACM = ∠M AC. Damit folgt zusammen mit der schon gezeigten Innenwinkelsumme ∠AM B = π − ∠BAM − ∠ABM = π − (∠BAC − ∠M AC) − (∠ABC − ∠M BC) = (π − ∠BAC − ∠ABC) + ∠M AC + ∠M BC (2.4.1) = ∠ACB + ∠ACM + ∠M CB = 2∠ACB 60 2.4 Trigonometrische Funktionen C M B A Abbildung 2.11: Zum Beweis des Zentriwinkelsatzes Proposition 2.4.4 (Satz des Thales24 ). Der Peripheriewinkel zu einem Durchmesser eines Kreises ist stets π2 . Beweis. Sei AB der Durchmesser und C der Punkt auf dem Kreisbogen. Dann gilt wegen ∠CAB = ∠ACM und ∠ABC = ∠M CB ∠BCA = ∠ACM + ∠M CB = ∠M AC + ∠M BC (2.4.2) und damit aufgrund der Innenwinkelsumme des Dreiecks π = 2∠BCA = ∠BCA + ∠ABC + ∠CAB. (2.4.3) Genau das war zu beweisen. Die Nutzung von Zirkel und Lineal ist invariant unter Verschiebungen, Drehungen und Spiegelungen, jeder Algorithmus zur Konstruktion wird durch solche auf einen ebensolchen abgebildet. Wir wollen deshalb zwei Dreiecke als kongruent bezeichnen, wenn sie durch Verschiebungen, Drehungen und Spiegelungen aufeinander abgebildet werden können. Wir bezeichnen sie als ähnlich, falls zusätzlich Streckungen oder Stauchungen zur Abbildung genügen. Wir werden später sehen, dass dies genau der richtige Ähnlichkeitsbegriff ist. Vorerst einige Kongruenzsätze. Proposition 2.4.5. Gegeben seien zwei Dreiecke. (sss) Stimmen die beiden Dreiecke in ihren Seitenlängen überein, so sind sie kongruent. (sws) Stimmen die beiden Dreiecke in zwei Seiten und dem eingeschlossenen Winkel überein, so sind sie kongruent. (wsw) Stimmen die beiden Dreiecke in einer Seite und den beiden angenzenden Winkeln überein, so sind sie kongruent. 24 Thales von Milet, um 640–562 v.u.Z. 61 2 Funktionen Abbildung 2.12: Warum (ssw) kein Kongruenzsatz ist. (sww) Stimmen die beiden Dreiecke in einer Seite, einem angrenzenden und dem gegenüberliegenden Winkel überein, so sind sie kongruent. (www) Stimmen die beiden Dreiecke in ihren Innenwinkeln überein, so sind sie ähnlich. Beweis. Zum Beweis genügt es zu zeigen, dass die Dreiecke durch die angegebenen Größen eindeutig mit Zirkel und Lineal konstruierbar sind. (Warum?) (sss) Gegeben seien drei Streckenlängen. Wir zeichnen eine der Strecken und um jeden Endpunkt einen Kreis mit einer der beiden anderen Strecken als Radius. Schneiden sich die Kreise (Dreiecksungleichung!), so liefern die Schnittpunkte den dritten Dreieckspunkt. Die beiden Schnittpunkte liefern Spiegelbilder desselben Dreiecks. (sws) Gegeben seien zwei Strecken und ein Winkel. Wir tragen die Strecken entlang der Schenkel des Winkels ab. (wsw) Gegeben seien zwei Winkel und eine Streckenlänge. Wir zeichnen die Strecke und tragen an den Enden die beiden Winkel ab. Die Wahl der Reihenfolge der Winkel liefert zwei Spiegelbilder desselben Dreiecks. (sww) folgt aus dem soeben gezeigten, da zwei Winkel den dritten bestimmen. (www) Wir zeichnen einen Winkel und tragen auf einem Schenkel in einem beliebigen Punkt den zweiten Winkel ab. Verschiedene Wahlen des Punktes liefern parallele Geraden und damit nach Strahlensatz ähnliche Dreiecke. Die verbleibende Kombination (ssw) liefert keinen Kongruenzsatz. Dies zeigt Abbildung 2.12. Ein rechtwinkliges Dreieck ist bis auf Ähnlichkeit durch einen seiner (nichtrechten) Winkel bestimmt. Sei dieser mit α bezeichnet, die Hypothenuse mit b, die anliegende Kathede mit c und die gegenüberliegende mit a. Dann bezeichne c a cos α = , sin α = . (2.4.4) b b Aufgrund des Ähnlichkeitssatzes (www) sind die Funktionen sin und cos für spitze Winkel eindeutig definiert. Weiter folgt aus dem Satz des Pythagoras cos2 α + sin2 α = 62 c2 + a2 =1 b2 (2.4.5) 2.4 Trigonometrische Funktionen für alle α ∈ (0, 2π). C γ b a A α r R β c B Abbildung 2.13: Bezeichnungen am allgemeinen Dreieck Statt an rechtwinkligen Dreiecken wollen wir Winkelfunktionen an allgemeinen Dreiecken zu Berechnungen nutzen. Für Bezeichnungen verweisen wir auf Abbildung 2.13. Die Aussagen gelten für beliebige Dreiecke, nach unseren Definitionen der Winkelfunktionen allerdings vorerst nur für spitzwinklige. Eine Erweiterung der Definition und untenstehender Beweise auf den allgemeinen Fall verbleibt als Übungsaufgabe. Satz 2.4.6 (Flächenformeln). Für den Flächeninhalt eines Dreieck gilt A= bc sin α ca sin β r(a + b + c) ab sin γ = = = . 2 2 2 2 (2.4.6) Beweis. Die Dreiecksfläche ergibt sich als 1 A = chc 2 mit hc der Höhe von C zur Seite c. Weiter gilt nach Definition der Sinusfunktion sin β = hc a (2.4.7) (2.4.8) und damit umgestellt nach hc und eingesetzt ca sin β . (2.4.9) 2 Durch zyklisches Vertauschen folgen die anderen beiden Flächenformeln und es bleibt die letzte zu zeigen. Für diese zerlegen wir das Dreieck in drei Teildreiecke 4ABMi , 4BCMi und 4CAMi mit dem Inkreismittelpunkt Mi . Jedes dieser Dreiecke hat als Höhe den Inkreisradius r und die Behauptung folgt. A= Satz 2.4.7 (Sinussatz25 ). An einem Dreieck gilt b c a = = = 2R. sin α sin β sin γ 25 (2.4.10) Abu Nasr Mansur, um 960–1036 63 2 Funktionen Beweis. Dividiert man die Flächenformeln durch abc, so ergibt sich der einfache Sinussatz a b c = = , sin α sin β sin γ (2.4.11) es bleibt die Darstellung des Quotienten über den Umkreisradius zu zeigen. Dazu nutzen wir den Peripheriewinkelsatz mit a als Sehne und A als Punkt auf dem Umkreis. Sei weiter D der zweite Schnittpunkt von CMa mit dem Umkreis. Dann ist α = ∠CAB gleich dem Winkel ∠CDB. Nach dem Satz des Thales ist das entstehende Dreieck rechtwinklig und die Definition des Sinus liefert a . (2.4.12) sin α = 2R Damit ist alles gezeigt. Korollar 2.4.8. Für den Flächeninhalt eines Dreiecks gilt A = 2R2 sin α sin β sin γ = abc . 4R (2.4.13) Satz 2.4.9 (Cosinussatz26 ). An einem Dreieck gilt a2 = b2 + c2 − 2bc cos α. (2.4.14) Beweis. Der Cosinussatz verallgemeinert den Satz des Pythagoras. Sei hc die Höhe zur Seite c mit Fußpunkt Hc und Abschnitten c = cA + cB der Grundseite. Dann gilt nach dem Satz des Pythagoras in den Dreiecken 4AHc C und 4Hc BC a2 = h2c + c2B = (b2 − c2A ) + c2B = b2 + (c − cA )2 − c2A = b2 + c2 − 2ccA = b2 + c2 − 2cb cos α (2.4.15) und somit die Behauptung. Satz 2.4.10 (Höhenabschnittsformeln). In einem Dreieck gilt AH = 2R cos α, BH = 2R cos β, CH = 2R cos γ (2.4.16) mit dem Höhenschnittpunkt H sowie HHa = 2R cos β cos γ, HHb = 2R cos β cos α, HHc = 2R cos α cos β. (2.4.17) Insbesondere ist das Produkt der Höhenabschnitte unabhängig von der gewählten Höhe AH · HHa = BH · HHb = CH · HHc = 4R2 cos α cos β cos γ. (2.4.18) Beweis. Die in Abbildung 2.14 schraffierten Winkel sind (aufgrund paarweise orthogonaler Schenkel) gleich. Damit gilt AH sin β = cA = b cos α = 2R sin β cos α (2.4.19) die letzte Gleichheit unter Ausnutzung des Sinussatzes. Nach Division durch sin β folgt die erste Identität. Die anderen oberen Höhenabschnitte ergeben sich analog. Weiter gilt AH cos γ = Hb H und die verbleibenden Identitäten folgen. 26 Jamshid al-Kashi, 1380–1429 64 (2.4.20) 2.4 Trigonometrische Funktionen C Ha Hb H Hc A B Abbildung 2.14: Notation zur Höhen und Höhenabschnitten Die Höhenabschnittsformeln sind in gewisser Hinsicht dual zum Sinussatz. Das wird in der folgenden Formulierung besonders deutlich. Es gilt AH BH CH = = = 2R. cos α cos β cos γ (2.4.21) Wir schließen den Exkurs in die Dreiecksgeometrie mit Additionstheoremen für die Winkelfunktionen. Diese werden hier vorerst am Dreieck formuliert. Satz 2.4.11 (Additionstheoreme27 ). Die Winkelfunktionen erfüllen im allgemeinen Dreieck sin γ = cos α sin β + sin α cos β, cos γ = sin α sin β − cos α cos β. (2.4.22) Beweis. Mit dem Sinussatz gilt 2R sin γ = c = cA + cB = 2R cos α sin β + 2R sin α cos β, (2.4.23) und Division durch 2R liefert die erste Identität. Für die zweite Gleichung nutzen wir entsprechend die Höhenabschnittsformeln. Es gilt 2R cos γ = CH = hc − HHc = b sin α − 2R cos α cos β = 2R(sin α sin β − cos α cos β) (2.4.24) unter Ausnutzung des Sinussatzes. Nach Division durch 2R folgt wiederum die Behauptung. Um zu sehen, dass es sich tatsächlich um ein Additionstheorem handelt, setzen wir zuerst sin und cos auf Winkel aus dem Intervall (0, π) durch sin(π − α) = sin α, 27 cos(π − α) = − cos(α) (2.4.25) für den Sinus: Bhaskara II, 1114–1185 65 2 Funktionen sin α sin α α α cos α − cos(π − α) Abbildung 2.15: Zur Fortsetzung der Winkelfunktion auf stumpfe Winkel fort. Dies entspricht der üblichen Definition am Einheitskreis, siehe Abbildung 2.15. Dann gilt aufgrund der Innenwinkelsumme des Dreiecks sin(α + β) = sin(π − α − β) = sin γ = cos α sin β + sin α cos β, cos(α + β) = − cos(π − α − β) = − cos γ = cos α cos β − sin α sin β. (2.4.26) Dies rechtfertigt die Bezeichnung Additionstheorem für obige Aussage. Speziell für α = β ergeben sich Doppelwinkelformeln sin(2α) = 2 sin α cos α, cos(2α) = cos2 α − sin2 α = 2 cos2 α − 1 = 1 − 2 sin2 α. (2.4.27) Die Doppelwinkelformel für den Cosinus wird mitunter als Ptolemäische Identität bezeichnet. Winkelfunktionen dienen Dreiecksberechnungen. Dazu genügt in der Regel der Sinussatz, der Cosinussatz kürzt aber einige Berechnungen erheblich ab. Wir fassen die wichtigsten Anwendungen kurz zusammen: (sss) Mit Cosinussatz kann ein Winkel bestimmt werden, dann weiter wie (sws). (sws) Mit dem Sinussatz ergibt sich ein zweiter Winkel, dann weiter wie (wsw). (wsw) Der dritte Winkel ist mit der Innenwinkelsumme bestimmbar, mit Sinussatz ergeben sich die fehlenden Strecken. (www) Der Sinussatz liefert alle Seitenverhältnisse. Anwendungen fanden (und finden) solche Rechnungen in Landvermessungen seit dem 19. Jahrhundert. Dabei wurde ausgehend von einer direkt vermessbaren Grundlinie das Land trianguliert und jedem Dreieck entsprechende Innenwinkel gemessen. Das Messen von Winkeln 66 2.4 Trigonometrische Funktionen ist dabei mit wenig Aufwand durchführbar, während direkte Längenmessungen (zum Beispiel durch Abfahren der Verbindungslinie und direktem Nachmessen) sehr aufwändig sind. Noch heute werden solche rein winkelbasierte Messverfahren im Bergbau angewandt. Abbildung 2.16: Beispiel einer Triangulierung mit Grundlinie (blau) Zur Geschichte von Winkelfunktionen. Eine (ohne Winkelfunktionen formulierte) Variante des Cosinussatzes findet sich schon bei Euklid. Winkelfunktionen selbst wurden in der Antike von Ptolemäus28 , allerdings die Funktion die Funktion crd(α) = 2 sin(α/2), welche die Grundseite eines gleichschenkligen Dreiecks mit Spitze α und Schenkeln der Länge 1 angibt. Die Funktionen sin und cos wurden im vierten Jahrhundert in der indischen Mathematik29 das erste mal erwähnt und kamen durch Übersetzungen ins Arabische und danach ins Lateinische nach Europa. Sowohl der Sinussatz als auch der Cosinussatz sind als solche arabischen Ursprungs. Die Untersuchung von sin und cos als Funktionen an sich (und ohne Bezug auf Geometrie und Dreiecksberechnungen) beginnt im 17ten Jahrhundert. Es war Leibniz, der als erstes gezeigt hat, dass es sich bei der Sinusfunktion nicht um eine algebraische Funktion handeln kann. Potenzreihendarstellungen gehen auf Euler zurück, ebenso Produktformeln und Bezüge zur komplexen Exponentialfunktion. Winkelfunktionen als reelle und komplexe Funktionen Wir wollen uns nun Winkelfunktionen als Funktionen zuwenden und den Bezug zu Dreiecken dabei vorerst vergessen. Oft werden die Funktionen durch Potenzreihen eingeführt, eine alternative und sinnvolle Vorgehensweise ist es zu zeigen, dass die Additionstheoreme die Funktionen bis auf eine Normierung eindeutig in der Klasse der stetigen Funktionen charakterisieren. Dieses Vorgehen geht auf d’Alembert30 zurück. 28 Claudius Ptolemäus, 90–168 zu finden in den Surya Siddhanta, später durch Aryabhata, 476–550 30 Jean le Rond d’Alembert, 1717–1783 29 67 2 Funktionen Proposition 2.4.12. (1) Angenommen, zwei stetige Funktionen s, c : R → R erfüllen s(x + y) = c(x)s(y) + s(x)c(y) c(x + y) = c(x)c(y) − s(x)s(y) (2.4.28) für alle x, y ∈ R. Dann gilt entweder s(x) = c(x) = 0 für alle x oder es existiert ein k ∈ R mit s(x) = sin(kx), c(x) = cos(kx). (2.4.29) (2) Angenommen, eine stetige Funktion f : R → R erfüllt f (x + y) + f (x − y) = 2f (x)f (y). (2.4.30) Dann gilt entweder f (x) = 0 für alle x oder f (x) = cos(kx) (2.4.31) f (x) = cosh(kx) (2.4.32) mit einem Parameter k ∈ R oder mit einem Parameter k ∈ R. Beweis. (2) Wir zeigen zuerst die zweite Aussage und folgen dafür einem Beweis von Cauchy31 . Setzt man y = 0, so folgt 2f (x) = 2f (x)f (0). Existiert ein x mit f (x) 6= 0, so folgt f (0) = 1. Andererseits ergibt sich als Lösung die Nullfunktion. Sei im Folgenden also f (0) = 1. Dann folgt mit x = 0 aus der Funktionalgleichung f (y) + f (−y) = 2f (0)f (y) = f (y) (2.4.33) und damit f (−y) = f (y) und die Funktion f ist gerade. Weiter gilt mit x = ny f ((n + 1)y) = 2f (y)f (ny) − f ((n − 1)y), (2.4.34) dies erlaubt aus dem Wert von f (y) rekursiv alle Werte f (ny), n ∈ N zu bestimmen. Mit x = y folgt speziell f (2x) + f (0) = f (2x) + f (0) = 2(f (x))2 und damit für t = 2x die Halbierungsformel 2 t f (t) + 1 f = . (2.4.35) 2 2 Diese entspricht der Ptolemäischen Identität des Cosinus. Die Formel (2.4.34) gilt ebenso für die Cosinusfunktion. Beide Identitäten sind auch für den Cosinus hyperbolicus erfüllt. Da f (0) = 1 gilt und f stetig ist, existiert eine kleine Umgebung [−a, a] der Null, auf der f positiv ist. Für |x| ≤ a gilt also f (x) > 0. Wir unterscheiden zwei Fälle, • f (a) > 1 und in diesem Fall existiert ein c > 0 mit f (a) = cosh c. Wir ignorieren den Fall vorerst, die Funktion cosh definieren wir später. • f (a) ≤ 1 und in diesem Fall existiert ein 0 ≤ c < 31 Augustin-Louis Cauchy, 1789–1857 68 π 2 mit f (a) = cos c. 2.4 Trigonometrische Funktionen Nun zeigen wir, dass f (x) auf einer dichten Teilmenge von R+ mit der Funktion cosh(cx/a) im ersten Fall beziehungsweise cos(cx/a) im zweiten übereinstimmt. Wir formulieren den Beweis für den zweiten Fall, der erste erfolgt analog. Wegen f (a) = cos c gilt mit der Ptolemäischen Identität und (2.4.35) r r a 1 + f (a) 1 + cos c c f = = = cos , 2 2 2 2 (2.4.36) da nach Konstruktion sowohl f (a/2) als auch cos(c/2) positiv sind. Per Induktion folgt daraus a c f m = cos m , m ∈ N. (2.4.37) 2 2 Damit folgt unter Ausnutzung von (2.4.34) und der entsprechenden Identität für die Cosinusfunktion a a a 3a f = 2f m f m−1 − f m 2m 2 2 2 (2.4.38) c c c 3c = 2 cos m cos m−1 − cos m = cos m 2 2 2 2 und damit wiederum per Induktion f na nc = cos m (2.4.39) 2m 2 für alle m, n ∈ N. Da die Menge der Zahlen na/2m aber dicht in R+ ist, impliziert die Stetigkeit von cos und f die Gleichheit beider Funktionen. (1) Wir folgern die erste Aussage aus der zweiten. Dazu nutzen wir die Funktionalgleichungen zuerst zur Bestimmung elementarer Eigenschaften der Funktionen c und s. Setzt man speziell x = y = 0, so ergibt sich s(0) = 2c(0)s(0), c(0) = c(0)2 − s(0)2 . (2.4.40) Also gilt s(0) = 0 oder c(0) = 21 . In ersterem Fall folgt c(0) = 0 oder c(0) = 1, im zweiten aus s(0)2 = − 41 < 0 ein Widerspruch zu s(0) reell. Gilt s(0) = c(0) = 0, so folgt wegen s(x) = s(x + 0) = s(x)c(0) + c(x)s(0) = 0, c(x) = c(x + 0) = c(x)c(0) − s(x)s(0) = 0 (2.4.41) für alle x, dass es sich um die Nullfunktion handelt. Dies schließen wir wieder aus. Damit gilt also c(0) = 1 und s(0) = 0. Setzt man nun x = −y, so folgt 0 = s(0) = c(x)s(−x) + s(x)c(−x), 1 = c(0) = c(x)c(−x) − s(x)s(−x) (2.4.42) und daraus für alle x mit c(x)2 + s(x)2 > 0 (also insbesondere alle kleinen x) c(−x) = c(x), s(−x) = −s(x). (2.4.43) Damit ist aber c(x) gerade und s(x) ungerade und es gilt 1 = c(0) = c(x)2 + s(x)2 für alle x, sowie c(x + y) + c(x − y) = c(x)c(y) − s(x)s(y) + c(x)c(−y) − s(x)s(−y) = 2c(x)c(y). (2.4.44) Also ist die Funktionalgleichung aus (2) erfüllt. Wegen c(x)2 + s(x)2 = 1 entfällt der Fall mit der cosh-Funktion und die Aussage ist gezeigt. 69 2 Funktionen Insbesondere sind die Funktionen sin und cos die eindeutigen nichttrivialen Lösungen der Funktionalgleichungen sin(x + y) = cos(x) sin(y) + sin(x) cos(y), cos(x + y) = cos(x) cos(y) − sin(x) sin(y), (2.4.45) für welche cos(0) = 1 und sin( π2 ) = 0 gilt und die sin-Funktion auf (0, π2 ) monoton ist. Alle Eigenschaften dieser Funktionen sind damit aus diesen Eigenschaften beweisbar. Für einen ersten Schritt bilden wir die komplexwertige Funktion e(x) = cos(x) + i sin(x) (2.4.46) und beobachten, dass diese die Funktionalgleichung der Exponentialfunktion e(x + y) = cos(x + y) + i sin(x + y) = cos(x) cos(y) − sin(x) sin(y) + i cos(x) sin(y) + i sin(x) cos(y) = cos(x) + i sin(x) cos(y) + i sin(y) = e(x)e(y) (2.4.47) erfüllt. Dies hat eine interessante Konsequenz: Satz 2.4.13 (Moivre32 ). Es gilt cos(nx) + i sin(nx) = cos(x) + i sin(x) n n X n k = i cosn−k (x) sink (x). k k=0 (2.4.48) n Beweis. Per Induktion folgt aus obiger Funktionalgleichung e(nx) = e(x)e (n−1)x = e(x) und damit die Behauptung. Bildet man auf beiden Seiten dieser Formel den Realteil und beachtet, dass die Winkelfunktionen den trigonometrischen Pythagoras erfüllen und somit sin2 x = 1 − cos2 x gilt, so folgt insbesondere n/2 X ` ` n (−1) cos(nx) = cosn−2` (x) 1 − cos2 (x) = Tn (cos x) (2.4.49) 2` `=0 mit einem Polynom Tn vom Grad n. Die Tn werden als Tschebyschow33 -Polynome bezeichnet. Ganz analog folgt sin(nx) = sin(x) Un−1 (cos x) (2.4.50) mit einem Polynom Un−1 vom Grad n − 1. Anmerkung. Die Funktionalgleichung der Funktion e(x) inspiriert dazu, eine komplexe Exponentialfunktion durch ex+iy = ex cos y + i sin y (2.4.51) für alle x, y ∈ C zu definieren. Diese stimmt für y = 0 mit der im letzten Abschnitt definierten reellen Exponentialfunktion überein, die Wahl ist aber nur dann kanonisch, wenn man neben der Funktionalgleichung eine weitere Forderung (nämlich die der komplexen Differenzierbarkeit) stellt. 32 Abraham de Moivre, 1667–1754 33 Pafnuti L~voviq Qebyxv, 1821–1894 70 2.4 Trigonometrische Funktionen sin(x) cos(x) sin(x) x cos(x) Abbildung 2.17: Zum Grenzwert von sin x x Ableitung und Integral Proposition 2.4.14. Es gilt sin x = 1. x→0 x lim (2.4.52) Beweis. Zum Beweis nutzen wir trotz allem Geometrie in Form eines Flächenvergleiches am Bild 2.17. Dazu betrachten wir die innere Dreiecksfläche, den Sektor und die äußere, den Sektor umfassende, Dreiecksfläche. Für diese gilt 1 1 sin x 1 cos x sin x < x < 2 2 2 cos x (2.4.53) und damit sin x 1 < (2.4.54) x cos x für alle x ∈ (0, π2 ). Also folgt aus cos(0) = 1 (und der Stetigkeit der Cosinusfunktion) cos x < sin x = 1. x→0 x (2.4.55) cos x − 1 = 0. x→0 x (2.4.56) lim Korollar 2.4.15. Es gilt lim Beweis. Durch Erweitern mit cos x + 1 erhält man cos x − 1 cos2 x − 1 sin x − sin x = lim = lim =0 x→0 x→0 x(cos x + 1) x→0 x cos x + 1 x lim (2.4.57) und damit die Behauptung. Korollar 2.4.16. Die Sinus- und die Cosinusfunktion sind differenzierbar, es gilt d sin x = cos x, dx d cos x = − sin x. dx (2.4.58) 71 2 Funktionen T cot(x) P R csc(x) cos(x) tan(x) sin(x) x M Q sec(x) S Abbildung 2.18: Weitere trigonometrische Funktionen dargestellt am Einheitskreis Beweis. Es gilt sin(x + h) − sin(x) sin x cos h + cos x sin h − sin x = h→0 h h sin h cos h − 1 = cos x lim + sin x lim = cos x h→0 h h→0 h (2.4.59) cos(x + h) − cos(x) cos x cos h − sin x sin h − cos x = h→0 h h cos h − 1 sin h = − sin x lim + cos x lim = − sin x. h→0 h h→0 h (2.4.60) lim und lim Dies kann man zum Ausgangspunkt nehmen, die Winkelfunktionen über ihre Differentialgleichung zu definieren. Als Konsequenz des Existenz- und Eindeutigkeitssatzes für Differentialgleichungen ergibt sich direkt: Satz 2.4.17. Die Funktionen s(x) = sin x und c(x) = cos(x) sind die einzigen Lösungen des Systems gewöhnlicher Differentialgleichungen s0 (x) = c(x), c0 (x) = −s(x), die die Anfangsbedingungen s(0) = 0 und c(0) = 1 erfüllen. 72 (2.4.61) 2.5 Hyperbelfunktionen Weitere Funktionen sin x x Neben Sinus und Cosinus sind noch gebräuchlich die Funktionen tan x = cos und cot x = cos x sin x sowie, gelegentlich csc x = sin1 x und sec x = cos1 x . Die Bezeichnungen erklären sich am Bild 2.18. Für den Winkel x (beziehungsweise die Bogenlänge x) des Einheitskreises gilt sin x = P Q und cos x = RP . Weiter ist tan x = P S der Tangentenabschnitt zum Winkel und cot x = T P der Tangentenabschnitt zum Co-Winkel π2 − x. Die Funktion sec x = M S liefert den Abstand von M zum Tangentenschnittpunkt mit der Achse, ebenso csc x = M T für den zugeordneten Co-Winkel π2 − x. 2.5 Hyperbelfunktionen Hyperbelfunktionen sind analog zu Winkelfunktionen definiert, allerdings ersetzen wir dabei den Kreis durch ein Paar von Hyperbeln. Gegeben sei dazu eine Hyperbel in Normalform, 1 = ξ 2 − η 2 = (ξ + η)(ξ − η). (2.5.1) Die Kurvenpunkte auf dem rechten Hyperbelbogen werden dann durch die Koordinaten (ξ, η) = (cosh A, ± sinh A) (2.5.2) parametrisiert, wobei A den Flächeninhalt des durch die Strecken von 0 zu (cosh A, − sinh A) und von 0 zu (cosh A, sinh A) und dem zwischen den Punkten liegenden Hyperbelstück darstellt, siehe Abbildung 2.19. Bevor wir das genauer untersuchen, wollen wir zeigen, dass diese Definition sinnvoll ist. Dazu betrachten wir eine Transformation der ξ-η-Ebene der Form ξ + η 7→ Ξ + H = λ(ξ + η) (2.5.3) 1 (ξ − η) λ (2.5.4) 1 (ξ − η), 2λ 1 (ξ − η). 2λ (2.5.5) und ξ − η 7→ Ξ − H = zu einem gegebenen Parameter λ > 0. Es gilt also λ (ξ + η) + 2 λ H = (ξ + η) − 2 Ξ= Die Transformation ist linear, bildet also Geraden durch den Ursprung auf Geraden ab. Darüberhinaus erfüllt ihre Determinante λ+λ−1 λ−λ−1 1 (λ + λ−1 )2 − (λ − λ−1 )2 = 1, (2.5.6) det λ−λ2 −1 λ+λ2 −1 = 4 2 2 die Transformation erhält also Flächeninhalte. Damit erfüllen die so definierten Funktionen Additionstheoreme. 73 2 Funktionen cosh(A) sinh(A) Abbildung 2.19: Zur Definition der Hyperbelfunktionen Satz 2.5.1 (Additionstheoreme). Für die Hyperbelfunktionen gelten die Additionstheoreme cosh(A + B) = cosh(A) cosh(B) + sinh(A) sinh(B), sinh(A + B) = sinh(A) cosh(B) + cosh(A) sinh(B). (2.5.7) Beweis. Seien P1 = (cosh A, sinh A) und P2 = (cosh B, sinh B) Punkte auf der Hyperbel, sei weiter Q = (1, 0). Die Idee des Additionstheorems besteht nun darin, die Fläche A+B dadurch zu konstruieren, dass wir mit einer der obigen Transformationen Q auf P1 abbilden, damit also die obere Hälfte der Fläche B an A anfügen können. Nach Konstruktion und Definition der Hyperbelfunktionen wird damit P2 auf P3 = (cosh(A + B), sinh(A + B)) abgebildet. Der Parameter λ der Transformation ergibt sich damit aus λ = λ(1 + 0) = cosh A + sinh A, λ−1 = cosh A − sinh A (2.5.8) und es folgt cosh(A + B) + sinh(A + B) = λ(cosh B + sinh B) = (cosh A + sinh A)(cosh B + sinh B) (2.5.9) sowie 1 (cosh B − sinh B) λ = (cosh A − sinh A)(cosh B − sinh B). cosh(A + B) − sinh(A + B) = (2.5.10) Ausmultiplizieren und Addition und Subtraktion beider Identitäten liefert die Additionstheoreme. 74 2.5 Hyperbelfunktionen Wir definieren uns eine weitere Funktion. Sei e(A) = cosh A + sinh A. (2.5.11) Dann impliziert (2.5.9): Korollar 2.5.2. Die Funktion e(A) ist eine Exponentialfunktion, sie ist stetig und erfüllt e(A + B) = e(A)e(B). (2.5.12) Es ist noch nicht ganz klar, welche Exponentialfunktion es ist, dazu müsste man e(1) bestimmen. Analog kann man auch die Funktion cosh(x) durch die Funktionalgleichung cosh(A + B) + cosh(A − B) = 2 cosh(A) cosh(B) (2.5.13) bis auf einen Skalenfaktor charakterisieren. Die Funktionalgleichung folgt direkt aus den Additionstheoremen, da cosh(−A) = cosh(A) und sinh(−A) = − sinh(A) gilt. Den Skalenfaktor kann man durch folgenden Grenzwert festlegen. Wir zeigen ihn für die geometrisch definierten Hyperbelfunktionen. Proposition 2.5.3. Es gilt sinh A = 1. A→0 A lim (2.5.14) Beweis. Der Beweis erfolgt analog zum entsprechenden Satz für die Sinusfunktion. Die obere Hälfte der Fläche A ist kleiner als das Dreieck mit den Eckpunkten (0, 0), (1, 0) und (cosh A, sinh A) und größer als der Abschnitt des Dreiecks der durch die Tangente in (1, 0) herausgeschnitten wird. Also folgt tanh A = sinh A ≤ A ≤ sinh A cosh A (2.5.15) und damit 1 A ≤ ≤ 1. cosh A sinh A (2.5.16) Mit der Stetigkeit der cosh-Funktion und cosh 0 = 1 folgt die Behauptung. Korollar 2.5.4. Es gilt cosh A − 1 = 0. A→0 A lim (2.5.17) Beweis. Erweitern mit cosh A + 1 liefert wiederum cosh A − 1 cosh2 A − 1 sinh A sinh A = lim = lim =0 A→0 A→0 A(cosh A + 1) A→0 A A cosh A + 1 lim (2.5.18) aufgrund der Stetigkeit von cosh und obigen Grenzwertes. 75 2 Funktionen Im weiteren werden wir wieder Kleinbuchstaben für die Variablen verwenden. Die Funktionen c(x) = cosh x und s(x) = sinh x sind damit durch ihre Additionstheoreme c(x + y) = c(x)c(y) + s(x)s(y), s(x + y) = s(x)c(y) + c(x)s(y), (2.5.19) ihrer Stetigkeit und der Normierungsbedingung limx→0 s(x)/x = 1 charakterisiert. Entsprechendes gilt für die Funktion e(x). Diese löst e(x + y) = e(x)e(y), (2.5.20) ist stetig und erfüllt limx→0 (e(x) − 1)/x = 1. Die Additionstheoreme implizieren wiederum Differenzierbarkeit und die Gültigkeit eines Differentialgleichungssystems. Korollar 2.5.5. Die Hyperbelfunktionen sind differenzierbar. Sie erfüllen d sinh x = cosh x, dx d cosh x = sinh x. dx (2.5.21) d e(x) = e(x). dx (2.5.22) Insbesondere gilt auch Beweis. Erfolgt durch direktes Nachrechnen. Es gilt sinh x cosh h + cosh x sinh h − sinh x sinh(x + h) − sinh x = lim h→0 h→0 h h sinh h cosh h − 1 = cosh x lim + sinh x lim h→0 h→0 h h = cosh x lim (2.5.23) und entsprechend cosh(x + h) − cosh x cosh x cosh h + sinh x sinh h − cosh x = lim h→0 h→0 h h cosh h − 1 sinh h + cosh x lim = sinh x lim h→0 h→0 h h = sinh x. lim (2.5.24) Durch Addition folgt die Aussage für die Funktion e(x). Bezeichnet nun x = `(y) die Umkehrfunktion zu y = e(x). Dann liefert die Formel für die Ableitung der Umkehrfunktion d 1 `(y) = (2.5.25) dy y und zusammen mit `(1) = 0 (da e(0) = 1) folgt `(y) = ln y 76 (2.5.26) 2.6 Arcus- und Areafunktionen und damit e(x) = ex . (2.5.27) Also gilt insbesondere cosh x = ex + e−x , 2 sinh x = ex − e−x . 2 (2.5.28) Dies sollte allen vertraut sein. Die von uns definierten Hyperbelfunktionen sind dieselben, die man schon aus den Grundvorlesungen kennt. 2.6 Arcus- und Areafunktionen Die Umkehrfunktionen der trigonometrischen Funktionen und der hyperbolischen Funktionen bestimmen aus den Werten der Winkelfunktion den Wert der Bogenlänge (arcus) beziehungsweise den Wert der Fläche (area). Arcusfunktionen Da die trigonometrischen Funktionen sin, cos und tan periodisch sind, wählen wir für den Wertebereich der Umkehrfunktion einen entsprechenden Abschnitt. Dabei sei • x = arcsin y, falls y = sin x und − π2 ≤ x ≤ π2 ; • x = arccos y, falls y = cos x und 0 ≤ x ≤ π; • x = arctan y, falls y = tan x und − π2 < x < π2 ; • x = arccot y, falls y = cot x und 0 < x < π. Aufgrund ihrer Monotonie (wenn man die Funktionen abstrakt über die Additionstheoreme definiert) oder direkt über die Definition am Dreieck sind diese Funktionen wohldefiniert. Die Funktionen arcsin, arccos und arctan ordnen den Punkten auf dem Einheitskreis mit Koordinaten (cos α, sin α) die Bogenlänge α zu. Im entsprechenden Winkelbereich ist dabei jedem Wert von cos α ein eindeutiger Wert von sin α zugeordnet und umgekehrt. Elementare Eigenschaften der Arcusfunktionen ergeben sich direkt aus denen der trigonometrischen Funktionen. Wir fassen nur ein paar zusammen. Die Funktion arctan ist die fundamentale Arcusfunktion, aus welcher sich die anderen ausdrücken lassen. Es gilt Proposition 2.6.1 (Elementare Beziehungen zwischen Arcusfunktionen). π − arctan y, 2 y arcsin y = arctan p , |y| < 1, 1 − y2 y π y arccos y = arccot p = − arctan p , 2 1 − y2 1 − y2 π arcsin y + arccos y = , |y| < 1. 2 arccot y = (2.6.1) |y| < 1, 77 2 Funktionen 3. 2. 2. 1. 1. −2. −1. f 0 1. 2. 3. 4. 5. 6. 7. −2. −1. −1. 0 1. 2. −1. −2. Abbildung 2.20: Die Funktionen y = cos x und y = sin x (links) und ihre Umkehrfunktionen x = arccos y und x = arcsin x (rechts). Beweis. Es gilt sin(x + π2 ) = cos x und cos(x + π2 ) = − sin x. Damit gilt cos(x + π2 ) π − sin x cot(x + ) = = − tan x = tan(−x) π = 2 sin(x + 2 ) cos x (2.6.2) und die erste Identität folgt mit y = tan(−x) π π = − arctan y. 2 2 p Weiterhin gilt für x ∈ [− π2 , π2 ] stets cos x = 1 − sin2 x und damit arccot y = x + tan x = sin x sin x =p cos x 1 − sin2 x (2.6.3) (2.6.4) und mit y = sin x, also x = arcsin y, folgt die Behauptung. Die dritte Identität ist analog, einerseits kann man zu Komplementärwinkeln übergehen und dadurch sin durch √ cos und gleichzeitig tan durch cot ersetzen oder, auf dem interessanten Bereich sin x = 1 − cos2 x ausnutzen. Die letzte Identität folgt durch Addition. Proposition 2.6.2. Es gelten die Additionstheoreme arctan x + arctan y = arctan x+y , 1 − xy xy < 1, (2.6.5) zusammen mit x+y , 1 − xy x+y arctan x + arctan y = −π + arctan , 1 − xy arctan x + arctan y = π + arctan xy > 1, x > 0, (2.6.6) xy > 1, x < 0. Beweis. Aus den Additionstheoremen der Sinus- und Cosinusfunktionen ergibt sich tan(ξ + η) = 78 sin(ξ + η) sin ξ cos η + cos ξ sin η tan ξ + tan η = = cos(ξ + η) cos ξ cos η − sin ξ sin η 1 − tan ξ tan η (2.6.7) 2.6 Arcus- und Areafunktionen 2. 1. −5. −4. −3. −2. −1. 0 1. 2. 3. 4. 5. 6. −1. −2. Abbildung 2.21: Die Funktion y = arctan x. und damit für ξ = arctan x und η = arctan y tan(arctan x + arctan y) = x+y 1 − xy (2.6.8) und zusammen mit der π-Periodizität der Tangensfunktion und der Wahl des Wertebereichs der Umkehrfunktion die Behauptung. Korollar 2.6.3. Für alle x 6= 0 gilt arctan x = ± π 1 − arctan 2 x ± x > 0. (2.6.9) Mit dieser Formel können die Werte von arctan x für |x| > 1 aus denen für |x| < 1 berechnet werden. Dies ist hilfreich und wird uns später nochmals begegnen. Proposition 2.6.4. Es gilt und d d 1 arcsin x = − arccos x = √ dx dx 1 − x2 (2.6.10) 1 d arctan x = . dx 1 + x2 (2.6.11) Beweis. Diese Beziehungen ergeben sich aus den Ableitungsregeln der Winkelfunktionen. Es gilt p d sin x = cos x = 1 − sin2 x (2.6.12) dx und damit für y = sin x d 1 arcsin x = p . (2.6.13) dy 1 − y2 Mit der Komplementärwinkelbeziehung arcsin y+arccos y = π folgt die Aussage für den arccos. Für die Ableitung des Tangens ergibt sich analog d d sin x cos x sin x sin x tan x = = + = 1 + tan2 x dx dx cos x cos x cos2 x (2.6.14) 79 2 Funktionen und damit für y = tan x 1 d arctan y = . dy 1 + y2 (2.6.15) Als Folgerung ergeben sich Reihendarstellungen dieser Funktion als Potenzreihen. Der nachfolgende Beweis ist direkt und benötigt nur die Summenformel der geometrischen Reihe. Korollar 2.6.5. Es gilt ∞ X x2k+1 , arctan x = (−1)k 2k + 1 k=0 sowie |x| < 1, (2.6.16) ∞ π X 1 arctan x = ± − (−1)k , 2 k=0 (2k + 1)x2k+1 ±x > 1, (2.6.17) als lokal gleichmäßig konvergente Reihe. Beweis. Da die geometrische Reihe ∞ X 1 = (−1)k x2k 1 + x2 k=0 (2.6.18) für |x| < 1 gleichmäßig konvergiert, folgt mit gliedweiser Integration und dem speziellen Wert arctan 0 = 0 Z x ∞ ∞ X X x2k+1 k , (2.6.19) arctan x = arctan x − arctan 0 = (−1) ξ 2k dξ = − (−1)k 2k + 1 0 k=0 k=1 also die Behauptung. Die Reihen konvergieren umso besser, je weiter x von ±1 entfernt ist. Die Konvergenz ist dann (wie es bei geometrischen Reihen immer auftritt) exponentiell. Zusammen mit speziellen Werten für die Tangensfunktion erlaubt dies die Berechnung von π. Dazu ein kurzes Beispiel, es gilt 2 tan π8 π π , (2.6.20) 1 = tan = tan 2 = 4 8 1 − tan2 π8 also insbesondere für t = tan π8 die Gleichung 1 − t2 = 2t. Die Nullstellen der Gleichung sind √ t = −1 ± 2, was zusammen mit tan π8 > 0 π √ tan = 2 − 1 (2.6.21) 8 liefert. Damit gilt aber umgekehrt auch √ ∞ 2k+1 X √ π k ( 2 − 1) = arctan( 2 − 1) = (−1) . 8 2k + 1 k=0 (2.6.22) Addiert man die ersten 8 Summanden dieser Reihe, so erhält man nach Multiplikation mit 8 80 2.6 Arcus- und Areafunktionen n 0 1 2 3 4 5 6 7 achtfache n-te Partialsumme 3.3137084989847611638 3.1241943340101603621 3.143703628121770649 3.1413127240611269336 3.1416317796154585517 3.141586991296422064 3.1415934935323777275 3.1415925266727017012 und man sieht, dass sich π auf diese Weise effektiv berechnen lässt. Dieses Verfahren wurde im 17ten Jahrhundert angewandt. Areafunktionen Areafunktionen sind die hyperbolischen Gegenstücke der Arcusfunktionen. Sie ordnen den Werten von cosh A und sinh A (also den Punkten auf der Hyperbel) den Flächeninhalt A zu. Wiederum ist die Funktion artanh fundamental zur Berechnung der anderen. Als Definition nutzen wir • x = arsinh y, falls y = sinh x; • x = arcosh y, falls y = cosh x und x ≥ 0; • x = artanh y, falls y = tanh x; • x = arcoth y, falls y = coth x. Die Funktionen sind in Abbildung 2.22 dargestellt. 3. 3. 2. 2. 1. 1. −1. −4. −3. −2. −1. 0 1. 2. 3. 4. 5. 6. 7. 0 1. −1. −1. −2. −2. Abbildung 2.22: Die Funktionen arsinh(x) und arcosh(x) (links) und artanh(x) (rechts). 81 2 Funktionen Proposition 2.6.6 (Elementare Beziehungen zwischen Areafunktionen). 1 arcoth(y) = artanh , y arsinh(y) = artanh p y 6= 0, y 1 + y2 , (2.6.23) r y 1 arcosh(y) = arcoth p = artanh 1 − 2 , y y2 − 1 y ≥ 1. 1 . Weiter gilt cosh x = Beweis. Die erste Aussage entspricht gerade coth x = tanh x für alle x ∈ R und damit sinh x sinh x tanh x = =p . cosh x 1 + sinh2 x Mit y = sinh x folgt damit also y arsinh y = x = artanh p 1 + y2 und damit die zweite Behauptung. Für die zweite nutzen wir analog, dass sinh x = für x ≥ 0 gilt. Daraus folgt coth x = p 1 + sinh2 x (2.6.24) (2.6.25) p cosh2 x − 1 cosh x cosh x =p sinh x cosh2 x − 1 (2.6.26) und damit mit y = cosh x, x > 0, p r y2 − 1 1 arcosh y = x = arcoth p = artanh = artanh 1 − 2 y y y2 − 1 y (2.6.27) und damit die letzte Behauptung. Wiederum liefern die Additionstheoreme der tanh-Funktion Additionstheoreme für die Umkehrfunktion. Hier gilt Proposition 2.6.7. artanh x + artanh y = artanh arsinh x + arsinh y = arsinh(x p x+y , 1 + xy √ y 2 + 1 + y x2 + 1), |x|, |y| < 1. x, y ∈ R. (2.6.28) (2.6.29) Beweis. Es gilt tanh(ξ + η) = sinh(ξ + η) sinh ξ cosh η + cosh ξ sinh η tanh ξ + tanh η = = cosh(ξ + η) cosh ξ cosh η + sinh ξ sinh η 1 + tanh ξ tanh η (2.6.30) und, da artanh tanh ζ = ζ für alle ζ ∈ R und tanh artanh z = z für alle |z| < 1 gilt, folgt mit ξ = artanh x und η = artanh y die Behauptung x+y . (2.6.31) artanh x + artanh y = ξ + η = artanh 1 + xy Das Additionstheorem der arsinh-Funktion folgt analog. 82 2.6 Arcus- und Areafunktionen Korollar 2.6.8. 2 arsinh(x) = arsinh(2x2 + 1) √ 1 arsinh x + arsinh = arsinh 1 + x2 + x (2.6.32) r 1 1+ 2 x ! (2.6.33) Proposition 2.6.9. Es gilt d arsinh x = dx d arcosh x = dx d artanh x = dx d arcoth x = dx 1 , 1 + x2 1 √ , 2 x −1 1 , 1 − x2 1 , 1 − x2 √ x > 1, (2.6.34) |x| < 1, |x| > 1. Beweis. Wir differenzieren wiederum die Funktionen und schließen daraus auf die Ableitungen der Umkehrfunktionen. Es gilt p d sinh x = cosh x = 1 + sinh2 x dx (2.6.35) für alle x ∈ R und damit die erste Aussage. Weiter gilt für x > 0 p d cosh x = sinh x = cosh2 x − 1 dx (2.6.36) und damit wegen cosh x > 1 für x > 0 die zweite Aussage. Weiter gilt d d sinh x cosh x sinh x sinh x tanh x = = − = 1 − tanh2 x dx dx cosh x cosh x cosh2 x (2.6.37) und damit wegen | tanh x| < 1 die dritte Zeile. Für die vierte Zeile nutzen wir analog d cosh x sinh x cosh x cosh x d coth x = = − = 1 − cosh2 x 2 dx dx sinh x sinh x sinh x (2.6.38) zusammen mit | cosh x| ≥ 1. Korollar 2.6.10. Es gilt ∞ X x2k+1 artanh x = , 2k + 1 k=0 zusammen mit arcoth x = ∞ X k=0 1 , (2k + 1)x2k+1 |x| < 1 |x| > 1. (2.6.39) (2.6.40) 83 2 Funktionen Beweis. Wegen artanh(0) = 0 und metrischen Reihe d dx artanh x = x Z artanh x = 0 1 1−x2 dξ = 1 − ξ2 Z folgt mit der Summenformel der geo∞ xX 0 ξ 2k dξ (2.6.41) k=0 und da die Reihe für |x| < 1 gleichmäßig in ξ konvergiert darf diese gliedweise integriert werden artanh x = ∞ Z X k=0 0 x ∞ X x2k+1 . ξ dξ = 2k + 1 k=0 2k (2.6.42) Die zweite Aussage folgt daraus mit arcoth x = artanh x1 . Allerdings sollte man beachten, dass die Areafunktionen alternative Darstellungen durch Logarithmusfunktionen besitzen. Diese ergeben sich direkt aus den Formeln cosh x = ex + e−x 2 und sinh x = ex − e−x 2 (2.6.43) zusammen mit den Lösungsformeln quadratischer Gleichungen. Es gilt mit y = cosh x wegen 2y = ex + e−x stets e2x − 2yex + 1 = 0 und damit34 p arcosh y = ln y + y 2 − 1 , y≥1 (2.6.44) und entsprechend mit y = sinh x wegen e2x − 2yex − 1 = 0 auch p arsinh y = ln 1 + y 2 + 1 , y ∈ R. (2.6.45) Weiter impliziert tanh x = ex − e−x ex + e−x (2.6.46) für y = tanh x die Identität e2x y + y = e2x − 1, also e2x = 1+y 1−y (2.6.47) und damit artanh y = 1 1+y ln , 2 1−y |y| < 1, (2.6.48) arcoth y = 1 y+1 ln , 2 y−1 |y| > 1. (2.6.49) und entsprechend Entsprechend ’einfache’ Formeln gibt es nicht für die Arcusfunktionen. Bei diesen muss man dazu den Umweg über komplexe Argumente gehen. 34 Die zweite Lösung der quadratischen Gleichung liefert den zweiten negativen Ast der arcosh-Funktion. 84 2.7 Fortsetzungen ins Komplexe 2.7 Fortsetzungen ins Komplexe Bei Polynomen haben wir gesehen, dass erst ein Übergang zu komplexen Variablen eine strukturell einfache und befriedigende Theorie geliefert hat. Dies ist auch bei den nun betrachteten transzendenten Funktionen der Fall. Während Polynome inhärente Rechenvorschriften sind, ist hier allerdings vorsicht geboten und wir müssen uns überlegen, wie wir die konstruierten Funktionen für komplexe Variablen definieren und ob eine solche Definition überhaupt sinnvoll ist. Winkelfunktionen haben wir am Dreieck definiert und dann mittels Additionstheoremen auf ganz R fortgesetzt. Bei Exponentialfunktionen haben wir die Funktionalgleichungen E(x + y) = E(x)E(y), x, y ∈ R, (2.7.1) zusammen mit der Forderung, dass E : R → R stetig sein soll, verwendet. Dies wiederum bestimmte zusammen mit einem Funktionswert E(1) = a die Funktion E(x) = ax eindeutig. Verwendet man statt reeller Variablen hier komplexe Variablen, fordert also E(z + w) = E(z)E(w), z, w ∈ C (2.7.2) für komplexe Zahlen z = x+iy und w = u+iv, so bestimmen die zwei Funktionswerte E(1) = a und E(i) = b eindeutig eine stetige Funktion E. Die Werte von a und b sind dabei beliebig wählbar und bestimmen (der Einfachheit halber mit a, b ∈ R) die (reellwertige) Funktion E(x + iy) = ax by . (2.7.3) Die Funktion erfüllt (2.7.2). Aber, ist diese Fortsetzung überhaupt sinnvoll? Man sieht, dass im Gegensatz zur Konstruktion der Exponentialfunktionen auf reellen Zahlen Stetigkeit allein nicht als Forderung genügt. Stattdessen betrachtet man Funktionen, die • analytisch sind, also eine Darstellung als konvergente Potenzreihe f (z) = ∞ X αn (z − z0 )n (2.7.4) n=0 mit Koeffizienten αn ∈ C und für Entwicklungspunkte z0 ∈ C besitzen; oder (äquivalent) • holomorph sind, also auf offenen Teilmengen von C komplex differenzierbar sind. Für solche Funktionen sind die Fortsetzungen von R nach C eindeutig. Man beachte die Ähnlichkeit von Polynomen und Potenzreihen. Eine auf R definierte Funktion, die dort eine Darstellung als konvergente Potenzreihe besitzt, besitzt eine eindeutige analytische Fortsetzung über die reelle Achse hinaus. Dies folgt direkt aus dem Identitätssatz für Potenzreihen. Ebenso ist eine durch eine Potenzreihe dargestellte Funktion in jedem Punkt im Inneren ihres Konvergenzkreises in eine Potenzreihe entwickelbar. Das erlaubt es, solche Funktionen eindeutig über ihr Definitionsgebiet hinaus fortzusetzen. Um die Sprache im Folgenden festzulegen betrachten wir analytische Funktionen auf ihrem maximalen Definitionsgebiet. Diese sind als Familien von Kreisscheiben in C mit zugeordneten darauf konvergenten Potenzreihen zu verstehen. Dabei werden überlappende Kreisscheiben miteinander verklebt, wenn die durch die Potenzreihe bestimmte Funktion auf dem Schnitt 85 2 Funktionen 2. 1. −2. −1. 0 1. 2. −1. −2. Abbildung 2.23: Zur Fortsetzung der Wurzelfunktion übereinstimmt. Eine analytische Funktion ist die Gesamtheit der Kreissscheiben die über Wege mit einer Ausgangskreisscheibe verbunden sind. √ Als Beispiel betrachten wir dazu die Wurzelfunktion f (z) = z. Für den Entwicklungspunkt z0 = 1 gilt nach Newtons’ Binomialreihe ∞ X 1/2 1/2 f (z) = (1 + z − 1) = (z − 1)n , |z − 1| < 1 (2.7.5) n n=0 mit den verallgemeinerten Binomialkoeffizienten 1 1 ( − 1) · · · ( 12 − n + 1) 1/2 2 2 = . n 1 · 2···n Ist nun z0 ein anderer Punkt aus dieser Scheibe und bezeichnet Reihe dargestellten Wert, so gilt √ ∞ X z0 1/2 1/2 f (z) = (z0 + z − z0 ) = (z − z0 )n , n n z0 n=0 (2.7.6) √ z0 = f (z0 ) den durch die |z − z0 | < 1 (2.7.7) und wir erhalten eine Fortsetzung. Wie in Abbildung 2.23 dargestellt liefert dies nun Darstellungen der Wurzelfunktion auf einer Kette von Kreisscheiben. √ Jeweils aufeinanderfolgende 1 = 1√und nach einem halben sind dabei verklebt. Allerdings gilt in der ersten Kreisscheibe √ Umlauf auch −1 = i. Nach einem ganzen Umlauf erhält man also 1 = −1 und man kann die Kreisscheiben nicht verkleben. Dies ist erst nach zwei Umläufen um den Ursprung erlaubt. Die so erhaltene Fortsetzung ist eine Funktion auf einer Fläche über einer Teilmenge von C (hier C \ {0}), die erhaltene Fläche wird als Riemannsche35 Fläche der Funktion bezeichnet. Wir wollen uns nun den bisher diskutierten Funktionenklassen zuwenden. Polynome Polynome muss man nicht ins komplexe Fortsetzen, sie sind Rechenvorschriften und das Einsetzen komplexer Zahlen tut das Richtige. Allerdings stellt sich die Frage nach einer sinnvollen 35 Bernhard Riemann, 1826–1866 86 2.7 Fortsetzungen ins Komplexe Abbildung 2.24: Links: Farbschema Mitte: ein Polynom mit drei Nullstellen Rechts: eine rationale Funktion mit zwei Nullstellen und einem Pol Darstellung der Funktionen. Wir nutzen dazu Farben. Statt genau zu beschreiben, wie die komplexe z-Ebene auf die komplexe w = f (z)-Ebene abgebildet wird, färben wir die w-Ebene mit einer der Phase w/|w| entsprechenden Farbe und einer |w| entsprechenden Helligkeit ein. Danach nutzen wir f um den Farbwert auf die z-Ebene zu übertragen, färben also jeweils mit der zu f (z) gehörenden Farbe ein. Sichtbar werden dadurch alle Nullstellen, bei rationalen Funktionen auch alle Polstellen. Exponentialfunktion Die komplexe Exponentialfunktion wird direkt über die Exponentialreihe exp(z) = ∞ X zn n=0 n! (2.7.8) definiert. Die Reihe konvergiert für alle z ∈ C absolut und auf beschränkten Teilmengen von C gleichmäßig. Damit gilt exp(z + w) = = ∞ X (z + w)n n=0 ∞ X k=0 n! ∞ X 1 X n k ` = z w n! k+`=n k n=0 ∞ zk X z` = exp(z) exp(w) k! `=0 `! (2.7.9) und ebenso exp(z) − 1 = 1. z→0 z lim (2.7.10) Damit folgt d exp(z + w) − exp(z) exp(w) − 1 exp z = lim = exp(z) lim = exp(z) w→0 w→0 dz w w (2.7.11) 87 2 Funktionen 5. 4. 3. 2. 1. −3.−2.−1. −1. −2. −3. −4. 1.5 1. 0.5 0 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. −1. −0.5 −0.5 0 0.5 1. 1.5 2. 2.5 −1. Abbildung 2.25: Die Exponentialfunktion bildet einen horizontaler Streifen der Breite 2π auf die gesamte komplexe Ebene ab. Bilder vertikaler Linien sind dabei Kreises, Bilder horizontaler Linien Strahlen vom Ursprung ins Unendliche (was man auch durch gliedweises Differenzieren der Reihe gesehen hätte). Es stellt sich die Frage, wie diese Funktion aussieht. Dazu hilft eine alternative reelle Darstellung der Funktion, es gilt exp(z) = exp(x + iy) = ex cos y + i sin y). (2.7.12) Um das zu zeigen beachten wir, dass aufgrund der Additionstheoreme der (reellen) Winkelfunktionen für die so definierte Funktion ebenso exp(z +w) = exp(z) exp(w) gilt und weiterhin auch ex cos y + i sin y − 1 exp(z) − 1 = lim lim z→0 (x,y)→0 z x + iy x (x(e cos y − 1) + yex sin y) + i(xex sin y − y(ex cos y − 1)) (2.7.13) = lim (x,y)→0 x2 + y 2 = 1 + i0 Beide Bedingungen, also das Additionstheorem und die (komplexe) Ableitung in 0 bestimmen die (komplexe) Exponentialfunktion eindeutig. Die Darstellung über Winkelfunktionen liefert eine einfache graphische Interpretation der Exponentialfunktion. Linien der z-Ebene mit x = Re z konstant werden auf Kreise um den Ursprung mit Radius |w| = ex abgebildet. Linien der z-Ebene mit y = Im z konstant auf Strahlen vom Ursprung ins Unendliche mit arg w konstant abgebildet. Die Exponentialfunktion entspricht der Transformation in Polarkoordinaten. Wegen exp(2πi) = 1 (2.7.14) ist die komplexe Exponentialfunktion periodisch mit Periode 2πi. Es existiert kein z ∈ C mit exp(z) = 0 (was sich aber schon direkt aus der Funktionalgleichung der Exponentialfunktion ergibt). Darüberhinaus bildet die Exponentialfunktion exp : R + i(−π, π] → C \ {0} bijektiv ab. Die Funktion ist in Abbildung 2.26 dargestellt. 88 (2.7.15) 2.7 Fortsetzungen ins Komplexe Abbildung 2.26: Die komplexe Exponentialfunktion Logarithmusfunktion Die Logarithmusfunktion ist die Umkehrfunktion der Exponentialfunktion. Da die Exponentialfunktion nicht auf ganz C injektiv ist, führt dies zu einem Problem mit der Definition dieser Funktion und wir müssen uns entweder für einen geeigneten Wertebereich entscheiden oder sind auf die Betrachtung der Funktion auf einer Riemannschen Fläche angewiesen. Für ersteres definieren wir die Umkehrfunktion nur auf der entlang (−∞, 0] aufgeschnittenen komplexen Ebene und setzen log z = ln |z| + i arg z, z ∈ C \ (−∞, 0]. (2.7.16) Die Funktion ist in Abbildung 2.27 dargestellt. Zum Rechnen ist diese Funktion aber unpraktisch, da man den künstlich eingefügten Schnitt beachten muss. So gilt die Formel √ 1 z = exp log z (2.7.17) 2 nur für den Hauptwert der Wurzelfunktion und liefert nicht alle möglichen Werte. Um das zu umgehen, definieren wir die Logarithmusfunktion auf ihrer Riemannschen Fläche, also der Wendelfläche über C \ {0} mit unendlich vielen Blättern. Diese richtig definierte Logarithmusfunktion ist eine echte Umkehrfunktion der Exponentialfunktion. Es gilt log exp z = z, exp log w = w (2.7.18) für alle z ∈ C und alle w aus der Riemannschen Fläche der Logarithmusfunktion. Jetzt definiert (auf dieser Fläche) √ 1 k w = exp log w (2.7.19) k eine Funktion, die nach Umlauf um k Blätter stets wieder dieselben Werte annimmt. Klebt man diese Blätter ebenso zusammen, so ergibt sich die Riemannsche Fläche der Wurzelfunktion. 89 2 Funktionen Abbildung 2.27: Die Logarithmusfunktion auf der aufgeschnittenen komplexen Ebene Winkelfunktionen Winkelfunktionen kann man auf zweierlei Weise im komplexen definieren. Einerseits ergibt die bekannte reelle Darstellung 1 ix e + e−ix , 2 1 ix e − e−ix sin x = 2 cos x = (2.7.20) für alle x ∈ R eine Darstellung der Winkelfunktionen auf R durch die schon analytisch fortgesetzte Exponentialfunktion. Da die Fortsetzung, wenn existent, eindeutig ist, ergibt sich für alle z ∈ C exp(iz) + exp(−iz) , 2 exp(iz) − exp(−iz) . sin z = 2i cos z = (2.7.21) Insbesondere gelten auch die Additionstheoreme cos(z + w) = cos(z) cos(w) − sin(z) sin(w) sin(z + w) = sin(z) cos(w) + cos(z) sin(w) (2.7.22) für komplexe z, w ∈ C. Insbesondere folgt aber damit cos(x + iy) = cos(x) cos(iy) − sin(x) sin(iy) = cos(x) cosh(y) − i sin(x) sinh(y) sin(x + iy) = sin(x) cos(iy) + cos(x) sin(iy) = sin(x) cosh(y) + i cos(x) sinh(y) 90 (2.7.23) 2.7 Fortsetzungen ins Komplexe Abbildung 2.28: Die beiden Blätter der Wurzelfunktion. Links liegen die Wurzelwerte in der rechten Halbebene, rechts liegen die Wurzelwerte in der linken Halbebene. Die Riemannsche Fläche ergibt sich durch Aufschneiden entlang der Farbgrenze und entsprechendem Verkleben mit dem anderen Blatt. unter Ausnutzung von 1 −y exp(i2 y) + exp(−i2 y) = e + ey = cosh(y), 2 2 2 2 1 −y exp(i y) − exp(−i y) = e − ey = i sinh(y). sin(iy) = 2i 2i cos(iy) = (2.7.24) Die Formeln erlauben es, die komplexe Form der Sinusfunktion genauer zu verstehen. Wir betrachten z = x + iy auf dem Halbstreifen x ∈ [− π2 , π2 ] und y ≥ 0 und untersuchen auf diesem sin(x + iy) = sin x cosh y + i cos x sinh y. (2.7.25) Die Strecke [− π2 , π2 ] wird auf das Intervall [−1, 1] abgebildet. Ebenso wird die Linie − π2 +i[0, ∞) auf (−∞, −1] und die Linie π2 + i[0, ∞) auf [1, ∞) abgebildet. Dies folgt, da dort sin(x) = ±1 und cos(x) = 0 gilt, also der Funktionswert durch ± cosh(y) gegeben ist. Auch die Bilder aller anderen horizontalen und vertikalen Linien sind einfach zu bestimmen. Für festes y ergibt sich in der Bildebene ξ1 sin x + iξ2 cos x (2.7.26) mit ξ1 = cosh y und ξ2 = sinh y, also eine Ellipse wenn x als Variable läuft. Die Brennpunkte der Ellipse sind ±1. Entsprechend ergibt sich für festes x η1 cosh y + iη2 sinh y (2.7.27) mit η1 = sin x und η2 = cos x. Dies parametrisiert Hyperbeln, wenn y als Variable läuft. Die Brennpunkte der Hyperbel sind wiederum ±1. Insbesondere bildet die komplexe Sinusfunktion den Halbstreifen [− π2 , π2 ] + i[0, ∞) bijektiv auf die obere Halbebene R + i[0, ∞) ab. Zusammen mit sin(± π2 ) = ±1 und der Analytizität charakterisiert diese Abbildungseigenschaft die Sinusfunktion! 91 2 Funktionen 3. 2. 1. −4. −3. −2. −1. 0 1. 2. 3. 4. −1. Abbildung 2.29: Abbildungseigenschaften der Sinusfunktion. Die vertikalen roten Linien werden auf Hyperbeln mit Brennpunkten ±1 und die horizontalen blauen Linien auf Ellipsen mit Brennpunkten ±1 abgebildet. Abbildung 2.30: Sinusfunktion, links gefärbt nach Betrag und Phase und rechts nach Phase und mit konformen Quadraten 92 2.7 Fortsetzungen ins Komplexe Um dies zu sehen, müssen wir etwas tiefer ausholen und benötigen als Hilfsmittel das Spiegelungsprinzip von Schwarz. Wir formulieren es in einer vereinfachten Fassung und nehmen an, eine Funktion sei holomorph auf einem Gebiet der komplexen Zahlenebene einschließlich eines Stücks der reellen Achse und die Funktionswerte auf dem entsprechenden Stück der reellen Achse seien reell. Dann ist für jeden Punkt z0 aus dem Stück der reellen Achse z nahe genug an z0 ∞ X f (z) = αk (z − z0 )k (2.7.28) k=0 mit reellen αk . Insbesondere gilt für die z aus dem Konvergenzkreis der Reihe f (z) = f (z). Also wird das Stück Funktion oberhalb der reellen Achse durch f (z) = f (z) auf ein Gebiet unterhalb der reellen Achse analytisch fortgesetzt. Nehmen wir nun an, eine Funktion f bilde den Halbstreifen [− π2 , π2 ] + i[0, ∞) analytisch und bijektiv auf die obere Halbebene ab und es gelte f (± π2 ) = ±1. Betrachtet man zu dieser Funktion die Umkehrfunktion F (w) definiert auf der oberen Halbebene und mit Werten im Halbstreifen, so liefert Spiegeln eine Fortsetzung auf eine Riemannsche Fläche über C \ {±1}. Wir wollen diese genauer untersuchen, dafür nutzen wir die Bezeichnungen I− = (−∞, −1), I0 = (−1, 1) und I+ = (1, ∞). Setzen wir F nun durch Spiegeln an I+ auf die untere und danach durch Spiegeln an I0 wieder auf die obere Halbebene fort, so liegen die Funktionswerte (bezeichnet als F+,0 (w)) spiegelsymmetrisch zu π2 , es gilt also π π F+,0 (w) − = − F (w) − . (2.7.29) 2 2 Setzen wir durch Spiegeln and I+ nach unten und durch Spiegeln an I− nach oben fort, so ergibt sich eine Verschiebung um 2π, F+,− (w) = F (w) + 2π, (2.7.30) analog gilt auch π π = − F (w) + . (2.7.31) 2 2 Je nach dem Weg der Fortsetzung ergeben sich als unendlich viele Blätter der Riemannschen Fläche mit entsprechenden Funktionswerten (als Verkettungen dieser elementaren Fortsetzungen). Da dies zu kompliziert erscheint, betrachten wir eine einfachere Funktion, nämlich die Funktion F 00 (w) . (2.7.32) G(w) = 0 F (w) Diese bleibt bei obigen elementaren Fortsetzungen invariant, es gilt also F0,− (w) + 00 00 00 (w) (w) (w) F+,0 F+,− F0,− F 00 (w) = = = , 0 0 0 F 0 (w) F+,0 (w) F+,− (w) F0,− (w) (2.7.33) damit ist die Funktion G auf C \ {±1} definiert. Führt man weiter um die Punkte z = ± π2 die Variablen t = (z − ± π2 )2 ein, so streckt dies die rechten Winkel und liefert eine Funktion t = (F (w) − ± π2 )2 , welche um den Punkt w = ±1 jeweils einwertig und beschränkt und damit in dem betreffenden Punkt analytisch ist. Also gilt (um den Punkt w = 1) X π βk (w − 1)k (2.7.34) t = (F (w) − )2 = c(w − 1) 1 + 2 93 2 Funktionen mit entsprechenden Koeffizienten βk und somit nach Wurzelziehen X √ π F (w) − = c w − 1 1 + β̃k (w − 1)k 2 (2.7.35) mit neuen Koeffizienten β̃k . Einsetzen liefert G(w) = − 1 1 1 1 − + h(w) 2w−1 2w+1 (2.7.36) mit einem ganzen(!) Rest h. Dieser verschwindet im Unendlichen, auf einem großen Kreis um den Ursprung ist wird F zu F+,− fortgesetzt, die Ableitung selbst ist schon analytisch und F 0 (w) auf C \ [−1, 1] wohldefiniert. Weiter ist F 0 (w) beschränkt und es folgt h(w) → 0 für w → ∞. Damit folgt h = 0 und somit 1 2w d log F 0 (w) = − , dw 2 w2 − 1 1 log F 0 (w) = − log(w2 − 1), Z2 dw √ F (w) = w2 − 1 G(w) = (2.7.37) also auch F (w) = arcsin w. Ein detailliert ausgearbeiteter Beweis dieser Charakterisierung der Sinusfunktion ist zum Beispiel im Buch von Hurwitz und Courant zur Funktionentheorie, Kapitel III.7, zu finden. 94 3 Strukturen Seit Ende des 19. Jahrhunderts wird Mathematik weniger explorativ als vielmehr konstruktiv betrieben. Dabei wurden besondere Anstrengungen in die saubere Formulierung mathematischer Grundlagen gesteckt und ’inhärente Bedeutung’ von Begriffen (wie zum Beispiel das Zahlen vom zählen kommen) einer Fixierung logischer Zusammenhänge geopfert. Nun sind Zahlen nur noch Objekte, die gewissen Regeln genügen. Wir wollen dies in einigen Stichpunkten nachvollziehen. Strukturen sind die Waffen der Mathematiker. (N. Bourbaki) Mathematics is a game played according to certain simple rules with meaningless marks on paper. (D. Hilbert) 3.1 Axiomatischer Aufbau Peano-Axiomen der natürlichen Zahlen Natürliche Zahlen kann man axiomatisch charakterisieren. Dazu fordern wir die folgenden fünf auf Peano1 zurückgehenden Eigenschaften und bezeichnen jedes System, welches diese erfüllt als natürliche Zahlen. Insbesondere können alle beweisbaren Eigenschaften natürlicher Zahlen auf dieses Axiomsystem zurückgeführt werden. P1 1 ist eine natürliche Zahl. P2 jede natürliche Zahl n besitzt eine eindeutig bestimmte natürliche Zahl n0 als Nachfolger. P3 1 ist nicht Nachfolger einer natürlichen Zahl. P4 Natürliche Zahlen mit gleichem Nachfolger sind gleich. P5 Sei P (n) eine Aussage2 über natürliche Zahlen. Gilt nun (i) P (1), (ii) P (n) impliziert P (n0 ), so gilt P (n) für alle natürlichen Zahlen n. 1 2 Guiseppe Peano, 1858–1932 Wir fordern nicht, dass die Aussage in der zugrundeliegenden Sprache, also durch Variablen, das Symbol ’, logische Verknüpfungen und Quantoren ausdrückbar ist. Genauer: Dies ist ein Axiom der Logik zweiter Stufe, für eine Teilmenge P der natürlichen Zahlen kann P (n) als n ∈ P verstanden werden und wir haben ein Axiom, welches über alle Teilmengen der natürlichen Zahlen eine Aussage trifft. 95 3 Strukturen Um zu sehen, wie man damit umgeht, definieren wir die Operationen und Ordnungsrelation auf den so axiomatisch charakterisierten natürlichen Zahlen. Auch dies folgt Peano. Addition: Die Summe n + m natürlicher Zahlen ist durch die beiden Forderungen n + 1 := n0 , n + m0 := (n + m)0 (3.1.1) charakterisiert. Um dies zu zeigen, bezeichne P (m) die Aussage, dass n + m definiert ist. Dann gilt P (1) aufgrund der ersten Forderung und P (m) impliziert aufgrund der zweiten stets P (m0 ). Nach P5 ist damit n + m für jede natürliche Zahl definiert. Die Definition ist eindeutig, da nach P4 zu jeder Zahl m0 genau ein m existiert mit m0 = m. Multiplikation: Wir gehen analog vor und fordern 1 · n := n, (m0 ) · n = m · n + n. (3.1.2) Dies charakterisiert wiederum die Multiplikation eindeutig. Ordnung: Wir definieren m < n als ∃k m + k = n. (3.1.3) Alternativ (und äquivalent) kann man n durch Nachfolgerbildung von m aus erreichen. Hilberts Axiome der (ebenen) Geometrie David Hilbert3 axiomatisierte die euklidische Geometrie. Wir beschränken uns auf die ebene Geometrie und fassen die Axiome Hilberts kurz zusammen. Im dreidimensionalen sind es 20 Axiome, der ebene Fall begnügt sich mit einigen wenigen weniger. Zur Notation: im Folgenden bezeichnen Großbuchstaben A, B, C, ..., P, Q, R... Punkte und Kleinbuchstaben g, h, ... Geraden. Relationen sind Inzidenz (sprich, Punkte liegen auf Geraden, Geraden gehen durch Punkte), die Eigenschaft zwischen Punkten zu liegen (Ordnung für Punkte einer Geraden) und Kongruenz von Strecken und Winkeln (in Zeichen ≡). Dabei sind Strecken bestimmt durch (ungeordnete) Punktepaare und bestehen aus dazwischenliegenden Punkten und Winkel durch (ungeordnete) Paare von Halbgeraden mit gemeinsamem Startpunkt. Halbgeraden werden ebenso durch die Ordnung von Punkten charakterisiert. Inzidenz I.1 Zu zwei verschiedenen Punkten P un Q existiert genau eine dazu inzidente Gerade g. I.2 Zwei verschiedene zu einer Geraden g inzidente Punkte P und Q bestimmen die Gerade g eindeutig. I.3 Zu jeder Geraden g existieren mindestens zwei inzidente Punkte P und Q. Anordnung II.1 A zwischen B und C impliziert A zwischen C und B. II.2 Zu zwei Punkten A und C existiert mindestens ein B mit B zwischen A und C. Ebenso existiert mindestens ein D mit C zwischen A und D. 3 David Hilbert, 1862–1943 96 3.1 Axiomatischer Aufbau II.3 Von drei zu einer Geraden g inzidenten Punkten liegt stets einer zwischen den beiden anderen. II.4 Die Punkte zwischen A und B werden als Strecke AB bezeichnet. Seien nun drei Punkte A, B, C, die nicht zu einer gemeinsamen Geraden inzident sind gegeben. Dann schneidet jede Gerade h die AB in einem Punkt schneidet und keinen der Punkte A, B, C enthält entweder BC oder CA. Kongruenz III.1 Seien A, B zwei Punkte und A0 ein Punkt auf einer Geraden g. Dann existiert auf jeder Seite der Geraden g genau ein Punkt B 0 mit AB ≡ A0 B 0 (kongruent oder gleich). III.2 Gilt AB ≡ A0 B 0 und AB ≡ A00 B 00 , so folgt A0 B 0 ≡ A00 B 00 . III.3 Seien AB und BC zwei Strecken auf einer Geraden und seien A0 B 0 und B 0 C 0 zwei Strecken auf einer (möglicherweise anderen) Geraden. Dann impliziert AB ≡ A0 B 0 und BC ≡ B 0 C 0 stets AC ≡ A0 C 0 . III.4 Ein ungeordnetes Paar von Halbgeraden g, h mit gemeinsamem Startpunkt S sei als Winkel ∠(g, h) bezeichnet. Zu einem Winkel ∠(g, h) und einer Halbgeraden g 0 und einer Seite von g 0 existiert stets ein eindeutig bestimmtes h0 mit ∠(g, h) ≡ ∠(g 0 , h0 ) (kongruent oder gleich) derart, dass alle inneren Punkte des Winkels ∠(g 0 , h0 ) auf der gegebenen Seite liegen. Weiter gilt ∠(g, h) ≡ ∠(h, g). III.5 Aus ∠(g, h) ≡ ∠(g 0 , h0 ) und ∠(g, h) ≡ ∠(g 00 , h00 ) folgt ∠(g 0 , h0 ) ≡ ∠(g 00 , h00 ). III.6 Für drei Punkte ABC bezeichen ∠ABC den Winkel ∠(BA, BC). Wenn für zwei Dreiecke A, B, C und A0 , B 0 , C 0 AB ≡ A0 B 0 , BC ≡ B 0 C 0 , ∠ABC ≡ ∠A0 B 0 C 0 (3.1.4) gilt, so folgt ∠BCA ≡ ∠B 0 C 0 A0 , ∠CAB ≡ ∠C 0 A0 B 0 . (3.1.5) Parallelen IV Schneiden zwei Geraden g und h eine dritte Gerade nicht, so schneiden sich auch g und h nicht. Stetigkeit V.1 Seien AB und CD zwei Strecken. So existiert eine natürliche Zahl n, so dass n-maliges Abtragen von CD entlang der Halbgeraden von A in Richtung B den Punkt B überschreitet. V.2 Zu den Punkten einer Geraden können (unter Beibehaltung der Anordnungs- und Kongruenzbeziehungen der vorhandenen Punkte) keine weiteren hinzugenommen werden, ohne dass eines der Axiome I.1 ... III.6 oder V.1 verletzt wird. Man beachte, dass die verwendeten Zeichen durch ihre Eigenschaften definiert werden. Eine Definition, was genau Kongruenz von Strecken bedeutet, wird nicht gegeben. Das erlaubt es, Punkte und Geraden durch andere Objekte zu tauschen, solange die Eigenschaften unverändert bleiben. Symmetrie und Reflexivität von ≡ folgt aus I.1 ... III.1. Zusammen mit III.2 wird ≡ zur Äquivalenzrelation. 97 3 Strukturen Hilbert konnte zeigen, dass keines der Axiome entbehrlich ist. Dazu hat er (vorausgesetzt die reellen Zahlen existieren) jeweils ein Modell einer Geometrie angegeben, in der alle anderen Axiome gelten und das betreffende Axiom verletzt ist. Einige der Modelle entsprechen bekannten nichteuklidischen Geometrien. Modelle, die V.1 verletzen, stehen in Zusammenhang zur Nichtstandardanalysis. Modelle, die V.2 verletzen, ergeben sich zum Beispiel, wenn man die reellen Zahlen durch den Körper der konstruierbaren Zahlen ersetzt. Die Existenz eines Modells impliziert die Widerspruchsfreiheit des Axiomsystems. Das Standardmodell ist der R2 mit seinen Elementen als Punkten und den üblichen Geraden. Weiss man nun, dass die reellen Zahlen widerspruchsfrei existieren, so sind die Hilbertschen Axiome frei von Widersprüchen. Mengenlehre In allgemeineren Konstruktionen werden obige Axiome zu Sätzen in entsprechenden Modellen. Allerdings ergibt sich ein Problem, da die Widerspruchsfreiheit der zugrundegelegten Axiomsysteme in der Regel nicht gezeigt werden kann. Durchgesetzt hat sich in der Mathematik ein Aufbau auf der Basis der Mengenlehre und entsprechend im Rahmen der Mengenlehre konstruierte Modelle. Die naive Mengenlehre, wie sie von Georg Cantor4 aufgebaut wurde, hat sich als besonders anfällig für solche Widersprüche erwiesen. Der bekannteste ist Russels Antinomie5 . Diese betrachtet die Menge R = {x : x 6∈ x} (3.1.6) und fragt, ob R ∈ R oder ob R 6∈ R gilt. Beides ist äquivalent, aber zueinander im Widerspruch. Solche Mengen muss man also ausschließen, wenn man sinnvoll Mengenlehre treiben will. Dazu gibt es viele Möglichkeiten. Wir folgen dem klassenlogischen Ansatz des Axiomsystems von von Neumann6 , Bernays7 und Gödel8 . Grundobjekte sind dabei Mengen (geschrieben in Kleinbuchstaben x, y, z, ...), Klassen (geschrieben in Großbuchstaben M, N, ...) und die Elementbeziehung ∈, wobei nur Mengen als Elemente auftreten dürfen. Die Axiome sind insbesondere dazu da, zu charakterisieren, welche Klassen selbst wieder Mengen sind. A Nur Mengen können Elemente von Klassen sein und Mengen sind spezielle Klassen. E Zwei Klassen sind gleich, wenn sie dieselben Elemente haben. K Zu jeder Eigenschaft E(x) von Mengen x existiert eine Klasse, die genau die Mengen mit E(x) zum Element besitzt. Diese wird mit {x | E(x)} bezeichnet. 4 Georg Cantor, 1845–1918 Bertrand Russel, 1872–1970 6 John von Neumann, 1903–1957 7 Paul Bernays, 1888-1977 8 Kurt Gödel, 1906-1978 5 98 (3.1.7) 3.1 Axiomatischer Aufbau Damit kann man erste Objekte definieren. So ist V := {x | x = x} (3.1.8) eine Klasse und für jede Menge gilt x ∈ V . Ebenso ist ∅ := {x | x 6= x} (3.1.9) eine Klasse, diese enthält keine Elemente und wird (vorerst) leere Klasse genannt. Wir können bisher nicht entscheiden ob diese eine Menge ist, zu obigen Axiomen gibt es ein Modell ohne Mengen und nur mit der leeren Klasse. Dass die leere Klasse eine Menge ist fordert M.0 Die leere Klasse ist eine Menge, ∅ ∈ V . Für weitere Axiome benötigen wir ein paar Notationen. Das Axiom K erlaubt es, Operationen für Mengen zu definieren. Sei dazu für Klassen M und N M ∩ N := {x | x ∈ M ∧ x ∈ N }, M ∪ N = {x | x ∈ M ∨ x ∈ N } (3.1.10) Schnitt und Vereinigung und bezeichne M ⊂ N M ⊂N :⇔ Weiter sei [ M := {x | ∃y : y ∈ M ∧ x ∈ y}, ∀x : x ∈ M ⇒ x ∈ N. \ M := {x | ∀y : y ∈ M ⇒ x ∈ y}. (3.1.11) (3.1.12) Für Mengen a und b definieren wir weiter die Paarmenge {a, b} := {x | x = a ∨ x = b}, (3.1.13) P(a) := {x | x ⊂ a}. (3.1.14) sowie die Potenzmenge Damit können wir weitere Axiome festlegen. Diese erlauben es aus gegebenen Mengen weitere zu konstruieren. M.1 Die Paarmenge zweier Mengen ist eine Menge, ∀a, b : {a, b} ∈ V. M.2 Die Vereinigungsmenge einer Menge ist eine Menge, [ ∀a : a ∈ V. (3.1.15) (3.1.16) M.3 Die Potenzmenge einer Menge ist eine Menge, ∀a : P(a) ∈ V. (3.1.17) M.4 (Aussonderungsaxiom) Der Schnitt einer Menge mit einer Klasse ist eine Menge, ∀a, B : a ∩ B ∈ V. (3.1.18) 99 3 Strukturen M.5 (Fundierungsaxiom) Zu jeder nichtleeren Menge a existiert ein dazu disjunktes Element x ∈ a, ∀a : a 6= ∅ ⇒ ∃x : x ∈ a ∧ x ∩ a = ∅. (3.1.19) Da Paarmengen Mengen sind, kann man geordnete Paare definieren. Wir modellieren diese als (a, b) := {{a}, {a, b}} (3.1.20) und es ist nach M.1 klar, dass (a, b) ∈ V . Weiter gilt (a, b) = (c, d) genau dann, wenn a = c und b = d. Man weise dies als Übung nach! Wir bezeichnen eine Klasse als funktional, falls sie wie eine Funktion aufgebaut ist. Genauer, es gilt FktF , falls alle Elemente von F Paare sind und zusätzlich aus (a, b) ∈ F und (a, c) ∈ F stets b = c folgt. Solche funktionalen Klassen kann man auf andere Klassen anwenden, so definiert man F [M ] := {b | ∃a : a ∈ M ∧ (a, b) ∈ F }. (3.1.21) Ebenso setzt man D(F ) := {a | ∃b : (a, b) ∈ F }, W (F ) := {b | ∃a : (a, b) ∈ F } = F [D(F )] (3.1.22) für Definitions- und Wertebereich. Funktionale Klassen, die Mengen sind, werden kurz als Funktion bezeichnet. Ist D(F ) = A und W (F ) ⊂ B, so schreibt man kurz F : A → B. M.6 (Ersetzungsaxiom) Für funktionales F und eine Menge a ist F [a] wieder eine Menge, ∀F, a : FktF ⇒ F [a] ∈ V. M.7 (Auswahlaxiom) Zu jeder Menge x mit ∅ 6∈ x existiert eine Funktion f : x → g(y) ∈ y für jedes y ∈ x. (3.1.23) S x mit Wir wollen eine Klasse A als induktiv bezeichnen, falls die Eigenschaft IndA mit IndA :⇔ ∅ ∈ A ∧ (a ∈ A ⇒ a0 := a ∪ {a} ∈ A) (3.1.24) dafür gilt. Induktive Klassen enthalten also mindestens die Elemente ∅, {∅}, {∅, {∅}}, {∅, {∅}, {∅, {∅}}}, ... M.8 (Unendlichkeitsaxiom) Es existiert eine induktive Menge. Diese Axiome genügen (falls widerspruchsfrei...) die Mathematik aufzubauen. Es werden keine weiteren Objekte benötigt, der Existenz durch Axiome zu garantieren wäre. Um das zu sehen konstruieren wir uns ein Modell der Menge der natürlichen Zahlen in der NBG-Mengenlehre. Sei dazu \ ω := {x | Indx}. (3.1.25) Die Existenz der Menge ω ist durch M.8 garantiert. Wir bezeichnen Elemente von ω mit Buchstaben m, n und definieren n0 := n ∪ {n}. Dann gilt (1) ∅ ∈ ω (also, 0 ist eine natürliche Zahl); (2) n ∈ ω impliziert n0 ∈ ω (jede natürliche Zahl besitzt einen Nachfolger); (3) es existiert kein n ∈ ω mit n0 = ∅ (da ja n ∈ n0 gilt und ∅ leer ist); 100 3.2 Konstruktiver Aufbau (4) aus n0 = m0 folgt n = m; (5) jedes x ⊂ ω mit ∅ ∈ x und n ∈ x ⇒ n0 ∈ x erfüllt schon x = ω. Dies sind aber gerade die Peano-Axiome. Wir können die Menge ω also als Menge der natürlichen Zahlen bezeichnen. Aussage (4) bedarf eines Beweises. Dazu zeigen wir, dass aus n ∈ ω und y ∈ n schon y ⊂ n folgt. Sei also ay = {n | y ∈ n ⇒ y ⊂ n}. Dann gilt ∅ ∈ ay und aus n ∈ ay und y ∈ n0 = n ∪ {n} folgt y ∈ n oder y = n und damit in beiden Fällen nach Voraussetzung y ⊂ n. Also ist ay induktiv und somit ay = ω. Damit implizert aber m ∈ m0 = n0 = n ∪ {n} schon m = n oder m ∈ n und somit nach dem gerade Gezeigten m ⊂ n. Entsprechend folgt n ⊂ m und damit m = n. Diese Konstruktion der natürlichen Zahlen im Rahmen der abstrakten Mengenlehre geht auf von Neumann zurück. 3.2 Konstruktiver Aufbau Basierend auf der gerade axiomatisch begründeten Mengenlehre kann man (zumindest einen) einen Teil der Mathematik konstruktiv aufbauen. Eine Konstruktion der natürlichen Zahlen als kleinste induktive Menge ω haben wir gerade gesehen. Ausgehend von den damit gültigen Aussagen der Peano-Axiome (nun als Sätze) kann man damit das Rechnen mit natürlichen Zahlen definieren und seine Eigenschaften nachweisen. Wir skizzieren dies kurz. Natürliche Zahlen N0 identifizieren wir mit ω, schreiben 0 für das Element ∅ ∈ ω und definieren die Operationen der Addition + und Multiplikation · unter Ausnutzung des Induktionsaxioms durch n + 0 := n, n + m0 := (n + m)0 (3.2.1) (m0 ) · n := m · n + n. (3.2.2) sowie entsprechend mit 1 := 00 1 · n := n, Alle bekannten Eigenschaften der natürlichen Zahlen folgen. Man versuche dies zu beweisen! Die Menge der so konstruierten natürlichen Zahlen sei N0 . Ganze Zahlen Ganze Zahlen ergeben sich, wenn man beliebige Differenzen natürlicher Zahlen bilden möchte. Deshalb ist es naheliegend, diese als Paare natürlicher Zahlen (m, n) verbunden mit der Äquivalenzrelation (m, n) ≡ (m̃, ñ) :⇔ m + ñ = m̃ + n (3.2.3) zu definieren. Zusammen mit den Operationen (m, n) + (m̃, ñ) := (m + m̃, n + ñ) und (m, n) − (m̃, ñ) := (m + ñ, n + m̃) liefert dies (nach Identifikation äquivalenter Paare) ein Modell der 101 3 Strukturen ganzen Zahlen. Die weiteren Operationen ergeben sich aus (m, n) · (m̃, ñ) = (m · m̃ + n · ñ, m · ñ + n · m̃) (3.2.4) (m, n) < (m̃, ñ) (3.2.5) zusammen mit :⇔ m + ñ < m̃ + n. Die Korrektheit und Wohldefiniertheit der Operationen (nach Identitfikation) rechne man nach. Die Menge der ganzen Zahlen sei Z. Die natürlichen Zahlen N0 können in Z durch n 7→ (n, 0) eingebettet werden. Rationale Zahlen Um Quotienten bilden zu können betrachten wir nun Paare ganzer Zahlen p, q ∈ Z mit q > 0. Setzt man nun (p, q) ≡ (p̃, q̃) :⇔ p · q̃ = p̃ · q (3.2.6) und definiert (p, q) + (p̃, q̃) = (p · q̃ + p̃ · q, q · q̃) (3.2.7) zusammen mit −(p, q) = (−p, q) und (p, q) · (p̃, q̃) = (p · p̃, q · q̃) (3.2.8) (p, q) ÷ (p̃, q̃) = (p · q̃, q · p̃), (3.2.9) sowie so erhält man wiederum (nach Identifikation) korrekt definierte Operationen. Weiter sei (für q, q̃ > 0) (p, q) < (p̃, q̃) :⇔ p · q̃ < p̃ · q. (3.2.10) Die Menge der erhaltenen Zahlen sei mit Q bezeichnet. Sie wird durch die Operationen und die Relation < zu einem geordneten Körper. Man rechne auch dies nach! Man kann den Körper Q der rationalen Zahlen ebenso direkt axiomatisch einführen. Die rationalen Zahlen sind das kleinste Modell, welches alle der nachfolgend aufgeführten Axiome erfüllt. Kleinbuchstaben a, b, c, ... bezeichnen dabei (rationale) Zahlen, für diese seien die binären Operationen + und · und die binäre Relation < definiert. Weiter bezeichne = die (metamathematische) Gleichheit und 0 und 1 seien spezielle, voneinander verschiedene, Elemente. Frei vorkommende Variablen seien stets mit Allquantoren versehen. Addition A1 a + 0 = a = 0 + a A2 a + b = b + a A3 (a + b) + c = a + (b + c) A4 ∃b : a + b = 0 = b + a Multiplikation M1 a · 1 = 1 · a = a 102 3.2 Konstruktiver Aufbau M2 a · b = b · a M3 (a · b) · c = a · (b · c) M4 a 6= 0 ⇒ ∃b : a · b = 1 = b · a Distributivgesetz D a · (b + c) = a · b + a · c Ordnungsaxiome O1 a 6= b ⇒ (a < b ⇔ ¬(b < a)) O2 ¬(a < a) O3 a < b ∧ b < c ⇒ a < c O4 a < b ⇒ a + c < b + c O5 a < b ∧ c > 0 ⇒ a · c < b · c Ist nun Q ein Modell für diese Axiome, gilt also in der Struktur Q jede dieser Aussagen, so existiert eine eindeutig bestimmte injektive Abbildung f : Q → Q mit f (0) = 0, f (1) = 1 und f (a + b) = f (a) + f (b) sowie f (a · b) = f (a) · f (b) und a < b ⇒ f (a) < f (b). In diesem Sinne ist Q das kleinste Modell dieser Axiome. Reelle Zahlen Nach Dedekind9 definieren wir die reellen Zahlen als sogenannte Dedekind-Schnitte der Menge der rationalen Zahlen. Dies entspricht Hilberts Forderung der Vollständigkeit aus seiner Axiomatisierung der Geometrie beziehungsweise den folgenden beiden zusätzlichen Axiomen: AR Für jede (reelle) Zahl r existiert eine natürliche Zahl n mit n > r. V Fügt man weitere Elemente unter Beibehaltung aller definierten Operationen und Relationen hinzu, so wird mindestens eines der Axiome A1 bis O5 oder AR verletzt. Jede rationale Zahl a Teilt die Menge Q in zwei Teile, nämlich La = {b | b < a} ∪ {a} Ra = {b | b > a}. (3.2.11) Allerdings kann man Q auch anders in zwei Teile zerlegen, so ist L = {a | a < 0 ∨√a2 < 2} und R = {a | a > 0 ∧ a2 > 2} eine Zerlegung, die nicht von einer rationalen Zahl (da 2 irrational ist) erzeugt wird. Die Menge der reellen Zahlen ergibt sich als Gesamtheit aller Möglichkeiten Q zu zerschneiden. Wir formulieren das exakt. Eine Teilmenge L ⊂ Q heiße links, falls zu jedem a ∈ L und jedem b < a stets b ∈ L gilt. Ebenso heiße eine Teilmenge R ⊂ Q rechts, falls ∀a ∈ R ∀b ∈ Q : a < b ⇒ b ∈ R (3.2.12) und die Menge kein kleinstes Element besitzt, also ∀a ∈ R ∃b ∈ R : b < a. (3.2.13) R := {R ⊂ Q | R 6= Q ∧ R ist rechts} (3.2.14) Damit definiert man 9 Richard Dedekind, 1831–1916 103 3 Strukturen zusammen mit entsprechenden Definitionen der Addition und Multiplikation. So definiert man R < R0 :⇔ R0 ⊂ R (3.2.15) und R + R0 := {a + b | a ∈ R ∧ b ∈ R0 }. (3.2.16) Für die Multiplikation ist das schwieriger, eine Variante ist R · R0 :={a · b | a ∈ R ∧ b ∈ R0 ∧ (a > 0 ∨ b > 0)} ∪ {a · b | a ∈ Q \ R ∧ b ∈ Q \ R0 ∧ (a < 0 ∧ b < 0)}. (3.2.17) 3.3 Axiome und Modelle Wir wollen den Zusammenhang zwischen Axiomen und Modellen noch etwas genauer untersuchen und einige Resultate zu Beweis- und Entscheidbarkeit angeben. Dazu müssen wir etwas formaler vorgehen als bisher. Sei dazu Φ eine Menge von Aussagen oder Formeln, also Aussagen mit Variablen und eingesetzten Konstanten. Wir beschränken uns vorerst auf Sprachen erster Ordnung, vereinbaren also dass Allquantoren vor Variablen stehen dürfen aber nicht über Teilmengen von Variablen laufen können. Damit kann man formalisieren, was ein Mathematiker unter natürlichem Schließen versteht. Wir können aus einer Menge von Aussagen oder Formeln neue Aussagen gewinnen. Dazu wenden wir üblicherweise Schlussregeln an (und nennen das, wenn formal korrekt ausgeführt, einen Beweis). Will man das formalisieren, so kann man dafür Regeln aufstellen. Zur Notation dieser Verwenden wir eine in der Logik übliche Schreibweise, oberhalb eines horizontalen Striches stehen die die Voraussetzungen, unter dem Strich die Folgerungen. Die Notation definiert rekursiv das Symbol ` ϕ∈Φ∪Λ Φ`ϕ , Φ ` ϕ Φ ` (ϕ ⇒ ψ) Φ`ψ zu lesen als ’erlaubt den Beweis von’. Hierbei bezeichnet Λ eine Auflistung der Regeln der Aussagenlogik. Äquivalent dazu ist eine Fassung des Kalküls, in der die Regeln der Aussagenlogik selbst in den Schlussregeln implementiert sind. Ein Modell eines Systems Φ von Aussagen ist eine mathematische Struktur (z.B. implementiert im Rahmen der Mengenlehre), in der alle Aussagen aus Φ wahr sind. Gilt eine weitere Aussage ϕ in jedem Modell von Φ, so sagen wir ϕ folgt semantisch und schreiben Φ ϕ. Nach Konstruktion implizert (die Existenz eines Modells vorausgesetzt) Φ ` ϕ stets Φ ϕ. Semantisches Schließen hat keine offensichtlichen Regeln. Jedoch gilt die Vollständigkeit des natürlichen Schließens im Rahmen der Logik erster Stufe. Jede in jedem Modell wahre Aussage ist auch beweisbar. Satz 3.3.1 (Gödel). Im Rahmen der Logik erster Stufe stimmen ` und überein. 104 3.3 Axiome und Modelle Existiert kein Modell, so ist jede Aussage beweisbar. Insbesondere ist die Aussage ϕ ∧ ¬ϕ beweisbar und das gegebene System Φ ist inkonsistent. Zu einem konsistenten System existiert ein Modell. Interessanter wird es bei der Frage nach der Beweisbarkeit ’interessanter’ Aussagen. So bestimmt die Peano-Arithmetik PA das, was man gewöhnlich unter natürlichen Zahlen versteht. Im Rahmen einer Logik erster Stufe muss das Induktionsaxiom vorsichtig formuliert werden (um Allquantoren über Formeln oder Allquantoren über Mengen natürlicher Zahlen zu vermeiden). Es hat sich durchgesetzt dabei axiomatisch die Eigenschaften der Nachfolgeoperation und der Addition und Multiplikation zu fordern und statt dem Induktionsaxiom ein Schema bestehend aus jeweils einem Axiom zu jeder mit Nachfolgeoperation, +, · und Ordnungsrelation bildbaren Formel zu fordern. Das liefert zwar unendlich viele Axiome, aber obiges Resultat ist anwendbar und jede in jedem Modell wahre Aussage ist beweisbar. Jedoch gilt Satz 3.3.2 (Gödelscher Unvollständigkeitssatz). Angenommen, Φ ist formal konsistent und rekursiv aufzählbar und mächtig genug, ein Modell der Peano-Arithmetik zu implementieren, Φ ` P A. Dann existiert eine Formel ϕ für die weder Φ ` ϕ nocht Φ ` ¬ϕ gilt. Aussagen dieser Form heißen oft Gödel-Aussagen. Die Existenzaussage ist relativ abstrakt, jedoch gilt konkret Korollar 3.3.3 (Gödel). Die Widerspruchsfreiheit des Systems Φ aus vorigem Satz ist eine solche Aussage. Man muss also damit leben, dass man entweder ein zu komplexes Axiomsystem besitzt (was dazu führt dass die Menge der beweisbaren Aussagen nicht mehr rekursiv abzählbar ist), in dem alle interessanten Aussagen beweisbar sind, oder es gibt Aussagen die nicht beweisbar sein dürfen. Setzt man für das Standardmodell N der natürlichen Zahlen (bestimmt durch die Peano-Axiome mit dem Induktionsaxiom als Axiom basierend auf der Logik zweiter Stufe) W A = {ϕ | ϕ gilt in N} so erhält man das System der wahren Arithmetik. Es gilt W A ` P A, W A ist also mächtiger als die Peano-Arithmetik. Es ist auch vollständig, jede formulierbare Aussage über natürliche Zahlen ist entweder wahr (und gehört dann zu W A) oder falsch (und gehört dann nicht dazu). Insbesondere existieren keine Gödel-Aussagen. Jedoch enthält die wahre Arithmetik überabzählbar viele wahre Aussagen (für jede Teilmenge von N mindestens eine) und kann damit nicht rekursiv aufzählbar sein. Der Unvollständigkeitssatz von Gödel ist also in diesem Fall nicht anwendbar.10 Nicht alle Gödel-Aussagen sind so abstrakt wie oben skizziert. Eine bekannte Gödel-Aussage für die Peano-Arithmetik ist der Satz von Goodstein11 . Dieser konstruiert zu jeder natürlichen Zahl als Startwert eine rekursive Folge natürlicher Zahlen und zeigt, dass diese irgendwann die Null erreichen muss. Im Rahmen der wahren Arithmetik gilt dieser Satz, er ist in der NBG-Mengenlehre beweisbar. Im Rahmen der Peano-Arithmetik ist er weder beweisbar noch 10 Man beachte, dass der Satz von Gödel aber sehr wohl in der NBG-Mengenlehre gilt. Diese ist in Logik erster Stufe formalisierbar und enthält ein Modell der Peano-Arithmetik! Zur Formulierung von W A benötigt man aber Logik zweiter Stufe. 11 Reuben Louis Goodstein, 1912–1985 105 3 Strukturen widerlegbar. Es existieren also (wegen der semantischen Vollständigkeit des natürlichen Schließens) Modelle der Peano-Arithmetik (also Modelle der natürlichen Zahlen mit der üblichen Addition und Multiplikation aber dem eingeschränkten Induktionsschema), in denen der Satz von Goodstein nicht gilt. 106