Mathematik für Anwender I Julio José Moyano Fernández Skript zur Vorlesung SS 2013 Inhaltsverzeichnis Vorwort 1 Motivation 3 1. Aussagenlogik (für Anwender) 5 2. Beweismethoden. Das Induktionsprinzip 13 3. Mengen und Abbildungen 21 4. Angeordnete Körper. Die reellen Zahlen 29 5. Folgen reeller Zahlen (I): Konvergenz 37 6. Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien 45 7. Folgen reeller Zahlen (III): Reihen 51 8. Stetigkeit und Grenzwerte reeller Funktionen 61 9. Der Zwischenwertsatz von Bolzano 69 10. Elementare Funktionen der Analysis 77 11. Differenzierbarkeit reeller Funktionen 87 12. Mittelwertsätze der Differenzialrechnung 97 13. Integrierbarkeit reeller Funktionen à la Riemann 105 14. Der Hauptsatz der Infinitesimalrechnung 117 15. Ein Rückblick auf die Infinitesimalrechnung 125 16. Lineare Gleichungssysteme 133 17. Vektorräume 145 18. Basen und Dimension 155 19. Lineare Abbildungen 165 20. Matrizenrechnung (I): Der Rang einer linearen Abbildung 173 iv Abschnitt 0 21. Matrizenrechnung (II): Basiswechsel 181 22. Determinanten 189 23. Eigenwerte und Eigenvektoren 201 Nachwort 209 Literaturverzeichnis 211 Vorwort Der vorliegende Text ist die Niederschrift der Vorlesung Mathematik für An” wender I”, die ich im Sommersemester 2013 gehalten habe. Ziel des Kurses ist, die wichtigsten Begriffe der Infinitesimalrechnung und linearen Algebra – auf einem universitären Niveau– zu vermitteln. Das Skript basiert auf vorangegangenen Vorlesungen, insbesondere der Ma” thematik für Anwender I”, die im Wintersemester 2012/13 bei Herrn Prof. Dr. Tim Römer gehalten wurde. Inspirationsquellen sind die Skripte von meinen Kollegen Herrn Prof. Dr. Winfried Bruns und Herrn Prof. Dr. Holger Brenner, sowie das Buch von Alexander Markowitsch Ostrowski Vorlesungen über Differential- und ” Integralrechnung”. Auch das Buch Analysis by Its History” von Ernst Hairer und ” Gerhard Wanner, vor allem was den Abschnitt über Integration angeht, soll in diesem Zusammenhang genannt werden. Ich danke den Tutoren, die bei der mühsamen Tätigkeit des wöchentlichen Korrigierens mitgeholfen haben; auch Frau Marianne Gausmann, die meine Lücken in LATEX immer gerne gefüllt hat. Mein Dank gilt insbesondere Dr. Jan Ulickza für seine sorgfältige Betreuung der Übung, sein konstantes Interesse an den Fortschritten der Studenten und seine didaktischen und wissenschaftlichen Kommentare und Vorschläge, welche die Veranstaltung zweifellos bereichert haben. Osnabrück, Juli 2013 Julio José Moyano Fernández Motivation Ex nihilo nihil fit: Von nichts kommt nichts. Mit diesem berühmten Prinzip, das von Parmenides kommen soll, wollen wir unseren Weg durch die Grundlagen der Mathematik beginnen. Deswegen müssen wir zunächst präsentieren, was überhaupt nötig ist, damit wir uns möglichst bald mit der Erarbeitung der Grundlagen der reellen Analysis und der linearen Algebra als Basis für Anwendungen beschäftigen können. Es ist also unvermeidlich, über Aussagenlogik, Mengen und Zahlenbereiche ein paar Abschnitte aufzugreifen. Auch scheint es sinnvoll, eine Beschreibung der typischen Beweismethoden, die im Laufe der Vorlesung auftauchen werden, zu thematisieren. Nebenbei gemerkt, der Name der Veranstaltung ist Mathematik für Anwender”, und nicht Anwendungen der Mathematik”. Damit ” ” ist gemeint, dass in erster Linie mathematische Begriffe betrachtet werden. Nach den Grundlagen der Mathematik knüpfen wir unmittelbar an die Infinitesimalrechnung an. In diesem Teil fangen wir mit den wichtigsten Eigenschaften der reellen Zahlen an, und analysieren ihr Verhalten der Unendlichkeit gegenüber: So untersuchen wir Folgen reeller Zahlen, und als Spezialfälle davon, Reihen reeller Zahlen. Ein zweiter Teil der Analysis ist dem Begriff von Funktion gewidmet: Definition, bedeutungsvolle Beispiele und Untersuchung der Stetigkeit, Differenzierbarkeit und Integierbarkeit von Funktionen. Hierzu werden Ableitungs- und Stammfunktionsrechnung in Erinnerung gerufen. Alle diese Kenntnisse führen in natürlicher Weise zum Begriff Gleichung, oder allgemeiner, Gleichungssystem. Die Lösung einer Gleichung bzw. eines Gleichungssystems ist in der Regel alles anderes als einfach. Es hängt von Art der involvierten Funktionen und vom Zahlbereich der gesuchten Lösung ab 1. Es gibt aber Spezialfälle, in denen dies einfach ist; als einfachste, die linearen Gleichungssysteme. Die Lösungsmenge eines linearen Gleichungssystems besitzt eine besondere Struktur, nämlich die Struktur eines affinen Raumes, welche aus der Struktur von Vektorraum verallgemeinert wird. Dies ist unsere Motivation um die lineare Algebra zu entwickeln. Die lineare Algebra ist dann für uns die Untersuchung von Vektorräumen und ihren Relationen (lineare Abbildungen gennant) . 1Dies ist schon klar: Betrachten wir z.B. die Gleichung x2 + √2 = 0. Wie viele Lösungen können wir innerhalb der natürlichen Zahlen finden? 4 Abschnitt 0 Dies ist allerdings nicht trivial. Vektoren werden nicht mehr nur Pfeilchen auf der Ebene sein: Wir abstrahieren den Begriff; Vektoren können nun Funktionen, Integrale, Matrizen sein, d.h. alles, worauf eine Vektorraumsstruktur definiert werden kann. Dieser Gedankenstil ist das A und O der höheren Mathematik, und macht den größten Unterschied zum Mathematikunterricht. Aber keine Panik! Wir werden in dieser Vorlesung nur einen eingeschränkten Abstraktionsgrad erreichen, weil wir uns einfach eine Einführung vornehmen. Schließlich möchte ich noch ein paar Ratschläger geben: Falls Sie eines nicht verstehen, oder anderes vertiefen möchten... einfach fragen! Tutoren, Übungsleiter und ich selber werden uns gerne immer wieder zur Verfügung stellen. Auch rufen wir uns noch den Spruch in Erinnerung, den H. Hauser in seinem Lehrbuch der Analysis” erwähnt: Bruder Beispiel ist der beste Prediger. Wenn ” Sie also eine neue Definition wirklich verstehen wollen, sollten Sie sich immer die folgenden drei Objekte vorstellen können: (i) Ein triviales Beispiel davon (etwa: Entspricht die leere Menge, oder der ganze Raum, der Definition?) (ii) Ein nicht triviales Beispiel: (d.h. eines, bei dem Sie ein paar Rechnungen machen müssen, um sich selber zu überzeugen.) (iii) Ein Gegenbeispiel (d.h., ein Objekt, das der Definition nicht entspricht.) Ich hoffe, lieber Besucher dieser Vorlesung, es wird Ende des Sommersemesters gesagt: Wir haben etwas gelernt! Und vielleicht noch dazu: Wir hatten (manchmal) Spaß dabei! Valladolid/Osnabrück, Karwoche 2013 Julio José Moyano Fernández ABSCHNITT 1 Aussagenlogik (für Anwender) Sehen wir den Mathematiker als einen Rechner, der Behauptungen in Theoreme verwandelt1, dann sollten wir uns fragen, was für eine Methasprache er versteht. Sie ist nichts anderes als die Lehre des vernünftigen Schlussfolgerns, d.h., die Logik. Mit Hilfe von definierten Regeln der Schlussfolgerung wollen die Mathematiker ständig Aussagen auf ihrer Gültigkeit prüfen. Das Verständnis des grundlegenden Prozesses dabei ist die Aufgabe der Logik. Aus terminlichen Gründen werden wir nur die wichtigsten Aspekten der für uns interessantesten Situation, nämlich die so genannte Aussagenlogik, thematisieren. Die Aussagenlogik ist jenes Teilgebiet der Logik, das sich mit Aussagen und deren Verknüpfungen durch Junktoren befasst. Im Folgenden erklären wir, was unter Aussagen und Junktoren zu verstehen ist. Aussagen sind deskriptive, also beschreibende Sätze: Das Gebäude ist schön”, ” die Schnee ist weiß”. Fragen, normative Sätze und andere sprachliche Äußerun” gen gehören nicht dazu. Bei den folgenden Beispielen handelt es sich nicht um Aussagen: * 0; / * 67 + 78; * Eine Multiplikation von sechs Quadraten; * Die Menge aller ganzen Zahlen. Ausgangspunkte sind die Elementaraussagen, d.h., einfache Aussagen (wie z.B. Das Mädchen ist klein”), im Gegensatz zu zusammengesetzten Aussagen (wie ” Das Mädchen ist klein und ihr Bruder auch”). Diesen Elementaraussagen wird ” ein Wahrheitswert zugeordnet. Grundlegend bleiben Sätze, die innerhalb eines Systems nicht begründet oder abgeleitet werden (können): Diese nennen wir Axiome. Der Ausdruck Axiom bezeichnet (i) einen unmittelbar einleuchtenden Grundsatz (klassischer Axiombegriff); (ii) ein vielfach bestätigtes allgemeines Naturgesetz (naturwissenschaftlicher Axiombegriff); (iii) einen zu Grunde gelegten, nicht ableitbaren Ausgangssatz (moderner Axiombegriff). 1 Paraphrase des berühmten Zitats von P. Erdös: Ein Mathematiker ist eine Maschine, die Kaffee in ” Theoreme verwandelt.” 6 Abschnitt 1 In der Aussagenlogik von Aristoteles befinden sich die folgenden klassischen Beispiele von Axiomen: (a) Das Indentitätsprinzip, das besagt, dass ein Gegenstand A genau dann mit einem Gegenstand B identisch ist, wenn sich zwischen A und B kein Unterschied finden lässt. (b) Das Prinzip vom ausgeschlossenen Widerspruch, das besagt, dass zwei einander widersprechende Gegensätze nicht zugleich zutreffen können. (c) Das Prinzip vom ausgeschlossenen Drittel, das berühmte Principium exclusi tertii2, oder Tertium non datum (d.h., ein Drittes ist nicht gegeben): Es besagt, dass von zwei einander widersprechenden Gegensätzen mindestens einer zutreffen muss. Es gibt viele andere Beispiele. In der Mathematik können wir hierzu zwei erwähnen: (d) Das Parallelenaxiom: Zu jeder Geraden und jedem Punkt, der nicht auf dieser Geraden liegt, gibt es genau eine zu der Geraden parallele Gerade durch diesen Punkt3. (e) Jede natürliche Zahl n hat genau einen Nachfolger n + 1. Tatsächlich kann man aus mehreren verschiedenen Aussagen neue Aussagen bilden. Aus der Aussage Peter ist hier” kann man die negierte Aussage Peter ist ” ” nicht hier” machen. Aus den Aussagen Julia ist krank” und Julia ist im Krankenhaus” ” ” kann man beispielsweise die folgenden neuen Aussagen basteln: Julia ist krank, deswegen ist sie im Krankenhaus. Julia ist nicht krank, aber sie ist im Krankenhaus. Julia ist nicht im Krankenhaus, obwohl sie krank ist. Zwei verschiedene Aussagen sind in dieser Art und Weise in einen logischen Zusammenhang zueinander gebracht worden. Dieser Prozess erfolgt nach Gebrauch logischer Verknüpfungen, die man Junktoren nennt. Der Wahrheitsgehalt der zusammengesetzten Aussagen ergibt sich allein aus den Wahrheitsgehalten der beteiligten Aussagen. Bemerkungen: (i) Die Untersuchung, ob eine einfache Aussage wahr ist oder nicht, fällt nicht in den Bereich der formalen Logik. Wir werden nur die wahrheitsdefinierte, klassische, zweiwertige Aussagenlogik betrachten (d.h., es wird vorausgesetzt, dass jede 2Principium exclusii tertii sive medii inter duo contradictoria. 3Das Parallelenaxiom ist ein umstrittenes Axiom der Euklidischen Geometrie, mit einer langen Geschichte hinter sich. Es lohnt sich, etwas darüber zu lesen. Aussagenlogik (für Anwender) 7 Aussage entweder wahr oder falsch ist). (ii) Es gibt natürlich Sätze, die in einer bestimmten Situation wahr, in einer anderen falsch sein können, wie z. B. Es zieht jetzt hier”. Mögliche Mehrdeutigkeiten las” sen sich aber durch geeignete Zusatzangaben (wann und wo genau) ausschliessen. Es steht weiterhin eine starke Mehrdeutigkeit zwischen konkreten Aussagen und ihren Bedeutungen, wie es beispielsweise hier der Fall ist: Ich bin verletzt, deswegen kann ich nicht mitspielen. Weil ich verletzt bin, kann ich nicht mitspielen. Dies wollen wir vermeiden, indem wir Aussagenvariablen für die Aussagen und bestimmte Symbole für die Junktoren nutzen. Für die Aussagen schreiben wir p, q, r, s, . . . An dem Gehalt von p sind wir nicht interessiert, sondern an den möglichen Wahrheitswerte von p, welche wir mit w (wahr) oder f (falsch) bezeichen. Für die Negation (oder Verneinung) einer Aussage p, die wir ¬p bezeichnen, bekommen wir die folgenden Wahrheitswerte: p ¬p w f f w Die Tabelle, die vorliegt, nennt man die Wahrheitstabelle der Verneinung. Genauso können wir für weitere Junktoren zwischen zwei Aussagen p und q die entsprechende Wahrheitstabelle einsetzen. Erstens betrachten wir die Konjunktion (oder Und-Verknüpfung) p ∧ q; Sie ist genau dann wahr, wenn beide Teilaussagen wahr sind, also sonst falsch: p w w f f q p∧q w w f f w f f f Die Disjunktion p∨q ist die einschließende Oder-Verknüpfung: Sie ist wahr sobald mindestens eine der Teilaussagen wahr ist, also falsch, wenn beide Teilaussagen falsch sind: 8 Abschnitt 1 p w w f f q p∨q w w f w w w f f Eine Variante davon ist die ausschließende Oder-Verknüpfung (p ⊻ q), inder eine und nur eine4 der Teilaussagen wahr ist (auch (p ∧ ¬q) ∨ (¬p ∧ q)): p w w f f q p⊻q w f f w w w f f Die Implikation zweier Aussagen p ⇒ q ist der wichtigste Junktor der Mathematik. Sie kann in vielfacher Form ausgedrückt werden: Wenn p wahr ist, dann ist auch q wahr; q, falls p; unter der Bedingung p gilt q; p ist eine hinreichende Bedingung für q; q ist eine notwendige Bedingung für p: p w w f f q p⇒q w w f f w w f w Die Ausage p heißt Voraussetzung, die Aussage q heißt Konklusion. Der wichtige Fall, in dem die zwei Implikationen p ⇒ q und q ⇒ p zugleich gelten, ist bemerkenswert: Man spricht dann über Äquivalenz von p und q, und schreibt p ⇔ q: p w w f f q p⇔q w w f f w f f w Es gibt Aussagen, deren Wahrheitswerte immer wahr sind. Sie heißen tautologische oder allgemeingültige Aussagen, oder auch Tautologien (tautos = aus sich 4Solche Unterscheidungen sind manchmal besonders nützlich. Hierzu könnte man den alten Witz erwähnen: Ein Mathematiker kommt nach Hause, schenkt seiner Frau einen großen Strauß Rosen und sagt: Ich liebe Dich!”. Sie nimmt die Rosen, haut sie ihm um die Ohren, gibt ihm einen Tritt und wirft ihn aus ” der Wohnung. Was hat er falsch gemacht? Er hätte sagen müssen: Ich liebe Dich und nur Dich”. ” Aussagenlogik (für Anwender) 9 heraus). Axiome sind immer Tautologien. Als Beispiele betrachten wir die drei Axiome von Aristoteles. Die Wahrheitstabelle des Indentitätsprinzips lautet p p⇒p w w f w Das Prinzip vom ausgeschlossenen Widerspruch besitzt die Wahrheitstabelle p ¬p p ∧ ¬p ¬(p ∧ ¬p) w f f w f w f w Und die Wahrheitstabelle des Prinzips vom ausgeschlossenen Drittel ist p ¬p p ∨ ¬p w f w f w w Zum Schluss führen wir das Gegenstück von Tautologien ein: Wenn der Gesamtwahrheitswert für jede mögliche Bewertung immer falsch ist, heißen solche Aussagen kontradiktorisch (oder unerfüllbar). Speziell ist jede Negation einer Tautologie kontradiktorisch. Aussagen, die nicht kontradiktorisch sind, müssen bei mindestens einer Bewertung den Wahrheitswert wahr ( w”) haben; wir nennen sie daher ” erfüllbare Aussagen. Folgendes ist ein Beispiel einer kontradiktorischen Aussage: p w w f f q ¬p p ⇒ q (p ⇒ q) ⇒ p ((p ⇒ q) ⇒ p) ⇔ ¬p w f w w f f f f w f w w w f f f w w f f Zum Schluss wird von Quantoren die Rede sein. Betrachten wir die Aussagen Lichtalben sind schöner als die Sonne5” ” und (nach dem Vorkurs Mathematik WS 2009/10 von Herr Prof. Dr. Brenner) Ich fresse einen Besen”, ” und gucken uns die innere Struktur genauer an. Mit der ersten Aussage kann man meinen, dass Lichtalben im Normalfall” ” oder fast immer” schöner als die Sonne sind, oder aber im strengeren Sinn, dass ” wirklich alle Lichtalben schöner als die Sonne sind. 5Die von Arnulf Krause angepasste Übersetzung der klassischen Beschreibung von Lichtalben heißt Lichtalben sind schöner als die Sonne von Angesicht. Vgl. Gylfaginning, XVII. In Die Edda des Snorri ” Sturluson”, Ausw., Übers. u. Komm. Arnulf Krause. Reclam Verlag, 1997. 10 Abschnitt 1 In der Mathematik interessiert man sich für Aussagen, die ohne Ausnahmen gelten (wobei man allerdings in einer mathematischen Aussage die Ausnahmen auch explizit machen kann), so dass wir die Aussage im strengen Sinn verstehen wollen. Es handelt sich um eine sogenannte Allaussage. In ihr kommen zwei Attribute vor, die man Prädikate nennt: - ein Lichtalb zu sein, und - schöner als die Sonne zu sein. Ein Prädikat P ist eine Eigenschaft, was einem Subjekt zukommen oder nicht zukommen kann; Es ist für sich genommen keine Aussage, aber daraus kann man grundsätzlich auf zwei verschiedene Arten eine Aussage machen: (a) durch Einsetzen: Man bildet für ein konkretes Objekt x die Aussage P(x) die bedeutet, dass das Objekt x die Eigenschaft P besitzt, was wahr sein kann (oder nicht), (b) durch Quantifizierung: Man bildet die Aussage, dass alle Objekte (typischerweise aus einer bestimmten Grundmenge) die Eigenschaft P haben, was wiederum wahr oder falsch sein kann. Das drückt man durch ∀xP(x) aus. Das Symbol ∀ ist eine abkürzende Schreibweise für für alle”. Es wird ” Allquantor genannt. Die obige Aussage über Lichtalben kann man als ∀x(L(x) ⇒ S(x)) schreiben. Das bedeutet, dass für alle Objekte ohne weitere Einschränkung gilt: wenn es sich um einen Lichtalb handelt (wenn also L zutrifft), dann ist er auch schöner als die Sonne (trifft dann S zu). Für jedes x steht in der großen Klammer eine Aussage in der Form einer Implikation, die eben besagt, dass wenn der Vordersatz wahr ist, dann auch der Nachsatz wahr sein muss. Die zweite Beispielaussage, Ich fresse einen Besen”, kann bedeuten, dass ich ” genau einen Besen fresse oder aber mindestens einen Besen. Die Wortbedeutung des unbestimmten Artikels ein” ist nicht eindeutig (in einer Aussage wie ein ” ” Land braucht Friede” bedeutet eins” sogar alle”!) In der Mathematik bedeutet es ” ” fast immer mindestens einen”. Die Besenaussage kann man also durch Quantifi” zierung paraphrasieren als Es gibt einen Besen, den ich fresse. Mit Hilfe von Aussagenvariablen und Quantoren ist diese als ∃x(B(x) ∧ F(x)), genauso als ∃x(F(x) ∧ B(x)) Aussagenlogik (für Anwender) 11 verdolmetscht, wobei B(x) bedeutet, dass das Objekt x ein Besen ist und wobei F(x) bedeutet, dass ich dieses x fresse. Das Zeichen ∃ wird es gibt” oder es ” ” existiert” gesprochen und der Existenzquantor (oder Existenzoperator) genannt. Damit ist natürlich es existiert mindestens einen” gemeint6. ” Der Allquantor und der Existenzquantor sind über die Negation eng miteinander verknüpft und lassen sich gegenseitig ersetzen: ¬(∀xP(x)) ist gleichbedeutend mit ∃x(¬P(x)) und ¬(∃xP(x)) ist gleichbedeutend mit ∀x(¬P(x)) und ∀xP(x) ist gleichbedeutend mit ¬(∃x(¬P(x))) und ∃xP(x) ist gleichbedeutend mit ¬(∀x(¬P(x))). Neben einstelligen Prädikaten wie P(x) gibt es auch mehrstellige Prädikate der Form P(x, y), oder Q(x, y, z), etc., die eine Beziehung zwischen mehreren Objekten ausdrücken, wie z.B. ist ver” wandt mit”, ist größer als”, sind Eltern von” usw. Entsprechend kann dann über ” ” die verschiedenen Variablen quantifiziert werden, d.h. man hat Ausdrücke der Form ∀x(∃yP(x, y)), ∃x(∀yP(x, y)), ∀x(∃y(∀zQ(x, y, z))) usw. Dabei darf man aber nur Variablennamen (also Buchstaben x, y, z, . . .) verwenden, die im gegenwärtigen Kontext nicht schon anderweitig verwendet sind. Eine Aussage wie ∀x(∀xP(x, x)) ergibt keinen Sinn. Auf jede Variable darf sich maximal nur ein Quantor beziehen. Zu beachten sind auch folgende Regeln: - Statt ∀x∀y∀zQ(x, y, z) schreibt man manchmal auch ∀xyzQ(x, y, z). - Die Variablenbezeichnung in einer quantifizierten Aussage ist grundsätzlich unwichtig, d.h. es ist egal, ob man ∀α P(α ) oder ∀β P(β ) schreibt. Die Logik, die sich mit quantifizierten Aussagen auseinandersetzt, heißt Prädikatenlogik oder Quantorenlogik. Wir werden sie nicht systematisch entwickeln, da sie in der Mathematik als Mengentheorie auftritt. Statt P(x), dass also ein Prädikat einem Objekt zukommt, schreiben wir x ∈ P, wobei dann P die Menge aller Objekte bezeichnet, die diese Eigenschaft haben. Mehrstellige Prädikate treten in der Mathematik als Relationen auf. Die Sprache der Mathematik wird in der Sprache der Mengen formuliert. In Abschnitt 3 werden wir diese ganz elementar vorstellen. 6Wird es existiert genau einen” gemeint, so schreibt man aus praktischen Gründen in der Mathematik ” oft ∃! ABSCHNITT 2 Beweismethoden. Das Induktionsprinzip Wir bezeichnen mit N Z Q R die Menge der natürlichen Zahlen (einschließlich 0), die Menge der ganzen Zahlen, die Menge der rationalen Zahlen, die Menge der reellen Zahlen. Wir gehen davon aus, dass der Leser auf der Schule gelernt hat, in diesen Zahlbereichen zu rechnen, und dass er die Zeichen < ( kleiner“), ≤ ( kleiner oder gleich“), ” ” > ( größer“), ≥ ( größer oder gleich“) kennt. ” ” Ein kluger Kopf hat festgestellt: - Wenn man die Zahl 1 quadriert, bekommt man wieder 1. Wenn man die Zahl 3 quadriert, bekommt man die 9. Wenn man die Zahl 5 quadriert, bekommt man die 25. Wenn man die Zahl 7 quadriert, bekommt man die 49. So viel kann man stets sagen: Wenn man die ersten vier ungeraden Zahlen quadriert, bekommt man wieder eine ungerade Zahl. Dieser Feststellung liegt die Frage nahe: Ist dies immer so? D.h., gilt immer, dass wenn man eine ungerade Zahl quadriert, bekommt man wieder eine ungerade? Leicht umformuliert: Ist das Quadrat einer (beliebigen) ungeraden Zahl, sagen wir n, wieder ungerade? Wenn die Menge N der natürlichen Zahlen endlich wäre, und damit die Menge aller ungeraden natürlichen Zahlen, könnte man die Liste ausschöpfen und für jeden einzelnen Fall überprüfen, ob es tatsächlich stimmte. Es ist aber nicht der Fall. Wie kann man dann nachprüfen, dass die obige Aussage richtig, also allgemeingültig, ist? Man muss nach einem Beweis dafür suchen. Ein Beweis ist in der Mathematik, die als fehlerfrei anerkannte Herleitung der Richtigkeit oder auch Unrichtichkeit einer Aussage aus einer Menge von Axiomen, die als wahr vorausgesetzt werden, und anderen Aussagen, die bereits bewiesen wurden. Ein Beweis kann entweder direkt oder indirekt geführt werden. Bei einem direkten Beweis wird die Behauptung durch Anwendung von bereits bewiesenen Aussagen und durch logische Folgerungen nachgeprüft, also, bewiesen. 14 Abschnitt 2 Bei einem indirekten Beweis (auch Widerspruchsbeweis genannt) zeigt man, dass ein Widerspruch entstände, wenn die zu beweisende Behauptung falsch wäre. Dazu nimmt man an, dass die Behauptung falsch ist, und wendet die gleiche Methoden wie beim direkten Beweis an. Wenn daraus einen Widerspruch entsteht, dann kann die Behauptung nicht falsch sein, muss die also richtig sein. Beispiel. Die Behauptung lautet: Das Quadrat einer ungeraden natürlichen Zahl n ist ungerade. Direkter Beweis. Es sei n eine ungerade natürliche Zahl. Dann lässt sich n darstellen als n = 2k + 1, wobei k eine weitere natürliche Zahl ist. Daraus folgt: n2 = n · n = (2k + 1) · (2k + 1) = 4k2 + 4k + 1 = 2 · (2k2 + 2k) + 1. Aus dieser Darstellung folgt unmittelbar, dass n2 der Gestalt 2e k + 1, mit e k ∈ N, ist, 2 also, dass n eine ungerade natürliche Zahl ist. Indirekter Beweis. Angenommen, es existierte eine ungerade Zahl m, sagen wir m = 2m′ + 1 mit m′ ∈ N so dass m2 gerade wäre. Wir haben m2 = (2m′ + 1)2 = 4(m′ )2 + 4m′ + 1 = 4((m′ )2 + m′ ) + 1 Einerseits setzen wir voraus, dass m2 gerade ist. Andererseits besagen die obigen Gleichungen, dass m2 die Form 2(2(m′ )2 + 2m′ ) + 1 hat, d.h., dass m2 eine ungerade Zahl ist. Hier entsteht der Widerspruch: Eine natürliche Zahl kann entweder gerade oder ungerade sein, aber nicht beides zugleich. Wir geben ein weiteres Beispiel eines Widerspruchsbeweises an. Es handelt sich um den berühmten Beweis über die Existenz unendlich vieler Primzahlen1 von Euklid: Beispiel (Indirekter Beweis). Die Behauptung lautet: Es gibt unendlich viele Primzahlen. Beweis. Angenommen, es gäbe nur endlich viele Primzahlen p1 , . . . , pn . Es sei m := p1 · . . . · pn . Wir machen hierzu eine einfache Fallunterscheidung: (1) Ist m + 1 eine Primzahl, dann ist sie nach Konstruktion größer als p1 , . . . , pn und somit eine weitere Primzahl, die keine von den vorgegebenen ist, im Widerspruch zur Annahme. (2) Anderenfalls, sei q ein Primteiler von m + 1. Wäre q eine der Primzahlen p1 , . . . , pn , so würde q sowohl m als auch m + 1 teilen, d.h., q würde die Differenz (m + 1) − m = 1 teilen, was absurd ist. Also ist q eine weitere Primzahl, was wiederum der Annahme widerspricht. Mehr Fälle als (1) und (2) gibt es nicht. Die Annahme, es gäbe nur endlich viele Primzahlen, ist also falsch. 1Eine Primzahl ist eine von 0 und 1 verschiedene natürliche Zahl, die nur durch 1 und sich selbst teilbar ist. Beweismethoden. Das Induktionsprinzip 15 Dieser Beweis von Euklid ist reizvoll: Es ist ein Beispiel von einem nichtkonstruktiven Beweis, da er keine Formel für eine beliebig große Primzahl angibt, sondern nur zeigt, dass es sie geben muss. Aber dort wurde auch ein Beweis durch Fallunterscheidung durchgeführt. Das ist ein weiteres Beweisprinzip. Bei der Fallunterscheidung möchte man eine Aussage q beweisen, und man beweist sie dann einerseits (Fall 1) unter der zusätzlichen Annahme p und andererseits (Fall 2) unter der zusätzlichen Annahme ¬p. Dabei muss man zweimal etwas machen, der Vorteil ist aber, dass die zusätzlichen Annahmen zusätzliche Methoden und Techniken erlauben, sodass sich das ursprüngliche Problem möglicherweise vereinfachern lässt. Die entsprechende Wahrheitstabelle der Fallunterscheidung können wir noch erwähnen: p w w f f q ¬p p ⇒ q ¬p ⇒ q (p ⇒ q) ∧ (¬p ⇒ q) ((p ⇒ q) ∧ (¬p ⇒ q)) ⇒ q w f w w w w f f f w f w w w w w w w f w w f f w Es handelt sich selbsverständlich um eine Tautologie. Ein weiteres Prinzip, das oft verwendet wird, ist die Kontraposition: In einem Beweis nimmt man einen pragmatischen Standpunkt ein, und manchmal ist es einfacher, von ¬q nach ¬p zu gelangen als von p nach q. Beide Methoden sind tatsächlich äquivalent: p w w f f q ¬q ¬p p ⇒ q ¬q ⇒ ¬p (p ⇒ q) ⇔ (¬q ⇒ ¬p) w f f w w w f w f f f w w f w w w w f w w w w w Man unterscheidet auch zwischen konstruktiven und nicht konstruktiven Beweisen: Manchmal kann man nur die Existenz eines mathematischen Objekts zeigen, ohne das Objekt selbst anzudeuten. In diesem Fall liegt ein nicht-konstruktiver (oder rein-existenzieller) Beweis vor. Manchmal kann man aber das Objekt, dessen Existenz bewiesen wurde, präzise beschreiben, oft sogar mittels eines Algorithmus, der das Objekt berechnet: Hier liegt ein konstruktiver Beweis vor. Beispiel. Die Behauptung lautet: Die reelle Funktion f (x) = 2x − 1 besitzt eine Nullstelle x0 ∈ R mit 0 ≤ x0 ≤ 1. Konstruktiver Beweis. Sei x0 = 12 . Dann gilt 1 f (x0 ) = 2 · x0 − 1 = 2 · − 1 = 1 − 1 = 0. 2 16 Abschnitt 2 Das heißt, x0 = 12 ist eine Nullstelle von f . Offenbar ist 0 ≤ Behauptung bewiesen. 1 2 ≤ 1. Dann ist die Die Nullstelle ist sogar mit x0 = 21 angegeben. Hier sieht man, dass wir irgendwie geahnt haben, was die Lösung war. Mögliche Lösungen zu erraten ist eine Eigenschaft, die man trainieren kann, aber die, die Mathematik—vor allem am Anfang—schwierig macht. Nicht-konstruktiver Beweis. Die Funktion f ist stetig2. Ferner ist f (0) = −1 < 0 und f (1) = 1 > 0, und deswegen sind wir in der Lage, den Zwischenwertsatz anzuwenden, nachdem die Behauptung folgt. Über den Wert der Nullstelle ist jedoch nichts bekannt! Eine weitere wichtige, etwas komplizierte Methode Beweise zu führen ist die vollständige Induktion. Sei dazu A eine Aussage über natürliche Zahlen. (IA) Induktionsanfang: (Man zeigt:) A gilt für die natürliche Zahl n0 . (IV) Induktionsvoraussetzung (Man nimmt an:) A gilt für eine natürliche Zahl n ≥ n0 . (IS) Induktionsschritt: (Man zeigt:) Aus der I.V. folgt, dass A auch für n + 1 gilt. (IS’) Induktionsschluss: (Es folgt:) Daher gilt A für alle natürlichen Zahlen ≥ n0 . Beispiel. Für alle n ∈ N gilt 0+1+2+3+4+...+n = n(n + 1) . 2 Wir beweisen dies durch vollständige Induktion: (IA) Die Aussage gilt für die natürliche Zahl n0 = 0; denn es ist offensichtlich 0(0+1) 0= 2 . (IV) Die Aussage gelte für die natürliche Zahl n ≥ n0 = 0. (IS) Es ist n(n + 1) +n+1 0 + 1 + . . . + n + (n + 1) = (0 + 1 + . . . + n) + (n + 1) = 2 n(n + 1) + 2(n + 1) (n + 1)(n + 2) = = . 2 2 Hier haben wir in der zweiten Gleichung die I.V. benutzt. (IS’) Die Aussage gilt für alle natürlichen Zahlen n. Das Induktionsschema beschreibt eine fundamentale Eigenschaft der natürlichen Zahlen, die man letztlich nicht aus einfacheren Eigenschaften der natürlichen 2Das Konzept stetige Funktion werden wir in Abschnitt 6 betrachten. Ein wichtiger Satz in dieser Theorie ist der Zwischenwertsatz: Sei I ein Intervall, sei f : R → I eione stetige Funktion auf I mit a, b ∈ I und a ≤ b. Für ein c ∈ R gelte f (a) ≤ c ≤ f (b) (oder f (b) ≤ c ≤ f (a)). Dann existiert ein ξ mit a ≤ ξ ≤ b mit f (ξ ) = c. Beweismethoden. Das Induktionsprinzip 17 Zahlen herleiten kann. Es präzisiert das und so weiter“-Argument. Das Schema ” kann hinsichtlich der Bezeichnungen variiert werden. Verwandt mit dem Prinzip der vollständigen Induktion sind rekursive Definitionen. Hier werden wir nur einige (sehr nützliche) Beispiele dazu betrachten. Wir haben bereits Summen 1+...+n unbefriediegend verwendet, weil die Bezeichnung · · ·“ a priori keine präzise No” tation ist. Als erstes Beispiel von rekursiver Definition führen wir das Summenzeichen ∑ ein: 0 ∑ ai := a0, i=0 n n−1 ∑ ai := ∑ ai + an i=0 i=0 bei n ≥ 1. Etwas ungenau schreiben wir dann gelegentlich auch wieder, für m ≤ n n ∑ ai = am + . . . + an . i=m Aus praktischen Gründen definieren wir ∑ni=m ai := 0 für n < m, und wir sprechen dann über die leere Summe. Wir geben eine naheliegende Verallgemeinerung des Summenzeichens an: Für m, n ∈ Z, m ≤ n, sei n n−m ∑ ak := k=m ∑ ak+m . k=0 (Mit dieser Definition lässt sich die Summation beliebig verschieben.) Die folgenden, leicht beweisbaren, Rechenregeln werden wir ständig verwenden: n ∑ k=m n ak + n ∑ bk = k=m n ∑ (ak + bk ), c k=m ∑ n ak = k=m ∑ cak . k=m Analog führt man das Produktzeichen ∏ ein: 0 ∏ ai := a0, i=0 n n−1 ∏ ai := ∏ ai · an i=0 i=0 bei n ≥ 1. Ein weiteres Beispiel einer rekursiven Definition sind die Potenzen einer reellen Zahl a mit Exponenten n ∈ N: a0 := 1, an := an−1 · a. 18 Abschnitt 2 Um das Induktionsprinzip zu üben, beweisen wir die folgende nützliche Aussage: Satz 2.1 (Geometriche Summenformel). Es ist n ∑ ak = k=0 für alle a ∈ R, a 6= 1, und alle n ∈ N. 1 − an+1 1−a Beweis. Die Aussage ist in der Tat für n0 = 0 richtig. Sie gelte für ein n ≥ 0. Dann ist sie auch für n + 1 richtig: n+1 n ∑ ak = ∑ ak + an+1 = k=0 k=0 1 − an+1 + an+1 1−a 1 − an+1 + an+1(1 − a) 1 − an+2 = . 1−a 1−a Die Aussage gilt somit für alle natürlichen Zahlen. = Sei n ≥ 1 eine natürliche Zahl. Dann definiert man die n-Fakultät n n! := ∏ i i=1 (= 1 · 2 · 3 · · · n). Wir ergänzen die Definition von n! noch durch 0! := 1. Eng mit n! verwandt sind die Binomialkoeffizienten: Für alle n, k ∈ N definieren wir n! n := . k!(n − k)! k Das Symbol nk wird n über k“ gesprochen. Für das Rechnen mit Binomialkoef” fizienten wird häufig die folgende Aussage herangezogen. Satz 2.2. Für alle k, n ∈ N ist n n n+1 . + = k−1 k k Beweis. Für k ≥ n und k = 0 folgt die Formel direkt. Für 0 < k < n gilt: n! n n n! = + + k−1 k k!(n − k)! (k − 1)!(n − k + 1)! n!(n − k + 1) + n!(k) n!((n − k + 1) + k) = = k!(n + 1 − k)! k!(n + 1 − k)! (n + 1)! n+1 = . = k!(n + 1 − k)! k Die Binomialkoeffizienten haben ihren Namen wegen Beweismethoden. Das Induktionsprinzip 19 Satz 2.3. Für alle a, b ∈ R und alle n ∈ N gilt die binomische Formel“: ” n n (a + b)n = ∑ an−k bk . k k=0 Beweis. Wir verwenden das Induktionsprinzip. Offenbar ist nur beim Induktionsschritt etwas zu beweisen. Es ist n n n−k k n+1 n a b (a + b) = (a + b)(a + b) = (a + b) ∑ k k=0 n n n n−k k+1 n n+1−k k a b a b +∑ =∑ k=0 k k=0 k n n n+1−k k n−1 n n−k k+1 n+1 a b + bn+1 a b +∑ =a +∑ k k k=0 k=1 n n n n n+1−k k n+1 an+1−k bk + bn+1 a b +∑ =a +∑ k=1 k − 1 k=1 k n n n n+1 =a +∑ + an+1−k bk + bn+1 k k−1 k=1 n n + 1 n+1−k k a b + bn+1 = an+1 + ∑ k k=1 n+1 n + 1 n+1−k k =∑ a b. k k=0 Dabei haben wir den Summationsindex verschoben und 2.2 benutzt. Die Binomialkoeffizienten lassen sich dank 2.2 besonders einfach mit Hilfe des Pascalschen Dreiecks ermitteln: 1 1 1 1 1 2 3 1 3 1 1 4 6 4 1 1 5 10 10 5 1 ... Die n-te Zeile des Schemas (n = 0, 1, 2, . . . ) enthält der Reihe nach die Binomialkoeffizienten nk (k = 0, . . . , n). Bei 1 ≤ k ≤ n − 1 erhält man sie gemäß 2.2 durch Addition der beiden unmittelbar schräg darüber stehenden. ABSCHNITT 3 Mengen und Abbildungen Ein wichtiger Bestandteil der modernen mathematischen Sprache sind Mengen, Abbildungen und die mit ihnen verbundenen Operationen. Die bereits in Abschnitt 2 benutzten Symbole N, Z, Q, R bezeichnen nicht einzelne Zahlen, sondern gewisse Mengen von Zahlen. Wir setzen voraus, dass der Leser mit dem Begriff Menge“ vertraut ist. Eine ” präzise Definition des Begriffs Menge“ können wir nicht geben. Dies wird aber ” für unsere Zwecke zu keinerlei Schwierigkeiten führen. Der Schöpfer der Mengenlehre, Georg Cantor, hat folgendermaßen beschrieben, was er unter einer Menge versteht: Eine Menge M ist die Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens (welche die Elemente von M genannt werden) zu einem Ganzen. Mengentheoretische Symbole, die uns vielleicht schon vertraut sind, werden zunächst erklärt: In N⊂Z⊂Q⊂R N$Z$Q$R Z 6⊂ N 3∈Z −5 ∈ /N bedeutet ⊂ Teilmenge von“, in ” bedeutet $ echte Teilmenge von“, in ” bedeutet 6⊂ nicht Teilmenge von“, in ” bedeutet ∈ Element von“ und in ” bedeutet ∈ / nicht Element von“. ” Es gibt eine Menge, die keine Elemente enthält: Sie heißt die leere Menge, und wird mit 0/ bezeichnet. Häufig werden wir Mengen M dadurch definieren, dass wir alle Elemente einer gegebenen Menge, die eine gewisse Eigenschaft besitzen, in M zusammenfassen. Dabei ist der Definitionsdoppelpunkt nützlich: Etwa M:={n ∈ N : n ungerade}. {. . . } ist das Mengenklammernpaar, und wir definieren (durch das Symbol :=), dass M die Menge aller ungeraden natürlichen Zahlen bezeichnet. Unpräzise wird manchmal M := {1, 3, 5, 7, . . .} geschrieben. Wir können Mengen in aufzählender Form beschreiben, etwa M = {1, 2, 3, 4, 5}, 22 Abschnitt 3 oder durch Angabe der Eigenschaften, die die Elemente der Menge charakterisieren: M = {n ∈ N : 1 ≤ n ≤ 5}. Eine Menge N heißt Teilmenge der Menge M, symbolisch N ⊂ M, wenn jedes Element von N auch Element von M ist. Die leere Menge 0/ ist Teilmenge jeder Menge. Statt N ⊂ M schreiben wir auch M ⊃ N und nennen M eine Obermenge von N, oder N umfassende Menge. Mengen A, B stimmen überein, wenn sie die gleichen Elemente enthalten —die Beschreibung von A und B spielt dabei keine Rolle. Es gilt offensichtlich A = B ⇐⇒ A ⊂ B und B ⊂ A. Der Durchschnitt M1 ∩ M2 von Mengen M1 , M2 ist gegeben durch M1 ∩ M2 = {x : x ∈ M1 und x ∈ M2 }. Ihre Vereinigung M1 ∪ M2 ist M1 ∪ M2 = {x : x ∈ M1 oder x ∈ M2 }. (Man beachte, dass dabei oder“ im nicht ausschließenden Sinn gebraucht wird; ” oder“ bedeutet nicht entweder – oder“.) ” ” Beispiele. {1, 2, 3} ∪ {2, 3, 4, 5} = {1, 2, 3, 4, 5}, {1, 2, 3} ∩ {2, 3, 4, 5} = {2, 3}. Ferner können wir das Komplement von M1 in M2 bilden: M2 \ M1 = {x ∈ M2 : x 6∈ M1 }. Rechenregeln für die genannten Operationen mit Mengen werden in den Übungsaufgaben formuliert. Eine wichtige Kennzahl von Mengen M ist die Anzahl |M| ihrer Elemente. Wenn M endlich ist und n Elemente hat, setzen wir |M| = n. Bei unendlichen Mengen schreiben wir |M| = ∞. Eine weitere wichtige Konstruktion ist das kartesische Produkt zweier Mengen: M1 × M2 = {(x1 , x2 ) : x1 ∈ M1 , x2 ∈ M2 }. Dabei bezeichnet (x1 , x2 ) das Paar mit erster Komponente x1 und zweiter Komponente x2 . Wenn x1 6= x2 , so ist (x1 , x2 ) 6= (x2 , x1) Mengen und Abbildungen 23 (hingegen {x1 , x2 } = {x2 , x1}). Statt M × M schreibt man auch M 2 . So ist uns geläufig, dass jedem Punkt der Ebene genau ein Element von R2 entspricht. Durchschnitt, Vereinigung und kartesisches Produkt lassen sich allgemein für endlich viele Mengen so definieren: M1 ∩ . . . ∩ Mn = M1 ∪ . . . ∪ Mn = n \ Mi = i=1 n [ i=1 \ Mi := {x : x ∈ Mi für alle i ∈ {1, . . . , n}} [ Mi := {x : x ∈ Mi für ein i ∈ {1, . . . , n}} i∈{1,...,n} Mi = i∈{1,...,n} M1 × . . . × Mn := {(x1, . . . , xn ) : xi ∈ Mi für 1 ≤ i ≤ n}, wobei die Menge der Indizes {1, . . . , n} Indexmenge genannt wird. Die ersten zwei Mengen lassen sich für eine beliebige Indexmenge I (nicht notwendigerweise endlich) leicht definieren. Wir werden dann \ i∈I Mi und [ Mi . i∈I schreiben. Wenn man das kartesische Produkt von M n-mal mit sich selber nimmt, dann schreibt man M n . Beim Begriff Abbildung“ geht es uns ebenso wie beim Begriff Menge“. Wir ” ” können nur eine vage, für unsere Zwecke aber hinreichend präzise Beschreibung angeben. Eine Abbildung f einer Menge A in eine Menge B ist eine Vorschrift, die jedem Element von A genau ein Element von B zuordnet. Wir bezeichnen dies kurz durch f : A → B. Man nennt A den Definitionsbereich, B den Wertebereich von f . Das x ∈ A zugeordnete Element aus B wird mit f (x) bezeichnet und heißt Bild von x unter f oder auch Wert von f an der Stelle x. Zwei Abbildungen f : A → B, g : C → D sind gleich, wenn A = C, B = D und f (x) = g(x) für alle x ∈ A gilt. Abbildungen sind aus dem Schulunterricht vor allem als Funktionen bekannt, z.B. f : R → R, f (x) = x2 für alle x ∈ R. Es ist wichtig festzuhalten, dass Abbildungen (laut Definition) eindeutig sind. Beispielsweise wird durch √ f : {x ∈ R : x ≥ 0} → R, f (x) = ± x keine Abbildung definiert. Auf jeder Menge ist die identische Abbildung definiert: idM : M → M, idM (x) = x für alle x ∈ M. 24 Abschnitt 3 Sei f : A → B eine Abbildung. Für eine Teilmenge A′ ⊂ A setzen wir f (A′ ) := { f (x) : x ∈ A′ }; f (A′ ) heißt das Bild von A′ unter f . Für f (A) schreiben wir auch Bild f . Für B′ ⊂ B sei f −1 (B′ ) := {x ∈ A : f (x) ∈ B′ } das Urbild von B′ unter f . Für y ∈ B setzen wir f −1 ({y}) := {x ∈ A : f (x) = y}. Für das Beispiel f : R → R, f (x) = x2 , ist f ({1, 2, 3}) = {1, 4, 9}, f −1 ({4}) = {2, −2}, f −1 ({1, 4, 9}) = {1, −1, 2, −2, 3, −3}. Es wird oft wichtig sein, dass wir den Definitionsbereich einer Abbildung einschränken. Sei f : A → B eine Abbildung und A′ ⊂ A; dann ist die Abbildung f | A′ : A′ → B gegeben durch ( f | A′ )(x) = f (x) für alle x ∈ A′ . Diese Abbildung heißt Beschränkung von f auf A′ . Wenn wir f auf A′ beschränken, tun wir wirklich nichts anderes, als die f definierende Zuordnung nur auf Elemente von A′ anzuwenden. Definition. Sei f : A → B eine Abbildung. (a) f ist injektiv, wenn für x1 , x2 ∈ A mit x1 6= x2 auch f (x1 ) 6= f (x2 ) ist. (b) f ist surjektiv, wenn f (A) = B gilt. (c) f ist bijektiv, wenn f injektiv und surjektiv ist. Wir können dies auch so beschreiben: f ist injektiv ⇐⇒ f ist surjektiv ⇐⇒ f ist bijektiv ⇐⇒ Zu jedem y ∈ B gibt es höchstens eine Lösung der Gleichung f (x) = y. Zu jedem y ∈ B gibt es mindestens eine Lösung der Gleichung f (x) = y. Zu jedem y ∈ B gibt es genau eine Lösung der Gleichung f (x) = y. Wir setzen R+ = {x ∈ R : x ≥ 0} und definieren f1 : R → R, f2 : R+ → R, f 3 : R → R+ , f 4 : R+ → R+ Mengen und Abbildungen 25 sämtlich durch die Vorschrift fi (x) = x2 , i = 1, . . . , 4. Dann ist f1 weder injektiv, noch surjektiv, f2 injektiv, aber nicht surjektiv, f3 nicht injektiv, aber surjektiv, f4 bijektiv. Definition. Seien f : A → B und g : B → C Abbildungen. Die Abbildung g ◦ f : A → C, (g ◦ f )(x) = g( f (x)) heißt Komposition (auch: Hintereinanderschaltung) von f und g. Wenn f , g : R → R durch f (x) = x2 und g(y) = 3 + y gegeben sind, so ist (g ◦ f )(x) = g(x2 ) = 3 + x2 , ( f ◦ g)(x) = f (3 + x) = (3 + x)2 . Wichtige Beispiele von Mengen sind die Zahlenbereiche. Die natürliche Zahlen N := {0, 1, 2, 3 . . .} stehen hierbei am Anfang. Darauf kann man eine Verknüpfung namens Addition definieren, d.h., eine Abbildung von N × N → N definieren, indem jedes Paar natürlicher Zahlen (a, b) in ihre Sume a + b abgebildet wird. Das zeigt zunächst, dass die natürlichen Zahlen abgeschlossen der Addition gegenüber sind, weil a + b wiederum eine natürliche Zahl ist. Diese Addition erfült weitere Eigenschaften, und zwar: (i) Es existiert ein Element e so dass e + a = a + e = a für alle a ∈ N. Wir wissen sogar, wer e in diesem Fall ist: e ist die Null. Man sagt dann, dass die Null das neutrale Element der Addition von natürlichen Zahlen ist. (ii) Seien a, b, c drei natürliche Zahlen. Es gilt (a + b) + c = a + (b + c). D.h., wenn man drei (oder mehr) natürliche Zahlen zu addieren hat, ist es egal, wie man diese gruppiert. Die Addition ist also assoziativ. Das heißt, wir haben eine Menge (nämlich N), worauf wir eine Verknüpfung definiert haben (die übliche Addition +), welche bestimmte Regeln erfüllt (die Existenz eines neutralen Elements und die Assoziativität). Wir betrachten dann das Päarchen (N, +), das diese Eigenschaften hat, und wir sagen, dass N zusammen mit der soeben eingeführten Verknüpfung + ein Monoid bildet. Neben (i) und (ii) können wir andere Gesetze an (N, +) erkennen, zum Beispiel die wohlbekannte Kommutativität: (iii) Für alle a, b ∈ N gilt: a + b = b + a. Diese durch (i) und (ii) gegebene Monoid-Struktur lässt sich abstrahieren: Ein Paar (M, ∗) wird Monoid genannt, wenn ∗ eine Verknüpfung1 auf die Menge M ist, 1D.h. eine Abbildung ∗ : M × M → M. 26 Abschnitt 3 welche ein neutrales Element besitzt und assoziativ ist. Die Abgeschlossenheit von ∗ muss natürlich auch gelten. Gilt für ∗ das kommutative Gesetz (iii), dann heißt das Monoid kommutativ. Andere Strukturen lassen sich auch auf eine Menge M erklären. Zum Beispiel können wir zu (i) und (ii) noch eine dritte Eigenschaft verlangen: (iv) Zu jedem Element a ∈ M existiert ein Element b ∈ M so dass a + b = e. Das zu a so definierte Element b := −a heißt das Inverse von a (bezüglich +). Diese Eigenschaft ist nicht mehr an den natürlichen Zahlen mit der üblichen Addition zu erkennen: Zu 5 existiert keine natürliche Zahl x so dass 5 + x = 0. Das ist bloß der Fall für die ganze Zahlen zusammen mit der Addition, d.h. (Z, +), wobei Z = {. . . − 4, −3, −2, −1, 0, 1, 2, 3, 4, . . .} bezeichnet. Da die Eigenschaften (i), (ii) und (iv) erfüllt sind, sagt man, dass (Z, +) eine Gruppe ist. Da (iii) auch gilt, ist die Gruppe (Z, +) kommutativ oder abelsch2 gennant. Hier muss man schon vorsichtig vorgehen: Wenn man die abelsche Gruppe (Z, +) betrachtet, ist im Prinzip die Rechnung 67 − 9 nicht definiert, denn wir dürfen nur +” nehmen. Die Bedeutung von 67 − 9 ist eigentlich ” 67 + (−9), wobei −9 das Inverse von 9 bezeichnet; D.h., wir addieren 67 und −9 auf, und nach der Definition von + bekommen wir 58 als Ergebnis. Wir können auch die Multiplikation betrachten: Genauso sind (N, ·) und (Z, ·) kommutative Monoide, wobei diesmal die 1 das neutrale Element ist. Betrachtet man die Menge der rationalen Zahlen o nm : m ∈ Z, n ∈ N \ {0} , Q := n kann man sich sofort überlegen, dass z.B. (Q \ {0}, ·) eine abelsche Gruppe ist. Insbesondere hat jedes von 0 verschiedenen Element a in Q ein (multiplikatives) Inverses, das mit a−1 oder 1a bezeichnet wird. Dass die Null ausgeschlossen werden muss sollte uns nicht überraschen: Immer wieder haben wir gehört durch 0 darf ” man nicht teilen”. Soweit haben wir die Addition und die Multiplikation als Verknüpfungen auf verschiedene Mengen gesehen, allerdings immer im Einzelnen betrachtet. Würde dann nicht so eine Struktur wie (Z, +, ·) existieren? In der Tat! Wir sehen sofort: Bezüglich der Addition erfüllt Z die Axiome (i)–(iv) von abelscher Gruppe; und bezüglich der Multiplikation sind (i) bis (iii) erfüllt; mit anderen Worten, (Z, +) ist 2Nach dem norwegischen Mathematiker N.H. Abel (1802–1829). Mengen und Abbildungen 27 eine abelsche Gruppe und (Z, ·) ein kommutatives Monoid. Das Einzige, das uns fehlt, ist +” mit ·” zusammenzubringen (d.h. es fehlt uns noch eine Regel, die ” ” besagt, wie die beiden Verknüpfungen miteinander verträglich sind): Das tut das sogenannte Distributivgesetz: (v) Für alle x, y, z ∈ Z gilt: x · (y + z) = x · y + x · z. Man sagt, dass (Z, +, ·) mit den entsprechenden Axiomen (i)–(v) ein kommutativer3 Ring, oder für uns einfach nur ein Ring, ist. Es ist zu beachten, dass in Z nicht jedes Element ein Inverses bezüglich der Multiplikation hat. Zum Beispiel: Die 5 hat kein Inverses bezüglich ·”: Was ist ” die ganze Zahl x so dass 5 · x = 1 gilt? Unsere natürliche Antwort ist x = 51 , aber 1 5 ist keine ganze Zahl! Die einzigen ganzen Zahlen, die so ein inverses Element bezüglich der Multiplikation4 besitzen, sind 1 und −1. Es gibt deshalb so wenig, weil (Z, ·) nur ein Monoid ist, aber keine Gruppe. Deswegen hat nicht jedes Element ein Inverses (einige schon, nämlich 1 und −1, wie soeben gesagt, aber nicht alle!) Dieses Phänomen tritt nicht mehr für Q oder für R auf: In diesen Zahlenbereichen hat jedes Element, das von der 0 verschieden ist, ein multiplikatives Inverses, weil doch sowohl (Q \ {0}, ·) als auch (R \ {0}, ·) abelsche Gruppen sind. Sie sind Beispiele von Körpern: Definition. Eine Menge K 6= 0/ zusammen mit zwei Verknüpfungen + : K × K → K, die Addition genannt wird, und · : K × K → K, die Multiplikation genannt wird, heißt Körper, wenn: (a) (K, +) eine abelsche Gruppe ist (d.h. erfüllt die Eigenschaften (i) bis (iv) von oben, wobei mit 0K , oder einfach 0, das neutrale Element bezüglich der Addition bezeichnet wird) (b) (K \ {0}, ·) eine abelsche Gruppe ist (d.h. erfüllt die Eigenschaften (i) bis (iv) von oben, wobei mit 1K , oder einfach 1, das neutrale Element bezüglich der Multiplikation bezeichnet wird) (c) das Distributivgesetz (v) gilt. Grob gesprochen, ein Körper K ist ein Ring bei dem zusätzlich alle von 0K verschiedenen Elementen ein multiplikatives Inverses besitzen. Der nächste Abschnitt ist dem Körper der reellen Zahlen (R, +, ·) gewidmet. Wir werden in diesem noch ein weiteres wichtiges Beispiel vom Körper kurz vorstellen, nämlich den Körper C der komplexen Zahlen. Eine komplexe Zahl ist ein Ausdruck der Form √ z = a + bi mit a, b ∈ R und i := −1. 3weil die Multiplikation kommutativ ist. 4Oft auch multiplikatives Inverses genannt, um es zu dem additiven Inversen zu unterscheiden. 28 Abschnitt 3 Dabei heißt a := Re(z) der Realteil von z und b := Im(z) der Imaginärteil von z. Beachten Sie, dass sowohl Re(z) als Im(z) definitionsgemäß reelle Zahlen sind. Die imaginäre Einheit i hat die Eigenschaft, dass i2 = −1 ist. Darüber hinaus stimmen zwei komplexe Zahlen a + bi und c + di genau dann überein, wenn Real- und Imaginärteil übereinstimmen, d.h., wenn a = c und b = d gilt. Die Rechnenoperationen von R lassen sich sofort auf C verallgemeinern: (a + bi) + (c + di) := (a + c) + (b + d)i (a + bi) · (c + di) := ac + (ad + bc)i + bdi2 = (ac − bd) + (ad + bc)i. Eine komplexe Zahl z = a + bi lässt sich einem Punkt (a, b) auf der Ebene R2 zuordnen. Deswegen ist es manchmal von der komplexen Zahlenebene die Rede. Man überprüft leicht, dass C mit den soeben definierten Verknüpfungen einen Körper bildet: Das neutrale Element bezüglich der Addition ist 0C = 0 = 0 + 0i, denn z + 0 = z für alle z ∈ C, und bezüglich der Multiplikation ist 1C = 1 = 1 + 0i, denn z · 1 = z für alle z ∈ C. Das additive Inverse einer komplexen Zahl z = a + bi ist −z = −a + (−b)i = −a − bi, und das multiplikative Inverse einer von 0 = 0 + 0i −b a verschiedenen komplexen Zahl z = a + bi ist a2 +b 2 + a2 +b2 i, denn a −b a2 + b2 −ab + ab + i = 2 + 2 i = 1 + 0i = 1. (a + bi) · 2 a + b2 a2 + b2 a + b2 a + b2 Eine wichtige Operation auf C ist die komplexe Konjugation: Die Zahl a + bi := a − bi wird die zu a + bi komplex konjugierte Zahl genannt. Die reelle Zahl p |a + bi| := a2 + b2 nennt man den Betrag von a + bi. Die wichtigste Eigenschaft bei C ist, dass komplexe Zahlen das Paradebeispiel eines algebraisch abgeschlossenen Körpers sind; das heißt, der folgende Satz gilt: Satz 3.1 (Fundamentalsatz der Algebra). Seien n ∈ N mit n ≥ 1 und komplexe Zahlen ξ0 , ξ1 , . . . , ξn . Jede Gleichung der Form xn + ξn−1 xn−1 + ξn−2 xn−2 + . . . + ξ2 x2 + ξ1 x + ξ0 = 0 besitzt mindestens eine Lösung in C. Denken wir zum Beispiel an die Gleichung x2 + 1 = 0. Sie hat keine reellen Lösungen, doch aber zwei komplexe, nämlich sowohl i als auch −i. Auf einen Beweis des Satzes 3.1 müssen wir (leider) verzichten. ABSCHNITT 4 Angeordnete Körper. Die reellen Zahlen Man betrachtet ein , dessen Seiten der Länge √ 1 sind. Nach dem Satz von Pythagoras ist es klar, dass die Länge der Diagonalen 2 ist. In jener Zeit war eine große Kontroverse, ob diese Zahl rational war. Die Pythagoreer fanden die Lösung, die wir jetzt als Satz formulieren. √ / Q. Satz 4.1. Es gilt: 2 ∈ Beweis. Durch Widerspruch. Angenommen doch, also, angenommen es existierten m ∈ Z und n ∈ N \ {0} so dass √ m 2= . n OBdA1 können wir annehmen, dass der Bruch mn in gekürzter Form ist (d.h. dass m und n keine gemeinsame Teiler in Z außer der Eins haben, oder anders gesagt, dass m und n teilerfremd sind). In der obigen Gleichung kann man quadrieren, und nach einer leichten Umformung folgt m2 = 2n2 . Damit ist m2 gerade, und dann muss m auch gerade sein, d.h., wir dürfen schreiben Einsetzen ergibt m = 2m̃ für ein m̃ ∈ Z. 4m̃2 = 2n2 , oder anders geschrieben, n2 = 2m̃2 . Damit ist n2 gerade, also n muss gerade sein. Wir haben gezeigt: Sowohl m als auch n sind gerade Zahlen, sie haben also 2 als gemeinsamen Teiler. Das √ ist ein Widerspruch zur Tatsache, dass m und n teilerfremd sind. D.h., die Zahl 2 kann nicht rational sein. √ √ √ Ähnliches kann man bei 3, 5, 7 . . . machen. Auch Zahlen wie π fallen nicht innerhalb von Q. Die rationalen Zahlen reichen also nicht, um die Natur zu erklären. Ein neuer Zahlenbereich muss eingefürt werden: Die reellen Zahlen. Wir haben schon gesehen, dass auf R, so wie auf Q und auf C, die Struktur vom Körper definiert werden kann. Nun werden wir eine weitere gemeinsame Eigenschaft zwischen Q und R untersuchen: In beiden Fällen können wir vernünftig 1Ohne Beschränkung der Allgemeinheit. 30 Abschnitt 4 eine Ordnungsrelation definieren, im Gegensatz zu beispielsweise der komplexen Zahlen. Der Abschnitt wird verabschiedet mit der Eigenschaft, die R wesentlich anders von Q macht: Die archimedische Eigenschaft. Seien M, M ′ Mengen. Eine Teilmenge R von M × M ′ nennt man auch eine Relation zwischen M und M ′ ; im Fall M ′ = M nennen wir R eine Relation auf M. Wir kennen viele solcher Relationen, z.B. für M = M ′ = R die Kleiner-gleich” Beziehung“ R = {(x, y) ∈ R × R : x ≤ y}. Die Kleiner-gleich-Beziehung“ ein ein typisches Beispiel für eine Ordnungs” relation: Definition. Man nennt eine Relation R auf einer Menge M eine Ordnungsrelation, wenn folgende Bedingungen für alle x, y, z ∈ M erfüllt sind: (a) (x, x) ∈ R für alle x ∈ M, d.h., R ist symmetrisch, (b) (x, y) ∈ R und (y, x) ∈ R =⇒ x = y, d.h., R ist antisymmetrisch, (c) (x, y) ∈ R, (y, z) ∈ R =⇒ (x, z) ∈ R, d.h., R ist transitiv. Suggestiv werden wir x y statt (x, y) ∈ R schreiben. Eine Ordnungsrelation R heißt total wenn für jede x, y ∈ M gilt (x, y) ∈ R oder (y, x) ∈ R, also x y oder y x. (Mit anderen Worten, alle Elementen aus M sind vergleichbar.) Eine total angeordnete Menge ist ein Paar (M, ), wobei M eine nicht-leere Menge und eine totale Ordnungsrelation sind. Sei K ein Körper und eine totale Ordnungsrelation, so dass für alle x, y, z gilt (a) Monotonie der Addition: Aus x y folgt x + z y + z; (b) Monotonie der Multiplikation: Aus x y und 0 z folgt xz yz. So heißt K ein angeordneter Körper bezüglich . Wir schreiben (K, ). Diese Monotonieaxiomen gewährleisten die Kompatibilität der Ordnung mit der Körperstruktur. Aus denen folgen die üblichen Regeln des Umgehens mit Ungleichungen, die uns seit langem schon vertraut sind, im folgenden Satz zusammengefasst. Wir merken, dass wir x ≺ y schreiben, wenn x y und x 6= y gilt. Oft verwenden wir y x bzw. y ≻ x statt x y bzw. x ≺ y. Die obige Monotonieaxiome gelten trivialerweise noch, wenn man durch ≺ ersetzt. Weitere Eigenschaften sind: Satz 4.2. Sei (K, ) ein angeordneter Körper. Für alle x, y, z, v, w ∈ K gilt: (a) Aus x y und v ≺ w folgt x + v ≺ y + w. (b) Aus x y folgt −x −y. (c) Aus x y und z 0 folgt xz yz. (d) Es ist x2 0, also x2 ≻ 0 wenn x 6= 0. Insbesondere ist 1 = 12 ≻ 0. (e) Aus x ≻ 0 folgt 1/x ≻ 0. (f) Aus 0 ≺ x y folgt 1/x 1/y. Angeordnete Körper. Die reellen Zahlen 31 Die Beweise dieser Rechenregeln sind dem Leser als Übungsaufgabe überlassen. Ein Element x eines angeordneten Körpers (K, ) heißt positiv, falls x ≻ 0 ist, und negativ, falls x ≺ 0 ist. Ferner, für x ∈ K heißt n x, falls x 0 |x| := −x, falls x ≺ 0. der (Absolut-)Betrag von x. Satz 4.3. Der Betrag eines elements x ∈ K besitz folgende Eigenschaften: (a) |x| = max(x, −x), d.h., |x| ist von x und −x die größte Zahl. (b) |x| = | − x|; (c) Es ist |x| 0, und es gilt genau dann |x| = 0, wenn x = 0 ist. (d) Es gilt |xy| = |x||y|. (e) Es gilt |xy−1 | = |x||y|−1 , falls y 6= 0. Beweis. (a), (b) und (c) folgen direkt aus der Definition. (d) Falls x, y 0 gilt, dann ist die Aussage trivial. Sei nun x = −x′ mit x′ 0 und y 0. Dann folgt |xy| = |(−x′ )y| = | − (x′ y)| = |x′ y| = |x′ ||y| = | − x′ ||y| = |x||y|. Die anderen Fälle folgen analog. (e) Die Behauptung folgt aus |x| = |xy−1 y| = |xy−1 ||y|. Außerdem sind folgende Ungleichungen von erheblicher Bedeutung: Satz 4.4. Sei (K, ) ein angeordneter Körper, seien x, y ∈ K. Dann gilt |x + y| |x| + |y| und |x − y| |x| − |y|. Beweis. Wegen x |x| und y |y| ist x + y |x| + |y|. Analog folgt aus −x |x| und −y |y|, dass −(x + y) |x| + |y|. Insgesamt erhalten wir |x + y| = max{x + y, −(x + y)} |x| + |y| und damit ist die erste Ungleichung bewiesen. Aus dieser ergibt sich |x| = |(x − y) + y| |x − y| + |y| =⇒ |x| − |y| |x − y| und nach Vertausch von x und y erhält man auch |y| = | − y| = |(x − y) − x| |x − y| + |x| =⇒ −(|x| − |y|) |x − y|, woraus sich die Ungleichung |x − y| |x| − |y| ergibt. 32 Abschnitt 4 Es ist zweckmäßig, den Körper K durch Hinzufügen von einem kleinsten −∞ und einem größten Element ∞ mit −∞ 6= ∞ zu einer Menge K := K ∪ {−∞, ∞} zu vergrößern so dass −∞ x ∞ für alle x ∈ K gilt. Für das Rechnen mit den neuen Elementen erweitern wir die Körperverknüpfungen wie folgt: (a) (b) (c) (d) (e) x + ∞ := ∞ + x := ∞ für alle x ∈ K, x 6= −∞. x + (−∞) := (−∞) + x := −∞ für alle x ∈ K, x 6= ∞. x · ∞ := ∞ · x := ∞, x · (−∞) := (−∞) · x := −∞ für alle x ∈ K, x ≻ 0. x · ∞ := ∞ · x := −∞, x · (−∞) := (−∞) · x := ∞ für alle x ∈ K, x ≺ 0. x x ∞ := −∞ := 0 für alle x ∈ K. Die Summen ∞ + (−∞) und (−∞) + ∞ und die Produkte 0 · (±∞), (±∞) · 0 und ±∞ ±∞ ∞ , −∞ sind hierzu nicht definiert! Seien a, b Elemente des angeordneten Körpers K mit a b. Dann heißen (a) (b) (c) (d) [a, b] := {x ∈ K | a x b} das abgeschlossene Intervall, ]a, b[ := {x ∈ K | a ≺ x ≺ b} das offene Intervall, [a, b[ := {x ∈ K | a x ≺ b} und ]a, b] := {x ∈ K | a ≺ x b} die halboffenen Intervalle, die durch die Intervallgrenzen a und b bestimmt sind. Die Differenz b − a heißt die Länge des Intervalls. Alle diese heißen beschränke Intervalle. Falls wir in K die Elemente −∞ oder ∞ als Intervallgrenzen betrachten, so sprechen wir von unbeschränkten Intervallen. Beschränkte Intervalle sind beschränkte Mengen im folgenden Sinne: Definition. Sei K ein angeordneter Körper. Sei A eine nicht-leere Teilmenge von K. (a) A heißt nach oben beschränkt, wenn es ein S ∈ K gibt mit x S für alle x ∈ A. Die Zahl S heißt eine obere Schranke von A in K. (b) A heißt nach unten beschränkt, wenn es ein s ∈ K mit x s für alle x ∈ A gibt. Die Zahl S heißt dann eine untere Schranke von A in K. (c) Wenn A nach oben und nach unten beschränkt ist, nennen wir sie beschränkt. (d) Ist A nach oben beschränkt und existiert eine kleinste obere Schranke x ∈ K von A, dann heißt x das Supremum von A. Wir schreiben x = sup(A). Mit anderen Worten sup(A) := min{S ∈ K | S ist obere Schranke von A}. Gilt x ∈ A, dann heißt x das Maximum von A; Wir schreiben max(A) = x. Angeordnete Körper. Die reellen Zahlen 33 (e) Ist A nach unten beschränkt und existiert eine größte untere Schranke x ∈ K von A, dann heißt x das Infimum von A. Wir schreiben x = inf(A). Mit anderen Worten inf(A) := max{s ∈ K | s ist untere Schranke von A}, Gilt x ∈ A, dann heißt x das Minimum von A, und wir schreiben min(A) = x. Beispiel. (R, ≤) ist ein angeordneter Körper. Sei A:=[0, 1[⊂ R. Das Intervall ist nach oben beschränkt: Die Elemente in {x ∈ R : x ≥ 1} sind die oberen Schranken von A. Die kleinste obere Schranke ist daher 1, aber 1∈ / A. Deswegen ist 1 das Supremum von A, aber kein Maximum. Das Intervall A ist auch nach unten beschränkt: In der Tat ist {x ∈ R : x ≤ 0} die Menge der unteren Schranken von A. Die größte dabei ist 0, und 0 ∈ A. Dann ist 0 sowohl das Infimum von A als auch das Minimum. Da A sowohl nach unten als auch nach oben beschränkt ist, ist A beschränkt. Ein weiteres Paradebeispiel eines angeordneten Körpers ist Q zusammen mit der durch ≤ gegebene Ordnungsrelation. Es ist doch ein erhebliches Beispiel, das allerdings einen kleinen Schönheitsfehler” enthält; Es ist nicht ordnungs” vollständig im folgenden Sinne: Satz 4.5. Nicht jede Teilmenge aus Q, die nach oben beschränkt ist, besitzt ein Supremum. Beweis. Wir wissen, dass kein x ∈ Q existiert mit x2 = 2. Nun betrachten wir die Menge M := {x ∈ Q : x2 ≤ 2} = {x ∈ Q : x2 < 2}. Offensichtlich ist M eine nicht-leere Teilmenge von Q, die nach oben beschränkt ist: Die Menge aller oberen Schranken ist N = {y ∈ Q : y > 0 und y2 > 2}. Zu zeigen ist nun, dass N kein kleinstes Element enthält. Mit anderen Worten, zu zeigen ist, dass für jedes y ∈ N eine rationale Zahl z in N mit z < y gefunden werden kann. Zu jedem y ∈ Q, y > 0 setzen wir y2 − 2 ∗ 2y + 2 z := y − = y+2 y+2 Quadrieren liefert ∗∗ z2 − 2 = 2(y2 − 2) . (y + 2)2 34 Abschnitt 4 Falls y ∈ N, so gilt y2 − 2 > 0 nach der Definition von N. Dann folgt 0 < z < y aus der Gleichung ∗, und z2 > 2 aus ∗∗. Daher ist z in N für jedes y ∈ N und damit kann M kein Supremum haben. Diese Eigenschaft, die gerade bei Q fehlt, charakterisiert den Körper der reellen Zahlen: Definition. Sei (K, +, ·) ein angeordneter Körper, der das Vollständigkeitsaxiom erfüllt, nämlich jede nach oben beschränkte Teilmenge A 6= 0/ von K besitzt ein Supremum. Dann heißt K der Körper der reellen Zahlen (oder auch die Zahlengerade). Wir bezeichnen es mit R. Die Existenz von R kann man konstruktiv beweisen. Ferner stimmen alle möglichen Mengen von reellen Zahlen im Wesentlichen, d.h, bis auf Identifikation, überein (vgl. zahlreiche Literatur). Der Körper C der komplexen Zahlen ist im Gegensatz zu R nicht angeordnet: Satz 4.6. Für den Körper C lässt sich keine totale Anordnung angeben. Beweis. Durch Widerspruch. Angenommen doch, d.h., angenommen es existierte eine totale Anordnung von C. Aus Satz 4.2(d) gilt 1 ≻ 0. Auf der anderen Seite ist −1 = i2 und nach 4.2(d) ist dann −1 ≻ 0, was nach 4.2(b) gleichbedeutend mit 1 ≺ 0 ist. Widerspruch! Wir schliessen den Abschnitt mit zwei wichtigen Eigenschaften der reellen Zahlen, nämlich die Archimedische Eigenschaft und die Tatsache, dass Q dicht in R ist. (Weitere Eigenschaften von R, wie z.B. die Existenz der Wurzel, werden dem interessierten Leser anvertraut bzw. vorausgesetzt.) Satz 4.7 (Archimedische Eigenschaft). Für je zwei Zahlen x, y ∈ R mit x, y > 0 existiert eine natürliche Zahl m mit mx > y. Insbesondere ist N in R nicht nach oben beschränkt. Beweis. Durch Widerspruch. Angenommen, dass es mx ≤ y für alle m ∈ N gelte. Dann wäre y eine obere Schranke für die Menge M := {mx : m ∈ N}. Nach dem Vollständigkeitsaxiom von R existiert z := sup M . Es ist dann z − x < z, also z − x ist keine obere Schranke mehr für M und es existiert ein m ∈ N mit z − x < mx, d.h., mit z < (m + 1)x, was die Definition von z widerspricht. Angeordnete Körper. Die reellen Zahlen 35 Aus dem Satz 4.7 folgt: Ist x ∈ R, x ≥ 0, so existiert eine Zahl m ∈ N mit m ≤ x < m + 1. Ist x < 0, so gibt es eine Zahl m ∈ N mit m < −x ≤ m + 1, oder, anders geschrieben, −(m + 1) ≤ x < −m. D.h., zu einer beliebigen reellen Zahl x gibt es eine eindeutig bestimmte ganze Zahl [x] so dass [x] ≤ x < [x] + 1. Sie heißt der ganze Teil von x. Zum Beispiel ist [π ] = 3 und [−π ] = −4. Der ganze Teil induziert eine Abbildung R → R, x 7→ [x], die den Name GaußKlammer, oder auch Gauß-Symbol bekommt. Zum Schluss erwähnen wir noch die wichtige Feststellung, dass zwischen zwei reellen Zahlen immer eine rationale Zahl zu finden ist. Satz 4.8. Für alle x, y ∈ R mit x < y existiert ein q ∈ Q mit x < q < y. Insbesondere ist Q dicht in R, d.h. für alle x ∈ R und alle ε ∈ R, ε > 0 existiert ein q ∈ Q mit q ∈ ]x − ε , x + ε [. Beweis. Wir suchen eine rationale Zahl mn mit x < mn < y und müssen hierfür m, n geeignet wählen. Wir unterscheiden drei Fälle: (a) 0 ≤ x < y: Wegen Satz 4.7 existiert ein n ∈ N mit n(y − x) > 1. Sei m := min{p ∈ N : nx < p}. Dann ist nx < m und m − 1 ≤ nx. Also folgt m = (m − 1) + 1 ≤ nx + 1 < nx + n(y − x) = ny. Es ergibt sich nx < m < ny und daher gelten die gewünschten Ungleichungen x < mn < y. (b) x < y ≤ 0: Wir betrachten 0 ≤ −y < −x. Nach dem bisher Bewiesenen existiert ein w ∈ Q mit −y < w < −x. Nun wählen wir q = −w. Dann gilt x < q < y. (c) x < 0 < y: der Fall ist trivial, da für q = 0 ∈ Q gilt x < q < y. ABSCHNITT 5 Folgen reeller Zahlen (I): Konvergenz Nach dem Induktionsprinzip machen wir jetzt unsere nächste mathematische Erfahrung mit der Unendlichkeit. Folgen reeller Zahlen stehen am Anfang der Infinitesimalrechnung. Ihre genauere Betrachtung fing mit D’Alembert und Cauchy an. Unsere Sicht von Folge als Sequenz, wie z.B. die Folge ungerader natürlichen Zahlen 1, 3, 5, . . . lässt sich als Abbildung präzisieren: Eine Folge reeller Zahlen mit Startwert s0 ∈ N ist eine Abbildung f : {n ∈ N : n ≥ s0 } −→ R. Das Bild f (n) von n heißt das n-te Glied der Folge, und wird mit an bezeichnet. So wird die Folge mit (an )n≥s0 bezeichnet. Oft ist s0 = 0, und dann schreibt man (an )n∈N . Ist der Startwert anzunehmen oder unerheblich, wird eine Folge einfach (an ) bezeichnet. Die Menge {an : n ≥ s0 } nennt man oft das Folgenbild von (an )n≥s0 Beispiele. (a) Sei die Folge f : N → R, n 7→ 2. Alle Glieder sind 2, d.h., das Folgenbild ist {2}. Solche Art von Folgen nennen wir konstant. (b) Sei die Folge g : N → R mit n 1, falls n ungerade; g(n) = −1, falls n gerade. Das n-te Glied lässt sich als an = (−1)n+1 schreiben. Das Folgenbild ist dann {−1, 1}. (c) Folgen können rekursiv definiert werden. Sei a1 := 0, a2 := 1, und an := an−1 + an−2 für n ≥ 3. Dann heißt (an )n≥1 = (0, 1, 1, 2, 3, 5, 8, . . .) die Fibonacci-Folge, die beispielsweise eine erhebliche Bedeutung bei Wachstumsprozessen in der Natur beschreibt. Der entscheidende Begriff ist die Konvergenz einer Folge: Definition. Eine Folge (an ) heißt konvergent, wenn es ein a ∈ R gibt mit folgender Eigenschaft: Zu jedem (noch so kleinen reellen) ε > 0 existiert ein n0 ∈ N mit |an − a| < ε für alle natürlichen Zahlen n ≥ n0 . 38 Abschnitt 5 Dieses Element a ist durch die Folge (an ) eindeutig bestimmt: Wäre nämtlich a′ ∈ R ein weiteres davon verschiedenes Element mit der entsprechenden Eigenschaft, so wäre 1 ε := |a − a′ | > 0 2 und es gäbe natürliche Zahlen n0 und n′0 mit |an − a| < ε |an − a′ | < ε für alle n ≥ n0 für alle n ≥ n′0 . Dann erhält man mit einem n ≥ max(n0 , n′0 ) den Widerspruch |a − a′| = |a − an + an − a′ | ≤ |an − a| + |an − a′ | < ε + ε = |a − a′|. Das somit durch die konvergente Folge (an) gemäß obiger Definition eindeutig bestimmte Element a heißt der Grenzwert oder der Limes der Folge (an ). Wir schreiben a = lim an , auch kurz an → a, n→∞ und sagen, dass (an ) gegen a konvergiert. Eine Folge (an ) konvergiert gegen a genau dann wenn die Folge (an − a) gegen 0 konvergiert. Eine konvergente Folge, die gegen 0 konvergiert, heißt eine Nullfolge. Eine Folge, die nicht konvergiert, heißt divergent. Anmerkung. Die Zahl n0 ∈ N in der Definition hängt selbstverständlich von ε ab: Je kleiner ε ist, desto größer hat man im Allgemeinen n0 zu wählen. In diesem Zusammenhang ist die folgende äquivalente Formulierung nützlich: |an − a| < ε ist gleichbedeutend mit an ∈ ]a − ε , a + ε [. Deswegen formuliert man anschaulicher die Bedingung der Definition so: an liegt für alle n ≥ n0 in der ε -Umgebung Uε (a) := ]a − ε , a + ε [ von a. Damit wird auch unmittelbar klar, dass man eine konvergente Folge in endlich vielen Gliedern abändern darf, ohne an Konvergenz und Limes etwas zu ändern. Damit ist auch klar, dass der obige Beweis für die Eindeutigkeit des Limes darauf beruht, dass in den disjunten ε -Umgebungen von a und a′ nicht zugleich fast alle Glieder der folge (an ) liegen können. Oft benutzt man in der Mathematik den Ausdruck für fast alle. Damit ist gemeint, für alle bis auf endlich viele. So können wir die Definition von Konvergenz etwas umgangssprachlich umformulieren und sagen, dass die Folge (an) gegen a konvergiert, wenn jede Umgebung von a fast alle an enthält. Folgen reeller Zahlen (I): Konvergenz 39 Wir illustrieren die Definition mit folgendem Beispiel. Sei (an ) die Folge ge2n . Wir beobachten, dass ihr Limes 1 sein könnte. Sei ε > 0 geben durch an = 2n+5 vorgegeben. Man muss eine natürliche Zahl n0 bestimmen, so dass für alle n ≥ n0 2n die Ungleichung | n+5 − 1| < ε gilt. Diese Ungleichung ist offensichtlich äquivalent zu den Folgenden: −5 2n − 2n − 5 5 2n + 5 < ε ⇐⇒ 2n + 5 < ε ⇐⇒ 2n + 5 < ε ε Mit anderen Worten, es muss 5 < 2nε + 5ε gelten, also n > 5−5 2ε . Damit ist n0 zu wählen als 5 − 5ε +1 n0 = 2ε Zum Beispiel ist n0 = 23 für ε = 0.1; für ε = 0.01 ist n0 = 248. Es ist hier anzumerken: Wir mussten den Grenzwert irgendwie erraten. Wir werden sehen, dass dies manchmal schwierig ist. Cauchy schlug eine andere Definition für konvergente Folgen vor, die wir heute Cauchy-Folgen nennen. Wir betrachten sie kurz im nächsten Abschnitt. Beispiele. (a) Eine konstante Folge (an ) mit Folgenbild {a} konvergiert offenbar gegen a. (b) Sei xn := n1 für alle n ≥ 1. Die Folge (xn ) ist eine Nullfolge: Sei dazu ε > 0 vorgegeben. Nach der Archimedischen Eigenschaft von R existiert ein n0 ∈ N so dass ε n0 > 1, d.h., n0 > ε1 . Dann folgt für jedes n ≥ n0 , dass |xn − 0| = 1 1 ≤ < ε. n n0 (c) Sei yn := (−1)n für n ∈ N. Dann ist (yn) divergent. Wir zeigen dies durch Widerspruch. Angenommen, es existierte ein y ∈ R mit y = limn→∞ yn . Wäre y ≤ 0, dann gelte jedoch yn ∈ / ]y − 1, y + 1[ für alle geraden Zahlen n, denn |yn − y| = |1 − y| = 1 − y ≥ 1, für n gerade. Wäre andererseits y > 0, dann sehen wir analog, dass yn ∈ / ]y − 1, y + 1[ für alle ungeraden Zahlen n. Daher kann y nicht der Grenzwert von (yn ) sein und somit ist die Folge divergent. Eine Folge (an ) heißt nach oben (bzw. unten) beschränkt, wenn das Folgenbild nach oben (bzw. unten) beschränkt ist. Eine Folge heißt beschränkt, wenn sie sowohl nach oben als auch nach unten beschränkt ist, d.h., wenn es ein M ∈ R gibt so dass |an | ≤ M für alle n ∈ N, d.h. für alle Glieder, gilt. Satz 5.1. Jede konvergente Folge (an )n≥s0 ist beschränkt. 40 Abschnitt 5 Beweis. Sei ε = 1 vorgegeben. Dann existiert n0 ∈ N so dass an ∈ ]l − 1, l + 1[ für n ≥ n0 . Außerhalb des Intervalls ]l − 1, l + 1[ befinden sich höchstens n0 − 1 Terme der Folge, d.h., eine endliche Menge, also eine beschränkte Menge. Da das Intervall ]l − 1, l + 1[ auch beschränkt ist, sind wir fertig. Beispiel. Die Folge (zn ) = (n)n∈N ist divergent: Das lässt sich durch Kontraposition trivial beweisen: Nach dem Satz 5.1 reicht es zu zeigen, dass die Menge N nicht beschränkt ist; also, dass N nicht nach oben beschränkt ist, was schon in Satz 4.7 bewiesen wurde. Grenzwerte lassen sich laut folgenden Sätzen leicht betrachten: Satz 5.2. Es gelten die folgenden Eigenschaften über konvergente Folgen: (i) Sei (an ) eine beschränkte Folge und (bn ) eine Nullfolge. Dann ist (an · bn ) eine Nullfolge. (ii) Sei (an ) eine konvergente Folge mit Grenzwert a 6= 0. Ist a > 0 (bzw. a < 0) und nehmen wir ein α ∈ R mit 0 < α < a (bzw. a < α < 0), dann existiert n0 ∈ N so dass an > α (bzw. an < α ) für alle n ≥ n0 . (iii) Ist (bn ) eine konvergente Folge mit Grenzwert b 6= 0 und bn 6= 0 für alle n ∈ N, dann ist die Folge ( b1n ) beschränkt. (iv) Ist (an ) bzw. (bn ) konvergent gegen a bzw. b mit an ≤ bn für fast alle n, dann gilt auch a ≤ b Beweis. Zu (i): Es existiert M > 0 mit |an | ≤ M für alle n ∈ N. Sei ε > 0 vorgegeben. Dann gibt es ein n0 ∈ N so dass |bn − 0| = |bn | < Mε für n ≥ n0 gilt. Dann ist |an bn − 0| = |an bn | = |an ||bn | < M Mε = ε für alle n ≥ n0 . Zu (ii): Wir betrachten den Fall a > 0 (der andere folgt analog). Sei ε = a − α > 0. Dann gibt es ein n0 ∈ N mit an ∈ ]a − (a − α ), a + (a + α )[ = ]α , 2a − α [ für n ≥ n0 , d.h., an > α für n ≥ n0 . Zu (iii): Es folgt unmittelbar wenn man an durch b1n im Beweis von (ii) ersetzt. Zu (iv): Zu jedem ε > 0 gibt es ein n0 ∈ N so dass für n ≥ n0 gleichzeitig gilt a − ε < an ≤ bn < b + ε . Daraus folgt a − b < 2ε und zwar für beliebiges ε , was nur für a − b ≤ 0 möglich ist. Ähnlich wie (iv) in Satz 5.2 zeigt man folgendes Einschließungskriterium: Folgen reeller Zahlen (I): Konvergenz 41 Satz 5.3 (Sandwich-Kriterium). Sei (an ) eine Folge. Seien (xn ) und (yn ) konvergente Folgen mit gleichem Grenzwert, so dass xn ≤ an ≤ yn für fast alle n. Dann ist auch (an ) konvergent mit limn→∞ an = limn→∞ xn = limn→∞ yn . Beispiel. Die Folge ( 21n ) ist eine Nullfolge nach Satz 5.3, denn 0 ≤ nauso ist ((−1)n n1 ) eine Nullfolge, denn − 1n ≤ (−1)n n1 ≤ 1n . 1 2n ≤ n1 . Ge- Satz 5.4. Seien (an)n≥s0 und (bn )n≥s0 konvergente Folgen und c ∈ R. (i) Die folge (an ± bn )n≥s0 ist konvergent und es gilt lim (an ± bn ) = lim an ± lim bn . n→∞ n→∞ n→∞ (ii) Die folge (xn · yn )n≥s0 ist konvergent und es gilt lim (an · bn ) = lim an · lim bn . n→∞ n→∞ n→∞ (iii) Die folge (c · an)n≥s0 ist konvergent und es gilt lim (c · an ) = c · lim an . n→∞ n→∞ (iv) Falls (bn )n≥s0 eine konvergente Folge mit Limes 6= 0 ist, dann gibt es ein t0 ≥ s0 mit yn 6= 0 für n ≥ t0 . Die Folge ( bann )n≥t0 ist konvergent und es gilt an limn→∞ an lim = . n→∞ bn limn→∞ bn Beweis. Seien a := limn→∞ an und b := limn→∞ bn . Zu (i): Wir betrachten die Folge (an + bn ). Sei ε > 0 vorgegeben. Es existieren n0 , n′0 ∈ N mit ε ε |an − a| < für n ≥ n0 und |bn − b| < für n ≥ n′0 . 2 2 ′ Sei nun N := max{n0 , n0 }. Dann folgt für n ≥ N, dass ε ε |(an + bn ) − (a + b)| = |an − a + bn − b| ≤ |an − a| + |bn − b| < + = ε . 2 2 So ist die Konvergenz der Summenfolge mit dem Limes a + b erledigt. Analog beweist man, dass (an − bn ) gegen a − b konvergiert. Zu (ii): Eine leichte Rechnung ergibt: an bn − ab = an bn − an b + anb − ab = (an ) · (bn − b) + b(an − a). Die Folge (an ) ist nach Satz 5.1 beschränkt, und b ist eine Konstante. Nach dem Satz 5.2 (i) ist diese eine Nullfolge, und daraus folgt die Konvergenz der Produktfolge mit dem Limes ab. Zu (iii): Es folgt unmittelbar aus (ii), wenn man die konstante Folge (bn ) mit bn = c betrachtet. 42 Abschnitt 5 Zu (iv): Man prüft leicht nach: 1 an a ban − abn − = = · (ban − abn ). bn b bbn bbn Da (ban − abn ) eine Nullfolge ist, und die Folge bb1n nach dem Satz 5.2(iii) beschränkt ist, folgt die Behauptung aus dem Satz 5.2 (i). Beispiel. Sei (an )n∈N mit an = 2n2 +1 5n2 +3n+1 = 2+ 12 n 5+ 3n + 12 . Es gilt: n 1 2 3 1 1 = 2 + 0 = 2, und lim 5 + + 2 = 5. lim 2 + 2 = lim 2 + lim n→∞ n→∞ n n→∞ n→∞ n n n Schließlich erhalten wir mit Satz 5.4, dass ! 1 1 limn→∞ 2 + n2 2 + n2 2n2 + 1 2 = . lim = lim = 1 3 2 n→∞ 5n + 3n + 1 n→∞ 5 + + 5 limn→∞ 5 + n3 + n12 n n2 Wenn man sich die Folgen (yn ) = ((−1)n )n∈N und (zn ) = (n)n∈N genauer anschaut, stellt man zumindest heuristisch fest, dass diese auf verschiedene Arten divergieren: Die Folge (zn ) läuft gegen ∞, während (yn ) zwei bestimmten Werte annimmt, nämlich −1 und 1. Eine Formalisierung dieser Tatsachen liefert die folgende Definition. Definition. Sei (an ) eine Folge. Sie heißt (a) bestimmt divergent gegen ∞, wenn: Zu jedem c ∈ R existiert ein n0 ∈ N so dass an > c für alle n ≥ n0 . Wir schreiben dann limn→∞ an = ∞. (b) bestimmt divergent gegen −∞, wenn: Zu jedem c ∈ R existiert ein n0 ∈ N so dass an < c für alle n ≥ n0 . Wir schreiben dann limn→∞ an = −∞. Den Gebrauch von den Symbolen −∞ und ∞ haben wir in Abschnitt 4 gerechtfertigt, indem wir die total angeordnete Menge R := R ∪ {−∞, ∞} eingeführt haben. Beispiele. (a) Die Folge (n)n∈N ist bestimmt divergent gegen ∞. (b) Die Folge (−n)n∈N ist bestimmt divergent gegen −∞. (c) Die Folge (−1)n ist divergent, aber nicht bestimmt divergent. Die Folge (−1)n hat keinen Grenzwert; Es ist trotzdem unmittelbar klar: Wenn wir gerade Zahlen n angeben, bekommen wir immer 1, anderenfalls −1; jeder Wert hat ein ähnliches Verhalten als wenn er eine Art von Grenzwert wäre. Definitionsgemäß darf dies aber nicht sein. Folgen reeller Zahlen (I): Konvergenz 43 Mit anderen Worten: Wenn wir die Teilfolge (−1)2n der Folge (−1)n nehmen, konvergiert sie gegen 1, dementsprechend konvergiert die Teilfolge (−1)2n+1 gegen −1. Die Folge (−1)n besitz natürlich keinen Grenzwert, allerdings spielen −1 und 1 dabei eine besondere Rolle: sie sind die Grenzwerte der erwähnten Teilfolgen, und werden Häufungspunkte der Folge (−1n )n∈N genannt. Wir präzisieren nun diese Begriffe. Sei (an )n≥s0 eine Folge. Sei dazu (nk )k∈N eine Folge natürlicher Zahlen mit s0 ≤ nk < nk+1 für alle k ∈ N. Dann heißt (ank )k∈N eine Teilfolge der Folge (an )n≥s0 . Man sagt, dass α ∈ R ein Häufungspunkt der Folge (an ) ist, wenn zu jedem ε > 0 unendlich viele n ∈ N existieren mit |an − α | < ε . Dieses Verhalten kann auch bei ±∞ vorkommen. Dann heißt ∞ (bwz. −∞) ein uneigentlicher Häufungspunkt der Folge (an ), wenn zu jedem c ∈ R unendlich viele n ∈ N existieren mit an > c (bzw. an < c.) Jede Teilfolge einer konvergenten Folge konvergiert, und zwar gegen denselben Grenzwert (!). Außerdem: Satz 5.5. (i) Sei (an ) eine Folge. Ist genau dann α ∈ R ein Häufungspunkt der Folge, wenn eine Teilfolge (ank ) von (an ) existiert, die gegen α konvergiert. (ii) Sei (an ) eine Folge. Ist ∞ (bwz. −∞) genau dann ein uneigentlicher Häufungspunkt der Folge, wenn es eine Teilfolge (ank ) von (an ) gibt, die bestimmt divergent gegen ∞ (bzw. gegen −∞) ist. Beweis. Zu (i): Falls eine Teilfolge (ank ) von (an ) gegen α ∈ R konvergiert, dann ist α trivialerweise ein Häufungspunkt der Folge (an). Sei umgekehrt α ein Häufungspunkt der Folge (an ). Wir konstruieren nun eine Folge natürlicher Zahlen (nk ) derart, dass 1 nk+1 > nk und |ank − α | < für alle k ≥ 1. k Die Folge (ank ) konvergiert dann gegen α , denn 1/k −→ 0. Da α ein Häufungspunkt von (an ) ist, existiert ein n1 ∈ Z mit |an1 − α | < 1. Angenommen wir haben natürliche Zahlen n1 , . . . , nk , k ≥ 1 mit den gewünschten Bedingungen gefunden. Da α auch ein Häufungspunkt von (an )n>nk ist, existiert ein nk+1 ∈ Z mit 1 und nk+1 > nk . |ank+1 − α | < k+1 Der Beweis von (ii) verläuft analog und ist dem Leser als Übungsaufgabe überlassen. Es stellt sich die Frage, wann Häufungspunkte immer existieren. Die Antwort wird durch einen bekannten Satz der Analysis gegeben (der Satz von BolzanoWeierstraß). Dafür müssen wir zuerst den Begriff von Monotonie einer Folge einführen. Das wird im nächsten Abschnitt geschehen. ABSCHNITT 6 Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien In diesem Abschnitt möchten wir Kriterien angeben, die uns erlauben sowohl die Existenz von Häufungspunkten als auch die Konvergenz einer Folge reeller Zahlen festzustellen. Das Wachstum einer Folge spielt dabei eine entscheidende Rolle. Ein für unsere Zwecke gutes Wachstumsverhalten wird durch die Monotonie gekennzeichnet: Definition. Sei (an )n≥s0 eine Folge. (i) (an )n≥s0 heißt monoton fallend (bzw. monoton wachsend), wenn an+1 ≤ an (bzw. an+1 ≥ an ) für alle n. (ii) (an )n≥s0 heißt streng monoton fallend (bzw. streng monoton wachsend), wenn an+1 < an (bzw. an+1 > an ) für alle n. (iii) (an )n≥s0 heißt monoton, wenn sie entweder monoton wachsend oder monoton fallend ist. Beispiel. Die Folge ( 1n )n≥1 ist streng monoton fallend. Die Folge (n2 )n∈N ist streng monoton wachsend. Die Folge ((−1)n )n∈N ist nicht monoton. Der Satz 5.1 zeigt, dass jede konvergente Folge beschränkt ist. Die Umkehrung gilt natürlich nicht, wie bereits die Folge ((−1)n )n∈N zeigt. Diese ist aber nicht monoton; Für monotone Folgen gilt doch die Umkehrung des Satzes 5.1: Satz 6.1. Jede beschränkte, monotone Folge (an )n≥s0 konvergiert, und zwar: (i) eine wachsende gegen sup(A), wobei A := {an : n ∈ N} das Folgenbild ist; (ii) eine fallende gegen inf(A). Beweis. Zu (i): Sei s := sup(A). Da s die kleinste obere Schranke für A ist, gibt es zu jedem ε > 0 ein aN mit s − ε < aN . Damit folgt s − ε < aN ≤ an ≤ s für n > N. Zu (ii): Dies kann analog gezeigt oder mittels der Folge (−an ) auf (i) zurückgeführt werden. 46 Abschnitt 6 √ Beispiel. Sei a > 1. Die Folge ( n a)n≥1 ist offenbar streng monoton fallend. Ferner 1 1 ist a n > 1 n = 1, also die Folge ist nach unten beschränkt und damit beschränkt. Dann konvergiert sie nach dem Satz 6.1, und zwar gegen inf({an : n ≥ 1}) = 1. √ Beispiel. Wir möchten zeigen: Für 0 ≤ a ≤ b gilt n an + bn → b. Es gilt √ √ n n b ≤ an + bn ≤ b 2. √ Nach dem letzten Beispiel ist n 2 → 1, somit ist die Aussage klar nach dem Sandwich-Kriterium 5.3. Beispiel. Sei (an )n≥1 die Folge gegeben durch an = (1 + n1 )n . Wir zeigen, dass diese Folge konvergent ist, und geben eine obere Schranke für ihren Grenzwert. Zunächst überlegt man durch direkte Rechnung, dass für m, n ∈ N mit m < n gilt 1 1 m 1 1 m < k ≤ ≤ k−1 für k = 2, 3, . . . , n. k k! 2 m k m k Dass die Folge beschränkt ist und 3 als obere Schranke hat, sieht man nach Verwendung des binomischen Lehrsatzes und der obigen Ungleichungen: n n 1 an = ∑ k k=0 k n n < k=0 n ≤ 1 ∑ k! 1 1 − 21n ∑ 2k−1 = 1 + 1 − 1 k=0 2 = 3− 1 2n−1 < 3. Dass die Folge streng monoton wachsend ist, ist im Wesentlichen analog: n n 1 an = ∑ k k=0 k n n 1 n+1 1 n+1 + < ∑ (n + 1)k n + 1 (n + 1)n+1 k k=0 n+1 1 n+1 = ∑ = an+1 . k (n + 1)k k=0 Aus dem Satz 6.1 folgt, dass die Folge konvergent ist. Die Beziehung zwischen unbeschränkten und divergenten Folgen ist zu erwarten: Satz 6.2. (i) Nicht jede divergente Folge (an )n≥s0 ist unbeschränkt. Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien 47 (ii) Jede bestimmt divergente Folge (an )n≥s0 ist unbeschränkt. Falls an → ∞, dann ist sie nach unten beschränkt. Falls Falls an → −∞, dann ist sie nach oben beschränkt (iii) Jede nicht beschränkte monoton wachsende (bzw. fallende) Folge ist bestimmt divergent gegen ∞ (bzw. −∞). Beweis. Zu (i): Wie oben gezeigt ist die divergente Folge ((−1)n )n∈N beschränkt. Zu (ii): Die Aussagen folgen unmittelbar aus der Definition. Zu (iii): Wir betrachten den Fall monoton wachsend (der andere ist analog). Sei M > 0. Da M keine obere Schranke der Folge nach (ii) sein kann, muss ein n0 ∈ N existieren so dass an0 > M. Da (an ) monoton wachsend ist, gilt für n ≥ n0 : an ≥ an0 > M, und daher muss (an ) bestimmt divergent gegen ∞ sein. Als Anwendung beweisen wir die folgende Aussage: Satz 6.3. Seien (an ) eine monoton wachsende und (bn ) eine monoton fallende Folge mit folgenden Eigenschaften: (a) Es ist an ≤ bn für alle n ∈ N. (b) Es ist limn→∞ (bn − an) = 0. Dann gibt es genau eine reelle Zahl α mit an ≤ α ≤ bn für alle n ∈ N. Beweis. Die Folgen (an) und (bn ) sind auch bescheränkt, also auch konvergent. Wegen 0 = lim(bn − an ) = lim(bn ) − lim(an ) haben die Folgen (an ) und (bn ) denselben Grenzwert α . Aus der Monotonie dieser Folgen ergibt sich an ≤ α ≤ bn für alle n ∈ N. Dieses α ist auch eindeutig bestimmt: Angenommen, es existierte eine weitere solche Zahl α ′ , so gelte |α − α ′ | ≤ bn − an für alle n und daher notwendigerweise |α − α ′ | = 0, d.h., α = α ′ . Zwei Folgen (an ) und (bn ) wie in Satz 6 definieren eine Folge von abgeschlossenen Intervallen In := [an , bn ], n ∈ N, für die I0 ⊂ I1 ⊂ I2 ⊂ . . . ⊂ In ⊂ In+1 ⊂ . . . gilt und deren Längen eine Nullfolge bilden. Man nennt eine solche Folge von abgeschlossenen Intervallen eine Intervallschachtelung. Nach dem Satz gibt es genau eine Zahl α , die in jedem der Intervalle In liegt. Diese Zahl α heißt die durch die Intervallschachtelung definierte Zahl. Es ist a0 ≤ a1 ≤ a2 ≤ . . . ≤ α ≤ . . . ≤ b2 ≤ b1 ≤ b0 . 48 Abschnitt 6 Diese Überlegungen führen zu der am Ende des Abschnittes 5 angekündigten Frage, wann ist die Existenz von Häufungspunkten immer sichergestellt. Die genaue Antwort ist folgendes Ergebnis. Satz 6.4 (Bolzano-Weierstraß). Eine beschränkte Folge hat mindestens einen Häufungspunkt, und daher hat eine konvergente Teilfolge. Beweis. Sei (an ) eine beschränkte Folge. Dann liegen alle Glieder in einem beschränkten Intervall [a, b] ⊂ R. Zur Bestimmung eines Häufungspunktes von (an ) konstruieren wir eine Intervallschachtelung [xn , yn ], n ∈ N, derart, dass in jedem Intervall dieser Folge unendlich viele Glieder der Folge (an ) liegen. Dann ist die durch diese Intervallschachtelung definierte Zahl α offenbar ein Häufungspunkt von (an ). Eine solche Intervallschachtelung geben wir mit dem sogenannten Intervallhalbierungsverfahren an. Dazu setzen wir x0 = x, y0 = y. Sind xn und yn gewählt, so liegen im Intervall [xn , yn ] nach Konstruktion unendlich viele Glieder der Folge (an ). Das gilt dann auch für mindestens eines der beiden Teilintervalle [xn , (xn + yn )/2] und [(xn + yn)/2, yn ], dessen Endpunkte wir dann für xn+1 und yn+1 nehmen. Gilt dies für beide Teilintervalle, so nehmen wir der Eindeutigkeit halber die linke Hälfte. Wegen yn − xn = (y − x)/2n handelt es sich um eine Intervallschachtelung. Den Satz von Bolzano-Weierstraß haben wir betrachtet, um ein letztes Konvergenzkriterium reeller Folgen beweisen zu können: das Cauchysche Konvergenzkriterium. Die Definition von der Konvergenz einer Folge nutzt die Kenntnis ihres Grenzwertes aus: Wir sind gezwungen, die Ungleichung |an − a| < ε einzuschätzen, wobei a der Grenzwert ist. Es gibt aber Folgen bei denen es schwierig oder sehr schwierig ist, ihre Grenzwerte zu bestimmen: Beispiel. Wir betrachten die Folge (an )n≥1 mit n an := ∑ (−1)[ i=1 (i−1) 2 ] 1 , i wobei [i/2] die Gauß-Klammer bezeichnet. Die ersten Glieder dieser Folge sind 1 1 1 1 1 1 a2 = 1 + , a3 = 1 + − , a4 = 1 + − − , . . . 2 2 3 2 3 4 Es ist zunächst nicht mehr so direkt zu ersehen, ob diese Folge konvergiert. Wollen wir die Definition von Konvergenz anwenden, müssen wir den Limes—falls er existiert—bestimmen. Ein erstes numerisches Experiment mit einem Rechner zeigt, dass die Folge gegen 1.13 zu konvergieren scheint. In der Tat kann man mit etwas fortgeschrittenen Techniken beweisen, dass die Folge gegen (π + 2 log 2)/4 konvergiert. a1 = 1, Folgen reeller Zahlen (II): Monotonie. Konvergenzkriterien 49 Nach der Definition von Konvergenz und mit Hilfe eines Rechners und Geduld beobachtet man, dass es für ein vorgegebenes ε (hier ε = 0.058) ein letztes an (hier a16 ) gibt, bei dem die Ungleichung |an − a| < ε verletzt ist. Das heißt, die n0 ∈ N, die nach der Definition von Konvergenz existieren muss, so dass für alle ε > 0 und alle n ≥ n0 die Ungleichung |an − a| < ε gilt, ist n0 = 17. Die Folge ist also konvergent. Wer hätte es gedacht! Ohne die Bestimmung des Grenzwertes im obigen Beispiel wäre eine präzise Einschätzung von |an −a| < ε für jedes ε > 0 unmöglich gewesen! Cauchy kam auf die folgende Idee: Man ersetze die Ungleichung |an − a| < ε durch |an − an+k | < ε für alle Nachfolgern an+k , mit k ≥ 1, von an : Definition. Eine Folge (an )n≥s0 heißt Cauchy-Folge, wenn: Zu jedem ε > 0 existiert ein n0 ∈ N so dass für alle k ∈ N ist |an − an+k | < ε für alle n ≥ n0 . Mit anderen Worten (um die Betrachtung zu vereinfachen): Zu jedem ε > 0 existiert ein n0 ∈ N so dass |am − an | < ε für m, n ≥ n0 . Beispiel. Sei (an )n≥1 die Folge aus dem letzten Beispiel. Für ε = 0.11 ist die Definition von Cauchy-Folge für alle n ≥ 17 erfüllt. Genauso kann man zeigen, dass die Definition für jedes ε > 0 gilt, denn n+k (i−1) 1 1 1 [ 2 ] 1 + +...+ −→ 0. |an − an+k | = ∑ (−1) ≤ i n+1 n+2 n+k i=n+1 Cauchy-Folgen sind schon (unbewusst!) bekannt: Satz 6.5. Jede konvergente Folge (an ) ist eine Cauchy-Folge. Beweis. Ist l = limn→∞ an , dann existiert für ε > 0 vorgegeben ein n0 ∈ N mit ε |an − l| < für n ≥ n0 , 2 nach der Definition vom Limes. Seien nun m, n ∈ N mit m, n ≥ n0 . Dann gilt ε ε |am − an | = |am − l + l − an | ≤ |am − l| + |an − l| < + = ε 2 2 und damit ist (an ) eine Cauchy-Folge. In unserer Situation, nämlich Folgen reeller Zahlen, gilt auch die Umkehrung dank dem Vollständigkeitsaxiom (das heißt, in R ist der Begriff Cauchy-Folge” ” gleichbedeutend zum Begriff konvergente Folge”): ” Satz 6.6. (i) Jede Cauchy-Folge ist beschränkt. (ii) Jede Cauchy-Folge ist konvergent. 50 Abschnitt 6 Beweis. Zu (i): Für vorgegebenes ε = 1 existiert n0 ∈ N so dass |am − an| < 1 für m, n ≥ n0 . Insbesondere ist |am − an0 | < 1. Dann gilt für m ≥ n0 : am ∈ ]an0 − 1, an0 + 1[. Da der Rest der Terme endlich viele sind, sind wir fertig. Zu (ii): Sei (an ) eine Cauchy-Folge. Nach Satz 6.6 ist sie beschränkt. Nach dem Satz von Bolzano-Weierstraß hat sie eine konvergente Teilfolge, sagen wir (ank )k∈N . Sei l = limk→∞ ank . Es ist zu zeigen, dass l = limn→∞ an ist: Sei dafür ε > 0 vorgegeben. Da (an ) eine Cauchy-Folge ist, existiert ein n0 ∈ N so dass (∗) ε |am − an | < für m, n ≥ n0 2 Da die Teilfolge (ank ) konvergent ist, muss auch ein k0 ∈ N existieren so dass nk0 ≥ n0 und (∗∗) |ank − l| < ε für k ≥ k0 2 Dann gilt für alle n ≥ n0 |an − l| = |an − ank + ank − l| ≤ |an − ank | + |ank − l| 0 0 0 (∗)+(∗∗) 0 < ε ε + = ε. 2 2 Tatsächlich gilt die zweite Aussage in Q nicht: Die Folge 1, 1.4, 1.41, 1.414, 1.4142, 1.41421, . . . ist eine Cauchy-Folge (wegen |an − an+k | < 10−n ), deren Glieder rationale Zahlen √ sind, aber ihr Limes ist 2 ∈ / Q. Cauchy-Folgen werden wieder eine Rolle im nächsten Abschnitt bei der Betrachtung ein sehr spezielles Typus von Folgen spielen: Die Reihen. ABSCHNITT 7 Folgen reeller Zahlen (III): Reihen Sei (ak )k≥s0 eine Folge reeller Zahlen. Eine Reihe reeller Zahlen ist eine Folge reeller Zahlen (Sn )n≥s0 mit Sn := as0 + as0 +1 + . . . + as0 +n . Die Zahl ak heißt der k-te Term der Reihe. Die Zahl Sn heißt die n-te Partialsumme der Reihe. Die Folge (Sn )n≥s0 wird die Folge der Partialsummen gennant. Um die Bezeichnung zu entlasten werden wir im Allgemeinen s0 = 0 annehmen. Eine Reihe heißt konvergent wenn die Folge der Partialsummen konvergiert. Den Grenzwert bezeichnen wir mit ∞ lim Sn . ∑ ak := n→∞ k=0 und nennen wir die Summe der Reihe. Eine nicht-konvergente Reihe heißt divergent. Achtung! Die Schreibweise ∑∞ k=0 ak ist nur eine Bezeichnung. Eine Reihe sollte man sich nicht als unendliche Summe vorstellen, weil dies der Anfang allerlei Missverständnisse sein kann. Es ist noch zu beachten: Die Schreibweise ∑∞ k=0 ak ist zweideutig (und daher gefährlich!): Sie bezeichnet sowohl die Reihe als auch ihre Summe, falls sie konvergiert. Dieser Gebrauch ist so verbreitet, dass wir nichts anderes machen können. Die Frage nach der Konvergenz von Reihen spielt wieder eine zentrale Rolle. Ein erstes Kriterium verdanken wir Cauchy: Satz 7.1 (Cauchy-Kriterium für Reihen). Die Reihe ∑∞ k=0 ak konvergiert genau dann, wenn: Zu jedem ε > 0 existiert ein n0 ∈ N mit | ∑nk=m ak | < ε für alle m, n ≥ n0 . Beweis. Sei Sn = ∑nk=0 ak . OBdA nehmen wir n ≥ m an. Dann ist n ∑ ak = Sn − Sm − 1. k=m 52 Abschnitt 7 Daher folgt die Aussage nun aus den Sätzen 6.5 und 6.6(ii), die besagen, dass die Folge (Sn ) genau dann konvergiert, wenn diese Folge eine Cauchy-Folge ist. Das Cauchy-Kriterium ergibt eine notwendige Bedingung für die Konvergenz: Satz 7.2. Ist die Reihe ∑∞ k=0 ak konvergent, so ist (ak )k∈N eine Nullfolge. Beweis. Sei ε > 0 vorgegeben. Nach dem Satz 7.1 existiert ein n0 ∈ N so dass | ∑nk=m ak | < ε für m, n ≥ n0 gilt. Wählt man m ≥ n0 und n = m, so erhält man n m a ∑ k = ∑ ak = |am | < ε . k=m k=m Die Bedingung ist nicht hinreichend, d.h., es kann passieren, dass (ak )k∈N eine Nullfolge ist, aber die Reihe ∑∞ k=0 ak divergiert, wie folgendes Beispiel zeigt: Beispiel (Die harmonische Reihe). Sei die Reihe ∞ 1 ∑ k. k=1 Obwohl die Folge ( 1k )k≥1 eine Nullfolge ist, divergiert die Reihe deshalb, weil die Folge der Partialsummen (Sn )n≥1 mit 1 1 1 1 + Sn = 1 + + + . . . + 2 3 n−1 n nicht beschränkt ist, und damit ist die Reihe divergent. Und sie ist nicht beschränkt aufgrund der folgenden Abschätzung: 2n 1 1 1 1 1 1 1 1 1 1 ∑ = 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + . . . + 2n−1 − 1 + . . . + 2n k=1 k 1 1 1 1 > 1 + + 2 · + 4 · + . . . + 2n−1 · n 2 4 8 2 n = 1+ . 2 k Satz 7.3 (Die geometrische Reihe). Sei x ∈ R. Die Reihe ∑∞ k=0 x konvergiert genau dann, wenn |x| < 1. In diesem Fall gilt ∞ 1 ∑ xk = 1 − x k=0 Beweis. Dass die Reihe für |x| ≥ 1 divergiert, ist eine Folgerung des Satzes 7.2. Sei |x| < 1. Es gilt: n 1 − xn+1 1 1 ∑ x = 1 − x = 1 − x − 1 − x xn+1 . k=0 k Folgen reeller Zahlen (III): Reihen 53 Daher konvergiert die Reihe genau dann, wenn die Folge (xn ) konvergiert, und das ist in der Tat so für |x| < 1, und zwar gegen 0. Daraus folgt unmittelbar ∞ k=0 n 1 − xn+1 1 1 n+1 = lim − x n→∞ n→∞ 1 − x n→∞ 1 − x 1 − x k=0 1 1 1 1 = − lim xn+1 = −0 = . 1 − x 1 − x n→∞ 1−x 1−x ∑ xk = lim ∑ xk = lim Beispiele. (a) Arithmetisch-Geometrische Reihen: Sie sind Reihen der Form (c, d ∈ R) ∞ ∑ (ck + d)xk. k=0 Ähnlich wie bei der geometrischen Reihe zeigt man, dass die Reihe genau dann konvergiert, wenn |x| < 1 ist. Konkret betrachten wir die Reihe ∞ k ∑ 3k . k=0 Da 13 < 1 ist, konvergiert die Reihe. Um die Summe zu bestimmen, schauen wir uns zunächst die Partialsummen Sn und 3Sn : 3 n−1 n 1 2 + 2 + 3 + . . . + n−1 + n Sn = 3 3 3 3 3 2 3 n−1 n 3Sn = 1 + + 2 + . . . + n−2 + n−1 . 3 3 3 3 Wir rechnen 3Sn − Sn = 2Sn durch: n−1 1 n 1 1 1 n n 3 1 1− n − n 2Sn = 1 + + 2 + . . . + n−1 − n = ∑ i − n = 3 3 3 3 3 2 3 3 i=0 3 Dann ist Sn = 43 1− 31n − 2·3n n und somit ist die Summe S = limn→∞ Sn = 34 . (b) Teleskope Reihen: Sie sind die Reihen, deren k-tes Glied ak in der Form bk − bk−1 gebracht werden kann. Genau dann ist die Reihe ∑∞ k=0 ak konvergent, wenn die Folge (bk ) konvergiert. In solchen Fall ist die Summe der Reihe gleich limk→∞ bk − b0 . Als direkte Anwendung sei die Reihe ∞ k+1 ∑ (k + 2)! . k=1 Der Term ak = k+1 (k+2)! gleicht k+2−1 k+2 1 1 1 = − = − = bk+1 − bk+2 , (k + 2)! (k + 2)! (k + 2)! (k + 1)! (k + 2)! 54 Abschnitt 7 wobei bk = 1 k! ist. Dann sind die Partialsummen Sn = a1 + . . . + an = (b2 − b3 ) + (b3 − b4 ) + . . . + (bn+1 − bn+2 ), und damit ist die Summe S der Reihe 1 1 −0 = . n→∞ n→∞ n→∞ 2! 2 Da Reihen ein Spezialfall von Folgen sind, haben sie grundsätzlich identische Eigenschaften, die sich letztlich aus denen von den Folgen beweisen lassen: S = lim Sn = lim (b2 − bn+2 ) = b2 − lim bn+2 = ∞ Satz 7.4. (a) Sei ∑∞ k=0 ak eine Reihe. Sei ∑k=0 bk eine weitere Reihe, die aus der ersten entsteht nach Modifizierung oder Streichung endlich vieler Ter∞ me. Genau dann ist ∑∞ k=0 bk konvergent, wenn ∑k=0 ak konvergiert. Im konvergenten Fall kann den Grenzwert gewechselt haben!) ∞ (b) Sei c 6= 0. Dann ist ∑∞ k=0 ak genau dann konvergent, wenn ∑k=0 c · ak konvergent ist. ∞ ∞ (c) Seien ∑∞ k=0 ak und ∑k=0 bk konvergente Reihen. Dann ist ∑k=0 α ak + β bk auch konvergent. Ferner gilt für den Grenzwert ∞ ∞ ∞ ∑ α ak + β bk = α ∑ ak + β ∑ bk . k=0 k=0 k=0 Eine hinreichende Bedingung hat Leibniz in 1682 schon bemerkt, und zwar für die Konvergenz alternierender Reihen: Eine Reihe heißt alternierend, wenn ihre Glieder abwechselnd ≥ 0 und ≤ 0 sind, also eine Reihe der Gestalt ∞ ∑ ak k=0 für ai ∈ R. Das Leibniz-Kriterium ergibt eine hinreichende Bedingung für die Konvergenz dieser Reihen: Satz 7.5 (Leibniz-Kriterium). Sei (ak )k∈N eine monoton fallende Nullfolge von nicht-negativen reellen Zahlen, d.h., eine Folge so dass für alle k gilt: ak ≥ 0, ak ≥ ak+1 und lim ak = 0. k→∞ Dann konvergiert die Reihe ∞ ∑ (−1)k ak . k=0 Beweis. Ist die Reihe konvergent, dann ist ((−1)k ak ) nach Satz 7.2 eine Nullfolge. Mithin ist (ak ) eine Nullfolge. Sei nun umgekehrt (ak ) eine Nullfolge. Wir setzen Sn = ∑nk=0 (−1)k ak . Es folgt aus der Voraussetzung S2(n+1) = S2n − (a2n+1 − a2n+2 ) ≤ S2n . Folgen reeller Zahlen (III): Reihen 55 Daher ist (S2n) monoton fallend. Analog sieht man, dass (S2n−1) monoton wachsend ist. Es ist S0 ≥ S2n ≥ S2n−1 ≥ S1 . Daher sind (S2n ) und (S2n−1 ) beschränkt und monoton, also konvergent. Wegen lim (S2n − S2n−1 ) = lim a2n = 0 n→∞ n→∞ haben beide Folgen den gleichen Grenzwert a ∈ R. Hieraus ergibt sich direkt, dass k auch (Sn ) gegen a konvergiert und daher ist ∑∞ k=0 (−1) ak konvergent. Die alternierende harmonische Reihe ∞ 1 ∑ (−1)k−1 k k=1 ist nach dem Leibniz-Kriterium konvergent. Man könnte auf folgende Idee kommen: Gilt das noch für jede Umordnung der Reihe? Die Frage ist nicht trivial. Wenn wir die Reihe 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1− + − + − + − + − + − + − + − +... 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 wie folgt umordnen 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1− − + − − + − − + − − + − − +..., | {z 2} 4 |3 {z 6} 8 |5 {z10} 12 |7 {z14} 16 |9 {z18} 20 1/2 1/6 1/14 1/10 1/18 dann ergibt sich 1 1 1 1 1 1 1 1 1 1 1 1 1− + − + − +... , − + − + − +... = 2 4 6 8 10 12 2 2 3 4 5 6 was so viel wie die Hälfte der ursprünglichen Reihe ist! Das zeigt schon, dass die Summe einer Reihe von der Summationsordnung abhängig ist. Es ist sogar schlimmer: Man kann eine Umordnung finden, so dass die Reihe nicht mehr konvergent ist! Seien dazu die Folgenglieder (−1)k−1 1k ungerader Ordnung für k = 2k + 1, 2k + 3, 2k + 5 . . . , 2k+1 − 1. Es gilt 1 2k + 1 + 1 2k + 3 +...+ 1 2k+1 − 1 > 2k−1 1 2k+1 1 = . 4 56 Abschnitt 7 Betrachte die Umordnung 1 1 1 1− 2 + 3− 4 1 5 + 19 + + 71 − 61 + + . . . + 1 11 1 2k +1 +... = + 1 13 + 1 15 > − 18 > .. . 1 + 2k1+3 + 2k1+5 + . . . + 2k+11 −1 − 2k+2 > .. . 7 12 1 4− 1 4− 1 4 1 6 1 8 1 − 2k+2 Die Folge der Partialsummen (Sk )k≥1 mit 1 1 1 1 1 1 1 1 7 − , S3 = − ,... + + + + S1 = , S2 = 12 5 7 6 9 11 13 15 8 ist keine Nullfolge, also sie ist divergent nach dem Satz 7.2 und damit ist die Reihe ∑∞ k=0 Sk , die als Umordnung der alternierenden harmonischen Reihe gebastelt wird, divergent. Das sei ... ein Umstand, welcher von den Mathematikern des vorigen ” Jahrhunderts übersehen wurde...”1. Riemann hat das Phänomen verstanden: Letztlich ist das so, weil sowohl die Summe aller positiven Terme als auch die Summe aller negativen Terme der alternierenden harmonischen Reihe, d.h. 1 1 1 1 1 1 1 1 1 1 + + + + + . . . und − − − − − − . . . 3 5 7 9 2 4 6 8 10 beide divergent sind; oder anders gesagt, die alternierende harmonische Reihe, mit jedem Glied durch seinen Absolut-Betrag ersetzt, divergent ist. Das ist uns bekannt, denn diese Reihe ist doch die harmonische Reihe ∞ ∞ 1 k−1 1 ∑ (−1) k = ∑ k , k=1 k=1 1 ∞ k−1 und sie divergiert. Das hätte nicht passieren können, wenn die Reihe ∑k=1 (−1) k , d.h., die Reihe, die sich durch Absolut-Betrage bilden lässt, konvergiert hätte. Konvergente Reihen, bei denen jede ihrer Umordnungen wieder konvergiert, heißen unbedingt konvergent. Dieser Begriff hört sich fremd an, er kommt oft vor: Definition. Eine Reihe ∑∞ k=0 ak heißt absolut konvergent, wenn die Reihe ∞ ∑ |ak | k=0 konvergent ist. 1Zitat aus Riemann, 1854: Werke, p. 235. Folgen reeller Zahlen (III): Reihen 57 Bedingt konvergente Reihen sind die, welche konvergent aber nicht absolut konvergent sind, wie die alternierende harmonische Reihe. Dirichlet bewies, dass absolut konvergente und unbedingt konvergente Reihen das Gleiche sind (vgl. [Heu, Satz 32.3]). Wir beweisen nur eine Richtung: Satz 7.6. Ist eine Reihe ∑∞ k=0 ak absolut konvergent, dann konvergieren auch alle ihre Umordnungen, und zwar gegen denselben Grenzwert, also gegen dieselbe Summe. Beweis. Nach dem Cauchy-Kriterium 7.1 ist die Reihe absolut konvergent wenn zu jedem ε > 0 existiert ein n0 ∈ N so dass |ak+1 | + |ak+2 | + . . . + |ak+n | < ε für alle n ≥ 1 und k ≥ n0 . Dann wählen wir zu jedem ε > 0 und entsprechenden n0 ≥ 0 eine natürliche Zahl M so dass alle Terme a0 , a1 , . . . , an0 in der M-ten Partialsumme ′ SM M = ∑ a′k k=0 der umgeordneten Reihe vorkommen. Das heißt, alle Terme a0 , a1 , . . . , an0 in der ′ (für m ≥ M) verschwinden, und somit ist Differenz Sm − Sm ′ |Sm − Sm | ≤ |an0 +1 | + |an0 +2 | + . . . + |an0 +n | < ε Was ist die exakte Beziehung zwischen der Konvergenz und der absoluten Konvergenz? Die obige Diskussion mit der alternierenden harmonischen Reihe zeigt: Nicht jede konvergente Reihe ist absolut konvergent. Die Umkehrung gilt dank dem Cauchy-Kriterium: Satz 7.7. Eine absolut konvergente Reihe ist konvergent. Beweis. Sei ∑∞ k=0 ak absolut konvergent. Wir wenden Satz 7.1 an. Sei ε > 0 vorgegeben. Dann gibt es ein n0 ∈ N mit n n = |a | ∑ k ∑ |ak | < ε für alle m, n ≥ n0 . k=m k=m Dann ergibt sich n ∑ k=m ak ≤ ∑ |ak | < ε für alle m, n ≥ n0 . Daher ist wiederum nach Satz 7.1 die Reihe ∑∞ k=0 ak konvergent. Nun führen wir drei Kriterien für die absolute Konvergenz ein. 58 Abschnitt 7 Satz 7.8 (Majoranten-Kriterium). Sei ∑∞ k=0 bk eine konvergente Reihe und (ak )k∈N eine Folge mit |ak | ≤ bk für alle k ∈ N. Dann ist die Reihe ∞ ∑ ak k=0 absolut konvergent. Beweis. Sei ε > 0 vorgegeben. Dann gibt es ein n0 ∈ N mit n b ∑ k < ε für alle n, m ≥ n0 . k=m Dann folgt die Behauptung aus n ∑ k=m n |ak | ≤ ∑ bk < ε für alle n, m ≥ n0. k=m Beispiel. Zunächst bestimmen wir die Summe folgender Teleskopen Reihe: ∞ n n n 1 1 1 1 = lim lim ∑ = lim ∑ − = 1. ∑ k(k + 1) = n→∞ n→∞ n + 1 n→∞ k+1 k=1 k=1 k(k + 1) k=1 k Für s ≥ 2 und k ≥ 1 gilt 1 2 1 ≤ ≤ . ks k2 k(k + 1) Aus dem Majoranten-Kriterium 7.8 folgt nun für s ≥ 2 die Konvergenz der Reihe ∞ 1 ∑ ks . k=1 ∑∞ k=0 ak eine Reihe mit ak 6= 0 für alle k ≥ k0 Satz 7.9 (Quotientenkriterium). Sei mit k0 ∈ N. Falls eine Zahl q ∈ R, 0 ≤ q < 1 existiert mit ak+1 a ≤ q für k ≥ k0 , k dann ist ∑∞ k=0 ak absolut konvergent. Beweis. Wir können endlich viele Glieder einer Reihe abändern, ohne an der (absoluten) Konvergenz etwas zu ändern (vgl. Satz 7.4(a)). Daher können wir oBdA k0 = 0 annehmen. Eine vollständige Induktion nach k liefert |ak | ≤ qk |a0 | für alle k ≥ 0. ∞ k Wir wissen, dass ∑∞ k=0 q |a0 | konvergiert und daher ist ∑k=0 ak absolut konvergent wegen Satz 7.8. Folgen reeller Zahlen (III): Reihen 59 2k −3k . Wir verwenden das Quotientenkriterium. Beispiel. Sei ∑∞ k=0 ak mit ak = k 2 Es ist ak+1 (2(k + 1))! (k!)2 · 23k = lim · lim k→∞ ((k + 1)!)2 · 23(k+1) k→∞ ak (2k)! (2k + 2)(2k + 1) 1 = lim · 3 k→∞ (k + 1)2 2 1 4k2 + 6k + 2 = lim 2 8 k→∞ k + 2k + 1 1 4 1 = ·4 = = 8 8 2 a 1 Da limk→∞ k+1 ak = 2 < 1, ist die Reihe nach dem Quotientenkriterium absolut konvergent, und nach dem Satz 7.7 konvergent. Das Quotientenkriterium ist zwar nützlich aber von eingeschränkten Anwendungsmöglichkeiten. Beispiel. Auf Konvergenz möchten wir die Reihe ∞ ∑ 1 (−1)k k=1 2k+ 2 untersuchen. Wir versuchen, das Quotientenkriterium anzuwenden. Wir realisieren aber, dass 1 a 2·(−1)k −2 ak+1 , falls k ungerade k+1 lim = 4 = lim 2 2 = lim 1, falls k gerade k→∞ ak k→∞ ak k→∞ gilt. Das heißt, das Quotientenkriterium kann nicht verwendet werden. In solchen Fällen könnte uns noch folgendes Kriterium weiter helfen: Satz 7.10 (Wurzelkriterium). p Sei ∑∞ k=0 ak eine Reihe. Wenn ein q ∈ R mit 0 ≤ q < 1 k und ein k0 ∈ N existieren mit |ak | ≤ q für alle k ≥ k0 , dann konvergiert die Reihe ∑∞ k=0 ak absolut. p Beweis. Es gilt genau dann k |ak | ≤ q, wenn |ak | ≤ qk . Da 0 ≤ q < 1 ist, konver∞ k giert die Reihe ∑∞ k=0 q , also konvergiert ∑k=0 ak absolut nach dem MajorantenKriterium 7.8. Beispiel. Für das obige Beispiel ∑∞ k=1 ak mit ak = 1 (−1)k 2k+ 2 > 0 kann man das Wur- zelkriterium 7.10 anwenden, denn es gilt s s √ 1 1 1 1 k lim k ak = lim k = lim = < 1. k k (−1) (−1) k→∞ k→∞ k→∞ 2 2 k+ 2 2 2 2 60 Abschnitt 7 Beispiel. Für jedes x ∈ R ist die Exponentialreihe ∞ exp(x) := xk ∑ k=0 k! k absolut konvergent: Für x = 0 ist nichts zu zeigen. Sei nun x 6= 0. Mit ak = xk! gilt für k ≥ 2|x| a xk+1 k! 1 |x| k+1 ≤ . = = k ak (k + 1)! x k+1 2 Nun folgt aus dem Quotientenkriterium die Behauptung. Die Eulersche Zahl e definieren wir durch ∞ 1 e := exp(1) = ∑ (= 2, 71828 . . .) k=0 k! Als nächstes überlegen wir uns, dass exp(x + y) = exp(x) · exp(y) gilt. Dafür brauchen wir: ∞ Satz 7.11 (Cauchy-Produkt von Reihen). Seien ∑∞ k=0 ak und ∑k=0 bk absolut konvergente Reihen. Sei ck := ∑km=0 am bk−m für k ∈ N. Dann ist die Reihe ∑∞ k=0 ck absolut konvergent und es gilt ∞ ∞ ∞ ∑ c k = ∑ ak · ∑ bk . k=0 k=0 k=0 Als eine erste Anwendung erhalten wir das Gewünschte: Satz 7.12 (Funktionalgleichung der Exponentialfunktion). Für alle x, y ∈ R gilt exp(x + y) = exp(x) · exp(y). Beweis. Die Behauptung folgt aus Satz 7.11, da k k 1 k ym k k−m m 1 k! xk−m (x + y)k k−m m = ∑ m x y = ∑ k! m!(k − m)! x y = ∑ (k − m)! · (m)! . k! k! m=0 m=0 m=0 Die Exponentialreihe definiert in der Tat eine Funktion (d.h. eine Abbildung, deren Wertebereich eine Teilmenge von R ist) exp : R → R, x 7→ exp(x). Sie heißt die Exponentialfunktion. Ab dem nächsten Abschnitt werden die Funktionen die Hauptobjekte unserer analytischen Untersuchungen sein. ABSCHNITT 8 Stetigkeit und Grenzwerte reeller Funktionen Den Abstand zwischen zwei reellen Zahlen x und x′ bezeichnen wir mit d(x, x′ ) := |x − x′ |. Bei einer Funktion f : R → R kann man sich fragen, inwiefern der Abstand in der Wertemenge durch den Abstand in der Definitionsmenge kontrollierbar ist. Sei x ∈ R und y = f (x) der Bildpunkt. Man möchte, dass für Punkte x′ , die nahe” an x sind, auch die Bildpunkte f (x′ ) nahe” an f (x) sind. Die ” ” Zielsetzung ist, dass zu einer gewünschten Genauigkeit im Bildbereich überhaupt eine Ausgangsgenauigkeit gefunden werden kann, die sichert, dass die Funktionswerte innerhalb der gewünschten Genauigkeit beieinander liegen. Um diese intuitive Vorstellung zu präzisieren, sei ein ε > 0 vorgegeben. Dieses ε repräsentiert eine gewünschte Zielgenauigkeit”. Die Frage ist dann, ob man ein ” δ > 0 finden kann (eine Startgenauigkeit”) mit der Eigenschaft, dass für alle x′ ” mit d(x, x′ ) < δ die Beziehung d( f (x), f (x′ )) < ε gilt. Dies führt zum Begriff der stetigen Abbildung: Definition. Sei D ⊂ R eine Teilmenge, f : D → R eine Funktion und x ∈ D. Man sagt, dass f stetig im Punkt x ist, wenn es zu jedem ε > 0 ein δ > 0 gibt derart, dass für alle x′ mit d(x, x′ ) < δ die Abschätzung d( f (x), f (x′)) < ε gilt. Man sagt, dass die Funktion f stetig ist, wenn sie in jedem Punkt x ∈ D stetig ist. Beispiele. (a) Eine konstante Funktion f : R → R, x 7→ c, ist stetig: Zu jedem vorgegeben ε > 0 kann man hier ein beliebiges δ > 0 wählen, da ja ohnehin d( f (x), f (x′)) = d(c, c) = 0 < ε für alle x′ gilt. (b) Die Identität id : R → R, x 7→ x ist ebenfalls stetig: Zu jedem vorgegebenen ε > 0 kann man hierzu δ = ε wählen, was zu der Tautologie führt: wenn d(x, x′ ) < δ = ε , so ist d( f (x), f (x′ )) = d(x, x′ ) < ε . (c) Wir betrachten die Funktion f : R → R mit n 0 falls x < 0, f (x) = 1 falls x ≥ 0. 62 Abschnitt 8 Diese Funktion ist im Nullpunkt 0 nicht stetig. Für ε = 21 und jedes beliebige positive δ gibt es nämlich negative Zahlen x′ mit d(0, x′ ) = |x′ | < δ . Für diese ist aber 1 d( f (0), f (x′)) = d(1, 0) = 1 6< . 2 Das folgende Resultat bringt die Stetigkeit von Funktionen mit konvergenten Folgen in Verbindung. Satz 8.1. Sei D ⊂ R eine Teilmenge, f : D → R eine Funktion und x ∈ D. Dann sind folgende Aussagen äquivalent: (i) f ist stetig im Punkt x. (ii) Für jede konvergente Folge (xn)n∈N in D mit limn→∞ xn = x ist auch die Bildfolge ( f (xn))n∈N konvergent mit dem Grenzwert f (x). Beweis. Wir zeigen die zwei Implikationen der Äquivalenz: (i) ⇒ (ii) Sei (xn )n∈N eine Folge in D, die gegen x konvergiert. Wir müssen zeigen, dass limn→∞ f (xn ) = f (x) ist. Dazu sei ε > 0 gegeben. Wegen (i) gibt es ein δ mit der angegebenen Eigenschaft, und wegen der Konvergenz von (xn )n∈N gegen x gibt es eine natürliche Zahl n0 derart, dass für alle n ≥ n0 gilt d(xn, x) < δ . Nach der Wahl von δ ist dann d( f (xn), f (x)) < ε für alle n ≥ n0 , so dass die Folge ( f (xn))n∈N gegen f (x) konvergiert. (ii) ⇒ (i) Durch Widerspruch: Angenommen, dass f nicht stetig wäre. Dann gibt es ein ε > 0 derart, dass es für alle δ > 0 Elemente z ∈ D gibt, deren Abstand zu x maximal gleich δ ist, deren Wert f (z) unter der Abbildung aber zu f (x) einen Abstand besitzt, der größer als ε ist. Dies gilt dann insbesondere für die Stammbrüche δ = 1/n, n ∈ N. D.h. für jede natürliche Zahl gibt es ein xn ∈ D mit 1 d(xn , x) < und mit d( f (xn ), f (x)) ≥ ε n Diese so konstruierte Folge (xn )n∈N konvergiert gegen x, aber die Bildfolge ( f (xn ))n∈N konvergiert nicht gegen f (x), da der Abstand der Bildfolgenglieder zu f (x) zumindest ε ist. Dies ist ein Widerspruch zu (ii). gibt, Direkt aus der Folgencharakterisierung der Stetigkeit 8.1 ergeben sich die folgenden Rechenregeln für stetige Funktionen: Stetigkeit und Grenzwerte reeller Funktionen 63 Satz 8.2. Seien D, E ⊂ R Teilmengen und f : D → R und g : E → R Funktionen mit f (D) ⊂ E. Dann gelten folgende Aussagen: (i) Wenn f in x ∈ D und g in f (x) stetig sind, so ist auch die Hintereinanderschaltung g ◦ f in x stetig. (ii) Wenn f und g stetig sind, so ist auch g ◦ f stetig. Aus den Sätzen 8.1 und 5.4 folgt auch: Satz 8.3. Sei D ⊂ R und f , g : D → R stetige Funktionen. Dann sind auch die folgenden Funktionen stetig: (i) Die Funktion f + g : D → R, x 7→ f (x) + g(x) (ii) Die Funktion f − g : D → R, x 7→ f (x) − g(x) (iii) Die Funktion f · g : D → R, x 7→ f (x) · g(x) (iv) Für eine Teilmenge U ⊂ D, auf der g keine Nullstelle besitzt, die Funktion f (x) f : U → R, x 7→ . g g(x) Beispiele. Wir sehen jetzt die ersten nicht-trivialen Beispiele von stetigen Funktionen: (i) Sei K ein Körper und seien a0 , a1 , . . . an ∈ K. Eine Funktion K → K, x 7→ P(x), mit n P(x) = ∑ ai xi = a0 + a1 x + . . . + an xn i=0 heißt Polynomfunktion. Polynomfunktionen P : R → R, x 7→ P(x) sind stetig: Aufgrund der Stetigkeit der Identität und Satz 8.3 sind für jedes n ∈ N die Potenzen R → R, x 7→ xn stetig. Daher sind auch für jedes a ∈ R die Funktionen R → R, x 7→ axn stetig und wiederum aufgrund von Satz 8.3 sind auch alle Funktionen R → R, x 7→ an xn + an−1xn−1 + . . . + a1 x + a0 . stetig. (ii) Seien P und Q zwei Polynomfunktionen, und sei U := {x ∈ R : Q(x) 6= 0}. Dann ist die rationale Funktion P(x) U → R, x 7→ Q(x) stetig: Dies folgt aus dem Satz 8.3 zusammen mit (i). 64 Abschnitt 8 Definition. Es sei D ⊂ R eine Teilmenge und sei a ∈ R ein Punkt. Es sei f : D → R eine Funktion. Dann heißt b ∈ R Grenzwert (oder Limes) von f in a, wenn für jede Folge (xn )n∈N in D, die gegen a konvergiert, auch die Bildfolge ( f (xn ))n∈N gegen b konvergiert. In diesem Fall schreibt man lim f (x) = b. x→a Anmerkung. Diese Definition ist äquivalent zur Folgenden: Zu jedem ε > 0 existiert eine reelle Zahl δ > 0 derart, dass für jedes x ∈ D mit 0 < |x − a| < δ die Abschätzung | f (x) − b| < ε gilt. Beispiel. Die Gauß-Klammer Funktion besitzt keinen Grenzwert im Nullpunkt, denn h 1i h1i = 0 aber lim − = −1. lim n→∞ n→∞ n n Dieser Begriff ist eigentlich nur dann sinnvoll, wenn es überhaupt Folgen in D gibt, die gegen a konvergieren. Aus der Tatsache, dass Grenzwerte von Folgen eindeutig bestimmt sind, folgt unmittelbar, dass Grenzwerte von Funktionen auch eindeutig bestimmt sind. Wie bei Folgen sind auch bei der Bestimmung von Grenzwerten von Funktionen die folgenden Rechenregeln sehr nützlich. Direkt aus dem Satz 5.4 ergibt sich dann: Satz 8.4. Seien D ⊂ R eine Teilmenge und a ∈ R ein Punkt. Es seien f : D → R und g : D → R Funktionen derart, dass die Grenzwerte lim f (x) und lim g(x) x→a x→a existieren. Dann gelten folgende Beziehungen: (i) Die Summe f + g besitzt einen Grenzwert in a, und zwar ist lim ( f (x) + g(x)) = lim f (x) + lim g(x). x→a x→a x→a (ii) Das Produkt f · g besitzt einen Grenzwert in a, und zwar ist lim ( f (x) · g(x)) = lim f (x) · lim g(x). x→a x→a x→a (iii) Es sei g(x) 6= 0 für alle x ∈ D und limx→a g(x) 6= 0. Dann besitzt der Quotient f /g einen Grenzwert in a, und zwar ist f (x) limx→a f (x) = . x→a g(x) limx→a g(x) lim Stetigkeit und Grenzwerte reeller Funktionen 65 Bei Betrachtung von R lassen sich sofort unendliche Grenzwerte definieren (dies entspricht der Situation b = ±∞ in der obigen Definition). Auch kann man Limiten einführen, bei denen x gegen ±∞ strebt (dies entspricht a = ±∞ in der obigen Definition): Definition. Es sei D = [a, ∞[ (oder D =] − ∞, a]) ein rechtsseitig (bzw. linksseitig) unbeschränktes Intervall und f : D → R eine Funktion. Dann heißt b ∈ R Grenzwert (oder Limes) von f für x → ∞ (bzw. x → −∞), wenn es für jedes ε > 0 ein x0 ≥ a (bzw. x0 ≤ a) gibt mit | f (x) − b| < ε für alle x ≥ x0 (bzw. x ≤ x0 ). In diesem Fall schreibt man lim f (x) = b bzw. lim f (x) = b. x→∞ x→−∞ Die Rechenregeln für diesen Grenzwertbegriff sind weitgehend analog zu den Rechenregeln in Satz 8.4. Sie sind auch analog zu den Rechenregeln für Limiten von Folgen (vgl. Satz 5.4). Es gilt auch eine Folgencharakterisierung zur Existenz von Limiten, die analog zu Satz 8.1 beweisen lässt. Dafür brauchen wir wieder den Begriff Häufungs” punkt” in diesem Kontext. Zur Erinnerung, für eine Menge D ⊂ R und a ∈ R ist a ein Häufungspunkt von D, wenn eine Folge (xn ) in D \ {a} existiert mit limn→∞ xn = a. Satz 8.5. Sei D ⊂ R eine Teilmenge, sei f : D → R eine Funktion und sei a ∈ D ein Häufungspunkt. Folgende Aussagen sind äquivalent: (i) Es existiert limx→a f (x) = α ∈ R. (ii) Für jede konvergente Folge (xn )n∈N in D mit xn 6= a für alle n ∈ N und mit Grenzwert a ist limn→∞ f (xn ) = α . Insbesondere ist dieses Kriterium nützlich um der Existenz von Limiten zu widersprechen, indem man zwei konvergente Folgen (xn )n∈N , (yn )n∈N in D mit xn , yn 6= a und Grenzwert a konstruiert, bei denen aber lim f (xn ) 6= lim f (yn ) n→∞ n→∞ ist. Beispiel. Wir betrachten die Funktion R \ {0} → R, x 7→ 1x . Es ist limx→∞ 1x = 0, denn: Ist (xn )n∈N eine Folge mit xn 6= 0 und limn→∞ xn = ∞, dann ist limn→∞ 1/xn = 0. Genauso ergibt sich limx→−∞ 1/x = 0. Dagegen hat 1/x im Nullpunkt 0 keinen Grenzwert: Es ist 1 1 lim = ∞, aber lim = −∞. n→∞ 1/n n→∞ −1/n Für die Stetigkeit einer Funktion f : D → R, x 7→ f (x) in einem Punkt a ist also erstens zu verlangen, dass der Grenzwert limx→a f (x) existiert, und zweitens, 66 Abschnitt 8 dass er gerade gleich dem Wert von f an der Stelle a ist. Manchmal ist die Funktion f nur links bzw. nur rechts von a definiert. Dafür ist es nützlich, die Begriffe linksseitig bzw. rechtsseitig stetig einzuführen. Zunächst definieren wir was unter rechtsseitige bzw. linksseitige Grenzwerte zu verstehen ist. Eine Funktion f : D → R, x 7→ f (x) konvergiert für x ↓ a gegen den Wert b (man sagt auch: konvergiert für x → a+ gegen b, oder auch sie hat in a den rechtsseitigen Grenzwert b), wenn es zu jedem ε > 0 ein δ > 0 existiert derart, dass | f (x) − b| < ε ist, sobald 0 < x − a < δ ist. Wir schreiben dafür lim f (x) = b oder auch lim f (x) = b. x→a+ x↓a Geometrisch bedeutet dies: Man betrachte das Intervall um b ]b − ε , b + ε [. Dann gehört dazu ein von rechts an a anstoßendes Intervall ]a, a+ δ [ von der Länge δ so dass für alle x aus diesem Intervall die zugehörigen Funktionswerte in das obige Intervall ]b − ε , b + ε [ hineinfallen. In durchaus symmetrischer Weise wird auch der Begriff des linksseitigen Grenzwertes definiert. Es wird mit lim f (x) = b oder auch lim f (x) = b. x↑a x→a− bezeichnet. Gilt nun in einem Punkt a lim f (x) = f (a) bzw. lim f (x) = f (a), x↑a x↓a so heißt die Funktion f linksseitig bzw. rechtsseitig stetig im Punkt a. Anmerkung. Man prüft leicht nach: Genau dann besitzt die Funktion f einen Grenzwert im Punkt a, wenn sowohl der rechtsseitige als auch der linksseitige Grenzwert existieren und übereinstimmen. Daraus folgt auch: Genau dann ist eine Funktion stetig in einem Punkt, wenn sie sowohl linksseitig als auch rechtsseitig stetig in diesem Punkt ist. Beispiel. Sei die Funktion f : R → R gegeben durch 1 . f (x) = x 1 − exp 1−x x x Erstens beobachten wir, dass limx→0 1 − exp 1−x = 0. An= 0, da limx→0 1−x dererseits ist x ) < 0 falls 0 < x < 1, 1 − exp ( 1−x x 1 − exp ( 1−x ) > 0 falls x < 0. Stetigkeit und Grenzwerte reeller Funktionen 67 Dann existieren der linksseitige und der rechtsseitige Grenzwerte, nämlich 1 1 = ∞, lim = −∞. lim x x x↑0 1 − exp x↓0 1 − exp 1−x 1−x Daraus folgt, dass die Funktion f kein Limes im Nullpunkt besitzt, denn die rechtsund linksseitigen Grenzwerte nicht übereinstimmen (obwohl sie existieren). Daher ist f auch nicht stetig im Nullpunkt. Zum Schluss rufen wir uns die Definition der Exponentialfunktion in Erinnerung. Sie wurde durch eine konvergente Reihe definiert. Der folgende Satz stellt sicher, dass die auf dieser Art und Weise definierten Funktionen stetig sind: k Satz 8.6. Seien a ∈ R und ∑∞ k=0 ck a eine konvergente Reihe. Sei f : R → R die Funktion, die durch ∞ x 7→ ∑ ck xk k=0 gegeben ist. Dann gibt es ein positives ρ (wobei ρ = ∞ erlaubt ist) derart, dass für alle x ∈ R mit |x| < ρ die Reihe konvergiert. Auf einem solchen Intervall {x ∈ R : |x| < ρ } ist die Funktion f stetig. Beweis. Der Beweis beruht auf einer systematischen Untersuchung von Reihen dieser Art ( Potenzreihen” genannt) und dem Grenzwert von Funktionenfolgen, ” was wir in unserer Vorlesung nicht durchführen werden. Beispiele. (a) Die in Abschnitt 7 definierte Exponentialfunktion ist nach dem Satz 8.6 auf den ganzen R stetig. (b) Die Sinusfunktion sin : R → R definiert durch ∞ x 7→ sin x := ∑ (−1)k k=0 x2k+1 (2k + 1)! ist nach dem Satz 8.6 stetig auf den ganzen R. (c) Die Kosinusfunktion cos : R → R definiert durch ∞ x 7→ cos x := ∑ (−1) k=0 kx 2k 2k! ist nach dem Satz 8.6 auch auf R stetig. Weitere Eigenschaften von elementaren Funktionen wie die Exponentialfunktion oder die trigonometrischen Funktionen werden wir in Abschnit 10 betrachten. Im nächsten Abschnitt 9 wollen wir noch einen wichtigen Satz von stetigen Funktionen präsentieren: der berühmte Satz von Bolzano oder Zwischenwertsatz. ABSCHNITT 9 Der Zwischenwertsatz von Bolzano Wir interessieren uns dafür, was unter einer stetigen Abbildung mit einem Intervall passiert. Der Zwischenwertsatz oder Satz von Bolzano besagt, dass das Bild eines Intervalls durch eine stetige Funktion wieder ein Intervall ist: Satz 9.1 (Zwischenwertsatz). Seien a ≤ b reelle Zahlen und sei f : [a, b] → R eine stetige Funktion. Es sei c eine reelle Zahl zwischen f (a) und f (b). Dann gibt es ein ξ ∈ [a, b] mit f (ξ ) = c. Beweis. Wir beschränken uns auf die Situation f (a) ≤ c ≤ f (b) und zeigen die Existenz von einem solchen ξ mit Hilfe einer Intervallhalbierung. Dazu setzt man a0 := a und b0 := b, betrachtet die Intervallmitte a0 + b0 ξ0 := 2 und berechnet f (ξ0 ). Bei f (ξ0 ) ≤ c setzt man a1 := ξ0 und b1 := b0 und bei f (ξ0 ) > c setzt man a1 := a0 und b1 := ξ0 . In jedem Fall hat das neue Intervall [a1 , b1 ] die halbe Länge des Ausgangsintervalls und liegt in diesem. Da es wieder die Voraussetzung f (a1 ) ≤ c ≤ f (b1) erfüllt, können wir darauf das gleiche Verfahren anwenden und gelangen so rekursiv zu einer Intervallschachtelung. Sei ξ die durch diese Intervallschachtelung definierte reelle Zahl (vgl. Abschnitt 6): (a) Für die unteren Intervallgrenzen gilt f (an ) ≤ c und das überträgt sich wegen der Stetigkeit nach dem Folgenkriterium auf den Grenzwert ξ , also f (ξ ) ≤ c. (b) Für die oberen Intervallgrenzen gilt f (bn ) ≥ und das überträgt sich ebenfalls auf ξ , also f (ξ ) ≥ c. Daraus folgt f (ξ ) = c. Unmittelbar aus dem Zwischenwertsatz folgt die Darbouxsche Eigenschaft: 70 Abschnitt 9 Satz 9.2. Seien a ≤ b reelle Zahlen und sei f : [a, b] → R eine stetige Funktion mit f (a) ≤ 0 und f (b) ≥ 0. Dann gibt es ein x ∈ [a, b] mit f (x) = 0, d.h. f besitzt eine Nullstelle zwischen a und b. Satz 9.3. Sei I ⊂ R ein Intervall, sei f : I → R eine stetige Funktion. Dann ist f (I) ein Intervall. Beweis. Intervalle J ⊂ R sind gekennzeichnet durch folgende Eigenschaft: x, y ∈ J =⇒ z ∈ J für alle z ∈ R mit x ≤ z ≤ y. Seien nun u, v ∈ f (I), also u = f (a) und v = f (b) mit a, b ∈ I. Nach eventuellem Wechsel der Bezeichnungen können wir a ≤ b annehmen. Nach Satz 9.1 existiert zu jedem w mit u ≤ w ≤ v ein x ∈ I mit f (x) = w. Beispiel. Der Zwischenwertsatz lässt sich nicht auf jeden Körper verwenden. Wir betrachten dazu die Abbildung f : Q → Q, x 7→ x2 − 2. Sie ist stetig, aber genügt nicht dem Zwischenwertsatz: Für x = 0 ist f (0) = −2 < 0 und für x = 2 ist f (2) = 2 > 0, aber es gibt kein x ∈ Q mit f (x) = 0, da hierzu x2 = 2 sein muss, wofür es in Q keine Lösung gibt. Beispiel. Mit Hilfe des Zwischenwertsatzes lässt sich in manchen Fällen sehr leicht die Existenz von reellen Nullstellen von Gleichungen beweisen. Sei zum Beispiel f (x) = x2n+1 + a1 x2x + . . . + a2n+1 eine Polynomfunktion des ungeraden Grades 2n + 1 mit reellen Koeffizienten. Wir behaupten, dass die Gleichung f (x) = 0 wenigstens eine reelle Nullstelle besitzt. In der Tat lässt sich zeigen, dass es eine Konstante C > 0 existiert so, dass 1 f (x) mit |x| ≥ C > x2n+1 2 ist. Wenden wir dies nun auf x = C und x = −C an, so ergibt sich für x = C f (C) 1 , f (C) > 0 > C2n+1 2 und für x = −C 1 f (−C) > , f (−C) < 0. (−C)2n+1 2 Da also die Funktion f (x) in den Endpunkten des Intervalls [−C,C] Werte verschiedenen Vorzeichens annimmt, muss sie irgendwo in diesem Intervall den dazwischen liegenden Wert 0 annehmen. Der Zwischenwertsatz von Bolzano 71 Beispiel. Sei f : [a, b] → R eine stetige Funktion. Wir möchten zeigen, dass es ein ξ ∈ [a, b] existiert so dass f (ξ ) = 21 ( f (a) + f (b)). Man kann zwei Fälle unterscheiden: Ist f (a) = f (b), dann ist die Ausage mit ξ = a oder ξ = b trivial, denn 1 f (a) = ( f (a) + f (b)) = f (b). 2 Ist f (a) 6= f (b), dann folgt die Behauptung unmittelbar aus dem Zwischenwertsatz, denn es ist entweder 1 1 f (a) < ( f (a) + f (b)) < f (b) oder f (a) > ( f (a) + f (b)) > f (b), 2 2 je nachdem es entweder f (a) < f (b) oder f (a) > f (b) gilt. Eine weitere Anwendung des Zwischenwertsatzes hat mit dem Wachstum stetigen Funktionen zu tun. Dafür müssen wir die Begriffe von Maximum und Minimum (sowohl im lokalen als auch in globalen Sinne) einführen: Definition. Sei D ⊂ R eine Menge und f : D → R eine Funktion. Man sagt, dass f in einem Punkt x ∈ D das globale Maximum annimmt, wenn f (x) ≥ f (x′ ) für alle x′ ∈ D gilt, und dass f das globale Minimum annimmt, wenn f (x) ≤ f (x′ ) für alle x′ ∈ D gilt. Die gemeinsame Bezeichnung für ein Maximum oder ein Minimum ist Extremum. Ist die Untersuchung dieses Verhaltens auf eine Umgebung eines Punktes eingeschränkt, so spricht man von lokalen Extrema: Definition. Sei D ⊂ R eine Teilmenge und f : D → R eine Funktion. Man sagt, dass f in einem Punkt x ∈ D ein lokales Maximum bzw. lokales Minimum besitzt, wenn es ein ε > 0 derart gibt, dass für alle x′ ∈ D mit d(x, x′ ) < ε die Abschätzung f (x) ≥ f (x′ ) bzw. f (x) ≤ f (x′ ) gilt. Ist f (x) > f (x′ ) (bzw. f (x) < f (x′ )) für alle x′ 6= x, so spricht man von einem isolierten Maximum (bzw. isolierten Minimum). Satz 9.4 (Weierstraß). Sei [a, b] ⊂ R ein abgeschlossenes beschränktes Intervall, und sei f : [a, b] → R eine stetige Funktion. Dann gibt es ein x ∈ [a, b] mit f (x) ≥ f (x′ ) für alle x′ ∈ [a, b]. D.h. die Funktion f ihr Maximum (und ihr Minimum) annimmt. 72 Abschnitt 9 Beweis. Nach dem Zwischenwertsatz wissen wir, dass das Bild J := f ([a, b]) ein Intervall ist (vgl. Satz 9.3). Zunächst zeigen wir, dass J sowohl nach oben als auch nach unten beschränkt, also beschränkt, ist: Angenommen, dass J nicht nach oben beschränkt wäre, dann gäbe es eine Folge (xn )n∈N in [a, b] mit f (xn ) ≥ n. Nach dem Satz von Bolzano-Weierstraß besitzt (xn )n∈N eine konvergente Teilfolge (xnk )k∈N . Da [a, b] abgeschlossen ist, gehört der Grenzwert der Teilfolge zu [a, b]. Wegen der Stetigkeit von f muss dann auch die Bildfolge ( f (xnk ))k∈N konvergieren. Diese ist aber unbeschränkt, so dass sie nach Satz 5.1 nicht konvergieren kann, also Widerspruch! Nach dieser Überlegungen und dem Vollständigkeitsaxiom von R besitzt J ein (eindeutig bestimmtes) Supremum: Sei nun y das Supremum von J. Es ist zu zeigen, dass y ∈ J ist. Es gibt eine Folge (yn)n∈N in J, die gegen y konvergiert. Nach der Definition von J gibt es eine Folge (xn )n∈N so dass f (xn ) = yn für jedes n ist. Diese Folge hat wieder nach dem Satz von Bolzano-Weierstraß eine konvergente Teilfolge. Bezeichnen wir ihren Grenzwert mit x, so ist aufgrund der Stetigkeit f (x) = y und daher ist y ∈ J. Das die Funktion auch ein Minimum in [a, b] annimmt ergibt sich aus der Betrachtung der Funktion − f . Aus dem Satz 9.4 folgt sofort, dass die stetige Funktion f : [a, b] → R auf einem beschränkten und abgeschlossenen Intervall beschränkt sein muss, d.h., es existiert ein c ∈ R mit | f (x)| ≤ c für alle x ∈ [a, b]. Die abgeschlossenheit des Intervalls ist dabei entscheidend: Zum Beispiel ist die Funktion f :]0, 2] → R, x 7→ 1/x stetig, aber nicht beschränkt: Die Funktion nimmt im Intervall ]1, 2[ offenbar Werte an, die zwischen 1 und 12 liegen und beliebig nah sowohl an 1 als auch an 21 herauskommen. Die Werte 1 und 12 selbst werden von f aber erst in den Punkten x = 1 und x = 2 angenommen, die hier nicht zum Intervall gehören. Die Funktion f besitzt also auf ]1, 2[ weder ein Maximum noch ein Minimum. Unser Repertoire an Funktionen ist bisher klein. Als Verfahren zur Konstruktion neuer Funktionen haben wir nur die arithmetischen Operationen und die Hintereinanderschaltung kennengelernt. Man kann noch ein weiteres Verfahren betrachten: Zu einer gegebenen Funktion ihre Umkehrfunktion zu bilden. Daher wollen Der Zwischenwertsatz von Bolzano 73 wir erstens die Definition von Umkehrfunktion angeben und zweitens das Problem der Stetigkeit von Umkehrfunktionen diskutieren. Es ist nicht schwierig zu beweisen: Satz 9.5. Seien M, N nicht leere Mengen und f : M → N eine Abbildung. Sie ist genau dann bijektiv, wenn eine Abbildung g : N → M existiert so dass f ◦ g = idN und g ◦ f = idM , wobei idN bzw. idM die Identität auf N bzw. die Identität auf M sind. In diesem Fall ist die Abbildung g eindeutig bestimmt und wird mit f −1 bezeichnet. Die Abbildung f −1 heißt die Umkehrabbildung von f . Ist f eine Funktion, so heißt f −1 die Umkehrfunktion von f . Beweis. Zunächst nehmen wir an, dass f eine Bijektion ist. Dann existiert zu jedem y ∈ N ein eindeutig bestimmtes xy ∈ M mit f (xy ) = y. Man definiert dann die Abbildung g : N → M durch g(y) = xy . Einerseits gilt dann ( f ◦ g)(y) = f (g(y)) = f (xy ) = y = idN (y) und daher ist f ◦ g = idN . Andererseits sei zu y = f (x) zu x ∈ M. Dann ist g(y) = x und daher (g( f (x))) = f (x). Aus der Injektivität von f ergibt sich nun (g ◦ f )(x) = g( f (x)) = x = idM (x), also g ◦ f = idM . Sei umgekehrt eine Abbildung g : N → M gegeben mit f ◦ g = idN und g ◦ f = idM . Sei dazu y ∈ N. Dann ist y = idN (y) = ( f ◦ g)(y) = f (g(y)), woeaus sich die Surjektivität von f ergibt. Seien ferner x, y ∈ M mit x 6= y. Angenommen, es wäre f (x) = f (y), dann folgt der Widerspruch x = idM (x) = (g ◦ f )(x) = g( f (x)) = g( f (y)) = (g ◦ f )(y) = idM (y) = y. Somit ist die Injektivität der Funktion f auch bewiesen, und damit ihre Bijektivität. Achtung! Es ist zu beachten: Sowohl die Umkehrabbildung von f als auch das Urbild unter f werden mit f −1 gekennzeichnet. Aus dem Zusammenhang muss man ggf. entscheiden, um welche von den beiden sich handeln. Diese Schreibweise ist so verbreitet, dass wir sie auch so annehmen sollen. Definition. Eine Funktion f : D → R heißt monoton wachsend (bzw. streng monoton wachsend), wenn für alle x, y ∈ D mit x < y folgt, dass f (x) ≤ f (y) (bzw. f (x) < f (y)). Analog definiert man für f den Begriff (streng) monoton fallend. Satz 9.6. Sei I ⊂ R ein Intervall und f : I → R eine stetige Funktion. Dann ist f genau dann injektiv, wenn f streng monoton (wachsend oder fallend) ist. 74 Abschnitt 9 Beweis. Eine Richtung ist trivial. Nehmen wir an, dass die Funktion f injektiv ist. Zunächst beweisen wir durch Widerspruch, dass für gilt entweder x, y, z ∈ I mit x < y < z f (x) < f (y) < f (z) oder f (x) > f (y) > f (z). Angenommen nicht, also, angenommen x, y, z ∈ I mit x < y < z existierten mit f (x) < f (y) > f (z). Sei ξ ∈ R so dass max { f (x), f (z)} < ξ < f (y). Da f (x) < ξ < f (y) folgt aus dem Zwischenwertsatz für die Funktion f |[x, y], dass ein c1 ∈]x, y[ existiert mit f (c1 ) = ξ . Analog folgt aus dem Zwischenwertsatz für f |[y, z], dass ein c2 ∈]y, z[ existiert mit f (c2 ) = ξ . Das ist ein Widerspruch zur Injektivität von f . Es ist nur noch zu zeigen, dass die Umkehrfunktion von f die gleiche Monotonie wie f besitzt. Dafür nehmen wir an, dass f nicht streng monoton fallend ist, und zeigen, dass f dann streng monoton wachsend sein muss. Es existieren dann x1 , x2 ∈ I mit x1 < x2 und f (x1 ) < f (x2) (Zu beachten ist dabei, dass wir < und nicht ≤ aufgrund der Injektivität von f beschrieben haben!) Seien noch dazu x, y ∈ I beliebig so dass x < y. Wir möchten zeigen, dass dann f (x) < f (y) gilt. Angenommen, es ist y < x1 , dann muss f (y) < f (x1 ) < f (x2 ) gelten, und damit f (x) < f (y) < f (x1), speziell also f (x) < f (y). Satz 9.7. Sei I ⊂ R ein Intervall und f : I → R eine streng monoton wachsende (bzw. fallende) stetige Funktion. Dann ist J := f (I) ein Intervall und die Umkehrfunktion von f : I → J ist streng monoton wachsend (bzw. fallend) und stetig. Beweis. Wir beweisen, dass die Umkehrfunktion f −1 von f stetig in jedem Punkt y0 von J ist. OBdA betrachten wir den Fall, indem y0 keine Intervallgrenze ist. Sei f −1 (y0 ) = x0 ∈ I. Dann ist x0 auch keine Intervallgrenze von I. Angenommen, f ist streng monoton wachsend. Dann ist f −1 auch streng monoton wachsend. Sei ε > 0 vorgegeben. Wir dürfen ein ε ′ > 0 so dass ε ′ < ε und [x0 − ε ′ , x0 + ε ′ ] ⊂ I nehmen. Seien y1 = f (x0 − ε ′ ) und y2 = f (x0 + ε ′ ). Da x0 − ε ′ < x0 < x0 + ε ′ stellt das strenge Wachstum von f sicher, dass y1 < y0 < y2 Der Zwischenwertsatz von Bolzano 75 gilt. Wir setzen δ := min {|y1 − y0 |, |y2 − y0 |} > 0, und sei y ∈]y0 − δ , y0 + δ [. Aus den Ungleichungen y1 < y < y2 folgt f −1 (y1 ) = x0 − ε ′ < f −1 (y) < f −1 (y2) = x0 + ε ′ , und daraus ergibt sich | f −1 (y) − x0 | = | f −1 (y) − f −1(y0 )| < ε ′ < ε , was die Stetigkeit von f −1 in J definitionsgemäß bedeutet. Beispiel. Wir betrachten die Funktion f : [0, ∞[→ R, x 7→ xn für ein n ∈ N, n > 0. Diese Funktion ist streng monoton wachsend und stetig. Es ist f ([0, ∞[) = [0, ∞[, da der Wertebereich ein Intervall sein muss und wir wissen, dass f (0) = 0 sowie lim xn = ∞. x→∞ Die Umkehrfunktion g von f existiert mit Definitionsbereich [0, ∞[ nach Satz 9.7. Es existiert also insbesondere zu jedem y ∈ [0, ∞[ ein x mit y = xn und dieses x ist eindeutig bestimmt. Wir nennen dieses x die n-te Wurzel von y und schreiben √ hierfür x = n y. Der Satz 9.7 zeigt wieder, dass die Funktion √ g : [0, ∞[→ [0, ∞[, y → n y streng monoton wachsend und stetig ist. Bevor wir die Begriffe von Differenzierbarkeit und Integrierbarkeit thematisieren, widmen wir ein Abschnitt dem Studium von typischen, elementaren Funktionen der Analysis. Insbesondere wird die Stetigkeit von solchen Funktionen diskutiert. ABSCHNITT 10 Elementare Funktionen der Analysis Elementarfunktionen der Analysis sind diejenigen Funktionen, die aufgrund ihrer guten, einfachen Eigenschaften eine grundlegende Rolle bei der Theorie spielen. In der ersten Linie sind die Polynomfunktionen und die rationalen Funktionen zu erwähnen. Ihre wichtigste Eigenschaften sind uns aus der Mathematikunterricht vertraut. Insbesondere haben wir ihre Stetigkeit schon diskutiert. Die √ n Wurzelfunktion x 7→ x wurde schon als Umkehrfunktion von x 7→ xn eingeführt und ihre Stetigkeit untersucht. Selbst die Exponentialfunktion und ihre Funktionalgleichung haben wir als Anwendung unseres Wissens über Reihen definiert. Ziel dieses Abschnittes ist, weitere Eigenschaften sowohl der Exponentialfunktion und ihrer Umkehrfunktion—der Logarithmus, als auch der trigonometrischen Funktionen und ihrer Umkehrfunktionen zu präsentieren, insbesondere hinsichtlich der Stetigkeit. Definition. Die Funktion R → R, die durch ∞ xn x 7→ exp (x) := ∑ n=0 n! gegeben ist, heißt (reelle) Exponentialfunktion. Aus der Definition und der in Abschnitt 7 schon bewiesenen Funktionalgleichung exp (x + y) = exp x · exp y (vgl. Satz 7.12) ergibt sich: Satz 10.1. Die Exponentialfunktion erfüllt folgende Eigenschaften: (a) (b) (c) (d) (e) (f) Es ist exp 0 = 1. Für jedes x ∈ R ist exp (−x) = (exp x)−1 . Insbesondere ist exp x 6= 0. Für jedes x ist exp x > 0. Für x > 0 ist exp x > 1, und für x < 0 ist exp x < 1. Die reelle Exponentialfunktion ist streng monoton wachsend. Die reelle Exponentialfunktion ist stetig und stiftet eine Bijektion zwischen R und R>0 . Beweis. (a) ergibt sich unmittelbar aus der Definition. (b) folgt aus der Funktionalgleichung 7.12, denn exp x · exp (−x) = exp (x − x) = exp 0 = 1. 78 Abschnitt 10 Die Nichtnegativität von (c) folgt aus der Tatsache exp x 6= 0 in (b) zusammen mit x x x x x 2 = exp · exp = exp + > 0. exp x = exp 2 2 2 2 2 (d) Für x ∈ R ist exp x · exp (−x) = 1 so dass nach (b) ein Faktor ≥ 1 und der andere ≤ 1 sein müssen. Für x > 0 ist definitionsgemäß 1 exp x = 1 + x + x2 + . . . > 1. 2 (e) Für reelle y > x ist y − x > 0 und nach (d) exp (y − x) > 1, also exp y = exp (y − x + x) = exp (y − x) · exp x > exp x. (f) Die Stetigkeit ergibt sich nach dem Satz 8.6. Nach (d) liegt das Bild in R>0 und ist nach dem Zwischenwertsatz 9.1 ein Intervall. Die Unbeschränktheit des Bildes folgt aus (c), woraus wiederum wegen (b) sich ergibt, dass auch beliebig kleine positive reelle Zahlen zum Bild gehören. Daher ist das Bild gleich R>0 . Die Bijektivität folgt aus (e) und dem Satz 9.6. R: Dank Satz 10.1 besitzt die Exponentialfunktion eine Umkehrfunktion R>0 → Definition. Der natürliche Logarithmus log : R>0 → R, x 7→ log x ist als die Umkehrfunktion der reellen Exponentialfunktion definiert. Oft bezeichnet man log x auch mit ln x. Aus der Funktionalgleichung der Exponentialfunktion 7.12 zusammen mit den Sätzen 8.6 und 10.1 folgt: Satz 10.2. Der natürliche Logarithmus ist eine stetige, streng wachsende Funktion, die eine Bijektion zwischen R>0 und R stiftet. Außerden gilt log 1 = 0 und die Funktionalgleichung log (x · y) = log x + log y für alle x, y ∈ R>0 . Definition. Zu einer positiven reellen Zahl a 6= 1 definiert man die Exponentialfunktion zur Basis a als ax := exp (x log a). Dem Leser ist die Überprüfung der folgenden vier Eigenschaften überlassen: Satz 10.3. Seien a, b ∈ R>0 \ {1} und x, y ∈ R. Es gilt: (a) ax+y = ax · ay . (b) a−x = a1x . (c) (ax )y = axy . (d) (ab)x = ax bx . Elementare Funktionen der Analysis 79 Als Anwendung zeigen wir: Satz 10.4. Für x ∈ R gilt exp x = ex . Beweis. Nach der Definition der Exponentialfunktion zur Basis b = e ist ex = exp (x log e). Wegen exp 1 = e ist log e = 1, und daraus folgt ex = exp (x log e) = exp x. Definition. Zu einer positiven reellen Zahl a 6= 1 definiert man den Logarithmus zur Basis a als log x loga x := . log a Es ist natürlich loge x = log x. Darüber hinaus: Satz 10.5. Seien a, b ∈ R>0 \ {1} und x, y ∈ R. Für den Logarithmus zur Basis b gilt: (a) Es ist logb bx = x und blogb y = y, d.h., der Logarithmus zur Basis b ist die Umkehrfunktion zur Exponentialfunktion zur Basis b. (b) logb x · y = logb x + logb y. (c) logb yu = u · logb y für u ∈ R. (d) loga y = loga blogb y = logb y · loga b. Beweis. Vgl. Übungsblatt 7. Satz 10.6. x (a) Für jedes n ∈ Z ist limx→∞ exp xn = ∞. (b) Es gilt limx→∞ log x = ∞. (c) Es gilt limx↓0 log x = −∞. Beweis. (a) Für x > 1 gilt k+1 m+1 m x x xn exp x ∑k=0 (k+1)! (m+1)! −→ ∞. > > = xn xn xn (m + 1)! (b) Seien A > 0, B = exp A. Aus x > B folgt log x > log B = A, wie gewünscht. (c) Es ist zu zeigen: Zu A > 0 vorgegeben existiert ein δ > 0 so dass aus 0 < x < δ die Abschätzung log x < −A folgt. Es genügt, δ = exp (−A) auszuwählen: Ist 0 < x < δ , dann gilt log x < log δ = −A, woraus sich die Aussage ergibt. Ein Spezialfall der Exponentialfunktion sind die Hyperbelfunktionen: Definition. Sei x ∈ R. (a) Die Funktion x 7→ sinh x := 12 (exp x − exp (−x)) heißt Sinus hyperbolicus. 80 Abschnitt 10 (b) Die Funktion x 7→ cosh x := 21 (exp x + exp (−x)) heißt Kosinus hyperbolicus. sinh x (c) Die Funktion x 7→ tanh x := cosh x heißt Tangens hyperbolicus. cosh x (d) Die Funktion x 7→ coth x := sinh x heißt Kotangens hyperbolicus. Die Funktion Sinus hyperbolicus ist streng monoton wachsend und die Funktion Kosinus hyperbolicus ist auf R≤0 streng monoton fallend und auf R≥0 streng monoton wachsend. Weitere Eigenschaften sind: (i) cosh x + sinh x = exp x. (ii) cosh x − sinh x = exp (−x). (iii) (cosh x)2 − (sinh x)2 = 1. Der Sinus Hyperbolicus bildet R bijektiv auf R ab und besitzt deswegen eine Umkehrfunktion. Diese nennen wir Areasinus hyperbolicus. Es gilt dabei: p arsinh(x) = log (x + x2 + 1). Der Kosinus Hyperbolicus bildet das Intervall [0, ∞[ bijektiv auf [1, ∞[, deshalb besitzt er eine Umkehrfunktion im Intervall [0, ∞[, die man Areakosinus hyperbolicus nennt. Es gilt: p arcosh(x) = log (x + x2 − 1). Die Stetigkeit dieser Funktionen in ihren Definitionsbereichen ist aus ihrer Darstellung mittels elementareren Funktionen klar. Weitere wichtige Elementarfunktionen der Analysis sind die trigonometrischen Funktionen Sinus und Kosinus. Sie werden wir—so wie die Exponentialfunktion— als Reihen reeller Zahlen definieren: Definition. Für x ∈ R heißt die Reihe ∞ 2k x2 x4 x6 k x ∑ (−1) (2k)! = 1 − 2! + 4! − 6! ± . . . k=0 die Kosinusreihe, und die Reihe ∞ x3 x5 x7 x2k+1 ∑ (−1) (2k + 1)! = x − 3! + 5! − 7! ± . . . k=0 k die Sinusreihe. Das Vergleich mit der Exponentialfunktion zeigt sofort, dass beide Reihe absolut konvergieren. Die entsprechenden Funktionen R → R gegeben durch ∞ ∞ 2k+1 x2k k x cos x := ∑ (−1) und sin x := ∑ (−1) (2k)! (2k + 1)! k=0 k=0 k heißen Sinus und Kosinus. Wegen Satz 8.6 sind sie stetige Funktionen. Außerdem gilt: Elementare Funktionen der Analysis 81 Satz 10.7. Es gilt: (a) cos 0 = 1 und sin 0 = 0. (b) cos (−x) = cos x und sin (−x) = − sin x. (c) Die Additionstheoreme (i) cos (x + y) = cos x · cos y − sin x · sin y (ii) cos (x − y) = cos x · cos y + sin x · sin y (iii) sin (x + y) = sin x · cos y + cos x · sin y (iv) sin (x − y) = sin x · cos y − cos x · sin y Beweis. (a) und (b) folgen direkt aus der Definition. Die Additionstheoreme (i) und (iii) in (c) erfolgen nach einer geschickten Anwendung des Cauchy-Produktes von Reihen 7.11. Die anderen (ii) und (iv) nutzen sowohl (i) und (iii) als auch (b). Satz 10.8. Es gilt: (a) 1 = cos2 x + sin2 x. (b) sin 2x = 2 · sin x · cos x und cos 2x = cos2 x − sin2 x. (c) Es ist | sin x| ≤ 1 und | cos x| ≤ 1 für alle x ∈ R. Beweis. (a) folgt aus Satz 10.7(a) und (c)(iii) wegen 1 = cos 0 = cos (x − x) = cos2 x + sin2 x, genauso wie (b). Die Aussage (c) folgt unmittelbar aus (a). Bei der Aussagen (a) und (b) in Satz 10.8 wurde die übliche Schreibweise := (cos x)2 und sin2 x := (sin x)2 verwendet. Weitere wichtige Eigenschaften der Kosinus- und Sinusfunktion halten wir auch fest: cos2 x Satz 10.9. Es gilt: (a) Es ist sin x > 0 für alle x ∈]0, 2]. (b) Die Funktion cos x ist auf [0, 2] steng monoton fallend und besitzt dort genau eine Nullstelle a. (c) Die Funktionen cos x und sin x bilden jeweils R (surjektiv) auf [−1, 1] ab. 2k+1 k x Beweis. (a) Sei die Reihe r = ∑∞ k=1 (−1) (2k+1)! . Man überlege sich r |x|2 2 ≤ für 0 < x ≤ 2, ≤ x 6 3 indem man analog zu den Abschätzungen vom Leibniz-Kriterium 7.5 vorgeht. Dann ergibt sich für diese x, dass 2 x r ≥ x 1− = > 0. sin x = x + r = x 1 + x 3 3 82 Abschnitt 10 (b) Für x, y ∈ [0, 2], x > y setzen wir u = x+y 2 und v = y = u − v und daher mittels der Additionstheoreme x−y 2 . Dann gilt x = u + v, cos x − cos y = cos u · cos v − sin u · sin v − cos u · cos v − sin u · sin v x + y x − y = −2 sin u · sin v = −2 sin sin < 0, 2 2 wobei die letzte Ungleichung sich aus (a) ergibt. Also ist die Kosinusfunktion auf dem Intervall [0, 2] streng monoton fallend. Wegen 22 24 1 + = 1−2+ < 0 2! 4! 3 und dem Zwischenwertsatz sieht man sofort, dass die Kosinusfunktion auf [0, 2] genau eine Nullstelle a hat. (c) Es ist sin2 a = 1 − cos2 a = 1 und daher ist sin a = ±1. Wegen (a) gilt sin a = 1. Ferner ist sin (−a) = − sin a = −1 und cos 2 ≤ 1 − | sin x| ≤ 1 für alle x ∈ R nach 10.8(c). Eine Anwendung des Zwischenwertsatztes 9.1 liefert, dass das Bild der Sinusfunktion [−1, 1] sein muss. Nun ist cos 0 = 1 und cos 2a = −1 nach 10.8(b). Eine weitere Anwendung des Zwischenwertsatzes ergibt, dass das Bild der Kosinusfunktion auch [−1, 1] ist. Definition. Sei a die Nullstelle der Kosinusfunktion im Intervall [0, 2]. Dann definieren wir die Zahl π := 2a. Eine weitere Anwendung der Additionstheoreme ergibt, dass cos x und sin x die Periode 2π besitzen, d.h., für x ∈ R gilt cos (x + 2π ) = cos x und sin (x + 2π ) = sin x. Daraus ergibt sich, dass sowohl die Sinus als auch die Kosinusfunktionen unendlich viele Nullstellen haben: Satz 10.10. (a) Es ist cos x = 0 genau dann, wenn x = π2 + kπ für k ∈ Z. (b) Es ist sin x = 0 genau dann, wenn x = kπ für k ∈ Z. Beweis. Wir stellen fest: π cos ( + kπ ) = 0 und sin (kπ ) = 0. 2 h i Sei nun cos x = 0. Für k = πx gelten die Ungleichungen kπ ≤ x ≤ (k + 1)π und dann ist cos (x − kπ ) = cos x · cos kπ + sin x · sin kπ = 0, Elementare Funktionen der Analysis 83 da sin kπ = 0. Erstezen wir x durch x − kπ , dann können wir annehmen, dass 0 ≤ x < π . Zu zeigen ist es noch, dass x = π2 . Es ist cos (−x) = cos x = 0 und somit cos (−x + π ) = 0. Eine der beiden Zahlen, x oder −x + π liegt im Intervall [0, π2 ]. Dort hat die Kosinusfunktion nur die Nullstelle π2 , woraus automatisch x = π2 folgt. Die Aussage über die Nullstellen der Sinusfunktion ergibt sich aus der Gleichung π π π = cos x · cos − sin x · sin = − sin x. cos x + 2 2 2 Tangens- und Kotangensfunktion sind nun zu definieren: Definition. Seien D := {x ∈ R : cos x 6= 0} und E := {x ∈ R : sin x 6= 0}. (a) Die Tangensfunktion wird definiert durch sin x tan : D → R, x 7→ . cos x (b) Die Kotangensfunktion wird definiert durch cos x cot : E → R, x 7→ . sin x Sie sind jeweils stetige Funktionen auf ihren Definitionsbereichen. Zum Abschluss behandeln wir die Frage, ob trigonometrische Funktionen umkehrbar sind. Das ist nicht der Fall auf ihren maximal möglichen Definitionsbereichen, durch Wahl geeignete Intervalle, auf denen sie streng monoton sind, können wir aber ihre Umkehrfunktionen definieren: Satz 10.11. (a) Die Kosinusfunktion ist auf [0, π ] streng monoton fallend und es gilt cos ([0, π ]) = [−1, 1]. (b) Die Sinusfunktion ist auf [−π /2, π /2] streng monoton wachsend und es gilt sin ([−π /2, π /2]) = [−1, 1]. (c) Die Tangensfunktion ist auf ] − π /2, π /2[ streng monoton wachsend und es gilt tan (] − π /2, π /2[) = R. (d) Die Kotangensfunktion ist auf ]0, π [ streng monoton fallend und es gilt cot (]0, π [) = R. Beweis. (a) In Satz 10.9(b) haben wir gesehen, dass cos x auf [0, 2] streng monoton fallend ist, dann erst recht auf [0, π /2]. Wegen − cos (π − x) = − cos π · cos π /2 + sin π · sin (−x) = cos x sehen wir, dass die Kosinusfunktion auf [0, π ] streng monoton fallend ist. Die Behauptung cos ([0, π ]) = [−1, 1] haben wir schon in Satz 10.9(c) überlegt. 84 Abschnitt 10 (b) Es gilt π π π − cos (x + ) = − cos x · cos + sin x · sin = sin x, 2 2 2 woraus die Behauptung über die Monotonie folgt. Dass sin ([−π /2, π /2]) = [−1, 1] ist, haben wir schon in Satz 10.9(c) gezeigt. (c) Für x, y ∈] − π /2, π /2[ gilt tan x = tan y genau dann, wenn 0 = sin x · cos y − cos x · sin y = sin x · cos (−y) + cos x · sin (−y) = sin (x − y). Aus Satz 10.10(b) folgt nun, dass x − y = kπ für k ∈ Z. Das ist aber wegen der Wahl von x, y nur für k = 0 möglich, und daher ergibt sich x = y. Also ist die Tangensfunktion auf ] − π /2, π /2[ injektiv. Es gilt weiterhin sin x sin x limπ = ∞ und limπ = −∞, x ↑ 2 cos x x ↓ − 2 cos x also die Tangensfunktion muss streng monoton wachsend sein, und aus dem Zwischenwertsatz 9.1 folgt, dass das Bild von tan x auf dem Intervall den ganzen R ist. (d) zeigt man analog zu (c). Die durch den Satz existierenden Umkehrfunktionen von Kosinus, Sinus, Tankens und Kotangens bzgl. der eingeschänkten Definitionsbereiche sind (i) Die Funktion arccos : [−1, 1] → [0, π ], die Arcus-Kosinus heißt. (ii) Die Funktion arcsin : [−1, 1] → [−π /2, π /2], die Arcus-Sinus heißt. (iii) Die Funktion arctan : R →] − π /2, π /2[, die Arcus-Tangens heißt. (iv) Die Funktion arccot : R →]0, π [, die Arcus-Kotangens heißt. Wegen Satz 9.6 sind alle diese Funktionen stetig in ihren Definitionsbereichen. Es ist noch zu bemerken, dass neben den vier besprochenen trigonometrischen Funktionen gelegentlich, namentlich in der älteren Literatur, sind die beiden Funktionen 1 1 sec x := und cosecx = csc x := cos x sin x nämlich die Sekansfunktion und die Kosekansfunktion, zu finden. In der Schule werden die trigonometrischen Funktionen in der Regel durch Betrachtungen am rechtwinkligen Dreieck definiert. Das Problem bei dieser Definition ist, dass wir (noch) gar nicht genau wissen, was überhaupt ein Winkel” ” sein soll. Deswegen haben wir sie durch konvergente Reihen eingeführt. Wenn Sie sich aus Ihrem Mathematikunterricht daran erinnern, was ein Winkel ist, können Sie weiter lesen. In der Geometrie wird ein Winkel α häufig im Bogenmaß gemessen, der wie folgt definiert ist. Wir betrachten einen Kreis K im R2 mit Mittelpunkt (0, 0). Ist nun l die Länge des Kreisbogens eines Kreissektors und r der Radius des Kreises, Elementare Funktionen der Analysis 85 dann gilt α = l für den induzierten Winkel. Nehmen wir noch an, dass K der Einheitskreis r ist (d.h. r = 1), dann folgt α = l im Bogenmaß. Es ist dabei zu merken: 360◦ = 2π . Dies stellt eine gewisse Verbindung zwischen unserer Definitionen der trigonometrischen Funktionen und der Definition mittels eines rechtwinkligen Dreiecks. Zum Schluss präsentieren wir ein Bild, indem die sechs trigonometrischen Funktionen eines Winkels α am Einheitskreis zu erkennen sind1: c ot α 1 tan α csc α sin α α 0 cos α 1 sec α Trigonometrische Funktionen des Winkels α in Einheitskreis Diese Darstellung hat auch viele Vorteile: Z. B. kann man sofort sehen, dass sowohl cos (−α ) = cos α und sin (−α ) = − sin α als auch sin α 2 + cos α 2 = 1 für α ∈ [0, 2π ] gilt; Auch die Periodizität von Sinus und Kosinus, und viele bedeutende Werte, die die Funktionen annehmen: √ √ π 2 π π 2 sin 0 = 0, sin = , sin = 1, sin (− ) = , sin (−π ) = 0; 4 2 2 4 2 und √ √ π 2 π π 2 cos 0 = 1, cos = , cos = 0, cos (− ) = − , cos (−π ) = −1. 4 2 2 4 2 Wir haben unser Repertoire an Funktionen deutlich erweitert, so dass die Untersuchung der Diffferential- und Integralrechnung reeller Funktionen ordentlich gemacht werden kann. Diese sind die zwei letzten Themen der Infinitesimalrechnung, bevor wir mit der linearen Algebra anfangen. 1Es ist zugleich eine attraktive geometrische Aufgabe, sich zu überlegen, warum das so ist! ABSCHNITT 11 Differenzierbarkeit reeller Funktionen Die Schöpfung der Differenzialrechnung im 17. Jahrhundert von Newton und Leibniz ist das Resultat intensiven Nachdenkens, das über Jahrhunderte zurückgeht, bezogen auf folgende Problemensorten: • Die Bestimmung der Momentangeschwindigkeit und -beschleunigung. • Die Bestimmung der Tangenten an Kurven, die auch wichtig für die Herstellung von Linsen war. • Die Berechnung von Funktionenextrema, die eine große Rolle bei ballistischen Kurven und dem Studium der Planeten Bewegung gespielt hat. • Die Berechnung von Kurvenlängen, auch im Kontext von Planetenbahnen. Die beste Annäherung zum Begriff der Differenzierbarheit kommt geometrisch durch die Tangente auf. Sei I eine Teilmenge von R. Seien a ∈ I ein Punkt und f : I → R eine Funktion. Für einen weiteren Punkt x ∈ I kann man die Sekante durch die Punkte (a, f (a)) und (x, f (x)) des Funktionsgraphen ziehen. Lassen wir x gegen a laufen, so wird aus den Sekanten anschaulich eine Tangente. Die Präzisierung dieses Grenzwertprozesses führt letztlich zum Begriff der Differenzierbarkeit. f (x) f (x) − f (a) f (a) x−a a xn x1 x = x0 88 Abschnitt 11 Zu x ∈ I, x 6= a, heißt die Zahl f (x) − f (a) x−a der Differenzquotient von f zu a und x. Sie ist die Steigung der Sekante am Graph durch die beiden Punkte (a, f (a)) und (x, f (x)). Für x = a ist dieser Quotient nicht definiert, aber es existiert der Grenzwert für x → a. Dieser repräsentiert dann die Steigung der Tangente an f im Punkt (a, f (a)) (oder an der Stelle a): Definition. Sei I ⊂ R ein Intervall, a ∈ I und f : I → R eine Funktion. Man sagt, dass die Funktion f differenzierbar in a ist, wenn der Limes f (x) − f (a) lim x−a x∈I\{a},x→a existiert und endlich ist. In diesem Fall heißt der Limes die Ableitung von f in a, geschrieben f ′ (a). Existiert die Ableitung in einem Punkt a, ist sie eine reelle Zahl. Häufig nimmt man die Differenz h := x − a als Parameter für den Limes des Differenzenquotienten, und lässt h gegen 0 gehen, d.h. man betrachtet den Grenzwert f (a + h) − f (a) lim , h→0 h wobei die Bedingung x ∈ I \{a} zur Bedingung a+h ∈ I, h 6= 0 wird. Diese werden wir ab jetzt nicht mehr kennzeichen, und wir werden limx→a statt limx∈I\{a}, x→a schreiben. Beispiele. (i) Seien α , β ∈ R, und sei die Funktion f : R → R gegeben durch x 7→ α x + β . Die Ableitung von f im Punkt a ∈ R wird durch den Quotient (α x − β ) − (α a − β ) α (x − a) = =α x−a x−a bestimmt. Dieser ist konstant gleich α , dann existiert der Limes für x → a und ist gleich α , d.h., die Ableitung von f existiert im Punkt a und ist gleich α . (ii) Wir betrachten die Funktion g : R → R, x 7→ x2 . Der Differenzquotient zu x und a ist g(x) − g(a) (x)2 − a2 (x + a)(x − a) = = = x + a. x−a x−a x−a Der Grenzwert davon für x → a existiert offensichtlich. Daher ist g(a + h) − g(a) g′ (a) = lim = lim x + a = 2a. x→a h→0 h Eine Charakterisierung der Differenzierbarkeit einer Funktion in einem Punkt ist gegeben durch: Differenzierbarkeit reeller Funktionen 89 Satz 11.1. Sei I ⊂ R ein offenes Intervall, a ∈ I ein Punkt und f : I → R eine Funktion. Dann ist f in a genau dann differenzierbar, wenn es ein s ∈ R und eine Funktion ρ : I → R gibt mit ρ stetig in a und ρ (a) = 0 und mit f (x) = f (a) + s · (x − a) + ρ (x)(x − a). Beweis. Wenn f in a differenzierbar ist, so setzen wir s := f ′ (a). Für die Funktion ρ muss notwendigerweise f (x)− f (a) − s für x 6= a, x−a ρ (x) = 0 für x = a, gelten, um die Bedingungen zu erfüllen. Aufgrund der Differenzierbarkeit existiert der Limes f (x) − f (a) −s lim ρ (x) = lim x→a x→a x−a und hat den Wert 0. Das bedeutet, dass ρ in a stetig ist. Es existieren umgekehrt s und ρ mit den angegebenen Eigenschaften, so gilt für x 6= a die Beziehung f (x) − f (a) = s + ρ (x). x−a Da ρ stetig in a ist, muss auch der Limes links für x → a existieren. Der Satz 11.1 hat eine klare geometrische Bedeutung. Die Gleichung f (x) = f (a) + s · (x − a) + ρ (x)(x − a) lässt sich schreiben als f (x) − g(x) = (x − a)ρ (x), mit g(x) = f (a) + f ′ (a)(x − a). Anschaulich: f (x) g(x) f (x) f (x) − f (a) g(x) f (a) a x 90 Abschnitt 11 Das heißt: Die Differenz zwischen der Funktion f und ihrer Tangente läuft gegen 0 für x → a schneller als x gegen a. Aus dem Satz 11.1 folgt unmittelbar: Satz 11.2. Sei I ⊂ R ein offenes Intervall, a ∈ I ein Punkt und f : I → R eine Funktion, die im Punkt a differenzierbar ist. Dann ist f stetig in a. Beweis. Es gilt f (x) − f (a) = f ′ (a)(x − a) + ρ (x)(x − a) → 0 für x → a, und damit lim f (x) = f (a). x→a Beispiel. Die Umkehrung des Satzes 11.2 gilt nicht. Zum Beispiel betrachten wir die Funktion f : R → R, x 7→ |x|. Die Funktion ist stetig im Nullpunkt, aber nicht differenzierbar, denn x f (x) − f (0) = 1, falls x ≥ 0 = x−x x−0 x = −1 falls x < 0. Es gelten die folgenden Rechenregeln für differenzierbare Funktionen Satz 11.3. Sei I ein offenes Intervall, a ∈ I und f , g : I → R zwei Funktionen. (a) Ist f konstant auf I, dann ist f differenzierbar auf I mit f ′ (x) = 0 für alle x ∈ I. (b) Sind f und g differenzierbar im Punkt a, und α , β ∈ R, dann (i) ist α f ± β g differenzierbar in a mit (α f ± β g)′ (a) = α f ′ (a) ± β g′ (a). (ii) ist f · g differenzierbar in a mit ( f · g)′(a) = f ′ (a)g(a) + f (a)g′(a). (iii) ist f /g differenzierbar in a falls g(a) 6= 0 und es gilt f ′ f ′ (a)g(a) − f (a)g′(a) . = g (g(a))2 Beweis. Zu (a): Die Aussage folgt aus dem obigen Beispiel für α = 0. Zu (b): Die erste Aussage lässt sich einfach nachrechnen. Zu (ii) gilt definitionsgemäß ( f · g)(x) − ( f · g)(a) ( f · g)′ (a) = lim x→a x−a f (x)g(x) − f (a)g(a) = lim x→a x−a f (x)g(x) − f (x)g(a) + f (x)g(a) − f (a)g(a) = lim x→a x−a g(a)( f (x) − g(a)) f (x)(g(x) − g(a)) + lim = lim x→a x→a x−a x−a ′ ′ = f (a)g (a) + g(a) + f (a). Differenzierbarkeit reeller Funktionen 91 Für die Regel der Quotient (iii) betrachten wir zuerst den Fall f = 1: 1 1 1 1 − g(a) 1 ′ g(x) g (x) − g (a) ( ) (a) = lim = lim x→a x→a g x−a x−a g(a) − g(x) 1 1 · = · (−g′(a)). = lim 2 x→a g(x)g(a) x−a (g(a)) Es gilt nun im Allgemeinen nach Anwendung von (ii): f 1 1 1 ( )′ (a) = ( f · )′ (a) = f (a)( )′ (a) + ( )(a) f ′(a) g g g g 1 1 ′ ′ (−g (a)) + f (a) = f (a) (g(a))2 g(a) ′ ′ − f (a)g (a) + f (a)g(a) . = (g(a))2 Nach dem Satz 11.3 und mit Hilfe der vollständigen Induktion kann man beweisen: Satz 11.4. Jede Polynomfunktion f = f (x) = an xn + . . . + a0 ist auf R differenzierbar mit f ′ (x) = nan xn−1 + (n − 1)an−1 xn−2 + . . . + a1. f (x) mit f , g Polynomfunktionen und g 6= 0 auf Ferner ist jede rationale Funktion g(x) ihrem Definitionsbereich differenzierbar. Die Hintereinanderschaltung von Funktionen lässt sich auch differenzieren wie folgender Satz andeutet: Satz 11.5 (Kettenregel). Seien I, J ⊂ R zwei offene Intervalle, a ∈ I und f : I → R, g : J → R Funktionen mit f (I) ⊂ J und f (a) =: b. Setzen wir auch voraus, dass f in a diferenzierbar ist, und dass g in b differenzierbar ist. Dann ist g ◦ f differenzierbar in a mit (g ◦ f )′ (a) = g′ ( f (a)) · f ′ (a) = g′ (b) · f ′ (a). Beweis. Nach Satz 11.1 ist f (x) = f (a) + (x − a)(s1 + ρ1 (x)) g(y) = g(b) + (y − b)(s2 + ρ2 (y)) 92 Abschnitt 11 mit f˜(x) := s1 + ρ1 (x) bzw. g̃(x) := s2 + ρ2 (y) stetig in a bzw. in b auf I bzw. J. Damit ergibt sich g( f (x)) = g(b) + ( f (x) − b)g̃( f (x)) = g( f (a)) + ( f (a) + (x − a) f˜(x) − f (a))g̃( f (x)) = g( f (a)) + (x − a) f˜(x)g̃( f (x)). Da f˜ · (g̃ ◦ f ) im Punkt a stetig ist, sind wir wegen Satz 11.1 fertig. Die Differenzierbarkeit der Umkehrfunktion lässt sich wie folgt beweisen: Satz 11.6. Seien I ⊂ R ein offenes Intervall, a ∈ I ein Punkt, und f : I → R eine injektive, stetige, in a differenzierbare Funktion mit f ′ (a) 6= 0. Dann ist die Umkehrfunktion f −1 von f in b = f (a) differenzierbar mit ( f −1)′ (b) = 1 f ′ ( f −1 (b)) = 1 f ′ (a) . Beweis. Es ist die Existenz des Grenzwertes f −1 (y) − f −1(b) lim y→b y−b zu rechtfertigen. Nach dem Satz 9.7 ist f −1 stetig in b, und daher gilt lim f −1 (y) = f −1 (b) = a. y→b Wenn wir x = f −1 (y) setzen, dann ist lim y→b x−a f −1 (y) − a = lim = lim x→a f (x) − f (a) x→a y−b 1 f (x)− f (a) x−a = 1 f ′ (a) . Beispiel. Für n ∈ N, n ≥ 1 betrachten wir die Funktionen f , g gegeben durch f : [0, ∞[→ R, x 7→√xn g : [0, ∞[→ R, x 7→ n x. Für a > 0 ist f ′ (a) = nan−1 6= 0. Daher ist g an jeder Stelle b > 0 differenzierbar mit 1 1 1 1 = b n −1 . = √ g′ (b) = ′ n f (g(b)) n( b)n−1 n Wegen f ′ (0) = 0 ist g für n ≥ 2 im Nullpunkt nicht differenzierbar. Die Ermittlung von Grenzwerten der Form lim f (x)/g(x) mittels der Differenx→a tialrechnung beschreibt der folgende Satz: Differenzierbarkeit reeller Funktionen 93 Satz 11.7 (Regel von L’Hôpital1). Sei I ein offenes Intervall. Seien f , g differenzierbare Funktionen auf I mit g(x) 6= 0 und g′ (x) 6= 0 für alle x ∈ I. Sei a ein Häufungspunkt von I. Dann gilt: Ist eine der Voraussetzungen (a) lim f (x) = lim g(x) = 0 x→a x→a (b) lim g(x) = ∞ (oder −∞) x→a erfüllt, dann ist f (x) f ′ (x) = lim ′ , x→a g(x) x→a g (x) falls der rechtsstehende Grenzwert existiert. lim Eine analoge Aussage gilt, falls I ein offenes Intervall ist, a ∈ I und f , g differenzierbar auf I \ {a} sind mit g(x) 6= 0, g′ (x) 6= 0 für alle x ∈ I \ {a}. Beweis. Wir betrachten nur die leichtere Situation (a) (der interessierte Leser wird für (b) auf [Heu] verwiesen.) Sei also lim f (x) = lim g(x) = 0. x→a x→a Die Strategie ist: Wir beweisen die Aussage für a ∈ R und versuchen dies in der Situation b = ∞ anzuwenden. (i) Angenommen wird zunächst, dass a ∈ R ist. Dann besagt die Voraussetzung: f und g sind in a stetig mit dem Wert 0, was uns f (a) = g(a) = 0 zu schreiben erlaubt. Dann ist f (x) − 0 f (x) − f (a) f (x) = lim = lim = lim lim x→a g(x) − 0 x→a g(x) − g(a) x→a x→a g(x) f (x)− f (a) x−a g(x)−g(a) x−a f ′ (x) , x→a g′ (x) = lim aufgrund der für unsere Zwecke günstigen Voraussetzungen. (ii) Angenommen, es ist a = ∞ (für −∞ verläuft es analog). Dann gibt es ein b > 0 mit ]b, ∞[⊂ I. Sei nun die Hilfsfunktion h(y) = 1y , und das Intervall J :=]0, b1 [. Dann ist f (J) ⊂ I, und die Funktionen f˜ := f ◦ h|J und g̃ := g ◦ h|J sind auf J differenzierbar, mit g̃(y) 6= 0 und g̃′ (y) 6= 0 für alle y ∈ J. 1 ...tout à fait au-dessus de la vaine gloire, que la plupart des Sçavans reserchent avec tant d’avidité...”. ” Fontenelles Meinung über Guillaume-François-Antoine de L’Hôpital, Marquis de Sainte-Mesme et du Montellier, Comte d’Antremonts, Seigneur d’Ouques, 1661–1704. 1696 sagte er von ihm selber: Au reste je ” reconnois devoir beaucoup aus lumieres de Mrs Bernoulli, sur tout à celles du jeune presentement Professeur à Groningue. Je me suis servi sans façon de leurs découvertes...”. 94 Abschnitt 11 Sie erfüllen weiterhin die Voraussetzung (a) mit (dortigem) a = 0. Dann dürfen wir (i), und die Kettenregel, anwenden: f (x) f˜(y) f (1/y) lim = lim = lim x→∞ g(x) y→0 g(1/y) y→0 g̃(y) ′ f ′ (1/y)(−1/y2) f˜ (y) (i) = lim ′ = lim ′ y→0 g (1/y)(−1/y2 ) y→0 g̃ (y) f ′ (x) f ′ (1/y) = lim ′ = lim ′ . x→∞ g (x) y→0 g (1/y) Beispiel. Es ist lim x→0 so dass ex − 1 x = 1, denn die Voraussetzung (a) in Satz 11.7 ist erfüllt, ex − 1 ex = lim = 1 x→0 x→0 1 x lim gilt. Es ist hierzu das Kommentar von H. Hauser anzubringen: Der dem Anfänger so teure Glaube ” an die Wunderkräfte der Regel von de l’Hospital, ist irrig und wird nicht selten mit entnervenden Rechnungen gebüßt.” (Vgl. [Heu], S. 290.) Nun möchten wir die Differenzierbarkeit der Exponentialfunktion und der trigonometrischen Funktionen zeigen. Satz 11.8. (a) exp ist auf R differenzierbar mit exp′ (a) = exp (a) für alle a ∈ R. (b) cos ist auf R differenzierbar mit cos′ (a) = − sin (a) für alle a ∈ R. (c) sin ist auf R differenzierbar mit sin′ (a) = cos (a) für alle a ∈ R. Beweis. Zu (a): Zunächst zeigen wir die Aussage für a = 0. Es ist die Definition von Ableitung im Nullpunkt anzuwenden. Es gilt also exp (x) − 1 ex − 1 = lim = 1 = exp (0) x→0 x→0 x−0 x nach dem obigen Beispiel. Für a ∈ R beliebig gilt exp (x) = exp (a) · exp (h(x)) mit h : R → R, x 7→ x − a differenzierbar auf R. Da exp in 0 = h(a) differenzierbar ist, ist exp auch in a differenzierbar mit exp′ (0) = lim exp′ (a) = exp (a) · exp′ (h(a)) · h′ (a) = exp (a). Zu (b): Für jedes a ∈ R gilt x+a sin ( x−a ) x+a sin x − sin a 2 sin ( x−a 2 ) cos ( 2 ) = = x−a2 cos ( ) x−a x−a 2 2 Differenzierbarkeit reeller Funktionen 95 und es ist daher sin ( x−a ) x+a 2a sin x − sin a = lim x−a2 · lim cos ( ) = 1 · cos ( ) = cos (a). x→a x→a x→a x−a 2 2 2 lim Zu (c): Für jedes a ∈ R gilt analog zu (b): x+a sin ( x−a ) cos x − cos a −2 sin ( x−a x+a 2 ) sin ( 2 ) = = x−a2 (− sin ( )) x−a x−a 2 2 und es ist daher sin ( x−a ) 2a x+a cos x − cos a = lim x−a2 · lim −sin ( ) = 1· −sin ( ) = − sin (a). x→a x→a x→a x−a 2 2 2 lim Die Funktion log :]0, ∞[→ R ist differenzierbar und für a ∈]0, ∞[ gilt nach Satz 11.6 und Satz 11.8 1 1 log′ (a) = = . exp (log (a)) a Die Umkehrfunktionen arccos bzw. arcsin von cos bzw. sin sind auf ] − 1, 1[ differenzierbar mit −1 1 arccos′ (a) = √ und arcsin′ (a) = √ 1 − x2 1 − x2 für jedes a ∈] − 1, 1[. Die Tangensfunktion ist auf R \ {kπ + π2 : k ∈ Z} differenzierbar mit tan′ (a) = 1 = 1 + tan2 (a) 2 cos (a) für jedes a aus ihrem Definitionsbereich. Analog ist die Kotangensfunktion auf R \ {kπ : k ∈ Z} differenzierbar mit cot′ (a) = −1 = −1 − cot2 (a) 2 sin (a) für jedes a aus ihrem Definitionsbereich. Die Umkehrfunktionen arctan bzw. arccot von tan bzw. cot sind auf R differenzierbar mit 1 arctan′ (a) = = cos2 (arctan(a)) 2 1+a −1 arccot′ (a) = = − cos2 (arctan(a)). 2 1+a Zum Schluss wollen wir uns aus der Abhängigkeit des Punktes in der Definition von Ableitung” befreien, indem wir die Ableitung als Funktion verstehen. Sei ” 96 Abschnitt 11 dazu I ⊂ R ein Intervall und f : I → R eine Funktion. Man sagt, dass f differenzierbar ist, wenn für jeden Punkt a ∈ I die Ableitung f ′ (a) von f in a existiert. Die Abbildung f ′ : I → R, x 7→ f ′ (x) heißt dann die Ableitung (oder Ableitungsfunktion) von f . Die Ableitung f ′ einer in jedem Punkt differenzierbaren Funktion nennt man häufig auch die erste Ableitung von f . Höhere Ableitungen werden rekursiv definiert: Definition. Sei I ⊂ R ein Intervall und sei f : I → R eine Funktion. Die Funktion f heißt n-mal differenzierbar, wenn sie (n − 1)-mal diferenzierbar ist und die (n − 1)te Ableitung von f , bezeichnet mit f (n−1) , differenzierbar ist. Die Ableitung f (n) (x) := ( f (n−1) )′ (x) nennt man dann die n-te Ableitung von f . Die zweite Ableitung bezeichnet man auch mit f ′′ , die dritte mit f ′′′ . Eine Funktion f heißt unendlich oft differenzierbar, wenn sie n-mal differenzierbar ist für jedes n ∈ N. Eine Funktion heißt unendlich oft differenzierbar, wenn sie n-mal differenzierbar für jedes n ∈ N ist. Eine differenzierbare Funktion ist stetig, aber ihre Ableitung muss nicht mehr stetig sein. Insofern ergibt der folgende Begriff Sinn: Definition. Sei I ⊂ R ein Intervall und sei f : I → R eine Funktion. Die Funktion f heißt stetig differenzierbar, wenn f differenzierbar ist und ihre erste Ableitung f ′ stetig ist. Eine Funktion heißt n-mal stetig differenzierbar, wenn sie n-mal differenzierbar ist und die n-te Ableitung stetig ist. Beispiele. (i) Polynomfunktionen, die Exponentialfunktion, die Sinusfunktion und die Kosinusfunktion sind unendlich oft differenziebar, sogar unendlich oft stetig differenzierbar. (ii) Sei f : R → R die Funktion gegeben durch f (x) = x · |x|. Falls a < 0, ist f ′ (a) = −2a. Falls a > 0 ist f ′ (a) = 2a. Außerdem gilt f ′ (0) = 0. Die Funktion f ist dann in R differenzierbar, und ihre erste Ableitung ist die Funktion f ′ : R → R gegeben durch f ′ (x) = 2|x|. Die Funktion f ′ ist überall stetig, und sie ist differenzierbar nur” in R \ {0}. D.h. f ist einmal ” differenzierbar, bloß nicht zweimal, da f ′ nicht weiter differenzierbar ist. Ferner ist f (einmal) stetig differenzierbar, weil f ′ stetig ist. ABSCHNITT 12 Mittelwertsätze der Differenzialrechnung Unser Ziel ist die Integralrechnung. Aus für uns noch unerfindlichen Gründen müssen wir die Differenzierbarkeit vollständig nachvollziehen. Bisher haben wir eher technische Eigenschaften der Ableitungskunst betrachtet, und keine tieferen Ergebnisse über ihre geometrische Bedeutung und ihre Wichtigkeit beim Verständnis des Wachstumsverhaltens einer Funktion. Diese Betrachtung wird in diesem Abschnitt geschehen1. Ein erstes Resultat liefert eine notwendige Bedingung für die Bestimmung von Extrema: Satz 12.1. Sei f :]a, b[→ R eine Funktion, die in c ∈]a, b[ ein lokales Extremum hat und dort differenzierbar ist. Dann ist f ′ (c) = 0. Beweis. OBdA dürfen wir annehmen, dass f im Punkt c ein lokales Maximum besitzt (für lokale Minima verläuft der Beweis analog). D.h. definitionsgemäß existiert ein ε > 0 derart, dass f (y) ≤ f (c) für alle y ∈]a, b[ mit |y − c| < ε . Sei nun eine Folge in ]a, b[ mit xn < c und xn → c. Dann ist |xn − c| < ε für alle n ≥ n0 bei geeignetem n0 ∈ N. Daraus folgt f (xn ) − f (c) f ′ (c) = lim ≥ 0, n→∞ xn − c da f (xn ) ≤ f (c) ist für n ≥ n0 , und ferner xn < c gilt. Sei (yn ) eine Folge in ]a, b[ mit yn > c und yn → c. Dann ergibt sich analog f (yn ) − f (c) ≤ 0, f ′ (c) = lim n→∞ yn − c insgesamt also f ′ (c) = 0. Die Ableitung von f wird durch Grenzübergang aus dem Differenzenquotienten hergeleitet. Dann ist klar, dass wir Eigenschaften der Ableitung aus den Eigenschaften des Differenzenquotienten schliessen können. Ist das umgekehrt auch so? Die Antwort auf diese Frage wird vom Mittelwertsatz der Differentialrechnung geliefert. Zunächst eine vereinfachte Form des Problems: 1Die Art, wie es heute Standard ist, in der wir diese Themen präsentieren, stammt aus dem Traité de ” Calcul differéntiel et intégral” von J.A. Serret, erstmal 1868 veröffentlicht. Serret verwies auf Bonnet als Quelle: la démostration qui précède est due à M. Ossian Bonnet”. Vgl. [Se], S. 19. ” 98 Abschnitt 12 Satz 12.2 (Rolle). Sei a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion mit f (a) = f (b). Dann gibt es ein c ∈]a, b[ mit f ′ (c) = 0. Beweis. Ist die Funktion f konstant, dann gilt offensichtlich f ′ (c) = 0 für alle c ∈ ]a, b[. Ist f nicht konstant, so existiert ein x ∈]a, b[ mit f (x) 6= f (a). OBdA dürfen wir annehmen, dass f (x) > f (a) ist. Nach dem Satz von Weierstraß 9.4 nimmt f in [a, b] ihr globales Maximum. Dieses wird weder in a noch in b angenommen, denn es gilt f (x) > f (a) = f (b). Sei nun M dieses Maximum, und sei c ∈]a, b[ mit f (c) = M. Die Funktion f nimmt also insbesondere ein lokales Maximum in c an, und f ist nach Voraussetzung in c differenzierbar. Nach dem Satz 12.1 ist dann f ′ (c) = 0. Geometrisch erscheint die Aussage des Rolleschen Satzes außerordentlich einleuchtend2. Denn der Kurvenbogen C gegeben durch die Gleichung y = f (x) geht nach der Voraussetzung des Satzes durch die beiden Endpunkten der Strecke [a, b] auf der x-Achse. Behauptet wird dann, dass über einem gewissen inneren Punkt dieser Sekante eine Tangente an C zur x-Achse parallel ist: Q a c b C Dabei sind Sekante und Tangente waagerecht. Warum soll die waagerechte” ” Lage ausgezeichnet sein? Tätsächlich gibt es keinen Grund, wie Lagrange erkannt hat: Satz 12.3 (Mittelwertsatz der Differentialrechnung von Lagrange). Seien a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion. Dann existiert ein c ∈]a, b[ mit f (b) − f (a) . f ′ (c) = b−a 2Michel Rolle (1652–1719) hat den Satz für Polynomfunktionen gefunden, bei dem seine Aussage besonders einfach lautet. Der Rollesche Satz gehört heute zum wesentlichen Ergebniss der Elementaranalysis. Paradoxerweise, wie Ostrowski bemerkt hat, war Rolle selber einer der erbittertsten Gegner des neuen ” Kalküls” der Infinitesimalrechnung (vgl. [Os], S. 152). Mittelwertsätze der Differenzialrechnung 99 Beweis. Wir drehen” die Funktion f so dass der Rollesche Satz 12.2 angewandt ” werden kann. Sei dafür die Hilfsfunktion f (b) − f (a) (x − a). g(x) := f (x) − b−a Nach den Rechenregeln für stetige und differenzierbare Funktionen erfüllt g die Voraussetzungen von 12.2, und die Ableitung von g ist f (b) − f (a) . b−a Deshalb existiert nach dem Rollschen Satz 12.2 ein c ∈]a, b[ mit g′ (x) = f ′ (x) − 0 = g′ (c) = f ′ (c) − und daher ist f ′ (c) = f (b)− f (a) b−a . f (b) − f (a) , b−a Das geometrische Gehalt des Mittelwertsatzes der Differentialrechnung von Lagrange ist eine Verallgemeinerung des Rolleschen Satzes, nämlich: Es möge längs eines Bogens der stetigen Kurve y = f (x) eine Tangente vorhanden sein, dann ist in einem gewissen inneren Punkte dieses Bogens die Tangente parallel zur Sehne, die den Bogen spannt (vgl. die Sehne PP′ in der Aufzeichnung): f (x) = 4x sin (x) + 2 P′ P a c1 c2 b Wie man sieht, unterscheidet sich diese Aussage von derjenigen des Rollenschen Satzes nur dadurch, dass dort die Sehne PP′ auf der x-Achse lag. f (a) Die Größe f (b)− repräsentiert die Steigung der Sekante durch P und P′ ; b−a f ′ (c) repräsentiert, wie im vorausgegangenen Abschnitt gesprochen, die Steigung der Tangente am Graph von f im Punkt c. Beispiel. Seien a, b ∈ R. Es gilt | sin b − sin a| ≤ |b − a|. OBdA wird a < b angenommen. Da die Sinusfunktion in [a, b] stetig, und in ]a, b[ differenzierbar ist, 100 Abschnitt 12 existiert nach Satz 12.3 ein c ∈]a, b[ so dass sin b − sin a = sin′ c = cos c b−a gilt. Aus | cos x| ≤ 1 für alle x ∈ R ergibt sich | sin b − sin a| = | cos c||b − a| ≤ |b − a|. Es gibt doch eine weitere Verallgemeinerung des Mittelwertsatzes von Lagrange: Satz 12.4 (Mittelwertsatz der Differentialrechnung von Cauchy). Seien a < b und f , g : [a, b] → R stetige, auf ]a, b[ differenzierbare Funktionen. Dann existiert ein c ∈]a, b[ mit ( f (b) − f (a))g′(c) = (g(b) − g(a)) f ′(c). Darüber hinaus, wird eine der Voraussetzungen (a) g′ (x) 6= 0 für alle x ∈]a, b[, (b) g(a) 6= g(b) und die Funktionen f ′ und g′ verschwinden nicht gleichzeitig, erfüllt, dann darf man schreiben: f ′ (c) f (b) − f (a) = ′ . g(b) − g(a) g (c) Beweis. Sei die Hilfsfunktion h(x) := ( f (b) − f (a))g(x) − (g(b) − g(a)) f (x). Die Funktion h ist stetig im ganzen Intervall [a, b] und differenzierbar auf ]a, b[. Ferner ist h(a) = f (b) − g(a) − f (a)g(a) − g(b) f (a) + g(a) f (a) = f (b)g(a) − g(b) f (a) h(b) = f (b)g(a) − g(b) f (a), d.h., es gilt h(a) = h(b). Nach dem Rolleschen Satz 12.2 existiert ein c ∈]a, b[ so dass h′ (c) = 0, d.h., so dass ( f (b) − f (a))g′(c) = (g(b) − g(a)) f ′(c) gilt. Angenommen, es gilt (a): Einerseits ist g′ (c) 6= 0; andererseits würden g(a) und g(b) übereinstimmen, und so existierte ein d ∈]a, b[ nach dem Rolleschen Satz auf g angewandt so dass g′ (d) = 0, was ein Widerspruch ist. Angenommen, es gilt (b): Einerseits ist g(b) − g(a) 6= 0; andererseits würde g′ (c) verschwinden, dann würde sich auch f ′ (c) annullieren, was ein Widerspruch zur Tatsache ist, dass f ′ und g′ nicht zugleich verschwinden. Mittelwertsätze der Differenzialrechnung 101 Eine erste Anwendung des Mittelwersatzes von Lagrange ist der Schrankensatz: Satz 12.5 (Schrankensatz). Seien a < b und f : [a, b] → R eine stetige und auf ]a, b[ differenzierbare Funktion. Für alle x ∈]a, b[ gelte m ≤ f ′ (x) ≤ M für m, M ∈ R. Dann gilt für alle y, z ∈ [a, b] mit y ≤ z m(z − y) ≤ f (z) − f (y) ≤ M(z − y). Beweis. OBdA dürfen wir y < z annehmen. Dann existiert nach Satz 12.3 ein c ∈ ]a, b[ mit f (z) − f (y) ≤ M. m ≤ f ′ (c) = z−y Daraus folgt unmittelbar: Satz 12.6. Seien a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion mit f ′ (x) = 0 für alle x ∈]a, b[. Dann ist f konstant. Beweis. Es genügt m = M = 0 in Satz 12.5 einzusetzen. Der Mittelwertsatz von Lagrange hilft beim Verständnis des Monotonieverhaltens einer Funktion. Satz 12.7 (Monotonietest). (i) Seien a < b und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion. Gilt für alle x ∈]a, b[ f ′ (x) > 0 streng monoton wachsend f ′ (x) < 0 streng monoton fallend so ist die Funktion f au f [a, b]. f ′ (x) ≥ 0 monoton wachsend f ′ (x) ≤ 0 monoton fallend (ii) Wenn die Funktion f : [a, b] → R ′ wächst f (x) ≥ 0 monoton , so ist f ür alle x ∈ [a, b], in denen f diffefällt f ′ (x) ≤ 0 renzierbar ist. Beweis. Zu (i): Falls f ′ (x) > 0 ist für alle x ∈]a, b[, folgt mit dem Mittelwertsatz von Lagrange für y, z ∈ [a, b], y < z und geeignetem x ∈]y, z[, dass f (z) − f (y) = f ′ (x)(z − y) > 0. Analog erledigt man die anderen Fälle. 102 Abschnitt 12 Zu (ii): Die Aussage folgt wie der Satz 12.2 durch direkte Betrachtung der Differenzquotienten: Sie sind alle ≥ 0 falls f monoton wachsend ist, und alle ≤ 0 falls f monoton fallend ist. Bevor wir mit der Integralrechnung anfangen, möchten wir eine letzte Anwendung der Differenzialrechnung einführen: Die Bestimmung der Konvexität oder Konkavität einer differenzierbaren Funktion auf einem Intervall. Dies soll als Komplemet betrachtet werden, da wir dies in der Vorlesung nicht thematisiert haben. Definition. Sei I ⊂ R ein Intervall. Sei f : I → R eine Funktion. Man sagt, dass die Funktion f konvex auf I ist, wenn für alle x, y ∈ I mit x < y, und für alle λ ∈]0, 1[ gilt f ((1 − λ )x + λ x) ≤ (1 − λ ) f (x) + λ f (y)). Andererseits heißt das, wenn die Ungleichung f ((1 − λ )x + λ x) ≥ (1 − λ ) f (x) + λ f (y)). gilt, dann heißt die Funktion f konkav auf I. Dazu zwei Bemerkungen: (i) Es ist x < (1 − λ )x + λ y < y, falls λ ∈]0, 1[. (ii) Die Funktion, die durch die Gerade, welche durch die Punkte (x, f (x)) und (y, f (y)) laüft, definiert ist, nimmt in (1 − λ )x + λ y den Wert (1 − λ ) f (x) + λ f (y) an. Es ist nicht schwierig zu beweisen: Satz 12.8. Seien I ⊂ R ein Intervall und f : I → R eine Funktion. Genau dann ist f konvex auf I, wenn für alle x, y, z ∈ I mit x < y < z gilt f (y) − f (x) f (z) − f (y) ≤ . y−x z−y Für differenzierbare Funktionen gibt es folgende Charakterisierung: Satz 12.9. Seien ]a, b[ ein offenes Intervall und f : [a, b] → R eine stetige, auf ]a, b[ differenzierbare Funktion. Genau dann ist f konvex auf [a, b], wenn f ′ monoton wachsend in [a, b] ist. Beweis. Angenommen, f ist konvex. Für x, y ∈ [a, b] mit x < y ist zu zeigen, dass f ′ (x) ≤ f ′ (y). Sei hierzu x1 ∈]x, y[. Wegen Satz 12.8 gilt f (y) − f (x1) f (x1) − f (x) ≤ . x1 − x y − x1 Lassen wir einerseits x1 gegen x laufen, dann wird f ′ (x) ≤ andererseits x1 gegen y laufen, so wird f ′ (y) ≥ f ′ (x) ≤ f ′ (y). f (y)− f (x) y−x . f (y)− f (x) y−x . Lassen wir Insgesamt ergibt sich Mittelwertsätze der Differenzialrechnung 103 Sei umgekehrt f ′ monoton wachsend in [a, b]. Ist zu zeigen, dass f (z) − f (y) f (y) − f (x) ≤ y−x z−y für x < y < z gilt. Nach dem Mittelwertsatz von Lagrange auf der Funktion f |[x, y] angewandt, existiert ein c1 ∈]x, y[ mit f (y) − f (x) = f ′ (c1). y−x Analoges Argument für die Funktion f |[y, z] ergibt die Existenz eines c2 ∈]y, z[ mit f (z) − f (y) = f ′ (c2 ). z−y Da c1 < c2 und f ′ nach Voraussetzung monoton wachsend ist, dann erhalten wir , wie gewünscht f ′ (c1 ) ≤ f ′ (c2). Die Kombination von Satz 12.9 mit dem Monotonietest 12.7 liefert folgendes Kriterium: Satz 12.10. Sei f : [a, b] → R stetig, zwei mal differenzierbar auf ]a, b[. Genau dann ist f konvex in I, wenn f ′′ (x) ≥ 0 für alle x ∈]a, b[. Die Punkte bei denen das Konvexitätsverhalten wechselt, heißen Wendepunkte: Definition. Sei f : [a, b] → R eine stetige, auf ]a, b[ zweimal differenzierbare Funktion. Ein Punkt c ∈ [a, b] heißt ein Wendepunkt von f wenn f ′′ (x) < 0 für x < c und f ′′ (x) > 0 für x > c oder f ′′ (x) > 0 für x < c und f ′′ (x) < 0 für x > c ist (wobei nur die x in einer gewissen Umgebung von c in Betracht gezogen werden). Dann muss f ′′ (c) = 0 sein. Eine Erklärung dafür kann man aus einem Analogon der Darbouxschen Eigenschaft für Ableitungen schließen, nämlich: Satz 12.11 (Zwischenwertsatz für Ableitungen). Sei f : [a, b] → R stetig, auf ]a, b[ differenzierbar mit f ′ (a) 6= f ′ (b). Dann nimmt f ′ in ]a, b[ jeden Wert zwischen f ′ (a) und f ′ (b). Sein Beweis ist leicht nach den bishierigen Überlegungen, und wir verzichten darauf (vgl. [Heu], S. 285). Das heißt: Nur Nullstellen der zweiten Ableitung kommen als Wendepunkte in Frage, müssen aber keine sein, weil f ′′ beim Durchgang durch eine solche Nullstelle keinen Vorzeichenwechsel zu erleiden braucht (vgl. [Heu], S. 293). Die Bedingung f ′′′ (c) 6= 0 wird dann die Bedenken auszuräumen. ABSCHNITT 13 Integrierbarkeit reeller Funktionen à la Riemann Das Ziel ist, den Flächeninhalt zwischen dem Graph einer Funktion und dem waagerechten Achse (als Integral) zu verstehen. Hierzu werden wir Funktionen f : I → R betrachten, für die I ein abgeschloßenes und beschränktes Intervall sein soll. Daher werden wir I = [a, b] mit a < b reelle Zahlen setzen. Auch kommt uns plausibel vor, dass die Funktion beschränkt sein soll, d.h. es existiert eine reelle Zahl M ≥ 0 derart, dass für alle x ∈ [a, b] die Ungleichung | f (x)| ≤ M gilt. a b Die Grundidee bei der Definition vom Integral ist, das Intervall [a, b] in kleinen Teilintervallen zu zerlegen, um die Fläche durch eine Summe von kleinen Rechtecken anzunäheren. Definition. Eine Unterteilung von [a, b] ist eine Teilmenge D = {a0 , . . . , an } von [a, b] mit a = a0 < a1 < . . . < an = b. Für i = 1, . . . , n wird das Intervall [ai−1 , ai ] das i-te Teilintervall genannt. Die Große δi := ai − ai−1 ist dann die Länge des i-ten Teilintervalls. Sind alle Teilintervalle, die durch die Unterteilung von [a, b] gegeben sind, gleichlang, so heißt die Unterteilung äquidistant. Definition. Sei nun eine wie oben definierte Unterteilung D des Intervalls [a, b]. Sei f : [a, b] → R eine beschränkte Funktion. Dann heißen die Summen n s(D, f ) = s(D) = ∑ fi · δi i=1 n bzw. S(D, f ) = S(D) = ∑ Fi · δi i=1 106 Abschnitt 13 mit fi := inf{ f (x) : x ∈ [ai−1 , ai ]} bzw. Fi := sup{ f (x) : x ∈ [ai−1 , ai ]} die Darbouxsche Untersumme bzw. die Darbouxsche Obersumme von f zur Unterteilung D. Es ist nun klar: Eine vernünftige Definition des Integrals von f muss einen Wert zwischen s(D, f ) und S(D, f ) ergeben. Definition. Sei D eine Unterteilung von [a, b]. Eine weitere Unterteilung D′ von [a, b] heißt eine Verfeinerung von D, wenn es D′ ⊃ D gilt. Satz 13.1. Ist D′ eine Verfeinerung einer Unterteilung D von [a, b], so gilt s(D) ≤ s(D) ≤ S(D) ≤ S(D) Beweis. Fügen wir eine Punkt zur Unterteilung D hinzu, dann wird die Darbouxsche Untersumme vergrößert (oder sie bleibt erhalten), und die Darbouxsche Obersumme verkleinert (oder erhalten). Das Hinzufügen von weiteren Punkten liefert die Behauptung. Satz 13.2. Für D1 , D2 Unterteilungen von [a, b] gilt s(D1 ) ≤ S(D2 ) Beweis. Sei D′ := D1 ∪ D2 die Unterteilung von sämtlichen Punkten aus D1 und D2 (ohne Wiederholung). Da D′ eine Verfeinerung von sowohl D1 als auch D2 ist, folgt die behauptete Ungleichung nach Satz 13.1. Für eine beschränkte Funktion f folgt aus Satz 13.2, dass jede Darbouxsche Obersumme eine Majorante der Menge aller Darbouxschen Untersummen ist (und umgekehrt). D.h. die Menge {s(D) : D Unterteilungung von [a, b]} ist nach oben beschränkt und die Menge {S(D) : D Unterteilung von [a, b]} ist nach unten beschränkt: s(D) S(D) A BBILDUNG 1. Darbouxsche Summen Somit ergibt es Sinne, das Supremum von Untersummen und das Infimum von Obersummen zu betrachten: Definition. Sei f : I = [a, b] → R eine beschränkte Funktion. Dann definiert man das Oberintegral und das Unterintegral von f über [a, b] durch Z b a f (x)dx := inf{S(D) : D Unterteilung von [a, b]}, Integrierbarkeit reeller Funktionen à la Riemann Z b 107 f (x)dx := sup{s(D) : D Unterteilung von [a, b]}. a Wegen Satz 13.2 sieht man sofort, dass Z b a f (x)dx ≤ Z b f (x)dx a gilt. Für normale” Funktionen sollten diese beiden Integrale übereinstimmen. Ist ” das der Fall, so heißt die Funktion Riemann-integrierbar: Definition. Sei f : [a, b] → R eine beschränkte Funktion. Dann heißt f Riemannintegrierbar auf [a, b], wenn Ober- und Unterintegral übereinstimmen: Z b a f (x)dx = Z b f (x)dx. a Dann nennen wir diese Zahl das bestimmte Integral von f über [a, b] und schreiben R hierfür ab f (x)dx. Ein erstes Kriterium für die Integrierbarkeit einer Funktion ist: Satz 13.3. Eine Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es gilt ∀ ε > 0 ∃ D̃ Unterteilung von [a, b] mit S(D̃) − s(D̃) < ε . Beweis. Definitiongemäß ist f genau dann Riemann-integrierbar, wenn die zwei Mengen in Abbildung 1 beliebig nahe liegen. D.h. für ε > 0 vorgegeben existieren zwei Unterteilungen D1 und D2 von [a, b] mit S(D2 ) − s(D1 ) < ε nach Satz 13.2. Es genügt jetzt, die Unterteilung D̃ = D1 ∪ D2 zu bilden und Satz 13.1 anzuwenden. Beispiele. (i) Wir nehmen die Funktion f : [a, b] → R gegeben durch f (x) = x. Sie ist im Intervall [a, b] monoton wachsend, so ist f (u) = u das Minimum und f (v) = v das Maximum von f über jedes Teilintervall [u, v] ⊂ [a, b]. Für n > 0 betrachten wir die äquidistante Unterteilung n b − ao Dn = ai = a + ih : i = 0, 1, . . . n und h = n o n b−a : i = 0, 1, . . . n . = ai = a + i · n 108 Abschnitt 13 Mit Hilfe von der Formel ∑ni=1 i = 12 n(n + 1) zeigt man nach einigen Rechnungen n b2 a2 (b − a)2 s(Dn ) = ∑ ai−1 δi = − − 2 2 2n i=1 n S(Dn ) = ∑ aiδi = i=1 b2 a2 (b − a)2 − + , 2 2 2n 2 und damit S(Dn ) − s(Dn ) = (b−a) n . Da diese Differenz eine Nullfolge bildet für n → ∞, also für n groß genug, so wird sie kleiner als jedes vorgegebenes ε > 0. Dann ist f Riemann-integrierbart mit Z b a b2 − a2 f (x)dx = . 2 (ii) Nun betrachten wir die Funktion g : [0, 1] → R gegeben durch g(x) = x2 . Sie ist im Interval [0, 1] monoton wachsend, so ist wie in (i) g(u) = u2 das Minimum und g(v) = v2 das Maximum von g über jedes Teilintervall [u, v] ⊂ [a, b]. Für n > 0 betrachten wir die äquidistante Unterteilung von [0, 1] n 1 − 0o Dn = ai = 0 + ih : i = 0, 1, . . . n und h = n o n 1 = ai = i · : i = 0, 1, . . . n . n Mit Hilfe von der Formel ∑ni=1 i2 = 61 n(n+1)(n+2) zeigt man nach einigen Rechnungen n s(Dn ) = S(Dn ) = n 1 1 1 1 1 ∑ ai−1δi = ∑ ((i − 1) n )2 n = 3 − 2n + 6n2 i=1 n n i=1 i=1 i=1 1 1 1 1 1 ∑ aiδi = ∑ (i n )2 n = 3 + 2n + 6n2 , und damit S(Dn ) − s(Dn ) = n1 . Da diese Differenz eine Nullfolge bildet für n groß genug, so wird sie kleiner als jedes vorgegebenes ε > 0. Dann ist f Riemann-integrierbar mit Z 1 1 g(x)dx = . 3 0 Nicht jede Funktion ist Riemann-integrierbar: Beispiel. Man betrachte die Dirichlet-Funktion, d.h. die Funktion f : [0, 1] → R mit f (x) = 1 für x ∈ Q und f (x) = 0 für x ∈ R \ Q. Da Q und R \ Q dicht in R sind, gibt es für jedes Intervall [ai−1 , ai ] zu jeder Unterteilung D von [0, 1] sowohl Integrierbarkeit reeller Funktionen à la Riemann 109 rationale als auch irrationale Zahlen mit fi = 0 und Fi = 1 für alle i, also mit s(D) = 0 und S(D) = 1 für alle D. Daraus ergibt sich Z b f (x)dx = 0 und Z b f (x)dx = 1. a a Somit ist f nicht Riemann-integrierbar. Ferner gibt es Funktionen, von denen kaum zu denken ist, dass sie Riemannintegrierbar sein können, obwohl sie es in der Tat sind: Beispiel. Man betrachte die Funktion f : [0, 1] → R gegeben durch f (x) = 0 für x = 0 oder x ∈ R \ Q und f (x) = 1q für x = qp mit ggT(p, q) = 1. Sei ε > 0 vorgegeben. Es gibt nur endlich viele x-Werte, sagen wir k, so dass f (x) > ε . Sei D eine Unterteilung von [0, 1] mit δi = εk so dass alle die k x-Werte, für die f (x) > ε gilt, im i-ten Teilintervall von [0, 1] liegen. Da f (x) ≤ 1 für alle x ∈ [0, 1], dann ist S(D) ≤ ε + k · max{δi } < ε + ε = 2ε . i Da ferner s(D) = 0 gilt, ist die Funktion f Riemann-integrierbar mit Z 1 f (x)dx = 0. 0 Dazu bekommt man zumindest die Lehre, dass die Sache knifflig ist! 1875 schrieb Du Bois-Reymond: ich fühle indessen, dass die Art, wie das Criterium ” der Integrirbarkeit formulirt wurde, etwas zu wünschen übrig lässt”. In der Tat bewies er noch zusammen mit Darboux folgendes Ergebnis: Satz 13.4. Sei f : [a, b] → R eine beschränkte Funktion. Zu h > 0 bezeichnen wir mit Dh die Menge aller Unterteilungen von [a, b] mit der Eigenschaft maxi {δi } ≤ h. Genau dann ist f Riemann-integrierbar, wenn zu vorgegebenem ε > 0 ein δ > 0 existiert derart, dass für alle Unterteilungen D ∈ Dδ die Ungleichung S(D) − s(D) < ε gilt. Beweis. Die Notwendigkeit ist eine Folgerung von Satz 13.3. Die Umkehrung ist schwieriger, denn die gesuchte Unterteilung D so dass maxi δi ≤ δ mag sich viel von der Unterteilung D̃ aus Satz 13.3 unterscheiden. Sei dazu ein ε > 0 vorgegeben, und sei D̃ eine Unterteilung so dass ∆˜ := S(D̃) − s(D̃) < ε . Die Unterteilung D̃ besteht aus endlich vielen Punkten, D̃ = {ã0 , ã1 , . . . , ãñ }. Wir betrachten nun eine beliebige Unterteilung D ∈ Dδ , und setzen ∆ := S(D) − s(D). Es ist zu zeigen, dass ∆ beliebig klein für δ → 0 wird. Sei dann D′ := D ∪ D̃ mit ∆′ := S(D′ ) − s(D′ ). Die Darbouxschen Summen für D′ und D stimmen überein, bis auf in jenen Intervallen, welche Punkte aus D̃ enthalten. Da es höchstens ñ − 1 solcher Intervalle gibt, ihre 110 Abschnitt 13 Längen ≤ δ sind, und wegen der Beschränkheit der Funktion f mit −M ≤ f (x) ≤ M für M := max{ f (x) : x ∈ [a, b]}, ergibt sich ∆ ≤ ∆′ + 2 · (ñ − 1) · δ · M. Da D′ eine Verfeinerung von D̃ ist, dann gilt ferner ∆′ ≤ ∆˜ < ε . Insgesamt erhalten ε ist. Das zeigt die hinreichende Bedingung. wir ∆ < 2ε sofern δ ≤ 2(ñ−1)M Bei der Definition der Darbouxschen Summen kann man sich fragen, inwiefern wichtig ist, genau fi bzw. Fi in Betracht zu ziehen. Das ist in der Tat unerheblich: Man könnte das Bild von jedem Punkt im Intervall [ai−1 , ai ] nehmen, nicht nur fi oder Fi . Betrachten wir das Bild f (ξi ) der Mittelpunkte ξi des Intervalls [ai−1 , ai ], so spricht man über Riemannsche Summen, d.h., Summen der Gestalt n σ (D) = ∑ f (ξi )δi : i=1 80 60 40 20 2 4 8 6 10 Es ist klar, dass fi ≤ f (ξi ) ≤ Fi gilt, und damit s(D) ≤ σ (D) ≤ S(D). Aus Satz 13.4 folgt dann das Konvergenzverhalten n ∑ f (ξi )δi −→ i=1 Z b f (x)dx a für maxi δi → 0, vorausgesetzt, dass die Funktion f : [a, b] → R Riemann-integrierbar ist. Dies liefert ein einfaches Werkzeug, um Eigenschaften des Integrals beweisen zu können. Zum Beispiel folgt die Beziehung Z b a (α f + β g)(x)dx = α Z b a f (x)dx + β Z b a g(x)dx mit α , β ∈ R Integrierbarkeit reeller Funktionen à la Riemann 111 nach Anwendung des Grenzwertes für maxi δi → 0 auf die endlichen Summen n n n ∑ (α f (ξi) + β g(ξ )) · δi = α · ∑ f (ξ ) · δi + β · ∑ g(ξ ) · δi, i=1 i=1 i=1 vorausgesetzt, dass alle involvierten Funktionen Riemann-integrierbar seien. Für f und g können wir es annehmen. Wird dann die Summe f + g Riemann-integrierbar sein? Die Erklärung von diesem und anderen Fällen möchten wir jetzt zum Ausdruck bringen: Satz 13.5. Seien f , g : [a, b] → R Riemann-integrierbare Funktionen. Sei λ ∈ R. Dann sind die Funktionen (i) f + g, (ii) λ f , (iii) f · g, (iv) | f |, (v) f /g (falls |g(x)| ≥ C > 0) Riemann-integrierbar. Beweis. Das Hauptproblem bei der Begründung ist zu realisieren, dass Fi − fi die kleinste obere Schranke für die Variationen von f (x) im Intervall [ai−1 , ai ] repräsentiert, d.h., dass es Fi − fi = sup{ f (x) − f (y) : x, y ∈ [ai−1 , ai ]} (*) gilt. Sei dazu ε > 0 vorgegeben. Nach den Definitionen von Fi bzw. fi existieren ξ , η ∈ [ai−1 , ai ] mit f (ξ ) > Fi − ε bzw. f (η ) < fi + ε , so dass die Ungleichung f (ξ ) − f (η ) > Fi − fi − 2ε gilt. Damit ist Fi − fi nicht nur eine obere Schranke für | f (x) − f (y)| sondern die kleinste sogar. Nun beweisen wir die Behauptungen. Zu (i): Sei h(x) = f (x) + g(x), und bezeichnen wir mit Fi , Gi , Hi bzw. fi , gi , hi die Suprema bzw. die Infima der Funktionen f , g, h auf [ai−1 , ai ]. Für x, y ∈ [ai−1 , ai ] ergibt sich nach (*) und der Dreiecksungleichung |h(x) − h(y)| ≤ | f (x) − f (y)| + |g(x) − g(y)| ≤ (Fi − fi ) + (Gi − gi ). Die Anwendung von (*) auf die Funktion h zeigt die Ungleichung (Hi − hi ) ≤ (Fi − fi ) + (Gi − gi ), und die Differenzen zwischen Darbouxschen Ober- und Untersummen erfüllen weiterhin ∑(Hi − hi)δi ≤ ∑(Fi − fi)δi + ∑(Gi − gi)δi . (**) i i i Für vorgegebenes ε > 0 wählen wir nach Satz 13.3 eine Unterteilung D̃ so geschaft, dass jedes Glied in der rechtsstehenden obigen Summe (**) kleiner als ε sei. (In der Tat hat man da zwei verschiedene Unterteilungen, für f und für g; man kann 112 Abschnitt 13 aber die Vereinigung von den beiden bilden und damit weiter arbeiten). Daraus folgt, dass ∑(Hi − hi)δi < 2ε i ist, und die Funktion h(x) = f (x) + g(x) ist Riemann-integrierbar wegen Satz 13.3. Zu (ii): Für h(x) = λ f (x) muss man die Gleichung |h(x) − h(y)| = |λ | · | f (x) − f (y)| nutzen, um zu zeigen, dass (hi − hi ) ≤ |λ | · (Fi − fi ) ist, und wie oben die Aussage schließen. Zu (iii): Für h(x) = f (x) · g(x) nutzen wir die Ungleichung |h(x) − h(y)| ≤ | f (x)||g(x) − g(y)| + |g(y)|| f (x) − f (y)| ≤ M · |g(x) − g(y)| + N · | f (x) − f (y)| (die Funktionen f und g sind beschränkt, d.h es gilt | f (x)| ≤ M und |g(x)| ≤ N für alle x ∈ [a, b]). Zu (v): Da f (x)/g(x) = f (x) · (1/g(x)) ist, nach Anwendung von (iii) reicht es uns, die Aussage für 1/g(x) zu zeigen. Für h(x) = 1/g(x) ist |h(x) − h(y)| = |g(y) − g(x)| |g(x) − g(y)| ≤ . |g(y)| · |g(x)| C2 Beispiel. Dass | f | Riemann-integrierbar ist, impliziert nicht, dass f auch Riemannintegrierbar ist. Dazu betrachten wir die Funktion f : [a, b] → R gegeben durch n 1, wenn x ∈ Q ∩ [a, b]; f (x) = −1, wenn x ∈ (R \ Q) ∩ [a, b]. Die Funktion f ist nicht Riemann-integrierbar, aber die Funktion | f | schon, denn | f |(x) = 1 für alle x ∈ [a, b]. Insbesondere schließt man aus Satz 13.5, dass Polynomfunktionen Riemannintegrierbar sind. Im Allgemeinen ist jede stetige Funktion Riemann-integrierbar: Satz 13.6. Ist f : [a, b] → R eine stetige Funktion, so ist sie Riemann-integrierbar. Beweis. Die Begründung kann nicht auf dem Begriff der gleichmäßigen Stetig” keit” verzichten, den wir in dieser Vorlesung nicht betrachtet haben. Der interessierte Leser wird auf die zahlreiche Literatur verwiesen. Satz 13.7. Seien a, b, c ∈ R mit a < b < c. Sei f : [a, c] → R eine Funktion derart, dass ihre Einschränkungen auf die Intervalle [a, b] und [b, c] Riemann-integrierbar sind. Dann ist f auf [a, c] Riemann-integrierbar mit Z c a f (x)dx = Z b a f (x)dx + Z c b f (x)dx. Integrierbarkeit reeller Funktionen à la Riemann 113 Beweis. Die Behauptung gilt deshalb, weil die Addition der Darbouxschen Summen für die Einschränkungen von f auf [a, b] und [b, c] eine Darbouxsche Summe für [a, c] ist. Definition. Für a > b oder a = b definieren wir Z b a f (x)dx := − Z a Z a f (x)dx und b f (x)dx = 0 a so dass die Gleichung aus Satz 13.7 für beliebige a, b, c ∈ R erhalten bleibt. Satz 13.8. [Monotonie des Integrals] Seien a < b und f , g : [a, b] → R eine Riemann-integrierbare Funktion. Gilt f (x) ≤ g(x) für alle x ∈ [a, b], dann ist Z b a f (x)dx ≤ Z b g(x)dx. a Beweis. Für f ≤ g gilt 0 ≤ g − f und daraus folgt s(D, g − f ) ≥ 0 für alle Unterteilungen D von [a, b]. Da g − f Riemann-integrierbar ist nach Satz 13.5 erhalten wir 0 ≤ s(D, g − f ) ≤ Z b a (g − f )(x)dx = Z b a g(x)dx − Z b f (x)dx. a Satz 13.9. Seien a < b und sei f : [a, b] → R eine Riemann-integrierbare Funktion. Dann gilt Z b Zb f (x)dx ≤ | f (x)|dx. a a Beweis. Da f Riemann-integrierbar ist, ist f beschränkt, und somit auch | f |. Für eine Unterteilung D = {a = a0 , a1 , . . . an = b} von [a, b] ist n S(D, f ) − s(D, f ) = S(D, | f |) − s(D, | f |) = ∑ (Fi − fi)δi i=1 n ∑ (Fi′ − fi′)δi i=1 mit Fi − fi = sup{| f (x) − f (y)| : x, y ∈ [ai−1 , ai ]} für alle i Fi′ − fi′ = sup{|| f (x)| − | f (y)|| : x, y ∈ [ai−1 , ai ]} für alle i. Es gilt Fi′ − fi′ ≤ Fi − fi für jedes i wegen || f (x)| − | f (y)|| ≤ | f (x) − f (y)|, und daher S(D, | f |) − s(D, | f |) ≤ S(D, f ) − s(D, f ) 114 Abschnitt 13 für jede Unterteilung D. Nach Satz 13.3 ist | f | Riemann-integrierbar wenn f Riemann-integrierbar ist. Darüber hinaus, wegen f ≤ | f | und − f ≤ | f | und Satz 13.5 und Satz 13.8 gilt Z b a f (x)dx ≤ und daher Z b a Z b a Z b | f (x)|dx und nZ f (x)dx = max a (− f (x))dx = − b a f (x)dx, − Z b a Z b a f (x)dx ≤ o f (x)dx ≤ Z b a Z b a | f (x)|dx, | f (x)|dx. Anmerkung. Sei f eine Riemann-integrierbare Funktion. Zwischen die bestimmte Integrale von f und | f | gilt im Allgemeinen die Ungleichung Z b Z b | f (x)|dx. f (x)dx ≤ a a Zu einer Riemann-integrierbaren Funktion f : [a, b] → R kann man den Wert Rb f (x)dx b−a als die Durchschnittshöhe der Funktion ansehen: Wenn wir dieser Wert mit der Länge des Grundintervalls multiplizieren, ergibt sich den Flächeninhalt. Der Mittelwertsatz der Integralrechnung besagt, dass für eine stetige Funktion dieser Durchschnittswert (oder Mittelwert) von der Funktion auch angenommen wird: a Satz 13.10 (Mittelwertsatz der Integralrechnung). Seien a < b und f : [a, b] → R eine stetige Funktion. Dann gibt es ein c ∈ [a, b] mit Z b a f (x)dx = f (c)(b − a). Beweis. Die Funktion f ist auf [a, b] beschränkt nach dem Satz von Weierstraß 9.4: Sei m bzw. M ihr Minimum bzw. Maximum. Dann gilt speziell m ≤ f (x) ≤ M für alle x ∈ [a, b] und m · (b − a) ≤ Daher gilt Z b a Z b a f (x)dx ≤ M · (b − a). f (x)dx = ξ · (b − a) für ξ ∈ [m, M], und nach dem Zwischenwertsatz 9.1 existiert ein c ∈ [a, b] mit f (c) = ξ . Integrierbarkeit reeller Funktionen à la Riemann 115 Satz 13.11. Sei f : [a, b] → R eine stetige Funktion. Sei g : [a, b] → R eine Riemann-integrierbare Funktion so dass g überall positive (oder überall negative) Werte annimmt. Dann existiert ein ein c ∈ [a, b] mit Z b a f (x) · g(x)dx = f (c) · Z b g(x)dx. a Beweis. Wir zeigen die Behauptung in der Situation g(x) ≥ 0 für alle x ∈ [a, b] (der andere Fall ergibt sich nach Ersetzen von g durch −g). Es gilt m · g(x) ≤ f (x) · g(x) ≤ M · g(x) für alle x ∈ [a, b], wobei m bzw. M das Minimum bzw. das Maximum von f auf [a, b] ist. Nun folgt der Rest des Beweises wie bei Satz 13.10. Beispiel. Sei 1 < a < b. Für jedes x ∈ [a, b] gilt √ √ x+ x x+1 2 2 √ =√ 1≤ = 1+ √ ≤ 1+ √ . x− x x−1 x−1 a−1 Daraus folgt √ Z b 2 x+ x 1 √ dx ≤ 1 + √ . 1≤ b−a a x− x a−1 Beispiel. Seien f , g : [a, b] → R stetig mit Z b f (x)dx = a Z b g(x)dx. a Es ist zu zeigen, dass ein c ∈ [a, b] existiert so dass f (c) = g(c). In der Tat ist dann f − g eine stetige Funktion auf [a, b], und ergibt sich Z b a ( f − g)(x)dx = 0 Nach Anwendung des Mittelwertsatzes existiert ein c ∈ [a, b] so dass 0= Z b a ( f − g)(x)dx = ( f − g)(c) · (b − a). Da b − a 6= 0 muss ( f − g)(c) = 0 sein, d.h. es ist f (c) = g(c). Mit dem Riemannschen Integral sind wir noch nicht fertig: Im nächsten Abschnitt möchten wir die Beziehung zwischen der Differential- und der Integralrechnung erklären. ABSCHNITT 14 Der Hauptsatz der Infinitesimalrechnung Alles, was bisher in den Abschnitten der Infinitesimalrechnung betrachtet wurden, hilft dabei, die Beziehung zwischen Differenzierbarkeit und Integrierbarkeit nachvollziehen zu können: Der sogenannte Hauptsatz der Differenzial- und Integralrechnung, oder kürzer gesagt, der Hauptsatz der Infinitesimalrechnung. Als Korollar ergibt sich die Regel von Barrow, die ermöglicht, bestimmte Integrale durch den Begriff von Stammfunktion leicht zu berechnen. Das ist einfach, vorausgesetzt, dass die Berechnung von Stammfunktionen vorhanden ist. Deshalb werden wir uns diese zum Schluss in Erinnerung zu rufen. Definition. Seien I ⊂ R ein Intervall, a ∈ I und f : I → R eine Riemann-integrierbare Funktion. Dann heißt die Funktion I → R, x 7−→ Z x f (x)dx a die Integralfunktion, oder auch das unbestimmte Integral, zu f zum Startpunkt a. Satz 14.1 (Hauptsatz der Infinitesimalrechnung). Seien I ⊂ R ein Intervall, a ∈ I und f : I → R eine stetige Funktion. Sei weiterhin F(x) := Z x f (x)dx a das zugehörige unbestimmte Integral. Dann ist F differenzierbar mit F ′ (x) = f (x) für alle x ∈ I. Beweis. Sei x0 ∈ I. Der Differenzquotient zu F und x0 ist Z Z x0 1 Z x0 +h F(x0 + h) − F(h) 1 x0 +h = f (x)dx − f (x)dx f (x)dx = h h a h x0 a Es ist zu zeigen: Der Limes des Differenzenquotienten existiert und ist gleich f (x) für h → 0. Äquivalent dazu, der Limes von Z 1 x0 +h f (x)dx − h f (x0) h x0 für h → 0 existiert und gleich 0 ist. Da f (x0 ) eine Konstante ist, gilt h f (x0 ) = Z x0 +h x0 f (x0 )dx. 118 Abschnitt 14 Dann betrachten wir 1 h Z x0 +h x0 ( f (x) − f (x0))dx. Durch Betrachtung der Funktion g(x) = f (x) − f (x0 ) kann man OBdA annehmen, dass f (x0 ) = 0 ist. Wegen der Stetigkeit von f gibt es zu jedem ε > 0 ein δ > 0 derart, dass für alle x ∈ [x0 − δ , x0 + δ ] die Abschätzung | f (x)| < ε gilt. Dann gilt für h ∈ [−δ , δ ] die Abschätzung Z x0 +h Z x0 +h Z x0 +h f (x)dx ≤ | f (x)|dx < ε dx = |h|ε , x0 x0 x0 und daher gilt die Abschätzung 1 Z x0 +h f (x)dx < ε . h x0 Beispiel. Wir möchten den Grenzwert 1 L := lim x→0 x berechnen. Es gilt Z x 0 R x −t 2 dt 0e e −t 2 dt . F(x) , x G(x) mit F differenzierbar auf R nach dem Hauptsatz der Infinitesimalrechnung, wobei F und G die Voraussetzungen der Regel von l’Hôpital erfüllen. Dann wenden wir diese Regel an und wir erhalten L= = 2 F ′ (x) e−x = lim = 1. L = lim ′ x→0 G (x) x→0 1 Dies kann man auch anders sehen. Da F(0) = 0, dann ist R x −t 2 dt − 0 0e = F ′ (0) = e−0 = 1. x−0 Definition. Sei I ⊂ R ein Intervall, und f : I → R eine Funktion. Eine Funktion F : I → R heißt Stammfunktion zu f , wenn F auf I differenzierbar ist und F ′ (x) = f (x) für alle x ∈ I gilt. L= Die Existenz von Stammfunktionen ist folgendermaße gewährleistet: Satz 14.2. Seien I ⊂ R ein Intervall und f : I → R eine stetige Funktion. Dann besitzt f eine Stammfunktion. Der Hauptsatz der Infinitesimalrechnung 119 Beweis. Sei a ∈ I ein Punkt. Nach Satz 13.6 existiert das bestimmte Integral F(x) = Z x f (x)dx, a und nach dem Hauptsatz der Infinitesimalrechnung 14.1 ist F ′ (x) = f (x), d.h., F ist eine Stammfunktion von f . Stammfunktionen einer vorgegebenen Funktion unterscheiden sich in eine Konstante: Satz 14.3. Sei I ⊂ R ein Intervall, f : I → R eine Funktion. Seien F unf G zwei Stammfunktionen von f . Dann ist F − G eine konstante Funktion. Beweis. Es ist (F − G)′ = F ′ − G′ = f − f = 0, und nach Satz 12.6 ist F − G konstant. Satz 14.4 (Regel von Barrow). Sei I ⊂ R ein Intervall, und f : I → R eine stetige Funktion, für die G eine Stammfunktion ist. Dann gilt für jede zwei Punkte a, b ∈ I mit a < b die Gleichheit Z b b f (x)dx = G(b) − G(a) =: G(x) . a a Beweis. Sei F die Integralfunktion zu f mit Startpunkt a. Wegen der Stetigkeit von f auf [a, b] ist F auch eine Stammfunktion von f in [a, b]. Nach dem Mittelwertsatz der Differentialrechnung unterscheiden sich F und G in einer Konstanten in [a, b]. Das heißt, es ist F(x) − G(x) = c für alle x ∈ [a, b], c ∈ R. Daraus folgt unmittelbar F(x) = Z x f (t)dt + c. a Für x = b bzw. x = a ist F(b) = Z b f (t)dt + c bzw. F(a) = a Z a f (t)dt + c = c, a woraus folgt F(b) − F(a) = Z b f ( f )dt. a R Beispiel. Es ist das bestimmte Integral 15 (2x4 − 3x2 − 1)dx zu berechnen. Eine Stammfunktion von 2x4 − 3x2 − 1 ist einfach zu bestimmen, insofern ergibt sich 120 Abschnitt 14 sofort: Z 5 1 4 2 (2x − 3x − 1)dx = 2 Z 5 4 x dx − 3 Z 5 1 x3 5 1 2 x dx − Z 5 dx 1 5 x5 5 − 3 · − x 5 1 3 1 1 55 1 = 2· − 53 − 1 − (5 − 1) − 5 5 5608 3124 − 124 − 4 = . = 2· 4 5 = 2· Satz 14.5 (Partielle Integration). Seien f , g : [a, b] → R zwei differenzierbare Funktionen. Es gilt Z b a ′ f (x)g (x) = f (b)g(b) − f (a)g(a) − Beweis. Es ist zunächst zu begründen, dass Z ′ f (x)g (x) dx = f (x)g(x) − Z Z b a f ′ (x)g(x)dx. f ′ (x)g(x) dx. gilt. Da f und g differenzierbar sind, ergibt sich ( f g)′ = f ′ g + f g′ , d.h., f g′ = ( f g)′ − f ′ g. Dann ist Z ′ ( f g ) dx = Z ′ ′ (( f g) − f g) dx = f g − Z f ′ g dx. Nun folgt die Behauptung nach Anwendung der Regel von Barrow 14.4. Rπ Beispiel. Es ist das bestimmte Integral 0 x sin x dx zu berechnen. Es handelt sich um ein Produkt von Funktionen, daher scheint die partielle Integration wirksam zu sein. Mit der Bezeichnung im obigen Satz machen wir f (x) = x und g′ (x) = sin x. R Dann ist f ′ (x) = 1 + c und g(x) = sin x = − cos x + c′ (mit c, c′ ∈ R). Der Satz besagt Z π 0 π Z π π x sin x dx = (−x cos x) − (− cos x) dx = −π cos π + sin x = π . 0 0 0 Satz 14.6 (Substitution). Sei f : [a, b] → R eine stetige Funktion. Sei ϕ : [c, d] → R eine stetig differenzierbare Funktion mit ϕ ([c, d]) ⊂ [a, b]. Dann gilt Z ϕ (d) ϕ (c) f (x) dx = Z d c f (ϕ (t)) · ϕ ′ (t) dt. Beweis. Da ϕ auf [c, d] stetig ist, dann ist ϕ ([c, d]) ein abgeschloßenes und beschränktes Intervall. Wegen der Stetigkeit von f auf [a, b] besitzt f eine Stammfunktion F : [a, b] → R nach dem Hauptsatz, die differenzierbar auf [a, b] ist mit F ′ (x) = f (x) für alle x ∈ [a, b]. Nach der Regel von Barrow gilt Z ϕ (d) ϕ (c) f (x) dx = F(ϕ (d)) − F(ϕ (c)) = (F ◦ ϕ )(d) − (F ◦ ϕ )(c). Der Hauptsatz der Infinitesimalrechnung 121 Die Funktion F ◦ ϕ : [c, d] → R ist differenzierbar, und nach der Kettenregel gilt (F ◦ ϕ )′ (t) = F ′ (ϕ (t)) · ϕ ′ (t) = (( f ◦ ϕ ) · ϕ ′ )(t) für alle t ∈ [c, d]. Die Funktion F ◦ ϕ ist also eine Stammfunktion von ( f ◦ ϕ ) · ϕ ′ in [c, d] mit Z d c ( f ◦ ϕ ) · ϕ ′ = (F ◦ ϕ )(d) − (F ◦ ϕ )(c). Insgesamt ergibt sich die Behauptung. R 3 5√ Beispiel. Wir möchten das bestimmte Integral 0 3 9 − x2 dx berechnen. Wir wenden die Substitutionsmethode an, und zwar mit ϕ (t) = 3 sint. Dabei ist ϕ ′ (t) = 3 cost + c, c ∈ R und t = arcsin 3x . D.h.., für x = 0 ist t = arcsin 0 = 0 und für x = 3 ist t = arcsin 1 = π2 . Nun ist es einfach: Z 3 p 5 0 3 9 − x2 5 3 Z π /2 p 9 − 9 sin2 t · 3 · cost dt Z π /2 q Z 9(1 − sin2 t) · cos t dt = 5 · = 5· dx = 0 0 = 5· Z π /2 0 3 cos2 t dt = 15 · Z π /2 0 π /2 q 9(cos2 t) · cost dt cos2 t dt 0 Z π /2 Z 1 1 π /2 dt = 15 = 15 · dt + cos 2t dt 2 2 0 2 0 0 π /2 1 π /2 15π π = 15 +0 = . = 15 t + sin 2t 0 2 0 4 4 Z π /2 1 + cos 2t Wir realisieren, dass es wichtig ist, die Berechnung von Stammfunktionen zu beherrschen. Dabei muss man zunächst die Grundtypen kennen, die wir nun ohne Anspruch auf Vollständigkeit kurz vorstellen: (a) Potenzen: R (i) u(x)a u′ (x) dx = R u′ (x) 1 a+1 + K, a+1 u(x) a 6= −1. (ii) u(x) dx = log |u(x)| + K (b) Exponentialfunktionen: R (i) R eu(x) u′ (x) dx = eu(x) + K (ii) au(x) u′ (x) dx = log1 a au(x) + K, a > 0, a 6= 1. (c) Trigonometrische Funktionen: R (i) R cos (u(x))u′ (x) dx = sin (u(x)) + K (ii) sin (u(x))u′ (x) dx = − cos (u(x)) + K R R R ′ (x) dx = sec2 (u(x))u′ (x) dx = (1 + tan2 u(x))u′ (x) dx = tan (u(x)) + K (iii) cosu2 (u(x)) R ′ R R (x) (iv) sinu2 (u(x)) dx = csc2 (u(x))u′ (x) dx = (1+cot2 u(x))u′ (x) dx = − cot (u(x)) +K (d) Umkehrfunktionen der trigonometrischen Funktionen ( Arcus-Funktionen”): ” ′ R (i) √ u (x) 2 dx = arcsin (u(x)) + K = − arccos (u(x)) + K (ii) R 1−u(x) u′ (x) dx 1+u(x)2 = arctan (u(x)) + K = −arccot(u(x)) + K 122 Abschnitt 14 (e) Hyperbelfunktionen: R (i) R cosh (u(x))u′ (x) dx = sinh (u(x)) + K (ii) sinh (u(x))u′ (x) dx = cosh (u(x)) + K ′ R dx = tanh (u(x)) + K (iii) coshu2(x) (u(x)) R ′ dx = − coth (u(x)) + K (iv) sinhu2 (x) (u(x)) (f) Umkehrfunktionen der Hyperbelfunktionen ( Area-Funktionen”): p ” ′ R (i) √ u (x)2 dx = arsinh(u(x)) + K = log u(x) + u(x)2 + 1 + K u(x) +1 p R u′ (x) (ii) √ 2 dx = arcosh(u(x)) + K = log |u(x) + u(x)2 − 1| + K u(x) −1 R u′ (x) (iii) 1−u(x)2 dx = artanh(u(x)) + K = 12 log 1+u(x) 1−u(x) + K Eine Stammfunktion eines Produktes von zwei Funktionen kann man durch partielle Integration erledigen: Z x cos x dx = x sin x − Z sin x dx = x sin x + cos x + K. Manchmal ist das trickreich: R R log x dx = arctan x dx = R R R = x log x − x · 1x dx 1 · log x dx 1 · arctan x dx = x arctan x − Substitution ist auch oft nützlich: R R √1 x x−1 √ 1 3−x2 dx = 2 dx = R R x 1+x2 = x log x − x + K dx = x arctan x − 21 log (1 + x2 ) + K √ R 1 t dt = 2 arctan t + K = 2 arctan x + 1 + K 2 +1)t dt = 2 (t 1+t 2 √ R R √3 cost 3 cost √ √ dt = dt = t + K = arcsin ( √x3 ) + K dt = √ 3−3 sin2 t 3 1−sin2 t R Bei manchen Ausdrücken, die trigonometrische Funktionen involvieren, ist eine Substitution der Art t = tan ( 2x ) geeignet, denn es gilt 2 tan ( 2x ) 2t = sin x = 1 + tan2 ( 2x ) 1 + t 2 1 − tan2 ( 2x ) 1 − t 2 cos x = , = 1 + tan2 ( 2x ) 1 + t 2 wie im folgenden Beispiel: Z 1 dx = 1 + sin x + cos x = Z 1 2 1 1+ Z 2t 1+t 2 + 1−t 2 1+t 2 · 1 dt = 1 + t2 Z 1 dt 2t + 2 1 1 x 1 dt = log |t + 1| + K = log (tan ( ) + 1) + K. 1+t 2 2 2 Je mehr Kenntnisse man in der Trigonometrie hat, desto einfacher werden die Berechnungen: R 1 sin x cos x dx = = R cos2 x+sin2 x R cos2 x R sin2 x sin x cos x dx = sin x cos x dx + sin x cos x dx R cos x R − sin x sin x dx − cos x dx = log | sin x| − log | cos x| + K. Der Hauptsatz der Infinitesimalrechnung 123 Gebrochen rationale Funktionen sind ein wichtiger Typus: Quotienten von Pop(x) lynomfunktionen q(x) mit q 6= 0. Ist grad( p̃(x)) ≥ grad(q(x)), kann man Polynom” division” durchführen so dass p(x) p̃(x) = h(x) + , q(x) q(x) mit h(x) eine Polynomfunktion und grad( p̃(x)) < grad(q(x)) gilt. Dann hängt die Berechnung einer Stammfunktion davon ab, was für Nullstellen der Nenner q(x) besitzt. Ausführliche Erklärungen sind in der Übung erklärt worden, und eine Zusammenfassung ist bei Stud.IP herunterzuladen. Hier betrachten nur zur Illustration zwei Beispiele: Beispiele. (a) Die Polynomfunktion x2 − x + 1 hat keine reelle Nullstellen. Man kann leicht ahnen, dass eine Stammfunktion von 1/(x2 − x + 1) der Form arctan u(x) für geeignete u(x) ist. In der Tat gilt: Z 1 dx = 2 x −x+1 = √ Z Z 1 2/ 3 2 4/3 dx = √ dx dx = 1 3 1 2 (x− 1 )2 3 1 + ( √x− 2 )2 1 + 3/42 4 + (x − 2 ) 3/2 √ Z 2x − 1 2/ 3 2 2 √ dx = √ arctan √ + K 2x−1 2 3 1 + ( √3 ) 3 3 Z (b) Es ist x3 − 2x2 + x = x(x − 1)2 , und deswegen gilt für A, B,C ∈ R 2x2 − 4x + 1 A B C (A + B)x2 + (−2A − B +C)x + A + = + = . 2 2 x(x − 1) x x − 1 (x − 1) x(x − 1)2 Koeffizientenvergleich liefert einem linearen Gleichungssystem, dessen Lösung A = B = 1 und C = −1 ist. Somit ist Z 2x2 − 4x + 1 dx = x3 − 2x2 + x Z Z Z 1 −1 dx + dx x−1 (x − 1)2 1 = log |x| + log |x − 1| + + K. x−1 1 dx + x Bei dem Koeffizientenvergleich stellt sich als Wichtiges heraus, lineare Gleichungssysteme lösen zu können. Im nächsten Abschnitt werden wir diese Theorie allgemein darstellen. ABSCHNITT 15 Ein Rückblick auf die Infinitesimalrechnung Die Mathematik ist eine Art Spielzeug, welches die Natur uns zuwarf zum ” Troste und zur Unterhaltung in der Finsternis”, schrieb der Franzoser Jean-Baptist le Rond d’Alembert (1717-1783). Diese Gedanken haben Sie, lieber Leser, vielleicht nicht gespurrt. Von Trost war möglicherweise nicht die Rede, sondern eher von Finsternis. Die Unterhaltungsthemen waren bloß ganz andere. Sie mussten einfach nur Mathematik lernen. Möglichst schnell wurden viele neue Begriffe gelesen, aber gar nicht verdauunt. Als Folgerung, optimistisch gesehen, eine Buchstaben-Suppe—gelegentlich ein paar Zahlen: Formel und Säzte quälen Ihren Kopf, ohne ein Zuhause finden zu können; es ist Zeit, die mathematischen Gedanken in Ordnung zu bringen. In diesem Abschnitt werden wir eine kleine Zusammenfassung des analytischen Teils dieser Vorlesung darstellen. Er sollte eine Motivation dafür sein, dass Sie die vorherigen Abschnitte nochmal lesen. Eine tiefere Lektur, mit Bleistift und Schmierzettel dabei. Und mit der Vorstellung von Gauß: Pauca sed matura”, d.h. wenig ” aber gut gemacht. Wir haben nun einen erheblichen Teil der Vorlesung, nämlich die Abschnitte 4 bis 14, der Infinitesimalrechnung gewidmet. Das Wort Infinitesimal” ist als belie” big klein zu verstehen, und das haben wir tatsächlich gemacht, wenn wir Grenzwertprozesse in der Umgebung eines Punktes betrachtet haben. Zentral ist also in dieser Theorie der Begriff von Grenzwert, auch Limes genannt. Wir haben ihn zunächst für Folgen reeller Zahlen definiert, welche implizit auch die Definition von reellen Zahlen voraussetzen. Das heißt, wir haben die Infinitesimalrechnung mit dem Begriff der reellen Zahl angefangen. Die Situation ist in der Einführung zum Kapitel III in [HW, S. 170-171] wirklich gut beschrieben: In 1821, Cauchy establishes new requirements of rigor in his famous Cours d’Analyse”. The questions are the following: ” - What is a derivate really? Answer: a limit. - What is an integral really? Answer: a limit. - What is an infinite series a1 + a2 + a3 + . . . really? Answer: a limit. This leads to 126 Abschnitt 15 - What is a limit? Answer: a number. And, finally, the last question: - What is a number? Die reellen Zahlen wurden unbewusst seit langem bekannt. Eine antike Le√ gende besagt, dass der Pythagoreer Hippasos von Metapont entdeckt hat, dass 2 keine rationale Zahl ist. Das wurde als Geheimnisverrat betrachtet, und der arme Hipassos wurde ertrunken. Das geschah im 5. Jahrhundert v. Chr., und wir haben sein Argument—diesmal schon ohne so besonders schlimme Wirkungen—in der Vorlesung gezeigt (vgl. Satz 4.1). Das ist aber noch nicht gut genug, um einen neuen Zahlenbereich einführen zu können, denn es stellt sich sofort allerlei Fragen: Gibt es mehr irrationale Zahlen? Wie viele? Wieso sind sie interessant? Die Zeit verging, und irgendwann um die Neuzeit kamen Unbestimmten und Gleichungen in der Mathematik auf. Die Geometrie wurde Algebra. Insbesondere wurden die Zahlen als Lösungen von Gleichungen interpretiert. Die rationale Zahlen Q waren dann nicht mehr besonders, sondern einfach nur ein Beispiel vom Zahlbereich, genauso wie die reellen Zahlen R. Sowohl Q als auch R sind doch Mengen, die mit der Summe und der Multiplikation versehen eine spezielle Struktur besitzen: Sie sind Körper (ein merkwürdiges Wort von Richard Dedekind eingeführt; ein anderer Zeitgenosse, Leopold Kronecker, mochte lieber das Wort Rationalitätsbereich” verwenden; es ist nicht ” mehr im Gebrauch). Beide lassen sich vernünftig anordnen. Bloß sind sie nicht das Gleiche (vgl. Satz 4.5): Karl Weierstraß, ein Westphaler, der Professor in Berlin wurde, und seine Kollegen Eduard Heine und Georg Cantor haben erkannt, dass R der Vollständigkeitsaxion erfüllt: Jede nach oben beschränkte Teilmenge A 6= 0/ von R besitzt ein Supremum. Es ist aber doch mehr als das: Dieser Axiom definiert R als angeordneter Körper! Im folgenden Sinne: Jeder angeordneter Körper K, der vollständig ist, ist isomorph zu R. Das Wort isomorph” ist hierfootnoteDas ist ein Oberbegriff in ” der Mathematik. Wir werden später Isomorphismen zwischen Vektorraüme sehen. so zu interpretieren: Was die Körperstruktur angeht, sind K und R voneinander nicht unterscheidbar. Insbesondere besitzt R die Archimedische Eigenschaft 4.7, nämlich ...dass jede reelle Zahl sich durch gewisse natürliche Zahlen übertreffen lässt. Und die Tatsache, dass Q (und R \ Q) dicht in R ist (vgl. Satz 4.8): Jede reelle Zahl hat um sich herum eine beliebig kleine Umgebung, die eine rationale Zahl enthält. Ein Rückblick auf die Infinitesimalrechnung 127 Die Frage nach dem Begriff von reeller Zahl”, die Cauchy nicht zufriedenstel” lend betrachten konnte, wurde von der Berliner Schule, plus Charles Méray in Dijon (Frankreich) und Richard Dedekind in Braunschweig um die Jahre 1870–1872 beantwortet. Die Einleitung von Konrad Knopp (vgl. [Kn], S. 1–2) ist durchaus erleutend: Heute gilt die Strenge gerade in bezug auf den zugründe liegenden Zahlbegriff als die wichtigste Forderung, die an die Behandlung jedweden mathematischen Gegenstandes zu stellen ist, und seit den letzten Jahrzehnten des vergangenen Jahrhunderts – in den 60er Jahren wurde von W EIERSTRASS in seinen Vorlesungen und im Jahre 1872 von C ANTOR und von D EDEKIND sozusagen das letzte Wort in der Sache gesprochen — kann keine Vorlesung, kein Werk, das die grundlegenden Kapitel der höheren Analysis behandelt, Anspruch auf Gültigkeit machen, wenn es nicht von dem gereinigten Begriff der reellen Zahl seinen Ausgangspunkt nimmt. Die reellen Zahlen wurden verstanden, und damit viele Prozesse, die einen Übergang zur Unendlichkeit involvierten: Unendlich groß, aber auch unendlich klein. Typische Beispiele dieser Prozesse waren die Folgen reeller Zahlen. Sie sind seit sehr langem bekannt. Beispielsweise hat Archimedes schon die Folge 1 n+1 1 1 2 1 1 2 1 3 1 1 2 1 , 1+ + + , . . . , 1+ + +. . .+ +. . . 1, 1+ , 1+ + 2 2 2 2 2 2 2 2 2 betrachtet, und gesagt, dass sie konvergent ist. Das Wort konvergent” tritt übrigens ” erst mit James Gregory im Jahr 1667 auf. D’Alembert um 1765 und vor allem Cauchy in seinem Cours d’Analyse (1821) danken wir die Definition: Eine Folge (an )n∈N reeller Zahlen ist gegen eine reelle Zahl a konvergent, wenn gilt: ∀ε > 0 ∃n0 ∈ N so dass |an − a| < ε für alle n ≥ n0 . Tatsächlich ist diese Definition von d’Alembert in der Encyclopédie, 9. Band zu lesen: On dit qu’une grandeur est la limite d’une autre grandeur, quand la seconde ” peut approcher de la première plus près que d’une grandeur donnée, si petite qu’on la puisse supposer...”. Cauchy fuhrte die Bezeichnung lim ein: Lorsqu’une quantité variable converge vers une limite fixe, il est souvent utile d’indiquer cette limite par une notation particulière, c’est ce que nous ferons, en placa̧nt l’abréviation lim devant la quantité variable dont il s’agit... 128 Abschnitt 15 Folgen reeller Zahlen haben dabei geholfen, die reellen Zahlen zu definieren! Cauchy hat seinen eigenen Begriff von Konvergenz betrachtet, die Cauchy-Folge, der gleichbedeutend zu dem üblichen war, aber nur für reelle Zahlen (vgl. Sätze 6.5 und 6.6). Beispiele wie das schon Ende des Abschnittes 6 betrachtete 1, 1.4, 1.41, 1.414, 1.4142, 1.41421, . . . waren Jahrelang nicht verstanden. Auf einmal kam die Lösung aus mehreren unabhängigen Seiten (Cantor, Heine, Méray und Dedekind): Die ganze Cauchy-Folge wird als reelle Zahl erklärt: Einer Cauchy-Folge rationaler Zahlen wird eine reelle Zahl zugeordnet. Wie Cantor 18891 schrieb: √ 3 ist also nur ein Zeichen für eine Zahl, welche erst noch gefunden werden soll, nicht aber deren Definition. Letztere wird jedoch in meiner Weise, etwa durch (1.7, 1.73, 1.732, . . .) befriedigend gegeben. Folgen sind eng verbunden mit Reihen reeller Zahlen. Summen von unendlich vielen Zahlen brachten schon in der Antike zum Nachdenken, wie die Paradoxe von Zenon von Elea (um 490–430 v. Chr.) zeigen. Ein Beispiel davon ist der Paradoxon von Achilles und der Schildkröte: Darin wird versucht zu belegen, dass ein schneller Läufer wie Achilles bei einem Wettrennen eine Schildkröte niemals einholen könne, wenn er ihr einen Vorsprung gewähre. In mathematischer Sprache, hat Zenon nicht berücksichtigt, dass Reihen reeller Zahlen auch konvergieren” ” können. Es ist nichts ihm vorzuwerfen, denn die Reihen reeller Zahlen wurden erst im zweiten Teil des 19. Jahrhunderts vollständig verstanden. Der norwegische Mathematiker Niels Henrik Abel (1802-1829) kritisierte sogar Cauchy in dieser Richtung: Cauchy est fou, et avec lui il n’y a pas moyen d s’entendre, bien que pour le moment il soit celui qui sait comment les matématiques doivent être traitées. Ce qu’il fait est excellent, mais très brouillé... Cauchy hat übrigens eine riesige Arbeit im Bereich von Reihen gemacht: Das Cauchysche Verdichtungskriterium (vgl. Aufgabe 24), Das Quotienten- und das Wurzelkriterium (Sätze 7.9 und 7.10), das Cauchysche Produkt (Satz 7.11) sind Beispiele dazu. Er konnte aber noch nicht völlig korrekt das Verstausch von Limiten und (unendlichen) Summen handeln. 1Bemerkung mit Bezug auf den Aufsatz: Zur Weierstraß-Cantorschen The orie der Irrationalzahlen. Math. Annalen 33 (1889), S. 476. Ein Rückblick auf die Infinitesimalrechnung 129 Eine Folge reeller Zahlen ist ein Beispiel von Funktion, nämlich eine Abbildung N → R. Der Begriff von Funktion wird erst Ende 18. Jahrhundert im heutigen Sinne verstanden (bis dahin war die Vorstellung etwa, es wäre ein Quotient zwischen Unbekannten). 1837 schrieb Dirichlet ganz präzise (bei der damaligen Standard): Entspricht nun jedem x ein einziges, endliches y, ... so heisst y eine ” ... Function von x für dieses Intervall. ... Diese Definition schreibt den einzelnen Theilen der Curve kein gemeinsames Gesetz vor; man kann sich dieselbe aus den verschiedenartigsten Theilen zusammengesetzt oder ganz gesetzlos gezeichnet denken”. Heute sagen wir, dass eine Funktion f : A → B eine Korrespondenz ist, die aus zwei Mengen A und B besteht, nämlich den Definitionsbereich A und den Wertebereich B, und aus einer Vorschrift, die jedes Element x ∈ A einem einzigen Element y ∈ B zuordnet. Diese Korrespondenz bezeichnen wir mit y = f (x) oder x 7→ f (x). Wir sagen, dass y das Bild von x unter f ist, oder dass x das Vorbild von y ist. Die Stetigkeit einer Funktion in einem Punkt war ein weiteres Aspekt der neuen Fragestellung. Die Lösung wurde mittels Grenzwertübergangsprozesse vermittelt. Für Cauchy lautet ... f (x) sera fonction continue, si ... les valeurs numériques de la ” différence f (x + α ) − f (x) décroit indéfiniment avec celle de α ...” Bei Weierstraß konnte man 1874 schon lesen: Wir nennen dabei eine Grösse y eine stetige Funktion von x, wenn ” man nach Annahme einer Grösse ε die Existenz von δ beweisen kann, sodass zu jedem Wert zwischen x0 − δ . . . x0 + δ der zugehörige Wert von y zwischen y0 − ε . . . y0 + ε liegt.” In der heutigen Interpretation ist das auch gleichbedeutend mit der Existenz der seitigen Limiten, wie wir auch gezeigt haben: Eine Funktion f : A → R ist in einem Punkt a ∈ A ⊂ R stetig, wenn die links- und rechtsseitigen Limiten limx↑a f (x) und limx↓a f (x) existieren und übereinstimmen. 130 Abschnitt 15 Das ist im Wesentlichen wieder Weierstraß dankt. Wie Pringsheim2 1899 erkannte Der Begriff des Grenzwertes einer Funktion ist wohl zuerst von Weier” strass mit genügender Schärfe definiert worden”. Bernhard Bolzano3 (1781–1848), Priester und Mathematiker aus Prag, fuhrte den Geist für die ε − δ -Definition der Stetigkeit ein: Nach einer richtigen Erklärung ... versteht man unter der Redens” art, dass eine Funktion f x für alle Werthe von x, die inner- oder ausserhalb gewisser Grenzen liegen, nach dem Gesetze der Stetigkeit sind ändre nur so viel, dass, wenn x irgend ein solcher Werth ist, der Unterschied f (x + ω ) − f x kleiner als jede gegebene Grösse gemacht werde könne, wenn man ω so klein, als man nur immer will, annehmen kann ... [wenn man so klein genug nimmt]”. Wir lernen heute: Zu jedem ε > 0 vorgegeben existiert ein δ > 0 so dass wenn |x − a| < δ ist, so ist | f (x) − f (a)| < ε . Die Stetigkeit ist damit eine lokale Eigenschaft, so wie die Differenzierbarkeit: Sie ist wieder durch einen Grenzwertübergang formalisiert: Eine Funktion f : A → R ist differenzierbar in einem Punkt a ∈ A ⊂ f (x)− f (a) R, falls der Limes limx→a x−a existiert (und endlich ist). Alternativ wird manchmal der Limes limh→0 f (x+h)− f (h) h betrachtet. Die ersten Eigenschaften von der Stetigkeit und der Differenzierbarkeit laufen auf den entsprechenden Eigenschaften von Grenzwerten 5.4 hinaus: Dass die Summe, Produkt, usw. zweier stetigen bzw. differenzierbaren Funktionen wieder eine stetige bzw. differenzierbare Funktion ist (vgl. 8.3, 11.3). Dabei ist natürlich besonders wichtig das Miteinander zwischen Stetigkeit und Differenzierbarkeit: Dass die Differenzierbarkeit die Stetigkeit impliziert, aber nicht umgekehrt, wie uns die Betrachtung der Absolut-Betrag Funktion im Nullpunkt lehrt (vgl. 11.2). Der Stetigkeit und der Differenzierbarkeit sind viele Ergebnisse mit Eigennamen zugeordnet—Sätze mit Eigennamen sind immer wichtig. Der Zwischenwertsatz 9.1 ist davon der erste Satz, den wir gesehen haben, dessen Inhalt lautet: 2Enzyklopädie der Math. Wiss., Band II.1, S. 13. 3Bolzano ist weniger bekannt, aber hat tiefsinnig die analytischen Fragestellungen seiner Zeit verstanden. Von ihm sagt Dieudonné: Parmi les mathématiciens du début du dix-neuvième siècle, ce fut ” probablement Bolzano qui posa les questions les plus profondes à propos des fondements de l’analyse”. Ein Rückblick auf die Infinitesimalrechnung 131 Jede reelle stetige Funktion f : [a, b] → R nimmt alle Werte zuwischen f (a) und f (b) an. Bolzano realisierte diese Tatsache zuerst, die eine offensichliche Konsequenz hat: Ist f (a) ≤ 0 und f (b) ≥ 0 (oder umgekehrt), so besitzt die Funktion eine Nullstelle im Intervall [a, b]. Traditionell wird diese Folgerung die Darbouxche Eigenschaft (vgl. 9.2) genannt, nach dem Franzosen Gaston Darboux (1842–1917). Der Zwischenwertsatz hat noch zwei wichtige Korollare: Erstens, dass das Bild eines Intervalles durch eine stetige Funktion wieder ein Intervall ist (vgl. 9.3); zweitens, der Extremwertsatz 9.4, der von Weierstraß in seiner Vorlesung 1861 bewiesen wurde (und von Cantor 1870 veröffenlicht wurde): Jede stetige Funktion f : [a, b] → R nimmt ihr Maximum und ihr Minimum an (dabei spielt eine wesentliche Rolle, dass das Intervall [a, b] abgeschloßen und beschränkt ist!) Hier lassen wir David Hilbert (1862–1943) reden: In seinem Satze, dem zufolge eine stetige Funktion einer reel” len Veränderlichen ihre obere und untere Grenze stets wirklich erreicht, d.h. ein Maximum und Minimum notwendig besitzt, schuf W EIERSTRASS ein Hilfsmittel, dass heute kein Mathematiker bei feineren analytischen oder arithmetischen Untersuchungen entbehren kann”. Der Satz von Rolle 12.2 und die Mittelwertsätze der Differentialrechnung von Lagrange und Cauchy 12.3 und 12.4 sind noch wichtige Ergebnisse der Differentialrechnung. Sie besagen im Wesentlichen: Es möge längs eines Bogens der stetigen Kurve y = f (x) eine Tangente vorhanden sein. Dann ist in einem gewissen inneren Punkte dieses Bogens die Tangente parallel zur Sehne, die den Bogen spannt. Die Mittelwertsätze besitzen eine zentrale Bedeutung für die Analysis, die wohl zuerst Cauchy erkannt hat: So Felix Klein (1849–1925): This was supplied by the mean value theorem; and it was Cauchy’s ” great service to have recognized its fundamental importance... because of this, we adjudge Cauchy as the founder of exact infinitesimal calculus”. Als Folgerung der Differentialrechnung haben wir die Integralrechnung vorgestellt. Das ist historisch nicht genau richtig, aber es scheint didaktischer zu sein. 1823 beschrieb Cauchy das Integral einer stetigen Funktion als der Grenzwert einer Summe. Für allgemeinere Funktionen fragte sich 1854 Riemann: 132 Abschnitt 15 R Also zuerst: Was hat man unter ab f (x)dx zu verstehen?” ” Für Bernhard Riemann (1826–1866), wohl der genialste deutsche Mathematiker laut Ostrowski, war die Antwort auf diese Frage eine Anmerkung in seinem Habilitationsschrift. Später verallgemeinerten die Franzosen Emil Heinrich Du BoisReymond (1818–1896) und Darboux die Definitionen von Cauchy und Riemann. Die Integralrechnung ist aber ziemlich älter. Der Fundamentalsatz der Infinitesimalrechnung 14.1 und seine Folgerungen, wie z. B. die Regel von Barrow 14.4 (nach Isaac Barrow (1630–1677), der akademische Lehrer Newtons), durch die der Zusammenhang zwischen den Prozessen der Differentiation und der Integration hergestellt wird, wurden von Newton und Leibniz unabhängig aufgestellt. Wer das zuerst entdeckt hat, war jahrelang ein großes Thema: Newton besass zwar diese Sätze lange vor Leibniz, hat sie aber erst nach Leibniz veröffentlicht. Über die Priorität dieser Entdeckung spielte sich ein sehr unerquicklicher Streit ab, der in den Jahren 1699–1722 sehr viel Staub in der gebildeten Welt Europas aufgewirbelt hat. Heute kann man vielleicht als das eine erfreuliche Resultat dieses Streites wenigstens die Auffassung nennen, dass es ein Verstoss gegen die Interessen der Wissenschaft ist, wissenschaftliche Entdeckungen, oder Methoden, die zu solchen Entdeckungen führen, geheim zu halten oder nur innerhalb eines kleinen Kreises bekannt zu geben4. Hoffentlich haben Sie sich die wichtigste Konzepte und Ergebnisse der Infinitesimalrechnung nach diesem historischen Intermezzo im Skript in Erinnerung gerufen. Vielleicht haben Sie den Eindruck bekommen, dass die Mathematik lebendig ist, und nicht einfach ein düsterer Himmel, eine trockene Häufung von Resultaten. Zur Mathematik gehört viel Geduld, aber als menschliche Schöpfung ist viele Leidenschaft dabei. 4Vgl. [Os], S. 180. ABSCHNITT 16 Lineare Gleichungssysteme Bei der Bestimmung von Stammfunktionen rationaler Funktionen haben wir uns ad hoc” mit dem Problem, wie löst man lineare Gleichungssysteme, getroffen. ” Dies möchten wir jetzt systematisch betrachten. Wir fangen klein an: Seien a, b ∈ R. Was ist die Menge aller x ∈ R so dass die lineare Gleichung ax = b erfüllt wird? Diese Sondersituation ist bereits lehrreicht: (a) Ist a 6= 0, so besitzt die Gleichung genau eine Lösung, nämlich x = ba . (b) Ist a = 0 und b 6= 0, so besitzt die Gleichung gar keine Lösung: Es existiert kein x ∈ R mit 0 · x = b 6= 0. (c) Ist a = 0 und b = 0, so hat die Gleichung unendlich viele Lösungen: Jedes x ∈ R ist eine Lösung, denn es gilt: a · x = 0 · x = 0 = b für alle x ∈ R. Lassen wir uns einen Schritt weiter gehen, und betrachten zwei lineare Gleichungen mit zwei Unbestimmten x und y: a1 x + b1 y = c 1 a2 x + b2 y = c 2 mit ai , bi , ci ∈ R für i = 1, 2. Es ist nun die Frage: Wie findet man –falls möglich – eine Lösung der ersten und der zweiten Gleichung? D.h., wir suchen nach Paaren (x, y) ∈ R × R, welche das Gleichungssystem erfüllen. Zunächst können wir die Unbestimmte y eliminieren”, indem wir die erste ” Ungleichung mit b2 , die zweite mit b1 multiplizieren, und danach von der ersten Gleichung die zweite substrahieren: b2 a1 x + b2 b1 y = b2 c 1 −[b1 a2 x + b1 b2 y = b1 c2 ] (a1 b2 − a2 b1 )x = b2 c1 − b1 c2 . Wir können analog vorgehen, um x zu eliminieren: −[a2 a1 x + a2 b1 y = a2 c1 ] a1 a2 x + a1 b2 y = a1 c 2 (a1 b2 − a2 b1 )x = a1 c2 − a2 c1 . 134 Abschnitt 16 Erfüllen die Konstanten a1 , a2, b1 , b2 ∈ R die Ungleichung a1 b2 − a2 b1 6= 0, dann ist die Lösung des linearen Gleichungssystems b2 c 1 − b1 c 2 a1 c 2 − a2 c 1 , y= . x= a1 b2 − a2 b1 a1 b2 − a2 b1 Durch Einsetzen in das ursprüngliche lineare Gleichungssystem sieht man sofort, dass diese x und y das System erfüllen: a1 (b2 c1 − b1 c2 ) + b1 (a1 c2 − a2 c1 ) = c1 a1 b2 − a2 b1 a2 (b2 c1 − b1 c2 ) + b2 (a1 c2 − a2 c1 ) a2 x + b2 y = = c2 a1 b2 − a2 b1 Ist a1 b2 − a2 b1 = 0, so hat das lineare Gleichungssystem entweder keine Lösung oder unendlich viele, je nachdem wie sich die Konstanten c1 und c2 im Bezug auf ai , bi verhalten. Speziell gilt: Ist c1 = c2 = 0, so hat das lineare Gleichungssystem mindestens die Lösung x = y = 0. Sie ist die einzige, wenn a1 b2 − a2 b1 6= 0. Lineare Gleichungssysteme haben eine einfache geometrische Bedeutung, die wir für zwei Unbestimmte anhand von drei Beispielen erklären. a1 x + b1 y = Beispiele. (a) Betrachte das lineare Gleichungssystem x + y = 1 x − y = 1 Da a1 b2 − a2 b1 = −2 6= 0, besitzt das Gleichungssystem genau eine Lösung, nämlich (x, y) = (1, 0). Dieser entspricht der Schnittpunkt der Geraden mit Gleichungen x + y = 1 und x − y = 1 in R2 . (b) Sei nun x + y = 1 3x + 3y = 4 Wäre (x̃, ỹ) eine Lösung, so gelte 3x̃ + 3ỹ = 3 und 3x̃ + 3ỹ = 4, also 3 = 4, was ein Widerspruch ist. Die Geraden mit den Gleichungen x + y = 1 und 3x + 3y = 4 sind parallel, daher schneiden sie sich nicht. Die Lösungsmenge des linearen Gleichungssystems ist dann 0. / (c) Betrachte das lineare Gleichungssystem x + 2y = 1 3x + 6y = 3 Die beiden Gleichungen entsprechen derselben Gerade, daher ist diese die Lösungsmenge des Gleichungssystems: Die Lösungsmenge besteht also Lineare Gleichungssysteme 135 aus den Punkten für x ∈ R beliebig. 1 1 x, − x + 2 2 Im Allgemeinen hat ein lineares Gleichungssystem die folgende Gestalt: a11x1 + · · · + a1n xn = b1 .. .. .. . . . am1x1 + · · · + amnxn = bm (∗) wobei m, n beliebige natürliche Zahlen sind: - m ist die Anzahl der Gleichungen - n ist die Anzahl der Unbekannten x1 , x2 , . . . , xn - die m · n reellen Zahlen ai j heißen die Koeffizienten des Gleichungssystems - die m reellen Zahlen bi heißen die konstante Terme des Gleichungssystems Falls bi = 0 für alle i = 1, . . . , m heißt das lineare Gleichungssystem homogen. Anderenfalls, d.h., falls ein i ∈ {1, . . . , m} existiert mit bi 6= 0, so heißt das lineare Gleichungssystem inhomogen. Ein n-Tupel ξ 0 = (ξ10 , . . . , ξn0 ) reeller Zahlen heißt Lösung des linearen Gleichungssystems, wenn die i-ten Komponenten ξi0 von ξ 0 das lineare Gleichungssystem erfüllen. Ein lineares Gleichungssystem heißt dann (a) lösbar, wenn es mindestens eine Lösung hat; (b) nicht lösbar oder unlösbar, wenn es keine Lösung hat; (c) eindeutig lösbar, wenn es genau eine Lösung hat. Die Koeffizienten eines linearen Gleichungssystems werden oft in einer Tabelle angeordnet. Wir schreiben a11 · · · a1n .. A = (ai j )1≤i≤m = (ai j ) = ... . 1≤ j≤n am1 · · · amn Diese Tabelle heißt eine m × n-Matrix. Dann ist A die zum vorgegebenen linearen Gleichungssystem (∗) gehörige Matrix. Fügt man die konstanten Terme des Gleichungssystems zu A hinzu, so erhält man eine m × (n + 1)-Matrix a11 · · · a1n b1 .. .. . (A, b) = ... . . am1 · · · amn bm Diese neue Matrix heißt die erweiterte Matrix des obigen linearen Gleichungssystems (∗). 136 Abschnitt 16 Betrachten wir nun ein weiteres lineares Gleichungssystem a′11 x1 + · · · + a′1n xn = b′1 .. .. .. . . . a′k1 x1 + · · · + a′kn xn = b′k mit k Ungleichungen und n Unbekannten, und mit erweiterter Matrix ′ a11 · · · a′1n b′1 .. . .. (A′ , b′ ) = ... . . ′ ′ ak1 · · · akn b′k Definition. Die zwei lineare Gleichungssysteme mit zugehörigen erweiterten Matrizen (A, b) und (A′ , b′ ) heißen äquivalent, wenn sie dieselbe Lösungsmenge besitzen. Wir schreiben dann (A, b) ∼ = (A′ , b′ ). Die Anwendung von folgenden Transformationen, elementare Umformungen genannt, lassen lineare Gleichungssysteme äquivalent: (a) Umformungen von Typ I: Ti j : Vertausche die i-te und die j-te Gleichung. (b) Umformungen von Typ II: Ti j (c) : Ersetze die i-te Gleichung durch die Gleichung (ai1 + ca j1 )x1 + (ai2 + ca j2 )x2 + . . . + (ain + ca jn )xn = bi + cb j mit j ∈ {1, . . . , m}, j 6= i, c ∈ R. (c) Umformungen von Typ III: Ti (c) : Ersetze die i-te Gleichung durch die Gleichung cai1 x1 + cai2 x2 + . . . + cain xn = cbi mit c ∈ R \ {0}. (d) Umformungen von Typ IV: Ti : Weglassen der i-ten Gleichung, falls diese Null ist, d. h. falls bi = 0 und ai j = 0 für alle j. Beispiel. Man wendet elementare Umformungen auf das erste Gleichungssystem an, um dieses zu vereinfachen: 2x1 + x2 + x3 = 1 x1 + 2x2 + 2x3 = 2 x1 + 2x2 + 2x3 = 2 T21 (−2) T12 x1 + 2x2 + 2x3 = 2 −→ 2x1 + x2 + x3 = 1 − 3x2 − 3x3 = −3 −→ x1 + x2 + x3 = 0 x1 + x2 + x3 = 0 x1 + x2 + x3 = 0 T31 (−1) −→ x1 + 2x2 + 2x3 = 2 − 3x2 − 3x3 = −3 − x2 − x3 = −2 T32 − 31 −→ x1 + 2x2 + 2x3 = 2 − 3x2 − 3x3 = −3 0x3 = −1 Lineare Gleichungssysteme 137 Das letzte lineare Gleichungssystem ist nicht lösbar: Die Gleichung 0 · x3 = −1 kann für kein x3 ∈ R erfüllt werden. Damit ist das ursprüngliche lineare Gleichungssystem auch nicht lösbar, wie das folgende Ergebnis sicherstellt: Satz 16.1. Zwei lineare Gleichungssysteme sind äquivalent, wen das eine aus dem anderen durch eine endliche Folge von elementaren Umformungen hervorgegangen ist. Beweis. Es ist klar, dass elementare Umformungen von Typen I, III und IV die Lösungsmenge nicht ändern. Zu untersuchen ist noch, dass dies auch für elementare Umformungen vom Typ II der Fall ist. Sei dazu (A′ , b′ ) aus (A, b) durch solche elementare Umformung Ti j (c) entstanden. Ist ξ 0 eine Lösung von (A, b) so gilt speziell ai1 ξ10 + · · · + ain ξn0 = bi a j1 ξ10 + · · · + a jn ξn0 = b j und damit auch (ai1 + ca j1 )ξ10 + · · · + (ain + ca jn )ξn0 = bi + cb j ai1 ξ10 + · · · + ain ξn0 + c(a j1 ξ10 + · · · + a jn ξn0 ) = bi + cb j d.h., ξ 0 = (ξ10 , . . . , ξn0 ) ist auch eine Lösung von (A′, b′ ). Umgekehrt sei angenommen, dass (A, b) aus (A′ , b′ ) durch die elementare Umformung Ti j (−c) entstanden. Dann gilt auch: Ist ξ 0 eine Lösung von (A′, b′ ), so ist ξ 0 auch eine Lösung von (A, b). Definition. Lineare Gleichungssysteme mit erweiterter Matrix der Form (A′ , b′ ) mit n Unbekannten und k Gleichungen so dass eine Zahl r mit 0 ≤ r ≤ k, und Indizes 1 ≤ j1 < j2 < . . . jr ≤ n gibt mit der Eigenschaft n i = 1, . . . r, j < ji ′ ai j = 0 für i > r, j = 1, . . . n und a′1 j1 , . . . , a′r jr 6= 0 heißen lineare Gleichungssysteme in Zeilenstufenform. Damit kann man zeigen: 138 Abschnitt 16 Satz 16.2. Jedes lineares Gleichungssystem ist zu einem linearen Gleichungssystem mit erweiterter Matrix (A′ , b′ ) gleich 0 0 0 .. . .. . 0 0 .. . · · · 0 a′1 j1 a′1 j1 +1 ··· 0 0 0 ··· 0 0 0 .. .. .. . . . .. .. .. . . . ··· 0 0 0 ··· ··· ∗ ∗ ∗ ··· ∗ ∗ ′ ′ · · · 0 a2 j2 a2 j2 +1 · · · ∗ ∗ ··· 0 0 0 · · · 0 a′3 j3 .. .. .. .. .. . . . . . .. .. .. .. .. . . . . . ··· 0 0 0 0 0 ··· 0 ··· ··· ··· ··· ··· ··· ∗ ∗ ∗ .. . ∗ · · · a′1n b′1 ∗ · · · a′2n b′2 ∗ · · · a′3n b′3 .. .. . . · · · ∗ ∗ · · · ∗ b′r−1 0 a′r jr ∗ · · · a′rn b′r · · · 0 b′r+1 .. . ··· äquivalent. (Für i = 1, . . . , r hnagt die i-te Gleichung nur von Unbekannten x j mit j > ji ab.) Beweis. Sei (A, b) ein lineares Gleichungssystem. Durch Anwendung von elementaren Umformungen von Typen I und II wird (A, b) auf Zeilenstufenform gebracht werden. Schritt 1: Sind ai j = 0 für alle i, j, so liegt die gesünechte Zeilenstufenform vor. Angenommen, ai j 6= 0 für mindestens ein Indexpaar (i, j). Sei j1 ∈ {1, . . . , n} der kleinste Index so dass die j1 -Spalte von A nicht nur aus Nullen besteht. Anwendung elementarer Umformungen von Typ I liefert a1 j1 6= 0. Für i = 2, . . . , m wenden wir die elementare Umformung a ij Ti1 − 1 a1 j1 an. So erhalten wir ein lineares Gleichungssystem dessen j1 -te Spalte die Form ai j1 0 . .. 0 hat, indem x j1 also nur in der ersten Gleichung vorkommt. (Die Unbekannten x1 , . . . , x j1 −1 kommen im linearen Gleichungssystem nicht vor, falls j1 > 1 ist.) 0 b′k Lineare Gleichungssysteme Wir haben also erreicht 0 · · · 0 a′1 j1 0 ··· 0 0 0 ··· 0 0 . .. .. · · · ... . 0 ··· 0 0 0 ··· 0 0 .. . .. . · · · .. . 0 ··· 0 0 139 a′1 j1 +1 a′2 j1 +1 a′3 j1 +1 .. . a′1 j1 +2 a′2 j1 +2 a′3 j1 +2 .. . a′r j1 +1 a′r+1 j1 +1 .. . a′r j1 +2 ··· ′ ar+1 j1 +2 · · · .. . ··· ′ ··· ak j1 +2 a′k j1 +1 · · · a′1n · · · a′2n · · · a′3n . · · · .. b′1 b′2 b′3 .. . a′rn a′r+!n .. . b′r b′r+1 .. . a′kn b′k Die Matrix entspricht also dem linearen Gleichungssystem a′1 j1 x j1 + a′1 j1 +1 x j1 +1 + · · · + a′1n xn a′2 j1 +1 x j1 +1 + · · · + a′2n xn a′3 j1 +1 x j1 +1 + · · · + a′3n xn .. . . · · · .. a′k j1 +1 x j1 +1 + · · · + a′kn xn = b′1 = b′2 = b′3 .. . = b′k Schritt 2: Wie im Schritt 1 behandeln wir nun das lineare Gleichungssystem a′2 j1 +1 x j1 +1 + · · · + a′2n xn = b′2 a′3 j1 +1 x j1 +1 + · · · + a′3n xn = b′3 .. . .. . . · · · .. ′ ′ ak j1 +1 x j1 +1 + · · · + akn xn = b′k und wiederholen das obige Argument. Nach spätestens m Schritten erreichen wir die gewünschte Zeilenstufenform. Beispiel. Wir suchen die Lösungsmenge des linearen Gleichungssystems −x1 + 2x2 + x3 = −2 3x1 − 8x2 − 2x3 = 4 x1 + 4x3 = −2 die zugehörige erweiterte Matrix ist −1 2 1 −2 4 . (A1 , b1 ) = 3 −8 −2 1 0 4 −2 140 Abschnitt 16 Auf A1 wenden wir das Gaußsche Eliminationsverfahren an: −1 2 1 −2 −1 2 1 −2 T31 (1) 3 −8 −2 4 −→ 3 −8 −2 4 1 0 4 −2 0 2 5 −4 T21 (3) −→ −1 2 1 −2 0 −2 1 −2 0 2 5 −4 T32 (1) −→ −1 2 1 −2 0 −2 1 −2 . 0 0 6 −6 Sofort sieht man: Das System ist eindeutig lösbar mit 6x3 = −6, also x3 = −1, −2x2 = −2 − x3 = −1, also x2 = 21 und x1 = 2 − 2x2 − x3 = 2 − 1 + 1 = 2. Beispiel. Betrachten wir das lineare Gleichungssystem x1 + x2 + x3 + x4 = 1 2x1 + x2 − 2x3 + 2x4 = 2 4x1 − 3x2 + 2x3 = 30 die zugehörige erweiterte Matrix ist 1 1 1 1 1 1 −2 2 2 . (A2 , b2 ) = 2 4 −3 2 0 30 Anwendung des Gaußschen Eliminationsverfahrens liefert seine Zeilenstufenform: 1 1 1 1 1 1 1 1 1 1 T31 (−4) 2 1 −2 2 2 1 −2 2 2 −→ 2 4 −3 2 0 30 0 −7 −2 −4 26 T21 (−2) −→ 1 1 1 1 1 0 −1 −4 0 0 0 −7 −2 −4 26 T32 (−7) −→ 1 1 1 1 1 0 −1 −4 0 0 0 0 26 −4 26 . Das heißt, wir haben folgendes lineares Gleichungssystem in Zeilenstufenform erreicht: x1 + x2 + x3 + x4 = 1 − x2 − 4x3 = 0 26x3 − 4x4 = 26 Definition. Betrachten wir ein lineares Gleichungssystem mit m Gleichungen und n Unbekannten x1 , . . . xn in Zeilenstufenform gegeben. Die Unbekannten / { j1 , . . . jr } heix j1 , . . . , x jr heißen Hauptvariable, und die Unbekannten xi mit i ∈ ßen freie Variable oder auch Parameter des linearen Gleichungssystems. Lineare Gleichungssysteme 141 Beispiel. Im obigen Besipiel mit erweiterter Matrix (A1 , b1 ) sind x1 , x2 und x3 Hauptvariable. Im Beispiel mit erweiterter Matrix (A2 , b2 ) sind x1 , x2 und x3 Hauptvariable, x4 aber frei. Satz 16.3. Betrachten ein lineares Gleichungssystem mit erweiterter Matrix (A′ , b′ ) in Zeilenstufenform gegeben. (a) Das System ist genau dann lösbar, wenn b′r+1 = . . . = b′k = 0 gilt. (b) Sei (A, b) die erweitete Matrix eines lösbaren linearen Gleichungssystem. Dann gilt: / { j1 , . . . , jr } von Werten für die (i) Zu jeder beliebigen Wahl α j , j ∈ freien Variable der Zeilenstufenform von (A, b) gibt es genau eine Lösung ξ 0 = (ξ10 , . . . , ξn0) des Gleichungssystems mit ξ j0 = α j für j∈ / { j1 , . . . , jr }. Außerdem: Durch die r-te Gleichung des Systems liegt dann die Hauptvariable x jr fest: 1 x jr = ξ j0r := ′ b′r − a′r jr +1 ξ j0r +1 − . . . − a′rn ξn0 . ar jr Aus der (r − 1)-ten Gleichung ergibt sich die Hauptvariable x jr −1 usw. (ii) Das System mit Matrix (A, b) ist genau dann eindeutig lösbar, wenn r = n und b′r+1 = . . . = b′k = 0 in der Stufenform. (Insbesondere muss dann m ≥ n gelten.) Beweis. Gilt b′ν 6= 0 für ν ∈ {r + 1, . . . , k}, dann ist die zugehörige ν -te Gleichung 0x1 + . . . + 0xn = bν′ , die keine Lösung besitzt, und damit das ganze lineare Gleichungssystem nicht. Gilt b′r+1 = . . . = b′k = 0, so sind alle angegebene (ξ10 , . . . ξn0 ) Lösungen des linearen Gleichungssystems. Eine Zeilenstufenform lässt sich weiter vereinfachen, indem man elementare Umformungen vom Typ III Ti (a−1 i ji ) für i = 1, . . . , r anwendet. Die i-te Gleichung, i ≤ r, hat dann die Gestalt x ji + a′′i ji +1 x ji +1 + . . . + a′′in xn = b′′i . Dann machen wir dies mit der ersten Gleichung x j1 + a′′1 j1 +1 x j1 +1 + . . . + a′′1 j2 −1 x j2 −1 + a′′1 j2 +1 x j2 +1 + . . . = b′′1 (hier kommen natürlich x j1 und höchstens die n − r freien Variablen xi , i 6= j1 , . . . jr vor.) 142 Abschnitt 16 Aus dieser ersten Gleichung kann man nun die Unbekannte x j2 eliminieren: Es reicht, das a′′1 j2 -fache der 2. Gleichung von der ersten abzuziehen. Insgesamt kann man die Variable x jν für ν = 2, . . . , k aus der 1. Gleichung eliminieren. Man setzt dies fort. Schließlich kann man die Unbekannte x jr aus den ersten r − 1 Gleichungen eliminieren, und Gleichungen der Art 0=0 weglassen (dank elementaren Umformungen vom Typ IV). Übrig bleiben genau r Gleichungen, wenn das lineare Gleichungssystem lösbar ist, welche sofort eine Lösung liefern. Somit erhalten wir eine sogenante reduzierte Zeilenstufenform des linearen Gleichungssystems mit Matrix: ′ A = r→ 0 0 0 .. . .. . 0 0 .. . ··· 0 ··· 0 ··· 0 .. . .. . ··· 0 ··· j1 ↓ 1 0 0 .. . .. . 0 ∗ 0 0 .. . .. . 0 ··· ∗ ··· 0 ··· 0 .. . .. . ··· 0 0 ··· j2 ↓ 0 1 0 .. . .. . 0 ∗ ··· ∗ ∗ ··· ∗ 0 ··· 0 .. .. . . .. .. . . 0 0 ··· ··· j3 ↓ 0 0 1 .. . .. . 0 . . . jr ↓ ··· 0 ··· 0 ··· 0 . · · · .. ∗ ··· ∗ ∗ ··· ∗ ∗ ··· ∗ .. .. . . ··· 0 ∗ ··· ∗ 0 1 ∗ ··· ∗ ··· 0 .. . ··· 0 (Dabei steht ∗ für ein beliebiges Element aus K.) Ist das lineare Gleichungssystem nicht lösbar, so erhält man eine widersprüchliche (r + 1)-te Gleichung 0 = 1. Beispiel. Wir betrachten das lineare Gleichungssystem des letzten Beispiels mit Zeilenstufenform x1 + x2 + − x2 − x3 + x4 = 1 4x3 = 0 26x3 − 4x4 = 26 Lineare Gleichungssysteme 143 Davon rechnen wir die reduzierte Zeilenstufenform: 1 1 1 1 1 1 1 1 1 1 T2 (−1) 0 −1 −4 0 1 4 0 0 −→ 0 0 0 0 26 −4 26 0 0 26 −4 26 1) T3 ( 26 −→ T13 (3) −→ 1 1 1 1 1 0 1 4 0 0 2 0 −0 1 − 13 1 7 1 0 0 13 0 1 4 0 2 0 −0 1 − 13 19 13 T12 (−1) T23 (−4) −→ 0 1 1 0 −3 1 1 0 1 4 0 0 2 0 −0 1 − 13 1 −→ 19 7 1 0 0 13 13 8 8 0 1 0 − 13 13 2 1 0 −0 1 − 13 Damit ist die Lösungsmenge für x4 = 13t, für t ∈ R genau x3 = 2 1 + 13 x4 = 1 + 2t 8 8 8 − 13 x4 = − 13 − 8t x2 = − 13 x1 = 19 3 7 − 13 x4 = 19 13 − 7t (d.h., eine Gerade des R3 .) Im nächsten Abschnitt betrachten wir axiomatisch die allgemeine Struktur, welche die Lösungsmenge homogener linearer Gleichungssysteme besitzen: Die Struktur von Vektorraum. ABSCHNITT 17 Vektorräume Betrachten wir die Gleichung x + y = 0. Sie liefert ein einfaches Beispiel vom homogenen linearen Gleichungssystem. Seine Lösungsmenge ist übrigens o o n o n n 1 1 0 x t :t ∈R . t :t ∈R = + ∈ R2 : x ∈ R = L := −1 −1 0 −x Es fallen folgende Tatsachen auf: L besitzt die Lösung x = y = 0, die Summe zweier Lösungen ist wieder eine Lösung, das Produkt von einer Lösung mit einem reellen Zahl ist weiterhin eine Lösung. Das heizunächst einmal, dass die Lösungsmenge eines homogenen linearen Gleichungssystems eine Struktur besitzt, d.h., sie ist mehr als einfach eine Menge: Man wird hierzu vom Lösungsraum besprochen. Diese Struktur (diese Räume) ist eine allgemeine Befund in der Mathematik: Die Struktur vom Vektorraum. Die Lineare Algebra, mit der wir uns in der Rest dieser Vorlesung hauptsächlich beschäftigen werden, ist die Theorie der Vektorräume. Genau wie die Begriffe Gruppe“ und Körper“ in Abschnitt 3 führen wir auch den Begriff Vektorraum“ ” ” ” axiomatisch1 ein. Definition. Ein Vektorraum über einem Körper (K, +K , ·K ) ist eine Menge V versehen mit einer Verknüpfung +V : V ×V → V , genannt Addition, und einer Abbildung ·V : K ×V → V , genannt skalare Multiplikation, die folgenden Bedingungen genügen: (a) V ist bezüglich der Addition eine abelsche Gruppe, d.h. für alle u, v, w ∈ V gilt (V1) u +V (v +V w) = (u +V v) +V w, (V2) Es existiert 0V ∈ V mit v +V 0V = 0V +V v = v, (V3) Zu jedem v ∈ V gibt es ein −v ∈ V mit v +V (−v) = 0V , (V4) u +V v = v +V u. (b) für alle a, b ∈ K und v, w ∈ V ist 1Wie Guiseppe Peano 1888 machte, allerdings erst ohne große Resonanz: Diese neue Sprache war noch nicht nötig, um die laufenden Forschungsprobleme zu betrachten. Es war erst im 20. Jahrhundert, als die Funktionalanalysis, zusammen mit der Tendenz der modernen Algebra, alle Begriffe axiomatisch zu strukturieren, dem Konzept von Vektorraum seinen Platz gegeben hat, den er noch heute besitzt. 146 Abschnitt 17 (V5) (V6) (V7) (V8) a ·V (b ·V v) = (a ·K b) ·V v, 1 ·V v = v, a ·V (v +V w) = a ·V v +V a ·V w, (a +K b) ·V v = a ·V v +V b ·V v. Die Unterscheidung zwischen +V und +K bzw. ·V und ·K , so wie zwischen 0V und 0K immer wieder zu machen ist eine enorme Belastung für die Bezeichnung. In keinem Lehrbuch ist das so zu finden. Es ist also unvermeidlich, dass wir das Symbol + sowohl für die Addition in K, als auch für die in V benutzen, ebenso wie die Produktschreibweise innerhalb von K und für die skalare Multiplikation verwandt wird. Letzten Endes wäre es auch nicht sehr hilfreich, wenn wir etwa 0 ∈ K und 0 ∈ V typografisch unterscheiden würden. Deswegen werden wir dies auch nicht tun, und wird dem Leser überlassen, zu unterscheiden, wann die einen oder die anderen gebraucht wird. Einfach zu begründen sind folgende Rechenregeln für Vektorräume: Für a ∈ K, v ∈ V ist (a) 0v = 0 (b) (−a)v = a(−v) = −av (c) av = 0 ⇐⇒ a = 0 oder v = 0. Beispiele. (a) Obwohl es uns nichts Neues bringt, ist bereits das Beispiel V = K nützlich: K ist in offensichtlicher Weise ein Vektorraum über sich selbst. (b) Das fundamentale Beispiel eines Vektorraums ist V = K n . Dazu definieren wir für a1 b1 v = ... , w = ... ∈ K n und α ∈ K : an bn α a1 a1 + b1 .. , α v = ... . v+w = . α an an + bn Die Vektoren des K n werden wir als Spaltenvektoren schreiben. Dass K n mit diesen Operationen ein Vektorraum ist, kann man direkt nachrechnen. So ist etwa 0 = a1 −a1 0 .. das Inverse von .. ... das neutrale Element bezüglich +, und . . an −an 0 bezüglich +. (c) R ist ein Q-Vektorraum, wie aus den Körperaxiome von R folgt. Ebenso ist C sowohl ein R-Vektorraum als auch ein Q-Vektorraum. (Allgemein gilt: Es ist L ein Körper, der K als Teilkörper” enthält, so ist L ist in natürlicher Weise ” ein Vektorraum über K: Man beschränkt die Multiplikation L × L → L einfach Vektorräume 147 auf K × L → L. Sogar noch allgemeiner gilt dies für jeden L-Vektorraum V : Die Einschränkung der skalaren Multiplikation auf Elemente von K macht ihn zum K-Vektorraum.) (d) Wir betrachten ein merkwürdiges“ Beispiel: ” V = R>0 = {x ∈ R : x > 0} mit der Addition x ⊕ y = xy und der Skalarmultiplikation α ∗ x = xα , α ∈ R, ist ein R-Vektorraum. (e) In der Geometrie und vor allem in Physik und Technik sind Vektoren Größen, die eine Richtung“ und einen Betrag“ haben, z.B. Geschwindigkeit, oder ” ” Kraft, während Skalare“ Größen sind, denen keine Richtung zukommt, z.B. Ener” gie. Wir wollen kurz erläutern, wie elementargeometrische Überlegungen zum Begriff des Vektorraums führen. In der Ebene E der anschaulichen Geometrie zeichnen wir einen Punkt O aus, den Ursprung“. Zu jedem Punkt P ∈ E gehört dann ” −→ eine gerichtete Strecke OP −→ −→ P OP + OQ −→ OP O −→ OQ Q Die Addition von solchen gerichteten Strecken erfolgt mittels der Parallelogramm−→ −→ Regel, während für r ∈ R, r ≥ 0, die Strecke rOP die gleiche Richtung wie OP, aber die r-fache Länge hat (bei r < 0 erfolgt Richtungsumkehr). −→ 2OP P O −→ −2OP → 1− 2 OP −→ −OP Nachdem man Koordinaten eingeführt hat (mit O als Ursprung des Koordinatensystems), ist der soeben konstruierte Vektorraum der Ortsvektoren“ gerade der ” 148 Abschnitt 17 R2 . Analog erhält man den R3 als Vektorraum der Ortsvektoren des Anschauungsraums. Wir betonen aber ausdrücklich, dass für uns die Elemente eines Vektorraums nicht etwa Wesen sind, die sich dadurch auszeichnen, dass sie eine Richtung und einen Betrag haben. Bei den vorangegangenen Beispielen (c) und (d) und dem folgenden Beispiel (f) ist diese Betrachtungsweise weder naheliegend noch nützlich. (f) Sei V ein K-Vektorraum und M eine Menge. Sei Abb(M,V ) die Menge aller Abbildungen von M nach V . Für f , g ∈ Abb(M,V ) und α ∈ K definieren wir f + g ∈ Abb(M,V ) α f ∈ Abb(M,V ) durch ( f + g)(x) = f (x) + g(x), durch (α f )(x) = α f (x), x ∈ M. Man überprüft sofort, dass Abb(M,V ) mit diesen Operationen ein KVektorraum ist. Die Axiome lassen sich punktweise“ überprüfen; daher überträgt ” sich ihre Gültigkeit von V auf Abb(M,V ). (g) Insbesondere ist die Menge K[X] aller Polynomfunktionen mit Koeffizienten in einem Körper K, versehen mit der üblichen Addition von Polynomfunktionen und mit der skalaren Multiplikation K × K[X] → K[X], (α , p(X)) 7→ (α p)(X) := α · p(X), ein Vektorraum über K. Teilmengen eines Vektorraumes, die wiederum die Struktur vom Vektorraum besitzen, sind so gekennzeichnet: Definition. V sei ein K-Vektorraum. Eine Teilmenge U von V heißt Untervektorraum, wenn gilt: (U1) U 6= 0. / (U2) Für alle u, v ∈ U ist auch u + v ∈ U. (U3) Für alle u ∈ U, α ∈ K ist α u ∈ U. Bemerkung 17.1. Ein Untervektorraum U von V ist selber ein K-Vektorraum. Beweis. Nach (U1) existiert ein u ∈ U so dass wegen 0u = 0 gilt 0 ∈ U nach (b), und ebenso ist −u = (−1)u ∈ U. Alle anderen Forderungen sind ohnehin für beliebige Elemente von V erfüllt. In unserer elementargeometrischen Interpretation sind Beispiele von Untervektorräumen gegeben durch die Geraden des R2 , die den Ursprung enthalten, und durch ebensolche Geraden und Ebenen des R3 . Beispiele von Untervektorräumen sind auch allgemein sehr leicht zu geben: (a) In jedem Vektorraum V sind zunächst {0} und V Untervektorräume. Vektorräume 149 (b) Seien U1 , U2 ⊂ V Untervektorräume. Dann ist U1 ∩U2 ein Untervektorraum (aber U1 ∪U2 i.a. nicht!): v, w ∈ U1 ∩U2 =⇒ =⇒ =⇒ v, w ∈ U1 und v, w ∈ U2 α v, v + w ∈ U1 und α v, v + w ∈ U2 α v, v + w ∈ U1 ∩U2 . (c) Genauso sieht man: Der Durchschnitt endlich vieler Untervektorräume U1 , . . . ,Un oder sogar beliebig vieler Untervektorräume ist ein Untervektorraum. o n x ∈ R2 : x + y = 0 ist ein Untervektorraum von R2 , (d) Die Menge U = y wie es in der einleitenden Motivation dieses Abschnittes begründet wurde. (e) Manchmal trug der Schein: Es gibt Untervektorräume, die durch nicht lineare Gleichungen gegeben werden: Die Menge o n x ∈ R2 : x2 + y4 = 0 U′ = y ist ein Untervektorraum des R2 . Es ist natürlich deshalb so, weil U ′ = n o 0 ist. 0 o n x 2 2 2 ∈ R : x + y ≤ 1 ist kein Untervektorraum von (f) Die Menge W = y 1 1/2 1/2 2 ∈ /W = ist in W enthalten, aber 2 · R : Der Punkt 1 1/2 1/2 (der Axiom (U3) ist damit verletzt). Definition. Sei V ein K-Vektorraum, und seien v1 , . . . , vn ∈ V . Ein Element w ∈ V ist Linearkombination von v1 , . . . , vn , wenn α1 , . . . , αn ∈ K existieren mit w = α1 v1 + · · · + αn vn . Seien w = α1 v1 + · · · + αn vn und z = β1 v1 + · · · + βn vn Linearkombinationen von v1 , . . . , vn . Dann sind auch w + z = (α1 + β1 )v1 + · · · + (αn + βn )vn , λ w = (λ α1 )v1 + · · · + (λ αn )vn , für λ inK Linearkombinationen von v1 , . . . , vn. Sei L(v1 , . . . , vn ) = w ∈ V : w ist Linearkombination von v1 , . . . , vn . Wir haben gesehen, dass L(v1 , . . . , vn ) ein Untervektorraum von V ist. Er heißt lineare Hülle von v1 , . . . , vn . 150 Abschnitt 17 Beispiel. Sei etwa V = K n . Dann verwenden wir die Standardbezeichnung 0 .. . ei = 1 . .. 0 mit dem Eintrag 1 and der i-ten Stelle und lauter Nullen sonst. Damit gilt K n = L(e1 , . . . , en ), α1 denn für v = ... ∈ K n ist αn v = α1 e1 + · · · + αn en . Beispiel. Die wichtigste Anwendung der linearen Algebra ist die Theorie der linearen Gleichungssysteme. Sei z.B. für K = R folgendes Gleichungssystem gegeben: − x1 + 3x2 + 4x3 = 2 5x1 + x2 − 3x3 = 0 x1 + x2 + x3 = −1. Um den Zusammenhang zu den Linearkombinationen herzustellen, schreiben wir Elemente des R3 im Folgenden als Spaltenvektoren. Wir setzen −1 3 4 2 v1 = 5 , v2 = 1 , v3 = 3 , b = 0 . 1 1 1 −1 Eine Lösung des obigen Gleichungssystems zu finden, ist dann gleichbedeutend damit, x1 , x2 , x3 ∈ R zu finden, für die x1 v1 + x2 v2 + x3 v3 = b ist. Genau dann ist das Gleichungssystem lösbar, wenn b ∈ L(v1 , v2 , v3 ). Sei nun V ein K-Vektorraum und S eine beliebige Teilmenge von V . Dann setzen wir L(S) = w ∈ V : es existieren v1 , . . . , vn ∈ S mit w ∈ L(v1 , . . . , vn) und nennen L(S) die lineare Hülle von S. Vektorräume 151 Anmerkung. (a) Ist S endlich, etwa S = {v1 , . . . , vn }, dann ist L({v1 , . . . , vn }) = L(v1 , . . . , vn ). (b) L(S) ist stets ein Untervektorraum: w ∈ L(v1 , . . . , vn ) w + z ∈ L(v1 , . . . , vn, u1 , . . . , um ), =⇒ z ∈ L(u1 , . . . , um ) α w ∈ L(v1 , . . . , vn ), α ∈ K. (c) Es ist zweckmäßig, L(0) / = {0} zu setzen. Definition. Wenn U = L(S) ist, sagen wir auch, U sei der von S erzeugte Untervektorraum, oder U sei der von S aufgespannte Untervektorraum, oder S sei ein Erzeugendensystem von U. Ist S also ein Erzeugendensystem von einem K-Vektorraum V , dann gibt es zu jedem v ∈ V ein m ∈ N>0 so wie Elemente v1 , . . . , vm ∈ S und α1 , . . . , αm ∈ K mit v = α1 v1 + . . . + αm vm . Ist V = L(S) mit S einer endlichen Menge, so heißt V endlich erzeugt. In dieser Vorlesung werden wir nur solche systematisch betrachten. Das ist aber nicht immer ausreichend, wie das folgende Beispiel zeigt: Beispiel. Sie V = K[X]. Jede Polynomfunktion f = a0 + a1 X + · · · + an X n ist eine Linearkombination der Potenzen 1 = X 0 , X, X 2 , X 3 , . . . der Unbestimmten X. Also ist die Menge S dieser Potenzen ein Erzeugendensystem von K[X] als KVektorraum. Aber keine echte und schon gar keine endliche Teilmenge von S erzeugt K[X]: für kein m ist X m Linearkombination der anderen Potenzen. Der Durschnitt U1 ∩ U2 zweier Untervektorräume U1 und U2 eines Vektorraumes V ist die größte Menge, die sowohl in U1 als auch in U2 enthalten ist, und damit natürlich auch der größte gemeinsame Untervektorraum von U1 und U2. Welches ist der kleinste Untervektorraum, der sowohl U1 als auch U2 enthält? Die erste Antwort, die uns einfällt, ist nicht richtig: Anmerkung. Die Vereinigung U1 ∪ U2 zweier Untervektorräume U1 , U2 eines Vektorraumes V ist kein Untervektorraum: Seien dazu o o n n x x 2 2 ∈R :x=0 . ∈ R : y = 0 und U2 := U1 := y y 0 1 0 1 1 Es ist , ∈ U1 ∪U2 , aber + = ∈ / U1 ∪U2 , so dass der 1 0 1 0 1 Axiom (U2) verletzt wird. Wenn W ⊃ U1 ∪ U2 ein Untervektorraum sein soll, dann muss u1 + u2 ∈ W für alle u1 ∈ U1 , u2 ∈ U2 . gelten. Insofern können wir setzen U1 +U2 = {u1 + u2 : u1 ∈ U1 , u2 ∈ U2 }. 152 Abschnitt 17 Nun ist leicht zu zeigen, dass U1 + U2 ein Untervektorraum ist: Für u1 , u′1 ∈ U1, u2 , u′2 ∈ U2 und α ∈ K ist (u1 + u2 ) + (u′1 + u′2 ) = (u1 + u′1 ) + (u2 + u′2 ) ∈ U1 +U2 α (u1 + u2 ) = α u1 + α u2 ∈ U1 +U2. Wir haben soeben gezeigt: Jeder U1 und U2 umfassende Untervektorraum enthält U1 +U2 . Dann ist U1 +U2 der kleinste Untervektorraum, der U1 und U2 enthält. Wie man den Durchschnitt beliebig vieler Untervektorräume bilden kann, so kann man auch die Summe beliebig vieler Untervektorräume bilden. Für eine Familie (Ui )i∈I von Untervektorräumen setzen wir ∑ Ui = {ui1 + · · · + uin : ui j ∈ Ui j , n ∈ N}. i∈I Da die Addition in einem Vektorraum V assoziativ und kommutativ ist, kommt es nicht darauf an, die Ui irgendwie zu ordnen. Mit dieser Schreibweise können wir die lineare Hülle einer Teilmenge S ⊂ V auch so angeben: L(S) = ∑ L(v). v∈S Zerlegt ein Vektorraum V in Summe zweier Untervektorräume, etwa V = U1 +U2 , lassen sich Vektoren v ∈ V schreiben als Summe v = u1 + u2 mit u1 ∈ U1 , u2 ∈ U2. Leider ist diese Summe nicht eindeutig. Zum Schluß wollen wir zeigen, unter welche Bedingungen ist diese Schreibweise eindeutig. Satz 17.2. Seien U1 ,U2 Untervektorräume eines K-Vektorraumes V , und sei U = U1 +U2 . Dann sind folgende Aussagen äquivalent: (i) Ist u1 + u2 = 0 für u1 ∈ U1 , u2 ∈ U2 , dann ist u1 = u2 = 0. (ii) Für jedes u ∈ U ist die Darstellung u = u1 + u2 eindeutig. (iii) U1 ∩U2 = {0}. Beweis. (i) ⇒ (ii) Sei u ∈ U mit u = u1 + u2 = u′1 + u′2 für u1 , u′1 ∈ U1 , u2 , u′2 ∈ U2. Es ist zu zeigen: u1 = u′1 und u2 = u′2 . Das ist aber einfach, denn aus u = u1 + u2 = u′1 + u′2 folgt, dass (u1 − u′1 ) + (u2 − u′2 ) = 0 sein muss, wobei u1 − u′1 ∈ U1 und u2 − u′2 ∈ U2 sind. Nach (i) ist dann u1 − u′1 = 0 und u2 − u′2 = 0, also u1 = u′1 und u2 = u′2 . Vektorräume 153 (ii) ⇒ (iii) Sei u ∈ U1 ∩U2. Es ist u = 0 + u = u + 0, und wegen (ii) muss u = 0 gelten. (iii) ⇒ (i) Seien u1 ∈ U1 und u2 ∈ U2 mit u1 + u2 = 0. Dann ist und damit u1 = −u2 ∈ U2 und u2 = −u1 ∈ U1 , also u1 = u2 = 0. u1 , u2 ∈ U1 ∩U2 = {0}, Definition. Seien U1 ,U2 Untervektorräume eines K-Vektorraumes. Dann heißt die Summe U1 +U2 die direkte Summe von U1 und U2, falls eine der Bedingungen (und damit alle) aus Satz 17.2 erfüllt sind. Wir schreiben dann Ein einfaches Beispiel dazu: U1 ⊕U2 . Beispiel. Sei V = K 2 . Es ist V = L(e1 ) ⊕ L(e2 ), denn es gilt einerseits V = L(e1 ) + L(e2 ) d.h., jeder Vektor aus V lässt sich als Summe von einem Vielfachen von e1 plus einem Vielfachen von e2 darstellen, und andererseits n o n o λ 0 ,λ ∈ R ∩ v ∈ V : v = L(e1 ) ∩ L(e2 ) = v ∈ V : v = , λ ∈ R = {0}. 0 λ Im nächsten Abschnitt möchten wir uns klar machen, ob und wie Vektorräume nach ihren Größen” unterschieden werden können. Es ist zunächst einmal offen” sichtlich, dass die Anzahl von Elementen in der grundlegenden Menge kein Kriterium dafür sein kann, weil dies nicht die zusätliche Struktur, die durch die Addition und die skalare Multiplikation einbezogen ist, berücksichtigt. ABSCHNITT 18 Basen und Dimension Sei K ein Körper und V = K n . Wir wissen bereits, dass e1 , . . . , en den Vektor α1 raum V erzeugen: Zu jedem v = ... ∈ V existieren β1 , . . . , βn ∈ K mit αn v = β1 e1 + · · · + βn en , nämlich β1 = α1 , . . . , βn = αn . Außerdem sind β1 , . . . , βn eindeutig bestimmt: Wir β1 müssen βi = αi wählen, weil β1 e1 + · · · + βn en = ... . βn 2 Sei andererseits V = K , w1 = e1 , w2 = e2 , w3 = e1 + e2 . Auch dann existieren α1 zu jedem v = ∈ K 2 Elemente β1 , β2 , β3 ∈ K mit v = β1 w1 + β2 w2 + β3 w3 . α2 Wir können z.B. β1 = α1 , β2 = α2 , β3 = 0 wählen, aber genauso β1 = α1 + 1, β2 = α2 + 1, β3 = −1. In diesem Fall sind die Koeffizienten β1 , β2 , β3 in der Darstellung von v nicht eindeutig bestimmt. Um zwischen Systemen wie e1 , . . . , en ∈ K n und w1 , w2 , w3 ∈ K 2 unterscheiden zu können, trifft man folgende Definition. V sei ein K-Vektorraum. Die Vektoren v1 , . . . , vn ∈ V heißen linear abhängig, wenn es α1 , . . . , αn ∈ K gibt, so daß αi 6= 0 für mindestens ein i, aber α1 v1 + · · · + αn vn = 0 ist. Sonst heißen v1 , . . . , vn linear unabhängig. Mit anderen Worten: v1 , . . . , vn sind linear unabhängig, wenn gilt. α1 v1 + · · · + αn vn = 0 =⇒ α1 = · · · = αn = 0 Wir betonen ausdrücklich, dass wir nicht von der linearen Unabhängigkeit der Menge {v1 , . . . , vn } sprechen. Zwar kommt es für die lineare Unabhängigkeit von v1 , . . . , vn nicht auf die Reihenfolge an, aber man sollte nicht von vornherein ausschliessen, dass unter den vi ein Element doppelt vorkommt; ferner spielt beim später definierten Begriff Basis“ die Reihenfolge sehr wohl eine Rolle. Um die ” spädere Betrachtung zu vereinfachen fı̈hren wir doch den Begriff von linear unabhängiger Teilmenge eines K-Vektorraumes V : 156 Abschnitt 18 Definition. Eine Teilmenge S eines K-Vektorraumes V heißt linear unabhänging, wenn jede endliche Teilmenge von S aus linear unabhängingen Vektoren besteht. Beispiele. (a) Die leere Menge 0/ ist linear unabhängig. (b) Der Nullvektor ist linear abhängig, da 1 · 0 = 0 gilt. (c) Jede Menge, die den Nullvektor enthält, ist linear abhängig. 1 −2 des R2 sind linear abhängig, denn , v2 = (d) Die Vektoren v1 = −1 2 v1 + 2v2 = 0. 1 1 sind linear unabhängig in R2 , und w2 = (e) Die Vektoren w1 = 0 1 denn aus der Gleichung 0 1 1 , + λ2 = λ1 0 1 0 d.h., aus dem linearen Gleichungssystem mit Gleichungen λ1 + λ2 = 0 und λ1 + 0λ2 = 0 folgt λ1 = λ2 = 0 als einzige Lösung. (f) Sei V ein K-Vektorraum. Sei v ∈ V , v 6= 0. Dann ist v linear unabhängig, denn es gilt: Aus v = 0 folgt λ = 0. (g) Die Vektoren e1 , . . . , en des K n sind linear unabhängig. Das vierte Beispiel besagt: Man kann v1 = −3v2 schreiben, d.h., man kann v1 als Linearkombination der übrigen Vektoren (in diesem Beispiel ist v2 der einzige übrige Vektor) darstellen. Das charakterisiert die lineare Abhängigkeit: Satz 18.1. Die Vektoren v1 , . . . , vn sind genau dann linear abhängig, wenn es mindestens ein j mit j ∈ {1, . . . , n} gibt, so dass v j als Linearkombination der übrigen Vektoren v1 , . . . , v j−1 , v j+1 , . . . , vn dargestellt werden kann. Beweis. ⇐=“ Seien v1 , . . . , vn linear abhängig. Dann gibt es λ1 , . . . , λn ∈ K mit ” λ1 v1 + . . . + λn vn = 0 und λ j 6= 0 für mindestens ein j ∈ {1, . . . , n}. Daraus folgt vj = − λ j−1 λ1 j+1 n v1 − . . . − v j−1 − v j+1 − . . . − vn . λj λj λj λj =⇒ “ OBdA wird j = 1 angenommen. Dann folgt v1 = λ2 v2 + . . . + λn vn , und ” daher gilt λ1 v1 − λ2 v2 − . . . − λn vn = 0 mit λ1 = 1 6= 0. Definition. Sei V ein K-Vektorraum. Eine Familie B von Vektoren aus V heißt Basis von V , falls Basen und Dimension 157 (B1) Die Vektoren aus B bilden ein Erzeugendensystem von V . (B2) Die Vektoren aus B sind linear unabhängig. Anmerkung. Absichtlich haben wir das Wort Menge” vermieden, und statt” dessen das Wort Familie” verwendet: Wir möchten z. B. die Familie (v1 , v2 ) ” aus (v2 , v1 ) unterscheiden. Als Mengen wären diese dasselbe Objekt: {v1 , v2 } = {v2 , v1 }. Deswegen verwenden wir runde Klammer (. . .) in der Bezeichnung. Beispiele. (a) 0/ ist eine Basis von {0}. (b) Die Vektoren e1 , . . . , en bilden eine Basis des K n . Sie heißt die Standardbasis oder die kanonische von K n . Basis 1 1 bilden eine Basis des R2 . Wir und b2 = (c) Die Vektoren b1 = 0 1 haben oben gesehen, dass diese linear unabhängig sind. Sie bilden ferner v1 2 ein Erzeugendensystem von R : Sei dazu v = ∈ R2 . Es ist zu zeigen: v2 v lässt sich schreiben als Linearkombination von b1 und b2 . D.h., es muss gelten: λ1 λ2 λ1 + λ2 v1 1 1 + . = v= = λ1 + λ2 = λ1 λ1 0 v2 1 0 Es muss also v1 = λ1 + λ2 und v2 = λ1 gelten. Kann mann also dann λ1 und λ2 für jedes vorgegebenes Paar v1 , v2 finden? Das ist genau dann der Fall, wenn das lineare Gleichungssystem v1 = λ1 + λ2 v2 = λ1 mit Unbekannten λ1 und λ2 lösbar ist. Das ist doch der Fall mit λ1 = v2 v1 und λ2 = v1 − v2 . Man kann also jeden Vektor v = ∈ R2 als Linearv2 kombination von (1, 1) und (1, 0) darstellen, nämlich v1 1 1 v= = v2 + (v1 − v2 ) v2 0 1 und damit bilden die Vektoren b1 und b2 ein Erzeugendensystem des R2 . Anmerkung. Sprachliche Verwendungen sind heutzutage im Alltag nicht mehr so gepflegt; für die Mathematik sind sie aber sehr wichtig: Wir haben von einer Basis eines Vektorraumes gesprochen, nicht von der Basis. Damit ist geäußert, dass Basen von Vektorräumen nicht eindeutig bestimmt sind. 158 Abschnitt 18 Satz 18.2 (Eindeutigkeit der Basisdarstellung). Sei V ein endlich erzeugter KVektorraum. Sei (v1 , . . . , vn ) eine Basis von V . Jeder Vektor v ∈ V lässt sich eindeutig als Linearkombination v = λ1 v1 + . . . + λn vn mit λi ∈ K schreiben. Beweis. Da (v1 , . . . , vn ) eine Basis ist, existieren λ1 , . . . , λn ∈ K so dass v = λ1 v1 + . . . + λn vn . Sei v = µ1 v1 + . . . + µn vn , µi ∈ K eine weitere Darstellung von v als Linearkombination von v1 , . . . , vn . Damnn ist 0 = v − v = (λ1 − µ1 )v1 + . . . + (λn − µn )vn . Da v1 , . . . , vn linear unabhängig sind, folgt λi − µi = 0 für alle i, also λi = µi für alle i = 1, . . . , n. Definition. Sei V ein K-Vektorraum. Sei B ⊂ V eine Teilmenge. (a) Man sagt, dass B ein minimales Erzeugendensystem ist, wenn die Vektoren aus B ein Erzeugendensystem von V bilden, aber nicht die Vektoren die in echten Teilmengen von B enthalten sind. (b) Man sagt, dass B eine maximale linear unabhängige Familie ist, falls die Vektoren aus B linear unabhängig sind, aber nicht mehr die Vektoren die in echten Obermengen von B enthalten sind. Eine Basis eines K-Vektorraumes kann man folgendermaßen charakterisieren: Satz 18.3. V sei ein K-Vektorraum, v1 , . . . , vn ∈ V . Dann sind folgende Aussagen äquivalent: (a) v1 , . . . , vn ist eine Basis von V . (b) v1 , . . . , vn ist ein minimales Erzeugendensystem von V . (c) v1 , . . . , vn ist maximal linear unabhängig in V . Beweis. Eine Basis besitzt die in (b) und (c) behaupteten Eigenschaften: Sie ist ein Erzeugendensystem nach Definition und minimal, weil eine Gleichung vi = λ1 v1 + · · · + λi−1 vi−1 + λi+1 vi+1 + · · · + λn vn gegen die lineare Unabhängigkeit verstoßen würde. Sie ist linear unabhängig nach Definition und maximal, weil es zu jedem w ∈ V eine Darstellung w = λ1 v1 + · · · + λn vn gibt: v1 , . . . , vn , w sind linear abhängig. Ein minimales Erzeugendensystem ist linear unabhängig nach Satz 18.1 und damit eine Basis. Basen und Dimension 159 Sei nun v1 , . . . , vn maximal linear unabhängig. Für jedes w ∈ V hat man daher eine nichttriviale Darstellung 0 = λ1 v1 + · · · + λn vn + β w. Wäre β = 0, so wäre v1 , . . . , vn linear abhängig. Also muss β 6= 0 sein, und wir erhalten λ1 λn w= − v1 + · · · + − vn ∈ L(v1 , . . . , vn ). β β Somit ist v1 , . . . , vn ein Erzeugendensystem von V und damit eine Basis. Wenn man neue Objekte in der Mathematik einführt, sollte man sich Gedake darüber machen, dass sie tatsächlich existieren. Unser Ziel nun ist zu begründen, dass jeder Vektorraum immer mindestens eine Basis besitzt. Eine Vorüberlegung zuerst: Satz 18.4. Dei V ein K-Vektorraum. Seien M, S Teilmengen aus V mit M ⊂ S ⊂ V so dass M linear unabhängig ist und S ein Erzeugendensystem von V ist. Dann existiert eine Basis B von V mit M ⊂ B ⊂ S. Beweis. Nach Satz 18.3 reicht es uns, unter alle Familien von Vektoren T , die in V enthalten sind mit M ⊂ T ⊂ S, nach einer maximal linear unabhängigen zu suchen. Ist S endlich, so gibt es sicherlich eine Basis B von V mit M ⊂ B ⊂ V . Ist S unendlich, brauchen wir das Lemma von Zorn. Auf eine ausführliche Erklärung werden wir in dieser Vorlesung verzichten. Wählen wir M = 0/ und S = V in Satz, so erhalten wir: Satz 18.5. Jeder Vektorraum besitzt eine Basis. Aus besonderen Teilmengen ist es leicht, eine Basis zu bilden: Satz 18.6 (Basisergänzungssatz). Sei V ein K-Vektorraum. Seien M eine linear unabhängige Teilmenge von V und E ein Erzeugendensystem von V . Dann lässt sich M durch Elemente aus E zu einer Basis von V ergänzen. Beweis. Man wendet Satz 18.4 auf M und S = M ∪ E an. Beispiel. Wir wollen eine Basis für U = L(v1 , v2 , v3 ) ⊂ R3 mit 1 2 1 v1 = 0 , v2 = 1 , v3 = −1 1 0 3 finden, und diese zu einer Basis des R3 ergänzen. Man überprüft hierzu leicht, dass v1 , v2 , v3 sind linear abhängig, aber v1 und v2 sind linear unabhängig, daher bilden sie eine Basis von U. Um (v1 , v2 ) zu einer Basis des R3 ergänzen zu können, suchen wir nach einem Vektor w ∈ R3 in bekannten Erzeugendensystemen des R3 , 160 Abschnitt 18 zum Beispiel (!) e1 , e2 , e3 . Man prüft leicht nach, dass mit der Wahl w = e3 ist (v1 , v2 , w = e3 ) eine Basis des R3 . Im Folgenden werden wir uns auf endlich erzeugte Vektorräume einschränken. Können wir die Wahl von w im obigen Beispiel systematisieren? Die Wahl w = e3 war deshalb einfach, weil wir unter drei Vektoren suchen müssten. Was wenn wir in R100 suchen hätten müssen? Wir versuchen diese Fragestelleung im endlich erzeugten Fall zu klären. Sei V ein endlich erzeugter K-Vektorraum. Nach Satz 18.5 hat er eine Basis B = (v1 , . . . , vn ). Wie finden wir eine? Sei S ⊂ V ein Erzeugendensystem. Sei v ∈ S, v 6= 0. Wir fügen solange Vektoren aus S zu B hinzu, bis die Aufnahme eines jeden weiteren Vektors aus S zu linearer Abhängigkeit führt. Es ist auch klar: Die Basis B hängt von der Wahl der Vektoren ab. Trotzdem bleibt etwas für alle Bases eines selben Vektorraumes erhalten: Die Anzahl ihrer Elemente. Dies möchten nun begründen. Satz 18.7 (Austauschsatz von Steinitz). Sei V ein K-Vektorraum mit Basis (v1 , . . . , vn ). Ist v ∈ V , v 6= 0, dann existiert ein j ∈ {1, . . . , n} so dass auch die Vektoren (v1 , . . . , v j−1 , v, v j+1 , . . . , vn ) eine Basis von V bilden. Dabei kann man als j jeden Index wählen, für den λ j 6= 0 ist in der Basisdarstellung v = λ1 v1 + . . . + λn vn mit λ1 , . . . , λn ∈ K. Beweis. Wir schreiben v als Linearkombination von v1 , . . . , vn, also v = λ1 v1 + . . . + λn vn für λi ∈ K. Da v 6= 0 ist, existiert ein Index j mit λ j 6= 0. OBdA dürfen wir j = 1 annehmen (sonst vertauschen wir v1 und v j ). Zu zeigen ist, dass die Vektoren v, v2 , . . . , vn eine Basis von V bilden. Zunächst zeigen wir, dass v1 , v2 , . . . , vn linear unabhängig sind. Sei dafür eine nichttriviale Darstellung µ1 v + µ2 v2 + . . . + µn vn = 0 mit µi ∈ K. Setzen wir die obige Darstellung des Vektors v ein, so erhalten wir µ1 (λ1 v1 + . . . + λn vn ) + µ2 v2 + . . . + µn vn = 0, also µ1 λ1 v1 + (µ1λ2 + µ2)v2 + . . . + (µ1λn + µn )vn = 0 Da v1 , . . . , vn linear unabhängig sind, ergibt sich erstens µ1 λ1 = 0 und daraus µ1 = 0, da λ1 vorausgesetzt ist; und zweitens gilt auch µ1 λi + µi = 0 für alle i = 2, . . . , n, also µi = 0 für alle i = 2, . . . , n, wie gewünscht. Basen und Dimension 161 Es ist nur noch zu zeigen, dass v, v1 , . . . , vn ein Erzeugendensystem von V bilden. Da v = λ1 v1 + . . . + λn vn mit λ1 6= 0 gilt, folgt 1 (v − λ2 v2 − . . . − λn vn ). λ1 Ist w ∈ V beliebig, so lässt sich w schreiben als Linearkombination von v1 , . . . , vn , v1 = w = µ1 v1 + . . . + µnvn für µi ∈ K, da die Vektoren v1 , . . . , vn eine Basis von V bilden. Setzten wir die Darstellung von v1 herein, so sind wir fertig, denn wir erhalten µ1 µ1 λ2 µ1 λn v2 + . . . + µn − vn , w = v + µ2 − λ1 λ1 λ1 also eine Linearekombination von v, v2, . . . , vn . Als Folgerung ergibt sich: Satz 18.8. Besitzt V eine Basis, die aus n Vektoren besteht, dann sind je m Vektoren aus V mit m > n linear abhängig. Insbesondere gilt: In einem endlich erzeugten K-Vektorraum haben je zwei Basen dieselbe Anzahl von Elementen. Beweis. Sei B = (v1 , . . . , vn ) eine Basis von V . Durch Widerspruch wollen wir die erste Behauptung zeigen. Dafür nehmen wir an, wir hätten w1 , . . . , wm ∈ V mit m > n linear unabhängig. Nach dem Austauschsatz 18.7 erhalten wir eine neue Basis (v1 , . . . , v j−1 , w1 , v j+1 , . . . , vn). Dann kann man w2 schreiben als w2 = λ1 v1 + . . . + λ j−1 v j−1 + µ1 w1 + λ j+1 v j+1 + . . . + λn vn mit allen λi , µ j ∈ K. Dabei existiert ein Index k mit λk 6= 0 (sonst wäre w2 − µ1 w1 = 0, also Widerspruch zur Annahme, dass w1 und w2 linear unabhängig sind). Nach dem Austauschsatz erhalten wir eine neue Basis, die aus w1 , w2 und der übrigen n − 2 Vektoren aus der alten Basis besteht mit v = w2 und j = k (in der Bezeichnung der Austauschsatz 18.7). Rekursiv finden wir eine Basis B ′ = (w1 , . . . , wn ) von V in der alle n Vektoren der Basis B ausgetauscht sind gegen Elemente von (w1, . . . , wn , . . . , wm ). Wegen m > n kann man wm als Linearkombination der Elemente von B ′ darstellen, also Widerspruch! Die zweite Behauptung folgt unmittelbar aus der ersten. 162 Abschnitt 18 Definition. Sei V ein endlich erzeugter K-Vektorraum. Dann heißt die Anzahl der Elemente einer Basis von V die Dimension von V . Wir schreiben dimK V . Wir nennen V einen endlichdimensionalen Vektorraum. Oft wird es mit dimK V < ∞ bezeichnet. Ist V nicht endlich erzeugt, dann schreiben wir dimK V = ∞ und sagen wir, dass V unendlichdimensional ist. Beispiele. (a) dimK K n = n: klar, denn e1 , . . . , en ist eine Basis. (b) dimK {0} = 0: klar, denn 0/ ist eine Basis. (c) Der Erweiterungskörper C von R hat als R-Vektorraum die Dimension 2, denn (1, i) ist eine Basis von C über R. Also dimR C = 2. Dagegen ist dimC C = 1. Jeden C-Vektorraum V können wir auch als R-Vektorraum betrachten. Ist v1 , . . . , vn eine Basis von V über C, so ist v1 , iv1 , . . . , vn , ivn offensichtlich eine Basis von V über R . (Der Leser möge dies genau prüfen.) Daher gilt dimR V = 2 dimC V . (d) Als Q-Vektorraum besitzt R unendliche Dimension. Folgerungen: Sei V ein n-dimensionaler K-Vektorraum: (1) Weniger als n Vektoren können kein Erzeugendensystem bilden (nach 18.3). (2) Mehr als n Vektoren sind linear abhängig (nach 18.8). (3) Jedes Erzeugendensystem mit n Vektoren ist linear unabhängig und damit eine Basis (nach (1) und 18.1). (4) Jede linear unabhängige Familie mit n Vektoren ist auch ein Erzeugendensystem und damit eine Basis (nach 18.6 und 18.8). Beispiel. Wir wissen: dimR R3 = 3. Somit: Haben wir im R3 drei linear unabhängige Vektoren gefunden, so wissen wir, dass diese eine Basis bilden. Der Axiom (B1) müssen wir dann nichr mehr nachweisen. beispiel Satz 18.9 (Dimension eines Vektorraumes). V sei ein endlichdimensionaler KVektorraum und U ein Untervektorraum von V . Dann ist auch U endlichdimensional. Es gilt dimU ≤ dimV . Genau dann ist dimU = dimV , wenn U = V . Beweis. Sei m = max{p : es existieren linear unabhängige u1 , . . . , u p ∈ U}. Da p ≤ dimV , wenn u1 , . . . , u p ∈ U ⊂ V linear unabhängig, ist m eine wohldefinierte natürliche Zahl ≤ dimV . Seien nun w1 , . . . , wm ∈ U linear unabhängig. Dann sind w1 , . . . , wm maximal linear unabhängig in U und somit nach Satz 18.3 eine Basis von U. Es folgt m = dimU. Basen und Dimension 163 Dass m ≤ dimV , haben wir bereits festgestellt, und dass U = V aus dimU = dimV folgt, ist Teil von Satz 18.8: Im Falle m = dimV gilt (4) aus den obigen Folgerungen. Häufig wendet man Satz 18.9 in folgender Situation an: U1 , U2 sind Untervektorräume eines endlichdimensionalen K-Vektorraums V . Man weiß, dass U1 ⊂ U2 und dimU1 = dimU2. Dann folgt U1 = U2 , indem man Satz 18.9 zuerst mit U = U2 anwendet (U2 ist endlichdimensional) und dann mit V = U2, U = U1 . Satz 18.9 bringt unsere geometrische Vorstellung zum Ausdruck, dass die Un” terräume“ eines Raums“ nach ihrer Dimension gestuft sind: Punkte, Geraden, ” Ebenen, . . . , der gesamte Raum. Zum Abschluss dieses Abschnitts beweisen wir noch eine wichtige Dimensionsformel: Satz 18.10 (Dimensionsformel). Seien U1 , U2 Untervektorräume eines endlichdimensionalen K-Vektorraums V . Dann ist dim(U1 +U2) = dimU1 + dimU2 − dim(U1 ∩U2 ). Beweis. Sei (u1 , . . . , u p ) eine Basis von U1 ∩U2 . Wir ergänzen sie gemäß Satz 18.6 zum einen durch v1 , . . . , vm zu einer Basis (u1 , . . . , u p , v1 , . . . , vm ) von U1 , zum anderen durch w1 , . . . , wn zu einer Basis (u1, . . . , u p , w1 , . . . , wn) von U2 . Die Behauptung folgt, wenn wir gezeigt haben, dass (u1 , . . . , u p , v1 , . . . , vm , w1 , . . . , wn ) eine Basis von U1 +U2 ist. Sei W = L(u1 , . . . , u p , v1 , . . . , vm , w1 , . . . , wn ). Dann gilt U1 ⊂ W , U2 ⊂ W , mithin U1 + U2 ⊂ W . Umgekehrt gilt ui , v j , wk ∈ U1 + U2 für alle i, j, k, und damit ist W ⊂ U1 +U2 , so dass insgesamt W = U1 +U2 folgt. Diese Gleichung besagt gerade, dass u1 , . . . , u p, v1 , . . . , vm , w1 , . . . , wn ein Erzeugendensystem von U1 +U2 ist. Sei nun λ1 u1 + · · · + λ p u p + µ1v1 + · · · + µm vm + γ1 w1 + · · · + γn wn = 0. Dann gilt für z = µ1 v1 + · · · + µm vm ∈ U1 : z = µ1 v1 + · · · + µm vm = −(λ1 u1 + · · · + λ p u p ) − (γ1 w1 + · · · + γn wn ), also z ∈ U1 ∩ U2 . Somit existieren λ1′ , . . . , λ p′ mit z = λ1′ u1 + · · · + λ p′ u p , und wir erhalten 0 = z − z = λ1′ u1 + · · · + λ p′ u p − µ1 v1 − · · · − µm vm . Da u1 , . . . , u p , v1 , . . . , vm linear unabhängig sind, folgt λ1′ = · · · = λ p′ = µ1 = · · · = µm = 0, speziell z = 0, und dann λ1 = · · · = λ p = γ1 = · · · = γn = 0, weil auch u1 , . . . , u p , w1 , . . . , wn linear unabhängig sind. ABSCHNITT 19 Lineare Abbildungen Zu den wesentlichen Bausteinen vieler mathematischer Theorien gehören eine Klasse von Objekten – im Fall der linearen Algebra sind dies die Vektorräume – und eine Klasse von Abbildungen, die die den Objekten innewohnenden Strukturen respektieren. In der Algebra werden solche Abbildungen in der Regel Homomorphismen genannt. Definition. Sei K ein Körper, und seien V , W K-Vektorräume. Eine Abbildung ϕ : V → W heißt K-linear (oder ein Homomorphismus von K-Vektorräumen, oder kurz linear), wenn gilt: (L1) ϕ (u + v) = ϕ (u) + ϕ (v) (L2) ϕ (λ u) = λ ϕ (u) für alle u, v ∈ V, für alle u ∈ V, λ ∈ K. D ie folgenden zwei Eigenschaften lassen sich leicht überprüfen: (i) ϕ (0) = 0, denn: ϕ (0) = ϕ (0 · 0) = 0 · ϕ (0) = 0. (ii) ϕ (−v) = −ϕ (v) für alle v ∈ V , denn: ϕ (−v) = ϕ (−1 · v) = −1 · ϕ (v) = −ϕ (v). Beispiele. (a) Die Indentität idV ist K-linear. (b) Die Nullabbildung ϕ : V → {0}, ϕ (v) = 0 für alle v ∈ V ist K-linear (c) Durch Induktion zeigt man leicht, dass für eine lineare Abbildung ϕ : V → W , Vektoren v1 , . . . , vn ∈ V und Koeffizienten λ1 , . . . , λn ∈ K gilt ϕ (λ1 v1 + · · · + λn vn ) = λ1 ϕ (v1 ) + · · · + λn ϕ (vn ). x (d) Die Abbildung ϕ : R2 → R gegeben durch 7→ x + y ist R-linear, denn y es gilt: ′ x x x + x′ (L1) ϕ ( + ) = ϕ ( ) = x + x′ + y + y′ = y′ y y + y′ ′ x x ′ ′ ) + ϕ( ′ ) x + y + x + y = ϕ( y y λx x x (L2) ϕ (λ ) = λ x + λ y = λ (x + y) = λ ϕ ( ) = ϕ( ) für λy y y λ ∈ R. 166 Abschnitt 19 x 7→ x + y + 2 ist nicht R(e) Die Abbildung ϕ : R2 → R gegeben durch y 0 linear, denn ϕ ( ) = 2 6= 0. 0 (f) Die Abbildung ϕ : C → C gegeben durch z 7→ z (mit z = a − bi der komplexen Konjugierten von z = a + bi) ist R-linear, da zu z = a + bi, z′ = a′ + b′i gilt: (L1) ϕ (z + z′ ) = (a + a′ ) − (b + b′)i = ϕ (z) + ϕ (z′ ) (L2) ϕ (λ z) = ϕ (λ a + λ bi) = λ x − λ bi = λ ϕ (z) für λ ∈ R. (g) Die Abbildung ϕ : C → C gegeben durch z 7→ z ist nicht C-linear, denn es gilt: ϕ (i · i) = ϕ (i2 ) = ϕ (−1) = −1 6= 1 = −(−1) = −i2 = i · (−i) = i · ϕ (i). Lineare Abbildungen sind nach der Auswahl einer Basis folgendermaßen bestimmt: Satz 19.1. Seien V,W zwei K-Vektorräume. Sei (v1 , . . . , vn ) eine Basis von V . Dann gibt es zu beliebig vorgegebenen Vektoren w1 , . . . , wn ∈ W genau eine K-lineare Abbildung ϕ : V → W mit ϕ (vi ) = wi für i = 1, . . . , n. Beweis. Da (v1 , . . . , vn ) eine Basis von V ist, gibt es zu jedem v ∈ V eindeutig bestimmte λ1 , . . . , λn ∈ K so dass v = λ1 v1 + . . . + λn vn . Zu zeigen ist die Existenz und Eindeutigkeit der o.g. K-linearen Abbildung. Setzen wir ϕ (v) = λ1 w1 + . . .+ λn wn , so erhalten wir eine K-lineare Abbildung ϕ : V → W mit ϕ (vi ) = wi für i = 1, . . . , n. Die Eindeutigkeit ist nun fast geschenkt: Ist ϕ eine solche K-lineare Abbildung, so folgt ϕ (v) = ϕ (λ1 v1 + . . . + λn vn ) = λ1 ϕ (v1 ) + . . . + λn ϕ (vn ) = λ1 w1 + . . . + λn wn . 1 . Seien 0 1 und b2 = Beispiel. Sei (b1 , b2 ) eine Basis des R2 mit b1 = 1 3 0 c1 = 5 und c2 = 0 zwei Vektoren aus R3 . Wegen Satz 19.1 ist die 0 2 2 3 Abbildung ϕ : R → R gegeben durch ϕ (b1 ) = c1 und ϕ (b2 ) = c2 R-linear und eindeutig bestimmt. Darüber hinaus würden wir auch gerne eine Vorschrift für x1 x1 ϕ( ), für beliebiges ∈ R2 , angeben können. Dafür beobachten wir x2 x2 0 1 = b1 − b2 . = b2 und e2 = e1 = 1 0 Lineare Abbildungen 167 Dann gilt ϕ (e1 ) = ϕ (b2 ) = c2 und 3 0 3 ϕ (e2 ) = ϕ (b1 − b2) = ϕ (b1 ) − ϕ (b2 ) = 5 − 0 = 5 . 0 2 −2 Somit erhalten wir die gewünschte Vorschrift: 0 3 −3x2 x . 5x2 ϕ ( 1 ) = x1 ϕ (e1 ) + x2ϕ (e2 ) = x1 · 0 + x2 · 5 = x2 2 −2 2x1 − 2x2 Lineare Abbildungen respektieren Untervektorräume: Satz 19.2. Sei ϕ : V → W eine lineare Abbildung. Dann ist für jeden Untervektorraum U von V die Bildmenge ϕ (U) ein Untervektorraum von W . Umgekehrt ist für jeden Untervektorraum N von W die Urbildmenge ϕ −1 (N) ein Untervektorraum von V . Beweis. Man rechnet dies direkt mittels der Definition des Begriffes Untervektor” raum“ nach. Von besonderem Interesse bei einer linearen Abbildung ϕ : V → W sind die Untervektorräume Kern ϕ = ϕ −1 (0) = {v ∈ V : ϕ (v) = 0} von V und Bild ϕ = ϕ (V ) = {w ∈ W : ∃v ∈ V mit ϕ (v) = w} von W. Satz 19.3. Seien V,W zwei K-Vektorräume, sei ϕ : V → W eine K-lineare Abbildung. Dann sind Kern bzw. Bild tatsächlich Untervektorräume von V bzw. W . Beweis. Der Kern von ϕ ist ein Untervektorraum von V , denn es gilt: (i) 0 ∈ Kern(ϕ ), denn ϕ (0) = 0. (ii) Seien u, v ∈ Kern(ϕ ). Dann ist 0 = 0 + 0 = ϕ (u) + ϕ (v) = ϕ (u + v), und damit u + v ∈ Kern(ϕ ). (iii) Seien λ ∈ K, v ∈ Kern(ϕ ). Dann ist ϕ (λ v) = λ ϕ (v) = λ 0 = 0, und so ist λ v ∈ Kern(ϕ ). Analog ist Bild(ϕ ) ein Untervektorraum von W : (i) 0 ∈ Bild(ϕ ), da für 0 ∈ W ist ϕ (0) = 0. (ii) Seien u, v ∈ Bild(ϕ ). Dann existieren u′ , v′ ∈ V mit ϕ (u′ ) = u und ϕ (v′ ) = v. Somit ist u + v = ϕ (u′ + v′ ) und so u + v ∈ Bild(ϕ ). (iii) Seien λ ∈ K, v ∈ Bild(ϕ ). Dann existiert v′ ∈ V mit ϕ (v′ ) = v, und so λ v = λ ϕ (v′ ) = ϕ (λ v′ ), also λ v ∈ Bild(ϕ ). 168 Abschnitt 19 Beispiele. (i) Sei o : V → {0} die Nullabbildung. Dann ist Kern(o) = V und Bild(o) = {0}. x 2 7→ x + y. Es ist (ii) Sei ϕ : R → R gegeben durch y o n x 2 Kern(ϕ ) = ∈ R : x+y = 0 , y also die Gerade des R2 mit der Gleichung x + y = 0, und o n x 2 ∈ R mit x + y = t = R. Bild(ϕ ) = t ∈ R : ∃ y Nach Definition ist ϕ genau dann surjektiv, wenn Bild ϕ = W gilt. Die Injektivität können wir mittels des Kerns testen. Das fassen wir nun zusammen: Satz 19.4. Seien V,W zwei K-Vektorräume, sei ϕ : V → W eine K-lineare Abbildung. Dann gilt: (i) ϕ ist injektiv genau dann, wenn Kern(ϕ ) = {0}. (ii) ϕ ist surjektiv genau dann, wenn Bild(ϕ ) = W . Beweis. Die zweite Aussage ist offensichtlich. Wir zeigen also nur die erste. Sei ϕ injektiv. Zu zeigen ist zunächst, dass Kern(ϕ ) = {0} ist. Die Inklusion {0} ⊂ Kern(ϕ ) gilt immer, da der Kern ein Untervektorraum ist. Es ist also zu zeigen, Kern(ϕ ) ⊂ {0}. Sei dazu v ∈ Kern(ϕ ). Dann ist ϕ (v) = 0 = ϕ (0), und wegen der Injektivität von ϕ folgt, dass v = 0 sein muss. Seien umgekehrt v, v′ ∈ V mit ϕ (v) = ϕ (v′ ). Zu zeigen ist v = v′ . Aus ϕ (v) = ϕ (v′ ) und der Linearität von ϕ folgt 0 = ϕ (v) − ϕ (v′) = ϕ (v − v′ ). D.h., v − v′ ∈ Kern(ϕ ) = {0}, und damit v − v′ = 0, also v = v′ , wie gewünscht. Die Dimensionen vom Kern und Bild addieren die Dimension des gesamten Raums auf: Satz 19.5. Sei V ein endlichdimensionaler K-Vektorraum und W ein beliebiger K-Vektorraum, ϕ : V → W eine lineare Abbildung. Dann gilt dim Kern ϕ + dim Bild ϕ = dimV. Beweis. Wir wählen eine Basis (u1 , . . . , um ) von Kern ϕ , eine Basis (w1 , . . . , wr ) von Bild ϕ , sowie Elemente v1 , . . . , vr ∈ V mit ϕ (vi ) = wi . Es genügt zu zeigen, dass (u1 , . . . , um , v1 , . . . , vr ) eine Basis von V ist. Sei v ∈ V . Dann existieren µ1 , . . . , µr ∈ K mit ϕ (v) = µ1 w1 + · · · + µr wr . Lineare Abbildungen 169 Es folgt ϕ (v − (µ1 v1 + · · · + µr vr )) = ϕ (v) − ϕ (µ1v1 + · · · + µr vr ) = (µ1 w1 + · · · + µr wr ) − (µ1 w1 + · · · + µr wr ) = 0. Also existieren λ1 , . . . , λm ∈ K mit so dass v − (µ1v1 + · · · + µr vr ) = λ1 u1 + · · · + λm um , v = λ1 u1 + · · · + λm um + µ1 v1 + · · · + µr vr . Damit ist (u1 , . . . , um , v1 , . . . , vr ) ein Erzeugendensystem von V . Für die lineare Unabhängigkeit wenden wir ϕ auf eine Gleichung an und erhalten λ1 u1 + · · · + λm um + µ1 v1 + · · · + µr vr = 0 µ1ϕ (v1 ) + · · · + µr ϕ (vr ) = 0. Da w1 , . . . , wr linear unabhängig sind, folgt µ1 = · · · = µr = 0 und sodann λ1 = · · · = λm = 0 wegen der linearen Unabhängigkeit von u1 , . . . , um . Man nennt dim Bild ϕ auch den Rang von ϕ und schreibt rang ϕ = dim Bild ϕ . Wir führen noch ein Paar Termini technici ein: Definition. Eine K-lineare Abbildung heißt (a) Monomorphismus, falls sie injektiv ist. (b) Epimorphismus, falls sie surjektiv ist. (c) Isomorphismus, falls sie bijektiv ist. Lineare Selbstabbildungen ϕ : V → V nennt man Endomorphismen von V . Bijektive Endomorphismen nennt man Automorphismen. Die Charakterisierung von Injektivität und Surjektivität nach Satz 19.4, zusammen mit der Dimensionsformel 19.5 ergibt: Satz 19.6. Seien V,W zwei endlichdimensionale K-Vektorräume so dass dimK V = dimK W . Dann sind für jede K-lineare Abbildung ϕ : V → W äquivalent: (1) ϕ ist ein Monomorphismus, (2) ϕ ist ein Epimorphismus, (3) ϕ ist ein Isomorphismus. Beweis. (1) =⇒ (2)“ Aus der Injektivität von ϕ folgt Kern(ϕ ) = {0} wegen ” 19.4. Aus der Dimensionsformel 19.5 und der Voraussetzung ergibt sich dimK Bild(ϕ ) = dimK V = dimK W. 170 Abschnitt 19 Aus Satz 18.9 folgt nun Bild(ϕ ) = W , d.h., ϕ ist surjektiv. (2) =⇒ (1)“ Aus der Surjektivität von ϕ und der Voraussetzung folgt ” dimK Bild(ϕ ) = dimK W = dimK V. Nach Satz 19.5 ist dann dimK Kern(ϕ ) = 0, und daher ist ϕ injektiv nach 19.4. (3) =⇒ (1)“ ist klar nach dem Obigen und der Definition der Bijektivität. ” Satz 19.7. Seien U, V , W K-Vektorräume, ϕ : U → V , ψ : V → W lineare Abbildungen. (a) Dann ist auch ψ ◦ ϕ : U → W linear. (b) Wenn ϕ und ψ Isomorphismen sind, sind auch ψ ◦ ϕ , ϕ −1 und ψ −1 Isomorphismen. Beweis. (a) Man rechnet dies einfach aus: Für u, v ∈ U, α ∈ K ergibt sich (ψ ◦ ϕ )(u + v) = ψ (ϕ (u + v)) = ψ (ϕ (u) + ϕ (v)) = ψ (ϕ (u)) + ψ (ϕ (v)) = (ψ ◦ ϕ )(u) + (ψ ◦ ϕ )(v), ebenso (ψ ◦ ϕ )(λ v) = ψ (ϕ (λ v)) = ψ (λ ϕ (v)) = λ ψ (ϕ (u)) = λ (ψ ◦ ϕ )(v). (b) Die Bijektivität von ψ ◦ ϕ , ϕ −1 und ϕ −1 ist klar. Damit ist ψ ◦ ϕ nach (a) ein Isomorphismus. Die Linearität von ϕ −1 sieht man so: Für v, v′ ∈ V ist ϕ ϕ −1 (v + v′) = v + v′ = ϕ (ϕ −1 (v)) + ϕ (ϕ −1 (v′ )) = ϕ ϕ −1 (v) + ϕ −1 (v′ ) . Anwendung von ϕ −1 auf diese Gleichung liefert ϕ −1 (v + v′ ) = ϕ −1 (v) + ϕ −1 (v′ ). Ebenso ergibt sich ϕ −1 (λ v) = λ ϕ −1 (v) für λ ∈ K. Definition. V , W seien K-Vektorräume. Eine bijektive lineare Abbildung ϕ heißt Isomorphismus (von K-Vektorräumen). Wenn es einen Isomorphismus ϕ : V → W gibt, nennt man V und W isomorph. Wir schreiben V ∼ = W. Das Wort isomorph“ bedeutet von gleicher Gestalt“ und dies vermittelt sehr ” ” genau die mathematische Bedeutung dieses Begriffs: Isomorphe Vektorräume besitzten die gleiche Struktur. Jede Aussage der linearen Algebra, die für V gilt, gilt auch für jeden zu V isomorphen Vektorraum W und umgekehrt: man transportiert“ ” sie mittels eines Isomorphismus ϕ von V nach W , ebenso wie ϕ −1 , das sich auch als Isomorphismus erweist, die lineare Struktur“ von W nach V überträgt. Isomor” phe Objekte einer algebraischen Theorie sind innerhalb dieser Theorie gleichwertig. Sie können sich gegenseitig ersetzen, und häufig braucht man zwischen ihnen nicht zu unterscheiden. Beispiel. R2 und C sind isomorph als R-Vektorräume. Lineare Abbildungen 171 Wir beweisen nun, dass jeder n-dimensionale K-Vektorraum zu K n isomorph ist. Damit zeigen wir: Für die Lineare Algebra haben alle Vektorräume der Dimension n die gleiche Struktur. Insofern spricht man über eine Klassifikation für endlichdimensionale Vektorräume. Satz 19.8. Seien V,W endlich dimensionalen K-Vektorräume. Dann gilt: dimK V = dimK W ⇐⇒ V ∼ = W. Insbesondere ist jeder K-Vektorraum der Dimension n zu K n isomorph. Beweis. Sei B = (v1 , . . . , vn) eine Basis von V . =⇒ “ Sei C = (w1 , . . . , wn ) eine Basis von W . Nach 19.1 gibt es genau eine ” K-lineare Abbildung f : V → W mit f (vi ) = wi für alle i = 1, . . . , n. Da C ein Erzeugendensystem von W ist, gibt es zu jedem w ∈ W Skalare λ1 , . . . , λn ∈ K so dass w = λ1 w1 + . . . + λn wn gilt. Daraus folgt w = f (v) mit v = λ1 v1 + . . . + λn vn ∈ V ; daher ist f surjektiv. Die Abbildung f ist auch injektiv: Ist w = 0, so folgt λ1 = . . . = λn = 0, also v = 0, da die Vektoren aus C linear unabhängig sind. Damit ist f injektiv nach 19.4. Insgesamt erhält man V ∼ = W. ⇐=“ Sei f : V → W ein Isomorphismus. Ist w ∈ W , so existiert v ∈ V mit ” w = f (v) wegen der Surjektivität von f . Es gilt v = λ1 v1 + . . . + λn vn mit λ1 , . . . , λn ∈ K, da B ein Erzeugendensystem von V ist. Daraus folgt w = f (v) = λ1 f (v1 ) + . . . + λn f (vn ) und B ′ = ( f (v1), . . . , f (vn)) ist also ein Erzeugendensystem von W . Ist ferner f (v) = 0, so ist v = 0 wegen der Injektivität von f . Da v1 , . . . , vn linear unabhängig sind, müssen f (v1 ), . . . , f (vn) auch linear unabhängig sein. Daraus folgt dann die Behauptung dimK W = n = dimK V . Im nächsten Abschnitt betrachten wir eine nützliche Darstellung einer linearen Abbildung: Eine Matrix. ABSCHNITT 20 Matrizenrechnung (I): Der Rang einer linearen Abbildung Sei V ein endlich dimensionaler K-Vektorraum. Sei (v1 , . . . , vn ) eine Basis von V . Wir wissen schon: Zu jedem Vektor v ∈ V existieren Skalare λ1 , . . . , λn ∈ K so dass v sich eindeutig als Linearkombination v = λ1 v1 + . . . + λn vn von v1 , . . . , vn darstellen lässt. Der Vektor λ1 ... ∈ K n λn nennen wir den Koordinatenvektor zu V bezüglich der Basis (v1 , . . . , vn ). Sei nun (e1 , e2) die Standardbasis des R2 . Sei ϕ : R2 → R2 ein Endomorphismus des R2 . Dann ist ϕ durch Angabe von ϕ (e1 ) und ϕ (e2 ) nach Satz 19.1 eindeutig bestimmt. Es ist ϕ (e1 ) = a11 e1 + a21 e2 ϕ (e2 ) = a12 e1 + a22 e2 a11 a21 bzw. ϕ (e2 ) können wir durch ein rechteckiges Schema a11 a12 a21 a22 für ai j ∈ R, i, j = 1, 2. Die Koordinatenvektoren bzw. a21 a22 zu ϕ (e1 ) beschreiben. Das nennen wir eine 2 × 2-Matrix. Im Allgemeinen: Definition. Sei K ein Körper. Eine m × n-Matrix über K (oder mit Einträgen in K) ist eine Anordnung von m × n Elementen aus K nach folgendem Schema: a11 · · · a1n .. A = (ai j )1≤i≤m = (ai j ) = ... . 1≤ j≤n am1 · · · amn 174 Abschnitt 20 Wir nennen die waagerecht geschriebene n-Tupel (ai1 , . . . , ain ) die i-te Zeile a1 j und die senkrecht geschriebene m-Tupel ... die j-te Spalte der Matrix. Eiam j ne n × n-Matrix heißt quadratisch. Eine quadratische Matrix heißt diagonal, wenn ai j = 0 für alle i 6= j. Die Menge aller m × n-Matrizen über K bezeichnen wir mit Mm×n(K). Wie man m × n-Matrizen addiert und mit Skalaren multipliziert, ist offensichtlich. Versehen mit diesem Verknüpfungen besitzt Mm×n(K) die Struktur von KVektorraum. So wie im Obigen kann man im Allgemeinen einer linearen Abbildung eine Matrix zuordnen: Sei ϕ : V → W eine lineare Abbildung endlichdimensionaler KVektorräume mit Basen B = (v1 , . . . , vn ) bzw. C = (w1 , . . . , wm ). Nach 19.1 ist ϕ durch ϕ (v1 ), . . . , ϕ (vn ) eindeutig bestimmt. Die Elemente ϕ (v1 ), . . . , ϕ (vn ) wiederum sind durch ihre Koordinatenvektoren a1 j ... , j = 1, . . . , n am j eindeutig bestimmt. Wir schreiben diese Koordinatenvektoren als Spalten einer m × n-Matrix a11 · · · a1n .. C C MB = MB (ϕ ) = ... . am1 · · · amn (Merke: Die Spalten sind die Koordinatenvektoren der Bildvektoren.) Diese Matrix C (ϕ ) bestimmt ϕ vollständig, nachdem die Basen B = (v , . . . , v ) von V und MB 1 n C = (w1 , . . . , wm ) von W gewählt worden sind. C (ϕ ) heißt Matrix von ϕ bezüglich der Basen B von V Definition. Die Matrix MB und C von W . Wir haben gerade einer linearen Abbildung eine Matrix zugeordnet. Diesen Vorgang können wir auch umkehren: Wir ordnen einer Matrix α11 · · · α1n .. A = ... . αm1 · · · αmn diejenige lineare Abbildung ϕA : V → W zu, für die die Koordinatenvektoren von ϕ (v1 ), . . . , ϕ (vn ) bezüglich (w1 , . . . , wm ) gerade die Spalten von A sind. Insgesamt erhalten wir somit eine bijektive Abbildung von der Menge der linearen Abbildungen von V nach W auf die Menge der m × n Matrizen über K. Matrizenrechnung (I): Der Rang einer linearen Abbildung 175 Da die Menge Hom(V,W ) aller K-linearen Abbildungen von V nach W auch die Struktur von K-Vektorraum besitzt, erhalten wir: Satz 20.1. Sei K ein Körper, V und W seien K-Vektorräume der Dimensionen n bzw. m. Seien Basen B(v1 , . . . , vn ) von V und C = (w1 , . . . , wm ) von W gewählt. Dann ist die Abbildung C : Hom(V,W ) −→ M MB m,n (K) C (ϕ ), ϕ 7→ MB die jeder linearen Abbildung ihre Matrix bezüglich der Basen B und C zuordnet, ein Isomorphismus von K-Vektorräumen. C Beweis. Die Bijektivität von MB haben wir uns oben überlegt. Die Linearität rechnet man unmittelbar nach. Seien Vektorräume U, V , W gegeben mit Basen A = (u1 , . . . , u p ), B = (v1 , . . . , vn) bzw. C = (w1 , . . . , wm ), ferner lineare Abbildungen ϕ : U → V , ψ : B (ϕ ) ∈ M B V → W . Seien A = MA n×p (K) und B = MB (ψ ) ∈ Mm×n (K) die MatriC (ψ ◦ ϕ ) ∈ M zen von ϕ und ψ bezüglich der gegebenen Basen und C = MA m×p (K) die Matrix von ψ ◦ ϕ . Wie ergibt sich C aus A und B? Um die Koeffizienten einer Matrix zu benennen, schreiben wir kurz z.B. A = (α jk ), B = (βi j ), C = (γik ). Es gilt n ϕ (uk ) = m ∑ α jk v j , ψ (v j ) = ∑ βi j wi j=1 i=1 und n ∑ α jk v j (ψ ◦ ϕ )(uk ) = ψ j=1 n = ! n = ∑ α jk ψ (v j ) j=1 m ∑ α jk ∑ βi j wi j=1 i=1 m n =∑ ∑ βi j α jk i=1 j=1 ! wi . Der Koordinatenvektor von (ψ ◦ ϕ )(uk ) bezüglich w1 , . . . , wm ist also ! n n ∑ β1 j α jk , . . . , ∑ βm j α jk , j=1 j=1 k = 1, . . . , p. 176 Abschnitt 20 Dies ist gerade die k-te Spalte von C. Wir erhalten also n γik = ∑ βi j α jk , i = 1, . . . , m, k = 1, . . . , p. j=1 Definition. Sei K ein Körper, A = (α jk ) eine n × p-Matrix über K, B = (βi j ) eine m × n-Matrix. Dann heißt die m × p-Matrix C = (γik ) mit n γik = ∑ βi j α jk , i = 1, . . . , m, k = 1, . . . , p j=1 das Produkt von B und A, C = BA (in dieser Reihenfolge!). Zu bemerken ist folgendes: (a) Das Produkt von B und A lässt sich nur bilden, wenn die Spaltenzahl von B und die Zeilenzahl von A übereinstimmen. (b) Man kann die Matrizenmultiplikation schematisch so darstellen: a1k . bi1 = .. c . . . b ik in ank (c) Die Matrizenmultiplikation ist nicht kommutativ: Auch wenn wir die Produkte BA und AB bilden können, ist i.a. BA 6= AB. Zum Beispiel gilt 0 1 0 0 1 0 = 0 0 1 0 0 0 0 0 0 1 0 0 = 1 0 0 0 0 1 Wir haben das Matrizenprodukt BA so definiert, dass BA die Matrix von ψ ◦ ϕ ist. Genauer gilt: Satz 20.2. Seien U, V , W K-Vektorräume mit den Basen u1 , . . . , u p , v1 , . . . , vn und w1 , . . . , wm . Seien ϕ : U → V , ψ : V → W lineare Abbildungen. Wenn A die Matrix von ϕ bezüglich u1 , . . . , u p und v1 , . . . , vn und B die Matrix von ψ bezüglich v1 , . . . , vn und w1 , . . . , wm ist, so ist BA die Matrix von ψ ◦ ϕ bezüglich u1 , . . . , u p und w1 , . . . , wm . Matrizenrechnung (I): Der Rang einer linearen Abbildung 177 Die n × n-Matrix 1 0 ··· 0 . . . . . . .. . En = 0. . .. . . . . . 0 0 ··· 0 1 heißt n-reihige Einheitsmatrix. Sie ist die Matrix der identischen Abbildung eines beliebigen n-dimensionalen K-Vektorraums V bezüglich einer beliebigen Basis B, B (id ). d.h En = MB V Wir haben oben gesehen, dass die Matrizenmultiplikation nicht kommutativ ist. Hingegen gelten die übrigen uns vertrauten Rechenregeln: Satz 20.3. A und B seien n × p-Matrizen, C und D seien m × n-Matrizen über K. F sei eine (k × m)-Matrix. Dann gilt: (a) En A = AE p = A, (b) F(CA) = (FC)A, (c) (C + D)A = CA + DA, C(A + B) = CA +CB. Beweis. Man kann dies direkt ausrechnen. Es ist aber viel eleganter, die Rechenregeln für Matrizen auf die entsprechenden Regeln für Abbildungen zurückzuführen. Als Beispiel betrachten wir (b). Sind χ , ψ , ϕ die durch F, C, A gegebenen linearen Abbildungen, so gilt χ ◦ (ψ ◦ ϕ ) = ( χ ◦ ψ ) ◦ ϕ , F(CA) ist die Matrix von χ ◦(ψ ◦ ϕ ), und (FC)A ist die Matrix von (χ ◦ ψ )◦ ϕ . Bei einem Endomorphismus ϕ : V → V hat man es bei Definitions- und Bildbereich mit ein und demselben Vektorraum zu tun. Dementsprechend betrachtet man auch nur eine Basis v1 , . . . , vn , wenn nichts anderes ausdrücklich vorausgesetzt wird. Daher kann man kurz von der Matrix von ϕ bezüglich v1 , . . . , vn sprechen. Die Spalten einer Matrix A lassen sich nach der obigen Diskussion als Bilder von Vektoren durch eine lineare Abbildung ϕA interpretieren. Es ist aber sehr naheliegend sich zu fragen, ob es eine Verbindung zwischen den Spalten der Matrix und dem Rang von ϕA gibt. Definition. Die Dimension des von den Spalten von A erzeugten Untervektorraums in K m nennt man den Spaltenrang von A; der wird mit rgs (A) bezeichnet. Wenn wir den Begriff Spaltenrang eingeführt haben, warum nicht auch den Zeilenrang? Definition. Die Dimension des von den Zeilen von A erzeugten Untervektorraums in K n (wobei wir die Elemente von K n hier als Zeilenvektoren auffassen) nennt man den Zeilenrang von A; dieser wird mit rgz (A) bezeichnet. 178 Abschnitt 20 Satz 20.4. Für Matrizen A ∈ Mm×n(K) gilt rgs (A) = rgz (A) = rang(ϕA). Insbesondere stimmen Spalten- und Zeilenrang überein. Dann werden wir von nun an rang(A) anstelle von rgs (A) bzw. rgz (A) schreiben und diese Zahl als den Rang der Matrix A bezeichnen. Der Rang einer Matrix lässt sich leicht mit Hilfe von dem Gaußschen Eliminationsverfahren nachrechnen: Satz 20.5. Seien A ∈ Mm×n (K). Sei B ∈ Mm×n(K) eine weitere Matrix, die mittels elementarer Zeilenumformungen aus A hervorgeht. Dann erzeugen die Zeilenvektoren von A den gleichen linearen Untervektorraum in K n wie die Zeilen von B. Insbesondere ist der Zeilenrang einer Matrix invariant unter elementaren Zeilenumformungen. Algorithmisch bedeutet das: Man bringt die Matrix A mittels elementarer Zeilenumformungen auf Zeilenstufenform. Dann ist die Anzahl von der von Null verschiedenen Zeilen der Rang von A. Übrigens: Man kann auch über den Kern von A sprechen. Damit ist Kern(ϕA ) gemeint. Beispiel. Die Matrix A in der folgenden Umformungen 0 0 1 2 1 1 2 1 3 1 T12 0 0 1 2 1 A := 1 2 1 3 1 −→ 1 2 2 5 2 1 2 2 5 2 T31 (−1) −→ hat den Rang 2. 1 2 1 3 1 0 0 1 2 1 0 0 1 2 1 T32 (−1) −→ 1 2 1 3 1 0 0 1 2 1 0 0 0 0 0 Matrizen haben wir schon im Abschnitt 16 a propos der linearen Gleichungssysteme betrachtet. Wir wollen nun diese Interpretation der linearen Gleichungssysteme in der Welt der linearen Abbildungen erklären. Sei dafür A ∈ Mm×n (K) eine Matrix mit Spaltenvektoren a11 a12 a1n a1 = ... , a2 = ... , . . . , an = ... ∈ K m . am1 am2 amn b1 .. ∈ K m . Wir betrachten das lineare Gleichungssystem Sei b = . bm Ax = b. Matrizenrechnung (I): Der Rang einer linearen Abbildung 179 Die Matrix A entspricht der linearen Abbildung ϕA : K n → K m (bezüglich der Standardbasen von K n und K m ). Speziell gilt x1 x1 ϕA ( ... ) = A ... = x1 a1 + . . . + xn an xn xn x1 für ... ∈ K n . xn Sei L (A, b) die Menge aller Lösungen des linearen Gleichungssystems Ax = b. Man überlegt sich sofort: (a) Ax = b besitzt eine Lösung genau dann, wenn b ∈ Bild(ϕA ). (b) Für x ∈ K n gilt: x ∈ L (A, b) genau dann, wenn ϕA (x) = b. (c) Die Lösungsmenge L (A, 0) eines homogenen linearen Gleichungssystem ist ein Untervektorraum des K n . (d) Für x ∈ K n gilt: x ∈ L (A, 0) genau dann, wenn x ∈ Kern(ϕA ) Auf diese Feststellungen basiert folgender Satz: Satz 20.6. Seien A ∈ Mm×n (K), b ∈ K n . Sei (A, b) die erweiterte Matrix des linearen Gleichungssystems Ax = b. (a) Für Ax = b gilt L (A, b) 6= 0/ genau dann, wenn rang(A) = rang(A, b). (b) Für das homogene lineare Gleichungssystem Ax = 0 gilt: dimK L (A, 0) = dimK Kern(A) = n − rang(A). (c) Ist u ∈ L (A, b), dann gilt L (A, b) = u + L (A, 0) = {u + v : v ∈ L (A, 0)} = u + Kern(A). Für eine Basis u1 , . . . , us von L (A, 0) = Kern(A) mit s = n − rang(A) lässt sich insbesondere jede Lösung x ∈ L (A, b) eindeutig schreiben als v = u + λ1 u1 + . . . + λs us . Beispiel. Wir betrachten das lineare Gleichungssystem x1 + 2x2 x1 + 2x2 x3 + 2x4 = 1 + x3 + 3x4 = 1 + 2x3 + 5x4 = 2 Aus Satz 20.6 ist es genau dann lösbar, wenn den Rang der assozierten Matrix 0 0 1 2 A= 1 2 1 3 1 2 2 5 180 Abschnitt 20 mit dem Rang der erweiterten Matrix 0 0 1 2 1 (A, b) = 1 2 1 3 1 1 2 2 5 2 übereinstimmt. Aus dem letztem Beispiel sieht man sofort: rang(A) = rang(A, b) = 2. Die Lösungsmenge bestimmen wir indem wir eine spezielle Lösung des inhomogenen Systems berechnen und dann die Lösungsmenge des assozierten homogenen Gleichungssystems, d.h., den Kern von A. Nach den im obigen Beispiel durchgeführte elementaren Umformungen ist das Gleichungssystem x1 + 2x2 + x4 = 0 x3 + 2x4 = 1 zu betrachten. Eine spezielle Lösung dieses inhomogenen linearen Gleichungssystems berechnen wir, wenn wir x2 = x4 = 0 setzen, und bekommen x1 = 0 und 0 0 x3 = 1. Das heißt, eine spezielle Lösung ist 1 . Nun müssen wir noch den 0 Kern von A berechnen. Es ist also das homogene lineare Gleichungssystem x1 + 2x2 + x4 = 0 x3 + 2x4 = 0 zu lösen. Der Lösungsraum (d.h. gleichzeitig, der gesuchte Kern) ist −2 −1 1 , 0 , L (A, 0) = Kern(A) = L 0 −2 0 1 wie man leicht nachprüfen kann. Dann ist die Lösungsmenge des ursprünglichen linearen Gleichungssystems 0 −2 −1 0 + L 1 , 0 . L (A, b) = 1 0 −2 0 0 1 Wir sind mit dem zusammenhang zwischen linearen Abbildungen und Matrizen nocht nicht fertig. Im nächsten Abschnitt betrachten wir noch die Matrix, die zur Umkehrabbildung –falls sie existiert– gehört, und das Problem des Basiswechsels: Wie kann man von einer Basis zu einer anderen eines Vektorraumes übergehen? ABSCHNITT 21 Matrizenrechnung (II): Basiswechsel Sei A eine n × n-Matrix. Die durch A gegebene lineare Abbildung ist genau dann ein Automorphismus, wenn rang A = n; siehe Satz 19.6. In diesem Fall besitzt ϕ ein Inverses ϕ −1 , dessen Matrix wir mit A−1 bezeichnen. Da ist AA−1 = A−1 A = En . ϕ ◦ ϕ −1 = ϕ −1 ◦ ϕ = idK n , Definition. Sei A eine n × n-Matrix des Ranges n. Die soeben beschriebene Matrix A−1 heißt die zu A inverse Matrix. Ist A eine n × n-Matrix, zu der es eine n × n-Matrix A′ mit A′ A = En oder AA′ = En gibt, so muss bereits rang A = n gelten: Für die durch A′ gegebene lineare Abbildung ϕ ′ ist ϕ ′ ◦ ϕ = idK n oder ϕ ◦ ϕ ′ = idK n . Im ersten Fall ist ϕ injektiv, also ein Automorphismus von K n gemäß Satz 19.6, im zweiten Fall ist ϕ surjektiv und damit ebenfalls ein Automorphismus. Es folgt ϕ ′ = ϕ −1 und somit A′ = A−1 . Wir fassen diese Erkenntnisse zusammen: Satz 21.1. A sei eine n × n-Matrix über K und ϕ der durch A gegebene Endomorphismus des K n . Dann sind äquivalent: (a) ϕ ist ein Automorphismus; (b) rang A = n; (c) es existiert eine n × n-Matrix A′ mit A′ A = En oder AA′ = En . In diesem Fall ist A′ = A−1 die Matrix von ϕ −1 , und man nennet A eine invertierbare Matrix. Satz 21.2. Dei invertierbaren n × n-Matrizen über einem Körper K bilden eine Gruppe bezüglich der Matrizenmultiplikation, die man mit GL(n, K) bezeichnet. Dafür ist allenfalls noch zu beweisen, dass das Produkt invertierbarer Matrizen invertierbar ist, aber dies folgt aus AB((B−1 A−1 ) = En . 182 Abschnitt 21 Die Bestimmung von A−1 ist mit unserem Verfahren zum Lösen linearer Gleichungssysteme (prinzipiell) sehr einfach. Sei AB = En . Dann erfüllt die j-te Spalte von B das lineare Gleichungssystem (A, e j ) dessen rechte Seite die j-te Spalte der Einheitsmatrix ist. Also haben wir insgesamt n lineare Gleichungssysteme gleichzeitig zu lösen. Sie alle haben die linke Seite“ ” A, und daher können wir mit allen rechten Seiten simultan arbeiten. Beispiel. 1 1 1 2 1 0 1 1 1 2 A= 0 −1 0 1 0 0 1 0 0 1 0 1 1 1 1 2 1 0 1 0 0 0 1 0 −1 0 1 0 0 0 1 0 0 2 1 0 1 1 1 0 0 0 1 1 0 −1 1 0 0 0 1 0 −1 0 1 0 0 −1 1 −1 0 0 1 0 1 1 1 0 0 0 1 1 0 −1 1 0 0 0 1 1 −1 1 1 0 0 −1 1 −1 0 0 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 1 1 2 0 0 0 1 2 0 −1 −2 2 −1 0 −1 2 −1 A−1 = 0 −1 −1 −1 0 0 −1 0 1 1 0 1 1 1 −1 −1 0 1/2 −1/2 1/2 1/2 1/2 −1/2 1/2 1/2 1/2 −1 −1 0 1/2 −1/2 1/2 1/2 1/2 −1/2 1/2 1/2 1/2 Auf der rechten Seite können wir jetzt die Lösungen unserer vier Gleichungssysteme, d.h. aber A−1 , direkt ablesen. Wir wollen nun das Problem des Basiswechsels betrachten: Wir wissen schon, dass man K-lineare Abbildungen zwischen endlich dimensionalen Vektorräumen bei Festlegung von Basen durch Matrizen beschreiben kann. Jetzt wollen wir verstehen, wie sich die beschreibende Matrix ändert, wenn man zu anderen Basen übergeht. Wir fangen klein mit einem Beispiel an. Sei V ein K-Vektorraum der Dimension 2. Wegen √ Satz 19.8 identifizieren wir 2 2 V mit K . Sei v ∈ K , v 6= 0, ein Vektor der Länge 8: Matrizenrechnung (II): Basiswechsel 183 v 0 √ Wie kann man v unter allen Vektoren aus dem K 2 der Länge 8 kennzeichen? Wegen der Eindeutigkeit der Basisdarstellung 18.2 können wir das nach Angabe einer Basis des K 2 tun. Betrachten wir die Standardbasis E = (e1 , e2 ) des K 2 , so lässt sich v durch E eindeutig beschreiben als v = 2e1 + 2e2 . v 2e2 e2 0 e1 2e1 Die Basis E haben wir ausgewählt. Suchen wir eine weitere Basis B = (b1 , b2 ) aus, so lässt sich v anders darstellen, z.B. v = 2b1 + 0b2 : v b1 0 b2 Zu v gehört ein (eindeutig bestimmte nach der Wahl einer Basis) Koordinatenvektor des K 2 je nachdem, welche Basis wir aussuchen: (a) Bezüglich E hat v den Koordinatenvektor 2 2 (b) Bezüglich B hat v den Koordinatenvektor 2 0 Da dies für jeden Vektor des K 2 vorkommt, stellt sich die allgemeine Frage: Wie können Koordinatenvektoren in der Basis E zu Koordinatenvektoren in der Basis B, und umgekehrt, übergehen? Dieser Prozess entspricht einem Automorphismus des K 2 : 184 Abschnitt 21 (a) Für λ1i , λ21 ∈ K stellt die Abbildung E = τ : K 2 −→ K 2 τB bi 7→ τ (bi ) = λ1i e1 + λ2i e2 die Vektoren von B in Koordinaten bezüglich E dar. (b) Für µ1i , µ21 ∈ K stellt die Abbildung E )−1 = τ −1 : K 2 −→ K 2 τEB = (τB ei 7→ τ −1 (ei ) = µ1i b1 + µ2i b2 die Vektoren aus E in Koordinaten bezüglich B dar. Die linearen Abbildungen τ und τ −1 lassen einen Vektor v invariant, es wird sich bloß nur seine Darstellung mittels einer angegebenen Basis ändern: Insofern E = idE und τ −1 = sind τ und τ −1 identischen Abbildungen. Wir werden oft τ = τB B idB schreiben. E Die Abbildung τ = idEB ist im Beispiel so definiert: τ = idEB : K 2 −→ K 2 b1 7→ τ (b1 ) = e1 + e2 b2 7→ τ (b2 ) = e1 − e2 Die Matrix dieser linearen Abbildung ist dann 1 1 E MB = . 1 −1 Sie transformiert die Basis E in die Basis B: 1 1 1 1 = 1 −1 0 1 1 1 0 1 = 1 −1 1 −1 E (id) die Übergangsmatrix von der Basis E zur Basis B. Dann nennen wir MB E (id) transformiert Koordinatenvektoren Es ist noch zu beachten: Diese Matrix MB bezüglich der Basis B in Koordinatenvektoren bezüglich der Basis E : 1 1 2 2 = 1 −1 0 2 2 Der zu v assoziierte Koordinatenvektor bezüglich B ist , und der bezüglich 0 2 E ist , wir wir uns oben schon überlegt haben. 2 Matrizenrechnung (II): Basiswechsel 185 Die Abbildung τ −1 = idB E ist folgendermaße definiert: 2 τ −1 = idB −→ K 2 E : K e1 7→ τ −1 (b1 ) = 12 b1 + 12 b2 e2 7→ τ −1 (b2 ) = b1 − e1 = 21 b1 − 12 b2 Die Matrix dieser linearen Abbildung ist dann 1 1 1 B ME (id) = . 2 1 −1 Sie transformiert die Basis B in die Basis E : 1 1 1 1 1 = 1 −1 1 0 2 1 1 1 1 0 = −1 1 2 1 −1 Dann ist MEB (id) die Übergangsmatrix von der Basis B zur Basis E . Die Matrix MEB (id) transformiert dann Koordinatenvektoren bezüglich der Basis E in Koordinatenvektoren bezüglich der Basis B dargestellt: 1 1 1 2 2 = 2 0 2 1 −1 2 (Der Koordinatenvektor zu v bezüglich E wird in den Koordinatenvektor 2 2 zu v bezüglich B umgewandelt.) Eine Tatsache fällt uns auf: 0 −1 1/2 1/2 1 1 = , 1/2 −1/2 1 −1 also E (MEB (id))−1 = MB (id). Das ist natürlich ein allgemeines Sachverhalten: Satz 21.3. Sei V ein K-Vektorraum der endlichen Dimension n. Seien B und B ′ zwei Basen von V . Dann ist die Matrix B T := MB ′ (id) ∈ Mn×n (K) invertierbar, und es ist ′ B (id) T −1 = MB Beweis. Es ist ′ ′ B B B (id) · MB MB ′ (id) = MB ′ (id) = En . 186 Abschnitt 21 B (id) nennen wir die Matrix des Basiswechsels, Definition. Die Matrix T = MB ′ oder die Übergangsmatrix, von B zu B ′ . Naheliegend ist das Problem: Was ist das Verhalten von einer Matrix einer linearen Abbildung nach Koordinatenwechsel im Definitions- und Wertebereich (d.h., im Start- und Zielvektorraum)? Sei ϕ : R2 → R2 gegeben durch x x 7→ . y 3x + 2y Die Abbildung ϕ ist R-linear mit 1 1 ϕ( ) = = e1 + 3e2 0 3 0 0 ϕ( ) = = 2e2 . 1 2 Bezeichnen wir wieder mit E = (e1, e2 ) die Standardbasis des R2 , so liest man unmittelbar daraus: 1 0 E ME (ϕ ) = . 3 2 Nehmen wir an, wir haben noch die Basis B = (b1 , b2 ) mit b1 = e1 + e2 und b2 = e1 − e2 wie im obigen Beispiel zur Verfügung. Was ist nun die Matrix MEB (ϕ )? Diese Matrix lässt sich berechnen, indem wir in R2 im Wertebereich einen Basiswechsel durchführen: ϕ τ −1 R2 −→ R2 −→ R2 e1 7→ ϕ (e1 ) = e1 + 3e2 7→ 21 b1 + 12 b2 + 32 b1 − 23 b2 = 2b1 − b2 ϕ (e2) = 2e2 7→ b1 − b2 e2 7→ Wir müssen noch die Vektoren e1 + 3e2 und 2e2 mittels der Basis B = (b1 , b2 ) ausdrücken. Dies bekommen wir, wenn wir die Abbildung τ −1 des obigen Beispiels anwenden, d.h., wenn wir die Matrix MEB (id) des Basiswechsels von B nach E betrachten. Es gilt tatsächlich: 1 1 1 1 1 2 B ME (id) = = 3 3 −1 2 1 −1 1 1 0 1 0 1 B ME (id) = = . 2 2 −1 2 1 −1 Insgesamt ergibt sich 1 1 1 0 2 1 1 B B E B = . ME (id ◦ϕ ) = ME (ϕ ) = ME (id)ME (ϕ ) = 3 2 −1 −1 2 1 −1 Matrizenrechnung (II): Basiswechsel 187 Genauso kann man sich fragen, wie wirkt es aus, wenn wir einen Basiswechsel im Definitionsbereich von ϕ durchführen, also etwa nun die Frage, welche ist die E Matrix MB (ϕ ). Diesmal kommt die Abbildung τ , die die Basis B in die Basis E transformiert, im Einsatz. Wir haben: ϕ τ Tatsächlich gilt: R2 −→ R2 −→ R2 b1 7→ τ (b1 ) = e1 + e2 7→ e1 + 5e2 b2 7→ τ (b2 ) = e1 − e2 7→ e1 + e2 E E E (ϕ ◦ id) = MEE (ϕ )MB (id). MB (ϕ ) = MB B (ϕ ) berechnen wollen, müssen wir Wenn wir zum Schluß direkt die Matrix MB nur die zwei obigen Teile zusammenbringen: τ R2 −→ R2 ϕ R2 −→ b1 7→ τ (b1 ) 7→ ϕ ((τ (b1 )) b2 7→ τ (b2 ) 7→ ϕ ((τ (b2 )) Mit Matrizen druckt sich das Obige so aus: τ −1 −→ R2 7→ 7 → τ −1 (ϕ ((τ (b1 ))) τ −1 (ϕ ((τ (b2 ))). E B (τ ) MB (ϕ ) = MEB (τ −1 )MEE (ϕ )MB E E = (MB (τ −1 ))−1 MEE (ϕ )MB (τ ) Im Allgemeinen ergibt sich: Satz 21.4. Seien V,W zwei endlich dimensionale K-Vektorräume der Dimensionen m resp. n. Seien B und B ′ zwei Basen von V , und C und C ′ zwei Basen von W . Sind C B T := MB ′ (idV ) ∈ Mm×m (K) und S := MC ′ (idW ) ∈ Mn×n (K), so gilt −1 C C′ MB (ϕ )T MB ′ (ϕ ) = S für jede K-lineare Abbildung ϕ : V → W . ′ Beweis. Nach dem letzten Satz 21.3 ist S−1 = MCC (idW ). Es folgt: ′ C C B S−1 MB (ϕ )T = (MCC (idW ) · MB (ϕ )) · MB ′ (idV ) ′ ′ C B C (ϕ ) · MB = MB ′ (idV ) = MB ′ (ϕ ). Ist speziell V = W , dann folgt aus dem Satz 21.4 für B = C und B ′ = C ′ ′ B (ϕ ) = T −1 M B (ϕ )T . Satz 21.5. Es ist MB ′ B (Das war die Situation des obigen Beispiels mit B = E und B ′ = B). ABSCHNITT 22 Determinanten Wir betrachten ein lineares Gleichungssystem a1 x + b1 y = c 1 a2 x + b2 y = c 2 mit a1 b1 rang = 2. a2 b2 Wir kennen ein Verfahren zur Lösung solcher Gleichungssysteme. Gibt es auch eine Formel“ für x und y, vergleichbar etwa der p-q-Formel“ für quadratische ” ” Gleichungen? Durch Umformen erhalten wir zunächst: (a1 b2 − b1 a2 )x = c1 b2 − b1 c2 (a1 b2 − b1 a2 )y = a1 c2 − c1 a2 . Wegen rang A = 2 muss a1 b2 − b1 a2 6= 0 sein (!), und wir erhalten x= c 1 b2 − b1 c 2 a1 b2 − b1 a2 und y= a1 c 2 − c 1 a2 . a1 b2 − b1 a2 Auffällig ist, dass die Terme c1 b2 − b1 c2 , a1 b2 − b1 a2 , a1 c2 − c1 a2 alle von der gleichen Bauart sind. Wenn wir für eine 2 × 2-Matrix α11 α12 A= α21 α22 det A = α11 α22 − α12 α21 setzen, so gilt a1 b1 c1 b1 a1 c1 a1 b2 − b1 a2 = det , c1 b2 − b1 c2 = det , a1 c2 − c1 a2 = det . a2 b2 c2 b2 a2 c2 Der nächste Schritt wäre nun, lineare Gleichungssysteme mit drei Unbestimmten zu untersuchen und herauszufinden, ob es dort ähnliche Gesetzmäßigkeiten gibt. Wir werden sehen, dass dies zutrifft und dass die in Zähler und Nenner der Auflösungsformel auftretenden Größen Determinanten“ gewisser Matrizen sind. ” Natürlich müssen wir Determinanten erst noch definieren. Dabei gehen wir rekursiv vor. 190 Abschnitt 22 Für eine quadratische n-reihige Matrix A = (ai j ) sei Ai diejenige Matrix, die aus A durch Streichen der ersten Spalte und i-ten Zeile entsteht: a11 a12 · · · a1n .. .. .. . . . ain Ai = ai1 ai2 . .. .. .. . . an1 an2 · · · ann Die Matrizen Ai haben das Format (n − 1) × (n − 1). Definition. Sei A eine n × n-Matrix. Wir setzen a, wenn n = 1 det A = n i+1 ∑i=1 (−1) ai1 det Ai für n > 1. und A = (a), Mit dieser Definition ergibt sich für n = 2: a b det = ad − cb. c d Für n = 3, erhält man: α1 β1 γ1 A = α2 β2 γ2 α3 β3 γ3 β2 γ2 β1 γ1 β1 γ1 det A =α1 det − α2 det + α3 det β3 γ3 β3 γ3 β2 γ2 =α1 (β2 γ3 − β3 γ2 ) − α2 (β1 γ3 − β3 γ1 ) + α3 (β1 γ2 − β2 γ1 ) =α1 β2 γ3 − α1 β3 γ2 − α2 β1 γ3 + α2 β3 γ1 + α3 β1 γ2 − α3 β2 γ1 . Wir haben nun zwar die Determinante einer beliebigen n × n-Matrix definiert, aber mit der Definition allein kann man nicht viel mehr anfangen, als Determinanten auszurechnen. Zunächst wollen wir wichtige Eigenschaften der Determinante festhalten. Dazu betrachten wir die Matrix A als Zusammensetzung ihrer Zeilenvektoren v1 , . . . , vn und schreiben auch v1 .. (v1 , . . . , vn ) oder . vn für A. In der Regel berechnet man Determinanten mittels Matrix-Umformungen, die wir im Folgenden diskutieren werden. Dabei braucht man nur solange zu rechnen, bis man A in eine obere Dreiecksmatrix umgeformt hat: Determinanten 191 Satz 22.1. Sei A eine n-reihige obere Dreiecksmatrix, d.h. von der Form d1 ∗ · · · ∗ 0 . . . . . . ... . .. . . . . . . ∗ . 0 · · · 0 dn Dann ist det A = d1 · · · dn . Dies folgt per Induktion direkt aus der Definition der Determinante. Wir halten nun wichtige Eigenschaften der Determinante fest. Satz 22.2. (a) Die Funktion det ist linear in jeder Zeile, d.h. det(v1 , . . . , v j−1 , v j + v′j , v j+1 , . . . , vn ) = det(v1, . . . , v j−1 , v j , v j+1 , . . . , vn ) + det(v1 , . . . , v j−1 , v′j , v j+1 , . . . , vn ) det(v1 , . . . , v j−1 , α v j , v j+1 , . . . , vn ) = α det(v1 , . . . , vn ). (b) Wenn eine der Zeilen von A der Nullvektor ist, so gilt det A = 0. (c) det En = 1 für alle n ≥ 1. Beweis. Für jedes v ∈ K n sei v der um die erste Komponente gekürzte Vektor: Für v = (ξ1 , . . . , ξn ) ist v = (ξ2 , . . . , ξn ). Die vk , k 6= i, sind ja gerade die Zeilen der Matrizen Ai . Wir beweisen (a) durch Induktion über n; der Fall n = 1 ist offensichtlich richtig. Sei A′ = (v1 , . . . , v j−1 , v′j , v j+1 , . . . , vn ), A′′ = (v1 , . . . , v j−1 , v j + v′j , v j+1 , . . . , vn). Für j 6= i ist a′′i1 = a′i1 = ai1 und det A′′i = det(v1 , . . . , vi−1 , vi+1 . . . , v j−1 , v j + v′j , v j+1 , . . . , vn ) = det(v1 , . . . , vi−1 , vi+1 , . . . , v j−1 , v j , v j+1 , . . . , vn ) + det(v1 , . . . , vi−1 , vi+1 , . . . , v j−1 , v′j , v j+1 , . . . , vn ) = det Ai + det A′i nach Induktionsvoraussetzung. Für j = i ist A′′i = A′i = Ai , aber es gilt a′′i1 = ai1 + a′i1 . 192 Abschnitt 22 Damit ergibt sich: n det A′′ = ∑ (−1)i+1 a′′i1 det A′′i i=1 n = ∑ (−1)i+1 ai1 (det Ai + det A′i ) + (−1) j+1(α j1 + a′j1 ) det A j i=1 = ∑ (−1) i6= j i+1 n ai1 det Ai + ∑ (−1)i+1 a′i1 det A′i i=1 ′ = det A + det A . Dies ist die erste Behauptung in (a). Genauso beweist man die zweite Behauptung. (b) Sei etwa vi = 0. Dann ist nach (a) det(v1 , . . . , vn ) = det(v1 , . . . , vi−1 , 0 · vi , vi+1 , . . . , vn) = 0 · det(v1 , . . . , vn ). (c) Dies ergibt sich sofort nach dem Satz 22.1. Bis jetzt hat die Wahl (−1)i+1 der Vorzeichen in der Definition der Determinante keine Rolle gespielt. Ihre Bedeutung ergibt sich aus dem folgenden Satz: Satz 22.3. (a) Wenn zwei Zeilen v j , vk übereinstimmen, ist det(v1 , . . . , vn ) = 0. (b) Bei Vertauschung von zwei Zeilen wird die Determinante mit −1 multipliziert: det(v1 , . . . , v j−1 , vk , v j+1 , . . . , vk−1 , v j , vk+1 , . . . , vn ) = − det(v1 , . . . , vn ). (c) Die Determinante ändert sich nicht bei elementaren Zeilentransformationen: det(v1 , . . . , v j−1 , v j + α vk , v j+1 , . . . , vn ) = det(v1 , . . . , vn ). Beweis. Wir beweisen (a) und (b) gleichzeitig durch Induktion über n. Im Fall n = 1 sind beide Behauptungen leer“ – es gibt ja nur eine Zeile – und damit ” automatisch richtig. Sei n > 1. Dann ist (mit A = (v1, . . . , vn )) n det A = ∑ (−1)i+1ai1 det Ai . i=1 Die Induktionsvoraussetzung für (a) ergibt, dass Ai = 0 für i 6= j, k. Also ist det A = (−1) j+1 a j1 det A j + (−1)k+1 ak1 det Ak . Die Matrizen A j und Ak haben die gleichen Zeilen, allerdings in verschiedenen Reihenfolgen. Bei A j steht vk = v j auf dem (k − 1)-ten Platz, bei Ak steht v j = vk Determinanten 193 auf dem j-ten Platz, und die anderen Zeilen sind entsprechend verschoben: v1 v1 ... .. . .. . v j−1 .. v j+1 . . . .. . Ak = . Aj = v vk−1 k−1 v vk+1 j v .. k+1 . .. . . .. vn vn Mittels k − j − 1 Zeilenvertauschungen können wir Ak in A j überführen (oder umgekehrt). Also ist det A j = (−1)k− j−1 det Ak , wie sich aus der Induktionsannahme für (b) ergibt. Wegen a j1 = ak1 folgt det A = (−1) j+1 a j1 det A j + (−1)k+1 ak1 det Ak = (−1) j+1 (−1)k− j−1 + (−1)k+1 ak1 det Ak = (−1)k + (−1)k+1 ak1 det Ak = 0. Nun ist noch (b) zu zeigen. Dabei brauchen wir die Induktionsvoraussetzung nicht zu bemühen, sondern können dies direkt aus (a) herleiten. Nach (a) und 22.2 ist 0 = det(. . . , v j + vk , . . . , v j + vk , . . . ) = det(. . . , v j , . . . , v j + vk , . . . ) + det(. . . , vk , . . . , v j + vk , . . . ) = det(. . . , v j , . . . , v j , . . . ) + det(. . . , v j , . . . , vk , . . . ) + det(. . . , vk , . . . , v j , . . . ) + det(. . . , vk , . . . , vk , . . . ) = det(. . . , v j , . . . , vk , . . . ) + det(. . . , vk , . . . , v j , . . . ). (c) Es ist det(. . . , v j + α vk , . . . ) = det(v1 , . . . , vn ) + α det(. . . , vk , . . . , vk , . . . ) = det(v1 , . . . , vn ) gemäß 22.2 und Teil (a). Die fundamentale Bedeutung der Determinante ergibt sich aus dem folgenden Satz, der uns zeigt, was durch die Determinante determiniert wird: 194 Abschnitt 22 Satz 22.4. Sei A eine n × n-Matrix. Dann gilt: det A 6= 0 ⇐⇒ rang A = n. Beweis. Sei zunächst rang A < n. Dann sind gemäß Sätze20.4–20.6 die Zeilen von A linear abhängig. Da Zeilenvertauschungen die Determinante nur um den Faktor −1 ändern, dürfen wir annehmen, dass n−1 vn = ∑ βivi . i=1 Nach 22.2 und 22.3 ist n−1 det A = det(v1 , . . . , vn−1 , ∑ βi vi ) i=1 n−1 = ∑ βi det(v1, . . . , vn−1, vi) = 0. i=1 Sei nun rang A = n. Dann zeigen die Überlegungen nach dem Satz 16.3, welche die Einführung der reduzierten Zeilenstufenform eines linearen Gleichungssystems rechtfertigen, dass wir A durch elementare Umformungen, Zeilenvertauschungen und Multiplikation mit von 0 verschiedenen Elementen von K in die Einheitsmatrix überführen können. Jeder Umformungsschritt ändert die Determinante nur um einen von 0 verschiedenen Faktor. Da det En = 1, folgt det A 6= 0. Bei der Definition der Determinante erscheint es recht willkürlich, in der Rekursion von der ersten Spalte Gebrauch zu machen. Man hätte auch nach einer ” anderen Spalte entwickeln können“ oder gar nach einer Zeile“. Dies hätte aber ” nicht zu einem anderen Resultat geführt, denn die Determinante ist durch wenige Forderungen eindeutig bestimmt. Wir sagen, ∆ : M(n, n) → K sei eine Determinantenfunktion, wenn folgende Bedingungen erfüllt sind: (a) ∆ ist linear in jeder Zeile im Sinne von 22.2 (a); (b) wenn A zwei gleiche Zeilen besitzt, ist ∆(A) = 0. Satz 22.5. ∆ : M(n, n) → K sei eine Determinantenfunktion mit ∆(En ) = 1. Dann ist ∆(A) = det A für alle A ∈ M(n, n). Beweis. Beim Beweis der Tatsache, dass det A = 0 ist, wenn die Zeilen von A linear abhängig sind, haben wir nur von den Eigenschaften (a) und (b) oben Gebrauch gemacht. Also ist ∆(A) = 0 im Falle rang A < n. Der Beweis von Satz 22.4 zeigt weiter, dass jede Determinantenfunktion die Eigenschaften besitzt, die in 22.3, (b) und (c) beschrieben sind. Wenn wir also A Determinanten 195 in die Einheitsmatrix transformieren, so ändert sich dabei ∆(A) um den gleichen Faktor α 6= 0 wie det A. Es ergibt sich α ∆(A) = ∆(In ) = det En = α det A. Für eine n × n-Matrix A = (ai j ) setzen wir a11 · · · a1q · · · a1n .. .. ... . . a pq a pn A pq = a p1 . .. .. ... . an1 · · · anq · · · ann A pq geht also durch Streichen der p-ten Zeile und der q-ten Spalte aus A hervor. Mit dieser Bezeichnung können wir den Spaltenentwicklungssatz formulieren: Satz 22.6. Sei A = (ai j ) eine n × n-Matrix. Dann ist für alle q, 1 ≤ q ≤ n: n det A = ∑ (−1) p+qa pq det A pq. p=1 Beweis. Wie im Fall q = 1, den wir zur Definition der Determinante benutzt haben, zeigt man, dass n ∆q (A) = ∑ (−1) p+qa pq det A pq p=1 eine Determinantenfunktion ist. Die Vorzeichen sind so gewählt, dass ∆q (E) = 1. Nach 22.5 ist mithin ∆q (A) = det A für alle q. Eine wichtige Operation ist das Transponieren von Matrizen. Definition. Sei A = (ai j ) eine m × n-Matrix. Dann ist A⊤ = (a ji ) die Transponierte von A. Deutlicher: Die i-te Spalte von A⊤ ist gerade die i-te Zeile von A, die j-te Zeile von A⊤ ist die j-te Spalte von A. Satz 22.7. Sei A eine n × n-Matrix. Dann ist det A = det A⊤ . Beweis. Da die Zeilen von A⊤ die Spalten von A sind, zeigen unsere bisherigen Überlegungen: Die Funktion δ : M(n, n) → K, δ (A) = det A⊤ , besitzt folgende Eigenschaften: (a) Sie ist linear in jeder Spalte; (b) δ (A) = 0, wenn zwei Spalten von A übereinstimmen; (c) δ (En ) = 1. Ferner ist δ die einzige Funktion mit dieser Eigenschaft. Aber auch det besitzt die Eigenschaften (a), (b), (c). Für (c) ist dies hinlänglich bekannt. Wenn zwei Spalten von A übereinstimmen, gilt det A = 0, weil dann rang A < n; vgl. 22.4. Somit ist (b) erfüllt. 196 Abschnitt 22 Schließlich gilt auch (a). Um die Linearität in der q-ten Spalte zu beweisen, betrachten wir einfach die Entwicklung nach dieser Spalte. Wenn a′′pq = a pq + a′pq für p = 1, . . . , n und a′′i j = ai j = a′i j für j 6= q, so gilt A pq = A′pq = A′′pq für p = 1, . . . , n und wir erhalten n ′′ det A = ∑ (−1) p+q(a pq + a′pq)A′′pq p=1 n = ∑ (−1) p+q n a pq A pq + p=1 ∑ (−1) p+qa′pqA′pq p=1 ′ = det A + det A . Genauso zeigt man det A′ = β det A wenn a′pq = β a pq für p = 1, . . . , n und ai j = a′i j sonst. Da die Funktion δ mit den Eigenschaften (a), (b) und (c) eindeutig bestimmt ist, muss δ (A) = det A für alle A ∈ M(n, n) gelten. Durch Anwenden der Spaltenentwicklung auf det A⊤ erhalten wir wegen 22.7 den Zeilenentwicklungssatz für det A: Satz 22.8. Für alle n × n-Matrizen A und alle p = 1, . . . , n gilt n det A = ∑ (−1) p+qa pq det A pq. q=1 Ebenso ergibt sich, dass wir elementare Spaltenumformungen, Spaltenvertauschungen usw. zur Berechnung der Determinante heranziehen können. Als nächstes untersuchen wir, wie sich die Determinante des Produktes zweier Matrizen berechnen lässt: Satz 22.9. Für alle n × n-Matrizen A, B ist det AB = (det A)(det B). Beweis. Sei zunächst rang B < n. Dann ist auch rang AB < n. Um dies zu beweisen, betrachte man die A, B entsprechenden Endomorphismen des K n . Es ist dim Bild ϕ ◦ ψ = dim ϕ (Bild ψ ) ≤ dim Bild ψ = rang ψ , und damit rang AB ≤ rang B. Im Fall rang B < n ist det B = 0, und nach dem soeben Bewiesenen ist auch det AB = 0. Sei nun rang B = n. Wir betrachten die durch δ (A) = (det B)−1 (det AB) definierte Abbildung δ : M(n, n) → K. (Dabei ist B festgehalten.) Determinanten 197 Wir schreiben im Folgenden eine n × n-Matrix in der Form v1 ... , vn wobei v1 , . . . , vn die Zeilen von A sind. Es gilt v1 v1 B v1 B .. .. .. . . . ′ ′ v j + v j B = (v j + v j )B = v j B + v′j B .. .. .. . . . vn vn B vn B Also ist det v1 .. . ′ v j + v j B = det v j B + det . .. .. . vn vn v1 .. . und durch Multiplikation mit (det B)−1 ergibt sich v1 v1 .. .. . . ′ δ vj +vj = δ vj +δ . .. .. . vn vn Genauso folgt . v1 .. . v′j B, .. . vn v1 .. . v′j . .. . vn v1 v1 .. .. . . δ βvj = βδ vj . . . .. .. vn vn Dies zeigt: δ ist linear in jeder Zeile. Falls A zwei gleiche Zeilen besitzt, besitzt auch AB zwei gleiche Zeilen, woraus det AB = 0 und somit δ (A) = 0 folgt. Schließlich ist δ (En ) = (det B)−1 (det En B) = (det B)−1 (det B) = 1. Insgesamt können wir mit Satz 22.5 schließen: δ (A) = det A für alle A. Also ist det AB = (det B)δ (A) = (det B)(det A) wie zu beweisen war. 198 Abschnitt 22 Als Folgerung ergibt sich Satz 22.10. Sei A eine n × n-Matrix des Ranges n. Dann ist det A−1 = (det A)−1 . In der Tat ist (det A−1 )(det A) = det En = 1. Ausgangspunkt unserer Überlegungen war die Suche nach einer Formel“ für ” die Lösung eines eindeutig lösbaren linearen Gleichungssystems mit n Unbestimmten in n Gleichungen. Diese geben wir in 22.12 an; zunächst bestimmen wir die Inverse einer Matrix mit Hilfe von Determinanten. Satz 22.11. A sei eine n × n-Matrix des Ranges n. Dann gilt 1 A−1 = B det A mit B = (bi j ) und bi j = (−1)i+ j det A ji (es ist hierzu die Transposition A ji , und nicht Ai j zu beachten!!) Wir erinnern daran, dass sich A ji durch Streichen der j-ten Zeile und i-ten Spalte aus A ergibt. Für eine 2 × 2-Matrix bedeutet Satz 22.11: −1 1 d −b a b . = c d ad − bc −c a Beweis von Satz 22.11. Wir betrachten das Produkt C = AB. Es ist C = (ckm ) mit n n ckm = ∑ aki bim = ∑ aki (−1) i=1 i=1 i+m det Ami = det A, 0, Zur Begründung der letzten Gleichung: Im Falle k = m ist falls k = m falls k 6= m. n ∑ aki (−1)i+k det Aki i=1 einfach die Entwicklung von det A nach der k-ten Spalte; im Falle k 6= m ist es die Entwicklung von det A′ nach der k-ten Spalte, wobei sich A′ aus A dadurch ergibt, dass wir die m-te Spalte von A durch die k-te ersetzen. Also ist det A′ = 0. Insgesamt ergibt sich 1 1 1 B= C = En , somit A−1 = B. A det A det A det A Beispiel. Wir möchten die Matrix A invertieren, fass dies möglich ist: 1 −1 1 1 2 . A= 2 0 0 1 Determinanten 199 Da det A = 3 6= 0, dann ist A invertierbar. Dazu betrachten wir die Matrix B in Satz 22.11: ⊤ 1 2 2 2 2 1 det − det det 0 1 0 1 0 0 −1 1 1 1 1 −1 A = − det det − det 0 1 0 1 0 0 −1 1 1 1 1 −1 det − det det 1 2 2 2 2 1 ⊤ 1 −2 0 1 1 −3 1 1 0 −2 1 0 . = = −3 0 3 0 0 3 Aus Satz 22.11 ergibt sich dann 1 1 −3 1/3 1/3 −1 1 1 0 = −2/3 1/3 0 . = −2 1 A−1 = det A 3 0 0 3 0 0 1 Der krönende Abschluss dieses Paragraphen ist die Cramersche Regel, die unser eingangs gestelltes Problem löst: Satz 22.12. A sei eine n × n-Matrix des Ranges n und b ∈ K n . Dann ist die eindeutig bestimmte Lösung (ξ1 , . . . , ξn ) des linearen Gleichungssystems (A, b) gegeben durch det Bi ξi = , i = 1, . . . , n, det A wobei hier Bi diejenige Matrix ist, die sich aus A ergibt, wenn man die i-te Spalte durch b ersetzt. Beweis. Wir betrachten die Matrix A′ mit den Spalten v1 , . . . , ξi vi − b, . . . , vn . A′ hat Rang < n, weil ξi vi − b Linearkombination von v1 , . . . , vi−1 , vi+1 , . . . , vn ist. Somit ist det A′ = ξi det A − det Bi = 0. Auflösen nach ξi ergibt die gesuchte Gleichung. Beispiel. Wir lösen das folgende lineare Gleichungssystem mittels der Cramerschen Regel: x1 + x2 + x3 = 1 x1 − 2x2 + 3x3 = 2 x1 − x3 = 5 200 Dabei sind Abschnitt 22 1 1 1 1 A = 1 −2 3 und b = 2 . 1 0 1 5 Mit der Bezeichnung aus Satz 22.12 ist det A = 2 und 1 1 1 det B1 = det 2 −2 3 = 21, 5 0 1 1 1 1 det B2 = det 1 2 3 = −8, 1 5 1 1 1 1 det B3 = det 1 −2 2 = −11. 1 0 5 Nun ist wegen Satz 22.12 die eindeutig bestimmte Lösung des ursprünglichen linearen Gleichungssystems x1 = 21 2 x2 = −4 x3 = − 11 2. ABSCHNITT 23 Eigenwerte und Eigenvektoren Um einem Endomorphismus eines endlichdimensionalen Vektorraums eine Matrix zuzuordnen, müssen wir erst eine Basis fixieren. Wie diese Matrix aussieht, hängt (fast immer) von der Wahl der Basis ab. In diesem Abschnitt ist es unser Ziel, zu einem gegebenen Endomorphismus f eines endlichdimensionalen K-Vektorraums V eine Basis von V zu bestimmen, bezüglich der die Matrix von f eine möglichst einfache Gestalt hat. Bevor wir uns dem schwierigen Problem der Endomorphismen zuwenden, betrachten wir lineare Abbildungen f : V → W . Die wesentliche Vereinfachung besteht darin, dass wir Basen in V und W unabhängig voneinander wählen können. Satz 23.1. Sei K ein Körper, V seien endlichdimensionale K-Vektorräume und f : V → W eine lineare Abbildung. Dann existieren Basen (v1 , . . . , vn ) von V und (w1 , . . . , wm ) von W , so dass die Matrix von f bezüglich (v1 , . . . , vn ) und (w1 , . . . , wm ) gerade 1 0 ... 0 0 1 Ar = 0 0 ist mit r = rang f . Beweis. Es gilt r = rang f = dim Bild f . Wir wählen eine Basis (w1 , . . . , wr ) von Bild f und ergänzen sie durch wr+1 , . . . , wm zu einer Basis von W . Dann wählen wir v1 , . . . , vr ∈ V so, dass f (vi ) = wi . Es gilt dim Kern f = dimV − dim Bild f gemäß 19.5. Daher können wir eine Basis von Kern f mit vr+1 , . . . , vn bezeichnen. Wir haben bereits beim Beweis von 19.5 gesehen, dass nun (v1 , . . . , vn ) eine Basis von V ist. Bezüglich der Basen (v1 , . . . , vn ) und (w1 , . . . , wm ) besitzt f gerade die behauptete darstellende Matrix. Matrizen von linearen Abbildungen f : V → W besitzen also bezüglich geeigneter Basen eine sehr einfache Gestalt. 202 Abschnitt 23 Definition. Sei K ein Körper. Zwei Matrizen A, B ∈ Mn×n (K) heißen ähnlich, wenn es eine invertierbare Matrix T ∈ Mn×n (K) gibt mit B = T −1 AT. Falls A ähnlich zu einer Diagonalmatrix ist, heißt A diagonalisierbar. Ein Endomorphimus ϕ : V → V eines endlich dimensionalen K-Vektorraumes heißt diagonaliB (ϕ ) sierbar, wenn es eine Basis B von V gibt, so dass die Darstellungsmatrix MB eine Diagonalmatrix ist. Für Endomorphismen wird man sicherlich eine Diagonalmatrix als einfach“ ” ansehen. Nehmen wir einmal an, f besäße bezüglich v1 , . . . , vn Diagonalform, d1 0 ... A= 0 dn sei die Matrix von f . Dann gilt für i = 1, . . . , n f (vi ) = di vi , vi wird also von f auf ein Vielfaches von sich selbst abgebildet. Definition. Sei V ein K-Vektorraum und f ein Endomorphismus von V . Wenn für v ∈ V , v 6= 0, f (v) = λ v mit λ ∈ K gilt, heißt v ein Eigenvektor und λ der zugehörige Eigenwert von f . Genau dann ist 0 ein Eigenwert von f , wenn f nicht injektiv ist, und die Eigenvektoren zum Eigenwert 0 sind gerade die von 0 verschiedenen Elemente des Kerns. Genau dann gilt f (v) = λ v, wenn (λ id − f )(v) = 0, denn (λ id − f )(v) = (λ id)(v) − f (v) = λ v − f (v). Die Eigenvektoren zum Eigenwert λ sind also die von 0 verschiedenen Elemente des Untervektorraums Eλ ( f ) = Kern(λ id − f ). Wir nennen Eλ ( f ) den Eigenraum von f zum Eigenwert λ . Die Dimension von Eλ ( f ) heißt geometrische Vielfachheit des Eigenwertes λ . Der folgende Satz informiert uns über die Beziehungen zwischen den Eigenräumen und die Zahl der möglichen Eigenwerte. Satz 23.2. Sei V ein Vektorraum der Dimension n und f ein Endomorphismus von V . Seien λ1 , . . . , λm paarweise verschiedene Eigenwerte von f und U = Eλ1 ( f ) + · · · + Eλm ( f ). Dann gilt Eigenwerte und Eigenvektoren 203 (a) U ist die direkte Summe von Eλ1 ( f ), . . . , Eλm ( f ), U = Eλ1 ( f ) ⊕ · · · ⊕ Eλm ( f ). (b) Speziell ist ∑m i=1 dim Eλi ( f ) ≤ dimV und erst recht m ≤ dimV . Beweis. Dass U direkte Summe der Eλi ( f ) ist, heißt ja folgendes: Die lineare Abbildung Eλ1 ( f ) ⊕ · · · ⊕ Eλm ( f ) → V, (v1 , . . . , vm ) 7→ v1 + · · · + vm , bildet die externe“ direkte Summe Eλ1 ( f )⊕· · ·⊕Eλm ( f ) isomorph auf U ab. Nach ” Definition von U ist U das Bild. Für die Injektivität ist zu zeigen: v1 + · · · + vm = 0 =⇒ v1 , . . . , vm = 0. Wir beweisen dies durch Induktion über m. Im Fall m = 1 ist die Behauptung trivial. Sei m > 1. Es gilt 0 = f (v1 + · · · + vm ) = λ1 v1 + · · · + λm vm . Damit ergibt sich mittels Subtraktion von λm (v1 + · · · + vm ) = 0: (λ1 − λm )v1 + · · · + (λm−1 − λm )vm−1 = 0. Auf v′1 = (λ1 − λm )v1 , . . . , v′m−1 = (λm−1 − λm )vm−1 können wir die Induktionsvoraussetzung anwenden, und wegen λi − λm 6= 0 für i 6= m ergibt sich dann v1 , . . . , vm−1 = 0 und somit auch vm = 0. Teil (b) folgt aus ∑m i=1 dim Eλi ( f ) = dimU ≤ dimV . Für die Bestimmung der Eigenwerte beachten wir, dass die Definition von Eλ ( f ) für beliebiges λ ∈ K Sinn ergibt. Es gilt offensichtlich λ Eigenwert von f ⇐⇒ Eλ ( f ) 6= 0 ⇐⇒ λ id − f nicht injektiv. Wir wählen eine Basis (v1, . . . , vn ) von V . Sei A die Matrix von f bezüglich (v1 , . . . , vn) Sei En die n × n-Einheitsmatrix. Dann ist λ En − A die Matrix von λ id − f , und genau dann ist λ id − f nicht injektiv, wenn rang(λ En − A) < n, äquivalent, wenn det(λ En − A) = 0. Mit A = (αi j ) ist λ − α11 − α12 ... − α1n .. ... ... . −α21 λ En − A = . . . . .. .. .. −αn−1n ... −αnn−1 λ − αnn −αn1 Es ist nicht schwierig zu zeigen, dass det(λ En − A) = λ n + cn−1 λ n−1 + · · · + c0 204 Abschnitt 23 eine polynomiale Funktion von λ ist. Wir erweitern den Körper K zum Körper der rationalen Funktionen K(X). Dann können wir die Determinante X − α11 − α12 ... − α1n .. ... ... . −α21 det(XEn − A) = det . . . .. .. .. −αn−1n ... −αnn−1 X − αnn −αn1 bilden. Es gilt und det(XEn − A) = X n + cn−1 X n−1 + · · · + c0 det(λ En − A) = det(XEn − A) (λ ). Definition. Sei A eine n × n-Matrix. Das Polynom χA = det(XEn − A) heißt charakteristisches Polynom von A. Wie wir gesehen haben, ist χA ein normiertes Polynom vom Grad n. Sei (w1 , . . . , wn ) eine weitere Basis von V . Dann ist f bezüglich (w1 , . . . , wn ) durch die Matrix B = CAC−1 gegeben, wobei C die Matrix des Übergangs von (v1 , . . . , vn) zu (w1 , . . . , wn ) ist. Es gilt (detC)(detC−1 ) = 1. Also ist χA = det(XEn − A) = (detC) det(XEn − A)(detC−1 ) = det(C(XEn − A)C−1) = det(XCEnC−1 −CAC−1 ) = det(XEn − B) = χB . Wir haben damit gezeigt: Satz 23.3. Sei V ein n-dimensionaler Vektorraum und f ein Endomorphismus von V . Dann besitzen alle Matrizen A, die f bezüglich einer Basis von V darstellen, das gleiche charakteristische Polynom χA . Wegen Satz 23.3 dürfen wir χA das charakteristische Polynom von f nennen und mit χ f bezeichnen. Seine Nullstellen sind gerade die Eigenwerte von f . Eine zu Satz 23.3 äquivalente Aussage ist, dass ähnliche Matrizen das gleiche charakteristische Polynom besitzen. Wenn wir von einer n × n-Matrix A ausgehen, dann heißen die Eigenwerte des von A bezüglich der kanonischen Basis von K n dargestellten Endomorphismus f die Eigenwerte von A. Entsprechendes soll für die Eigenvektoren und Eigenräume gelten. Eigenwerte und Eigenvektoren 205 Es ist unser Ziel, die Klassen ähnlicher Matrizen durch Invarianten zu beschreiben. Eine Invariante, die wir nun gefunden haben, ist das charakteristische Polynom. Zwei seiner Koeffizienten wollen wir uns näher ansehen. Sei χA = X n + cn−1X n−1 + · · · + c0 . Dann gilt c0 = χA(0) = det(0En − A) = det(−A) = (−1)n det A. Damit ist c0 identifiziert. Man kann sich auch überlegen: cn−1 = −α11 − · · · − αnn . Man nennt −cn−1 = α11 + · · · + αnn die Spur von A. Da zu einem gegebenen Endomorphismus f das charakteristische Polynom χ f unabhängig von der Wahl einer Matrix A für f ist, dürfen wir von der Determinante und Spur von f sprechen. Wenn auch ähnliche Matrizen das gleiche charakteristische Polynom haben, so ist die Umkehrung doch falsch. Die Matrizen 1 0 1 1 I2 = und A = 0 1 0 1 haben beide das charakteristische Polynom (X − 1)2 , aber die Einheitsmatrix ist nur zu sich selbst ähnlich. Ferner gilt dim E1 (E2 ) = 2, aber dim E1 (A) = 1. Obwohl in beiden Fällen 1 doppelte Nullstelle des charakteristischen Polynoms ist, haben die Eigenräume zum Eigenwert 1 verschiedene Dimensionen. Den Zusammenhang zwischen der Dimension von Eλ ( f ) und der Vielfachheit von λ als Nullstelle von χ f nennt der nächste Satz. Außerdem gibt er ein einfaches Kriterium für Diagonalisierbarkeit: Ein Endomorphismus heißt diagonalisierbar, wenn er bezüglich einer geeigneten Basis durch eine Diagonalmatrix dargestellt wird; eine Matrix heißt diagonalisierbar, wenn sie zu einer Diagonalmatrix ähnlich ist. Satz 23.4. Sei f ein Endomorphismus des endlichdimensionalen K-Vektorraums V . Seien λ1 , . . . , λm die paarweise verschiedenen Eigenwerte von f und e1 , . . . , em ihre Vielfachheiten als Nullstellen von χ f . (a) Es gilt dim Eλi ( f ) ≤ ei für i = 1, . . . , m. (b) Folgende Aussagen über f sind äquivalent: (i) f ist diagonalisierbar. (ii) V besitzt eine Basis aus Eigenvektoren von f . (iii) χ f zerfällt in Linearfaktoren, und es gilt dim Eλi ( f ) = ei für i = 1, . . . , m. 206 Abschnitt 23 Beweis. (a) Sei λ ein Eigenwert. Wir wählen eine Basis v1 , . . . , vr von Eλ ( f ) und ergänzen sie zu einer Basis v1 , . . . , vn von V . Die Matrix von f bezüglich v1 , . . . , vn hat dann die Gestalt λ 0 ∗ ··· ∗ ... 0 λ . A= 0 ∗ ··· ∗ Sukzessive Entwicklung von det(XEn − A) nach den Spalten 1, . . . , r ergibt χ f = χA = (X − λ )r · g mit einem Polynom g ∈ K[X]. Daraus folgt unmittelbar Teil (a). (b) Die Äquivalenz von (i) und (ii) haben wir bereits zu Beginn des Abschnitts gesehen. Wenn f eine Basis aus Eigenvektoren (v1 , . . . , vn ) mit den Eigenwerten λ̃1 , . . . , λ̃n besitzt, gilt χ f = (X − λ̃1 ) · · · (X − λ̃n ), χ f zerfällt also in Linearfaktoren. Unter λ̃1 , . . . , λ̃n kommt λi genau ei -mal vor. Also ist dim Eλi ( f ) ≥ ei und dann dim Eλi ( f ) = ei gemäß (a). Dies beweist die Implikation (ii) ⇒ (iii). Die Umkehrung (iii) ⇒ (ii) ergibt sich aus 23.2: Wenn dim Eλi ( f ) = ei für i = 1, . . . , m und χ f in Linearfaktoren zerfällt, dann ist m m ∑ dim Eλi ( f ) = ∑ ei = grad χ f = dimV. i=1 i=1 Mit den Bezeichnungen von 23.2 gilt also V = U = Eλ1 ( f ) ⊕ · · · ⊕ Eλm ( f ). Eine unmittelbare Folgerung aus Satz 23.4: Satz 23.5. Sei f ein Endomorphismus des K-Vektorraums V mit n = dimV < ∞. Wenn χ f n paarweise verschiedene Nullstellen besitzt, so ist f diagonalisierbar. Zur Bestimmung der Eigenwerte haben wir die Nullstellen des charakteristischen Polynoms zu ermitteln. Wenn uns dies gelungen ist, finden wir den Eigenraum zu einem Eigenwert λ als Lösung eines homogenen linearen Gleichungssystems: Wenn A die Matrix von f bezüglich einer Basis (v1 , . . . , vn ) ist, so bilden die Lösungen des homogenen linearen Gleichungssystems (λ En − A, 0) gerade die Koordinatenvektoren der Eigenvektoren von f zum Eigenwert λ bezüglich (v1 , . . . , vn ). Eigenwerte und Eigenvektoren 207 Bei den folgenden Beispielen ist der betrachtete Endomorphismus stets der von der jeweiligen Matrix A bezüglich der kanonischen Basis des K n bestimmte Endomorphismus. (a) K = Q (oder R oder C) χA = (X − 1)2 − 4 = X 2 − 2X − 3 Eigenwerte: λ1 = −1, λ2 = 3 1 −4 A= Basis von E−1 (A): (1, 1/2) −1 1 Basis von E3 (A): (1, −1/2) A ist diagonalisierbar. (b) K = R, 0 1 A= −1 0 (c) K = C, χA = X 2 + 1 A besitzt keinen Eigenwert. χA = X 2 + 1 Eigenwerte: λ1 = i, λ2 = −i 0 1 A= Basis von Ei (A): (1, i), −1 0 Basis von E−i (A): (1, −i). Die Matrix A ist also über C diagonalisierbar, besitzt aber keinen reellen Eigenwert. (d) K beliebig, χA = (X − 1)2 Eigenwert: λ1 = 1. Basis von E1 (A): (1, 0). Über keinem Körper K ist A diagonalisierbar. Wir rechnen noch ein etwas komplizierteres Beispiel: −1 2 −1 0 −1 A= 1 −1 −2 −1 X + 1 −2 1 X 1 = X 3 + 2X 2 − 4X − 8 χA = det −1 1 2 X +1 1 1 A= 0 1 = (X − 2)(X + 2)2. Eigenwerte: λ1 = 2, λ2 = −2. Lösen des linearen Gleichungssystems (2En − A, 0): 3 −2 1 1 2 3 1 2 3 1 0 1 −1 2 1 0 4 4 0 1 1 0 1 1 1 2 3 0 −8 −8 0 0 0 0 0 0 208 Abschnitt 23 Basis von E2 (A): v = (−1, −1, 1). Lösen des linearen Gleichungssystems (−2En − A, 0): −1 −2 1 1 +2 −1 0 0 −1 −2 1 0 1 2 −1 0 0 0 Basis von E−2 (A): w1 = (−2, 1, 0), w2 = (1, 0, 1). Wir betrachten noch kurz die Fälle K = C und K = R. Da nach dem Fundamentalsatz der Algebra jedes nicht konstante Polynom f ∈ C[X] eine Nullstelle besitzt, hat jeder Endomorphismus eines endlichdimensionalen C-Vektorraums V mindestens einen Eigenwert (außer im trivialen Fall V = {0}): Satz 23.6. Sei V ein C-Vektorraum mit 0 < dimV < ∞ und f : V → V ein Endomorphismus. Dann besitzt f einen Eigenwert. Anmerkung. Dass die Aussage von 23.6 für K = R nicht gilt, haben wir oben gesehen. Nachwort Dann sprach sie wieder. Schade, dass der Weg nicht länger war. Findest du nicht?≪ ≫ Früher oder später wären wir ohnehin ans Ende gelangt.≪ ≫ Pakhi sah mich an, und ihre Augen glänzten im Mondlicht. Dann wandte sie den Blick ab und fragte: Woran hast du die ganze Zeit gedacht? ≪ ≫ Keine Ahnung. ≪ ≫ Ich habe daran gedacht, wie schön es ist zu gehen, und doch bereitet das Gehen dem Weg ein Ende. ≪ ≫ Damals lachte ich über ihre Worte. Aber jetzt denke ich, dass dieses vierzehnjährige Mädchen, ohne es zu wissen, eine Wahrheit erkannt hatte. Denn so ist es doch: Indem wir leben, brauchen wir unser Leben auf. Die Wege, die wir gern beschreiten, enden, weil wir sie abschreiten. Aus dem Buch: Das Mädchen meines Herzens, von Buddhadeva Bose. List Taschenbuch, 2012. Seite 61. Literaturverzeichnis [Art] Artin, M.: Algebra. Birkhäuser, Basel 1993 [Bre] Brenner, H.: Mathematik für Anwender I, Skript, Osnabrück WS 2011/12 [Bri] Brieskorn, E.: Lineare Algebra und analytische Geometrie I, II. Vieweg, Braunschweig 1985 [Bru1] Bruns, W.: Lineare Algebra 1, Skript, Osnabrück WS 2011/12 [Bru2] Bruns, W.: Analysis I, Skript, Osnabrück. [Fis] Fischer, G.: Lineare Algebra. Vieweg, Braunschweig 1997 [HW] Hairer, E. ind Wanner, G.: Analysis by Its History. Springer, New York, 1996 [Heu] Heuser, H.: Lehrbuch der Analysis. Teil 1. 17., aktualisierte Auflage. Vieweg+Teubner, Wiesbaden 2009 [Jan] Jänich, K.: Lineare Algebra. Springer, Berlin 1998 [Ker] Kersten, I.: Analytische Geometrie und Lineare Algebra 1. Universitätsdrucke Göttingen 2005 [Kn] Knopp, K.: Theorie und Anwendung der unendlichen Reihen. 5. Aufl. Springer, Berlin, 1964 [Kow] Kowalsky, H.-J.: Lineare Algebra. de Gruyter, Berlin 1995 [Lan] Lang, S.: Linear Algebra. Springer, Berlin 1993 [Lip] Lipschutz, S.: Linear Algebra. McGraw-Hill, New York 1974 [Lor] Lorenz, F.: Lineare Algebra I, II. Spektrum, Heidelberg 1996 [Os] Ostrowski, A.: Vorlesungen über Differential- und Integralrechnung. Band I. Birkhäuser, Basel, 1952 [Se] Serret, J.A.: Calcul différentiel et intégral, tome premier. Gauthier-Villars, Paris, 1900 [Smi] Smith, L.: Linear Algebra. Springer, New York 1978 [StG] Stoppel, H. und Griese, B.: Übungsbuch zur Linearen Algebra. Vieweg, Braunschweig 1998. [StW] Storch, U. und Wiebe, H.: Lehrbuch der Mathematik, Band 2. Spektrum, Heidelberg 1999 [Tra] Trapp, H.-W.: Einführung in die Algebra. Rasch, Osnabrück 1995