Inhaltsverzeichnis §1 §2 §3 §4 §5 §6 §7 §8 §9 §10 §11 §12 Die reellen Zahlen . . . . . . . . . Funktionen . . . . . . . . . . . . . Die komplexen Zahlen . . . . . . . Reelle und komplexe Zahlenfolgen Reihen . . . . . . . . . . . . . . . . Lineare Gleichungssysteme . . . . . Matrizen über R und C . . . . . . Determinanten . . . . . . . . . . . Vektorräume . . . . . . . . . . . . Der Vektorraum K n . . . . . . . . Stetige Funktionen . . . . . . . . . Differenzierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 53 72 90 134 172 184 199 224 263 286 338 $Id: reell.tex,v 1.42 2017/02/18 17:05:39 hk Exp $ Vorlesung 1, Montag 24.10.2016 §1 Die reellen Zahlen Wir wollen diese Vorlesung mit den reellen Zahlen beginnen, diese sind die norma” len Zahlen“ und man kann sie sich etwa als alle abbrechenden und nicht abbrechenden Dezimalzahlen denken. Wir werden einige der Grundeigenschaften der reellen Zahlen hier herleiten, dies geschieht nicht weil an diesen irgendein Zweifel besteht sondern um die in der Mathematik verwendeten Beweismethoden an einigen einfachen Beispielen vorzuführen. Mathematik ist keine empirische Wissenschaft, man kann mathematische Aussagen nicht durch Versuche oder die Erhebung irgendwelcher Daten begründen, es steht nur ein rein deduktives Vorgehen zur Verfügung. Eine solche deduktive Begründung einer mathematischen Aussage nennt man dann einen Beweis derselben. 1.1 Die Arithmetik der reellen Zahlen Auf den reellen Zahlen sind zwei Grundrechenarten gegeben, zu je zwei reellen Zahlen x, y sind eine Summe x + y und ein Produkt x · y definiert. Dabei sind Summe und Produkt selbst wieder reelle Zahlen. Dass bei den Grundrechenarten Subtraktion und 1 Mathematik für Physiker I, WS 2016/2017 Montag 24.10.2016 Division erst einmal fehlen ist beabsichtigt, diese zählen wir nicht zu den vorgegebenen Grundoperationen sondern wir werden sie definieren. Wie gesagt wollen wir einige Grundrechenregeln der reellen Zahlen beweisen. Es gibt drei verschiedene grundsätzliche Beweismethoden, die wir auch alle kennenlernen werden, und die am häufigsten angewandte Methode ist der sogenannte direkte Beweis. Bei diesem wird eine Kette von Folgerungen hingeschrieben die mit der zu beweisenden Aussage endet. Man kann dabei nicht alle Rechenregeln beweisen, man braucht ja irgendwelche bereits feststehende Tatsachen mit denen die Folgerungskette beginnen kann. Diese Grundannahmen mit denen alles anfängt und deren Wahrheit man von vornherein annimmt, werden in diesem Zusammenhang Axiome“ genannt, bei den reellen Zahlen ” haben wir dann die Axiome der reellen Zahlen“. In der Auswahl dieser Axiome liegt ” eine gewisse Willkür, es gibt aber einen üblichen Satz von Axiomen die wir auch hier verwenden wollen. Sind die Axiome aber einmal gewählt so sind sie auch alles was wir an unbegründeten Tatsachen akzeptieren wollen, alles darüber hinausgehende bedarf eines Beweises. Insgesamt gibt es 16 Axiome für die reellen Zahlen die der Übersichtlichkeit halber in vier Gruppen aufgeteilt werden. Die erste dieser Gruppen sind die Axiome für Addition und Multiplikation und diese werden als die sogenannten Körperaxiome bezeichnet, das Wort Körper“ hat hier aber nichts mit irgendwelchen geometrischen Objekten zu tun. ” Wir listen die Körperaxiome jetzt auf: Die Körperaxiome: (A1) Das Assoziativgesetz der Addition: Für alle reellen Zahlen x, y, z gilt (x + y) + z = x + (y + z). (A2) Das Kommutativgesetz der Addition: Für alle reellen Zahlen x, y gilt x + y = y + x. (A3) Es gibt eine reelle Zahl 0, genannt Null, mit 0 + x = x für jede reelle Zahl x. (A4) Für jede reelle Zahl x gibt es eine reelle Zahl −x, genannt das additive Inverse von x, mit (−x) + x = 0. (M1) Das Assoziativgesetz der Multiplikation: Für alle reellen Zahlen x, y, z gilt (x · y) · z = x · (y · z). (M2) Das Kommutativgesetz der Multiplikation: Für alle reellen Zahlen x, y gilt x · y = y · x. (M3) Es gibt eine reelle Zahl 1, genannt Eins, mit 1 6= 0 und 1 · x = x für jede reelle Zahl x. 2 Mathematik für Physiker I, WS 2016/2017 Montag 24.10.2016 (M4) Für jede reelle Zahl x mit x 6= 0 existiert eine reelle Zahl x−1 , genannt das multiplikative Inverse von x, mit x−1 · x = 1. (D) Das Distributivgesetz: Für alle reellen Zahlen x, y, z gilt x · (y + z) = x · y + x · z. Im Distributivgesetz, und natürlich auch sonst, verwenden wir hier die übliche Konvention Punkt vor Strich“. Diese ist allerdings kein Axiom, ja nicht einmal eine mathe” matische Aussage, sondern nur eine Frage der Notation. Auch Multiplikationszeichen werden wir im Folgenden meist weglassen. Im Axiom (M3) ist es übrigens wirklich notwendig 1 6= 0 zu fordern, lassen wir diese Bedingung weg, so könnte Null die einzige reelle Zahl sein. Aus den Körperaxiomen kann man alle arithmetischen Rechenregeln folgern, wenn man so will beschreiben die Körperaxiome genau das normale Rechnen“. ” Die Körperaxiome sind auch weitgehend minimal, d.h. man kann, mit einer Ausnahme, keines dieser Axiome aus den anderen Axiomen herleiten. Die einzige Ausnahme ist das Kommutativgesetz der Addition, dieses folgt aus den restlichen Axiomen. Wir werden hier exemplarisch einige Rechenregeln für die reellen Zahlen beweisen, und beginnen mit der für jede reelle Zahl x gültigen Regel −(−x) = x. Beachte das wir hier kein x“ bestimmen müssen, dies ist keine Gleichung die es auf” zulösen gilt. Gemeint ist das wann immer wir für x eine reelle Zahl einsetzen so entsteht eine wahre Aussage, es gelten also beispielsweise −(−1) = 1, −(−127, 53) = 127, 53 und so weiter. Wir behaupten also: (F1) Für jede reelle Zahl x gilt −(−x) = x. Das F1“ soll dabei für Folgerung 1“ stehen, dies ist keine feststehende Bezeichnung ” ” dieser Aussage sondern nur ein temporärer Name für die Zwecke dieses Abschnitts. Wie schon gesagt bedarf jede mathematische Aussage eines Beweises, und einen solchen wollen wir nun vorführen. Beweis: Sei x eine reelle Zahl. Dann ist (A3) (A2) (A4) − (−x) = 0 + (−(−x)) = (−(−x)) + 0 = (−(−x)) + ((−x) + x) (A1) (A4) (A3) = ((−(−x)) + (−x)) + x = 0 + x = x. Wir wollen diesen Beweis jetzt noch etwas kommentieren und zunächst die Verwendung von Variablen erläutern. Im normalen Sprachgebrauch ist eine Variable eine Größe deren Wert sich im Laufe der Zeit oder in Abhängigkeit anderer Größen ändert, aber 3 Mathematik für Physiker I, WS 2016/2017 Montag 24.10.2016 in der Mathematik wird das Wort Variable“ in einem etwas anderen Sinne verwendet. ” Nehmen wir etwa die Variable x im Lemma. Diese wurde mit Sei x eine reelle Zahl“ ” eingeführt, und dies meint das wir uns eine reelle Zahl nehmen und dieser den Namen x geben. Diese Zahl ändert sich dann im folgenden nicht, der Wert von x ist nicht etwas variables“ und es ist beispielsweise völlig sinnlos so etwas wie Sei x := 3“ sagen zu ” ” wollen, man könnte allerhöchstens den Fall betrachten das x gleich 3 ist. Variablen in der Mathematik sind nur Namen für mathematische Objekte und keine sich ändernden Größen, die Namensgebung Variable“ kommt daher das etwa unsere Variable x ein ” Name für eine völlig beliebige reelle Zahl ist, die Variabilität liegt in den potentiell möglichen Werten für x aber eben nicht im gewählten Wert selbst. Dies weicht vom üblichen Sprachgebrauch etwas ab, aber daran muss man sich letztlich gewöhnen. Es gibt einige, wenige Ausnahmen zum oben gesagten, beispielsweise die Integrationsvariable in einem bestimmten Integral wie Z 1 x2 dx. 0 Das Symbol x“ ist hier eine echte“ Variable, man spricht hier auch von einer for” ” ” malen Variablen“. Derartige Variablen treten immer nur in gebundener Form“ auf, ” beispielsweise gibt R 1es das ”x“ im obigen Integral nur innerhalb des Integranden, For2 meln wie x /2 = 0 x dx sind weder wahr noch falsch sondern nur unsinnig. Ein weiteres Beispiel für formale Variablen kommt in unserer Behauptung Für jede reelle Zahl x ist ” −(−x) = x“ vor, das x“ ist hier in der Allaussage gebunden. Jede Variable muss ein” geführt werden, insbesondere müssen wir in unserem Beweis die Variable x einführen und dies geschieht mit dem einleitenden Satz Sei x eine reelle Zahl“. ” Die eigentliche Rechnung im Beweis ist dann nur eine Abfolge von Anwendungen der Axiome. Dass wir dabei bei jedem Schritt angeben welches Axiom jeweils verwendet wird ist eher unüblich, dies ist jetzt nur als Hilfestellung zum Anfang gedacht, später wird dann etwas mehr eigenes Mitdenken erwartet. Nicht alle mathematischen Aussagen sind einfach Gleichungen, häufiger sind Implikationen also Aussagen des Typs wenn irgendetwas gilt, so gilt auch etwas anderes“. Als ein Beispiel für eine solche ” Aussage nehmen wir: (F2) Seien x, y, z drei reelle Zahlen mit x + z = y + z. Dann ist auch x = y. Beweis: Seien also x, y, z drei reelle Zahlen und es gelte x + z = y + z. Dann folgt auch (A3) (A2) (A4) (A2) (A1) x = 0 + x = x + 0 = x + ((−z) + z) = x + (z + (−z)) = (x + z) + (−z) (A1) (A2) (A4) (A2) (A3) = (y + z) + (−z) = y + (z + (−z)) = y + ((−z) + z) = y + 0 = 0 + y = y. 4 Mathematik für Physiker I, WS 2016/2017 Montag 24.10.2016 Auch hier sind wieder einige Kommentare angebracht. Wir haben den Beweis wieder mit Seien x, y, z . . .“ begonnen, da Variablen nun einmal eingeführt werden müssen. ” Andererseits werden x, y, z auch in der Formulierung von (F2) eingeführt, diese beginnt ja ebenfalls mit Seien x, y, z drei reelle Zahlen“, und es ist eine übliche Konvention in ” solchen Fällen die Variablen stillschweigend aus der Formulierung der zu beweisenden Aussage zu übernehmen. Selbiges trifft auch auf die sonstigen Annahmen, bei (F2) ist dies x + z = y + z“, zu, man kann den Beweis also verkürzen und den ersten Satz ” einfach weglassen. In den allermeisten Fällen werden wir im Folgenden dieser Konvention folgen. Dies werden wir aber nicht tun wenn die Aussage explizit als Allaussage formuliert ist, wenn also (F2) beispielsweise in der Form Für alle reellen Zahlen x, y, z ” mit x + z = y + z ist auch x = y“ formuliert wäre, dann denken wir uns x, y, z in der Aussage gebunden und müssten sie dann im Beweis wieder einführen. Weiter sehen wir an diesem Beweis das es allmählich lästig wird immer wieder alles auf die Axiome zurückzuführen, einige Argumente wiederholen sich dabei ständig, wie etwa (F3) Für jede reelle Zahl x ist x + 0 = x oder (F4) Für jede reelle Zahl x ist x + (−x) = 0. Benutzt man diese Hilfsaussagen anstelle der Axiome selbst, so kann man den obigen Beweis zu x = x+0 = x+(z +(−z)) = (x+z)+(−z) = (y +z)+(−z) = y +(z +(−z)) = y +0 = y verkürzen. Eine weitere Verkürzung ergibt sich indem das Assoziativgesetz (A1) in Notation umgesetzt wird, das Axiom besagt ja das die Klammerung bei Addition keine Rolle spielt, und wenn sie keine Rolle spielt kann man sie auch gleich weglassen, man schreibt also x+y+z statt (x+y)+z, und entsprechend für vier und mehr Summanden. Mit dieser Konvention kann man den Beweis noch etwas einfacher schreiben x = x + 0 = x + z + (−z) = y + z + (−z) = y + 0 = y. Entsprechendes gilt für die Multiplikation, es kommen allerdings einige kleine Komplikationen hinzu da die Null kein multiplikatives Inverses hat. Klar oder analog zu (F2) sind (F5) Für jede reelle Zahl x ist x · 1 = x. (F6) Für jede reelle Zahl x mit x 6= 0 ist x · x−1 = 1. (F7) Sind x, y, z reelle Zahlen mit x · z = y · z und z 6= 0, so ist x = y. Die multiplikative Form von (F1) ist etwas komplizierter, und wir brauchen zu ihrer Behandlung auch noch eine weitere Hilfsaussage: 5 Mathematik für Physiker I, WS 2016/2017 Montag 24.10.2016 (F8) Für jede reelle Zahl x gilt 0 · x = 0. Diese harmlos aussehende Behauptung ist tatsächlich die erste Stelle an der wir das Distributivgesetz benötigen, alle unsere bisherigen Beweise sind mit den ersten acht Axiomen ausgekommen. Der Beweis von (F8) kann beispielsweise folgendermaßen geführt werden: Beweis: Sei x eine reelle Zahl. Dann gilt (A3) (A3) (D) 0 + 0 · x = 0 · x = (0 + 0) · x = 0 · x + 0 · x, und eine Anwendung von (F2) liefert 0 · x = 0. Damit kommen wir zur angekündigten multiplikativen Form von (F1). (F9) Ist x 6= 0 eine reelle Zahl, so ist auch x−1 6= 0 und (x−1 )−1 = x. Beweis: Sei x eine reelle Zahl mit x 6= 0. Da nach (M4) und (M3) dann x−1 · x = 1 6= 0 ist, aber nach (F8) auch 0 · x = 0 gilt, muss x−1 6= 0 sein. Weiter ist (x−1 )−1 · x−1 = 1 = x · x−1 und mit (F7) folgt (x−1 )−1 = x. Die Aussage (F8) hat zwei weitere wichtige Konsequenzen, die erste davon ist der Zusammenhang zwischen Multiplikation und dem additiven Inversen, dies meint die wohlbekannte Regel (F10) Für jede reelle Zahl x ist −x = (−1) · x. Beweis: Sei x eine reelle Zahl. Nach (F8) ist dann (−x) + x = 0 = 0 · x = ((−1) + 1) · x = (−1) · x + 1 · x = (−1) · x + x, also haben wir −x = (−1) · x nach (F2). Kommen wir zur letzten heute zu behandelnden Aussage der sogenannten Nullteilerfreiheit, d.h. ist ein Produkt zweier reeller Zahlen gleich Null so ist bereits einer der beiden Faktoren gleich Null. Der Beweis dieser Tatsache verwendet eine sogenannte Fallunterscheidung. (F11) Sind x, y zwei reelle Zahlen mit x · y = 0, so ist x = 0 oder y = 0. 6 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Beweis: Seien also x, y reelle Zahlen mit x · y = 0. Ist y = 0, so sind wir bereits fertig. Im anderen Fall nehmen wir dagegen y 6= 0 an, und da nach (F8) auch 0 · y = 0 = x · y, mit y 6= 0 gilt, liefert (F7) in diesem Fall x = 0. Beachte das das oder“ in (F11) ein einschließendes oder ist, d.h. es ist auch möglich ” das x = 0 und y = 0 gelten. Dies ist die in der Mathematik übliche Konvention, das Wort oder“ steht immer für die einschließende Version, in den erstaunlich seltenen ” Fällen in denen die ausschließende Version gemeint ist schreibt man explizit entweder ” . . . oder“. Dies soll an Beispielen für Herleitungen von Rechenregeln erst einmal reichen. Wie schon bemerkt sind Subtraktion und Division keine eigenständigen Rechenoperationen, sondern sie können in Termen von Addition und Multiplikation definiert werden, sind also letztlich nur Schreibweisen. Für reelle Zahlen x, y definieren wir die Differenz von x und y als x − y := x + (−y) und im Fall y 6= 0 definieren wir den Quotienten von x durch y als x := x · y −1 . y Das Symbol :=“ steht dabei für wird definiert als“ und wird nur der Deutlichkeit ” ” halber verwendet, eigentlich ist es überflüssig da wir ja bereits gesagt haben das es sich um Definitionen handelt. Als eine Übungsaufgabe werden Sie zeigen, dass dann die üblichen Bruchrechenregeln gelten. Wie schon bemerkt ergeben sich aus den Körperaxiomen alle Rechenregeln für die Grundrechenarten. Hiermit sind allerdings nur die Gleichheiten“ gemeint, also Aussagen der Form · · · = · · · , bei Ungleichheiten sieht ” alles anders aus. Zum Beispiel reichen die Körperaxiome nicht aus um 1 + 1 6= 0 zu beweisen, man kann mit ihnen nicht einmal zeigen, dass es eine von Null und Eins verschiedene reelle Zahl gibt. 1.2 Aussagen und Mengen Vorlesung 2, Freitag 28.10.2016 In der letzten Sitzung haben wir die neun arithmetischen Axiome der reellen Zahlen eingeführt und aus diesen einige einfache Folgerungen gezogen. Bevor wir unsere Diskussion der reellen Zahlen mit der nächsten Axiomengruppe fortsetzen, ist es jetzt erst einmal an der Zeit einige grundsätzliche Fragen zu klären. Nachdem wir im vorigen 7 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Abschnitt schon einige Beispiele von Beweisen gesehen haben, wollen wir den formalen Umgang mit mathematischen Aussagen besprechen, dieser ist der Gegenstand der sogenannten Aussagenlogik. Unter einer Aussage verstehen wir einen sprachlichen Ausdruck der einen eindeutigen Wahrheitsgehalt hat, also entweder wahr oder falsch ist. Streng genommen sind wir hier eigentlich nur an mathematischen Aussagen interessiert, dies meint Aussagen die nur von mathematischen Objekten handeln. In der Logik betrachtet man auch allgemeinere Aussagen, dies führt aber schnell zu zusätzlichen Komplikationen, die für uns keine Rolle spielen. Beispiele derartiger (mathematischer) Aussagen sind: • 3 + 4 = 7. • 7 · 8 = 44 (Dies ist zwar falsch, aber trotzdem eine Aussage). • Die 5-te Nachkommastelle von π ist 9. Alle diese Ausdrücke sind definitiv, und ohne jeden Verhandlungsspielraum jeweils wahr oder falsch. In einer Hinsicht sind wir dagegen recht großzügig, es ist nicht nötig zu wissen ob eine mathematische Aussage nun wahr oder falsch ist, es kommt nur darauf an, daß sie eines von beiden ist. Beispiele solcher zweifelsfrei mathematischen Aussagen, deren Wahrheitsgehalt wir zur Zeit nicht kennen sind: • Die 1032538 -te Nachkommastelle von π ist eine 7. • Es gibt beliebig große natürliche Zahlen n so, dass unter den ersten n Nachkommastellen von π die 7 genauso oft wie die 3 vorkommt. Diese beiden Aussagen sind sicherlich entweder wahr oder falsch. Bei der ersten Aussage ist es eher unwahrscheinlich das irgendjemand diese Dezimalstelle von π einmal ausgerechnet hat. Im Prinzip kann man durchaus entscheiden ob die Aussage wahr oder falsch ist, es gibt sogar einen Algorithmus der beliebige Dezimalstellen von π berechnen kann ohne dabei die vorhergehenden Stellen berechnen zu müssen. Auch die zweite Aussage ist entweder wahr oder falsch, wir wissen nur nicht was zutrifft, wir können uns sogar ziemlich sicher sein, das man das nie wissen wird. Trotzdem handelt es sich um eine mathematische Aussage in unserem Sinn, denn entweder wahr oder falsch ist sie allemal, auch wenn wir nicht wissen welche dieser beiden Möglichkeiten nun zutrifft. Es gibt verschiedene Konstruktionen aus bereits gegebenen Aussagen A, B neue Aussagen zusammenzusetzen. Diese werden gelegentlich als aussagenlogische Junktoren bezeichnet. Der einfachste dieser Junktoren ist die Verneinung. Ist A eine Aussage, so ist die Verneinung von A die Aussage ¬A, die genau dann wahr ist wenn A falsch ist. Ebenfalls ohne Überraschungen ist die Konjuktion, oder simpler die und“, Aussage. ” Bei dieser sind zwei Aussagen A, B gegeben, und man bildet die neue Aussage A ∧ B, gesprochen als A und B, die genau dann wahr ist wenn beide Aussagen A und B wahr sind. 8 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Diese Festlegungen sollten nicht besonders überraschend sein. Der nächste unserer Junktoren wird nun die Disjunktion, beziehungsweise oder“ Aussage, sein. Hier gibt es ” ein kleines Detail zu beachten, die Bedeutung der Disjunktion weicht gelegentlich etwas von der sonst üblichen Verwendung dieses Wortes ab. Sind A, B wieder zwei Aussagen, so ist die Disjunktion A ∨ B, gesprochen als A oder B, genau dann wahr wenn eine der beiden Aussagen A, B wahr ist. Hierbei ist immer der Fall erlaubt, dass sogar beide Aussagen A, B wahr sind. Wir hatten bereits in der letzten Sitzung bemerkt, dass diese Verwendung des Wortes oder“ etwas von der Umgangssprache abweicht. Beachte hier ” auch das eine der beiden Aussagen A, B wahr ist“ erlaubt das sogar beide Aussagen ” wahr sind, bei der Angabe von Anzahlen ist implizit immer mindestens“ gemeint, ” beispielsweise ist die Aussage In dieser Vorlesung sind sieben Studenten“ wahr. Ist ” dies nicht gemeint so setzt man explizit ein genau“ davor und hat die falsche Aussage ” In dieser Vorlesung sind genau sieben Studenten“. Der Deutlichkeit halber können wir ” Konjunktion und Disjunktion in Form sogenanter Wahrheitstabellen beschreiben. Die Tabellen für Konjunktion und Disjunktion haben dabei die folgende Form: @A A ∨ B: B @ 0 1 0 0 1 1 1 1 A A ∧ B: @ B @ 0 1 0 0 0 1 0 1 In diesen Tabellen schreiben wir 0 für falsch“ und 1 für wahr“. Dies soll nicht etwa ” ” bedeuten, dass die Zahlen 0 und 1 irgendetwas mit wahr“ und falsch“ zu tun haben, ” ” es handelt sich nur um Symbole für diese Begriffe. Alternativ könnten wir auch f und w anstelle von 0 und 1 schreiben. Mit den logischen Junktoren kann man rechnen. Wir wollen hier eine der Rechenregeln für logische Junktoren hervorheben, die sogenannten de Morganschen Regeln für Aussagen. Diese behandeln die Verneinung von und“ beziehungsweise von oder“ ” ” Aussagen. Da es sich hier um logische Tatsachen und nicht um mathematischen Aussagen handelt, wollen wir diese Formeln nicht als mathematische Sätze bezeichnen. Die de Morganschen Regeln besagen ¬(A ∧ B) = (¬A) ∨ (¬B) und ¬(A ∨ B) = (¬A) ∧ (¬B) für alle Aussagen A und B. Dabei steht das Gleichheitszeichen hier für ist gleich” bedeutend mit“ oder äquivalent“, gelegentlich wird hierfür ein eigenes Zeichen, etwa ” ≡“, verwendet, für unsere Zwecke ist das aber nicht nötig. Wir wollen uns die de ” Morgansche Regel für die Disjunktion einmal klarmachen, die andere Regel kann man sich dann analog überlegen. Die einzige Möglichkeit das die Disjunktion A ∨ B falsch ist, ist wenn A und B gleichzeitig beide falsch sind, wenn also (¬A) ∧ (¬B) wahr ist. Dies bedeutet ¬(A ∨ B) = (¬A) ∧ (¬B). Als eine alternative Begründung kann man 9 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 sich auch die Wahrheitstafeln anschauen ¬(A ∨ B) : 0 1 0 1 0 1 0 0 (¬A) ∧ (¬B) : 0 1 0 1 0 1 0 0 Wir kommen jetzt zu einem weiteren logischen Junktor, der auch schon komplizierter ist, der sogenannten Implikation. Sind A, B zwei Aussagen, so ist die Aussage A ⇒ B, gesprochen als aus A folgt B“ oder A impliziert B“, wahr wenn mit A auch B stets ” ” wahr ist. In Form einer Wahrheitstafel soll diese Festlegung gerade A A ⇒ B: @ B @ 0 1 0 1 0 1 1 1 bedeuten. Ist die Implikation A =⇒ B wahr, so nennt man A auch eine hinreichende Bedingung für B und entsprechend B eine notwendige Bedingung für A. Beachte das die Implikation A ⇒ B insbesondere immer dann wahr ist wenn die Voraussetzung A der Implikation falsch ist. Anders gesagt soll aus einer falschen Aussage jede beliebige andere Aussage folgen. Dies erscheint zunächst als eine etwas merkwürdige Festlegung, aber dieser Eindruck sollte bei näherer Betrachtung verfliegen. Umgangssprachlich würde man eine Aussage der Form Wenn morgen das Hörsaalgebäude einstürzt, ” so fällt die Vorlesung aus“, als wahr betrachten unabhängig davon ob das Gebäude morgen noch steht, selbst dann wenn die Vorlesung trotz eines in bestem Zustand befindlichen Hörsaals ausfällt. Ein weiterer Grund für die angegebene Interpretation der Implikation, der für die Mathematik auch erheblich schwerwiegender ist, sind Aussagen in denen Variablen vorkommen. Steht x beispielsweise für eine reelle Zahl, so sollte die Aussage x2 = 4 =⇒ −2 ≤ x ≤ 2 immer wahr sein, unabhängig davon welchen konkreten Wert x jetzt hat, also auch wenn etwa x = 3 oder x = 0 ist. Um eine Implikation A ⇒ B zu beweisen, kann man immer annehmen das die Aussage A wahr ist, denn andernfalls gilt die Implikation sowieso. Ein Beispiel hatten wir bei unserem Beweis von (F2) gesehen, als Implikation schreibt sich (F2) für reelle Zahlen x, y, z als x + z = y + z =⇒ x = y, und im Beweis in seiner verkürzten Form sind wir dann gleich von x + z = y + z ausgegangen. Was ist jetzt die Verneinung der Implikation A ⇒ B? Diese ist genau dann wahr wenn A ⇒ B falsch ist, und hierfür gibt es nur eine einzige Möglichkeit, A muss wahr sein und B muss falsch sein. Als Formel bedeutet dies ¬(A ⇒ B) = A ∧ (¬B). 10 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Verwenden wir jetzt noch die offensichtliche Tatsache, dass für jede Aussage X stets ¬¬X = X ist, so erhalten wir mit den de Morganschen Regeln A ⇒ B = ¬¬(A ⇒ B) = ¬(A ∧ (¬B)) = (¬A) ∨ (¬¬B) = (¬A) ∨ B. Insbesondere scheint die Implikation damit auf derselben inhaltlichen Stufe wie und“ ” und oder“ zu stehen, was Sie zumindest irritieren sollte. Dieser Eindruck täuscht auch ” in gewisser Weise, denn der hier verwendete Implikationsbegriff ist rein formaler Natur. Es kommt für die Wahrheit von A ⇒ B nur auf den Wahrheitswert der Aussagen A und B an, nicht aber auf die inhaltliche Bedeutung dieser Aussagen. Diesen Implikationsbegriff sollte man nicht mit dem inhaltlichen Folgerungsbegriff verwechseln, dass also eine Aussage B durch logisches Schließen aus einer Aussage A folgt. Bei letzterem kommt es tatsächlich auf die Bedeutung von A und B an. Um eine Implikation zu beweisen, verwendet man dagegen in aller Regel eine inhaltliche Argumentation, wie bereits bemerkt wird A als wahr angenommen und dann auf B geschlossen. Der letzte der üblichen logischen Junktoren ist die Äquivalenz, sind A, B zwei Aussagen, so ist die Aussage A ⇐⇒ B, gesprochen als A ist äquivalent zu B“ oder A ” ” genau dann wenn B“, wahr wenn A die Aussage B impliziert und umgekehrt aus B auch die Aussage A folgt, also als Wahrheitstabelle A A ⇔ B: @ B @ 0 1 0 1 0 1 0 1 oder als Formel A ⇐⇒ B = A =⇒ B ∧ B =⇒ A. Wir wollen nun eine der wichtigsten aussagenlogischen Tatsachen besprechen, das sogenannte Kontrapositionsprinzip. Tatsächlich haben wir dieses bereits in der letzten Sitzung im Einsatz gesehen, wenn auch in einer sehr schlichten Situation. Als Aussage (F8) hatten wir bewiesen das für jede reelle Zahl x stets 0 · x = 0 gilt, und dies hatten wir dann beim Beweis von (F9) verwendet. Dort hatten wir wieder eine reelle Zahl x diesmal mit x 6= 0 und hatten aus x−1 · x = 1 6= 0 auf x−1 6= 0 geschlossen, wir haben also aus der Aussage y = 0 =⇒ y · x = 0 auf y · x 6= 0 =⇒ y 6= 0 geschlossen. Dies ist eine einfache Anwendung des Kontrapositionsprinzips. Allgemein besagt dieses das für je zwei Aussagen A, B stets A =⇒ B = ¬B =⇒ ¬A (Kontrapositionsprinzip) ist. In unserem Beispiel sind A und B gerade die folgenden Aussagen y = 0 =⇒ y · x = 0 beziehungsweise y · x 6= 0 =⇒ y 6= 0 . | {z } | {z } | {z } | {z } A ¬B B 11 ¬A Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Inhaltlich sollte das Kontrapositionsprinzip unmittelbar klar sein, man kann es, wenn man will, auch rechnerisch“ begründen ” ¬B =⇒ ¬A = (¬¬B) ∨ ¬A = ¬A ∨ B = A =⇒ B. Will man eine Implikation A =⇒ B beweisen, so kann man nach dem Kontrapositionsprinzip anstelle dessen auch die Kontraposition ¬B =⇒ ¬A zeigen, man spricht dann auch von einem Beweis per Kontraposition. Die meisten der Aussagen des vorigen Abschnitts waren sogenannte Allaussagen, also beispielsweise Aussagen wie (F1), dass für jede reelle Zahl x stets −(−x) = x gilt. Bei derartigen Allaussagen wird gesagt das eine Aussage A(x) mit einer freien Variable x für jedes x aus einer gegebenen Objektklasse zutrifft und man sagt dann auch das die Allaussage über dieser Objektklasse quantifiziert ist. Die Ausssage (F1) ist dann über reelle Zahlen quantifiziert. Allgemein lassen wir als Objektklassen beliebige Mengen zu und gehen daher erst einmal auf den Mengenbegriff ein. Die klassische, 1878 von Cantor gegebene, Definition des Mengenbegriffs ist Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten, wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens, welche die Elemente von M genannt werden, zu einem Ganzen. Eine Menge fasst also einige bereits vorhandene Objekte zu einem neuen Ganzen zusammen. Wir werden nur Mengen betrachten, deren Elemente allesamt mathematische ” Objekte“ sind, also beispielsweise Zahlen. Sind M eine Menge und x irgendein mathematisches Objekt, so schreiben wir x ∈ M für x ist ein Element von M“ und x ∈ /M ” für x ist kein Element von M“. Wir listen jetzt einige Beispiele von Mengen auf: ” 1. Die Menge M die die drei Elemente 1, 2, 3 hat kann man als M = {1, 2, 3} schreiben. Man setzt also die vorgesehenen Elemente der Menge in ein Paar geschweifter Klammern. 2. Es ist auch erlaubt in den geschweiften Klammern dasselbe Objekt mehrfach aufzulisten M = {1, 1, 2, 3} = {1, 2, 3}. Ein Objekt ist entweder Element einer Menge oder nicht, so etwas wie eine mehrfache Mitgliedschaft in einer Menge gibt es nicht. Im diesem Beispiel ist es natürlich nicht besonders sinnvoll die Eins zweimal hinzuschreiben, man ist sogar versucht so etwas ganz zu verbieten. Das wäre allerdings hochgradig unpraktisch. Nehmen wir einmal an, wir hätten drei reelle Zahlen a, b, c gegeben, von denen wir sonst nichts wissen. Es könnten also insbesondere Gleichheiten zwischen diesen Zahlen auftreten, etwa a = b 6= c. Wollen wir dann die Menge M mit den 12 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Elementen a, b, c hinschreiben und bestünden bei {. . .} auf verschiedenen Objekten in den Klammern, so bräuchten wir eine Definition wie ist a = b = c, so sei ” M = {a}, ist a = b 6= c, so sei M = {a, c}, . . .“, und so weiter bis alle Möglichkeiten für Gleichheiten zwischen a, b, c aufgelistet sind. Erlauben wir dagegen Wiederholungen bei {. . .}, wie wir es tun, so kann man einfach M = {a, b, c} schreiben. 3. Mengen können auch unendlich viele Elemente haben. Als ein Beispiel einer solchen Menge haben wir etwa die Menge aller natürlichen Zahlen. Für diese Menge gibt es ein nur für sie reserviertes Symbol N = {0, 1, 2, 3, . . .}. Man muss leider etwas aufpassen, da es auch eine alternative Definition gibt bei der die Null nicht zu den natürlichen Zahlen zählt, also N = {1, 2, 3, . . .}. Braucht man dann doch einmal die Null dabei, so verwendet man N0 für die natürlichen Zahlen mit Null. Welche der beiden Konventionen man verwendet, also mit oder ohne Null, ist eine Geschmacksfrage, in der Literatur und in Lehrbüchern ist beides anzutreffen. Wir wollen in dieser Vorlesung durchgängig die Variante mit eingeschlossener Null verwenden. 4. Auch einige andere Zahlbereiche haben wie die natürlichen Zahlen eine Standardbezeichnung, diese sind: Z Q R C − − − − die die die die ganzen Zahlen . . . , −2, −1, 0, 1, 2, . . ., rationalen Zahlen, also Brüche ganzer Zahlen, reellen Zahlen und komplexen Zahlen, die in §3 eingeführt werden. 5. Als nächstes Beispiel wollen wir die Menge M aller geraden natürlichen Zahlen hinschreiben. Eine naheliegende Schreibweise hierfür ist M = {0, 2, 4, 6, 8, . . .}. Eine derartige Pünktchen-Schreibweise“ muss man aber sehr sparsam verwen” den, es muss wirklich unmissverständlich und ohne jeden Spielraum klar sein wofür die Auslassungspunkte stehen. Beispielsweise kann man bei der Menge N = {1, 7, 289, . . .} bestenfalls raten was damit gemeint sein soll, und so etwas geht auch nicht als sinnvolle Mengenbeschreibung durch. Eine pünktchenfreie“ ” alternative Beschreibung der Menge M der geraden Zahlen kann man durch Parametrisierung der Elemente erhalten. Eine gerade natürliche Zahl ist ja definitionsgemäß eine Zahl die man als 2 · n für eine andere natürliche Zahl n schreiben kann, und durchläuft n die natürlichen Zahlen, so durchläuft 2 · n die geraden Zahlen. Dies führt auf die Schreibweise M = {2n|n ∈ N}. 13 Mathematik für Physiker I, WS 2016/2017 Freitag 28.10.2016 Dies ist dann ein Beispiel einer Mengendefinition durch allgemeine Aufzählung der Elemente, rechts vom Strich stehen eine formale Variable und ein Wertebereich für diese und links vom Strich steht eine Formel mit der freien Variablen n. Anstelle des senkrechten Strichs werden hier auch andere Trennsymbole verwendet, etwa Komma, Semikolon, Doppelpunkte und so weiter. 6. Die Schreibweise des vorigen Beispiels kann man jetzt auch auf kompliziertere Situationen ausdehnen in denen gleich mehrere laufende Variablen vorkommen. Als ein Beispiel wollen wir einmal die Menge M aller natürlichen Zahlen hinschreiben, die sich als eine Summe von zwei Quadraten schreiben lassen. Diese Zahlen haben die Form a + b wobei a, b zwei Quadratzahlen sind. Die Quadratzahlen kann man ihrerseits wieder als a2 mit a ∈ N erhalten, und es ergibt sich M = {a2 + b2 |a, b ∈ N} als eine einfache Art die Menge M anzugeben. Entsprechend kann man auch die Menge aller natürlichen Zahlen hinschreiben die sich als eine Summe von vier Quadraten schreiben lassen, und es stellt sich heraus das {a2 + b2 + c2 + d2 |a, b, c, d ∈ N} = N ist. Wir wollen hier glauben das diese Gleichung wahr ist, der Beweis ist leider viel zu kompliziert um ihn hier im ersten Semester vorzuführen. Dieses Beispiel zeigt uns aber eine wichtige Tatsache, zwei Mengen sind dann gleich wenn sie genau dieselben Elemente besitzen und nicht etwa wenn sie dieselben Beschreibungen haben. Die Beschreibungen der beiden Mengen links und rechts des obigen Gleichheitszeichens sind grundverschieden und lassen sich auch nicht durch einfache Umformungen ineinander überführen, trotzdem sind die von ihnen beschriebenen Mengen gleich. 7. Neben der Mengenbildung durch Aufzählung wie in den vorigen beiden Beispielen kann man Mengen auch noch durch Auswahl konstruieren. Haben wir eine Menge M und eine Aussage A(x) über Elemente x ∈ M , so können wir die Menge N := {x ∈ M |A(x)} aller Elemente von M bilden für die A(x) zutrifft. Beispielsweise ist {x ∈ R|x2 = 1} = {−1, 1}. Der formale Aufbau dieser Art der Mengendefinition sieht genauso aus wie bei der Mengenbildung durch Aufzählung, beide haben die Form {. . . | . . .}, es handelt sich aber um zwei verschiedene Konstruktionen. Dass für verschiedene Dinge nahezu gleiche Schreibweisen verwendet werden mag etwas unglücklich sein, stellt sich aber im praktischen Gebrauch als unproblematisch heraus. 14 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 8. Bisher haben wir in all unseren Beispielen immer Zahlen als Elemente einer Menge verwendet. Allgemeine Mengen dürfen aber auch kompliziertere Elemente haben, etwa Punkte, Geraden, Kreise oder auch andere Mengen. Ein Beispiel hierfür ist M = {{1, 2}, {3, 4}, 5}. Dies ist eine Menge mit drei Elementen, und nicht etwa mit fünf, und diese drei Elemente sind M = {{1, 2}, {3, 4}, 5 }, | {z } | {z } |{z} 1 2 3 also die Menge {1, 2} mit den beiden Elementen 1 und 2, dann die Menge {3, 4} und schließlich die Zahl 5. Insbesondere ist etwa 2 ∈ / M , denn die Zahl 2 ist nur ein Element eines Elements von M , aber eben kein Element von M selbst. 9. Ein letztes Beispiel ist die Menge M = {{1}}. Dies ist eine Menge mit einem einzelnen Element, aber dieses Element ist nicht die Zahl Eins, sondern die Menge {1}, deren einziges Element 1 ist. Beachte {1} = 6 1, denn Eins ist eine Zahl und keine Menge, und damit auch {{1}} = 6 {1} denn diese beiden Mengen haben verschiedene Elemente. Vorlesung 3, Montag 31.10.2016 In der letzten Sitzung haben wir die verschiedenen Konstruktionsmethoden für Mengen kennen gelernt. Insbesondere hatten wir die Mengenbildung durch Auswahl eingeführt, hier sind eine Grundmenge M sowie eine Aussage A(x) über Elemente x von M gegeben und mit diesen Daten konnte man dann die Menge {x ∈ M |A(x)} aller Elemente von M die die Eigenschaft A erfüllen bilden. Diese Form der Mengenbildung ist nur bei Vorhandensein einer explizit oder implizit vorgegebenen Obermenge M möglich aus der Elemente ausgewählt werden, freie Mengenbildung {x|A(x)} wird nicht zugelassen. Das übliche Beispiel weshalb diese problematisch wäre ist die sogenannte Russelsche Antinomie. Bei dieser versucht man die Menge R := {M |M ist eine Menge mit M ∈ / M} zu bilden, und die Existenz einer solchen Menge“ stellt sich als widersprüchlich heraus. ” Das Problem entsteht bei der Frage ob R ∈ R gilt? Nehmen wir einmal an das R ∈ R 15 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 ist. Dann ist nach Definition von R auch R ∈ / R, es kann also nicht R ∈ R sein. Damit muss R ∈ / R gelten, aber dann ist R eine Menge die sich nicht selbst als Element enthält, d.h. wir haben doch R ∈ R. Eine Konstruktion wie das obige R führt also auf Widersprüche, so etwas soll in der Mathematik aber nicht auftreten und um die Russelsche Antinomie zu beseitigen verbietet man schlichtweg die freie Mengenbildung und besteht auf vorgegebenen Obermengen aus denen ausgewählt wird. Wir wollen ein letztes Beispiel einer Menge vorstellen, diese ist sogar wichtig genug ein eigenes Symbol zu erhalten. Definition 1.1 (Die leere Menge) Die leere Menge ist die Menge die keine Elemente hat, geschrieben als ∅. Natürlich ist die leere Menge für sich genommen keine interessante Menge, ihre Wichtigkeit besteht darin das sie sehr häufig vorkommt. Wir haben die leere Menge hier sogar als eine sogenannte Definition“ eingeführt und wollen diesen Begriff jetzt ein ” wenig besprechen. Dass wir die Definition der leeren Menge offiziell als eine Definition bezeichnet und numeriert haben, die Cantorsche Definition einer Menge aber nicht, ist kein Versehen sondern gewollt. Letztere ist nämlich keine Definition im mathematischen Sinne. Im normalen Sprachgebrauch gibt es verschiedene Sorten von Definitionen, und die einfachste Art einer Definition ist die Verabredung einer Abkürzung. Dass beispielsweise LS17“ für Leibniz Straße 17“ stehen soll ist eine rein willkürliche Abkürzung. Will ” ” man dagegen definieren was ein Planet ist, so gibt es ja nach intendierten Verwendungszweck verschiedene Definitionen, wie man etwa an der Diskussion um den Status des Pluto sehen kann. Eine Definition von Planeten beschreibt real vorhandene Objekte und dient nur dazu die gerade relevanten Aspekte dieses Objekts zu benennen. In der Mathematik kommen solche Definitionen nicht vor, schon da die Mathematik nicht von realen Objekten handelt, statt dessen sind alle Definitionen Verabredungen von Abkürzungen. Der Begriff der leeren Menge ist nicht strikt nötig, anstelle von M = ∅“ ” könnte man genauso gut Die Menge M besitze keine Elemente“ sagen. Bevor das ” Wort leere Menge“ definiert wurde gab es keine leere Menge, Planeten dagegen gibt ” es völlig egal ob man eine Definition von Planet hat oder nicht. Mathematische Definitionen führen also immer einen neuen Begriff in Termen bereits vorhandener Begriffe ein. Die Cantorsche Mengendefinition ist nicht von dieser Art, da sie ihrerseits auf weitere noch nicht definierte Begriffe, wie Objekte unse” rer Anschauung“, Zusammenfassung“ und so weiter, verweist. So etwas ist leider auch ” nötig, mit mathematischen Definitionen alleine kommt man nicht aus. Wenn jeder neue Begriff nur in Termen bereits vorhandener Begriffe eingeführt werden kann, so braucht man irgendetwas mit dem alles anfangen kann. Hierfür verwendet man sogenannte Grundbegriffe“, diese denken wir uns als vorgegeben und nicht weiter hinterfragbar. ” Für diese Grundbegriffe gibt man dann üblicherweise eine Beschreibung an, die erklären soll was man sich unter dem Grundbegriff vorzustellen hat. Der Mengenbegriff ist solch ein Grundbegriff und die Cantorsche Mengendefinition ist seine Erklärung. Welche Begriffe als Grundbegriffe verwendet werden und welche definiert werden, 16 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 ist letzten Endes eine rein willkürliche Entscheidung. Es ist beispielsweise möglich den Begriff einer Funktion als Grundbegriff zu verwenden, und Mengen dann in Termen von Funktionen zu definieren. Es hat sich aber ein üblicher Satz“ an Grundbegriffen ” durchgesetzt, zu denen unter anderem die Mengen gehören. Man kann mit erstaunlich wenigen Grundbegriffen auskommen, es reichen der Mengenbegriff und ausreichend viele logische und mathematische Begriffe um eine axiomatische Mengenlehre in Gang zu bringen. Auf der Basis dieser Begriffe können dann kompliziertere Objekte wie die reellen Zahlen definiert werden und ihre Axiome bewiesen werden. Als Startpunkt im ersten Semester ist dies allerdings nicht geeignet, da man einfach zu weit unten anfangen müsste, nicht einmal Dinge wie 2 + 2 = 4“ wären bekannt, schlimmer noch ” es wäre noch nicht einmal definiert was 2“, 4“ und +“ überhaupt sein sollen. Daher ” ” ” starten wir mit einem viel größeren Satz an Grundbegriffen, zu denen unter anderem die reellen Zahlen gehören. Da eine mathematische Definition letztlich nur eine Abkürzung ist, beschreibt sie das definierte Objekt vollständig, die Definition und die sich aus ihr ergebenden Folgerungen sind alles was über die definierten Objekte zu sagen ist. Dies unterscheidet mathematische Definitionen von Definitionen in anderen Gebieten, wo die definierten Objekte letztlich reale Gegenstände sind und durchaus weitere über eine Definition hinausgehende Eigenschaften haben können. Insbesondere sind Fragen nach dem Status nicht definierter Konzepte keine mathematische Fragen, sondern bestenfalls Fragen über Mathematik. Ein übliches Beispiel für die Verwirrungen die bei Fehlinterpretationen des Definitionsbegriffs entstehen ist die Frage“ was denn 0/0 ist. Wir haben den ” Bruch a/b := ab−1 nur definiert wenn a, b ∈ R und b 6= 0 sind, dem Symbol 0/0 ist damit keine Bedeutung zugewiesen und die Frage nach seinem Wert ist sinnlos. In diesem Skript werden die meisten Definitionen explizit als solche ausgewiesen und numeriert. Gelegentlich werden wir aber auch Ausnahmen zulassen, einige besonders einfache Definitionen die eher Synonyme oder Notation sind werden einfach im laufenden Text aufgeführt, so hatten wir zum Beispiel in der ersten Sitzung die Definitionen der Subtraktion und der Division behandelt. Wir wollen auch noch eine Anmerkung zur Vergabe des Namens ∅“ machen. ” Während die Physik sehr großzügig mit fest vergebenen Namen ist, beispielsweise ist v fest für die Geschwindigkeit reserviert, gibt es in der Mathematik nur sehr wenige reservierte Namen, selbst ein Symbol wie π steht nicht immer für die Kreiszahl, sondern kann je nach Kontext auch was ganz anderes bedeuten. Einer dieser vergebenen Namen ist das Symbol ∅ für die leere Menge, ein anderer ist N für die Menge der natürlichen Zahlen. Dass soll an Kommentaren zu dieser Definition erst einmal reichen, und wir kommen zu einer weiteren wichtigen Definition. Definition 1.2 (Teilmengen einer Menge) Eine Menge M heißt Teilmenge einer Menge N , wenn jedes Element von M auch ein Element von N ist. In diesem Fall schreiben wir M ⊆ N . Ist eine Menge M keine Teilmenge einer Menge N , so wird dies mit dem Symbol M 6⊆ N notiert. Die Schreibweise M ⊆ N für die Teilmengenbeziehung wird leider 17 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 nicht einheitlich von allen Autoren verwendet, oftmals finden Sie auch M ⊂ N anstelle von M ⊆ N . Einige Beispiele von Teilmengen sind: 1. Es ist {1, 2} ⊆ {1, 2, 3} denn die beiden Elemente 1 und 2 der linken Menge sind auch Elemente der rechten Menge. 2. Es ist auch {1, 2, 3} ⊆ {1, 2, 3}. Allgemein ist jede Menge eine Teilmenge von sich selbst. Will man dies nicht haben, so spricht man von einer echten Teilmenge, d.h. eine Menge M ist eine echte Teilmenge der Menge N wenn M ⊆ N und M 6= N ist, und wir schreiben M ( N für M ist eine echte Teilmenge von N“. Oftmals wird anstelle von ” M ( N aber auch die alternative Schreibweise M ⊂ N verwendet, was etwas unglücklich ist da dies von anderen wieder als die normale Teilmengenbeziehung interpretiert wird. Die beiden Symbole ⊆“ und (“ sind unmißverständlich, ” ” während ⊂“ je nach Autor Teilmenge“ oder echte Teilmenge“ bedeuten kann. ” ” ” Das ist verwirrend, aber es ist leider so. 3. Dagegen ist {1, {2}} 6⊆ {1, 2, 3}, denn die einelementige Menge {2} ist zwar ein Element der linken aber kein Element der rechten Menge. 4. Das letzte Beispiel ist jetzt etwas verwirrend, wir behaupten das ∅ ⊆ {1, 2, 3} gilt. Erinnern wir uns an die Teilmengendefinition, so bedeutet ∅ ⊆ {1, 2, 3} das jedes Element der leeren Menge auch ein Element von {1, 2, 3} ist, und so merkwürdig es einem auch vorkommt, dies ist wahr. Es gibt ja kein Element der leeren Menge für das das falsch sein könnte. Mit derselben Begründung ist auch ∅⊆M für überhaupt jede Menge M . Insbesondere ∅ ⊆ ∅. Dieser Teilmengenbegriff wird häufig beim Nachweis der Gleichheit zweier Mengen verwendet, es gilt für je zwei Mengen M und N (F12) Genau dann ist M = N wenn M ⊆ N und N ⊆ M gelten. 18 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 In der Tat, dass M und N gleich sind bedeutet das diese beiden Mengen dieselben Elemente haben, das also aus x ∈ M auch x ∈ N folgt und umgekehrt x ∈ N auch x ∈ M impliziert. Letzteres sind aber gerade die beiden Inklusionen M ⊆ N und N ⊆ M . Diese Beobachtung wird meist verwendet um die Gleichheit zweier Mengen zu beweisen, um M = N einzusehen, zeigt man zum einen die Inklusion M ⊆ N und zum anderen die Inklusion N ⊆ M . Mit Mengen kann man rechnen, es gibt eine Vielzahl von Operationen die aus zwei gegebenen Mengen eine neue Menge machen. Die drei wichtigsten dieser Rechenoperationen wollen wir nun einführen: Definition 1.3: Seien M, N zwei Mengen. 1. Die Vereinigung von M und N , geschrieben als M ∪N , ist die Menge all derjenigen Objekte die Element von M oder von N sind. 2. Der Durchschnitt von M und N , geschrieben als M ∩ N , ist die Menge all derjenigen Objekte die Element von M und von N sind. 3. Die Differenzmenge von M und N , geschrieben als M \N , ist die Menge aller Elemente von M , die nicht zugleich Element von N sind. Alternativ nennen wir dies auch das Komplement von N in M oder das relative Komplement von N in M. Vereinigung M ∪N Alle x in M oder N Durchschnitt M ∩N Alle x in M und N Komplement M \N Alle x in M nicht in N Anstelle der Schreibweise M \N für die Differenzmenge wird von einigen Autoren auch das Symbol M − N verwendet. Da wir diese Begriffe nicht sofort brauchen, werden Beispiele hierzu in den Übungsaufgaben behandelt. Wir wollen an dieser Stelle nur noch einige Rechenregeln für die obigen Operationen einführen. Lemma 1.1 (Grundeigenschaften der Mengenoperationen) Seien A, B, C drei Mengen. (a) Es gelten die beiden Distributivgesetze A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) und A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C). (b) Es gelten die beiden deMorganschen Regeln A\(B ∪ C) = (A\B) ∩ (A\C) und A\(B ∩ C) = (A\B) ∪ (A\C). 19 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 Beweis: (a) Wir beginnen mit dem Nachweis der ersten Formel. Nach (F12) müssen wir einsehen das die beiden Inklusionen A ∩ (B ∪ C) ⊆ (A ∩ B) ∪ (A ∩ C) und (A ∩ B) ∪ (A ∩ C) ⊆ A ∩ (B ∪ C), beziehungsweise A ∩ (B ∪ C) ⊇ (A ∩ B) ∪ (A ∩ C), bestehen, und diese werden wir beide nachweisen. ”⊆” Sei x ∈ A ∩ (B ∪ C). Dann ist x ∈ A und x ∈ B ∪ C, und es treten zwei mögliche Fälle auf. Im ersten Fall ist x ∈ B und dann haben wir x ∈ A ∩ B, also auch x ∈ (A ∩ B) ∪ (A ∩ C). Im zweiten Fall ist dagegen x ∈ C und wir haben x ∈ A ∩ C, also wieder x ∈ (A ∩ B) ∪ (A ∩ C). Damit haben wir in beiden Fällen x ∈ (A ∩ B) ∪ (A ∩ C) und die behauptete Inklusion ist bewiesen. ”⊇” Sei nun umgekehrt x ∈ (A ∩ B) ∪ (A ∩ C). Dann treten wieder zwei Fälle auf. Im ersten Fall ist x ∈ A ∩ B, also wegen x ∈ B auch x ∈ B ∪ C und mit x ∈ A folgt x ∈ A ∩ (B ∪ C). Im zweiten Fall haben wir dagegen x ∈ A ∩ C, also wegen x ∈ C auch x ∈ B ∪ C und mit x ∈ A folgt erneut x ∈ A ∩ (B ∪ C). Damit haben wir in beiden Fällen x ∈ A ∩ (B ∪ C) gezeigt und auch diese Inklusion ist bewiesen. Zum Beweis der zweiten Formel reicht es nach (F12) wieder die beiden Inklusionen A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) und (A ∪ B) ∩ (A ∪ C) ⊆ A ∪ (B ∩ C) einzusehen. ”⊆” Sei x ∈ A ∪ (B ∩ C). Dann haben wir wieder zwei mögliche Fälle. Im ersten Fall ist x ∈ A und dann sind auch x ∈ A ∪ B und x ∈ A ∪ C, also x ∈ (A ∪ B) ∩ (A ∪ C) wie gewünscht. Im zweiten Fall ist x ∈ B ∩ C also x ∈ B und x ∈ C und damit ist wieder x ∈ A ∪ B und x ∈ A ∪ C also x ∈ (A ∪ B) ∩ (A ∪ C). Damit haben wir in beiden Fällen x ∈ (A ∪ B) ∩ (A ∪ C) und die Inklusion ist bewiesen. ”⊇” Sei nun umgekehrt x ∈ (A∪B)∩(A∪C). Ist dann x ∈ A so ist auch x ∈ A∪(B ∩C) und wir sind bereits fertig. Andernfalls ist x ∈ / A. Wegen x ∈ A ∪ B ist dann x ∈ B und wegen x ∈ A ∪ C ebenso x ∈ C, es gilt also x ∈ B ∩ C und wir haben wieder x ∈ A ∪ (B ∩ C). Damit haben wir in beiden Fällen x ∈ A ∪ (B ∩ C) und die Inklusion ist bewiesen. (b) Wir beginnen mit der ersten Regel und zeigen wie in (a) beide Inklusionen A\(B ∪ C) ⊆ (A\B) ∩ (A\C) und (A\B) ∪ (A\C) ⊆ A\(B ∪ C). ”⊆” Sei also x ∈ A\(B ∪ C), d.h. x ∈ A und x ∈ / B ∪ C. Wegen x ∈ / B ∪ C sind dann x ∈ / B und x ∈ / C, also ist x ∈ A\B sowie x ∈ A\C und es gilt folglich x ∈ (A\B) ∩ (A\C). ”⊇” Jetzt sei umgekehrt x ∈ (A\B) ∩ (A\C). Dann ist x ∈ A\B und x ∈ A\C also x ∈ A und x ∈ / B, x ∈ / C, d.h. x ∈ / B ∪ C und somit x ∈ A\(B ∪ C). Dies zeigt (A\B) ∩ (A\C) ⊆ A\(B ∪ C). Erneut nach (F12) ist damit die erste deMorgansche Regel bewiesen. Schließlich kommen wir zur zweiten Regel und erneut werden wir A\(B ∩ C) ⊆ (A\B) ∪ (A\C) und (A\B) ∪ (A\C) ⊆ A\(B ∩ C) zeigen. ”⊆” Sei x ∈ A\(B ∩ C) also x ∈ A aber x ∈ / B ∩ C. Letzteres bedeutet x ∈ / B oder x∈ / C also haben wir x ∈ A\B oder x ∈ A\C und folglich x ∈ (A\B) ∪ (A\C). Dies zeigt A\(B ∩ C) ⊆ (A\B) ∪ (A\C). ”⊇” Schließlich sei x ∈ (A\B) ∪ (A\C). Dann treten zwei verschiedene Fälle auf. Im ersten Fall ist x ∈ A\B, also x ∈ A und x ∈ / B und insbesondere x ∈ / B ∩ C, d.h. x ∈ A\(B ∩ C). Andernfalls ist x ∈ A\C und x ∈ A\(B ∩ C) folgt analog mit 20 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 vertauschten Rollen von B und C. Damit haben wir auch (A\B) ∪ (A\C) ⊆ A\(B ∩ C) gezeigt. Eine letzte Anwendung von (F12) liefert auch die zweite deMorgansche Regel. Der Beweis läßt sich durchaus ökonomischer und etwas kürzer gestalten, hier geht es uns um die Demonstration der auf (F12) beruhenden Standardtechnik“ zum Be” weis von Mengengleichheiten die daher stur immer wieder verwendet wurde. Da dies die erste Aussage ist die wir hervorheben und als Lemma bezeichnen, wollen wir an dieser Stelle noch kurz auf die hier verwendete Terminologie eingehen. Die Aussagen der Mathematik werden als sogenannte Sätze“ formuliert und in einem aufgeschriebe” nen Text werden sie dann oftmals numeriert und in irgendeiner Form hervorgehoben dargestellt. Dabei ist der Name Satz“ hier ein Oberbegriff, je nach Bedeutung der Aus” sage werden verschiedene Namen verwendet. In der Literatur finden Sie die folgenden Bezeichnungen: Satz Aussage mit einer mitteilenswerten, eigenständigen Bedeutung. Hauptsatz Ein besonders wichtiger Satz. Theorem Je nach Autor entweder ein Synonym für Satz“ oder für Hauptsatz“. ” ” Lemma Wie ein Satz aber mit Bedeutung hauptsächlich innerhalb der Theorie. Proposition Je nach Autor entweder ein Synonym für Satz“ oder für Lemma“. ” ” Hilfssatz Ein sehr spezifisches Lemma das nur für den Beweis einer oder sehr weniger anderer Aussagen gedacht ist. Korollar Eine unmittelbare Folgerung aus einem Satz oder Lemma, oftmals ein besonders hervorgehobener Spezialfall. Wir werden die Namen Satz“, Lemma“ und Korollar“ verwenden. Einfache Aus” ” ” sagen werden oftmals nicht extra als Satz formuliert sondern nur im laufenden Text erwähnt und später ohne weiteren Verweis verwendet, dies trifft beispielsweise auf all unsere Feststellungen (F1) und so weiter zu. Besonders selbstverständliche Aussagen werden sogar nirgends festgehalten, beispielsweise werden wir so etwas wie A ∪ B = B ∪ A für Mengen A, B verwenden auch ohne es irgendwo explizit zu benennen. Wir führen jetzt eine weitere Schreibweise für mathematische Aussagen ein. Diese haben sehr oft die Form Für alle Elemente x eine gegebenen Menge M gilt eine ” Aussage A(x)“, eine sogenannte Allaussage, oder Es gibt ein Element x der Menge M ” für das A(x) gilt“, eine sogenannte Existenzaussage. Man schreibt ∀(x ∈ M ) : A(x) für Für alle x ∈ M gilt A(x)“. ” Das Symbol ∀“ ist ein sogenannter Allquantor. Entsprechend schreibt sich eine Exi” stenzaussage als ∃(x ∈ M ) : A(x) für Es existiert ein x ∈ M mit A(x)“, ” 21 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 und hier nennt man ∃“ einen Existenzquantor. Beispielsweise übersetzt sich die Aus” sage Für jede reelle Zahl x existiert eine natürliche Zahl n, die echt größer als x ist“ ” als Formel in ∀(x ∈ R)∃(n ∈ N) : n > x. Ein solcher Ausdruck mit mehreren Quantoren ist dabei immer von links nach rechts zu lesen, ein Ändern der Quantorenreihenfolge ändert auch die Bedeutung der Aussage. Beispielsweise bedeutet ∃(n ∈ N)∀(x ∈ R) : n > x, dass es eine natürliche Zahl n gibt, die echt größer als überhaupt alle reellen Zahlen ist, was natürlich falsch ist. Quantoren desselben Typs kann man vertauschen, und daher werden sie meist in zusammengefasster Form notiert, man schreibt beispielsweise ∀(x, y ∈ R) : y > x > 0 ⇒ y 2 > x2 für ∀(x ∈ R)∀(y ∈ R) : y > x > 0 ⇒ y 2 > x2 . Wir haben jetzt Allaussagen ∀(x ∈ M ) : A(x) und Existenzaussagen ∃(x ∈ M ) : A(x) eingeführt. Diese scheinen sich zwar formal recht ähnlich zu sein, inhaltlich unterscheiden sie sich jedoch grundlegend voneinander. Um eine Allaussage ∀(x ∈ M ) : A(x) zu beweisen, muss man sich ein beliebiges Element x ∈ M der zugrundeliegenden Menge M vorgeben und für jedes solche die Aussage A(x) beweisen. Es reicht nicht dies für einzelne x ∈ M zu tun. Als ein Beispiel nehmen wir einmal M = N\{0, 1} = {2, 3, 4, . . .} und A(n) = ggT(n5 − 5, (n + 1)5 − 5) = 1 letzteres für jedes n ∈ N. Probieren wir etwa n = 2 so sind n5 −5 = 27 und (n+1)5 −5 = 238 und wir haben ggT(n5 − 5, (n + 1)5 − 5) = 1. Verwenden wir dann einen Computer, so kann man leicht etwa alle Werte 2 ≤ n ≤ 1000000 durchprobieren und die beiden Zahlen n5 − 5 und (n + 1)5 − 5 stellen sich immer als teilerfremd heraus. Als ein Beweis der Aussage ∀(n ∈ M ) : A(n) reicht das aber nicht aus, selbst eine so große Zahl von Beispielen hat keine Beweiskraft. Andererseits reicht ein einzelnes Gegenbeispiel aus die Allaussage zu widerlegen, und nehmen wir etwa n = 1435390, so ist ggT(n5 − 5, (n + 1)5 − 5) = 1968751 > 1. Ganz anders sieht dies bei einer Existenzaussage aus. Um eine Aussage ∃(x ∈ M ) : A(x) zu beweisen, muss man nur ein einziges x ∈ M finden für welches die Aussage A(x) gilt. Idealerweise geschieht dies durch möglichst direkte Angabe solch eines x, aber dies ist nicht zwingend verlangt, es gibt Beispiele bei denen man die Existenz eines x einsehen kann, ohne die geringste Idee zu haben wie man ein solches x konkret beschaffen kann. Von Bedeutung sind oftmals auch die Verneinungen von All- und Existenzaussagen. Überlegen wir uns zunächst wann eine Allaussage ∀(x ∈ M ) : A(x) falsch ist. Wie im obigen Beispiel reicht hierfür ein einzelnes x ∈ M aus so, dass A(x) falsch ist. In anderen Worten ist die Verneinung einer Allaussage eine Existenzaussage, nämlich ¬∀(x ∈ M ) : A(x) = ∃(x ∈ M ) : ¬A(x). 22 Mathematik für Physiker I, WS 2016/2017 Montag 31.10.2016 Entsprechend ist eine Existenzaussage ∃(x ∈ M ) : A(x) falsch, wenn wir eben kein Element x von M finden können für das A(x) wahr ist, d.h. wenn die Verneinung ¬A(x) für jedes Element x von M wahr ist. Die Verneinung einer Existenzaussage wird damit eine Allaussage ¬∃(x ∈ M ) : A(x) = ∀(x ∈ M ) : ¬A(x). Bei Verneinung drehen sich also All- und Existenzquantoren um, d.h. Allquantoren werden zu Existenzquantoren und Existenzquantoren werden zu Allquantoren. Sind beispielsweise M, N zwei Mengen und A(x, y) eine Aussage über Elemente x ∈ M und y ∈ N , so wird ¬∀(x ∈ M )∃(y ∈ N ) : A(x, y) = ∃(x ∈ M ) : ¬∃(y ∈ N ) : A(x, y) = ∃(x ∈ M )∀(y ∈ N ) : ¬A(x, y). Entsprechend kann man in allen solchen Fällen vorgehen, zum Verneinen werden alle Quantoren umgedreht und die innere Aussage verneint. 1.3 Die Anordnung der reellen Zahlen Nachdem wir im vorigen Abschnitt alle zunächst für uns relevanten Grundlagen behandelt haben, wollen wir nun unsere im ersten Abschnitt begonnene Diskussion der reellen Zahlen fortsetzen. Wir haben bereits die neun arithmetischen Axiome kennengelernt die das Verhalten der Grundrechenarten kontrollieren. Jetzt kommen wir zur nächsten Gruppe von Axiomen für die reellen Zahlen, diese beschäftigen sich nicht mehr nur mit Addition und Multiplikation sondern auch mit der Kleiner-Gleich Beziehung zwischen reellen Zahlen. Neben der Addition und der Multiplikation sei auf den reellen Zahlen noch eine Anordnung gegeben, d.h. für je zwei reelle Zahlen x, y ist festgelegt ob x ≤ y gilt oder nicht. Diese Anordnung ist für uns ein Grundbegriff, der die folgenden Axiome erfüllen soll: Die Ordnungsaxiome: (R) Das Reflexivitätsgesetz: Für jedes x ∈ R ist x ≤ x. (T) Das Transitivitätsgesetz: Für alle x, y, z ∈ R gilt x ≤ y ∧ y ≤ z =⇒ x ≤ z. (A) Die Antisymmetrie: Für alle x, y ∈ R gilt x ≤ y ∧ y ≤ x =⇒ x = y. (L) Die Ordnung ist total oder linear, d.h. für alle x, y ∈ R ist stets x ≤ y oder y ≤ x. 23 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 Erst einmal wollen wir eine kleine Anmerkung zu den vier Anordnungsaxiomen machen. Das Reflexivitätsgesetz (R) gilt nicht automatisch nur weil wir von der Kleiner-Gleich ” Relation“ sprechen, dies ist nur ein Name, dass tatsächlich Gleichheit auch KleinerGleich impliziert muss explizit festgehalten werden, auch wenn die Namensgebung andernfalls natürlich recht unglücklich wäre. Allerdings ist (R) tatsächlich redundant und könnte weggelassen werden, denn die Linearität (L) ergibt insbesondere x ≤ x oder x ≤ x, also x ≤ x, für jedes x ∈ R. Trotzdem wollen wir (R) mit als Axiom aufführen, dies kommt da oftmals auch Anordnungen“ betrachtet werden die nur (R), (T) und ” (A) erfüllen und aus (T) und (A) läßt sich (R) nicht herleiten. Vorlesung 4, Freitag 4.11.2016 Am Ende der letzten Sitzung hatten vier die vier Axiome für die Anordnung der reellen Zahlen aufgelistet, diese waren (R) (A) (T) (L) ∀(x ∈ R) : x ≤ x ∀(x, y ∈ R) : x ≤ y ∧ y ≤ x ⇒ x = y ∀(x, y, z ∈ R) : x ≤ y ∧ y ≤ z ⇒ x ≤ z ∀(x, y ∈ R) : x ≤ y ∨ y ≤ x. Die Transitivitätseigenschaft (T) wird dabei oft in der folgenden Form verwendet: Ist a = x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn = b eine Kette von Ungleichungen, so ist auch a ≤ b. Die Symbole x1 , x2 , . . .“ und so ” weiter sind dabei als reelle Variable gedacht, da es sich um eine unbestimmte Anzahl n solcher handelt kann man diese schlecht c, d, e, f, . . . nennen und numeriert sie anstelle dessen einfach durch. Dass obige Kettenaussage gilt ist leicht zu sehen. Zunächst haben wir a ≤ x1 und x1 ≤ x2 , also liefert die Transitivität (T) auch a ≤ x2 . Da x2 ≤ x3 gilt liefert eine weitere Anwendung von (T) dann a ≤ x3 . So fortfahrend erhalten wir schließlich a ≤ xn und dann a ≤ b. Eine weitere wichtige Folgerung aus (T) und der Antisymmetrie (A) ist die folgende Aussage: Haben wir eine Kette von Ungleichungen a = x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn = a, die bei einer reellen Zahl a ∈ R startet und endet, so sind überhaupt alle Elemente der Kette gleich a, d.h. es ist x1 = · · · = xn = a. In der Tat, ist 1 ≤ i ≤ n gegeben, so folgen aus a = x1 ≤ · · · ≤ xi und xi ≤ xi+1 ≤ · · · ≤ xn = a mit der obigen Transitivitätsaussage auch a ≤ xi und xi ≤ a, d.h. wir haben xi = a. Neben der Kleiner-Gleich Relation definiert man die Echt-Kleiner Relation für x, y ∈ R durch x < y :⇐⇒ x ≤ y ∧ x 6= y. 24 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 Mit den vier Anordnungsaxiomen ergeben sich dann schnell entsprechende Aussagen für Echt-Kleiner. Zunächst haben wir das sogenannte Trichotomieprinzip, dieses besagt das für x, y ∈ R stets genau eine der drei Möglichkeiten x < y, y < x oder x = y gilt. Dies folgt sofort aus den beiden Anordnungsaxiomen (A) und (L). Weiter hat man auch eine erweiterte Transitivitätseigenschaft, die besagt das für alle x, y, z ∈ R mit x < y ≤ z oder x ≤ y < z stets auch x < z gilt. In der Tat, nach dem Transitivitätsaxiom (T) ist zumindest x ≤ z und wäre x = z, so hätten wir x = y = z im Widerspruch zu x 6= y oder y 6= z. Hieraus folgt weiter das im Fall einer Ungleichungskette a = x1 ≤ · · · ≤ xi < xi+1 ≤ xi+2 ≤ · · · ≤ xn = b in der mindestens ein Echt-Kleiner vorkommt, letztlich stets auch a < b gilt. Schließlich kann man für x, y ∈ R dann auch noch die umgedrehten Ordnungssymbole einführen, also x ≥ y :⇐⇒ y ≤ x und x > y :⇐⇒ y < x. Die Anordnung kann man dann zur Definition der sogenannten beschränkten Intervalle verwenden: Definition 1.4 (Beschränkte Intervalle) Seien a, b ∈ R. Dann heißt die Menge [a, b] (a, b) [a, b) (a, b] := := := := {x ∈ R|a ≤ x ≤ b} {x ∈ R|a < x < b} {x ∈ R|a ≤ x < b} {x ∈ R|a < x ≤ b} ein ein ein ein beschränktes, beschränktes, beschränktes, beschränktes, abgeschlossenes Intervall, offenes Intervall, rechts halboffenes Intervall, links halboffenes Intervall. Später in diesem Kapitel werden wir auch noch die unbeschränkten Intervalle definieren. Beachte das wir formal auch zulassen das linke und rechte Grenze falsch herum sind, dann ist das entsprechende Intervall die leere Menge, zum Beispiel [2, 1] = ∅ oder (1, 1) = ∅. Weiter ist für jedes a ∈ R auch [a, a] = {a}. In der Literatur finden sie gelegentlich auch alternative Schreibweisen für die offenen beziehungsweise halboffenen Intervalle, die Übersetzungstabelle ist Standardschreibweise Alternative Schreibweise (a, b) ]a, b[ [a, b) [a, b[ (a, b] ]a, b] ob der Randpunkt zum Intervall gehören soll oder nicht wird also durch eine sich richtig herum schließende eckige Klammer beziehungsweise durch eine sich falsch herum schließende eckige Klammer angedeutet. So weit haben wir nur die Anordnungsaxiome verwendet. In den reellen Zahlen sind die arithmetische Struktur, also Plus und Mal, und die Anordnungsstruktur natürlich 25 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 nicht unabhängig voneinander, sondern es gibt viele Rechenregeln die den Zusammenhang zwischen den beiden beschreiben. Zum Beispiel ist genau dann x ≤ y wenn −y ≤ −x ist, das Produkt negativer Zahlen ist positiv, und vieles mehr. Genau wie bei den Rechenregeln für die Grundrechenarten, lassen sich all diese vielen Regeln auf einige wenige Axiome zurückführen. Diese Axiome sind die sogenannten Axiome eines angeordneten Körpers, sie umfassen zum einen die neun Körperaxiome dann die vier Anordnungsaxiome und zusätzlich die folgenden beiden neuen Axiome: Axiome eines angeordneten Körpers: (O1) Für alle x, y, z ∈ R gilt y ≤ z =⇒ x + y ≤ x + z. (O2) Für alle x, y, z ∈ R gilt x ≥ 0 ∧ y ≤ z =⇒ xy ≤ xz. Wir definieren hier dabei nicht was ein angeordneter Körper“ ist, für uns ist die Be” zeichnung Axiome eines angeordneten Körpers“ nur ein Name für die angegebene ” Gruppe von Axiomen, genauso wie die Körperaxiome“ ein Name für die Gruppe der ” neun arithmetischen Axiome ist. Aus den Axiomen eines angeordneten Körpers folgen alle üblichen Regeln für den Umgang mit der Kleiner-Gleich Relation. Wie für die arithmetischen Regeln im letzten Abschnitt wollen wir dies nicht systematisch für alle denkbaren Regeln vorführen, sondern es nur examplarisch an einigen Beispielen demonstrieren. 1. Sind x, y, x0 , y 0 ∈ R mit x ≤ x0 und y ≤ y 0 , so ist auch x + y ≤ x0 + y 0 . Dies ergibt sich durch zweimaliges Anwendung des Axioms (O1) x + y ≤ x + y 0 = y 0 + x ≤ y 0 + x0 = x0 + y 0 , und anschließende Anwendung der Transitivität (T). Außerdem ist hier natürlich noch die Kommutativität der Addition, also das Axiom (A2), verwendet worden, aber die benutzten Körperaxiome wollen wir jetzt nicht mehr einzeln auflisten. 2. Sind x, y, z ∈ R mit y < z, so ist auch x + y < x + z. Denn nach Axiom (O1) ist zumindest x + y ≤ x + z und wegen y 6= z ist auch x + y 6= x + z, also x + y < x + z. Analog zum Beweis der obigen Aussage folgt weiter, dass für alle x, y, x0 , y 0 ∈ R mit x < x0 und y ≤ y 0 beziehungsweise x ≤ x0 und y < y 0 stets auch x + y < x0 + y 0 gilt. 3. Sind x, y ∈ R mit x ≤ y, so ist −y ≤ −x. Dies ergibt sich direkt aus Axiom (O1). Addieren wir beide Seiten von x ≤ y mit −x, so wird 0 = (−x) + x ≤ (−x) + y, 26 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 und addieren wir dann auch noch −y, so ergibt sich −y ≤ (−x) + y + (−y) = −x. Weiter können wir auch auf −y ≤ −x die schon bewiesene Aussage anwenden und erhalten x = −(−x) ≤ −(−y) = y, d.h. wir haben ∀(x, y ∈ R) : x ≤ y ⇐⇒ −y ≤ −x. Ebenso ergibt sich auch ∀(x, y ∈ R) : x < y ⇐⇒ −y < −x. 4. Sind x, y, z ∈ R mit x < y und z > 0, so ist auch xz < yz. Denn nach Axiom (O2) ist zumindest xz ≤ yz und wäre xz = yz, so hätten wir auch (x − y)z = 0 also x = y oder z = 0 im Widerspruch zu x 6= y und z 6= 0. 5. Sind x, y, z ∈ R mit x ≤ y und z ≤ 0, so ist yz ≤ xz. Denn zunächst ist nach Schritt (3) auch −z ≥ 0 und Axiom (O2) ergibt −xz ≤ −yz, also yz ≤ xz wieder nach (3). Ebenso folgt aus x < y und z < 0 dann auch yz < xz. 6. Für jedes x ∈ R ist x2 ≥ 0. Denn ist x ≥ 0, so folgt mit Axiom (O2) sofort x2 = x · x ≥ 0 · x = 0 und ist x ≤ 0, so ergibt (5) auch x2 = x · x ≥ 0 · x = 0. Insbesondere ist somit 1 = 12 > 0 und mit (3) auch −1 < 0. Das soll an Beispielen für derartige Überlegungen wieder reichen. Wir führen in diesem Abschnitt noch einen letzten wichtigen Begriff ein, den sogenannten Betrag einer reellen Zahl. Dieser hat eine rein praktische Funktion, wir möchten eine bequeme Möglichkeit haben davon zu sprechen, dass eine reelle Zahl x klein ist. Wir könnten beispielsweise versuchen die Zahl x klein zu nennen wenn x ≤ 10−4 gilt. Dies erfüllt aber nicht ganz den intendierten Zweck, den es ist ja zum Beispiel auch −400 ≤ 10−4 , aber −400 wollen wir meist nicht als klein betrachten. Wir müssten unsere Bedingung also beispielsweise in x ≤ 10−4 und x ≥ −10−4 umschreiben. Um diese zwei Bedingungen durch eine einzige zu ersetzen, wird nun der erwähnte Betrag der reellen Zahl x eingeführt. Definition 1.5 (Betrag und Vorzeichen reeller Zahlen) Ist x ∈ R eine reelle Zahl, so heissen ( x > 0, 1, x, x ≥ 0, sign(x) := 0, x = 0, das Vorzeichen und |x| := sign(x) · x = −x, x ≤ 0 −1, x < 0 der Betrag von x. 27 Mathematik für Physiker I, WS 2016/2017 Beispielsweise sind |4| = 4, | − 2| = 2 und |0| = 0. Als Funktion von x hat der Betrag die nebenstehende Gestalt. In anderen Worten ist |x| der nichtnegative Wert unter den beiden Zahlen x und −x. In unserem obigen Beispiel können wir die beiden Bedingungen x ≤ 10−4 und x ≥ −10−4 dann durch die eine Bedingung |x| ≤ 10−4 ersetzen, und allgemein ist für jedes a ∈ R mit a ≥ 0 Freitag 4.11.2016 y |x| x [−a, a] = {x ∈ R : |x| ≤ a} und (−a, a) = {x ∈ R : |x| < a}. Entsprechendes gilt auch für nicht bei Null zentrierte Intervalle, sind reelle Zahlen a, ∈ R mit > 0 gegeben, so haben wir {x ∈ R : |x − a| ≤ } = [a − , a + ]. In der Tat, ist x ≥ a, so ist x − a ≥ 0 und |x − a| = x − a, d.h. |x − a| ≤ bedeutet x ≤ a + . Ist dagegen x ≤ a, so haben wir x − a ≤ 0 also |x − a| = −(x − a) = a − x und genau dann ist a − x ≤ wenn − ≤ x − a also x ≥ a − gilt. Dass also die reelle Zahl x um höchstens von der reellen Zahl a abweicht kann damit kurz als |x − a| ≤ notiert werden. Um letztere Bedingung rechnerisch zugänglich zu machen, benötigen wir Rechenregeln für den Betrag und die wichtigsten dieser Regeln werden im folgenden Lemma zusammengestellt. Lemma 1.2 (Grundeigenschaften des reellen Betrags) Für alle x, y, z ∈ R gelten: (a) Es sind sign(−x) = − sign(x), |x| = | − x| ≥ 0 und x2 = |x|2 . (b) Es gilt x ≤ |x|. (c) Es sind sign(xy) = sign(x) · sign(y) und |xy| = |x| · |y|. (d) Es gilt die Dreiecksungleichung |x + y| ≤ |x| + |y|. (e) Es ist |x − y| ≥ |x| − |y|. (f ) Es ist |x| − |y| ≤ |x − y|. Beweis: (a) Nach der dritten Folgerung aus den Axiomen eines angeordneten Körpers ist sign(−x) = − sign(x) und somit auch |−x| = |x|. Im Fall x = 0 ist x2 = 0 = |x|2 und für x 6= 0 haben wir sign(x) ∈ {−1, 1}, also sign(x)2 = 1 und somit |x|2 = sign(x)2 x2 = x2 . (b) Ist x ≥ 0 so ist x = |x| ≤ |x| und im Fall x < 0 ist nach der dritten Folgerung aus den Axiomen eines angeordneten Körpers auch −x > 0 also x < 0 < −x = |x| und somit x < |x|. 28 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 (c) Mit der vierten und der fünften Folgerung aus den Axiomen eines angeordneten Körpers folgt zunächst sign(xy) = sign(x) sign(y) und dies ergibt weiter |xy| = sign(x) sign(y)xy = |x| · |y|. (d) Es sind nach (a,b) x ≤ |x|, y ≤ |y|, −x ≤ | − x| = |x| und −y ≤ | − y| = |y|, also auch x + y ≤ |x| + |y| und − (x + y) = (−x) + (−y) ≤ |x| + |y|, und da |x + y| eine der beiden Zahlen x + y oder −(x + y) ist, folgt |x + y| ≤ |x| + |y|. (e) Mit Teil (d) rechnen wir |x| = |(x − y) + y| ≤ |x − y| + |y|, also |x − y| ≥ |x| − |y|. (f ) Mit Teil (e) haben wir |x| − |y| ≤ |x − y| und (e), (a) zusammen ergeben auch |y| − |x| ≤ |y − x| = | − (x − y)| = |x − y|. Da |x| − |y| aber eine der beiden Zahlen |x| − |y| oder −(|x| − |y|) = |y| − |x| ist, folgt auch |x| − |y| ≤ |x − y|. Warum Aussage (d) hier als Dreiecksungleichung bezeichnet wird, ist an dieser Stelle nicht gut zu sehen. Wir werden dies aber bei der Betrachtung des Betrags einer komplexen Zahl später noch klären. 1.4 Das Vollständigkeitsaxiom In den vorhergehenden Abschnitten haben wir jetzt insgesamt 15 Axiome an die reellen Zahlen zusammengestellt. Aber auch all diese Axiome reichen noch nicht aus die reellen Zahlen vollständig zu beschreiben, es fehlt noch ein weiteres Axiom. Dies ist das sogenannte Vollständigkeitsaxiom, und es bezieht sich ausschließlich auf die Ordnungsstruktur der reellen Zahlen und nicht auf die arithmetische Struktur. Wir benötigen leider noch zwei vorbereitende Definitionen um das Vollständigkeitsaxiom überhaupt aussprechen zu können. Definition 1.6 (Obere und untere Schranken) Sei M ⊆ R eine Teilmenge. (a) Eine reelle Zahl a ∈ R heißt obere Schranke von M wenn x ≤ a für alle x ∈ M gilt. (b) Die Menge M heißt nach oben beschränkt wenn es eine obere Schranke a ∈ R von M gibt. (c) Ein Element a ∈ M heißt maximales Element von M , oder ein Maximum von M , wenn x ≤ a für alle x ∈ M ist, wenn a also eine obere Schranke von M ist. Beachte das es nur ein einziges maximales Element von M geben kann, denn ist b ∈ M ein weiteres so haben wir b ≤ a und a ≤ b, also a = b. Gibt es ein maximales Element a ∈ M von M , so können wir damit max M := a schreiben. 29 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 (d) Eine reelle Zahl a ∈ R heißt untere Schranke von M wenn x ≥ a für alle x ∈ M gilt. (e) Die Menge M heißt nach unten beschränkt wenn es eine untere Schranke a ∈ R von M gibt. (f ) Ein Element a ∈ M heißt minimales Element von M , oder ein Minimum von M wenn x ≥ a für alle x ∈ M ist, wenn a also eine untere Schranke von M ist. Genau wie für maximale Elemente kann es höchstens ein minimales Element a von M geben, und in diesem Fall schreiben wir min M := a. (g) Die Menge M heißt beschränkt, wenn sie nach oben und nach unten beschränkt ist. Die Terminologie dieser Definition wird am klarsten wenn wir uns die reellen Zahlen wie unten gezeigt als eine vertikal hingemalte Linie denken, wobei es unten nach −∞ und oben nach ∞ geht. Eine obere Schranke einer Teilmenge M ⊆ R ist dann tatsächlich eine reelle Zahl, die eben oberhalb von M liegt. Beachte das obere Schranken bei weitem nicht eindeutig festgelegt sind, ist a eine obere Schranke von M , so ist auch jede andere reelle Zahl b ∈ R mit b ≥ a ebenfalls eine obere Schranke von M . Eine nach oben beschränkte Menge muss im allgemeinen kein Maximum besitzen, anschaulich haben wir zwar +∞ immer ein Element unmittelbar oberhalb M“, aber diea (obere Schranke) ” se Zahl gehört eventuell nicht zu M . Beispielsweise sind sup M max[0, 1] = 1 und min[0, 1] = 0 M aber das offene Intervall M = (0, 1) hat weder ein Maximum noch ein Minimum, da eben 0 und 1 hier nicht zu M gehören. Für die Beschränktheit einer Menge M ⊆ R gibt es eine oftmals nützliche Umformulierung in Termen des Betrags reeller Zahlen −∞ M ⊆ R ist beschränkt ⇐⇒ Es gibt c ∈ R mit c ≥ 0 und |x| ≤ c für alle x ∈ M . Gibt es nämlich ein c ∈ R mit c ≥ 0 und |x| ≤ c für alle x ∈ M , so ist auch −c ≤ x ≤ c für alle x ∈ M , d.h. −c ist eine untere und c ist eine obere Schranke von M . Damit ist M nach oben und unten beschränkt, also insgesamt beschränkt. Nun sei M umgekehrt beschränkt. Dann gibt es sowohl eine untere Schranke a von M als auch eine obere Schranke b von M , und wir setzen c := max{|a|, |b|} ≥ 0. Für jedes x ∈ M haben wir dann x ≤ b ≤ |b| ≤ c und x ≥ a, also auch −x ≤ −a ≤ |a| ≤ c, und da |x| eine der beiden Zahlen x oder −x ist bedeutet dies |x| ≤ c. Wie schon bemerkt muss eine nach oben beschränkte Menge keinesfalls ein Maximum haben. Aber selbst wenn eine nach oben beschränkte Menge M ⊆ R kein 30 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 Maximum besitzt, so gibt es trotzdem ein Zahl gerade oberhalb von M“, diese ist so” zusagen die bestmögliche obere Schranke von M . Explizit gesagt handelt es sich gerade um die kleinstmögliche obere Schranke von M , und diese wird auch als das Supremum der Menge M bezeichnet. Definition 1.7 (Supremum und Infimum) Sei M ⊆ R eine Teilmenge. Dann heißt eine reelle Zahl a ∈ R ein Supremum von M wenn a eine kleinste obere Schranke von M ist, d.h. a ist eine obere Schranke von M und für jede andere obere Schranke b ∈ R von M gilt stets a ≤ b. Analog heißt eine reelle Zahl a ∈ R ein Infimum von M wenn a eine größte untere Schranke von M ist, d.h. a ist eine untere Schranke von M und für jede andere untere Schranke b ∈ R von M gilt stets b ≤ a. In dieser Definition reden wir noch vorsichtig von einem Supremum einer Menge M ⊆ R, da es zunächst ja auch mehrere Suprema geben könnte. Dies ist aber nicht der Fall, es kann höchstens ein Supremum von M geben. Seien nämlich a, b ∈ R zwei Suprema der Menge M ⊆ R. Dann ist b eine obere Schranke von M und da a andererseits eine kleinste obere Schranke von M ist, folgt a ≤ b. Ebenso ist auch b ≤ a und wir haben insgesamt a = b. Analog kann es auch höchstens ein Infimum einer Menge M ⊆ R geben. Da Supremum und Infimum somit eindeutig festgelegt sind, können wir sie auch mit einem Symbol bezeichnen. Man schreibt für M ⊆ R sup M := Das Supremum von M , inf M := Das Infimum von M , natürlich nur falls das fragliche Supremum oder Infimum existiert. Wir hatten das Supremum einer Menge M ⊆ R als die kleinste obere Schranke von M definiert, sofern eine solche überhaupt existiert. Dieser Begriff ist mit dem Begriff des Maximums der Menge M verwandt, aber er ist nicht dasselbe. Wir wollen uns den Zusammenhang der beiden Begriffe kurz einmal klar machen. Zunächst nehme an, dass M ein Maximum a = max M besitzt. Dann ist a insbesondere eine obere Schranke von M und ist b ∈ R eine beliebige obere Schranke von M , so gilt wegen a ∈ M auch a ≤ b. Damit ist a die kleinste obere Schranke von M , d.h. das Supremum von M . Gibt es also ein Maxiumum von M , so ist dieses auch gleich dem Supremum. Umgekehrt muss ein Supremum aber kein Maximum sein, ist zum Beispiel M = (0, 1), so ist sup M = 1 aber wegen 1 ∈ / M ist 1 kein Maximum von M . Haben wir allerdings eine Menge M ⊆ R mit a = sup M ∈ M , so ist a ∈ M insbesondere eine in M liegende obere Schranke von M , also ein Maximum von M . Entsprechendes gilt dann auch für das Minimum und das Infimum einer Menge M ⊆ R. Zusammenfassend 31 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 haben wir für M ⊆ R also die folgenden Implikationen: a = max M a = sup M ∧ a ∈ M a = min M a = inf M ∧ a ∈ M =⇒ =⇒ =⇒ =⇒ a = sup M, a = max M, a = inf M, a = min M. Sei M ⊆ R gegeben. Gibt es dann ein Supremum a ∈ R von M , so ist a insbesondere eine obere Schranke von M , d.h. M ist nach oben beschränkt. Ist b ∈ R eine reelle Zahl mit b < a, so kann b keine obere Schranke von M mehr sein, da sonst ja a ≤ b gelten müsste, und dies bedeutet das es ein x ∈ M mit x > b gibt. Insbesondere muss M 6= ∅ sein. Diese Beobachtung können wir jetzt zu einer äquivalenten Definition des Supremums umformulieren. Lemma 1.3 (Charakterisierung von Supremum und Infimum) Seien M ⊆ R eine Teilmenge und a ∈ R. (a) Genau dann ist a ein Supremum von M wenn a eine obere Schranke von M ist und es für jedes b ∈ R mit b < a stets ein Element x ∈ M mit x > b gibt. (b) Genau dann ist a ein Infimum von M wenn a eine untere Schranke von M ist und es für jedes b ∈ R mit b > a stets ein Element x ∈ M mit b > x gibt. Beweis: (a) ”=⇒” Dies haben wir bereits oben eingesehen. ”⇐=” Keine reelle Zahl b ∈ R mit b < a ist eine obere Schranke von M , und damit muss für jede obere Schranke b von M stets b ≥ a gelten. Damit ist a ein Supremum von M . (b) Analog zu (a). Die Existenz von Supremum oder Infimum kann über die Axiome eines angeordneten Körpers nicht bewiesen werden, und das noch ausstehende Vollständigkeitsaxiom der reellen Zahlen fordert diese Existenz einfach. Vollständigkeitsaxiom (V): Jede nach oben beschränkte, nicht leere Teilmenge ∅ 6= M ⊆ R der reellen Zahlen besitzt ein Supremum. Dieses ist das letzte noch fehlende Axiom für die reellen Zahlen, man sagt auch das R ein vollständig angeordneter Körper ist. Hierdurch sind die reellen Zahlen in gewissen Sinne auch eindeutig festgelegt, aber dies wollen wir hier nicht näher ausführen. Da wir jetzt den vollständigen Satz an Axiomen für die reellen Zahlen zusammen haben, können wir auch noch einmal auf Redundanzen zwischen diesen eingehen. Schon im ersten Abschnitt hatten wir bemerkt, dass die Kommutativität der Addition (A2) nicht gefordert werden muss, sie folgt aus den restlichen acht Körperaxiomen. Weiter hatten 32 Mathematik für Physiker I, WS 2016/2017 Freitag 4.11.2016 wir im vorigen Abschnitt festgestellt das die Reflexivität (R) in der Linearität (L) der Anordnung enthalten ist. Mit dem Vollständigkeitsaxiom (V) kann man jetzt auch das Kommutativgesetz (M2) der Multiplikation streichen, dieses läßt sich auch aus den anderen Axiomen herleiten. Da dies allerdings schon etwas komplizierter ist und für unser Thema keine Rolle spielt, wollen wir dies hier nicht weiter behandeln. Am Vollständigkeitsaxiom fällt auf das hier das Supremum vor dem Infimum ausgezeichnet wird, während wir die beiden bisher als völlig analoge Spiegelbilder zueinander behandelt haben. Diese Auszeichnung des Supremums ist auch nur eine optische Täuschung, die Existenz des Infimums werden wir gleich beweisen. Umgekehrt hätte man genauso gut fordern können, dass jede nicht leere, nach unten beschränkte Menge reeller Zahlen ein Infimum hat, und könnte dann die Existenz des Supremums beweisen. Lemma 1.4 (Existenz des Infimums) Jede nicht leere, nach unten beschränkte Menge ∅ = 6 M ⊆ R reeller Zahlen hat ein Infimum. Beweis: Sei ∅ 6= M ⊆ R nach unten beschränkt, d.h. M hat eine untere Schranke. Dann ist die Menge N := {a ∈ R|a ist eine untere Schranke von M } ⊆ R aller unteren Schranken von M nicht leer N 6= ∅. Ist a ∈ M , so gilt für jedes x ∈ N stets x ≤ a, da x ja eine untere Schranke von M ist, d.h. a ist eine obere Schranke von N . Damit ist jedes Element von M eine obere Schranke von N . Wegen M 6= ∅ gibt es insbesondere überhaupt eine obere Schranke von N , d.h. die Menge N ist nach oben beschränkt. Nach dem Vollständigkeitsaxiom existiert das Supremum a := sup N ∈ R, und wir behaupten das a auch das Infimum von M ist. Ist x ∈ M so ist x eine obere Schranke von N , also a ≤ x. Damit ist a überhaupt eine untere Schranke von M . Ist jetzt b ∈ R eine beliebige untere Schranke von M , so ist b ∈ N und damit auch b ≤ a. Folglich ist a die größte untere Schranke von M , d.h. a = inf M . Wir werden im Laufe des Semesters sehr viele Anwendungen von Supremum und Infimum sehen, tatsächlich handelt es sich bei diesen beiden Begriffen um zwei der mit Abstand wichtigsten technischen Hilfsmittel der gesamten Analysis. Hier wollen wir jetzt nur noch eine allererste kleine Anwendung vorführen, und die sogenannte archimedische Eigenschaft der reellen Zahlen beweisen. Diese besagt im wesentlichen das die natürlichen Zahlen unter den reellen Zahlen beliebig groß werden und um dies zu beweisen benötigt man tatsächlich das Vollständigkeitsaxiom (V), die Axiome eines angeordneten Körpers reichen hierzu nicht aus. Auch der Beweis dieses Lemmas ist hier für uns von besonderem Interesse, er ist das erste Beispiel eines sogenannten Widerspruchsbeweises in dieser Vorlesung. 33 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 Lemma 1.5 (Die archimedische Eigenschaft von R) Sind a, b ∈ R mit a > 0 so existiert eine natürliche Zahl n ∈ N mit na > b. Beweis: Wir beweisen dies per Widerspruchsbeweis. Gäbe es kein solches n ∈ N mit na > b, so wäre na ≤ b für alle n ∈ N, d.h. b ist eine obere Schranke der Menge M := {na|n ∈ N} ⊆ R. Damit ist M nach oben beschränkt und wegen 0 ∈ M ist auch M 6= ∅. Nach dem Vollständigkeitsaxiom existiert das Supremum s := sup M von M . Wegen s − a < s gibt es nach Lemma 3.(a) ein x ∈ M mit x > s − a, und nach Definition von M gibt es weiter ein n ∈ N mit na = x > s − a. Damit ist auch (n + 1)a ∈ M mit (n + 1)a = na + a > s − a + a = s, aber andererseits ist auch (n + 1)a ≤ s da s eine obere Schranke von M ist. Dies ist ein Widerspruch und das Lemma ist bewiesen. Vorlesung 5, Montag 7.11.2016 Am Ende der letzten Sitzung hatten wir die sogenannte archimedische Eigenschaft der reellen Zahlen bewiesen, gegeben waren zwei reelle Zahlen a, b mit a > 0 und wir hatten gezeigt das es eine natürliche Zahl n ∈ N mit n · a > b gibt. Hierzu hatten wir angenommen das es keine solche natürliche Zahl n gibt, dass also n · a ≤ b für jedes n ∈ N gilt, und hatten hieraus einen Widerspruch hergeleitet. Diesen Beweis wollen wir noch etwas kommentieren. Bisher haben wir alle unsere Aussagen direkt“ bewiesen, d.h. wir haben von den Voraussetzungen und unseren ” Axiomen ausgehend eine Kette von Folgerungen hergestellt die mit der behaupteten Aussage endet. Unser Nachweis der archimedischen Eigenschaft ist kein solcher direkter Beweis sondern ein sogenannter Widerspruchsbeweis, oder indirekter Beweis, dies ist ein eigenständiger Beweistyp. Wie wir noch sehen werden gibt es im wesentlichen drei verschiedene Beweismethoden, die erste und am häufigsten verwendete Methode ist der direkte Beweis, die zweite ist der Widerspruchsbeweis und die dritte Methode werden wir etwas später in diesem Kapitel kennenlernen. Kommen wir zum allgemeinen Aufbau eines Widerspruchsbeweises. Nehmen wir an die Aussage A wäre zu zeigen. Bei einem Widerspruchsbeweis nimmt man an das A falsch wäre, dass also die Verneinung ¬A gilt. In dieser hypothetischen Welt in der A nicht gilt beginnen wir dann weitere Aussagen herzuleiten und beweisen etwa eine Aussage B. Andererseits überlegt man sich das auch die Verneinung ¬B von B 34 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 wahr ist. Eine mathematische Aussage ist allerdings immer entweder wahr oder falsch, insbesondere können B und ¬B nicht beide gleichzeitig gelten. Die von der Annahme ¬A erschaffene Welt kann es also gar nicht geben, und daher kann A nicht falsch sein. Wieder da eine mathematische Aussage entweder wahr oder falsch ist, muss dann A wahr sein. In Lemma 5 haben wir die Aussage A = ∃(n ∈ N) : na > b mit ¬A = ∀(n ∈ N) : na ≤ b und aus ¬A leiten wir sowohl B = s ist eine obere Schranke von M“ als auch ¬B = s ” ” ist keine obere Schranke von M her“. Dies ist dann unser Widerspruch und A folgt. Als logische Formel hat ein Widerspruchsbeweis von A die Form (¬A =⇒ B) ∧ (¬A =⇒ ¬B) =⇒ A wobei B eine weitere Aussage ist. Zumeist ist die zu beweisende Aussage selbst eine Implikation, hat also die Form A = C =⇒ D, wenn wir die Behauptung von Lemma 5 etwas ausführlicher schreiben ist diese in Wahrheit ja gleich A = (a, b ∈ R ∧ a > 0) =⇒ (∃(n ∈ N) : na > b) . | | {z } {z } C D Die Verneinung von A wird also zu ¬A = C ∧ (¬D) und im Widerspruchsbeweis werden dann (C ∧ ¬D) =⇒ B und (C ∧ ¬D) =⇒ ¬B gezeigt. Der Beweis des Lemma 5 ist sogar ein Widerspruchsbeweis eines sehr speziellen Typs, es wird die Existenz der natürlichen Zahl n durch einen Widerspruchsbeweis eingesehen. Dass es möglich ist die Existenz von etwas“ durch die Widerlegung der ” Nichtexistenz zu begründen ist keinesfalls selbstverständlich und ist recht spezifisch für die Mathematik. Beispielsweise können Sie in der Physik die Existenz irgendeines neuen Elementarteilchens beim besten Willen nicht dadurch begründen das ihre Theorie andernfalls widersprüchlich wird, bevor man das hypothetische Teilchen nicht irgendwie experimentell ausfindig machen kann ist seine Existenz höchstens eine plausible Hypothese. Allgemein kann man die Existenz realer Objekte niemals durch theoretische Überlegungen wirklich nachweisen. Auch in der Mathematik selbst ist ein solches Vorgehen bis ins letzte Viertel des neunzehnten Jahrhunderts nicht als Beweis akzeptiert worden, die damals verwendete, und bei den Anwendungen der Mathematik in den Naturwissenschaften noch immer verwendete, Interpretation mathematischer Objekte war es sich diese als Idealisierungen“ realer Objekte zu denken, so wie etwa ein ” mathematischer Kreis“ ein idealisierter Kreis ist dessen Rand tatsächlich unendlich ” ” dünn“ ist. Bei einer solchen Sichtweise bedeutet die Existenz eines mathematischen Objekts immer auch die Existenz irgendwelcher realen Dinge und ist damit eigentlich keiner Argumentation über Widerspruchsargumente zugänglich. Die Vorstellung das mathematische Objekte Idealisierungen wirklicher Gegenstände sind wurde in der Mathematik Ende des neunzehnten Jahrhunderts aufgegeben, beziehungsweise in die Modellierung verbandt, wir hatten schon einmal erwähnt das die Mathematik im eigentlichen Sinne nicht von der Realität handelt. Die Anwendung der 35 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 Mathematik auf wirkliche Dinge denkt man sich dann als eine Art Übersetzungsprozess, bei dem die zu untersuchenden realen Objekte durch mathematische Objekte beschrieben werden, einen Vorgang den man dann als Modellierung“ bezeichnet. Dies ” hat zur Folge das das Wort Existenz“ in der Mathematik sehr viel freier verwendet ” werden kann als irgendwo sonst, etwa übertrieben folgt man dem magischen Prinzip, wenn man etwas“ einen Namen geben kann dann existiert es. Insbesondere wird beim ” Nachweis der Existenz mathematischer Objekte nicht verlangt das man das existierende Gebilde in irgendeiner Weise konkret angeben können muss oder eine Methode hat es zu berechnen. Daher ist es auch möglich die Existenz von etwas durch einen Widerspruchsbeweis zu begründen. Als ein zweites und etwas typischeres Beispiel eines indirekten Beweis wollen wir die Irrationalität der Wurzel aus Zwei beweisen. Da wir noch keine Wurzeln eingeführt haben formulieren wir dies als die Behauptung das x2 6= 2 für jedes x ∈ Q gilt. Wenn wir dies über einen Widerspruchsbeweis einsehen wollen, nehmen wir an das es eine rationale Zahl x ∈ Q gibt x2 = 2 gibt. Durch eventuellen Übergang zu −x können wir weiter x > 0 annehmen und dann gibt es natürliche Zahlen p, q ∈ N\{0} mit x = p/q. Durch Auskürzen können wir weiter erreichen das p und q teilerfremd sind. Wegen 2 p p2 2 2=x = = 2 folgt p2 = 2q 2 q q also ist p2 gerade und da das Quadrat einer ungeraden Zahl ungerade ist, muss auch p gerade sein. Damit ist auch r := p/2 ∈ N eine natürliche Zahl mit p = 2r. Hieraus folgt 2q 2 = p2 = (2r)2 = 4r2 also q 2 = 2r2 und wie eben folgt das auch q gerade. Damit haben p und q den gemeinsamen Teiler 2, sind also nicht teilerfremd und wir haben einem Widerspruch erhaltem. Dies ist erst einmal genug zu grundsätzlichen Dingen und wir kommen wieder zum Begriff von Supremum und Infimum zurück. Manchmal ist es bequem für überhaupt jede Teilmenge M ⊆ R Supremum und Infimum bilden zu können, unabhängig davon ob sie nach oben beschränkt ist oder nicht. Hierzu gehen wir zu den sogenannten erweiterten reellen Zahlen R := R ∪ {−∞, ∞} über, indem zwei neue Elemente ±∞ zu R hinzugefügt werden. Wir setzen die Ordnung von R durch −∞ < x < ∞ für alle x ∈ R fort, also insbesondere −∞ < ∞. Addition und Multiplikation sind auf R nicht vollständig definiert, man setzt nur ∞ + ∞ = x + ∞ = ∞ + x := ∞ und (−∞) + (−∞) = (−∞) + x = x + (−∞) := −∞ für alle x ∈ R und (∞) · (∞) = (−∞) · (−∞) := ∞, (∞) · (−∞) = (−∞) · (∞) := −∞ 36 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 sowie ( ( ∞, x > 0, −∞, x > 0 x · ∞ = ∞ · x := x · (−∞) = (−∞) · x := −∞, x < 0, ∞, x<0 für alle x ∈ R\{0}. Andere Summen oder Produkte werden nicht definiert. Ist dann M ⊆ R eine beliebige Teilmenge, so existieren in R sowohl Supremum als auch Infimum. Ist nämlich M 6= ∅ und nach oben beschränkt, so gibt es sup M ∈ R nach dem Vollständigkeitsaxiom. Ist M nicht nach oben beschränkt, so ist ∞ die einzige obere Schranke von M in R, also auch sup M = ∞. Ist schließlich M = ∅, so ist jedes a ∈ R obere Schranke von M , also sup M = −∞. Insbesondere haben wir sup M ∈ R ⇐⇒ M 6= ∅ ist nach oben beschränkt. Entsprechendes gilt dann fürs Infimum, also insbesondere inf ∅ = ∞ in R. Wenn wir ±∞ als Supremum und Infimum zulassen wollen, so sprechen wir auch davon das Supremum und Infimum in R gebildet werden. Man könnte sogar sup M und inf M für Teilmengen M ⊆ R betrachten, aber in aller Regel sind für uns nur Teilmengen von R von Interesse. Beachte das ±∞ keine reellen Zahlen sind, der Übergang zu den erweiterten reellen Zahlen ist nur ein formaler Trick gelegentlich Fallunterscheidungen zu vermeiden. Ein Beispiel hierzu werden wir in einer Übungsaufgabe sehen. Dort haben wir zwei Mengen M, N ⊆ R und wollen sagen, dass M ∪N genau dann nach oben beschränkt ist, wenn M und N beide nach oben beschränkt sind und das in diesem Fall sup(M ∪ N ) = max{sup M, sup N } gilt. Interpretieren wir dies in R, so können wir uns das Gerede über nach oben beschränkt“ sparen und müssen nur noch die Gleichung sup(M ∪N ) = ” max{sup M, sup N } hinschreiben. Da M ⊆ R genau dann nach oben beschränkt ist, wenn in R die Bedingung sup M 6= ∞ gilt, ist die Aussage über nach oben beschränkte Mengen in der Gleichung für die Suprema enthalten. Auch der Fall das eine oder beide der Mengen leer sind, wird automatisch mit behandelt. 1.5 Potenzen mit rationalen Exponenten Reelle Potenzen xa werden in mehreren Stufen, geordnet nach immer allgemeineren Exponenten a, definiert. In der ersten Stufe werden natürliche Exponenten a = n ∈ N mit n ≥ 1 behandelt, und bei diesen ist für die Basis x jede reelle Zahl zugelassen. Für x ∈ R und n ∈ N mit n ≥ 1 definieren wir die Potenz xn als xn := x . . · x} . | · .{z n mal Nullte Potenzen werden dagegen durch x0 := 1 für alle x ∈ R eingeführt, also insbesondere 00 = 1. Interpretieren wir ein Produkt mit Null Faktoren per Konvention als 1, so 37 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 deckt sich diese Definition mit derjenigen von xn für n ≥ 1. Aus den Körperaxiomen folgen die Potenzrechenregeln, also (xy)n = xn y n , xn · xm = xn+m und (xn )m = xnm jeweils für alle x, y ∈ R, n, m ∈ N. Diese Regeln wollen wir jetzt nicht strikt formal vorführen, sondern uns auf eine etwas informelle Begründung verlassen. Zunächst sind xn · xm = |x · .{z . . · x} · x . . · x} = x . . · x} = xn+m | · .{z | · .{z n mal m mal n + m mal und (xn )m = |xn · .{z . . · xn} = |x · .{z . . · x} = xnm . . · x} · . . . · x . . · x} = x | · .{z | · .{z m mal n mal nm mal {z } | n mal m mal und mit dem Kommutativgesetz der Multiplikation ergibt sich auch xn · y n = |x · .{z . . · x} · y · . . . · y = xy · . . . · xy = (xy)n . | {z } | {z } n mal n mal n mal Man kann nun noch die übliche Formel für die Potenzen von Brüchen herleiten, im Fall y 6= 0 ist zunächst (y −1 )n y n = (y −1 y)n = 1n = 1 = (y n )−1 y n und somit auch (y −1 )n = (y n )−1 , also schließlich n xn x −1 n n −1 n n n −1 = (xy ) = x (y ) = x (y ) = n . y y m) Beachte das x(n 6= (xn )m ist, zum Beispiel ist (23 )4 = 212 = 4096 während 4 2(3 ) = 281 = 2417851639229258349412352 sehr viel größer ist. Im Fall positiver Basen bleiben Ordnungsbeziehungen beim Potenzieren erhalten. Sind x, y ∈ R mit 0 < x < y und n ∈ N mit n ≥ 1, so haben wir auch xn = x . . · x} < y · . . . · y = y n | · .{z | {z } n mal n mal und haben wir x, y ∈ R mit 0 ≤ x ≤ y so folgt analog sogar für jedes n ∈ N das xn ≤ y n ist. Kombinieren wir dies mit den Kontrapositionen dieser Aussagen so ergibt sich auch, dass für alle x, y ∈ R und alle n ∈ N mit x, y > 0, n ≥ 1 genau dann x < y ist wenn xn < y n gilt. Wie sich die Anordnung von Potenzen bezüglich des Exponenten verhält hängt von der Lage der Basis zur Eins ab. Sind n, m ∈ N mit n < m so haben wir für jede reelle Zahl x > 1 xn = |x · .{z . . · x} = x . . · x} · 1| · .{z . . · 1} < x . . · x} · x . . · x} = xm | · .{z | · .{z | · .{z n mal n mal m − n mal 38 n mal m − n mal Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 während sich im Fall 0 < x < 1 analog xn > xm ergibt. Berücksichtigen wir auch noch die Gleichheitsfälle so ist für alle x ∈ R mit x ≥ 1 und alle n, m ∈ N mit n ≤ m stets auch xn ≤ xm während für x ∈ R mit 0 ≤ x ≤ 1 und n, m ∈ N mit n ≤ m die Ungleichung xn ≥ xm gilt. Insgesamt gilt damit für alle x ∈ R und alle n, m ∈ N auch das im Fall x > 1 genau dann xn < xm gilt wenn n < m ist und im Fall 0 < x < 1 ist genau dann xn < xm wenn n > m ist. Als Funktion von x wächst die Potenz xn damit umso schneller je größer n ist, für unsere folgenden Überlegungen benötigen wir diese Aussage allerdings in einer etwas spezifischer quantifizierten Form. Wir wollen uns die sogenannte Bernoullische Ungleichung überlegen, diese besagt das für alle reellen Zahlen x mit x ≥ −1 und alle natürlichen Zahlen n stets (1 + x)n ≥ 1 + nx ist. Für n = 0 und n = 1 ist dies klar, und für n = 2 kann man es leicht einsehen, es ist etwa (1 + x)2 = 1 + 2x + x2 ≥ 1 + 2x da Quadrate niemals negativ sind. Der Fall n = 3 ist schon komplizierter. Gehen wir zunächst einmal wie im Fall n = 2 vor, so haben wir die Rechnung (1 + x)3 = (1 + 2x + x2 ) · (1 + x) = 1 + 3x + 3x2 + x3 = 1 + 3x + x2 (3 + x) ≥ 1 + 3x da x+3 ≥ 2 ist. Man könnte jetzt so fortfahrend argumentieren, allerdings wird in jedem Schritt die Anzahl der überzähligen Summanden“ größer und damit die Abschätzung ” schwerer und zum anderen werden auf diese Weise nur spezielle Werte von n behandelt, die Bernoullische Ungleichung ist aber für beliebige n ∈ N formuliert. Um eine Idee zu kriegen wie ein allgemeines n“ behandelt werden kann, schauen wir uns den Fall ” n = 3 noch einmal auf eine etwas andere Weise an. Wir wissen bereits (1 + x)2 ≥ 1 + 2x und multiplizieren wir diese Ungleichung mit 1 + x ≥ 0, so folgt (1 + x)3 ≥ (1 + x) · (1 + 2x) = 1 + 3x + 2x2 ≥ 1 + 3x. Dies ist zunächst einmal keine nennenswerte Vereinfachung, diese Methode läßt sich jetzt aber wiederholen. Multiplizieren wir das Ergebnis (1 + x)3 ≥ 1 + 3x wieder mit 1 + x ≥ 0 so wird auch (1 + x)4 ≥ (1 + x) · (1 + 3x) = 1 + 4x + 3x2 ≥ 1 + 4x, und wir haben den Fall n = 4 auf einfache Weise behandelt. Die Bernoullische Ungleichung für n = 4 folgt also aus der Bernoullischen Ungleichung für n = 3, und diese folgt wiederum aus derjenigen für n = 2. Dies setzt sich immer so fort, die Bernoullische Ungleichung für n = 4 liefert erneut durch Multiplikation mit 1 + x diejenige für n = 5, daraus folgt die für n = 6, dann für n = 7 und immer so weiter. Eine systematische Auswertung dieser Idee führt jetzt auf die Methode der sogenannten vollständigen ” Induktion“. 39 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 Schreiben wir bei weiterhin fixierten x ≥ −1 A(n) := (1 + x)n ≥ 1 + nx für die Bernoullische Ungleichung für n ∈ N, so können wir unsere Überlegungen auch in der Form A(2) =⇒ A(3) =⇒ A(4) =⇒ A(5) =⇒ A(6) =⇒ A(7) schreiben. Wir behaupten das sich diese Implikationskette immer weiter fortsetzt, dass also ganz allgemein A(n) =⇒ A(n + 1) für jedes n ∈ N mit n ≥ 2 ist. Dies ist im wesentlichen dieselbe Rechnung wie im Fall n = 2. Sei etwa ein n ∈ N mit n ≥ 2 gegeben. Um die Implikation A(n) =⇒ A(n + 1) einzusehen, können wir, wie schon im zweiten Abschnitt festgehalten, die Aussage A(n) als wahr annehmen, es gelte also bereits (1 + x)n ≥ 1 + nx. Multiplizieren wir diese Ungleichung mit 1 + x ≥ 0, so folgt weiter (1 + x)n+1 ≥ (1 + x) · (1 + nx) = 1 + (n + 1)x + nx2 ≥ 1 + (n + 1)x, es gilt also auch A(n + 1) und die Implikation A(n) =⇒ A(n + 1) ist bewiesen. Unsere obige Implikationskette setzt sich also endlos fort A(0) =⇒ A(1) =⇒ A(2) =⇒ A(3) =⇒ A(4) =⇒ A(5) =⇒ · · · , wobei wir diesmal bei A(0) anfangen da die ersten beiden Implikationen sowieso gelten. Unsere Folgerungskette kann also zu jedem n ∈ N verlängert werden und A(n), d.h. die Bernoullische Ungleichung, gilt damit allgemein für n ∈ N. Das Vorgehen im eben durchgeführten Beweis ist streng genommen weder ein direkter noch ein indirekter Beweis, da das kann also zu jedem n ∈ N verlängert werden“ ” zwar plausibel aber kein direkter Beweis ist. Es handelt sich hier um eine sogenannte vollständige Induktion“, diese ist ein eigenständiger Beweistyp, den wir nun auch ” allgemein besprechen wollen. Die vollständige Induktion ist ein Beweisverfahren, um Aussagen über alle natürlichen Zahlen zu beweisen, genauer geht es um Allaussagen der Form ∀(n ∈ N) : A(n), wobei A(n) eine Aussage über natürliche Zahlen n ist, beispielsweise das obige A(n) aus der Bernoulli-Ungleichung. Ein Induktionsbeweis erfolgt in zwei Schritten: 1. Induktionsanfang: Zeige das die Aussage A(0) gilt. 2. Induktionsschritt: Hier ist zu zeigen, dass aus A(n) für n ∈ N auch A(n + 1) folgt, d.h es ist die Allaussage ∀(n ∈ N) : A(n) ⇒ A(n + 1) zu beweisen. Den Induktionsschritt unterteilt man meistens in zwei Teile: (a) Induktionsannahme: Sei n ∈ N mit A(n) gegeben. (b) Induktionsschluß: Zeige, dass auch A(n + 1) gilt. 40 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 Haben wir Induktionsanfang und Induktionsschritt erfolgreich durchgeführt, so besagt das Prinzip der vollständigen Induktion das die Aussage A(n) für jedes n ∈ N wahr ist. Hieraus folgt dann beispielsweise die allgemeine Gültigkeit der Bernoullischen Ungleichung, wir werden diese etwas weiter unten auch noch einmal explizit als ein Lemma festhalten. Ein häufiges Mißverständnis besteht darin zu glauben, dass man beim Induktionsschritt bereits weiss das A(n) wahr ist. Dies ist aber nicht der Fall, alles was gezeigt wird ist die Implikation A(n) ⇒ A(n + 1) und wie immer beim Beweis einer Implikation kann man annehmen das die Voraussetzung der Implikation, also A(n), wahr ist denn andernfalls ist die Implikation sowieso wahr. Überlegen wir uns kurz noch einmal in der allgemeinen Situation warum ein Induktionsbeweis funktioniert. Im Induktionsanfang wird A(0) nachgewiesen und im Induktionsschritt wird weiter A(n) ⇒ A(n + 1) für alle n ∈ N gezeigt. Mit n = 0 wissen wir insbesondere A(0) ⇒ A(0 + 1) = A(1), d.h. A(0) und die Implikation A(0) ⇒ A(1) sind wahr und somit ist auch A(1) wahr. Mit n = 1 haben wir dann auch A(1) ⇒ A(1+1) = A(2) und da wir A(1) bereits eingesehen haben, ist auch A(2) wahr. So fortfahrend sind dann auch A(3), A(4), . . ., und immer so weiter, wahr. Da wir so bei jeder natürlichen Zahl n ∈ N vorbeikommen ist A(n) für jedes n ∈ N wahr. Dies sollte Sie von der Gültigkeit der Methode der vollständigen Induktion überzeugen. Es ist allerdings wieder kein exaktes Argument für diese, da wir das Problem in dem harmlos aussehenden und so weiter“ versteckt haben. Tatsächlich werden viele einfache ” ” Induktionsbeweise“ gar nicht explizit als solche benannt sondern mit Formulierungen wie so fortfahrend“ verschleiert, wir sind beispielsweise im vorigen Abschnitt beim ” Nachweis der Kettenform des Transitivitätsgesetzes der Anordnung auf diese Weise vorgegangen. In den allermeisten Fällen ist der Induktionsanfang eine recht banale Angelegenheit. Trotzdem ist er unverzichtbar, der Induktionsschluß kann auch bei falschen Aussagen funktionieren. Nehmen wir einmal die offensichtlich unsinnige Aussage n > n + 1 als unser A(n). Ist dann n ∈ N mit A(n), also n > n + 1, so folgt durch Addition mit Eins auch n + 1 > (n + 1) + 1, also A(n + 1). Der Induktionsschluß ist hier also problemlos möglich, der Anfang natürlich nicht. Dies ist kein seltenes Phänomen, nehmen Sie einmal an die Aussage A(n) ist für jedes n ∈ N falsch. Da aus Falschem alles folgt, gilt dann A(n) ⇒ A(n + 1) für jedes n ∈ N, der Induktionsschluß funktioniert also immer wenn die Aussage A(n) niemals richtig ist. Es spielt keine Rolle das als Startpunkt der Induktion n = 0 verwendet wird, man kann einen Induktionsbeweis auch bei einem beliebigen n = n0 ∈ N starten. Sehr häufig wird n = 1 als Start verwendet da n = 0 oft ein Sonderfall ist. Als ein vollständiges Beispiel eines Induktionsbeweises, wollen wir jetzt die Bernoulli-Ungleichung, sogar in einer etwas erweiterten Form, explizit formulieren und beweisen. Lemma 1.6 (Die Bernoulli-Ungleichung) Für alle x ∈ R mit x ≥ −1 und alle n ∈ N gilt die Ungleichung (1 + x)n ≥ 1 + nx und genau dann ist (1 + x)n = 1 + nx wenn n ≤ 1 oder x = 0 ist. 41 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 Beweis: Sei x ∈ R mit x ≥ −1. Dann gelten sofort (1 + x)0 = 1 = 1 + 0 · x sowie (1 + x)1 = 1 + 1 · x und im Fall x = 0 ist auch (1 + x)n = 1n = 1 = 1 + n · x für jedes n ∈ N. Wir können daher im Folgenden x 6= 0 annehmen und wollen (1 + x)n > 1 + nx für alle n ∈ N mit n ≥ 2 zeigen. Dies geschieht nun durch vollständige Induktion nach n. Zunächst ist (1 + x)2 = 1 + 2x + x2 > 1 + 2x, unsere Behauptung gilt also im Fall n = 2 und der Induktionsanfang ist durchgeführt. Nun sei ein n ∈ N mit n ≥ 2 und (1 + x)n > 1 + nx gegeben. Wegen 1 + x ≥ 0 folgt dann auch (1 + x)n+1 ≥ (1 + x) · (1 + nx) = 1 + (n + 1)x + nx2 > 1 + (n + 1)x, und unsere Behauptung gilt auch für n + 1. Per vollständiger Induktion ist damit (1 + x)n > 1 + nx für alle n ∈ N mit n ≥ 2. Wir wollen auch noch einen zweiten Induktionsbeweis vorführen und die sogenannte allgemeine binomische Formel herleiten. Dies ist eine Formel für die Potenzen einer Summe, also für (x + y)n mit x, y ∈ R, n ∈ N. Um diese hinzuschreiben benötigen wir allerdings zwei kleine Vorbereitungen, zunächst einmal wollen wir das sogenannte Summenzeichen einführen. Man schreibt beispielsweise für n ∈ N n X k = 1 + 2 + · · · + n. k=1 Das große Sigma ist hier das Pn Summenzeichen und k der sogenannte Summationsindex. Das Summenzeichen k=1 ak wird so interpretiert das k die Werte von 1 bis n durchläuft, für jedes solche k die Zahl ak gebildet wird und alle diese Zahlen aufsummiert werden. Beispielsweise sind 6 X 2 2 2 2 2 k = 3 + 4 + 5 + 6 = 9 + 16 + 25 + 36 = 86 oder k=3 4 X 1 k=1 k = 1+ 1 1 1 25 + + = . 2 3 4 12 Oftmals läßt man den Summationsindex auch über eine kompliziertere Menge laufen, die dann in der Regel unterhalb des Summenzeichens beschrieben wird, beispielsweise X 1≤k≤10 k Primzahl 1 1 1 1 1 247 = + + + = . k 2 3 5 7 210 Der Summationsindex ist eine der in der ersten Sitzung erwähnten formalen Variablen, insbesondere gibt es ihn nur innerhalb der Summe und nicht außerhalb. Bei komplexeren Summen dürfen auch mehrere Summationsindizes gleichzeitig verwendet werden, beispielsweise 1 1 1 1 1 1 1 47 = + + = + + = . i+j 1+2 1+3 2+3 3 4 5 60 1≤i<j≤3 X 42 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 Hier durchlaufen die Summationsindizes i, j die möglichen Werte (i, j) = (1, 2), (1, 3) und (2, 3). Sind a1 , . . . , an , b1 , . . . , bn und c beliebige Zahlen, so gelten offenbar n X (ak + bk ) = n X k=1 ak + n X k=1 n X (cak ) = c · bk und k=1 n X ak . k=1 k=1 Entsprechende Formeln gelten dann natürlich auch für die Summation über kompliziertere Indexbereiche. Analog zum Summenzeichen gibt es auch ein Produktzeichen, hierfür verwendet man ein großes Pi, also beispielsweise 5 Y (2k − 1) = 1 · 3 · 5 · 7 · 9 = 945. k=1 Die beiden obigen Formeln nehmen für das Produktzeichen die Form n Y (ak bk ) = k=1 n Y !m = ak n Y k=1 n Y ak · n Y bk , k=1 am k k=1 k=1 an, wobei n, m ∈ N, a1 , . . . , an , b1 , . . . , bn ∈ R sind. Die Potenzformel gilt dann auch für Potenzen mit rationalen oder reellen Exponenten, sobald diese definiert sind. Genau wie beim Summenzeichen werden auch Produkte über kompliziertere Indexbereiche oder mit mehreren Indizes notiert, etwa Y k = 2 · 3 · 5 · 7 = 210 1≤k≤10 k ist Primzahl oder Y j i = 21 · 31 · 32 = 54. 1≤i<j≤3 Einen Randfall wollen wir noch erwähnen, wenn der Indexbereich einer Summe oder eines Produktes überhaupt keine Elemente enthält, wir also eine leere Summe“ bezie” hungsweise ein leeres Produkt“ haben, so wird die leere Summe per Konvention als 0 ” interpretiert und das leere Produkt ist per Konvention gleich 1. Als zweite Vorbereitung für die allgemeine binomische Formel wollen wir die sogenannten Binomialkoeffizienten einführen. Definition 1.8 (Fakultäten und Binomialkoeffizienten) Sei n ∈ N. Dann heißt die Zahl n Y n! := k = 1 · 2 · ... · n k=1 43 Mathematik für Physiker I, WS 2016/2017 Montag 7.11.2016 die Fakultät von n. Für n = 0 wird dieses leere Produkt wie gerade beschrieben als 0! = 1 interpretiert. Weiter definieren wir für jedes k ∈ N mit 0 ≤ k ≤ n den Binomialkoeffizienten von n über k als n n! n · (n − 1) · . . . · (n − k + 1) := = . k k!(n − k)! k! Man kann die Binomialkoeffizienten bequem über das sogenannte Pascalsche Drei n eck berechnen. Denken wir uns die Binomialkoeffizienten k zu festen n zeilenweise angeordnet 0 0 . & 1 1 0 1 . & . & 2 2 2 0 1 2 & . & . & . 3 3 3 3 0 1 2 3 so ergibt sich der k-te Binomialkoeffizient in Zeile n als die Summe des (k − 1)-ten und des k-ten Binomialkoeffizienten in Zeile n − 1, d.h. als die Summe der links und rechts über ihm stehenden Einträge. Beispielsweise erhalten wir für n = 1, 2, 3, 4, 5, 6 die Werte 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 1 6 15 20 15 6 1 Als Formel geschrieben bedeutet das Pascalsche Dreieck das für alle n, k ∈ N mit 1 ≤ k ≤ n stets n+1 n n = + k k−1 k gilt. Dies läßt sich leicht nachrechnen n n n! n! n! · (k + n + 1 − k) + = + = k−1 k (k − 1)!(n + 1 − k)! k!(n − k)! k!(n + 1 − k)! n! · (n + 1) (n + 1)! n+1 = = = . k!(n + 1 − k)! k!(n + 1 − k)! k 44 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 Vorlesung 6, Freitag 11.11.2016 In der letzten Sitzung hatten wir die Beweismethode der vollständigen Induktion eingeführt und wollen als ein weiteres Beispiel eines Induktionsbeweises nun die sogenannte allgemeine binomische Formel begründen. Lemma 1.7 (Allgemeine binomische Formel) Für alle x, y ∈ R, n ∈ N gilt n (x + y) = n X n k=0 k xk y n−k . Beweis: Seien x, y ∈ R gegeben. Wir beweisen die binomische Formel durch Induktion nach n. Wegen 0 0 0 0 (x + y) = 1 = xy 0 gilt die binomische Formel für n = 0 und der Induktionsanfang ist nachgewiesen. Nun sei ein n ∈ N mit n X n k n−k n (x + y) = x y k k=0 gegeben. Multiplizieren wir diese Gleichung mit x + y, so folgt weiter n+1 (x + y) n X n n X n n+1−k k n X n xn−k y k+1 x y = x y + k k k k=0 k=0 k=0 n n+1 X X n n n+1−k k = x y + xn+1−k y k k k − 1 k=1 k=0 n X n n n+1 =x + + xn+1−k y k + y n+1 k k − 1 k=1 n n+1 X X n + 1 n+1−k k n + 1 n+1−k k n+1 n+1 =x + x y +y = x y , k k k=1 k=0 = (x + y) · k n−k und wir haben den Induktionsschritt durchgeführt. Per vollständiger Induktion ist das Lemma damit bewiesen. 45 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 Beispielsweise sind damit n n X X n n n k n = (1 + 1) = 2 und (−1) = (1 − 1)n = 0, k k k=0 k=0 letzteres für n ≥ 1. Konkret haben wir für einige kleine Werte des Exponenten n die Gleichungen (x + y)2 (x + y)3 (x + y)4 (x + y)5 (x + y)6 = = = = = x2 + 2xy + y 2 , x3 + 3x2 y + 3xy 2 + y 3 , x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4 , x5 + 5x4 y + 10x3 y 2 + 10x2 y 3 + 5xy 4 + y 5 , x6 + 6x5 y + 15x4 y 2 + 20x3 y 3 + 15x2 y 4 + 6xy 5 + y 6 . Wir wollen noch eine erste Anwendung der binomischen Formel vorführen und den Beweis der Bernoullischen Ungleichung im Hauptfall x ≥ 0 vereinfachen. Sind n ∈ N und x ∈ R mit x ≥ 0, so ist auch xk ≥ 0 für jedes k ∈ N und damit folgt sofort n n X X n k n k n (1 + x) = x = 1 + nx + x ≥ 1 + nx. k k k=0 k=2 Andere Abschätzungen für Potenzen von 1 + x kann man jetzt ganz analog durch weitere Anwendungen der binomischen Formel erhalten. Sind beispielsweise n ∈ N und 1 ≤ k ≤ n gegeben, so folgt für jedes x ∈ R mit x ≥ 0 auch n X n l n k n x ≥1+ x . (1 + x) = l k l=0 Hier haben wir einfach alle Terme bis auf zwei in der binomischen Formel weggelassen, was den Ausdruck wegen x ≥ 0 kleiner macht. Damit haben wir die Potenzen mit natürlichzahligen Exponenten behandelt, und als nächsten Schritt definieren wir die Potenzen mit negativen, ganzzahligen Exponenten. Diese kann man aber nur noch für eine von Null verschiedene Basis einführen. Bereits im Axiom (M4) haben wir für 0 6= x ∈ R die Schreibweise x−1 eingeführt, und nach unserer Bruchdefinition ist 1 x−1 = 1 · x−1 = . x Für n ∈ N mit n ≥ 1 und 0 6= x ∈ R setzen wir allgemein n 1 1 −n x := n = , x x für n = 1 ist dies wegen x1 = x weiterhin das multiplikative Inverse von x. Auch für diesen allgemeineren Potenzbegriff gelten dann die Potenzrechenregeln n x xn n n n = n , xn · xm = xn+m und (xn )m = xnm (xy) = x y , y y 46 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 für alle x, y ∈ R\{0}, n, m ∈ Z. All diese Formeln kann man auf die entsprechenden Aussagen für Potenzen mit natürlichen Exponenten zurückführen. In der Vorlesung hatten wir darauf verzichtet dies vorzuführen, hier wollen wir es aber ruhig einmal tun. Seien also x, y ∈ R\{0} gegeben. Wir beginnen mit (xy)n = xn y n und für n ∈ N wissen wir dies bereits. Für jedes n ∈ N mit n ≥ 1 ist weiter (xy)−n = 1 1 1 1 = n n = n · n = x−n y −n , n (xy) x y x y wobei wir hier und im folgenden die in Aufgabe (3) nachgewiesenen Bruchrechenregeln verwenden. Die Formel für Potenzen von Brüchen haben wir im Fall natürlicher Exponenten bereits eingesehen und für negative Exponenten, ist für jedes n ∈ N mit n ≥ 1 zunächst n 1 −1 −n n n −1 −1 −1 −1 n (y ) = = (y −n )−1 = (y ) = y = (y ) y −1 und somit auch −n x x−n = (xy −1 )−n = x−n (y −1 )−n = x−n (y −n )−1 = −n . y y Nun wollen wir die Formel (xn )m = xnm für alle n, m ∈ Z einsehen, welche wir im Fall n, m ∈ N bereits kennen. Die Formel gilt auch stets wenn n = 0 oder m = 0 ist, denn für jedes n ∈ N mit n ≥ 1 ist (x0 )−n = 1−n = 1 = 1 = x0·(−n) und (x−n )0 = 1 = x(−n)·0 . n 1 Bei den verbleibenden drei Fällen haben wir für alle n, m ∈ N mit n, m ≥ 1 auch n m nm 1 1 −n m = x = = x−nm = x(−n)·m , x x 1 1 = nm = x−nm = xn·(−m) , (xn )−m = n m (x ) x n −m −nm nm −m 1 1 x−n = = = (x−1 )−1 = xnm = x(−n)·(−m) , x x und damit ist (xn )m = xnm für überhaupt alle n, m ∈ Z gezeigt. Damit kommen wir zur letzten der vier Formeln, also xn · xm = xn+m , die wir für n, m ∈ N bereits kennen. Für n, m ∈ N mit n, m ≥ 1 haben wir auch n m n+m 1 1 1 −n −m x ·x = = = x−(n+m) = x(−n)+(−m) . x x x Für die beiden gemischten Fälle reicht es xn x−m = xn−m für alle n, m ∈ N mit m ≥ 1 zu zeigen. Im Fall m ≤ n sind n − m ∈ N und xn x−m = xn−m xm (x−1 )m = xn−m (x · x−1 )m = xn−m · 1m = xn−m 47 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 während wir im Fall m > n stets m − n ∈ N und xn x−m = xn (x−1 )m = xn (x−1 )n (x−1 )m−n = (x · x−1 )n x−(m−n) = 1n · xn−m = xn−m haben. Damit haben wir die Potenzrechenregeln auch im Fall ganzzahliger Exponenten nachgewiesen. Eine vernünftige Formel für Potenzen von Summen bei negativen Exponenten gibt es leider nicht. Ordnungsbeziehungen drehen sich bei negativen Exponenten um, für x, y ∈ R mit x, y > 0 haben wir zunächst x < y ⇐⇒ 1 1 < y x und für jedes n ∈ N mit n ≥ 1 folgt weiter n n 1 1 1 1 < ⇐⇒ < , y x y x also haben wir insgesamt ∀(x, y ∈ R, x, y > 0)∀(n ∈ Z, n < 0) : x < y ⇐⇒ y n < xn . Die Anordnungseigenschaften bezüglich des Exponenten gelten dagegen auch für ganzzahlige Exponenten unverändert weiter, d.h. wir haben und ∀(x ∈ R, x > 1)∀(n, m ∈ Z) : xn < xm ⇐⇒ n < m ∀(x ∈ R, 0 < x < 1)∀(n, m ∈ Z) : xn < xm ⇐⇒ n > m. Um dies zu zeigen seien n, m ∈ Z gegeben. Weiter sei x > 1 eine reelle Zahl. Im Fall n, m ∈ N wissen wir bereits das xn < xm gleichwertig zu n < m ist und im Fall n, m < 0 haben wir 0 < x−1 < 1 und damit ebenfalls xn < xm ⇐⇒ (x−1 )−n < (x−1 )−m ⇐⇒ −n > −m ⇐⇒ n < m. In den beiden gemischten Fällen gilt unsere Behauptung ebenfalls, für n < 0 ≤ m haben wir xn = (x−1 )−n < 1 ≤ xm während für m < 0 ≤ n ebenso xn ≥ 1 > (x−1 )−m = xm gilt. Ist schließlich x eine reelle Zahl mit 0 < x < 1 so haben wir x−1 > 1 und somit xn < xm ⇐⇒ (x−1 )−n < (x−1 )−m ⇐⇒ −n < −m ⇐⇒ n > m. Die nächste Ausdehnung des Potenzbegriffs erfolgt auf rationale Exponenten, d.h. wir wollen Potenzen xa für reelles x ∈ R mit x > 0 und rationales a ∈ Q definieren. Dies erfolgt durch Rückgriff auf reelle Wurzeln, aber leider sagen unsere Axiome für die reellen Zahlen nicht direkt das es solche Wurzeln überhaupt gibt. Wie schon bemerkt legen die angegebenen Axiome die reellen Zahlen vollständig fest, wir sollten die Existenz von Wurzeln also beweisen können. Um den Beweis übersichtlich zu halten, wollen wir zunächst einige kleine Vorüberlegungen anstellen. Sind x, y ∈ R mit x < y, so folgt x= x+x x+y y+y < < = y, 2 2 2 48 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 also ist z := (x + y)/2 eine reelle Zahl zwischen x und y, d.h. x < z < y. Weiter behaupten wir das es für je zwei reelle Zahlen x, y ∈ R mit 0 ≤ x < y stets eine reelle Zahl z ∈ R mit z > 1 und xz < y gibt. Für x = 0 ist dies etwa mit z := 2 erfüllt und für x > 0 haben wir y/x > 1, also existiert z ∈ R mit 1 < z < y/x und durch Multiplikation mit x > 0 folgt xz < y. Nun seien n ∈ N mit n ≥ 1 und x, y ∈ R mit x > 0 und xn < y gegeben. Wir behaupten das es dann auch ein z ∈ R mit z > x und z n < y gibt. Zunächst gibt es nämlich eine reelle Zahl u > 1 mit xn u < y. Dann ist u − 1 > 0 also ist u−1 := min ,1 2n − 1 eine reelle Zahl mit 0 < ≤ 1 und 1 + (2n − 1) ≤ u. Wir erhalten die reelle Zahl z := x(1 + ) > x. Wegen ≤ 1 gilt k ≤ für jedes k ∈ N mit k ≥ 1, also liefert die binomische Formel Lemma 7 n n X X n k n n (1 + ) = ≤1+ = 1 + (2n − 1) ≤ u k k k=0 k=1 und somit ist auch z n = xn (1 + )n ≤ xn u < y. Eine analoge Aussage läßt sich auch in die andere Richtung beweisen, sind n ∈ N mit n ≥ 1 und x, y ∈ R mit x > 0 und xn > y > 0, so existiert eine weitere reelle Zahl z ∈ R mit 0 < z < x und z n > y. In der Tat, betrachten wir die positiven Zahlen 1/x, 1/y > 0 mit (1/x)n = 1/xn < 1/y, so gibt es nach der eben bewiesenen Aussage ein z 0 ∈ R mit z 0 > 1/x und z 0 n < 1/y. Damit ist auch z := 1 1 < x mit z > 0 und z n = 0 n > y. 0 z z Nach diesen Vorbereitungen kommen wir zum Beweis der Existenz von Wurzeln reeller Zahlen. Lemma 1.8 (Existenz von Wurzeln) Sei n ∈ N mit n ≥ 1. Dann existiert für jede reelle Zahl a ∈ R mit a ≥ 0 genau eine reelle Zahl s ∈ R mit s ≥ 0 und sn = a. Beweis: Da für x, y ∈ R mit 0 ≤ x < y stets xn < y n also insbesondere xn 6= y n gilt, ist die Eindeutigkeit der Wurzel s klar. Es ist also nur noch die Existenz zu beweisen. Wir betrachten zunächst den Fall a ≥ 1 und setzen M := {x ∈ R|x > 0 und xn ≤ a} ⊆ R. Wegen 1 ∈ M ist dann M 6= ∅. Weiter ist a eine obere Schranke von M , denn ist x ∈ M so gilt im Fall x ≤ 1 sofort x ≤ 1 ≤ a und im Fall x > 1 haben wir ebenfalls x ≤ xn ≤ a. 49 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 Damit ist die Menge M auch nach oben beschränkt und das Vollständigkeitsaxiom (V) liefert die Existenz von s := sup M = sup{x ∈ R|x > 0 ∧ xn ≤ a}. Wegen 1 ∈ M ist s ≥ 1, also insbesondere s > 0. Wir behaupten das sn = a ist und hierzu zeigen wir das weder sn < a noch sn > a gelten kann. Angenommen es wäre sn < a. Wie eingangs gezeigt gibt es dann ein t ∈ R mit t > s und tn < a, d.h. es ist t ∈ M und somit t ≤ s, ein Widerspruch. Wäre sn > a, so gibt es wieder nach unserer Vorbemerkung eine reelle Zahl t ∈ R mit 0 < t < s und tn > a. Nach Lemma 3.(a) existiert ein x ∈ M mit x > t und damit ergibt sich der Widerspruch a < tn < xn ≤ a. Damit muss sn = a gelten und die Existenz einer n-ten Wurzel ist im Fall a ≥ 1 bewiesen. Für a = 0 ist die Existenz einer n-ten Wurzel klar, wir müssen also nur noch den Fall 0 < a < 1 behandeln. Dann ist 1/a > 1 und wie bereits gezeigt existiert ein s ∈ R mit s ≥ 0 und sn = 1/a. Wegen 1/a 6= 0 ist auch s 6= 0 und damit ist 1/s > 0 mit (1/s)n = a. √ n Die Zahl s des Lemmas wird dann natürlich als die n-te Wurzel a := s von a √ n definiert, d.h. a ist diejenige, nicht negative, reelle Zahl deren n-te Potenz gleich a ist. Aus den Potenzrechenregeln folgen sofort die Rechenregeln für Wurzeln, d.h. sind x, y ∈ R mit x, y ≥ 0 und n, m ∈ N mit n, m ≥ 1, so haben wir √ r q n √ √ √ x x √ n √ n m nm n n n x · y = x · y, x = x und im Fall y > 0 auch = √ . n y y Auch auf den Beweis dieser Regeln haben wir in der Vorlesung verzichtet, und er soll √ √ n n hier vorgeführt werden. Für die erste Regel beachte das x · y ≥ 0 mit √ √ n √ n √ n x · n y = n x · n yn = x · y √ √ √ ist, also n xy = n x n y nach Definition der Wurzel. Für die zweite Regel gehen wir p√ analog vor, es ist n m x ≥ 0 mit q q nm n m √ m n √ n √ m m = m x = x, x = x p√ √ und dies bedeutet n m√x = nm x. Für die dritte Eigenschaft nehme y > 0 an und √ erhalte die reelle Zahl n x/ n y ≥ 0 mit √ n √ n n n x x x = = , √ √ n n y n y y p √ √ also ist auch in diesem Fall n x/y = n x/ n y. Weiter kann man nun auch überlegen wie sich die Kleiner-Relation mit der Wurzelbildung verträgt. Sind x, y ∈ R mit x, y ≥ 0 und n ∈ N mit n ≥ 1, so haben wir √ √ n √ √ n x < n y ⇐⇒ n x < ( n y)n ⇐⇒ x < y. 50 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 Auch das Verhalten der Wurzel bezüglich n läßt sich entsprechend untersuchen. Seien hierzu wieder n, m ∈ N mit n, m ≥ 1 und x ∈ R mit x ≥ 0 gegeben. Beachten wir dann √ m √ √ ( n x)nm = ( n x)n = xm und analog ( m x)nm = xn so ergibt sich zunächst √ n √ x < m x ⇐⇒ xm < xn √ √ also ist im Fall x > 1√genau dann n x < m x wenn n > m ist während im Fall 0 < x < 1 √ genau dann n x < m x gilt wenn n < m ist. Nachdem die Existenz von Wurzeln gesichert ist, können nun Potenzen mit positiver Basis und rationalen Exponenten definiert werden. Sind hierzu x ∈ R mit x > 0 und a ∈ Q gegeben, so schreiben wir a = p/q mit p, q ∈ Z, q ≥ 1 und definieren p √ p xa = x q := q x > 0. Diese Zahl hängt tatsächlich nur von a und nicht von den speziell gewählten p und q ab, denn sind auch t, s ∈ Z mit s ≥ 1 und a= also haben wir p qs √ pqs √ q x = qx = p t = , so ist auch qt = sp, s q q ps √ q x = xps = xqt = s qt t qs √ √ sqt √ s s x = sx = x , √ t √ p und somit ist auch ( q x) = ( s x) . Damit ist xa tatsächlich sinnvoll definiert. Im ganzzahligen Fall a ∈ Z stimmen die so definierten Potenzen mit den früher definierten Potenzen mit ganzzahligen√Exponenten überein, wir können nämlich a = a/1 schreiben √ a/1 a a 2/3 1 3 und haben damit x = ( x) = x . Beispielsweise sind √ x = ( x)2 für jedes x > 0, √ und konkret 163/2 = ( 16)3 = 43 = 64 oder 165/4 = ( 4 16)5 = 25 =√32. Weiter ist wieder für eine allgemeine rationale Zahl a = p/q wie√oben stets 1a = ( q 1)p = 1p = 1, √ und für jedes n ∈ N mit n ≥ 1 ist x1/n = ( n x)1 = n x. Auch für diese allgemeineren Potenzen ergeben sich jetzt wieder die Potenzrechenregeln a x xa a a a (xy) = x y , = a , (xa )b = xab und xa xb = xa+b y y für alle x, y ∈ R, a, b ∈ Q mit x, y > 0. Auf den Nachweis dieser Formeln wurde in der Vorlesung wieder verzichtet, so dass wir dies hier nachholen wollen. Zunächst benötigen wir eine weitere Wurzelformel, wir√behaupten das für alle x ∈ R mit x > 0 und alle √ n, m ∈ Z mit n ≥ 1 stets n xm = ( n x)m gilt. Hierzu rechnen wir n √ √ √ m ( n x)m = ( n x)nm = ( n x)n = xm √ √ und dies bedeutet n xm = ( n x)m , wie behauptet. Damit kommen wir zu den genannten Potenzregeln. Seien also x, y ∈ R mit x, y > 0 gegeben. Weiter sei a ∈ Q und schreibe a = p/q mit p, q ∈ Z, q ≥ 1. Dann ist √ √ √ √ √ (xy)a = ( q xy)p = ( q x q y)p = ( q x)p ( q y)p = xa y a 51 Mathematik für Physiker I, WS 2016/2017 und analog Freitag 11.11.2016 p a r p √ √ q ( q x)p xa x x x q = = √ = = . √ q y y y ( q y)p ya Für die anderen beiden Formeln sei auch b ∈ Q geschrieben als b = t/s mit t, s ∈ Z, s ≥ 1. Dann ist a b (x ) = ( √ s xa )t = q s ( √ q t x)p q s = √ q t xp = √ t √ t qs xp = ( qs x)p pt √ = ( qs x)pt = x qs = xab und die dritte unserer Formeln ist bewiesen. Für die verbleibende Formel beachten wir a + b = (ps + qt)/(qs) mit ps + qt ∈ Z, qs ∈ N\{0} und erhalten x a+b =( √ qs ps+qt x) =( √ qs ps x) ( √ qs qt x) = q s √ q x s p q q √ s q t x √ √ = ( q x)p ( s x)t = xa xb . Auch die Regeln für Ungleichungen gelten für die Potenzen mit rationalen Exponenten. Seien hierzu x, y ∈ R mit x, y ≥ 0 gegeben. Weiter sei a ∈ Q eine rationale Zahl und schreibe a = p/q mit p, q ∈ Z, q ≥ 1. Ist dann a > 0 so haben wir auch p ≥ 1 und folglich √ p √ √ √ x < y ⇐⇒ q x < q y ⇐⇒ q x < ( q y)p ⇐⇒ xa < y a . Ist der Exponent a < 0 negativ, so ist dagegen p < 0 und wir haben x < y ⇐⇒ √ q x< √ q y ⇐⇒ p √ √ q x > ( q y)p ⇐⇒ xa > y a . Für die Anordnung bezüglich des Exponenten seien a, b ∈ Q gegeben und schreibe diese mit gemeinsamen Nenner als a = p/r, b = q/r mit p, q, r ∈ Z, r ≥ 1. Ist dann √ r x > 1 so haben wir auch x > 1 und somit wird √ √ a < b ⇐⇒ p < q ⇐⇒ ( r x)p < ( r x)q ⇐⇒ xa < xb , während für 0 < x < 1 auch 0 < √ r x < 1 gilt, also wird in diesem Fall a < b ⇐⇒ xa > xb . Damit haben wir den Potenzbegriff mit rationalen Exponenten vollständig etabliert, und im letzten Abschnitt dieses Kapitels kommen wir zum allgemeinen Potenzbegriff bei dem auch reelle Exponenten auftreten können. 52 Mathematik für Physiker I, WS 2016/2017 1.6 Freitag 11.11.2016 Allgemeine reelle Potenzen Die letzte Erweiterung des Potenzbegriffs erfolgt jetzt auf Potenzen xa mit beliebigen reellen Exponenten a ∈ R und positiver Basis x > 0. Definition 1.9 (Potenzen mit reellen Exponenten) Sei a ∈ R. Für jedes x ∈ R mit x ≥ 1 definieren wir dann xa := sup{xq |q ∈ Q, q ≤ a} und für x ∈ R mit 0 < x < 1 sei xa := inf{xq |q ∈ Q, q ≤ a}. Im Fall rationaler Exponenten stimmen die so definierten Potenzen mit dem Potenzbegriff des vorigen Abschnitts überein, denn sind x ∈ R und a ∈ Q so folgt mit den Monotonieeigenschaften der Potenz bezüglich des Exponenten im Fall x ≥ 1 xa = max{xq |q ∈ Q, q ≤ a} = sup{xq |q ∈ Q ≤ a} und im Fall 0 < x < 1 ist ebenso xa = min{xq |q ∈ Q, q ≤ a} = inf{xq |q ∈ Q ≤ a}. Der Nachweis der Potenzrechenregeln ist anhand der obigen Definition allerdings etwas mühsam, daher wurde dies in der Vorlesung auch nicht durchgeführt. In §11.4 wird sich ein bequemer zu handhabender Zugang zu den Potenzfunktionen eröffnen, und wir verschieben diese Überlegungen daher auf §11. $Id: funktion.tex,v 1.24 2016/11/14 11:09:04 hk Exp $ §2 Funktionen In diesem Kapitel wollen wir uns mit dem allgemeinen Funktionsbegriff beschäftigen. Im sechszehnten Jahrhundert hat Vieta die Buchstabenrechnung“ weitgehend ” in der heute verwendeten Form entwickelt, nur die Potenzschreibweise stammt erst aus dem achtzehnten Jahrhundert. In diesem Rahmen entstand dann auch die erste Form des Funktionsbegriffs, damals waren Funktionen algebraische Formeln in denen das Funktionsargument als freie Variable auftritt, im wesentlichen das was man heute Polynome nennt. Dieser erste Begriff wurde dann nach und nach erweitert, die algebraischen Formeln wurden durch allgemeine geschlossene analytische Ausdrücke“ ” 53 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 ersetzt und was diese sind wurde auch immer wieder erweitert wenn eine neue Funk” tion in die Analysis eingeführt“ wurde, außerdem wurde auch erlaubt das die Funktion in mehreren analytischen Ausdrücken definiert auf sich überlappenden Teilen“ defi” niert wird. Dieser Entwicklungszweig stieß dann Ende des neunzehnten Jahrhunderts an seine Grenzen, die Theorie der Fourierreihen und der allgemeinen trigonometrischen Reihen erforderte eine völlige Neuformulierung des Funktionsbegriffs. Seitdem wird der Funktionsbegriff auf den Mengenbegriff zurückgeführt indem Funktionen als gewisse Mengen definiert werden. Tatsächlich entstand auch der Mengenbegriff selbst aus Cantors Untersuchungen über trigonometrische Reihen. Als Vorbereitung erinnern wir zunächst an die aus der Schule vertraute Definition“ einer Funktion. Dort y ” hatte man zwei Variablen x, y wobei der Wert einer der y (x,y)=(x,f(x)) beiden Variablen von der anderen abhing. Normalerweise verwendet man y als diese abhängige Variable und bezeichnet y als eine Funktion von x, symbolisch oft gex schrieben als y = f (x). Dabei muss jedem Wert von x x genau ein Wert von y entsprechen, in anderen Worten hängt y über eine eindeutige Zuordnungsvorschrift“ von x ab. Typischerweise war ” diese Zuordnungsvorschrift dabei einfach eine Formel in der x als freie Variable vorkommt. Graphisch konnte man sich die Funktion dann durch ihren Funktionsgraphen veranschaulichen, d.h. man trägt auf der horizontalen Achse die x-Werte ab und auf der vertikalen das zugehörige y = f (x). Die Menge all der Punkte auf diesem Graphen liefert dann eine Teilmenge graph(f ) = {(x, f (x))|x ∈ dom(f )} beziehungsweise graph(f ) = {(x, y)|x ∈ dom(f ), y = f (x)} der Ebene, wobei dom(f ) die Menge all derjenigen Werte von x ist für die y = f (x) definiert ist, der sogenannte Definitionsbereich der Funktion. Beachte das wir den Punkt P der Ebene mit x-Koordinate a und y-Koordinate b einfach als P = (a, b) schreiben, in der Schule populäre Schreibweisen wie P (a|b) werden in der Mathematik nicht verwendet. Durch den Graphen einer Funktion f ist die Funktion vollständig festgelegt, um den Funktionswert y = f (x) zu ermitteln bilden wir die vertikale Gerade durch (x, 0) und diese schneidet den Graphen im Punkt (x, y). Wie bereits bemerkt ist die Zuordnungsvorschrift oftmals einfach eine Formel in x, beispielsweise y = x2 +1 oder y = sin x. In der Schule wurde dann leider der Unterschied zwischen der definierenden Formel und der Funktion verwischt, eine Funktion ist schon seit über dreihundert Jahren keine Formel mehr, Formeln können nur umgekehrt zur Definition von Funktionen verwendet werden. Tatsächlich reichen derartige Funktionen nicht aus, man braucht zumindest noch solche Funktionen die in mehreren Stücken definiert sind, etwa 54 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 H(x) f(x) x=1 ( x=1/2 2x, 0 ≤ x ≤ 12 , y = f (x) = 2 − 2x, 21 ≤ x ≤ 1 x x=0 ( 0, x < 0, y = H(x) = . 1, x ≥ 0 Die Funktion H(x) ist die sogenannte Heaviside-Funktion die erstaunlich häufig, beispielsweise bei der Behandlung von Einschaltvorgängen, auftritt. In Anwendungssituationen tauchen dann noch weitere Funktionsarten auf, beispielsweise Funktionen die nicht durch irgendeine Formel gegeben sind sondern von einigen Meßergebnissen gebildet werden. Derartige Funktionen sind dann zunächst nur in endlich vielen Punkten definiert, es können ja nur endlich viele Messungen wirklich durchgeführt werden, und will man die Funktion auch in anderen Punkten auswerten so geschieht dies durch eine für die konkrete Situation geeignete Form von Interpolation. Wieder andere Funktionen sind durch das Ein/Ausgabeverhalten irgendwelcher realer Apperaturen definiert, und manche entstehen sogar indem einfach ihr Graph hingemalt wird. Wie sie sehen, deckt dieser reale Funktionsbegriff“ eine Vielfalt verschiedenartiger ” Situationen ab. Der nun einzuführende mathematische Funktionsbegriff soll all diese verschiedenen Funktionstypen umfassen und zugleich eine exakte mathematische Definition sein. Dies wird möglich indem der eigentliche Zuordnungsvorgang völlig ignoriert wird. Man betrachtet nur noch den fertigen Funktionsgraph und verwendet diesen zur Definition einer Funktion. Wenn Sie so wollen nimmt man die Idee das Funktionen durch Hinmalen des Graphen definiert werden können ernst. Es tritt zuvor nur noch eine kleine zusätzliche Schwierigkeit auf. Bisher haben wir nur Funktionen betrachtet die reelle Argumente und reelle Werte haben und der Graph war dann eine Menge von Punkten der Ebene. Mit reellwertigen Funktionen einer reellen Variable kommt man aber nicht aus, beispielsweise ordnet ein elektrisches Feld ja jedem Punkt des betrachteten Raumgebiets einen Vektor zu, die beschreibende Funktion hat also dreidimensionale Punkte als Argumente und dreidimensionale Vektoren als Werte. Auch so etwas soll mit unserem Funktionsbegriff erfasst werden, wir wollen sogar erlauben das die Argumente x aus einer völlig beliebigen Menge M kommen und die Werte y = f (x) aus einer ebenfalls völlig beliebigen Menge N sind. Als Ersatz für die Ebene nehmen wir das wie folgt definierte Produkt der Mengen M und N . Definition 2.1 (Cartesisches Produkt von Mengen) Seien M und N zwei Mengen. Das cartesische Produkt von M und N ist dann die Menge M × N := {(x, y)|x ∈ M, y ∈ N }. Manchmal spricht man auch kürzer einfach vom Produkt der beiden Mengen M und N . Wir denken uns anschaulich M × N als eine Ebene“ deren horizontale x-Koordinaten ” 55 Mathematik für Physiker I, WS 2016/2017 Freitag 11.11.2016 aus der Menge M kommen und deren vertikale y-Koordinaten aus der Menge N kommen. Wir wollen einige Beispiele cartesischer Produkte behandeln: 1. Das Produkt R2 := R × R ist die Menge aller Paare (x, y) reeller Zahlen x, y ∈ R, also die Ebene. 2. Ebenso ist R3 := R × R × R die Menge aller Tripel (x, y, z) reeller Zahlen x, y, z ∈ R, und wir können uns den R3 als den dreidimensionalen Raum denken. Streng genommen ist dies durch die Definition des cartesischen Produkts gar nicht abgedeckt, da wir hier drei statt zwei Faktoren haben, wir denken uns etwas genauer R3 = (R × R) × R. Die Elemente sind dann eigentlich von der Form ((x, y), z) mit x, y, z ∈ R. Zur Vereinfachung der Notation entscheiden wir uns dann dazu die inneren Klammern nicht mitzuschreiben. 3. Noch allgemeiner kann man für jedes n ∈ N mit n ≥ 1 auch den n-dimensionalen Raum Rn = R · · × R} | × ·{z n mal einführen. Der Begriff Dimension“ wird hier in einem sehr prosaischen Sinne ver” wendet, man denkt nicht an irgendwelche zusätzlichen Raumdimensionen sondern einfach an Dinger zu deren Beschreibung man n reelle Zahlen braucht. Das mathematische Wort Dimension“ ist also das was sie in der Physik als die Anzahl ” der Freiheitsgrade bezeichnen. 4. Als ein ganz konkretes Beispiel nehmen wir jetzt die beiden Mengen M = {1, 2} und N = {2, 3}. Für die beiden Komponenten der Punkte im cartesischen Produkt M × N gibt es dann jeweils zwei Möglichkeiten und das Produkt hat damit vier Punkte, nämlich M × N = {(1, 2), (1, 3), (2, 2), (2, 3)}. Wie schon bemerkt wollen wir Funktionen von einer Menge M in eine Menge N als Graphen definieren, also als Teilmengen des cartesischen Produkts M ×N . Nun ist aber nicht jede Teilmenge von M × N als Graph einer Funktion geeignet. Einen jeden Wert x ∈ M soll genau ein Wert y ∈ N zugeordnet werden, d.h. die vertikale ” Gerade“ {(x, y)|y ∈ N } sollte den Graphen in genau einem Punkt treffen, es sollte also nicht die rechts abgebildete Situation vorliegen. Dies führt uns auf die folgende Definition von Funktionen. N x M Definition 2.2 (Der allgemeine Funktionsbegriff) Seien M, N zwei Mengen. Eine Funktion oder Abbildung f : M → N ist eine Teilmenge f ⊆ M × N so, dass es für jedes x ∈ M genau ein y ∈ N mit (x, y) ∈ f gibt. Man nennt die Menge M dann den Definitionsbereich der Funktion f und schreibt dom(f ) = M 56 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 und für jedes x ∈ M wird das eindeutige Element y ∈ N mit (x, y) ∈ f mit dem Symbol y = f (x) bezeichnet. Anstelle der Schreibweise f (x) für den Funktionswert von x ∈ M unter f finden Sie in der Literatur manchmal auch f x, also ohne die Klammern um das Argument, oder die Postfix Schreibweise xf . Die Schreibweise ohne Klammern ist beispielsweise bei einigen der Grundfunktionen, etwa beim Logarithmus ln oder bei den trigonometrischen Funktionen üblich, also etwa ln x statt ln(x). Man sollte dies aber auf einfache Argu” mente“ beschränken, also beispielsweise nicht ln xy da nicht klar ist, ob dies ln(x) · y oder ln(xy) meint. Bei den trigonometrischen Funktionen werden Klammern traditionell sehr großzügig weggelassen, so wird etwa sin 2x in den allermeisten Fällen sin(2x) bedeuten und nicht sin(2) · x. Vorlesung 7, Montag 14.11.2016 In der letzten Sitzung hatten wir Funktionen als spezielle Mengen eingeführt, eine Funktion f : M → N einer Menge M in eine Menge N ist eine Teilmenge f ⊆ M × N des cartesischen Produkts der beiden Mengen so, dass es für jedes x ∈ M genau ein y ∈ N mit (x, y) ∈ f gibt, und man schrieb dann y = f (x). Der allgemeine Funktionsbegriff übernimmt auch einige der Rollen die außerhalb der reinen Mathematik normalerweise von Variablen gespielt werden. Wir hatten schon im ersten Kapitel angemerkt das Variablen in der Mathematik Namen für mathematische Objekte sind und keine sich tatsächlich im Wert ändernden Objekte. Das wirft die Frage auf wie man denn Objekte behandelt die sich tatsächlich etwa im Ablauf der Zeit ändern, beispielsweise den Schwerpunkt S eines sich bewegenden Körpers. Zu jedem Zeitpunkt t ∈ R hat S ∈ R3 eine andere Position und dies kann man auch so lesen das dem Zeitpunkt t ∈ R eine Position S(t) ∈ R3 zugeordnet wird, d.h. man kann S als eine Funktion S : R → R3 interpretieren. In diesem Sinne wird der Schwerpunkt S dann durch eine Funktion beschrieben. Dieser Funktionsbegriff ist so allgemein das auch Dinge darunter fallen die man sich eigentlich zunächst nicht als Funktionen denkt. Nehmen wir beispielsweise einmal die Addition der reellen Zahlen. Diese ordnet je zwei reellen Zahlen x, y ∈ R eine neue reelle Zahl x + y zu, anders gesagt wird der Punkt (x, y) ∈ R2 der Ebene auf x + y abgebildet, wir haben also eine Funktion + : R × R → R geschrieben in Infix-Notation als x + y := +(x, y), der Graph der Addition, also die Funktion + selbst, ist dann eine Ebene im Raum. Der Definitionsbereich M einer Funktion f ist durch f vollständig bestimmt, er ist genau die Menge aller mathematischen Objekte x für die es ein mathematisches Objekt y mit (x, y) ∈ f gibt, die Menge N ist dagegen etwas willkürlich, zum Beispiel 57 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 kann die Parabel f := {(x, x2 )|x ∈ R} sowohl als eine Funktion f : R → R als auch als eine Funktion f : R → R≥0 := {x ∈ R|x ≥ 0} aufgefasst werden. Wir werden Funktionen in der Regel nur mit spezifizierten Mengen M, N verwenden, will man auch freie Funktionen f als Mengen von Paaren betrachten, so ist wie gesagt nur der Definitionsbereich aber nicht der Bildbereich festgelegt. Oftmals wird diese Mehrdeutigkeit umgangen indem die Mengen M, N in die Definition einer Funktion aufgenommen werden, man also eine Funktion als ein Tripel (M, N, f ) mit f ⊆ M × N und der obigen Funktionseigenschaft definiert. Für uns spielt all das wie gesagt keine Rolle da wir M und N immer angeben werden. Auch wenn die Menge N nicht durch f : M → N festgelegt ist, so gibt es immerhin eine kleinstmögliche Wahl von N , nämlich die Menge all derjenigen mathematischen Objekte y die als zweite Komponente eines Elements von f auftreten, das sogenannte Bild von f . Dieses ist eine, im allgemeinen echte, Teilmenge von N . Dies und eine kleine Erweiterung wollen wir in der folgenden Definition festhalten. Definition 2.3 (Das Bild einer Funktion) Sei f : M → N eine Funktion. Ist A ⊆ M eine Teilmenge, so nennen wir die Menge f (A) := {f (x)|x ∈ A} = {y ∈ N |∃(x ∈ A) : y = f (x)} ⊆ N das Bild von A unter f . Weiter heißt die Menge Bild(f ) := f (M ) = {f (x)|x ∈ M } = {y ∈ N |∃(x ∈ M ) : y = f (x)} ⊆ N das Bild von f . Wir werden gleich ein Beispiel für diese Definiton besprechen, zuvor aber noch zwei kleine Notationen einführen. Weil diese sich in Beispielen am einfachsten behandeln lassen, werden wir sehr häufig durch explizite Zuordnungsvorschriften definierte Funktionen verwenden. Diese Funktionen notieren wir in der folgenden Form f : M → N ; x 7→ f (x), gelesen als f von M nach N , x wird abgebildet auf“. Die links und rechts vom Pfeil ” stehenden Mengen M und N geben den Definitionsbereich der Funktion f beziehungsweise ihr Ziel an. Darauf folgt die eigentliche Abbildungsvorschrift. Die Variable x ist hier eine formale Variable, taucht also nur gebunden innerhalb der Funktionsdefinition auf. Rechts vom Abbildungspfeil 7→“ steht dann die eigentliche Abbildungsvorschrift. ” Da wir noch reichlich Funktionen sehen werden beschränken wir uns jetzt auf zwei kleine Beispiele. Zunächst eine Funktion deren Abbildungsvorschrift eine einfache Formel ist f : R → R; x 7→ x2 + 1. Es ist also f (x) = x2 + 1 für jedes x ∈ R. Auf zwei kleine Details wollen wir noch besonders hinweisen. Zum einen sollten Sie die Formel x2 + 1“, wie schon einmal ” erwähnt, nicht mit der Funktion f verwechseln, eine Formel kann zur Beschreibung 58 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 einer Funktion verwendet werden, sie ist aber keine Funktion, ja nicht einmal ein mathematisches Objekt. Zum anderen gibt es einen wesentlichen Unterschied zwischen f und f (x). Dabei ist f die Funktion selbst, aber f (x) ist, bei gegebenen x ∈ M , ein konkreter Wert der Funktion, also ein Element von N . Insbesondere ist f streng genommen etwas anderes als f (x). Gelegentlich, vor allen in informellen Kontext, ist es bequem diesen Unterschied zu verwischen, also f (x) für f zu schreiben. Wir kommen zum zweiten Beispiel, der sogenannten Popcorn-Funktion, und in diesem haben wir noch immer eine explizite Zuordnungsvorschrift, diese ist aber schon von etwas komplizierterer Natur 0, x = 0 oder x ∈ / Q, p f : R → Q; x 7→ 1 q , x ∈ Q und x = mit teilerfremden p ∈ Z, q ∈ N\{0}. q Die Zuordnungsvorschrift ist wie folgt zu lesen: Bei gegebenen x ∈ R schaue zunächst ob x = 0 ist oder ob x irrational ist. Wenn ja, ist der Funktionswert f (x) = 0. Andernfalls kann man x = p/q als Bruch mit ganzzahligen Zähler p und von Null verschiedenen, natürlichen Nenner q schreiben, und durch eventuelles Auskürzen können p und q als teilerfremd angenommen werden. Dann sind p und q durch x eindeutig festgelegt, und wir können f (x) := 1/q definieren. Beispielsweise sind √ 4 2 1 f ( 2) = 0, f (1) = 1, f (2) = 1, f (0, 4) = f =f = . 10 5 5 Diese Popcorn-Funktion dient in verschiedensten Zusammenhängen als Beispiel, da sie zum einen schon recht kompliziert und ungewöhnlich ist, aber zum anderen noch ausreichend einfach ist um sich gut behandeln zu lassen. Im Analysis-Teil dieses Semesters werden wir uns hauptsächlich mit Funktionen beschäftigen die auf reellen Intervallen definiert sind. Die beschränkten Intervalle hatten wir schon in §1.3 eingeführt, und neben diesen gibt es dann die unbeschränkten Intervalle, die wir jetzt definieren wollen. Definition 2.4 (Unbeschränkte Intervalle) Sei a ∈ R. Dann heissen die Mengen [a, ∞) := {x ∈ R|x ≥ a} und (−∞, a] := {x ∈ R|x ≤ a} unbeschränkte, abgeschlossene Intervalle und die Mengen (a, ∞) := {x ∈ R|x > a} und (−∞, a) := {x ∈ R|x < a} heissen unbeschränkte, offene Intervalle. Außerdem setzen wir noch (−∞, ∞) := R. Wie bei den beschränkten Intervallen ist die Terminologie so gewählt, dass abgeschlos” sen“ bedeutet das die reellen Randpunkte zum Intervall gehören und offen“ bedeutet ” das sie nicht zum Intervall gehören. 59 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 Nun sind alle notwendigen Schreibweisen bereitgestellt und wir können zu einem Beispiel für Bildmengen kommen. Haben wir eine Abbildung f : M → N so bedeutet y ∈ Bild(f ) für ein y ∈ N das die Gleichung f (x) = y mit x ∈ M lösbar ist, man muss also effektiv eine Gleichung lösen. Dabei treten dann meist von y abhängige Lösbarkeitsbedingungen auf und das Bild ist die Menge all der y ∈ N die diese Bedingungen erfüllen. Will man allgemeiner das Bild f (A) einer Teilmenge A ⊆ M berechnen, so geht man genauso vor, hat aber die zusätzliche Bedingung das es Lösungen x von f (x) = y mit x ∈ A geben muss. Dies führt dann oft zu zusätzlichen Bedingungen an y und die Bildmenge f (A) ist die Menge aller y die auch noch diese zusätzlichen Bedingungen erfüllen. Als ein konkretes Beispiel betrachten wir die Funktion f : R → R; x 7→ x2 + x + 1. Zur Bestimmung des Bildes von f müssen wir die Gleichung x2 + x + 1 = y beziehungsweise x2 + x + 1 − y = 0 für x ∈ R mit einem fixierten y ∈ R untersuchen. Erinnern wir uns an die Lösungsformel für quadratische Gleichungen, dass also die Gleichung x2 + px + q = 0 mit reellen Parametern p, q ∈ R genau dann eine reelle Lösung x ∈ R hat wenn p2 − 4q ≥ 0 ist und in diesem Fall die Lösungen durch r p −p ± p2 − 4q p p2 x=− ± −q = 2 4 2 gegeben sind, so erhalten wir das unsere Gleichung f (x) = y genau dann lösbar ist wenn 1 − 4(1 − y) = 4y − 3 ≥ 0 gilt, wenn wir also y ≥ 3/4 haben, und dies bedeutet 3 3 Bild(f ) = y ∈ R y ≥ = ,∞ . 4 4 Wollen wir dagegen die Bildmenge f (R≥0 ) bestimmen, so haben wir die zusätzliche Bedingung das eine der Lösungen x von x2 + x + 1 = y in R≥0 liegen muss. Diese Lösungen sind für y ≥ 3/4 gegeben als p 1 x = (−1 ± 4y − 3) 2 und das eine der beiden nichtnegativ ist bedeutet p 4y − 3 − 1 ≥ 0 also 4y − 3 ≥ 1 und somit wird f (R≥0 ) = [1, ∞). Die nächsten drei Definitionen beschäftigen sich alle direkt oder indirekt mit dem Begriff einer Umkehrfunktion. Haben wir eine Funktion y = f (x), so soll die Umkehrfunktion zu f umgekehrt aus dem Wert y das Argument x ermitteln. Das ist natürlich 60 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 nicht immer möglich, zum Beispiel geht beim Quadrieren einer reellen Zahl x ∈ R das Vorzeichen verloren und kann nicht mehr aus x2 rekonstruiert werden. Was aber immer möglich ist, ist die Bildung der sogenannten Urbildmengen unter einer Funktion. Definition 2.5 (Urbildmengen einer Funktion) Seien f : M → N eine Funktion und B ⊆ N eine Teilmenge. Dann heißt die Menge f −1 (B) := {x ∈ M |f (x) ∈ B} das Urbild von B unter f . Beachte das hierdurch keine Funktion f −1 : N → M definiert wird, anstelle dessen wird jeder Teilmenge von N eine Teilmenge von M zugeordnet. Für y ∈ N schreibt man oft f −1 (y) := f −1 ({y}) = {x ∈ M |f (x) ∈ {y}} = {x ∈ M |f (x) = y}, und nennt diese Menge die Faser von f über y, aber dies ordnet y eben kein Element von M zu, ist also keine Umkehrfunktion. Wir besprechen zwei kleine Beispiele. Zunächst betrachte die Funktion f : R → R; x 7→ x2 , und wir wollen einige Urbildmengen berechnen. Es sind f −1 (1) = {x ∈ R|x2 = 1} = {−1, 1}, f −1 (0) = {x ∈ R|x2 = 0} = {0}, f −1 (−1) = {x ∈ R|x2 = −1} = ∅. Als Urbilder einzelner Elemente können also einelementige, zweielementige und die leere Teilmenge von R vorkommen. Als ein zweites Beispiel betrachten wir die Sinusfunktion sin : R → R. Dann ist beispielsweise sin−1 (0) = {x ∈ R| sin x = 0} = {0, ±π, ±2π, ±3π, . . .} = {nπ|n ∈ Z}, wobei wir für die Argumente der trigonometrischen Funktionen wie immer das Bogenmaß verwenden. Ein etwa komplizierteres Beispiel ist das Urbild sin−1 ([0, ∞)) = {x ∈ R| sin x ≥ 0} = [0, π] ∪ [2π, 3π] ∪ [−2π, −π] ∪ · · · , für das Sie sich am besten einmal den Sinus hinmalen. Wie schon bemerkt ist unser momentanes Ziel die Behandlung der Umkehrfunktionen. Die Funktion f : M → N hat eine Umkehrfunktion wenn die Urbildmengen f −1 (y) für jedes y ∈ N einelementig sind, oder äquivalent wenn jede Gleichung f (x) = y mit y ∈ N eine eindeutige Lösung x ∈ M hat. Es stellt sich als sinnvoll heraus neben dieser Eigenschaft auch noch diejenigen Funktionen zu betrachten, für die f (x) = y für jedes y ∈ N mindestens eine, beziehungsweise höchstens eine, Lösung hat. Definition 2.6 (Injektive und surjektive Funktionen) Sei f : M → N eine Funktion. Dann heißt die Funktion f 61 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 (a) injektiv wenn es für jedes y ∈ N höchstens ein x ∈ M mit f (x) = y gibt. (b) surjektiv wenn es für jedes y ∈ N stets ein x ∈ M mit f (x) = y gibt. (c) bijektiv wenn f injektiv und surjektiv ist, d.h. für jedes y ∈ N gibt es genau ein x ∈ M mit f (x) = y. Dass die Funktion f surjektiv ist kann in Termen des Bildes durch Bild(f ) = N charakterisiert werden. Auch die Injektivitätsbedingung läßt sich noch auf verschiedene Arten umformulieren, beispielsweise f : M → N injektiv ⇐⇒ ∀(x1 , x2 ∈ M ) : f (x1 ) = f (x2 ) ⇒ x1 = x2 . In der Tat, dass f (x) = y für jedes y ∈ N höchstens eine Lösung x ∈ M hat, bedeutet das je zwei Lösungen von f (x) = y gleich sind, d.h. für jedes y ∈ N und alle x1 , x2 ∈ M mit f (x1 ) = f (x2 ) = y ist x1 = x2 . Dass dies für jedes y ∈ N so ist, ist dann gerade die Gültigkeit der obigen Aussage. Manchmal ist es bequemer die Kontraposition f : M → N injektiv ⇐⇒ ∀(x1 , x2 ∈ M ) : x1 6= x2 ⇒ f (x1 ) 6= f (x2 ) zu verwenden. Wir kommen zu ein paar Beispielen. 1. Sei f : R → R; x 7→ x2 . Diese Funktion ist nicht surjektiv, denn für jedes x ∈ R ist f (x) = x2 ≥ 0, also insbesondere f (x) 6= −1. Damit hat die Gleichung f (x) = −1 keine Lösung x ∈ R und f ist nicht surjektiv. Außerdem ist f auch nicht injektiv, denn es ist beispielsweise f (−1) = (−1)2 = 1 = 12 = f (1). 2. Nun betrachten wir die ähnliche Situation f : R → R≥0 ; x 7→ x2 , und diesmal ist f surjektiv. Denn ist y ∈ R≥0 , also y ∈ R mit y ≥ 0, so haben wir √ eine Wurzel x := y mit f (x) = x2 = y. Allerdings ist f weiterhin nicht injektiv. 3. Nun sei f : R≥0 → R; x 7→ x2 , d.h. diesmal betrachten wir nur nichtnegative Argumente. Wie im ersten Beispiel ist f dann nicht surjektiv. Diesmal ist f aber injektiv. Seien nämlich x1 , x2 ∈ R≥0 mit f (x1 ) = f (x2 ) gegeben, also x21 = x22 . Dann ist x2 = ±x1 und wegen x1 , x2 ≥ 0 muss sogar x1 = x2 sein. 62 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 4. Schließlich sei f : R≥0 → R≥0 ; x 7→ x2 . Genau wie im zweiten und dritten Beispiel folgt dann das f surjektiv und injektiv ist, also insgesamt bijektiv ist. Diese vier Beispiele zeigen uns zum einen das es für Surjektivität und Injektivität ganz entscheidend auf den Definitionsbereich und die Zielmenge einer Funktion ankommt, dass diese Begriffe also insbesondere nur sinnvoll sind wenn diese beiden Mengen vorgegeben sind. Außerdem liefern sie uns Beispiele für weder injektive noch surjektive, für injektive aber nicht surjektive, für surjektive aber nicht injektive und für surjektive und injektive Funktionen. In den eben behandelten Beispielen haben wir unter anderem neue Funktionen konstruiert indem der Definitionsbereich bereits vorhandener Funktionen verkleinert wurde, einen Vorgang den man als Einschränkung“ bezeichnet. Dies kommt derart ” häufig vor das hierfür eine eigene Notation eingeführt wird. Angenommen wir haben eine Funktion f : M → N und eine Teilmenge A ⊆ M des Definitionsbereichs von f . Als die Einschränkung von f auf A, geschrieben als f |A, bezeichnet man die Funktion f |A : A → N ; x 7→ f (x), beziehungsweise in Mengenschreibweise f |A = f ∩ (A × N ). Wir behandeln noch ein allerletztes Beispiel, nämlich die Funktion f : R\{−1} → R\{1}; x 7→ x−1 . x+1 Beachte das für x ∈ R mit x 6= −1 stets x − 1 6= x + 1 also f (x) 6= 1 ist, es handelt sich also wirklich um eine Abbildung zwischen den angegebenen Mengen. Wir wollen uns überlegen ob f surjektiv, injektiv oder gar bijektiv ist. Bei solchen durch Formeln gegebene Funktionen kann man dies oft durch direkte Rechnung entscheiden. Wir müssen y ∈ R mit y 6= 1 betrachten und uns das Lösungsverhalten der Gleichung y = f (x) = x−1 x+1 für x ∈ R\{−1} anschauen. Es ist y= x−1 ⇐⇒ xy + y = x − 1 ⇐⇒ x(y − 1) = −y − 1 = −(y + 1), x+1 und wegen y 6= 1 hat diese Gleichung die eindeutige Lösung x= 1+y 1−y wobei wegen y + 1 6= y − 1 auch (1 + y)/(1 − y) 6= −1 ist. Damit hat unsere Gleichung eine eindeutige Lösung x ∈ R\{−1} und die Funktion f ist somit bijektiv. 63 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 Jetzt ist alles soweit vorbereitet, dass wir den Begriff der Umkehrfunktion einer Funktion tatsächlich einführen können. Ist f : M → N eine Funktion, so soll die Umkehrfunktion von f bei gegebenen Wert y = f (x) ∈ N aus y das Argument x rekonstruieren, es ist also die Gleichung f (x) = y nach x aufzulösen. Dass dies überhaupt möglich ist bedeutet das es für jedes y ∈ N auch genau eine Lösung x ∈ M von f (x) = y gibt, dass also die Funktion f bijektiv ist. In diesem Fall können wir die Lösung x von f (x) = y als Funktion von y auffassen, und erhalten Definition 2.7 (Umkehrfunktionen) Seien M, N zwei Mengen und f : M → N eine bijektive Abbildung. Dann gibt es für jedes y ∈ N genau ein Element f −1 (y) ∈ M mit f (f −1 (y)) = y, und wir nennen f −1 : N → M ; y 7→ f −1 (y) die Umkehrfunktion von f . Explizit ist dabei f −1 = {(y, x)|(x, y) ∈ f }. Letztere Formel kann man dann auch so interpretieren das die Umkehrfunktion f −1 aus f durch Spiegeln an der Diagonalen“ entsteht. Das Wort Spiegeln“ muss man ” ” hierzu allerdings recht großzügig auslegen, um eine wirkliche geometrische Spiegelung handelt es sich nur im Fall M, N ⊆ R, im allgemeinen Fall muss man sich halt das Vertauschen der beiden Komponenten eines Paares als Spiegelung denken. Ist f : M → N eine bijektive Funktion so ordnet die Umkehrfunktion f −1 : N → M also jedem y ∈ N das eindeutige x = f −1 (y) ∈ M mit f (x) = y zu. Streng genommen ist die Schreibweise f −1 (y) nicht günstig da wir so schon die Urbildmenge f −1 ({y}) = {x} bezeichnet haben, diese kleine Mehrdeutigkeit stellt sich im praktischen Gebrauch aber als unproblematisch heraus. Unsere obige Rechnung zeigt das die Umkehrfunktion der Funktion f : R\{−1} → R\{1}; x 7→ durch f −1 (y) = x−1 x+1 1+y 1−y für y ∈ R\{1} gegeben ist, denn genau dies hatte sich beim Auflösen der Gleichung f (x) = y nach x ergeben. Wir wollen uns nun einige weitere Beispiele hierzu anschauen bei denen wir keine wirklichen Rechnungen durchführen müssen. Im folgenden werden wir in einigen dieser Beispiele trigonometrische Funktionen verwenden, allerdings sind wir an dieser Stelle noch nicht in der Lage diese auf Grundlage unserer Axiome für die reellen Zahlen einzuführen. Dies wird uns erst in §11.5 gelingen, daher wollen wir uns erst einmal auf die vertraute geometrische Begründung der trigonometrischen Funktionen verlassen. Für eine formale Definition ist dieser Zugang 64 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 in unserem Rahmen allerdings nicht geeignet, tatsächlich geht man oftmals umgekehrt vor und verwendet die analytisch definierten trigonometrischen Funktionen um Winkel und die anderen geometrischen Konzepte einzuführen. Daher hat alles was wir erst einmal über trigonometrische Funktionen festhalten einen vorläufigen Charakter, in §11.5 und §12.3 werden wir dann aber alles was wir bis dahin verwendet haben tatsächlich beweisen. 1. Wie schon früher in einem Beispiel bemerkt ist die Funktion f : R≥0 → R≥0 ; x 7→ x2 bijektiv. Zum Bestimmen der Umkehrfunktion muss die Gleichung y = f (x) = √ x2 gelöst werden, und dies geschieht durch x = y. Die Umkehrfunktion des Quadrierens auf R≥0 ist also die Wurzelfunktion. y 2 2 1.8 1.8 1.6 1.6 1.4 1.4 1.2 1.2 y 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 0 0.2 0.4 0.6 0.8 1 1.2 x √ f −1 (x) = f (x) = x2 1.4 1.6 1.8 2 x Etwas allgemeiner ist die Funktion f : R≥0 → R≥0 ; x 7→ xn nach §1.Lemma 8 für jedes n ∈ N mit n ≥ 1 bijektiv. Die Umkehrfunktion von f ist dann die n-te √ −1 n Wurzel f (x) = x für jedes x ∈ R≥0 . 2. Als nächtes wollen wir den Sinus betrachten, nur ist dieser leider weder injektiv noch surjektiv. Dabei können wir die Surjektivität leicht erreichen indem wir die Menge N = [−1, 1] = {x ∈ R| − 1 ≤ x ≤ 1} als Zielmenge verwenden. Um den Sinus auch injektiv zu machen schauen wir uns nur Argumente x zwischen −π/2 und π/2 an. Wie schon früher einmal bemerkt geben wir die Argumente der trigonometrischen Funktionen immer im Bogenmaß an. Dann ist die Funktion h π πi sin : − , → [−1, 1]; x 7→ sin x 2 2 bijektiv, und ihre Umkehrfunktion h π πi arcsin : [−1, 1] → − , 2 2 wird als der Arcus Sinus bezeichnet. 65 Mathematik für Physiker I, WS 2016/2017 1.5 1.5 3 3 1 1 2 2 y y 0.5 –1.5 –1 –0.5 Montag 14.11.2016 0 y 0.5 0.5 1 1.5 –1.5 –1 –0.5 0 x y 1 0.5 1 1.5 –3 –2 –1 0 1 1 2 3 –3 –2 –1 0 x x –0.5 –1 –1 –1 –1 –2 –2 –1.5 –3 –1.5 f (x) = sin x f −1 (x) = arcsin x f (x) = cos x 1 2 3 x –0.5 –3 f −1 (x) = arccos x Beachte das die in der Schule verbreitete Schreibweise sin−1 für den Arcus Sinus nicht benutzt wird, schon da sie eigentlich unsinnig ist, der Sinus selbst ist ja nicht umkehrbar sondern nur seine Einschränkung auf das Intervall [−π/2, π/2]. Entsprechendes trifft für die Schreibweisen der anderen trigonometrischen Umkehrfunktionen zu. 3. Beim Cosinus sind die Verhältnisse weitgehend analog, nur müssen wir eine andere Menge als Definitionsbereich verwenden, zwischen −π/2 und π/2 ist der Cosinus nicht injektiv. Die übliche Wahl ist die Menge der Winkel zwischen 0 und π, d.h. wir betrachten die bijektive Funktion cos : [0, π] → [−1, 1]; x 7→ cos x und ihre Umkehrfunktion arccos : [−1, 1] → [0, π] wird als der Arcus Cosinus bezeichnet. 4. Als letztes Beispiel nehmen wir den Tangens. Dieser ist als Abbildung nach R surjektiv, und betrachten wir ihn nur zwischen −π/2 und π/2 so ist er auch injektiv. Wir nehmen also die bijektive Funktion π π tan : − , → R; x 7→ tan x 2 2 und ihre Umkehrfunktion π π arctan : R → − , 2 2 heißt der Arcus Tangens. 66 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 1.5 1.5 1 1 y y 0.5 –1.5 –1 –0.5 0.5 0 0.5 1 1.5 –1.5 –1 –0.5 0 x 0.5 1 1.5 x –0.5 –0.5 –1 –1 –1.5 –1.5 f (x) = tan x f −1 (x) = arctan x Zur weiteren Untersuchung von Umkehrfunktionen benötigen wir einen weiteren Begriff, die sogenannte Hintereinanderausführung von Funktionen. Definition 2.8 (Hintereinanderausführung von Funktionen) Seien f : A → B, g : B → C zwei Funktionen. Die Hintereinanderausführung oder Komposition von f und g ist dann die Funktion g ◦ f : A → C; x 7→ g(f (x)). Ist beispielsweise g durch eine Zuordnungsvorschrift x 7→ g(x) gegeben, so entsteht die Zuordnungsvorschrift der Hintereinanderausführung g ◦ f indem f (x) für x in die Zuordnungsvorschrift von g eingesetzt wird. Wir behandeln nun zwei Beispiele zur Komposition von Funktionen: 1. Seien f : R → R; x 7→ x3 + 1 und g : R → R; x 7→ x2 + x − 2. Dann ist für jedes x ∈ R g ◦ f (x) = g(f (x)) = f (x)2 + f (x) − 2 = (x3 + 1)2 + (x3 + 1) − 2 = x6 + 2x3 + 1 + x3 − 1 = x6 + 3x3 . 2. Im zweiten Beispiel wollen wir umgekehrt eine gegebene Funktion als Hintereinanderausführung zweier einfacherer Funktionen schreiben. Für jedes x ∈ R haben wir das Additionstheorem cos(2x) = 2 cos2 x − 1 und hier kommt auf der rechten Seite nur noch cos x aber kein isoliertes x vor. Man kann also für x ∈ R stets cos(2x) = T2 (cos x) mit dem Polynom T2 (x) = 2x2 − 1 67 Mathematik für Physiker I, WS 2016/2017 Montag 14.11.2016 schreiben. Ist also f : R → R; x 7→ cos(2x), so ist f = T2 ◦ cos. Ebenso ist für jedes x ∈ R auch cos(3x) = 4 cos3 x − 3 cos x = T3 (cos x) mit T3 (x) = 4x3 − 3x, d.h. die Funktion f : R → R; x 7→ cos(3x) ist eine Hintereinanderausführung f = T3 ◦ cos. Zum Ende dieses Kapitels wollen wir auch noch einige wichtige Aussagen über all diese Begriffe formulieren und beweisen. Wir beginnen dabei mit einem Lemma über die Hintereinanderausführung von Funktionen. Lemma 2.1 (Assoziativgesetz der Hintereinanderausführung) Seien f : A → B, g : B → C und h : C → D drei Funktionen. Dann gilt (h ◦ g) ◦ f = h ◦ (g ◦ f ). Beweis: Beachte das zwei Funktionen offenbar genau dann gleich sind, wenn sie denselben Definitionsbereich haben und jedes Element dieses Definitionsbereichs auf denselben Wert abbilden. Wir haben dom((h ◦ g) ◦ f ) = A = dom(g ◦ f ) = dom(h ◦ (g ◦ f )) und für jedes x ∈ A gilt (h ◦ g) ◦ f (x) = h ◦ g(f (x)) = h(g(f (x))) = h(g ◦ f (x)) = h ◦ (g ◦ f )(x). Damit ist das Assoziativgesetz der Komposition von Funktionen bewiesen. Aus dem Assoziativgesetz folgt, dass man auch beliebig lange Ketten von Hintereinanderausführungen beliebig umklammern kann ohne die Gesamtfunktion zu ändern, d.h. man kann die Klammern auch einfach weglassen, da sie sowieso keinen Einfluss auf das Ergebnis haben. Wie bei der Multiplikation wird gelegentlich auch das Zeichen ◦“ für ” die Komposition weggelassen, man schreibt also verkürzt gf anstelle des vollständigen g ◦ f . Ein Kommutativgesetz für die Komposition von Abbildungen gilt aber nicht, zum einen muss f ◦ g nicht einmal definiert sein wenn g ◦ f dies ist und selbst wenn dies der Fall ist kann f ◦ g 6= g ◦ f sein. Nehmen wir beispielsweise die beiden Funktionen f : R → R; x 7→ x2 und g : R → R; x 7→ x + 1 so ist für jedes x ∈ R zum einen g(f (x)) = x2 +1 und zum anderen f (g(x)) = (x+1)2 = x2 +2x+1, also haben wir f ◦g 6= g◦f . Zum Abschluß der heutigen Sitzung untersuchen wir jetzt wie sich Injektivität und Surjektivität mit der Komposition von Funktionen vertragen. Lemma 2.2 (Grundeigenschaften von Injektivität und Surjektivität) Seien f : A → B und g : B → C zwei Funktionen. 68 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 (a) Sind f und g injektiv, so ist auch g ◦ f injektiv. (b) Ist g ◦ f injektiv, so ist auch f injektiv. (c) Sind f und g surjektiv, so ist auch g ◦ f surjektiv. (d) Ist g ◦ f surjektiv, so ist auch g surjektiv. Beweis: (a) Seien x, y ∈ A mit x 6= y. Da f injektiv ist, ist dann f (x) 6= f (y) und da auch g injektiv ist, haben wir (g ◦ f )(x) = g(f (x)) 6= g(f (y)) = (g ◦ f )(y). Somit ist auch g ◦ f injektiv. (b) Seien x, y ∈ A mit x 6= y. Dann g(f (x)) = (g ◦ f )(x) 6= (g ◦ f )(y) = g(f (y)) und insbesondere muss f (x) 6= f (y) sein. Damit ist f injektiv. (c) Sei z ∈ C. Da g surjektiv ist, existiert ein y ∈ B mit z = g(y). Da weiter auch f surjektiv ist, existiert auch ein x ∈ A mit y = f (x) und wir haben (g ◦ f )(x) = g(f (x)) = g(y) = z. Damit ist g ◦ f surjektiv. (d) Sei z ∈ C. Da g ◦f surjektiv ist, existiert ein x ∈ A mit (g ◦f )(x) = z. Damit haben wir das Element f (x) ∈ B mit g(f (x)) = (g ◦ f )(x) = z. Somit ist auch g surjektiv. In (b) folgt im Allgemeinen tatsächlich nur die Injektivität von f aber nicht die von g und in (d) ergibt sich entsprechend auch nur die Surjektivität von g aber nicht von f . Vorlesung 8, Freitag 18.11.2016 Wir beschäftigen uns gerade mit Umkehrfunktionen und zum Auftakt der heutigen Sitzung schauen wir uns noch ein letztes Beispiel an, und zwar die Funktion f : R\{−1} → R\{−1}; x 7→ 1−x , 1+x diese ist zwar recht ähnlich zu einem der obigen Beispiele wird uns aber ein neues Phänomen zeigen. Zunächst beachte das für x ∈ R\{−1} auch 1+x 6= x−1 = −(1−x) ist, die Funktionswerte liegen also tatsächlich in R\{−1}. Wir gehen wie oben vor und betrachten für y ∈ R\{−1} die Gleichung f (x) = y. Diese lösen wir durch y= 1−x 1−y ⇐⇒ y + xy = 1 − x ⇐⇒ (1 + y)x = 1 − y ⇐⇒ x = , 1+x 1+y und dies bedeutet das f bijektiv mit f −1 = f ist. Hier haben wir also eine umkehrbare Funktion die gleich ihrer eigenen Umkehrfunktion ist. Wir kommen nun zu zwei kleinen Beobachtungen über Umkehrfunktionen. Zunächst beachte das die Umkehrfunktion einer bijektiven Funktion f : M → N wieder bijektiv ist mit (f −1 )−1 = {(x, y)|(y, x) ∈ f −1 } = {(x, y)|(x, y) ∈ f } = f. 69 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 Die definierende Eigenschaft der Umkehrfunktion einer Funktion f : M → N war die Gleichung f (f −1 (y)) = y für alle y ∈ N und diese kann man auch als f ◦ f −1 = idN lesen, wobei idN die sogenannte identische Funktion oder Abbildung auf N ist, d.h. idN : N → N ; y 7→ y. Die identische Funktion auf einer Menge M , oder kurz die Identität auf M , ist also die Funktion die mit den Elementen der Menge überhaupt nichts macht. Diese Funktion taucht überraschend häufig auf, und erhält daher auch ihr eigenes Symbol. Ist jetzt wieder x ∈ M , so ist f −1 (f (x)) ∈ M dasjenige Element u von M mit f (u) = f (x), also u = x und dies bedeutet f −1 (f (x)) = x. Somit haben wir auch f −1 ◦ f = idM . Umgekehrt stellt sich nun heraus das die Umkehrfunktion durch die beiden Eigenschaften f ◦ f −1 = idN und f −1 ◦ f = idM bereits festgelegt ist. Um den Nutzen dieser Aussage zu rechtfertigen, machen wir uns erst einmal klar was zu tun ist, um die Umkehrfunktion von f : M → N zu berechnen. Im ersten Schritt muss man sich überlegen, dass es überhaupt eine Umkehrfunktion gibt, d.h. man muss zeigen, dass die Funktion f bijektiv, also sowohl injektiv als auch surjektiv, ist. Ist dies erledigt, so gibt es überhaupt eine Umkehrfunktion und diese können wir durch Auflösen der Gleichung f (x) = y nach x ermitteln. Hier gibt es oft eine gewisse Überlappung, die Rechnungen zum Auflösen von y = f (x) sind häufig genau dieselben die schon zum Nachweis von Surjektiv und Injektiv verwendet wurden. Das folgende Lemma stellt jetzt ein alternatives Vorgehen bereit. Angenommen wir haben schon einen Kandidaten h : N → M für die Umkehrfunktion. Wie man auf solch einen Kandidaten kommt, hängt an der speziellen Situation, man kann beispielsweise f (x) = y zumindest teilweise lösen oder oft kann man auch einfach geschickt raten. Haben wir den Kandidaten h so reicht es f (h(y)) = y für alle y ∈ N und h(f (x)) = x für alle x ∈ M nachzurechnen. Ist dies getan, so folgt sowohl das f bijektiv ist als auch das h die Umkehrfunktion von f ist. Lemma 2.3 (Kennzeichnung der Umkehrfunktion) Seien M, N zwei Mengen und f : M → N eine Funktion. Dann ist f genau dann bijektiv, wenn es eine Funktion g : N → M mit g ◦ f = idM und f ◦ g = idN gibt. In diesem Fall ist g = f −1 . Beweis: ”=⇒” Dass f ◦ f −1 = idN und f −1 ◦ f = idM gelten, haben wir bereits oben eingesehen. ”⇐=” Sei g : N → M eine Funktion mit g ◦ f = idM und f ◦ g = idN . Wir zeigen zunächst das f injektiv ist. Seien also x1 , x2 ∈ M mit f (x1 ) = f (x2 ) gegeben. Dann folgt x1 = idM (x1 ) = (g ◦ f )(x1 ) = g(f (x1 )) = g(f (x2 )) = (g ◦ f )(x2 ) = idM (x2 ) = x2 . 70 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 Damit ist f zumindest injektiv. Sei jetzt y ∈ N . Dann haben wir das Element g(y) ∈ M mit f (g(y)) = (f ◦ g)(y) = idN (y) = y. Dies zeigt zum einen, dass f surjektiv, und damit sogar bijektiv, ist, und zum anderen das f −1 (y) = g(y) für jedes y ∈ N gilt, es ist also g = f −1 . Als ein kleines Beispiel zur Anwendung dieses Lemmas wollen wir uns noch einmal die Funktion x−1 f : R\{−1} → R\{1}; x 7→ x+1 der letzten Sitzung anschauen. Wir hatten bereits die Gleichung y = f (x) als x = (1 + y)/(1 − y) aufgelöst, d.h. die Umkehrfunktion g = f −1 von f ist g(x) = (1 + x)/(1 − x). Wir wollen dies noch einmal, unabhängig von unserer früheren Rechnung, beweisen. Hierzu können wir die Funktion g von vornherein als g : R\{1} → R\{−1}; x 7→ 1+x 1−x definieren, was wegen 1 + x 6= −(1 − x) für alle x ∈ R sinnvoll ist. Dann rechnen wir die beiden Hintereinanderausführungen g ◦ f und f ◦ g aus. Für jedes x ∈ R\{−1} ist g(f (x)) = 1+ 1 + f (x) = 1 − f (x) 1− x−1 x+1 x−1 x+1 = x+1+x−1 2x = =x x + 1 − (x − 1) 2 = 2x 1 + x − (1 − x) = = x, 1+x+1−x 2 und für jedes x ∈ R\{1} haben wir g(x) − 1 f (g(x)) = = g(x) + 1 1+x 1−x 1+x 1−x −1 +1 d.h. es gelten g ◦ f = idR\{−1} und f ◦ g = idR\{1} . Nach dem eben bewiesenen Lemma ist f damit bijektiv mit der Umkehrabbildung f −1 = g. Auf diese Weise kann man natürlich nur vorgehen wenn man bereits einen Kandidaten für die Umkehrfunktion von f besitzt. Es gibt tatsächlich erstaunlich häufig Situationen in denen eine solche vermutete Umkehrfunktion offensichtlich ist, und selbst in Fällen in denen man rechnen muss um g zu finden kann es dann einfacher sein den Beweis der Aussage f −1 = g unter Verwendung des obigen Lemmas zu führen. Zum Abschluß beweisen wir noch ein Lemma über die Umkehrfunktionen von Kompositionen. Lemma 2.4 (Hintereinanderausführungen bijektiver Funktionen) Seien f : A → B und g : B → C zwei bijektive Funktionen. Dann ist auch g◦f : A → C bijektiv und es gilt (g ◦ f )−1 = f −1 ◦ g −1 . 71 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 Beweis: Wir betrachten die Abbildung h := f −1 ◦ g −1 : C → A. Mit dem Assoziativgesetz der Hintereinanderausführung Lemma 1 ergibt sich (g ◦ f ) ◦ h = g ◦ (f ◦ h) = g ◦ (f ◦ (f −1 ◦ g −1 )) = g ◦ ((f ◦ f −1 ) ◦ g −1 ) = g ◦ (idB ◦ g −1 ) = g ◦ g −1 = idC , und analog folgt auch h ◦ (g ◦ f ) = idA . Nach Lemma 3 ist g ◦ f bijektiv mit (g ◦ f )−1 = h = f −1 ◦ g −1 . Dass g ◦ f bijektiv ist folgt natürlich auch aus Lemma 2, wir wollten hier aber einen davon unabhängigen Beweis vorführen. $Id: komplex.tex,v 1.21 2017/02/18 17:11:53 hk Exp $ §3 Die komplexen Zahlen Die komplexen Zahlen wurden ursprünglich zur Lösung der Gleichung dritten Grades eingeführt. Man kann die allgemeine Gleichung dritten Grades x3 + ax2 + bx + c = 0 zunächt analog zur quadratischen Ergänzung auf die Normalform x3 + px + q = 0 bringen, und für diese Gleichung gibt es eine Lösungsformel, die sogenannte Formel von Cardano. Die volle Cardano-Formel beschreibt alle drei Lösungen der Gleichung x3 + px + q = 0, aber für unsere Zwecke reicht es die erste, und auch einfachste, dieser drei Lösungen hinzuschreiben. Diese Lösung ist gegeben als √ 3 p D 2p x= mit D := −108q + 12 12p3 + 81q 2 . −√ 3 6 D Wir wollen als ein konkretes Beispiel einmal beginnen die Gleichung x3 − 3 1 x− =0 50 250 durchzurechnen. Hier ist p = −3/50 und q = −1/250. Damit wird 81 34 12p + 81q = − =− 2 6 62500 2 ·5 p p und wir sehen das es überhaupt keine reelle Wurzel 12p3 + 81q 2 = −81/62500 gibt. Die komplexen Zahlen entstanden jetzt indem dieses Problem einfach ignoriert wird, d.h. wir rechnen einfach weiter und erhalten r p 34 32 √ 9 √ 12p3 + 81q 2 = − 2 6 = −1 = −1 2 ·5 2 · 53 250 3 2 72 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 und schließlich p √ 54 54 54 √ −1 = D = −108q + 12 12p3 + 81q 2 = + (1 + −1). 125 125 125 Um die Cardano-Formel anzuwenden, muss jetzt als nächster √ √ Schritt die dritte Wurzel 3 D berechnet werden. Schreiben wir zur Abkürzung i := −1, so erhalten wir √ √ √ 3 1 + i = 2−4/3 ( 3 + 1 + i · ( 3 − 1)). Wie man diese Wurzel findet werden wir erst später in diesem Kapitel sehen, für dieses Beispiel prüfen wir einfach nach das es sich um eine Wurzel handelt. Zunächst ist 3 √ √ 2−4/3 ( 3 + 1 + i · ( 3 − 1)) √ √ √ √ √ 1 √ = ( 3 + 1)3 + 3i( 3 + 1)2 ( 3 − 1) + 3i2 ( 3 + 1)( 3 − 1)2 + i3 ( 3 − 1)3 16 √ √ √ 2 3 2 3 und √ wegen i√ = −1, i √= i · i = −i, ( 3 + 1) · ( 3 − 1) = 2 sowie ( 3 ± 1) = 3 3 ± 9 + 3 3 ± 1 = 6 3 ± 10 wird −4/3 2 3 √ √ ( 3 + 1 + i · ( 3 − 1)) √ √ √ 1 √ = (6 3 + 10 + 6i( 3 + 1) − 6( 3 − 1) − i(6 3 − 10)) = 1 + i, 16 die angegebene Wurzel ist also korrekt. Hieraus folgt weiter √ 3 √ √ 3 3 √ D = 21/3 3 1 + i = ( 3 + 1 + i( 3 − 1)) 5 10 mit dem Kehrwert √ √ 1 10 3 + 1 − i( 3 − 1) √ √ √ √ = · √ 3 3 ( 3 + 1 + i( 3 − 1)) · ( 3 + 1 − i( 3 − 1)) D √ √ √ 3 + 1 − i( 3 − 1) 5 √ 10 √ · √ = = ( 3 + 1 − i( 3 − 1)). 3 ( 3 + 1)2 − i2 ( 3 − 1)2 12 Als Lösung der Gleichung dritten Grades erhalten wir √ 3 2p D −√ x = 3 6 D √ √ 1 √ 3 5 √ = ( 3 + 1 + i( 3 − 1)) + · ( 3 + 1 − i( 3 − 1)) 20 25 12 √ √ 1 √ 1 √ = ( 3 + 1 + i( 3 − 1)) + ( 3 + 1 − i( 3 − 1)) 20 √ 20 √ 1+ 3 1 = · 2( 3 + 1) = . 20 10 73 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 Dieses Ergebnis kann man dann durch Einsetzen in die Ausgangsgleichung verifizieren, worauf wir hier aber verzichten wollen. In diesem Beispiel haben wir jetzt gesehen, dass die Cardano Formel auf Wurzeln negativer Zahlen führt und man mit diesen einfach weiterrechnet. Wir wollen also so tun als würde es Wurzeln aus negativen Zahlen geben, und die komplexen Zahlen sind dann das was herauskommt wenn wir zu den reellen Zahlen die Wurzeln negativer Zahlen hinzunehmen und normal rechnen“. Das ist natürlich ” keine mathematische Definition, zu dieser kommen wir erst etwas später. Wir können die Situation gleich ein wenig vereinfachen. Wie im Beispiel brauchen √ wir gar keine Wurzeln aus beliebigen negativen Zahlen, eine einzige Wurzel i := √ √ √ √ −1 reicht bereits aus und dann √ ist für jedes positive x ∈ R auch −x = x −1 = x · i. Die Schreibweise i = −1 wird in der Mathematik durchgängig verwendet, in einigen anderen Gebieten finden Sie gelegentlich auch andere Schreibweisen, etwa j“ statt i“ in der ” ” Elektrotechnik. Was brauchen wir neben i jetzt an weiteren neuen Zahlen“? Wenn ” wir normal rechnen wollen müssen wir insbesondere die Potenzen von i bilden können, und diese ergeben sich als i2 = −1, i3 = i2 · i = −i, i4 = (i2 )2 = (−1)2 = 1, i5 = i4 · i = i, . . . und so weiter. Wir brauchen also nur erste Potenzen von i und betrachten daher Zahlen der Form a + ib mit a, b ∈ R. Derartige Zahlen addieren und multiplizieren sich gemäß der Formeln (a1 + ib1 ) + (a2 + ib2 ) = a1 + a2 + i(b1 + b2 ), (a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + i(a1 b2 + a2 b1 ) + i2 b1 b2 = a1 a2 − b1 b2 + i(a1 b2 + a2 b1 ). Insbesondere haben Summen und Produkte von Zahlen der Form a + ib (a, b ∈ R) stets wieder diese Form. Dies läßt die Hoffnung zu, dass es für die komplexen Zahlen ausreichen könnte überhaupt nur Zahlen z = a + ib mit a, b ∈ R zuzulassen. Das einzige Problem ist das es dann nicht unmittelbar klar ist ob wir die Division immer durchführen können, ob also 1/(a + ib) auch wieder von der Form a0 + ib0 ist. Um diese Frage zu klären, behandeln wir zunächst ein Beispiel 1 2−i 2−i 2 1 2−i = = 2 = = − i. 2 2+i (2 + i) · (2 − i) 2 −i 5 5 5 Hier haben wir mit 2−i erweitert um im Nenner die dritte binomische Formel anwenden zu können. Eine analoge Rechnung kann man auch allgemein durchführen, für alle a, b ∈ R mit (a, b) 6= (0, 0) ist a − ib a − ib a b 1 = = 2 = − i · . a + ib (a + ib) · (a − ib) a + b2 a2 + b 2 a2 + b2 Mit diesen Formeln ist festgelegt wie man mit komplexen Zahlen a + ib zu rechnen hat. Es ist nur nicht klar ob das überhaupt funktioniert. Es ist denkbar das man 74 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 durch konsequente Anwendung der Rechenregeln für die komplexen Zahlen letztlich zu einem Widerspruch gelangt. Für die Anwendung auf die Cardano Formel ist dies völlig belanglos, wie wir gesehen haben verschwinden in der Cardano Formel am Ende der Rechnung alle komplexen Größen und es bleibt ein reelles Ergebnis übrig. Dass dieses Ergebnis dann tatsächlich eine Lösung der gegebenen Gleichung dritten Grades ist, kann man einfach durch Einsetzen überprüfen, die logische Konsistenz der Rechnung spielt da keine Rolle. Da die komplexen Größen in der der Cardano Formel nur zwischendurch als Zwischenergebnisse auftauchen und am Ende wieder alle weg sind, haben sie in diesem √ Zusammenhang etwas Geisterhaftes“ und dies führt zu der Sprechweise von i = −1 ” als der imaginären Einheit“. Die Zahlen iy mit y ∈ R werden dann entsprechend ” imaginär“ genannt. Wie wir im nächsten Abschnitt sehen werden, gibt es eine ganz ” konkrete und explizite Konstruktion der komplexen Zahlen, und an ihnen ist damit nichts mehr imaginär“. Die Sprechweise von i als der imaginären Einheit hat damit ” eigentlich ihre Berechtigung verloren, sie wird aber traditionell weiter verwendet. 3.1 Die Gaußsche Zahlenebene Wir wollen jetzt eine exakte mathematische Definition der komplexen Zahlen angeben. Im −2+3i 3 Diese Definition wird uns zugleich auch ein besseres Verständnis der komplexen Zahlen 2 geben so, dass wir beispielsweise auch leicht sehen können wie man dritte Wurzeln komplei 1 xer Zahlen berechnet, was etwa für die Carda2+ 1 i 2 no Formel von Interesse ist. Die Grundidee ist −2 −1 1 2 3 Re dabei sehr einfach, wir denken uns die kom- −3 plexe Zahl a + ib mit a, b ∈ R als den Punkt −1 (a, b) ∈ R2 der Ebene. Wir führen die komplexen Zahlen dann ein, indem eine Addition −2 und eine Multiplikation von Punkten der Ebene definiert wird. Wir wissen auch bereits wie −3 wir dies tun müssen, Summen und Produkte von Zahlen der Form a + ib haben wir ja bereits oben berechnet, und wir stellen diese Rechnung nun auf den Kopf und verwenden ihr Ergebnis als Definition von Addition und Multiplikation. Wir formulieren das Ergebnis dieser Überlegungen als einen Satz. Satz 3.1 (Konstruktion der komplexen Zahlen) Die komplexen Zahlen sind die Menge C := R × R versehen mit der durch die Formeln (a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ), (a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + a2 b1 ) 75 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 für a1 , a2 , b1 , b2 ∈ R definierten Addition und Multiplikation. Diese erfüllen die in §1.1 aufgelisteten Körperaxiome mit der Null (0, 0) und der Eins (1, 0), wobei additives und multiplikatives Inverses für a, b ∈ R durch die Formeln −1 −(a, b) := (−a, −b) und (a, b) := a b ,− 2 2 2 a +b a + b2 für (a, b) 6= (0, 0) gegeben sind. Fassen wir R als die x-Achse auf, schreiben also x = (x, 0) für x ∈ R, so stimmen reelle und komplexe Addition und Multiplikation auf R überein. Schließlich erfüllt die imaginäre Einheit i := (0, 1) ∈ C die Gleichungen i2 = −1 und a + ib = (a, b) für alle a, b ∈ R. Beweis: Wir gehen zunächst die neun Körperaxiome durch und verwenden dabei deren Bezeichnungen aus §1.1. In der Vorlesung hatten wir darauf verzichtet dies alles aufzuschreiben, hier soll aber der vollständige Beweis angegeben werden. (A1) Seien z1 , z2 , z3 ∈ C und schreibe zj = (aj , bj ) mit aj , bj ∈ R für j = 1, 2, 3. Dann gilt (z1 + z2 ) + z3 = (a1 , b1 ) + (a2 , b2 ) + (a3 , b3 ) = (a1 + a2 , b1 + b2 ) + (a3 , b3 ) = ((a1 + a2 ) + a3 , (b1 + b2 ) + b3 ) = (a1 + (a2 + a3 ), b1 + (b2 + b3 )) = (a1 , b1 ) + (a2 + a3 , b2 + b3 ) = (a1 , b1 ) + (a2 , b2 ) + (a3 , b3 ) = z1 + (z2 + z3 ). (A2) Seien z1 , z2 ∈ C und schreibe zj = (aj , bj ) mit aj , bj ∈ R für j = 1, 2. Dann gilt z1 + z2 = (a1 , b1 ) + (a2 , b2 ) = (a1 + a2 , b1 + b2 ) = (a2 + a1 , b2 + b1 ) = (a2 , b2 ) + (a1 , b1 ) = z2 + z1 . (A3) Ist z ∈ C so schreibe z = (a, b) mit a, b ∈ R und erhalte (0, 0) + z = (0, 0) + (a, b) = (0 + a, 0 + b) = (a, b) = z. Damit ist (0, 0) die Null der komplexen Zahlen. (A4) Ist z ∈ C so schreibe z = (a, b) mit a, b ∈ R. Dann ist auch −z := (−a, −b) ∈ C und es gilt (−z) + z = (−a, −b) + (a, b) = ((−a) + a, (−b) + b) = (0, 0), d.h. −z = (−a, −b) ist das additive Inverse von z. 76 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 (M1) Seien z1 , z2 , z3 ∈ C und schreibe zj = (aj , bj ) mit aj , bj ∈ R für j = 1, 2, 3. Dann gilt (z1 · z2 ) · z3 = (a1 , b1 ) · (a2 , b2 ) · (a3 , b3 ) = (a1 a2 − b1 b2 , a1 b2 + a2 b1 ) · (a3 , b3 ) = ((a1 a2 − b1 b2 )a3 − (a1 b2 + a2 b1 )b3 , (a1 a2 − b1 b2 )b3 + a3 (a1 b2 + a2 b1 )) = (a1 a2 a3 − b1 b2 a3 − a1 b2 b3 − b1 a2 b3 , a1 a2 b3 − b1 b2 b3 + a1 b2 a3 + b1 a2 a3 ) = (a1 (a2 a3 − b2 b3 ) − b1 (a2 b3 + a3 b2 ), a1 (a2 b3 + a3 b2 ) + (a2 a3 − b2 b3 )b1 ) = (a1 , b1 ) · (a2 a3 − b2 b3 , a2 b3 + a3 b2 ) = (a1 , b1 ) · (a2 , b2 ) · (a3 , b3 ) = z1 · (z2 · z3 ). (M2) Seien z1 , z2 ∈ C und schreibe zj = (aj , bj ) mit aj , bj ∈ R für j = 1, 2. Dann gilt z1 · z2 = (a1 , b1 ) · (a2 , b2 ) = (a1 a2 − b1 b2 , a1 b2 + a2 b1 ) = (a2 a1 − b2 b1 , a2 b1 + a1 b2 ) = z2 · z1 . (M3) Ist z ∈ C so schreibe z = (a, b) mit a, b ∈ R und erhalte (1, 0) · z = (1, 0) · (a, b) = (1 · a − 0 · b, 1 · b + a · 0) = (a, b) = z. Da auch (1, 0) 6= (0, 0) gilt ist (1, 0) damit die Eins der komplexen Zahlen. (M4) Ist z ∈ C mit z 6= (0, 0) so schreibe z = (a, b) mit a, b ∈ R. Wegen z 6= (0, 0) ist a 6= 0 oder b 6= 0, also a2 > 0 oder b2 > 0 und somit a2 + b2 > 0, d.h. a2 + b2 6= 0 und z −1 := (a/(a2 + b2 ), −b/(a2 + b2 )) ∈ C ist eine wohldefinierte komplexe Zahl. Es gilt z −1 ·z = a b , − a2 + b2 a2 + b2 · (a, b) = a2 b2 ab ab + , 2 − 2 2 2 2 2 2 a +b a +b a +b a + b2 = (1, 0) d.h. z −1 ist das multiplikative Inverse von z. (D) Seien z1 , z2 , z3 ∈ C und schreibe zj = (aj , bj ) mit aj , bj ∈ R für j = 1, 2, 3. Dann gilt z1 · (z2 + z3 ) = (a1 , b1 ) · (a2 , b2 ) + (a3 , b3 ) = (a1 , b1 ) · (a2 + a3 , b2 + b3 ) = (a1 (a2 + a3 ) − b1 (b2 + b3 ), a1 (b2 + b3 ) + (a2 + a3 )b1 ) = (a1 a2 + a1 a3 − b1 b2 − b1 b3 , a1 b2 + a1 b3 + a2 b1 + a3 b1 ) = (a1 a2 − b1 b2 + a1 a3 − b1 b3 , a1 b2 + a2 b1 + a1 b3 + a3 b1 ) = (a1 a2 − b1 b2 , a1 b2 + a2 b1 ) + (a1 a3 − b1 b3 , a1 b3 + a3 b1 ) = (a1 , b1 ) · (a2 , b2 ) + (a1 , b1 ) · (a3 , b3 ) = z1 · z2 + z1 · z3 . 77 Mathematik für Physiker I, WS 2016/2017 Freitag 18.11.2016 Damit haben wir alle neun Körperaxiome verifiziert. Für alle x, y ∈ R haben wir weiter (x, 0) + (y, 0) = (x + y, 0) und (x, 0) · (y, 0) = (xy, 0), also stimmen die reelle und die komplexe Addition und Multiplikation auf den reellen Zahlen überein. Die Aussagen über die imaginäre Einheit ergeben sich durch i2 = (0, 1) · (0, 1) = (−1, 0) = −1 und a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0, b) = (a, b) für alle a, b ∈ R. Wie schon in §1 erwähnt bedeutet die Gültigkeit der neun Körperaxiome das wir mit den komplexen Zahlen bezüglich der Grundrechenarten normal rechnen können, insbesondere haben wir wie bei den reellen Zahlen auch wieder Subtraktion und Division und die Bruchrechenregeln gelten. Es gibt allerdings keine Methode die komplexen Zahlen so anzuordnen, dass die Axiome eines angeordneten Körpers gelten. In der Tat hatten wir in §1 eingesehen, dass diese Axiome implizieren das Quadrate positiv oder Null sind und das −1 negativ ist, da in C aber −1 = i2 ein Quadrat ist, kann es keine Anordnung geben. Die Addition komplexer Zahlen ist die vertraute Addition von Vektoren in der Ebene, die geometrische Interpretation der Multiplikation ist etwas komplizierter, und wird erst im nächsten Abschnitt behandelt. Wir starten die weitergehende Untersuchung der komplexen Zahlen mit der Formel 1 a − ib = 2 a + ib a + b2 für das multiplikative Inverse einer komplexen Zahl. Sowohl der Zähler als auch der Nenner der rechten Seite dieser Gleichung haben eine geometrische Bedeutung. Definition 3.1: Sei z = x + iy mit x, y ∈ R eine komplexe Zahl. (a) Die reelle Zahl Re z := x heißt der Realteil von z, er ist die Orthogonalprojektion von z auf die x-Achse. (b) Die reelle Zahl Im z := y heißt der Imaginärteil von z, er ist die Orthogonalprojektion von z auf die y-Achse. (c) Die komplexe Zahl z := x − iy heißt die komplex Konjugierte zu z. Diese ist die Spiegelung von z an der x-Achse. p (d) Die reelle Zahl |z| := x2 + y 2 heißt der Betrag von z. Nach dem Satz des Pythagoras ist |z| der Abstand des Punktes z der Ebene zum Nullpunkt 0 = (0, 0). 78 Mathematik für Physiker I, WS 2016/2017 b1 + b 2 z1 + z 2 Freitag 18.11.2016 z=a+ib z=(x,y) r b2 z2 y x b1 z1 z=a−ib a2 a1 a1 + a 2 Addition Konjugation Betrag Gelegentlich wird die komplex Konjugierte einer Zahl z ∈ C auch mit dem Symbol z ∗ anstelle von z bezeichnet, diese Schreibweise werden wir in diesem Skript aber nicht verwenden. Mit diesen Bezeichnungen gilt für jedes z ∈ C\{0} die Gleichung 1 z = 2 z |z| also auch zz = |z|2 . Trivialerweise gilt diese Gleichung auch für z = 0. Die Grundeigenschaften der komplexen Konjugation werden im folgenden Lemma zusammengestellt: Lemma 3.2 (Grundeigenschaften der komplexen Konjugation) Seien z, w ∈ C. Dann gelten: (a) Es ist z + w = z + w. (b) Es ist z · w = z · w. (c) Im Fall z 6= 0 sind z 1 = 2 und z |z| 1 1 = . z z (d) Es sind z = z, |z| = |z| und zz = |z|2 . (e) Es gelten Re(z) = z+z z−z und Im(z) = . 2 2i (f ) Genau dann ist z ∈ R wenn z = z gilt. Beweis: Wir schreiben z = x + iy und w = u + iv mit x, y, u, v ∈ R. (a) Es ist z + w = (x + u) + i(y + v) = (x + u) − i(y + v) = x − iy + u − iv = z + w. 79 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 (b) Es ist zw = xu − yv + i(xv + yu) = xu − yv − i(xv + yu) = xu + (−y)(−v) + i(x(−v) + (−y)u) = (x − iy) · (u − iv) = z · w. (c) Die erste Gleichung haben wir bereits oben festgehalten, und für die andere Gleichung ergibt sich mit (b) 1 1=1=z· =z· z 1 1 1 =⇒ = . z z z (d) Diese Aussagen sind klar, beziehungsweise bereits oben bewiesen. (e) Es gelten z + z = 2x und z − z = 2iy. (f ) Klar. Vorlesung 9, Montag 21.11.2016 In der letzten Sitzung hatten wir die komplexen Zahlen eingeführt, diese haben die Form z = x + iy mit zwei reellen Zahlen x, y ∈ R. Dabei heißt x der Realteil und y der Imaginärteilpvon z. Fassen wir z als den Punkt (x, y) der Ebene auf, so hat z den Abstand |z| = x2 + y 2 zum Nullpunkt √ und man nannte |z| den Betrag der Zahl z. Ist z dabei reell, also y = 0, so ist |z| = x2 = |x|, d.h. für reelle Zahlen stimmt der komplexe Betrag mit dem reellen Betrag aus §1.3 überein. Wir wollen jetzt einsehen, dass der komplexe Betrag dieselben Eigenschaften wie der reelle Betrag hat. Lemma 3.3 (Grundeigenschaften des komplexen Betrags) Seien z, w ∈ C. Dann gelten: √ (a) Es ist max{| Re z|, | Im z|} ≤ |z| ≤ 2 max{| Re z|, | Im z|}. (b) Es gilt |zw| = |z| · |w|. (c) Es gilt die Dreiecksungleichung |z + w| ≤ |z| + |w|. (d) Es gilt |z − w| ≥ |z| − |w|. (e) Es gilt |z| − |w| ≤ |z − w|. 80 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Beweis: (a) Schreibe z = x + iy mit x, y ∈ R und setze M := max{| Re z|, | Im z|} = max{|x|, |y|}. Wegen p p p √ |x| = x2 ≤ x2 + y 2 = |z| und |y| = y 2 ≤ x2 + y 2 = |z| ist dann M ≤ |z|. Weiter haben wir p p √ √ |z| = x2 + y 2 = |x|2 + |y|2 ≤ M 2 + M 2 = 2M. (b) Nach Lemma 2.(b) gilt √ √ √ √ |zw| = zwzw = zzww = zz · ww = |z| · |w|. (c) Es gilt nach Lemma 2.(a,b,d,e) und Teil (a,b) |z + w|2 = (z + w) · (z + w) = (z + w) · (z + w) = zz + zw + zw + ww = |z|2 + zw + zw + |w|2 = |z|2 + 2 Re(zw) + |w|2 ≤ |z|2 + 2| Re(zw)| + |w|2 ≤ |z|2 + 2|zw| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = (|z| + |w|)2 , also auch |z + w| ≤ |z| + |w|. (d,e) Analog zu §1.Lemma 2. Sind z, w ∈ C, so zeigt die Interpretation der komplexen Addition als Vektoraddition, dass es, abgesehen von Randfällen, ein Dreieck mit den Seitenlängen |z|, |w| und |z +w| gibt. Die Dreiecksungleichung für den Betrag wird dann zur geometrischen Dreiecksungleichung das in einem Dreieck jede Seite höchstens so lang wie die Summe der beiden anderen Seiten ist. Mit Hilfe des komplexen Betrages können wir nun auch definieren wann eine Menge komplexer Zahlen beschränkt sein soll. In §1 hatten wir eine Menge M ⊆ R beschränkt genannt, wenn sie nach oben und nach unten beschränkt ist und wir hatten eingesehen, dass dies genau dann der Fall ist, wenn es eine Zahl c ≥ 0 mit |x| ≤ c für alle x ∈ M gibt. Letztere Beschreibung kann man leicht auf C erweitern. Definition 3.2 (Beschränkte Mengen in C) Eine Menge M ⊆ C heißt beschränkt wenn es eine reelle Zahl c ∈ R mit c ≥ 0 und |z| ≤ c für alle z ∈ M gibt. Insbesondere ist eine Teilmenge M ⊆ R genau dann als Teilmenge von R beschränkt wenn sie als Teilmenge von C beschränkt ist. Da der komplexe Betrag der Abstand zum Nullpunkt ist, kann man alternativ auch sagen, dass eine Teilmenge M ⊆ C genau dann beschränkt ist, wenn sie Teilmenge eines ausreichend grossen Kreises ist. Weiter behaupten wir das eine komplexe Menge M ⊆ C genau dann beschränkt ist, wenn die reellen Mengen Re(M ) := {Re z|z ∈ M } und Im(M ) := {Im z|z ∈ M } 81 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 beschränkt sind. Ist nämlich M ⊆ C beschränkt, so gibt es ein c ≥ 0 mit |z| ≤ c für alle z ∈ M und mit Lemma 3.(a) folgt auch | Re z| ≤ |z| ≤ c und | Im z| ≤ |z| ≤ c für alle z ∈ M . Sind umgekehrt Re(M ) und Im(M ) beschränkt, so gibt es Konstanten c1 , c2 ≥ 0 mit | Re z| ≤ c1 und | Im z| ≤ c2 für alle z ∈ M . Ist also c := √ 2 max{c1 , c2 } ≥ 0, so ist nach Lemma 3.(a) auch √ √ |z| ≤ 2 max{| Re z|, | Im z|} ≤ 2 max{c1 , c2 } = c für alle z ∈ M . Wenn man will kann man dies alles auch in geometrischer Sprache begründen, dass M beschränkt ist bedeutet das M in einem Kreis enthalten ist, und das die Real- und die Imaginärteile der Elemente von M jeweils beschränkt sind bedeutet das M in einem Rechteck enthalten ist. Damit ist die Beschränktheitsaussage ebenfalls klar, denn jeder Kreis ist in einem ausreichend großen Rechteck enthalten und umgekehrt ist jedes Rechteck in einem geeigneten Kreis enthalten. 3.2 Die komplexe Multiplikation Wir haben bereits gesehen das die komplexe Addition y einfach die gewöhnliche Addition von Vektoren im Parallelogram ist, dagegen ist die komplexe Multiplikation durch eine Formel gegeben der man ihre geometrische Bez=reφ r deutung nicht direkt ansieht. Dies liegt im wesentlichen eφ φ daran das die bisher verwendeten cartesischen Koordinax ten der Ebene zur Beschreibung der komplexen Multiplikation nicht gut geeignet sind, wesentlich günstiger ist es die sogenannten Polarkoordinaten zu verwenden. Angenommen wir haben einen Punkt z ∈ C = R2 der Ebene. Dann können wir die Lage von z beschreiben indem wir zum einen den Abstand r ≥ 0 von z zum Nullpunkt und zum anderen den Winkel φ den z mit der x-Achse bildet angeben. Man nennt r und φ die Polarkoordinaten der komplexen Zahl z. Zum besseren Verständnis der Polarkoordinaten betrachten wir für jedes φ ∈ R den Punkt e(φ) ∈ C auf dem Einheitskreis, also dem Kreis mit Radius 1 und Mittelpunkt 0, der mit der x-Achse den Winkel φ bildet. Bee( ) 1 trachten wir das nebenstehende Bild, so ergibt sich der y Punkt e(φ) explizit als x e(φ) = (cos φ, sin φ) = cos φ + i sin φ. Die komplexe Zahl z ∈ C zu den gegebenen Polarkoordinaten r, φ ist dann z = re(φ). 82 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Beachte das die erste Polarkoordinate r wegen |re(φ)| = r|e(φ)| = r immer als der Betrag von z eindeutig festgelegt ist, der Winkel φ aber nicht. Man kann zu φ noch beliebige Vielfache von 2π, also von 360◦ im Gradmaß, hinzuaddieren ohne das sich z ändert. Um ein eindeutiges φ zu kriegen muss man die erlaubten Winkel auf ein Intervall der Länge 2π einschränken. Für r = 0 ist φ sogar völlig willkürlich. Schauen wir uns einmal drei kleine Beispiele an. 1. Sei z = i. Der Abstand zu 0 ist r = |i| = 1, und da i im oberen Teil der yAchse liegt, ist der Winkel zur x-Achse gleich 90◦ , beziehungsweise φ = π/2. Also i = 1 · e(π/2) in Polarkoordinaten. 2. Die komplexe Zahl z = 1 + i hat als Abstand zum Nullpunkt √ √ r = |1 + i| = 12 + 12 = 2. Außerdem liegt z auf der Winkelhalbierenden im ersten Quadranten, unser Win√ kel ist also φ = π/4. Polarkoordinaten sind damit 1 + i = 2 e(π/4). 3. Nehme jetzt z = −i. Es ist r = | − i| = 1. Was als Winkel genommen wird, ist nicht mehr so eindeutig. Laufen wir im Gegenuhrzeigersinn um den Einheitskreis, so durchqueren wir drei volle Quadranten, also φ = 3π/2. Laufen wir dagegen im Uhrzeigersinn um den Kreis, so wird φ = −π/2. Diese beiden Winkel unterscheiden sich gerade um 2π. Welchen Winkel man als die Polarkoordinate“ ansieht ” hängt von der gewählten Normierung ab und ist damit letztlich willkürlich. Die zweite Polarkoordinate φ wird oft auch als das Argument der komplexen Zahl z bezeichnet, und mit dem Symbol φ = arg z notiert. Wie schon bemerkt ist das Argument nur bis auf Vielfache von 2π festgelegt und für z = 0 ist es sogar völlig beliebig. Um eine gewisse Eindeutigkeit zu erhalten schränken wir uns auf Winkel φ mit |φ| < π ein, also −π < φ < π. Wegen e(π) = cos π + i sin π = −1 werden dann die positiven Vielfachen von −1 ausgeschlossen. Definition 3.3 (Hauptwert des Arguments) Die geschlitzte komplexe Ebene ist die Menge C− := C\R≤0 und für z ∈ C− bezeichnen wir das Argument φ von z mit |φ| < π als den Hauptwert von arg z. Die hierdurch definierte Funktion arg : C− → (−π, π) heißt der Hauptzweig des Arguments. Für z ∈ C− haben wir also eindeutig festgelegte Polarkoordinaten r = |z|, φ = arg z wenn wir immer den Hauptwert des Arguments verwenden. Diese Wahl ist natürlich nicht die einzig mögliche, in vielen Zusammenhängen, wie beispielsweise im nächsten 83 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Abschnitt, ist die Normierung 0 ≤ φ < 2π passender. Für den Moment wollen wir aber den Hauptwert verwenden. Haben wir die komplexe Zahl z = x + iy mit x, y ∈ R in cartesischen Koordinaten gegeben, so ist die Berechnung der Polarkoordinaten r, φ im Prinzip nicht schwer, es gilt aber einige p Fälle zu unterscheiden. Die erste Polarkoordinate ist unproblematisch r = |z| = x2 + y 2 . Zur Berechnung von φ haben wir verschiedene Gleichungen zur Auswahl cos φ = x y sin φ y , sin φ = und im Fall x 6= 0 auch tan φ = = . r r cos φ x Wir nehmen z ∈ C− an und wollen für φ den Hauptwert des Arguments verwenden, also |φ| < π. Das Problem ist das wir nicht einfach irgendeine der trigonometrischen Arcus Funktionen verwenden können, da diese die zugehörige trigonometrische Funktion immer nur auf einem bestimmten Intervall der Länge π umkehren. In der Vorlesung hatten wir nur den Weg über den Cosinus besprochen, hier gehen wir der Reihe nach alle möglichen Berechnungsmethoden durch. 1. Der Weg über x/r = cos φ. Der Arcus Cosinus kehrt den Cosinus zwischen 0 und π um, er kann also unverändert für z in einem der ersten beiden Quadranten, d.h. für y ≥ 0 verwendet werden. Dort ist dann φ = arccos(x/r). In den anderen beiden Quadranten ist y < 0 also −π < φ < 0. Damit ist 0 < −φ < π und cos(−φ) = cos φ = x/r also −φ = arccos(x/r) und somit φ = − arccos(x/r). Insgesamt ist damit ( x arccos(x/r), y ≥ 0, φ = sign(y) · arccos = r − arccos(x/r), y < 0. Beachte das diese Formel auch für y = 0 funktioniert da wegen z ∈ C− dann x > 0 und φ = 0 ist. 2. Der Weg über y/r = sin φ. Der Arcus Sinus kehrt den Sinus zwischen −π/2 und π/2 um, er kann also unverändert für z im ersten und im vierten Quadranten verwendet werden, d.h. für x ≥ 0. Dort ist dann φ = arcsin(y/r). Nun sei z im zweiten Quadranten, also π/2 < φ < π. Dann ist π − φ ∈ (0, π/2) mit y y y sin(π − φ) = sin φ = =⇒ π − φ = arcsin =⇒ φ = π − arcsin . r r r Ist z im verbleibenden dritten Quadranten, so haben wir −π < φ < −π/2 also ist −(φ + π) ∈ (−π/2, 0) mit sin(−(φ + π)) = − sin(φ + π) = sin φ = 84 y y =⇒ −(φ + π) = arcsin r r y =⇒ φ = − π + arcsin . r Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Insgesamt ist damit x ≥ 0, arcsin(y/r), φ = π − arcsin(y/r), x < 0, y > 0, −(π + arcsin(y/r)), x, y < 0. 3. Der Weg über tan φ = y/x. Der Arcus Tangens kehrt den Tangens zwischen −π/2 und π/2 unter Ausschluß der Grenzen um, also für x > 0. Dort ist dann φ = arctan(y/x). Im zweiten Quadranten unter Ausschluß der y-Achse ist π/2 < φ < π und somit φ − π ∈ (−π/2, 0) mit y y y tan(φ − π) = tan φ = =⇒ φ − π = arctan =⇒ φ = π + arctan . x x x Im dritten Quadranten haben wir schließlich −π < φ < −π/2 also 0 < φ + π < π/2 und y y y tan(φ + π) = tan φ = =⇒ φ + π = arctan =⇒ φ = arctan − π. x x x Insgesamt ist damit arctan(y/x), x > 0, x = 0, y > 0, π/2, φ = π + arctan(y/x), x < 0, y > 0, −π/2, x = 0, y < 0, arctan(y/x) − π, x, y < 0. Für Punkte auf der negativen x-Achse, also x < 0, y = 0, ist kein Hauptwert des Arguments festgelegt, wenn man will kann man für diese φ = π setzen. Dies ist auch das Ergebnis das sich mit der ersten Formel ergibt, denn dann ist arccos(x/r) = arccos(−1) = π. Wählen wir eine andere Normierung des Arguments so ergeben sich auch andere Formeln. Eine oft verwendete alternative Normierung für die Werte φ des Arguments ist wie schon erwähnt 0 ≤ φ < 2π. In dieser Normierung unterscheidet sich das Argument φ vom Hauptwert nur im dritten und vierten Quadranten also für y < 0. Dort muss 2π zum Hauptwert addiert werden. In der Arcus Cosinus Formulierung ist damit beispielsweise ( arccos(x/r), y ≥ 0, φ= 2π − arccos(x/r), y < 0. Entsprechend ergeben sich auch Formeln über den Arcus Sinus beziehungsweise über den Arcus Tangens. Nun können wir die Polarkoordinaten zur Beschreibung der komplexen Multiplikation einsetzen. Gegeben seien zwei komplexe Zahlen z, w ∈ C die wir in Polarkoordinaten als z = re(φ) und w = se(ψ) schreiben. Dann wird z · w = rs e(φ) · e(ψ), 85 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 und wegen |e(φ) · e(ψ)| = |e(φ)| · |e(ψ)| = 1 liegt e(φ)e(ψ) wieder auf dem Einheitskreis kann also als e(φ)e(ψ) = e(θ) für einen geeigneten Winkel θ ∈ R geschrieben werden. Das Produkt z · w hat dann die Polarkoordinaten |zw| = |z| · |w| = rs und θ. Zur Berechnung von θ verwenden wir die trigonometrischen Additionstheoreme sin(φ + ψ) = sin φ cos ψ + cos φ sin ψ und cos(φ + ψ) = cos φ cos ψ − sin φ sin ψ und berechnen e(φ) · e(ψ) = (cos φ + i sin φ) · (cos ψ + i sin ψ) = cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ) = cos(φ + ψ) + i sin(φ + ψ) = e(φ + ψ), wir können also θ = φ + ψ verwenden. Insgesamt hat die komplexe Multiplikation in Polarkoordinaten damit die Form (re(φ)) · (se(ψ)) = rs e(φ + ψ) für alle r, s ∈ R≥0 , φ, ψ ∈ R, d.h. bei der komplexen Multiplikation werden die Längen miteinander multipliziert und die Winkel addiert. 3.3 Komplexe Wurzeln Zur Behandlung von Wurzeln ist es am bequemsten die eben eingeführten Polarkoordinaten zu verwenden. Angenommen wir haben eine√komplexe Zahl a ∈ C und einen Exponenten n ∈ N mit n ≥ 1 gegeben, und wollen n a berechnen, etwas genauer formuliert wollen wir also die Gleichung z n = a nach z ∈ C auflösen. Da es für a = 0 nur die eindeutige Lösung z = 0 gibt, können wir uns auf den Fall a 6= 0 beschränken. Wir schreiben a in Polarkoordinaten a = re(φ), die wir hier auf 0 ≤ φ < 2π normieren. Machen wir für z in Polarkoordinaten den Ansatz z = se(ψ) mit s > 0, 0 ≤ ψ < 2π, so wird unsere Gleichung zu ! z n = (se(ψ))n = sn e(nψ) = re(φ). √ Dies gibt zum einen die Bedingung sn = r, der Betrag von z ist also als s = n r eindeutig festgelegt. Es verbleibt e(nψ) = e(φ). Hier führt die Mehrdeutigkeit des Arguments zu einer kleinen Komplikation, wir wissen nur das sich nψ und φ um ein ganzzahliges Vielfaches von 2π unterscheiden müssen, und wegen 0 ≤ nψ < 2nπ führt dies auf φ 2π nψ = φ + 2πk =⇒ ψ = + k · mit k ∈ N, 0 ≤ k < n. n n Damit haben wir genau n verschiedene komplexe Wurzeln von z = re(φ) nämlich √ φ 2π n n {w ∈ C|w = z} = re +k· k ∈ N, 0 ≤ k < n . n n 86 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Ein besonders wichtiger Spezialfall liegt vor wenn a = 1 ist, wenn wir also die n-ten Wurzeln der Eins bestimmen wollen. Definition 3.4 (Einheitswurzeln) Sei n ∈ N mit n ≥ 1. Eine komplexe Zahl z ∈ C heißt eine n-te Einheitswurzel wenn z n = 1 ist. Ist in unserer Rechnung a = 1, so sind die Polarkoordinaten gegeben als r = 1 und φ = 0, also ergibt sich die Menge En der n-ten Einheitswurzeln als 2πk En = e k ∈ N, 0 ≤ k < n , n und somit liegen die n-ten Einheitswurzeln alle auf dem Einheitskreis und bilden die Ecken eines regulären n-Ecks, dies ist ein n-Eck in dem alle Seitenlängen und alle Innenwinkel gleich sind. Wir fassen diese Überlegungen und einige unmittelbare Folgerungen jetzt in einem Satz zusammen. Satz 3.4 (Komplexe Wurzeln) Sei n ∈ N mit n ≥ 1 und setze ζ := e 2π n = cos 2π 2π + i sin . n n Dann bildet die Menge En der n-ten Einheitswurzeln ein in den Einheitskreis eingeschriebenes reguläres n-Eck und es gilt En = {ζ k |k ∈ N, 0 ≤ k < n}. Ist 0 6= a ∈ C eine beliebige komplexe Zahl, so hat a in C genau n verschiedene n-te p n Wurzeln, die alle den Abstand |a| vom Nullpunkt haben √ und die Ecken eines regulären n-Ecks bilden. Ist a = re(φ) mit r, φ ∈ R, r > 0 so ist n re(φ/n) eine n-te Wurzel von a. Ist w eine beliebige n-te Wurzel von a, so ist {z ∈ C|z n = a} = {ζ k w|k ∈ N, 0 ≤ k < n}. Beweis: Für jedes k ∈ N mit 0 ≤ k < n haben wir k 2πk 2π 2π e =e k· =e = ζk, n n n und damit ist die Aussage über die Einheitswurzeln bewiesen. Sei jetzte a ∈ C\{0}. Wir haben oben bereits alles bis auf die letzte Aussage über die n-ten Wurzeln von a eingesehen. Ist w ∈ C mit wn = a, so ist insbesondere w 6= 0 und für jedes z ∈ C bestehen damit die Äquivalenzen z n z z z n = a ⇐⇒ z n = wn ⇐⇒ = 1 ⇐⇒ ∈ En ⇐⇒ ∃(k ∈ N, 0 ≤ k < n) : = ζ k . w w w 87 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Die restlichen Aussagen haben wir bereits oben eingesehen. Die Einheitswurzeln spielen also √ so in etwa die Rolle von ”Vorzeichen“ n-ter Wurzeln. Hat man eine Quadratwurzel a, so sind die beiden √ möglichen Quadratwurzeln die √ beiden Werte ± a. Hat man dagegen eine n-te Wurzel n a, so ergeben sich die anderen n-ten Wurzeln durch Multiplikation mit den n-ten Einheitswurzeln. Zur exakten, also nicht numerischen, Auswertung komplexer Wurzeln ist es hilfreich möglichst viele Werte der trigomometrischen Funktionen zu kennen, und dies wollen wir hier etwas ausführlicher als in der Vorlesung beschreiben. Zunächst haben wir die Grundwerte φ 0 π/6 π/5 π/4 π/3 π/2 π cos φ √1 3/2 √ (1 + 5)/4 √ 1/ 2 1/2 0 -1 sin φ 0 q 1/2√ 2(5 − 5)/4 √ 1/ √ 2 3/2 1 0 tan φ 0√ 1/ 3 p √ 5−2 5 √1 3 0 Diese Werte dürften Sie auch in Ihrer Formelsammlung finden. Man kann sie alle geometrisch über die Definition der trigonometrischen Funktionen über rechtwinklige Dreiecke begründen, der Winkel π/5 ist aber schon etwas trickreicher und hängt mit der Konstruktion des regulären Fünfecks mit Zirkel und Lineal zusammen. Eine exakte Herleitung auf der Basis unserer Axiome ist uns an dieser Stelle sowieso nicht möglich da wir noch keine analytische Definition der trigonometrischen Funktionen haben. Eine solche folgt erst später in diesem Semester und in §12.3 werden wir die Werte in der Tabelle alle beweisen können. Daher akzeptieren wir die obige Tabelle an dieser Stelle erst einmal. Weitere Werte kann man dann über Periodizitätseigenschaften und die Additionstheoreme berechnen. Oft nützlich sind insbesondere die Halbierungsformeln, an die wir uns jetzt kurz erinnern wollen. Wir starten mit dem Additionstheorem cos(2x) = cos2 x − sin2 x = 2 cos2 x − 1 = 1 − 2 sin2 x. Setzen wir hier x/2 statt x ein, so wird diese Formel zu 2 x 2 x cos x = 2 cos − 1 = 1 − 2 sin . 2 2 Für −π ≤ x ≤ π ist −π/2 ≤ x/2 ≤ π/2 also cos(x/2) ≥ 0 und somit x r x r 1 + cos x cos = cos2 = (−π ≤ x ≤ π). 2 2 2 88 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Mit dem Sinus können wir ähnlich rechnen. Für 0 ≤ x ≤ 2π ist 0 ≤ x/2 ≤ π also sin(x/2) ≥ 0. Damit ist x r 1 − cos x . sin = 2 2 Ist schließlich 0 ≤ x < π, so ist tan x 2 sin = cos x 2 x 2 r = 1 − cos x = 1 + cos x s s (1 − cos x) · (1 + cos x) 1 − cos2 x = (1 + cos x)2 (1 + cos x)2 s sin2 x sin x = . = 2 (1 + cos x) 1 + cos x Erweitert man mit 1 − cos x statt mit 1 + cos x, so ergibt sich für 0 < x < π die alternative Formel x 1 − cos x tan . = 2 sin x Zum Beispiel sind s r √ √ √ π 1 − cos(π/6) 2− 3 6− 2 sin = = = , 12 2 4 4 s r √ √ √ π 1 + cos(π/6) 2+ 3 6+ 2 = = , cos = 12 2 4 4 π √ 1 − cos(π/6) tan = 2 − 3. = 12 sin(π/6) Mit all diesen Formeln ausgestattet kehren wir jetzt zu unserem Eingangsbeispiel x3 − 3 1 x− =0 50 250 zurück. Dies hatten wir√bereits vollständig gerechnet es blieb aber die Frage offen wie man die dritte Wurzel 3 1 + √ i findet. Dies können wir jetzt leicht sehen, die Polarkoordinaten von 1 + i sind r = 2 und φ = π/4, also √ 3 1+i= √ 6 2e π π π = 21/6 cos + i sin 12 12 12 ! √ √ √ √ √ √ 6+ 2 6− 2 1/6 =2 +i = 2−4/3 ( 3 + 1 + i( 3 − 1)), 4 4 und wir haben die Wurzel berechnet. $Id: folgen.tex,v 1.44 2016/12/02 12:13:18 hk Exp $ 89 Mathematik für Physiker I, WS 2016/2017 §4 Montag 21.11.2016 Reelle und komplexe Zahlenfolgen Nachdem wir in den ersten drei Kapiteln alle für uns nötigen Grundlagen behandelt haben, beginnen wir jetzt mit der sogenannten Analysis. Als Startpunkt verwenden wir dabei die gleich zu definierenden Folgen, diese werden sich dann als das zentrale technische Hilfsmittel für den Analysis-Teil dieses Semesters herausstellen. Weshalb Folgen überhaupt von Interesse sein sollten ist leider nicht unmittelbar zu sehen, sie sind auch erst recht spät in der Entwicklung der Theorie aufgetaucht. In der nächsten Sitzung werden wir den Begriff des Grenzwerts einer Folge einführen und stellen die Anmerkungen zur Motivation des Folgenbegriffs noch bis dahin zurück. Definition 4.1: Eine Folge in einer Menge M ist eine Abbildung a : N → M . Dabei nennen wir an := a(n) für n ∈ N das n-te Folgenglied. Wir schreiben eine Folge meist nicht in Funktionsschreibweise sondern verwenden Namen wie (an )n∈N oder alternativ (an )n≥0 . Etwas allgemeiner betrachten wir auch Folgen mit anderen Startwerten als Null, d.h. ist n0 ∈ N so ist eine Folge mit dem Startwert n0 eine Abbildung a : {n ∈ N|n ≥ n0 } → M , üblicherweise geschrieben als (an )n≥n0 . Um die Notation nicht zu überladen sprechen wir meist einfach von Folgen (an )n∈N , implizit sind damit aber auch immer Folgen mit beliebigen Startwert gemeint auch wenn wir dies nicht extra hinschreiben. Wir werden im Laufe dieses Kapitels noch viele Beispiele von Folgen sehen, daher geben wir hier nur zwei einfache Beispiele an. Für n ∈ N mit n ≥ 1 sei 1 an := , n 1 wir betrachten also die Folge n n≥1 . Dies ist eine Folge mit dem Startwert n0 = 1. Solche reelle Zahlenfolgen kann man sich graphisch durch Hinmalen ihres Graphen“ ” veranschaulichen, dieser besteht dann nur aus diskreten Punkten. Manchmal werden diese aus optischen Gründen noch miteinander verbunden, diese Verbindungen haben dann aber keine inhaltliche Bedeutung und dienen nur zur Illustration. 1 0.8 4 0.6 0.8 2 0.4 0.6 –4 –2 2 4 6 0.2 0.4 –2 –0.6 –4 –0.4 –0.2 0 0.2 0.4 0.6 –0.2 0.2 –6 2 4 6 8 10 12 14 an = 1/n 16 18 –0.4 20 an = (1 + i)n Andere komplexe Folge Als ein Beispiel einer komplexen Folge nehmen wir ((1 + i)n )n∈N . Da 1 + i in Polarko√ ordinaten gleich 1 + i = 2 · e(π/4) ist verteilen sich die Glieder der Folge auf acht 90 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 vom Nullpunkt ausgehende Achsen. Da die Werte recht groß werden, ist diese Folge im obenstehenden Bild logarithmisch skaliert dargestellt. Eine komplexe Folge kann man sich veranschaulichen indem die Glieder a0 , a1 , a2 , . . . in die Gaußsche Zahlenebene eingezeichnet werden, die Information über den jeweiligen Folgenindex n geht dabei aber verloren. Zu Beginn unserer Untersuchungen stellen wir einige der immer wieder verwendeten Grunddefinitionen zusammen. Definition 4.2: Sei (an )n∈N eine Folge in einer Menge M . Eine Teilfolge von (an )n∈N ist eine Folge der Form (ank )k∈N wobei n0 , n1 , n2 , . . . ∈ N mit n0 < n1 < n2 < · · · sind. Eine Teilfolge durchläuft also einige, aber nicht unbedingt alle, der Folgenglieder der Originalfolge in genau derselben Reihenfolge. Beispielsweise ist 1 1 eine Teilfolge von . n2 n≥1 n n≥1 Die nächste Definition ist nur noch auf reelle beziehungsweise komplexe Folgen anwendbar. Definition 4.3: Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt beschränkt, wenn die Menge {an |n ∈ N} beschränkt ist, wenn es also eine Konstante c ≥ 0 mit |an | ≤ c für alle n ∈ N gibt. Die dritte und letzte dieser Definitionen ist sogar nur noch auf reelle Folgen anwendbar. Definition 4.4: Sei (an )n∈N eine reelle Folge, d.h. eine Folge in der Menge R. Dann heißt die Folge (an )n∈N (a) monoton steigend, wenn an ≤ an+1 für alle n ∈ N gilt. (b) streng monoton steigend wenn an < an+1 für alle n ∈ N gilt. (c) monoton fallend, wenn an+1 ≤ an für alle n ∈ N gilt. (d) streng monoton fallend, wenn an+1 < an für alle n ∈ N gilt. (e) nach oben beschränkt, wenn die Menge {an |n ∈ N} nach oben beschränkt ist, wenn es also ein c ∈ R mit an ≤ c für alle n ∈ N gibt. (f ) nach unten beschränkt, wenn die Menge {an |n ∈ N} nach unten beschränkt ist, wenn es also ein c ∈ R mit an ≥ c für alle n ∈ N gibt. Wir wollen jetzt Beispiele von Folgen durchgehen und diese jeweils auf einige oder alle der eben aufgelisteten Eigenschaften untersuchen. 91 Mathematik für Physiker I, WS 2016/2017 Freitag 25.11.2016 1. Sei q ∈ R mit q > 1. Dann ist die Folge (q n )n∈N streng monoton steigend, denn für jedes n ∈ N ist q n+1 = q n · q > q n . Wegen q n ≥ 1 für alle n ∈ N ist die Folge (q n )n∈N auch nach unten beschränkt. Wir zeigen nun das die Folge nicht nach oben beschränkt ist. Sei nämlich c ∈ R gegeben. Es ist q − 1 > 0 also existiert nach der archimedischen Eigenschaft der reellen Zahlen §1.Lemma 5 eine natürliche Zahl n ∈ N mit n(q − 1) > c und die Bernoulli-Ungleichung §1.Lemma 6 ergibt q n = (1 + (q − 1))n ≥ 1 + n(q − 1) > n(q − 1) > c. Damit ist c keine obere Schranke der Folge (q n )n∈N , sie ist also nicht nach oben beschränkt. 2. Sei q ∈ R mit 0 < q < 1. Für jedes n ∈ N ist dann q n+1 = q n · q < q n , die Folge (q n )n∈N ist also streng monoton fallend. Wegen 0 < q n ≤ 1 für jedes n ∈ N ist sie auch beschränkt. 3. Nun sei q ∈ C. Wir behaupten dann das für die allgemeine geometrische Folge (q n )n∈N stets (q n )n∈N ist beschränkt ⇐⇒ |q| ≤ 1 gilt. Ist nämlich |q| ≤ 1 so ist für jedes n ∈ N auch |q n | = |q|n ≤ 1 die Folge (q n )n∈N ist also beschränkt. Ist dagegen |q| > 1 so ist die Folge (|q n |)n∈N = (|q|n )n∈N nach dem ersten Beispiel nicht nach oben beschränkt, d.h. auch (q n )n∈N ist nicht nach oben beschränkt. 4. Die Folge ((−1)n )n∈N ist weder monoton steigend noch monoton fallend. 5. Die durch an := n X k=2 1 k(k − 1) für n ≥ 2 gegebene Folge ist offenbar streng monoton steigend. Sie ist auch nach oben beschränkt, denn für jedes n ∈ N mit n ≥ 2 gilt an = n X k=2 n X 1 1 1 1 = − = 1 − < 1. k(k − 1) k=2 k − 1 k n Vorlesung 10, Freitag 25.11.2016 92 Mathematik für Physiker I, WS 2016/2017 6. Die durch Freitag 25.11.2016 n X 1 an := k! k=0 gegebene Folge ist offenbar wieder streng monoton steigend. Sie ist auch nach oben beschränkt. Für jedes n ∈ N mit n ≥ 2 gilt nämlich n n n X X X 1 1 1 1 an = =2+ ≤2+ = 3 − < 3. k! k! k(k − 1) n k=0 k=2 k=2 7. Die durch an := 1 1+ n n für n ≥ 1 gegebene Folge ist streng monoton steigend. Um dies einzusehen benötigen wir die Bernoulli Ungleichung §1.Lemma 6, d.h. für alle x ∈ R mit 0 6= x ≥ −1 und alle n ∈ N mit n ≥ 2 gilt (1 + x)n > 1 + nx. Hiermit rechnen wir jetzt für jedes n ∈ N mit n ≥ 1 1+ 1 n+1 1 n+1 n + n1 = = n+2 n+1 n+1 n n+1 n = n · (n + 2) (n + 1)2 n+1 n+1 n n+1 n+1 (n + 1)2 − 1 1 n+1 n+1 = 1− 2 2 (n + 1) n (n + 1) n n+1 1 n n+1 > 1 − (n + 1) · = · = 1, (n + 1)2 n n+1 n d.h. es ist an+1 = 1 1+ n+1 n+1 > 1 1+ n n = an . Die Folge (an )n∈N ist auch wieder nach oben beschränkt. Mit der allgemeinen binomischen Formel §1.Lemma 7 erhalten wir etwa 1 1+ n n n n X X n 1 (n − k + 1) · . . . · n 1 = = · k k k n k! n k=0 k=0 n n X X 1 n−k+1 n 1 1 = · · ... · ≤ ≤ 3 − < 3. k! n n k! n k=0 k=0 √ 8. Als ein weiteres Beispiel wollen wir einsehen, dass die Folge ( n n)n≥3 streng monoton fallend ist. Ist nämlich n ∈ N mit n ≥ 3 gegeben, so haben wir n n (n + 1)n n+1 1 = = 1+ < 3 ≤ n, nn n n 93 Mathematik für Physiker I, WS 2016/2017 Freitag 25.11.2016 also auch (n + 1)n < n · nn = nn+1 . Folglich ist √ n+1 1 n 1 n + 1 = (n + 1) n+1 = (n + 1) n(n+1) = ((n + 1)n ) n(n+1) < nn+1 1 n(n+1) 1 = nn = Für alle n ∈ N mit n ≥ 3 ist damit auch 1 < beschränkt. √ n n≤ √ 3 √ n n. 3, die Folge ist also auch 9. Wir kommen zu einem letzten Beispiel einer sogenannten rekursiv definierten Folge. Wir beginnen mit a0 := 1. Haben wir jetzt ein n ∈ N und ist das nte Folgenglied bereits definiert so wird das n + 1-te √ Folgenglied in Termen des schon bekannten n-ten Folgenglieds als an+1 := 1 + an definiert. Die ersten Folgenglieder sind also a0 = 1, √ 1 + 1, a1 = q √ a2 = 1 + 1 + 1, r q √ a3 = 1 + 1 + 1 + 1, s r q √ a4 = 1 + 1 + 1 + 1 + 1, und allgemein ist v s r u u q √ t an = 1 + · · · 1 + 1 + 1 + 1, | {z } n Wurzeln die Folge (an )n∈N besteht also aus immer tiefer verschachtelten Wurzelausdrücken. Wir zeigen durch vollständige Induktion das für jedes n ∈ N stets √ 1+ 5 1 ≤ an < an+1 < 2 gilt, dies zeigt das√(an )n∈N streng monoton steigend√und beschränkt ist. Wegen a√ 2 ist 1 ≤ a0 < a1 und wegen (2 2)2 = 8 < 9 = 32 ist auch 0 = 1 und a1 = 2 2 < 3 und √ √ √ 3 1+ 4 1+ 5 a1 = 2 < = < , 2 2 2 unsere Behauptung gilt also für n = 0 und √ der Induktionsanfang ist durchgeführt. Nun sei n ∈ N mit 1 ≤ an < an+1 < (1 + 5)/2 gegeben. Dann ist insbesondere an+1 ≥ 1 und wegen p √ an+1 − an √ an+2 − an+1 = 1 + an+1 − 1 + an = √ >0 1 + an+1 + 1 + an 94 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 ist auch an+2 > an+1 . Weiter haben wir s s s √ √ √ √ p 1+ 5 3+ 5 5+2 5+1 1+ 5 = = = , an+2 = 1 + an+1 < 1 + 2 2 4 2 und per vollständiger Induktion ist damit alles gezeigt. 4.1 Folgenkonvergenz Der Begriff einer Folge ist weitgehend ein Hilfsbegriff, und wir wollen jetzt ein wenig erläutern wobei Folgen eigentlich helfen sollen. Dies ist am besten im Vergleich zur alten Begründung“ der Analysis zu verstehen. Begonnen hat alles mit der Infinitesi” malrechnung des siebzehnten Jahrhunderts und ein gutes Beispiel für die damals untersuchten Problemstellungen ist der Begriff der Geschwindigkeit. Wir denken uns einen sich bewegenden physikalischen Körper. Um keine Vektoren verwenden zu müssen, gehen wir davon aus, dass sich diese Bewegung in einer festen Richtung abspielt. Dann können wir die Position unseres Körpers zum Zeitpunkt t durch eine einzelne Zahl x(t) beschreiben, die etwa den Abstand des Körpers zum Koordinatenursprung angibt. Gehen wir erst einmal vom einfachsten Fall aus, und nehmen an das auf unseren Körper keine Kräfte wirken. Dann gilt das sogenannte Trägheitsprinzip, d.h. der Körper legt in gleichen Zeiten gleiche Strecken zurück, oder gleichwertig er legt in einem Zeitabschnitt der Dauer ∆t eine zur Dauer des Zeitabschnitts proportionale Strecke ∆x zurück. Die hierbei auftretende Proportionalitätskonstante, d.h. die Zahl v mit ∆x = v · ∆t, nennt man dann die Geschwindigkeit des Körpers. Maßeinheiten ignorieren wir dabei, und denken uns alles als Zahlen. Die kräftefreie Bewegung ist damit recht einfach. Kommen wir zum allgemeinen Fall der beschleunigten Bewegung, bei der auf den Körper irgendwelche Kräfte wirken. Betrachte wieder ein Zeitintervall der Länge ∆t, und in diesem Zeitintervall lege unser Körper die Strecke ∆x zurück. Als die mittlere Geschwindigkeit in diesem Zeitintervall bezeichnen wir die Geschwindigkeit v die ein unbeschleunigter Körper hätte, der im Zeitintervall ∆t die Strecke ∆x zurücklegte, also v= ∆x . ∆t Nun führt man eine Idealisierung durch. Geben wir uns einen Zeitpunkt t vor, und betrachten immer kleinere mit t startende Zeitabschnitte ∆t, so gehen wir davon aus, dass sich die mittlere Geschwindigkeit bezüglich der Zeitintervalle ∆t auf einen Wert v = v(t) einpendelt“. Diese Zahl bezeichnen wir dann als die Geschwindigkeit des ” Körpers zum Zeitpunkt t. Die Existenz dieser Zahl kann man nicht logisch herleiten, es handelt sich nur um eine idealisierende Annahme, die sich aber als sehr erfolgreich herausgestellt hat. Die mittlere Geschwindigkeit ist ein realer Wert, in dem Sinne das wir sie direkt messen können, die Geschwindigkeit kann man dagegen nur näherungsweise durch Messung über ausreichend kleine Zeitabschnitte bestimmen. Für praktische 95 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 Zwecke macht das keinen effektiven Unterschied da Messungen ja naturgemäß näherungsweise sind, begrifflich gibt es aber schon einen gewissen Unterschied. Wir denken uns die Geschwindigkeit als einen Quotienten v= dx dt wobei man sich dt als einen unendlich kleinen Zeitabschnitt“ und dx als die in diesem ” Zeitabschnitt unendlich kleine zurückgelegte Strecke“ denkt. Ist allgemein x(t) eine ” Funktion von t so definiert“ der entsprechende Quotient dx/dt die Ableitung x0 (t) ” von x in t, also die Änderungsrate der Größe x zum Zeitpunkt t. Diese infinitesimalen ” Größen“ dx und dt sind dann die Größen von denen die Infinitesimalrechnung handelt. Wieweit der Umgang mit solchen unendlich kleinen Größen gerechtfertigt ist war schon von Anfang an umstritten, und den Schöpfern der Theorie war durchaus klar das ihr Vorgehen den antiken Beweisstandards nicht genügt. Dies wurde aber nicht als ernsthaftes Problem angesehen, tatsächlich war es ein erklärtes Ziel die methodischen Grenzen der griechischen Mathematik hinter sich zu lassen. Die neuen Methoden waren auch derart erfolgreich das Fragen nach den Grundlagen sich einfach nicht stellten. Dieser Zustand hat gut zweihundert Jahre angedauert und geändert hat sich das alles erst im letzten Viertel des neunzehnten Jahrhunderts im Rahmen der Theorie der sogenannten Fourierreihen. Diese traten erstmals beim Studium der sogenannten Wärmeleitungsgleichung auf, diese beschreibt im klassischen Fall die zeitliche Entwicklung der Temperaturverteilung in einem Draht. Eine Fourierreihe soll eine periodische Funktion f mit Periode 2π als Überlagerung sogenannter Grundschwingungen darstellen. Diese Grundschwingungen sind einfach die Funktionen 1, sin x, cos x, sin(2x), cos(2x) und so weiter. Hat man beispielsweise die für |x| < π durch f (x) = sign(x) definierte Rechteckwelle“, so kann man diese als ” 4 sin x sin(3x) sin(5x) f (x) = + + + ··· π 1 3 5 schreiben, wobei das Gleichheitszeichen in einem geeigneten Sinne zu interpretieren ist. Als ein Beispiel für die Probleme die bei diesen unendlichen trigonometrischen Summen auftreten, wollen wir hier den Satz von Cauchy erwähnen das eine solche unendliche Summe stetiger Funktionen immer eine stetige Funktion definiert. Dies widerspricht allerdings dem obigen Beispiel da die links stehende Rechteckwelle Sprünge hat, die einzelnen Sinusterme auf der rechten Seite aber alle stetig sind. Auf diese Kritik an seinem Satz hat Cauchy geantwortet, dass dies nämlich überhaupt kein Gegenbeispiel sei da die rechts stehende unendliche Summe gar nicht definiert ist wenn x = π/n für eine unendlich große und ungerade natürliche Zahl n ist, was er dann auch vorgerechnet hat. Die Wahrheit von Cauchys Satz hing also an der Frage was eigentlich reelle Zahlen sind, ob man also wirklich ein x = π/n der obigen Form haben kann. Dies und andere Probleme die in diesem Rahmen auftraten machten es nötig die Grundlagen der Infinitesimalrechnung zu überarbeiten und auf eine wirklich sichere Basis zu stellen. Durchgesetzt hat sich ein Aufbau auf der Basis des Mengenbegriffs der 96 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 selbst gerade in der Konvergenztheorie trigonometrischer Reihen entstanden war. Die reellen Zahlen, der Funktionsbegriff und einiges mehr wurden in die heute verwendete Form gebracht und die infinitesimalen Größen wurden vollständig aus der Mathematik entfernt. Im mathematischen Sinn gibt es also keine unendlich kleinen oder unendlich großen Zahlen mehr, überlebt haben nur einige traditionelle Schreibweisen und die gelegentliche Verwendung infinitesimaler Zahlen zu heuristischen oder zu Motivationszwecken. In gewisser Hinsicht wurde die antike Mathematik wieder aufgenommen, beispielsweise ist eine der möglichen exakten Konstruktionen der reellen Zahlen eine um negative Zahlen erweiterte Fassung der Proportionenlehre des Eudoxus. Die Infinitesimalrechnung ist damit überhaupt keine solche mehr, da die infinitesimalen Größen eben aus ihr entfernt wurden, und so geriet auch dieser Name langsam außer Gebrauch. So etwas wie Ableitungen wollte man aber natürlich trotzdem weiter verwenden, und daher mussten diese auf eine neue Grundlage gestellt werden. Als Ersatz für die infinitesimalen Größen wurde der Begriff des Grenzwerts eingeführt. Es gibt viele verschiedene Arten von Grenzwerten, alleine in diesem Semester werden wir je nach Zählweise drei oder vier von ihnen kennenlernen. Damit sind wir jetzt soweit die Bedeutung von Folgen einsehen zu können. Viele der verschiedenen Grenzwertbegriffe lassen sich auf Grenzwerte von Folgen zurückführen. Folgen sind in diesem Rahmen dann ein reines Hilfsmittel, sie erfassen gerade den gemeinsamen Kern einer Vielfalt von Grenzwertbegriffen. Viele der Grundaussagen über Grenzwerte überlegt man sich zunächst für Folgen und kann sie dann auf all die anderen, uns wirklich interessierenden, Grenzwerttypen anwenden. Folgen sind also die Maschinerie die den ganzen Kalkül am Laufen hält, haben aber für sich selbst eher selten eine Bedeutung. Das hat leider zur Folge, dass die Theorie der Folgen zunächst recht unmotiviert und wenig sinnvoll wirkt. Nach all diesen Vorbemerkungen wollen wir jetzt den ersten unserer Grenzwertbegriffe einführen und definieren die Konvergenz einer Folge in R oder C wie folgt: Definition 4.5 (Folgenkonvergenz) Seien K ∈ {R, C} und (an )n∈N eine Folge in K. Dann konvergiert die Folge (an )n∈N gegen eine Zahl a ∈ K wenn es für jedes > 0 eine natürliche Zahl n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 gibt. In diesem Fall schreiben wir (an )n∈N −→ a. Gelegentlich verwenden wir auch die verkürzte und eigentlich inkorrekte Schreibweise an −→ a anstelle von (an )n∈N −→ a. Als Formel schreibt sich die Konvergenzbedingung als ∀( ∈ R, > 0)∃(n0 ∈ N)∀(n ∈ N, n ≥ n0 ) : |an − a| < und meistens verkürzen wir dies zu ∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| < gehen also implizit davon aus das eine reelle Zahl und n eine natürliche Zahl sind. Beachte das wir statt <“ in der Konvergenzbedingung genausogut ≤“ verwenden ” ” 97 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 können, also (an )n∈N −→ a ⇐⇒ ∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| ≤ . Die Implikation von links nach rechts ist hier trivial. Setzen wir umgekehrt die rechte Seite voraus, und haben eine reelle Zahl > 0 gegeben, so ist auch /2 > 0 und somit existiert ein n0 ∈ N mit |an − a| ≤ /2 für alle n ≥ n0 , also wegen /2 < auch |an − a| < für alle n ≥ n0 . Wir wollen uns jetzt noch die anschauliche Bedeutung der Konvergenzdefinition klarmachen, dies geht n0 am schönsten für komplexe Folgen. Sei also (an )n∈N eine komplexe Zahlenfolge im nebenstehenden Bild ε durch Pünktchen angedeutet. Weiter haben wir einen a vorgeschlagenen Grenzwert a ∈ C. Was bedeutet nun |an − a| < ? Der Betrag einer komplexen Zahl ist ihr Abstand zum Nullpunkt, an − a ist der Vektor von a nach an , seine Länge |an − a| ist also der Abstand von an zu a. Dass |an − a| < gilt, bedeutet also das an höchstens den Abstand zu a hat, dass also an im Kreis mit Mittelpunkt a und Radius liegt. Insgesamt bedeutet an −→ a also, dass es für jeden noch so kleinen Kreis mit Mittelpunkt a immer einen Index n0 gibt, ab dem die Folge ganz im Kreis liegt. Der Index n0 = n0 () hängt dabei in der Regel von ab, je kleiner der Radius unseres Kreises ist, um so später liegt die Folge ganz im Kreis, d.h. n0 wird größer wenn kleiner wird. Beachte das die Konvergenz an −→ a nichts über konkrete Folgenglieder aussagt, konvergiert etwa an −→ 1, so kann trotzdem a1000 = −100 sein, man weiss nur das die Folgenglieder irgendwann einmal nahe bei 1 sein werden. Eine andere Interpretation ist es, sich eine gegen a konvergente Folge (an )n∈N als eine Folge von Näherungen an a zu denken. Die Konvergenzbedingung besagt dann, dass es zu beliebig vorgegebener Fehlerschranke immer eine Stelle n0 gibt ab der die Näherungen an höchstens den Fehler haben. Wir wollen jetzt einige erste Eigenschaften des Konvergenzbegriffs nachweisen. Lemma 4.1 (Grundeigenschaften der Konvergenz) Seien K ∈ {R, C}, (an )n∈N eine Folge in K und a ∈ K. (a) Ist (an )n∈N −→ a, so gilt auch (ank )k∈N −→ a für jede Teilfolge (ank )k∈N von (an )n∈N . (b) Es gibt höchstens ein b ∈ K mit (an )n∈N −→ b. (c) Genau dann konvergiert die Folge (an )n∈N nicht gegen a, wenn es eine reelle Zahl > 0 und eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N gibt. 98 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 (1) (d) Sind (an(1) )k∈N und (an(2) )k∈N zwei Teilfolgen von (an )n∈N mit N = {nk |k ∈ N} ∪ k k (2) {nk |k ∈ N}, so ist genau dann (an )n∈N −→ a wenn (an(j) )k∈N −→ a für j = 1, 2 k gilt. (e) Ist K = C, so gilt genau dann (an )n∈N −→ a, wenn (Re an )n∈N −→ Re a und (Im an )n∈N −→ Im a gelten. (f ) Ist K = C und an ∈ R für alle n ∈ N sowie (an )n∈N −→ a, so gilt auch a ∈ R und die Folge konvergiert auch in R gegen a. Beweis: (a) Sei (ank )k∈N eine Teilfolge von (an )n∈N . Sei > 0 gegeben. Dann existiert ein m ∈ N mit |an − a| < für alle n ∈ N mit n ≥ m. Wegen n0 < n1 < n2 < . . . ist nk ≥ k für jedes k ∈ N. Ist also k ∈ N mit k ≥ m, so gilt auch nk ≥ k ≥ m und somit |ank − a| < . Dies zeigt (ank )k∈N −→ a. (b) Sei also b ∈ K und nehme an das (an )n∈N sowohl gegen a als auch gegen b konvergiert. Angenommen es wäre a 6= b, also auch |a − b| > 0. Dann ist := |a − b|/2 > 0, also existieren n1 , n2 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n1 und |an − b| < für alle n ∈ N mit n ≥ n2 . Wir erhalten n := max{n1 , n2 } ∈ N mit n ≥ n1 und n ≥ n2 , also |a − b| = |a − an + an − b| ≤ |an − a| + |an − b| < 2 = |a − b|, ein Widerspruch. Dieser Widerspruch zeigt a = b. (c) ”=⇒” Die Verneinung von (an )n∈N −→ a ist ∃( > 0)∀(n0 ∈ N)∃(n ≥ n0 ) : |an − a| ≥ , es gibt also ein > 0 so, dass es für jedes n0 ∈ N stets ein n ∈ N mit n ≥ n0 und |an − a| ≥ gibt. Nach Wahl von existiert ein n0 ∈ N mit |an0 − a| ≥ . Ist k ∈ N und ist nk ∈ N bereits definiert, so existiert wieder nach Wahl von ein nk+1 ∈ N mit nk+1 ≥ nk + 1 > nk und |ank+1 − a| ≥ . Damit wird rekursiv eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N definiert. ”⇐=” Wähle ein > 0 und eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N. Angenommen (an )n∈N würde gegen a konvergieren. Nach (a) konvergiert dann auch (ank )k∈N gegen a, und somit existiert ein k0 ∈ N mit |ank − a| < für alle k ∈ N mit k ≥ k0 , also insbesondere |ank0 − a| < , ein Widerspruch. Also konvergiert (an )n∈N nicht gegen a. (d) ”=⇒” Klar nach (a). ”⇐=” Sei > 0. Für j = 1, 2 gibt es dann wegen (an(j) )k∈N −→ a ein kj ∈ N mit k (1) (2) |an(j) − a| < für alle k ∈ N mit k ≥ kj . Setze n0 := max{nk1 , nk2 } ∈ N. Sei n ∈ N k (1) (2) mit n ≥ n0 . Wegen N = {nk |k ∈ N} ∪ {nk |k ∈ N} existieren dann ein j ∈ {1, 2} und (j) (j) (j) ein k ∈ N mit n = nk . Wegen nk = n ≥ n0 ≥ nkj ist dann k ≥ kj und somit haben wir |an − a| = |an(j) − a| < . Dies zeigt (an )n∈N −→ a. k 99 Mathematik für Physiker I, WS 2016/2017 Montag 21.11.2016 (e) ”=⇒” Sei > 0. Wegen (an )n∈N −→ a existiert ein n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist dann nach §3.Lemma 3.(a) auch | Re(an ) − Re(a)| = | Re(an − a)| ≤ |an − a| < und ebenso | Im(an ) − Im(a)| = | Im(an − a)| ≤ |an − a| < . Damit ist (Re(an ))n∈N −→ Re(a) und (Im(an ))n∈N −→ Im(a). ”⇐=” Sei > 0. Wegen (Re(an ))n∈N −→ √ Re(a) und (Im(an ))n∈N −→ Im(a) existieren 2 für alle n ∈ N mit n ≥ n1 und | Im(an ) − n1 , n2 ∈ N mit | Re(a ) − Re(a)| < / n √ Im(a)| < / 2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 } ∈ N. Für jedes n ∈ N mit n ≥ n0 gilt dann n ≥ n1 und n ≥ n2 , also nach §3.Lemma 3.(a) auch |an − a| ≤ √ 2 max{| Re(an − a)|, | Im(an − a)|} √ √ = 2 max{| Re(an ) − Re(a)|, | Im(an ) − Im(a)|} < 2 · √ = . 2 Dies beweist (an )n∈N −→ a. (f ) Nach (e) gilt (an )n∈N = (Re(an ))n∈N −→ Re(a), und mit (b) folgt a = Re(a) ∈ R. Die Aussage (f) des Lemmas besagt, dass es für eine reelle Zahlenfolge (an )n∈N egal ist, ob wir sie als reelle Folge oder als komplexe Folge betrachten, an der Konvergenz der Folge ändert sich dabei nichts. Insbesondere kann man den komplexen Fall K = C meist als den allgemeinen Fall behandeln, und sich K = R dann als Spezialfall denken. Wir wollen uns jetzt einige Beispiele konvergenter Folgen anschauen. Ein triviales aber wichtiges Beispiel sind die konstanten Folgen, sind K ∈ {R, C} und c ∈ K so konvergiert die konstante Folge (c)n∈N gegen c. Ein etwas komplizierteres Grundbeispiel einer konvergenten Folge ist die Folge (1/n)n≥1 . Wir behaupten das diese Folge gegen Null konvergiert 1 −→ 0. n n≥1 Um dies zu beweisen, folgen wir der Konvergenzdefinition. Sei > 0. Nach der archimedischen Eigenschaft §1.Lemma 5 der reellen Zahlen existiert eine natürliche Zahl n0 ∈ N mit n0 > 1, also insbesondere n0 ≥ 1. Für jedes n ∈ N mit n ≥ n0 ist damit auch 1 1 = ≤ 1 < . n n n0 Damit ist diese Behauptung gezeigt. Diese Folge ist natürlich vergleichsweise einfach, die Bedeutung dieses Grenzwerts sollte man aber nicht unterschätzen. Wir wir sehen werden, werden viele andere Grenzwerte letztlich genau auf 1/n −→ 0 zurückgeführt. Wie sie am Beweis sehen, ist die Konvergenz von (1/n)n∈N gegen Null äquivalent zur archimedischen Eigenschaft der reellen Zahlen. Diese beruhte letztlich auf dem Vollständigkeitsaxiom, und tatsächlich sind die Axiome eines angeordneten Körpers alleine nicht stark genug zu beweisen das (1/n)n∈N gegen Null konvergiert. Dies wirklich 100 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 einzusehen, bedarf allerdings der Konstruktion eines schon vergleichsweise komplizierten Gegenbeispiels und soll hier nicht vorgeführt werden. √ √ Wir schauen uns ein weiteres Beispiel an und behaupten das die Folge ( n + 1 − n)n∈N gegen Null konvergiert. Sei also ein > 0 gegeben. Nach der archimedischen Eigenschaft der reellen Zahlen §1.Lemma 5 existiert ein n0 ∈ N mit n0 > 1/(42 ) und für jedes n ∈ N mit n ≥ n0 sind damit auch n ≥ n0 > 1/(42 ) und 0< √ n+1− √ n= √ 1 √ <q n+1+ n 1 1 42 + q = , 1 42 √ √ √ √ also | n + 1 − n| = n + 1 − n < . Dies zeigt √ √ ( n + 1 − n)n∈N −→ 0. √ Als letztes Beispiel dieser Sitzung wollen wir die Folge ( n n)n≥1 behandeln. Etwas später in diesem Abschnitt werden wir den Grenzwert dieser Folge ohne –n0 Rechnungen bestimmen können, an dieser Stelle wollen wir ihn aber einmal ganz direkt auf Basis der Konvergenzdefinition diskutieren. Wir behaupten das √ ( n n)n≥1 −→ 1 gilt. Sei nämlich > 0 gegeben. Mit der archimedischen Eigenschaft der reellen Zahlen §1.Lemma 5 erhalten wir ein n0 ∈ N mit n0 > 1 + 2 . 2 Sei nun n ∈ N mit n ≥ n0 gegeben, also insbesondere n ≥ 2. Mit der allgemeinen binomischen Formel §1.Lemma 7 erhalten wir n X n √ n √ k n ( n − 1) ≥ n = ( n) = (1 + ( n − 1)) = ( n n − 1)2 k 2 k=0 √ n √ n n n = n(n − 1) √ ( n n − 1)2 . 2 Hieraus folgen weiter r r √ √ 2 2 2 n und 0 < n − 1 ≤ ≤ < 2 = , ( n − 1) ≤ n−1 n−1 n0 − 1 √ √ √ also schließlich | n n − 1| = n n − 1 < . Dies beweist ( n n)n≥1 −→ 1 wie behauptet. √ n 2 Vorlesung 11, Montag 28.11.2016 101 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 In der letzten Sitzung haben wir den Begriff der Folgenkonvergenz eingeführt und auch schon einige seiner Grundeigenschaften festgehalten. Insbesondere haben wir in Lemma 1.(b) bewiesen das eine Folge gegen höchstens eine Zahl konvergieren kann. Damit können wir nun auch den Grenzwert einer Folge definieren. Definition 4.6 (Folgengrenzwerte) Sei K ∈ {R, C}. Dann heißt eine Folge (an )n∈N in K konvergent wenn es ein a ∈ K mit (an )n∈N −→ a gibt. Nach Lemma 1.(b) ist a ∈ K dann eindeutig bestimmt und heißt der Grenzwert der Folge (an )n∈N , geschrieben als a = lim an . n→∞ Eine nicht konvergente Folge heißt divergent. Beachte das der Grenzwert einer reellen oder komplexen Folge eine reelle oder komplexe Zahl ist, es macht also keinerlei Sinn zu sagen der Grenzwert geht gegen irgendetwas“. ” Nach Lemma 1.(a) ist jede Teilfolge einer konvergenten Folge wieder konvergent und hat denselben Grenzwert wie die Originalfolge. Weiter ist eine komplexe Folge (zn )n∈N nach Lemma 1.(e) genau dann konvergent wenn die Folgen der Real- und der Imaginärteile beide konvergent sind, und in diesem Fall gelten Re lim zn = lim Re(zn ) und Im lim zn = lim Im(zn ). n→∞ n→∞ n→∞ n→∞ Schließlich besagt Lemma 1.(f) das es für eine reelle Folge keine Rolle spielt, ob wir sie in K = R oder in K = C betrachten, sowohl die Konvergenz als auch der notwendig reelle Grenzwert stimmen in beiden Fällen überein. Daher kann man, wie schon einmal erwähnt, den komplexen Fall K = C als den allgemeinen Fall“ behandeln. ” Lemma 4.2 (Grundeigenschaften konvergenter Folgen) Seien K ∈ {R, C} und (an )n∈N eine konvergente Folge in K. Dann gelten: (a) Die Folge (an )n∈N ist beschränkt. (b) Die Folge der Beträge (|an |)n∈N ist wieder konvergent und es gilt lim |an | = lim an . n→∞ n→∞ Beweis: Sei a ∈ K der Grenzwert der Folge (an )n∈N . (a) Wegen (an )n∈N −→ a existiert ein n0 ∈ N mit |an − a| < 1 für alle n ∈ N mit n ≥ n0 . Weiter setzen wir c := max{|a| + 1, |a0 |, . . . , |an0 −1 |} ≥ 0. Dann gilt |an | ≤ c für alle n ∈ N. Sei nämlich n ∈ N gegeben. Ist dann n < n0 , so haben wir sofort |an | ≤ c nach Definition von c, und ist n ≥ n0 , so ist ebenfalls |an | = |a + (an − a)| ≤ |a| + |an − a| < |a| + 1 ≤ c. 102 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 Damit ist die Folge (an )n∈N beschränkt. (b) Sei > 0. Dann existiert ein n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist dann nach §3.Lemma 3.(e) auch |an | − |a| ≤ |an − a| < . Dies zeigt (|an |)n∈N −→ |a|. Wir kennen bereits den Grenzwert lim n→∞ 1 =0 n und einige weitere Grenzwerte sind eine unmittelbare Folgerung. Beispielsweise ist 1 = 0, n→∞ n2 + 1 lim einfach da (1/(n2 + 1))n∈N eine Teilfolge von (1/n)n∈N ist. Wir wollen uns jetzt noch einige weitere Beispiele konvergenter Folgen anschauen, diese sind schon etwas komplizierter werden im folgenden aber häufig eine Rolle spielen. Wir beginnen mit der geometrischen Folge und hierzu sei eine komplexe Zahl q ∈ C gegeben. Wir behaupten das dann (q n )n∈N ist konvergent ⇐⇒ |q| < 1 oder q = 1 gilt und im Konvergenzfall ist ( 0, |q| < 1, lim q n = n→∞ 1, q = 1. Hier müssen einige Fälle unterschieden werden. Ist |q| > 1 so wissen wir schon das die Folge (q n )n∈N unbeschränkt ist, also ist sie nach der Kontraposition von Lemma 2.(a) auch divergent. Ist q = 0, so ist auch für jedes n ∈ N mit q ≥ 1 stets q n = 0, die Folge (q n )n∈N konvergiert also gegen 0. Nun nehme 0 < |q| < 1 an, und wir behaupten das (q n )n∈N auch in diesem Fall gegen Null konvergiert. Sei also > 0 gegeben. Wegen 1/|q| > 1 ist die Folge ((1/|q|)n )n∈N nicht nach oben beschränkt, es gibt also ein n0 ∈ N mit n0 1 1 1 = > n 0 |q| |q| und für jedes n ∈ N mit n ≥ n0 ist damit auch |q n | = |q|n ≤ |q|n0 < . Wir haben also tatsächlich (q n )n∈N −→ 0. Im Fall q = 1 ist auch q n = 1 für jedes n ∈ N und die Folge (q n )n∈N konvergiert gegen 1. Es verbleibt nur noch der komplizierteste Fall |q| = 1 und q 6= 1. Wir müssen einsehen das die Folge (q n )n∈N dann divergiert, und 103 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 dies werden wir durch einen Widerspruch beweisen. Nehme also an das es ein a ∈ C mit (q n )n∈N −→ a gibt. Wegen |q − 1| > 0 gibt es dann ein n ∈ N mit |q m − a| < |q − 1| 2 für jedes m ∈ N mit m ≥ n. Dies ergibt den Widerspruch |q − 1| = |q|n |q − 1| = |q n+1 − q n | ≤ |q n+1 − a| + |q n − a| < |1 − q| |1 − q| + = |1 − q|, 2 2 und die Divergenz von (q n )n∈N ist eingesehen. Als nächstes Beispiel wollen wir die Folge n 1 an = 1 + n auf Konvergenz untersuchen. Wir wissen bereits, dass diese Folge streng monoton steigend und nach oben beschränkt ist, genauer ist an < 3 für jedes n ∈ N. Der folgende Satz zeigt, dass diese beiden Eigenschaften bereits die Konvergenz der Folge implizieren. Satz 4.3 (Konvergenz monotoner Folgen) Sei (an )n∈N eine reelle Folge. (a) Ist (an )n∈N monoton steigend und nach oben beschränkt, so ist (an )n∈N auch konvergent mit lim an = sup{an |n ∈ N}. n→∞ (b) Ist (an )n∈N monoton fallend und nach unten beschränkt, so ist (an )n∈N auch konvergent mit lim an = inf{an |n ∈ N}. n→∞ Beweis: (a) Schreibe s := sup{an |n ∈ N}. Sei > 0. Nach §1.Lemma 3.(a) existiert ein n0 ∈ N mit an0 > s − . Sei n ∈ N mit n ≥ n0 . Dann ist s − < an0 ≤ an ≤ s, also |an − s| = s − an < . Dies zeigt (an )n∈N −→ s. (b) Analog. Dieser Satz ergibt insbesondere die Existenz des Grenzwerts n n 1 1 e := lim 1 + = sup 1 + . n→∞ n n n∈N 104 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 Die Zahl e ist die Euler-Napiere Konstante e = 2, 71828 . . .. Die ersten Folgenglieder von an = (1 + 1/n)n sind 9 64 625 7776 117649 5 a1 = 2, a2 = , a3 = , a4 = , a5 = , a6 = > , 4 27 256 3125 46656 2 und da außerdem 3 eine obere Schranke unserer Folge ist, folgt 5 < e ≤ 3. 2 Für die meisten Zwecke innerhalb der reinen Mathematik ist das schon mehr als genau genug. Um bessere Abschätzungen von e zu erhalten, ist die definierende Folge nicht gut geeignet. Will man beispielsweise die untere Abschätzung zu e > 2, 7 = 27/10 verbessern so muss bereits das Folgenglied (1 + 1/72)72 berechnet werden. Im nächsten Kapitel werden wir e > 27/10 mit einer anderen Methode beweisen und auch eine bessere obere Schranke als 3 herleiten. In den bisher behandelten Beispielen und auch den Übungen dieser Woche können wir sehen das die direkte Verwendung der Konvergenzdefinition zum Rechnen solcher konkreten Beispiele oftmals recht schwerfällig ist, selbst relativ einfache Folgen bedürfen zu ihrem Konvergenzbeweis ständiger Anwendungen der archimedischen Eigenschaft der reellen Zahlen. Wir wollen daher im folgenden einige Rechenregeln für den Umgang mit Grenzwerten entwickeln, durch deren Anwendung man zur Berechnung von Grenzwerten oftmals nicht mehr auf die Definition der Folgenkonvergenz zurückgehen muss. Wir werden beispielsweise zeigen, dass für jede positive reelle Zahl c ∈ R mit c > 0 √ n stets die Aussage √ ( c)n≥1 −→ 1 gilt indem wir dies auf den schon berechneten Grenzwert limn→∞ n n = 1 zurückführen. Je mehr Grenzwerte bereits bekannt sind, desto mehr Möglichkeiten hat man zur Anwendung der Rechenregeln für Folgengrenzwerte und um so seltener muss man die –n0 -Definition der Folgenkonvergenz direkt verwenden. Als Startpunkt verwenden wir die sogenannten Nullfolgen, dies sind gerade die gegen 0 konvergenten Folgen. Definition 4.7 (Nullfolgen) Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt eine Nullfolge wenn (an )n∈N −→ 0 gilt. Ausgeschrieben ist (an )n∈N also genau dann eine Nullfolge wenn ∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an | < gilt. Offenbar ist eine reelle oder komplexe Folge (an )n∈N genau dann eine Nullfolge wenn die reelle Folge (|an |)n∈N eine Nullfolge ist, dies liegt daran das |an | = |an | für jedes n ∈ N gilt. Lemma 4.4 (Grundeigenschaften von Nullfolgen) Sei K ∈ {R, C}. Dann gelten: (a) Sind (an )n∈N und (bn )n∈N zwei Nullfolgen in K, so ist auch (an + bn )n∈N eine Nullfolge in K. 105 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 (b) Sind (an )n∈N eine Nullfolge in K und c ∈ K, so ist auch (can )n∈N eine Nullfolge in K. (c) Sind (an )n∈N eine beschränkte Folge in K und (bn )n∈N eine Nullfolge in K, so ist auch (an bn )n∈N eine Nullfolge in K. (d) Sind (an )n∈N eine Folge in K und a ∈ K, so gilt genau dann (an )n∈N −→ a wenn (an − a)n∈N eine Nullfolge ist. (e) Sind (an )n∈N eine Folge in K und (bn )n∈N eine Nullfolge in R mit |an | ≤ bn für alle n ∈ N, so ist auch (an )n∈N eine Nullfolge in K. (f ) Sind (an )n∈N eine Nullfolge in R mit an > 0 für alle n ∈ N und α ∈ R mit α > 0, so ist auch (aαn )n∈N eine Nullfolge. Beweis: (a) Sei > 0. Dann existieren n1 , n2 ∈ N mit |an | < /2 für alle n ∈ N mit n ≥ n1 und |bn | < /2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Für alle n ∈ N mit n ≥ n0 ist dann auch |an + bn | ≤ |an | + |bn | < + = . 2 2 Damit ist (an + bn )n∈N eine Nullfolge in K. (c) Es gibt eine Konstante c ≥ 0 mit |an | ≤ c für alle n ∈ N. Sei > 0. Dann existiert ein n0 ∈ N mit |bn | < /(c + 1) für alle n ∈ N mit n ≥ n0 . Ist n ∈ N mit n ≥ n0 , so ist damit auch c |an bn | = |an | · |bn | ≤ c|bn | ≤ < . c+1 Damit ist (an bn )n∈N eine Nullfolge in K. (b) Klar nach (c). (d,e) Klar. (f ) Da die Folge (1/q)q≥1 eine Nullfolge ist, gibt es ein q ∈ N mit q ≥ 1 und 1/q < α. √ Wir zeigen zunächst, dass ( q an )n∈N eine Nullfolge ist. Sei also > 0 gegeben. Dann q existiert ein n0 ∈ N mit a√ n < für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 √ √ q folgt damit auch q an < q = . Also ist ( q an )n∈N eine Nullfolge. Weiter existiert ein n0 ∈ N mit 0 < an < 1 für jedes n ∈ N mit n ≥ n0 , und für n ∈ N mit n ≥ n0 ist somit auch √ q 0 < aαn = inf{apn |p ∈ Q, p ≤ α} ≤ a1/q an , n = und schließlich ist (aαn )n∈N nach (e) eine Nullfolge. Wir wollen noch ein paar Anmerkungen zum eben bewiesenen Lemma festhalten. Zunächst beachte das konvergente Folgen nach Lemma 2.(a) auch beschränkt sind, Aussage (c) des Lemmas ergibt also insbesondere, dass das Produkt einer konvergenten Folge und einer Nullfolge wieder eine Nullfolge ist. Weiter ist es in Aussage (e) des 106 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 Lemmas nicht wirklich nötig das |an | ≤ bn für alle n ∈ N gilt, es reicht aus das es einen Startindex n0 ∈ N mit |an | ≤ bn für alle n ∈ N mit n ≥ n0 gibt. Dies ist implizit bereits im Lemma enthalten. Erinnern Sie sich daran, dass wir eingehends gesagt hatten, dass implizit immer auch Folgen mit gemeint sind, die erst ab einem Startindex definiert sind. Weiter ist es für die Konvergenz und den Grenzwert einer Folge offenbar egal ob wir die Folge selbst oder dieselbe Folge ab einem anderen Startindex betrachten. Wenden wir also Aussage (e) des Lemmas auf die Folgen (an )n≥n0 und (bn )n≥n0 an, so ergibt sich genau die genannte stärkere Aussage. Tatsächlich haben wir (e) im Beweis von (f) bereits genau in dieser verbesserten Form angewandt. √ Unser Ziel ist noch immer einen –n0 freien“ Beweis der Aussage n c −→ 1 für ” jedes c ∈ R mit c > 0 anzugeben. Das eben bewiesene Lemma über Nullfolgen ist ein erster Schritt hierzu, und der zweite Schritt ist das folgende Lemma über reelle Folgen. Lemma 4.5 (Anordnungseigenschaften reeller Grenzwerte) Seien (an )n∈N und (bn )n∈N zwei konvergente, reelle Folgen. (a) Gilt an ≤ bn für alle n ∈ N, so ist auch lim an ≤ lim bn . n→∞ n→∞ (b) Gilt lim an = lim bn und ist (un )n∈N eine weitere reelle Folge mit an ≤ un ≤ bn n→∞ n→∞ für alle n ∈ N, so ist auch die Folge (un )n∈N konvergent mit lim un = lim an = lim bn . n→∞ n→∞ n→∞ Beweis: (a) Seien a der Grenzwert von (an )n∈N und b der Grenzwert von (bn )n∈N . Angenommen es wäre a > b. Dann ist := (a − b)/2 > 0 und es gibt n1 , n2 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n1 und |bn − b| < für alle n ∈ N mit n ≥ n2 . Setze n := max{n1 , n2 }. Dann ist an = a − (a − an ) ≥ a − |an − a| > a − = a − a+b a−b a−b = =b+ =b+ 2 2 2 > b + |bn − b| ≥ b + bn − b = bn , im Widerspruch zu unserer Annahme an ≤ bn . Dies beweist die Behauptung a ≤ b. (b) Sei a der gemeinsame Grenzwert der Folgen (an )n∈N und (bn )n∈N . Für jedes n ∈ N gelten un − a ≤ bn − a ≤ |bn − a| und − (un − a) = a − un ≤ a − an ≤ |an − a|, also auch |un − a| ≤ max{|an − a|, |bn − a|} ≤ |an − a| + |bn − a|. 107 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 Nach Lemma 4.(a,d,e) ist (un − a)n∈N eine Nullfolge, d.h. auch die Folge (un )n∈N konvergiert gegen a. Die Aussage (b) des Lemmas wird manchmal auch als das Einschnürungslemma“ ” oder Sandwichlemma“ bezeichnet. Beachte das es auch für dieses Lemma reicht die ” Ungleichungen an ≤ bn beziehungsweise an ≤ un ≤ bn nur für alle n ∈ N mit n ≥ n0 für einen Startindex n0 ∈ N zu fordern. Auch dies liegt daran, dass immer auch Folgen mit gemeint sind, die erst ab einem gewissen Startindex definiert sind. Zur Illustration der √ jetzt bewiesenen Lemmata wollen wir uns noch einmal den Beweis der Aussage ( n n)n∈N −→ 1 anschauen. Wir hatten gezeigt, dass für jedes n ∈ N mit n ≥ 2 die Ungleichung r √ 2 n 0< n−1≤ n−1 gilt. Weiter ist die Folge (1/(n − 1))n∈N alspTeilfolge einer Nullfolge wieder eine Nullfolge und nach Lemma 4.(b,f) ist auch ( 2/(n − 1))n∈N eine Nullfolge. Damit ist √ n ( n − 1) √n∈N nach dem Einschnürungslemma Lemma 5.(b) eine Nullfolge, d.h. wir haben ( n n)n∈N −→ 1. Beachte das wir die Konvergenzaussage diesmal direkt aus der obigen Ungleichung gefolgert haben, ein Argumentieren über die Konvergenzdefinition mit und n0 war gar nicht mehr nötig. Diesen Effekt werden wir noch häufiger sehen, der Nullfolgenbegriff und das unterstützende Lemma 4 erlauben es viele, aber nicht alle, -Überlegungen“ durch einfacheres Schließen zu ersetzen. ” Als eine weitere Anwendung des Einschnürungslemmas wollen wir jetzt, wie schon angekündigt, √ lim n c = 1 n→∞ für alle c ∈ R mit c ≥ 1 beweisen. Nach der archimedischen Eigenschaft der reellen Zahlen §1.Lemma 5 gibt es ein n0 ∈ N mit n0 ≥ c. Für alle n ∈ N mit n ≥ n0 ≥ c ist damit auch √ √ 1 ≤ n c ≤ n n, √ n und da wir bereits ( n)n∈N −→ 1 wissen, folgt mit dem Einschnürungslemma Lemma √ n 5.(b) auch ( c)n∈N −→ 1. Wir kommen nun zu den arithmetischen Eigenschaften des Grenzwertbegriffs, dies √ wird uns dann beispielsweise erlauben den Grenzwert der Folge ( n c)n≥1 im Fall 0 < c < 1 auf den schon erledigten Fall c ≥ 1 zurückzuführen. Satz 4.6 (Rechenregeln für Folgengrenzwerte) Sei K ∈ {R, C} und seien (an )n∈N und (bn )n∈N zwei konvergente Folgen in K. (a) Die Folge (an + bn )n∈N ist konvergent mit lim (an + bn ) = lim an + lim bn . n→∞ n→∞ 108 n→∞ Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 (b) Für jedes c ∈ K ist die Folge (can )n∈N konvergent mit lim (can ) = c · lim an . n→∞ n→∞ (c) Die Folge (an bn )n∈N ist konvergent mit lim (an bn ) = lim an · lim bn . n→∞ n→∞ n→∞ (d) Ist limn→∞ bn 6= 0 und gilt bn 6= 0 für alle n ∈ N, so ist die Folge (an /bn )n∈N konvergent mit lim an an n→∞ = . lim n→∞ bn lim bn n→∞ Beweis: Seien a der Grenzwert von (an )n∈N und b der Grenzwert von (bn )n∈N . (a) Die Folge ((an + bn ) − (a + b))n∈N = ((an − a) + (bn − b))n∈N ist nach Lemma 4.(a,d) eine Nullfolge. (b) Die Folge (can − ca)n∈N = (c(an − a))n∈N ist nach Lemma 4.(b,d) eine Nullfolge. (c) Nach Lemma 2.(a) ist die Folge (an )n∈N beschränkt, und damit ist die Folge (an bn − ab)n∈N = (an bn − an b + an b − ab)n∈N = (an (bn − b) + b(an − a))n∈N nach Lemma 4.(a,b,c,d) eine Nullfolge. (d) Es gibt ein n0 ∈ N mit |bn − b| < |b|/2 für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 folgen damit auch 1 |b| |b| 2 1 |bn | = |b − (b − bn )| ≥ |b| − |bn − b| > |b| − = und = < , 2 2 bn |bn | |b| d.h. die Folge (1/bn )n∈N ist beschränkt. Damit ist die Folge an a an b − abn an b − ab + ab − abn − = = bn b n∈N bn b bn b n∈N n∈N 1 a = · (an − a) − · (bn − b) bn bn b n∈N nach Lemma 4.(a,b,c,d) eine Nullfolge. Die Forderung bn 6= 0 für alle n ∈ N in Aussage (d) ist eigentlich nicht nötig. Im Beweis von (d) haben wir ja gesehen, dass es ein n0 ∈ N mit |bn | > |b|/2 für alle n ∈ N mit n ≥ n0 gibt, und damit ist insbesondere auch bn 6= 0 für alle n ∈ N mit n ≥ n0 . Betrachten wir also wieder die Folge ab dem Startindex n0 , so ergibt sich (d) auch in diesem Fall, solange wir uns die Folge (an /bn )n≥n0 als ab dem Startindex n0 definiert denken. Die Voraussetzung b 6= 0 ist dagegen wirklich nötig. Wir wollen jetzt ein paar Beispiele zur Anwendung der Grenzwertregeln behandeln. 109 Mathematik für Physiker I, WS 2016/2017 Montag 28.11.2016 1. Sei eine reelle Zahl c ∈ (0, 1) gegeben. Dann ist 1/c > 1 und somit folgt lim √ n n→∞ 1 c = lim q = n→∞ n 1 c 1 lim n→∞ q = 1, n 1 c da wir den √ Grenzwert im Nenner bereits früher zu 1 berechnet hatten. Insgesamt ist damit ( n c)n≥1 −→ 1 für überhaupt jedes c ∈ R mit c > 0 gezeigt. √ 2. Tatsächlich erlaubt uns der Satz auch die Grenzwerte der Folgen ( n c)n≥1 für √ c ≥ 1 und ( n n)n≥1 zu bestimmen ohne eine explizite Abschätzung herleiten √ zu müssen. Sei nämlich c ∈ R mit c ≥ 1 gegeben. Dann ist die Folge ( n c)n≥1 monoton fallend und durch 1 nach unten beschränkt, also konvergiert diese Folge nach Satz 3.(b) gegen ein a ≥ 1. Unsere Rechenregeln liefern damit √ 2 √ √ a2 = lim 2n c = lim ( 2n c)2 = lim n c = a, n→∞ n→∞ b→∞ √ und wegen a ≥ 1 folgt a = 1. √ Entsprechend kann man dann für ( n n)n≥1 schließen. Zunächst ist die Folge ( n n)n≥3 monoton fallend und durch 1 nach unten beschränkt, konvergiert also wieder gegen ein a ≥ 1. Dann rechnen wir √ √ √ √ n n 2n a2 = lim ( 2n)2 = lim 2n = lim 2 · lim n n = a, n→∞ n→∞ n→∞ n→∞ und haben wieder a = 1. 3. Wir wollen jetzt den schon recht kompliziert aussehenden Grenzwert 2n3 − 2n + 7 n→∞ n3 + 3n + 1 lim behandeln. Erweitern wir Zähler und Nenner mit 1/n3 und erinnern uns an den schon bekannten Grenzwert 1/n −→ 0, so rechnen wir mit den Grenzwertregeln 2− 2n3 − 2n + 7 = lim lim 3 n→∞ n + 3n + 1 n→∞ 1 + 2 n2 3 n2 + + 7 n3 1 n3 = lim 2 − 2 n2 + 7 n3 lim 1 + 3 n2 + 1 n3 n→∞ n→∞ = 2. 4. Ein ähnliches, scheinbar noch komplizierteres, Beispiel ist der Grenzwert 2n2 − n cos(n) + 3 sin(n4 + 1) . n→∞ 3n2 + n + (−1)n lim Wir erweitern mit 1/n2 , und erhalten sin(n4 +1) 2 − cosn n + 3 n2 2n2 − n cos(n) + 3 sin(n4 + 1) lim = lim n n→∞ n→∞ 3n2 + n + (−1)n 3 + 1 + (−1)2 n 110 n . Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 Nun ist (1/n)n≥1 eine Nullfolge und (cos n)n∈N eine beschränkte Folge, da der Cosinus ja nur Werte zwischen −1 und 1 annimmt, also ist (cos(n)/n)n≥1 nach Lemma 4.(c) eine Nullfolge. Ebenso sind (3 sin(n4 + 1)/n2 )n≥1 und ((−1)n /n2 )n≥1 Nullfolgen, es gilt also sin(n4 +1) 2 − cosn n + 3 n2 2n2 − n cos(n) + 3 sin(n4 + 1) = lim lim n n→∞ n→∞ 3n2 + n + (−1)n 3 + 1 + (−1)2 n n 2 = . 3 Vorlesung 12, Freitag 2.12.2016 In der letzten Sitzung haben wir die Rechenregeln für Folgengrenzwerte hergeleitet und mit diesen auch bereits einige Beispiele behandeln können. Als ein weiteres Beispiel zur Anwendung der Grenzwertregeln wollen wir die letzten beiden Beispiele noch etwas ausweiten, und allgemein den Grenzwert von Folgen berechenen die als rationale Ausdrücke in n gegeben sind, also als Quotient von Polynomen in n. Zur Vorbereitung beweisen wir ein kleines Lemma über das Wachstumsverhalten von Polynomen. Lemma 4.7 (Wachstumsverhalten von Polynomen) Seien K ∈ {R, C}, n ∈ N, > 0 und a0 , . . . , an ∈ K mit an 6= 0 gegeben. Dann existiert eine reelle Zahl r > 0 so, dass für jedes x ∈ K mit |x| ≥ r stets n X n k (|an | − )|x| < ak x < (|an | + )|x|n k=0 gilt. Beweis: Für n = 0 ist dies klar, wir können also n ≥ 1 annehmen. Setze M := max{|a0 |, |a1 |, . . . , |an−1 |} und r := 1 + nM ≥ 1. Sei x ∈ K mit |x| ≥ r gegeben. Wegen r ≥ 1 ist dann auch |x| ≥ 1 und für jedes 0 ≤ k < n ist damit |xk | = |x|k ≤ |x|n−1 . Damit folgt weiter n−1 n−1 n−1 n−1 X X X X nM n k k k |x| ak x ≤ |ak x | = |ak | · |x | ≤ M |x|n−1 = nM |x|n−1 = |x| k=0 k=0 k=0 k=0 ≤ 111 nM n |x| < |x|n . r Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 Dies ergibt weiter n−1 n X X ak xk < |an | · |x|n + |x|n = (|an | + )|x|n , ak xk ≤ |an | · |x|n + k=0 k=0 n n−1 X X k n k a x ≥ |a | · |x| − a x > |an | · |x|n − |x|n = (|an | − )|x|n . n k k k=0 k=0 Damit ist das Lemma vollständig bewiesen. Das Lemma ist eine quantitative Form der Aussage das Polynome wie ihr höchstes Glied wachsen. Wählen wir insbesondere = |an |/2 > 0, so wird das Lemma zu n X 3 |an | · |x|n < ak xk < |an | · |x|n ≤ 2|an | · |x|n 2 2 k=0 für alle x ∈ K mit |x| ≥ r. Insbesondere gilt für x ∈ K mit |x| ≥ r > 0 damit an xn + · · · + a0 6= 0, die Nullstellen des Polynoms haben also alle einen Betrag kleiner als r. Mit diesem Lemma können wir jetzt allgemein die Konvergenz von Folgen behandeln deren n-tes Folgenglied eine rationale Funktion in n ist, also ein Quotient zweier Polynome in n. Das Konvergenzverhalten derartiger Folgen hängt hauptsächlich vom Grad der beiden Polynome ab, und es treten drei verschiedene Fälle auf je nachdem ob der Zählergrad größer ist als der Nennergrad oder der Zählergrad kleiner ist als der Nennergrad oder ob die beiden gleich sind. Satz 4.8 (Rationale Folgen in n) Seien K ∈ {R, C}, r, s ∈ N und a0 , . . . , ar , b0 , . . . , bs ∈ K mit ar 6= 0 und bs 6= 0. Dann gelten: (a) Ist r < s, so ist ar nr + ar−1 nr−1 + · · · + a0 = 0. n→∞ bs ns + bs−1 ns−1 + · · · + b0 lim (b) Ist r = s, so ist ar nr + ar−1 nr−1 + · · · + a0 ar = . r r−1 n→∞ br n + br−1 n + · · · + b0 br lim (c) Ist r > s, so ist die Folge ar nr + ar−1 nr−1 + · · · + a0 bs ns + bs−1 ns−1 + · · · + b0 divergent. 112 n Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 Beweis: Nach Lemma 7 gibt es reelle Konstanten t1 , t2 > 0 mit r X |ar | ak xk < 2|ar | · |x|r und · |x|r < ∀(x ∈ K, |x| ≥ t1 ) : 2 k=0 s X |bs | ∀(x ∈ K, |x| ≥ t2 ) : bk xk < 2|bs | · |x|s . · |x|s < 2 k=0 Nach §1.Lemma 5 existiert weiter ein n0 ∈ N mit n0 ≥ max{t1 , t2 }. Insbesondere ist |bs ns + · · · + b0 | > 0 für alle n ∈ N mit n ≥ n0 , die betrachtete rationale Folge ist also ab dem Startwert n0 überhaupt definiert. (a) Für jedes n ∈ N mit n ≥ n0 gilt ar nr + ar−1 nr−1 + · · · + a0 |ar nr + ar−1 nr−1 + · · · + a0 | 4|ar | 1 bs ns + bs−1 ns−1 + · · · + b0 = |bs ns + bs−1 ns−1 + · · · + b0 | < |bs | ns−r , und die Behauptung folgt mit Lemma 4.(b,e). (b) Nach Satz 6.(a,b) gelten lim n→∞ r X ak k=0 1 nr−k = ar und lim n→∞ r X k=0 bk 1 nr−k = br , also ist nach Satz 6.(d) auch ar + ar−1 n1 + · · · + a0 n1r ar nr + ar−1 nr−1 + · · · + a0 ar lim = lim = . 1 1 r r−1 n→∞ br n + br−1 n n→∞ br + br−1 + · · · + b0 r + · · · + b0 br n n (c) Für jedes n ∈ N mit n ≥ n0 gilt ar nr + ar−1 nr−1 + · · · + a0 |ar nr + ar−1 nr−1 + · · · + a0 | |ar | r−s |ar | ≥ n, bs ns + bs−1 ns−1 + · · · + b0 = |bs ns + bs−1 ns−1 + · · · + b0 | > 4|bs | n 4|bs | und nach §1.Lemma 5 ist dies nicht nach oben beschränkt. Die Behauptung folgt nun mit Lemma 2.(a). Die im Beweis des Satzes hergeleiteten Abschätzungen erlauben es auch noch weitere Grenzwerte zu berechnen. Übernehmen wir die Bezeichungen des Satzes so haben wir gesehen das es ein n0 ∈ N mit |bs ns + · · · + b0 | > 0 und |ar | r−s ar nr + · · · + a0 4|ar | r−s n < < n 4|bs | bs n s + · · · + b0 |bs | für alle n ∈ N mit n ≥ n0 gibt. Für jedes n ∈ N mit n ≥ n0 ist damit auch s s s r √ √ ar n + · · · + a0 n |ar | n 4|ar | n < n)r−s · ( n n)r−s < n · ( s 4|bs | bs n + · · · + b0 |bs | 113 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 √ √ und mit den uns schon bekannten Grenzwerten ( n n)n≥1 −→ 1 und ( n c)n≥1 −→ 1 für jedes c > 0 sowie den Rechenregeln für Folgengrenzwerte folgt das die linke und rechte Seite dieser Abschätzung beide gegen 1 konvergieren. Das Einschnürungslemma Lemma 5.(b) liefert schließlich s r n ar n + · · · + a0 lim bs ns + · · · + b0 = 1. n→∞ Zum Ende dieses Abschnitts wollen wir noch einen letzten wichtigen Begriff einführen, der den Grenzwertbegriff etwas verallgemeinert. Wir schauen uns zunächst einmal das Beispiel der Folge an = (−1)n 1 0.5 wie nebenstehend gezeigt an. Diese Folge ist natürlich nicht konvergent, sie besitzt ja beispielsweise konvergente Teilfolgen, die gegen verschiedene Grenzwerte konvergieren. Man ist trotzdem versucht zu sagen, dass +1 und −1 zwar keine Grenzwerte aber etwas Grenzwertartiges“ sind. Man spricht hier von ” Häufungspunkten der Folge (an )n∈N . Es gibt im wesentlichen zwei verschiedene, aber äquivalente, Arten einen Häufungspunkt zu definieren, einmal über Teilfolgen und einmal über eine –n0 Definition“. Wir wählen hier die erste Möglichkeit und beweisen ” anschließend, dass sie zur zweiten Version äquivalent ist. 0 5 10 15 20 –0.5 –1 Definition 4.8 (Häufungspunkte einer Folge) Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. Ein Element a ∈ K heißt ein Häufungspunkt von (an )n∈N wenn es eine gegen a konvergente Teilfolge (ank )k∈N von (an )n∈N gibt. Einige Beispiele von Häufungspunkten sind wie folgt: 1. Ist (an )n∈N −→ a ∈ K, so konvergiert nach Lemma 1.(a) auch jede Teilfolge von (an )n∈N gegen a, d.h. a ist der einzige Häufungspunkt von (an )n∈N . 2. Die Folge ((−1)n )n∈N hat genau zwei Häufungspunkte nämlich −1 und 1. 3. Die Folge (sin(n))n∈N hat jede reelle Zahl a ∈ [−1, 1] als Häufungspunkt. Das ist nicht mehr so offensichtlich, auf einen Beweis wollen wir aber verzichten. Kommen wir nun zur äquivalenten –n0 Definition von Häufungspunkten. Dass eine Folge (an )n∈N gegen eine Zahl a konvergiert bedeutet das sie a ab einem gewissen Index stets bis auf eine beliebig vorgegebene Fehlerschranke > 0 nahe kommt. Dass a ein Häufungspunkt ist bedeutet dagegen nur das die Folge der Zahl a immer wieder beliebig nahe kommt. Lemma 4.9 (Charakterisierung von Häufungspunkten) Sei K ∈ {R, C} und seien (an )n∈N eine Folge in K und a ∈ K. Dann ist a genau dann 114 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 ein Häufungspunkt der Folge (an )n∈N wenn es für jedes > 0 und jedes n0 ∈ N stets ein n ∈ N mit n ≥ n0 und |an − a| < gibt. Beweis: ”=⇒” Es gibt eine Teilfolge (ank )k∈N von (an )n∈N mit (ank )k∈N −→ a. Seien > 0 und n0 ∈ N gegeben. Dann existiert ein k0 ∈ N mit |ank − a| < für alle k ∈ N mit k ≥ k0 . Setze k := max{k0 , n0 } ∈ N. Dann ist nk ∈ N mit nk ≥ k ≥ n0 und |ank − a| < . ”⇐=” Zunächst existiert ein n0 ∈ N mit |an0 − a| < 1. Ist k ∈ N und ist nk schon definiert, so wähle ein nk+1 ∈ N mit nk+1 ≥ nk + 1 > nk und |ank+1 − a| < 1/(k + 2). Induktiv wird so eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| < 1/(k + 1) für alle k ∈ N definiert. Nach Lemma 4.(d,e) gilt auch (ank )k∈N −→ a. Damit ist a ein Häufungspunkt der Folge (an )n∈N . In logischen Quantoren geschrieben, wird die Bedingung des Lemmas zu ∀( > 0)∀(n0 ∈ N)∃(n ≥ n0 ) : |an − a| < . Während die Konvergenzdefinition fordert, dass die Folge ab einem geeigneten Index ganz in einem beliebig kleinen vorgegebenen Kreis mit Mittelpunkt a liegt, wird hier nur gefordert, dass die Folge immer wieder in einen solchen Kreis zurückkehrt. Das Verhalten von Häufungspunkten bezüglich Addition und Multiplikation von Folgen kann recht kompliziert sein, es gibt allerdings einen Fall der sich gut behandeln läßt, wenn nämlich eine der beteiligten Folgen konvergent ist. Lemma 4.10: Seien K ∈ {R, C}, (an )n∈N eine Folge in K und H := {a ∈ K |a ist ein Häufungspunkt von (an )n∈N } die Menge der Häufungspunkte von (an )n∈N in K. Weiter seien b ∈ K und (bn )n∈N eine konvergente Folge in K mit (bn )n∈N −→ b. Dann gelten (a) Die Menge M := {a + b|a ∈ H} ist die Menge der Häufungspunkte der Folge (an + bn )n∈N . (b) Ist b 6= 0, so ist die Menge N := {ab|a ∈ H} die Menge der Häufungspunkte der Folge (an bn )n∈N . Beweis: Sei a ∈ H. Dann existiert eine Teilfolge (ank )k∈N von (an )n∈N mit (ank )k∈N −→ a, also ist nach Lemma 1.(a) und Satz 6.(a,c) auch (ank + bnk )k∈N −→ a + b und (ank bnk )k∈N −→ ab, d.h. a + b ist ein Häufungspunkt von (an + bn )n∈N und ab ein Häufungspunkt von (an bn )n∈N . Dies beweist jeweils eine der beiden Inklusionen in (a) beziehungsweise (b). (a) Sei umgekehrt a ∈ K ein Häufungspunkt der Folge (an + bn )n∈N . Da nach Lemma 6.(b) auch (−bn )n∈N −→ −b gilt, ergibt die bereits bewiesene Teilaussage das a0 := a−b 115 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 ein Häufungspunkt der Folge (an )n∈N = ((an + bn ) − bn )n∈N ist, d.h. es gilt a0 ∈ H und somit a = a0 + b ∈ M . (b) Sei nun a ∈ K ein Häufungspunkt der Folge (an bn )n∈N . Wegen b 6= 0 ergibt Satz 6.(d) auch (1/bn )n≥n0 −→ 1/b für ein geeignetes n0 ∈ N und somit ist a0 := a/b ∈ K nach der bereits bewiesenen Teilaussage ein Häufungspunkt der Folge (an )n≥n0 = ((an bn )/bn )n≥n0 , also auch ein Häufungspunkt der Folge (an )n∈N , und somit a0 ∈ H. Damit haben wir auch a = a0 b ∈ N . Im Fall b = 0 kann die Aussage (b) des Lemmas tatsächlich falsch werden, ist etwa an = n und bn = 1/n für alle n ∈ N mit n ≥ 1, so ist H = ∅ aber an bn = 1 für alle n ∈ N mit n ≥ 1 und (an bn )n∈N hat den Häufungspunkt 1. 4.2 Reelle Zahlenfolgen In diesem Abschnitt wollen wir auf einige spezielle Eigenschaften diskutieren, die nur den reellen aber nicht den komplexen Fall betreffen. Die Folgen ((−1)n )n∈N und (n)n∈N sind beide divergent, aber auf sehr verschiedene Weise. Man ist versucht zu sagen, dass letztere Folge gegen +∞ konvergiert, und eine derartige Verallgemeinerung des Konvergenzbegriffs stellt sich tatsächlich als sinnvoll heraus. Zur exakten Definition müssen wir uns nur an die in §1.4 eingeführten erweiterten reellen Zahlen R = R ∪ {−∞, +∞} erinnern. Konvergenz gegen ±∞ kann in R wie folgt definiert werden: Definition 4.9 (Konvergenz in R) Sei (an )n∈N eine reelle Zahlenfolge. (a) Die Folge (an )n∈N konvergiert in R gegen +∞ wenn es für jedes c ∈ R ein n0 ∈ N mit an > c für alle n ∈ N mit n ≥ n0 gibt. (b) Die Folge (an )n∈N konvergiert in R gegen −∞ wenn es für jedes c ∈ R ein n0 ∈ N mit an < c für alle n ∈ N mit n ≥ n0 gibt. Nach der archimedischen Eigenschaft der reellen Zahlen §1.Lemma 5 ist beispielsweise (n)n∈N −→ +∞. In Formeln ausgedrückt ist (an )n∈N −→ +∞ ⇐⇒ ∀(c ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an > c, (an )n∈N −→ −∞ ⇐⇒ ∀(c ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an < c. Weiter sagen wir das eine reelle Zahlenfolge (an )n∈N in R konvergiert, wenn sie entweder in R konvergiert oder in R gegen ±∞ konvergiert. Der Zusatz in R“ ist hier wichtig, ” wenn nur von Konvergenz die Rede ist, so ist dies im Sinne der Definition des vorigen Abschnitts gemeint, also ohne ±∞ als Grenzwerte zuzulassen. In der Literatur finden Sie oft auch die alternative Bezeichnung bestimmt divergent gegen +∞ beziehungs” weise −∞“ oder auch divergent gegen ±∞“. Wir sprechen hier von Konvergenz in ” ” R“ da die formalen Eigenschaften der Konvergenz in R beinahe identisch mit denen der gewöhnlichen Konvergenz sind. 116 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 Auf zwei Mißverständnisse wollen wir hier gesondert hinweisen. Eine divergente Folge muss keinesfalls gegen +∞ oder −∞ konvergieren, beispielsweise sind die Folgen an = (−1)n oder an = (−1)n n beide divergent und auch nicht in R konvergent. Weiter muss eine gegen +∞ konvergente Folge keinesfalls monoton steigend sein, sie muss nur schließlich über jeder vorgegebenen Grenze liegen, darf aber ruhig immer mal wieder kleiner werden. Ein Beispiel hierfür ist etwa die Folge an = n + 2(−1)n . Die Aussagen des vorigen Abschnitts übertragen sich, soweit sinnvoll, auch auf die Konvergenz in R. Insbesondere gelten die Rechenregeln für Grenzwerte solange die rechte Seite überhaupt definiert ist, also beispielsweise nicht von der Form ∞ − ∞ oder 0 · ∞ ist. Für den Quotienten konvergenter Folgen kann man dabei zusätzlich zu den Regeln aus §1.4 noch x x = := 0 +∞ −∞ für alle x ∈ R und −∞ +∞ := sign(x) · ∞ sowie := − sign(x) · ∞ x x für alle x ∈ R\{0} vereinbaren. Auch einen Zusammenhang mit Nullfolgen kann man leicht herstellen, für eine reelle oder komplexe Zahlenfolge (an )n∈N mit an 6= 0 für alle n ∈ N ist genau dann |an | −→ +∞ wenn (1/an )n∈N eine Nullfolge ist. Schließlich kann man im reellen Fall die Divergenzaussage in Satz 8.(c) noch zu ar n r + · · · + a0 = sign(ar ) · sign(bs ) · ∞ n→∞ bs ns + · · · + b0 lim für r > s verschärfen. Da all dies sehr den Überlegungen des vorigen Abschnitts ähnelt, haben wir in der Vorlesung auf den Beweis all dieser Dinge verzichtet, in diesem Skript wollen wir aber ruhig die vollständigen Beweise angeben. Seien (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen. 1. Ist (an )n∈N −→ +∞, so ist (an )n∈N offenbar nach oben unbeschränkt aber nach unten beschränkt. Letzteres gilt da es ein n0 ∈ N mit an > 0 für alle n ≥ n0 gibt und setzen wir c := min{0, a0 , . . . , an0 −1 }, so ist an ≥ c für alle n ∈ N. Ist (an )n∈N −→ −∞, so ist (an )n∈N analog nach unten unbeschränkt und nach oben beschränkt. 2. Konvergiert (an )n∈N in R gegen ein a ∈ R, so konvergiert auch jede Teilfolge von (an )n∈N gegen a. Dies ist analog zu Lemma 1.(a). 3. Die Folge (an )n∈N kann auch in R höchstens gegen ein a ∈ R konvergieren. In der Tat, nach Lemma 1.(b) gibt es höchstens einen reellen Grenzwert. Nach Aussage (1) und Lemma 2.(a) kann die Folge auch nicht gleichzeitig gegen eine reelle Zahl und ±∞ konvergieren. Schließlich kann sie nach (1) auch nicht gleichzeitig gegen +∞ und −∞ konvergieren. Für eine in R konvergente Folge schreiben wir auch wieder lim an ∈ R n→∞ 117 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 für den eindeutig bestimmten Grenzwert in R. 4. Setzen wir | + ∞| := | − ∞| := ∞, so überträgt sich auch Lemma 2.(b) auf in R konvergente Folgen. Für den Fall eines reellen Grenzwerts ist dies das Lemma 2.(b) und für den Grenzwert ±∞ ist die Aussage klar. 5. Der Satz 3 erweitert sich zu der Aussage das überhaupt jede monoton steigende reelle Zahlenfolge in R gegen ihr Supremum konvergiert und jede monoton fallende reelle Zahlenfolge gegen ihr Infimum konvergiert. Nehme etwa an das (an )n∈N eine monoton steigende reelle Folge ist. Ist (an )n∈N dann nach oben beschränkt so konvergiert (an )n∈N nach Satz 3 gegen das Supremum sup{an |n ∈ N}. Ist (an )n∈N dagegen nach oben unbeschränkt, so ist zunächst sup{an |n ∈ N} = ∞ und wir müssen (an )n∈N −→ ∞ einsehen. Ist jetzt c ∈ R, so ist c keine obere Schranke der Folge (an )n∈N , es gibt also ein n0 ∈ N mit an0 > c. Für jedes n ∈ N mit n ≥ n0 ergibt die vorausgesetzte Monotonie unserer Folge dann auch an ≥ an0 > c. Also ist tatsächlich (an )n∈N −→ ∞. Für monoton fallende Folgen können wir dann analog vorgehen. 6. Die beiden Aussagen von Lemma 5 übertragen sich offenbar auf die Konvergenz in R. Etwas genauer können wir sagen: Sind (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen mit an ≤ bn für alle n ∈ N und (an )n∈N −→ +∞, so ist auch (bn )n∈N −→ +∞. Ist nämlich c ∈ R, so existiert ein n0 ∈ N mit an > c für alle n ∈ N mit n ≥ n0 , und für jedes n ∈ N mit n ≥ n0 ist damit auch bn ≥ an > c. Analog folgt aus an ≤ bn für alle n ∈ N und (bn )n∈N −→ −∞ auch (an )n∈N −→ −∞. Aus dieser Beobachtung folgen nun alle Aussagen des Lemma 5 wenn einer der beteiligten Grenzwerte ±∞ ist. 7. Auch die Rechenregeln für Folgengrenzwerte Satz 6 gelten für in R konvergente Folgen (an )n∈N , (bn )n∈N soweit die rechte Seite überhaupt definiert ist. Seien nämlich a, b die jeweiligen Grenzwerte der beiden Folgen. Sind a, b ∈ R so wissen wir bereits alles nach Satz 6, es sind also nur noch die Fälle zu betrachten in denen ±∞ als Grenzwerte vorkommen. Wir gehen dies der Reihe nach für Summen, Produkte und Quotienten durch. (a) Wir beginnen mit der Summenfolge. Damit a + b definiert ist, muss {a, b} = 6 {+∞, −∞} gelten. Sei etwa a = ∞. Dann ist b ∈ R ∪ {∞} und auf jeden Fall ist (bn )n∈N damit nach unten beschränkt, es gibt also ein d ∈ R mit bn ≥ d für alle n ∈ N. Sei c ∈ R. Dann existiert ein n0 ∈ N mit an > c − d für alle n ∈ N mit n ≥ n0 und für n ∈ N mit n ≥ n0 folgt damit auch an + bn ≥ an + d > c − d + d = c. Folglich ist (an + bn )n∈N −→ +∞ = a + b. Die anderen Fälle sind analog. (b) Nun kommen wir zu den Produkten, dies ist etwas komplizierter da wir diesmal auch die Vorzeichen von a und b berücksichtigen müssen. Damit a · b definiert ist muss a, b 6= 0 sein, da wir ja a ∈ {+∞, −∞} oder b ∈ 118 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 {+∞, −∞} annehmen. Wir betrachten zunächst den Fall a = +∞. Wir behaupten das es ein n1 ∈ N und eine Konstante β > 0 gibt so, dass für alle n ∈ N mit n ≥ n1 im Fall b > 0 stets bn > β ist und im Fall b < 0 stets bn < −β ist. Hierzu unterscheiden wir drei verschiedene Fälle. Zunächst sei b ∈ R und setze β := |b|/2 > 0. Es gibt ein n1 ∈ N mit |bn − b| < |b|/2 für alle n ∈ N mit n ≥ n1 . Ist weiter b > 0, so folgt für alle n ∈ N mit n ≥ n1 auch bn = b − (b − bn ) ≥ b − |bn − b| > b − |b|/2 = |b|/2 = β, und ist b < 0 so ist für alle n ∈ N mit n ≥ n1 analog auch bn < −|b|/2 = −β. Ist dagegen b ∈ {+∞, −∞}, so setze β := 1 > 0. Im Fall b = +∞ existiert ein n1 ∈ N mit bn > 1 = β für alle n ∈ N mit n ≥ n1 und im Fall b = −∞ gibt es ebenso ein n1 ∈ N mit bn < −1 = −β für alle n ∈ N mit n ≥ n1 . Damit ist diese Zwischenbehauptung bewiesen. Nun sei ein c ∈ R gegeben. Dann existiert ein n2 ∈ N mit an > |c|/β für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Sei n ∈ N mit n ≥ n0 gegeben. Im Fall b > 0 haben wir dann bn > β > 0 und somit an b n > |c| |c| bn ≥ · β = |c| ≥ c, β β und im Fall b < 0 haben wir wegen bn < −β < 0 analog an bn < |c| |c| bn ≤ − · β = −|c| ≤ c. β β Dies zeigt (an bn )n∈N −→ +∞ wenn b > 0 ist und (an bn )n∈N −→ −∞ wenn b < 0 ist, wir haben also lim (an bn ) = sign(b) · ∞ = (+∞) · b = lim an · lim bn . n→∞ n→∞ n→∞ Dabei interpretieren wir sign(+∞) := 1 und sign(−∞) := −1. Damit ist alles gezeigt wenn a = +∞ ist. Die anderen drei Fälle, also a = −∞ oder b = ±∞ folgen analog. (c) Schließlich kommen wir zu den Quotienten. Wir schicken eine kleine Hilfsbehauptung voraus: Ist K ∈ {R, C} und ist (cn )n∈N eine Folge in K mit cn 6= 0 für alle n ∈ N so gilt 1 ist eine Nullfolge. lim |cn | = +∞ ⇐⇒ n→∞ cn n∈N Dies ist im wesentlichen nur eine Umformulierung. ”=⇒” Nehme also (|cn |)n∈N −→ +∞ an. Sei > 0 gegeben. Dann existiert ein n0 ∈ N mit |cn | > 1/ für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist damit auch 1 = 1 < . cn |cn | 119 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 Dies zeigt (1/cn )n∈N −→ 0. ”⇐=” Sei c ∈ R. Dann existiert ein n0 ∈ N mit 1 1 1 = < |cn | cn |c| + 1 für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist damit auch |cn | > |c| + 1 > |c| ≥ c, und wir haben (|cn |)n∈N −→ +∞ eingesehen. Damit ist diese erste Behauptung bewiesen. Im reellen Fall K = R kann man die Aussage noch etwas verfeinern. Ist (cn )n∈N eine Nullfolge und haben alle Folgenglieder dasselbe Vorzeichen σ ∈ {−1, 1}, so ist |cn | = σcn für alle n ∈ N und es folgt (cn )n∈N −→ σ ·∞. Wir kommen jetzt zur Behandlung der Quotientenfolge (an /bn )n∈N wobei wieder bn 6= 0 für alle n ∈ N vorausgesetzt sei. Ist a ∈ R und b ∈ R\{0}, so sind wir in der Situation von Satz 6.(d). Nun sei a ∈ R und b ∈ {−∞, +∞}. Dann ist insbesondere (|bn |)n∈N −→ +∞, also ist (1/bn )n∈N eine Nullfolge und da (an )n∈N nach Lemma 2.(a) beschränkt ist, ist nach Lemma 4.(c) auch der Quotient (an /bn )n∈N eine Nullfolge. Definieren wir also x x := := 0 +∞ −∞ für jedes x ∈ R, so gilt die Grenzwertformel für Quotienten auch in dieser Situation. Im nächsten Fall ist a ∈ R\{0}, b = 0 und alle Folgenglieder bn für n ∈ N haben dasselbe Vorzeichen, d.h. es existiert ein σ ∈ {−1, 1} mit sign(bn ) = σ für alle n ∈ N. Wie oben bemerkt ist dann (1/bn )n∈N −→ σ · ∞ und mit der schon behandelten Produktformel folgt an 1 = an · −→ (σa) · ∞. bn n∈N bn n∈N Im letzten Fall ist b ∈ R\{0} und a ∈ {−∞, +∞}. Dann ist nach Satz 6.(d) auch (1/bn )n∈N −→ 1/b. Mit dem schon behandelten Produktfall folgt an 1 a = an · −→ , bn n∈N bn n∈N b wenn wir +∞ −∞ := sign(x) · ∞ und := − sign(x) · ∞ x x für jedes x ∈ R\{0} definieren. Mit den hier gegebenen Interpretationen von Quotienten mit ±∞ im Zähler oder im Nenner gilt also auch die Quotientenformel für Grenzwerte in R solange die rechte Seite definiert ist. 120 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 8. Als letzte Aussage wollen wir uns noch um Satz 8.(c) kümmern. Es seien also K ∈ {R, C} und r, s ∈ N mit r > s sowie a0 , . . . , ar , b0 , . . . , bs ∈ K mit ar 6= 0 und bs 6= 0 gegeben. Im Beweis von Satz 8.(c) haben wir bereits gesehen, dass es ein n0 ∈ N mit ar nr + · · · + a0 |ar | bs ns + · · · + b0 ≥ 4|bs | · n für alle n ∈ N mit n ≥ n0 gibt, und dies liefert ar nr + · · · + a0 = ∞. lim n→∞ bs ns + · · · + b0 Im reellen Fall K = R können wir noch etwas mehr sagen. Nach Satz 8.(b) wissen wir 1 ar nr + · · · + a0 ar lim · 6= 0, = n→∞ nr−s bs ns + · · · + b0 bs und wegen (nr−s )n∈N −→ +∞ ist damit ar n r + · · · + a0 ar = sign lim · ∞ = sign(ar ) · sign(bs ) · ∞. n→∞ bs ns + · · · + b0 bs Die Definition der Häufungspunkte einer reellen Folge läßt sich wörtlich auf Häufungspunkte in R übertragen. Die neu hinzukommenden Häufungspunkte lassen sich dabei leicht beschreiben, für jede reelle Zahlenfolge (an )n∈N gelten +∞ ist Häufungspunkt von (an )n∈N ⇐⇒ (an )n∈N ist nach oben unbeschränkt, −∞ ist Häufungspunkt von (an )n∈N ⇐⇒ (an )n∈N ist nach unten unbeschränkt. Ist nämlich +∞ ein Häufungspunkt von (an )n∈N in R, so existiert eine Teilfolge (ank )k∈N von (an )n∈N mit (ank )k∈N −→ +∞, und damit ist (ank )k∈N und somit auch (an )n∈N nach oben unbeschränkt. Nun nehme umgekehrt an, dass (an )n∈N nach oben unbeschränkt ist. Dann existiert insbesondere ein n0 ∈ N mit an0 > 0. Ist jetzt k ∈ N und ist nk bereits definiert, so existiert auch ein nk+1 ∈ N mit ank+1 > max{a0 , a1 , . . . , ank , k + 1}, also insbesondere ank+1 > k + 1 und nk+1 > nk . Hierdurch wird induktiv eine Teilfolge (ank )k∈N von (an )n∈N mit ank > k für alle k ∈ N definiert. Damit ist auch limk→∞ ank = +∞ und wir haben eine gegen +∞ konvergente Teilfolge der Folge (an )n∈N gefunden, d.h. +∞ ist ein Häufungspunkt dieser Folge. Die Aussage über den Häufungspunkt −∞ folgt analog. Weiter gilt auch Lemma 10 für Häufungspunkte in R, sind also (an )n∈N eine reelle Zahlenfolge, H die Menge ihrer Häufungspunkte in R und (bn )n∈N eine konvergente reelle Zahlenfolge mit dem Grenzwert b ∈ R, so ist M = {a + b|a ∈ H} die Menge der Häufungspunkte von (an + bn )n∈N in R und ist b 6= 0 so ist N = {ab|a ∈ H} die Menge der Häufungspunkte von (an bn )n∈N in R. Beachte dabei das die Folge (bn )n∈N tatsächlich im gewöhnlichen Sinne konvergent sein soll, also mit reellen Grenzwert, und nicht etwa nur in den erweiterten reellen Zahlen konvergiert. Dies ist leicht einzusehen. 121 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 Sind H, M, N die entsprechenden reellen Mengen, so wissen wir bereits nach Lemma 10 das M die Menge der reellen Häufungspunkte von (an + bn )n∈N und N im Fall b 6= 0 die Menge der reellen Häufungspunkte von (an bn )n∈N ist. Wir müssen uns also nur noch überlegen was mit den Häufungspunkten ±∞ passiert. Beginnen wir mit dem Summenfall. Da die Folge (bn )n∈N nach Lemma 2.(a) insbesondere beschränkt ist, ist (an +bn )n∈N genau dann nach oben unbeschränkt wenn (an )n∈N nach oben unbeschränkt ist, d.h. genau dann gilt ∞ ∈ H wenn ∞ ein Häufungspunkt von (an + bn )n∈N ist. Analog ist auch genau dann −∞ ∈ H wenn −∞ ein Häufungspunkt von (an + bn )n∈N ist, und wegen (∞) + b = ∞ und (−∞) + b = −∞ folgt die Behauptung über die Häufungspunkte von (an + bn )n∈N . Für die Aussage über die Produktfolge nehme nun b 6= 0 an. Zunächst sei b > 0. Dann gibt es ein n0 ∈ N mit b/2 < bn < 2b für alle n ∈ N mit n ≥ n0 und damit ist die Folge (an bn )n∈N genau dann nach oben unbeschränkt wenn (an )n∈N nach oben unbeschränkt, d.h. genau dann ist ∞ ∈ H wenn ∞ ein Häufungspunkt von (an bn )n∈N ist. Analog ist genau dann −∞ ∈ H wenn −∞ ein Häufungspunkt von (an bn )n∈N ist, und wegen (∞) · b = ∞ und (−∞) · b = −∞ folgt unsere Behauptung. Im letzten verbleibenden Fall ist b < 0. Dann gibt es ein n0 ∈ N mit 2b < bn < b/2 für alle n ∈ N mit n ≥ n0 und somit ist (an bn )n∈N genau dann nach oben unbeschränkt wenn (an )n∈N nach unten unbeschränkt ist, d.h. genau dann gilt −∞ ∈ H wenn ∞ ein Häufungspunkt von (an bn )n∈N ist. Analog ist auch genau dann ∞ ∈ H wenn −∞ ein Häufungspunkt von (an bn )n∈N ist. Da aber (∞) · b = −∞ und (−∞) · b = ∞ gelten, folgt die Behauptung auch in diesem Fall. Wir werden zeigen, dass in den erweiterten reellen Zahlen R jede reelle Zahlenfolge einen Häufungspunkt besitzt. Wir werden sogar noch mehr einsehen, es gibt immer einen kleinsten und einen größten Häufungspunkt der Folge, und diese beiden können wir sogar recht explizit angeben. Sei also (an )n∈N eine völlig beliebige reelle Zahlenfolge. Für jedes n ∈ N betrachten wir An := sup ak = sup{ak |k ∈ N, k ≥ n} ∈ R ∪ {∞}. k≥n Bevor wir mit der Untersuchung einer allgemeinen Folge fortfahren schauen wir uns drei kleine Beispiele hierzu an: 1. Zunächst sei an = (−1)n für jedes n ∈ N. Dann haben wir für jedes n ∈ N auch An = sup{−1, 1} = 1. 2. Ist (an )n∈N nicht nach oben beschränkt, so ist für jedes n ∈ N auch die Menge {ak |k ∈ N, k ≥ n} nicht nach oben beschränkt und es folgt An = +∞. 3. Ist (an )n∈N monoton fallend so gilt für jedes n ∈ N wegen an = max{ak |k ∈ N, k ≥ n} stets An = an . Wir kehren nun zur allgemeinen Situation zurück. Sind M, N ⊆ R zwei Teilmengen mit M ⊆ N , so ist sup N ∈ R eine obere Schranke von M , und somit gilt sup M ≤ sup N . Haben wir also n ∈ N, so ist wegen {ak |k ∈ N, k ≥ n + 1} ⊆ {ak |k ∈ N, k ≥ n} 122 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 auch An+1 ≤ An . Damit ist (An )n∈N eine monoton fallende Folge in R und nach der Erweiterung von Satz 3 auf die erweiterten reellen Zahlen konvergiert diese Folge gegen ihr Infimum, also existiert der sogenannte Limes Superior s := lim An = inf An ∈ R. n→∞ n∈N Wir wollen zunächst klären wann s eine reelle Zahl ist. Hierzu sind verschiedene Fälle zu unterscheiden. Ist die Folge (an )n∈N nach oben unbeschränkt, so ist für jedes n ∈ N stets An = +∞ und somit ist auch der Grenzwert s = +∞. Nun nehme an, dass (an )n∈N nach oben beschränkt ist, d.h. es gibt ein c ∈ R mit an ≤ c für alle n ∈ N. Für jedes n ∈ N ist c dann auch eine obere Schranke der Menge {ak |k ∈ N, k ≥ n}, und wir haben An ≤ c. Als nicht reeller Wert von s kommt also nur noch −∞ in Frage. Hierzu behaupten wir: s = −∞ ⇐⇒ lim an = −∞. n→∞ Ist nämlich s = −∞ so folgt wegen an ≤ An für alle n ∈ N auch limn→∞ an = −∞. Nun nehme umgekehrt (an )n∈N −→ −∞ an. Sei a ∈ R. Dann existiert ein n0 ∈ N mit an < a − 1 für alle n ∈ N mit n ≥ n0 . Sei jetzt n ∈ N mit n ≥ n0 gegeben. Für jedes k ∈ N mit k ≥ n ≥ n0 ist dann ak < a − 1, d.h. a − 1 ist eine obere Schranke der Menge {ak |k ∈ N, k ≥ n}, und somit ist An ≤ a − 1 < a. Dies beweist (An )n∈N −→ −∞, also s = −∞. Damit ist diese Zwischenbehauptung bewiesen. Insgesamt ist s also genau dann eine reelle Zahl wenn die Folge (an )n∈N nach oben beschränkt ist und nicht in R gegen −∞ konvergiert. Der Limes Superior s ist keine obere Schranke der Folge, ist beispielsweise an = 1 1 für n ≥ 1, so ist auch An = für n ≥ 1 n n und es folgt s = limn→∞ An = 0, die gesamte Folge ist hier also größer als ihr Limes Superior. Selbst wenn wir etwas über den Limes Superior hinausgehen, also ein a mit a > s betrachten, so muss a keine obere Schranke sein, es ist aber zumindest eine obere Schranke für so gut wie alle Folgenglieder, nämlich für alle Folgenglieder bis auf höchstens endlich viele Ausnahmen. Dies und einige weitere Eigenschaften des Limes Superior wollen wir nun in einem Satz zusammenfassen. Satz 4.11 (Limes Superior und Limes Inferior) Sei (an )n∈N eine reelle Zahlenfolge. (a) Der Limes Superior lim sup an := lim sup ak ∈ R n→∞ k≥n n→∞ ist der größte Häufungspunkt der Folge (an )n∈N in R und der Limes Inferior lim inf an := lim inf ak ∈ R n→∞ n→∞ k≥n ist der kleinste Häufungspunkt der Folge (an )n∈N in R. 123 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 (b) Ist (an )n∈N in R konvergent mit (an )n∈N −→ a, so ist auch lim sup an = lim inf an = a = lim an . n→∞ n→∞ n→∞ (c) Es gilt lim inf an ≤ lim sup an n→∞ n→∞ und genau dann ist lim sup an = lim inf an wenn die Folge (an )n∈N in R konvern→∞ n→∞ giert. (d) Es gelten lim sup an = +∞ ⇐⇒ (an )n∈N ist nach oben unbeschränkt, n→∞ lim sup an = −∞ ⇐⇒ n→∞ lim an = −∞, n→∞ lim inf an = −∞ ⇐⇒ (an )n∈N ist nach unten unbeschränkt, n→∞ lim inf an = +∞ ⇐⇒ n→∞ lim an = +∞. n→∞ (e) Für jedes a ∈ R gelten a > lim sup an ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b < a ∧ ∀(n ∈ N, n ≥ n0 ) : an < b] n→∞ und a < lim inf an ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b > a ∧ ∀(n ∈ N, n ≥ n0 ) : an > b] . n→∞ Beweis: (e) Schreibe s := lim supn→∞ an und An := supk≥n ak für jedes n ∈ N. ”=⇒” Sei a ∈ R gegeben. Zunächst nehmen wir a > s an, also insbesondere s 6= +∞ und a 6= −∞. Da a > s = inf{An |n ∈ N} keine untere Schranke der Menge {An |n ∈ N} ist, existiert ein n0 ∈ N mit An0 < a. Weiter existiert ein b ∈ R mit An0 < b < a, nämlich b = An0 + 1 falls a = +∞ ist und b := (a + An0 )/2 wenn a ∈ R ist. Für jedes n ∈ N mit n ≥ n0 ist dann auch an ≤ An0 < b. ”⇐=” Nun nehme umgekehrt an, dass es ein b ∈ R und eine natürliche Zahl n0 ∈ N mit b < a und an < b für alle n ∈ N mit n ≥ n0 gibt. Dann gilt auch s ≤ An0 = sup{an |n ∈ N, n ≥ n0 } ≤ b < a, also ist s < a. Damit ist die Behauptung für den Limes Superior bewiesen und die Aussage über den Limes Inferior ergibt sich analog. (d) Die beiden Aussagen über den Limes Superior haben wir bereits eingesehen und die Aussagen über den Limes Inferior folgen analog. 124 Mathematik für Physiker I, WS 2016/2017 Freitag 2.12.2016 (a) Wir beginnen wieder mit der Aussage über den Limes Superior und zeigen zunächst das s überhaupt ein Häufungspunkt von (an )n∈N in R ist. Ist dabei s = +∞, so ist (an )n∈N nach oben unbeschränkt und wir wissen bereits das s = +∞ ein Häufungspunkt von (an )n∈N ist. Ist s = −∞, so ist (an )n∈N −→ −∞ und s = −∞ ist sogar der Grenzwert von (an )n∈N , also erst recht ein Häufungspunkt. Nun nehme s ∈ R an und wir wollen Lemma 9 anwenden. Seien also ein > 0 und ein n1 ∈ N gegeben. Wegen s + > s existieren nach (e) eine reelle Zahl b ∈ R und ein Index n2 ∈ N mit b < s + und an < b für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Dann gilt s − < s = inf{An |n ∈ N} ≤ An0 = sup{an |n ∈ N, n ≥ n0 }, und nach §1.Lemma 3 existiert ein n ∈ N mit n ≥ n0 und an > s − . Insbesondere ist also n ≥ n1 . Wegen n ≥ n2 ist auch an < b < s + , also haben wir s − < an < s + und dies bedeutet |an − s| < . Nach Lemma 9 ist s damit auch in diesem Fall ein Häufungspunkt von (an )n∈N . Nun zeigen wir das s der größte Häufungspunkt der Folge (an )n∈N ist. Sei a ∈ R ein beliebiger Häufungspunkt von (an )n∈N . Wir müssen zeigen, dass dann a ≤ s gilt. Andernfalls wäre a > s und nach (e) gibt es b ∈ R und n0 ∈ N mit b < a und an < b für alle n ∈ N mit n ≥ n0 . Insbesondere ist die Folge (an )n∈N nach oben beschränkt, also ist +∞ kein Häufungspunkt von (an )n∈N und wir haben a 6= +∞. Folglich ist a ∈ R und nach Lemma 9 existiert ein n ∈ N mit n ≥ n0 und |an − a| < a − b. Dies ergibt aber den Widerspruch an < b = a − (a − b) < a − |an − a| ≤ a − (a − an ) = an , und somit muss a ≤ s sein. Damit ist die Aussage über den Limes Superior bewiesen und analog folgt auch das der Limes Inferior der kleinste Häufungspunkt unserer Folge in R ist. (b) Da der Grenzwert einer in R konvergenten Folge ihr einziger Häufungspunkt ist, ist dies klar nach (a). (c) Die Ungleichung lim inf n→∞ an ≤ lim supn→∞ an ist klar nach (a) und ist (an )n∈N in R konvergent, so stimmen der Limes Superior und der Limes Inferior nach (b) überein. Wir nehmen nun a := lim supn→∞ an = lim inf n→∞ an an, und wollen (an )n∈N −→ a in R zeigen. Ist a ∈ {+∞, −∞}, so ist dies klar nach Teil (d), wir müssen also nur noch den Fall a ∈ R betrachten. Sei > 0 gegeben. Wegen a − < a < a + existieren nach (e) zwei reelle Zahlen b1 , b2 ∈ R mit b1 > a − und b2 < a + sowie zwei natürliche Zahlen n1 , n2 ∈ N mit an > b1 für alle n ∈ N mit n ≥ n1 und an < b2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Ist dann n ∈ N mit n ≥ n0 , so haben wir a − < b1 < an < b2 < a + , also |an − a| < . Dies zeigt (an )n∈N −→ a und auch (c) ist vollständig bewiesen. 125 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 Vorlesung 13, Montag 5.12.2016 In der letzten Sitzung hatten wir den Limes Superior lim sup an = lim sup{ak |k ∈ N, k ≥ n} n→∞ n→∞ einer reellen Folge (an )n∈N als den größten Häufungspunkt dieser Folge in R und entsprechend den Limes Inferior lim inf an = lim inf{ak |k ∈ N, k ≥ n} n→∞ n→∞ als den kleinsten Häufungspunkt dieser Folge in R eingeführt. Wir gehen jetzt einige Beispiele durch. 1. Es ist lim inf (−1)n = −1 und lim sup(−1)n = 1 n→∞ n→∞ da −1 und 1 die beiden Häufungspunkte der Folge sind. 2. Die Folge an = (−1)n n ist nach oben und unten unbeschränkt, hat also +∞ und −∞ als Häufungspunkte. Da dies die größten und kleinsten Elemente in R sind, ist damit lim inf (−1)n n = −∞ und lim sup(−1)n n = +∞. n→∞ n→∞ 3. Diesmal sei ( n, n ist gerade, an := 0, n ist ungerade. Offenbar sind 0 und +∞ dann zwei Häufungspunkte von (an )n∈N . Wegen an ≥ 0 für alle n ∈ N kann keine Teilfolge von (an )n∈N gegen eine negative Zahl oder gegen −∞ konvergieren, also ist 0 der kleinste Häufungspunkt der Folge. Es folgen lim inf an = 0 und lim sup an = +∞. n→∞ n→∞ 4. Schließlich sei an = sin(n). Wir hatten bereits bemerkt, dass die Menge der Häufungspunkte von (sin n)n∈N genau das Intervall [−1, 1] ist, und damit folgen lim inf sin(n) = −1 und lim sup sin(n) = +1. n→∞ n→∞ Zum Abschluß unserer Überlegungen über den Limes Inferior und den Limes Superior wollen wir noch einige kleine Rechenregeln für diese zusammenstellen. Lemma 4.12 (Rechenregeln für Limes Inferior und Limes Superior) Seien (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen. Dann gelten: 126 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 (a) Ist an ≤ bn für jedes n ∈ N, so sind auch lim inf an ≤ lim inf bn und lim sup an ≤ lim sup bn . n→∞ n→∞ n→∞ n→∞ (b) Ist (bn )n∈N konvergent, so ist lim inf (an + bn ) = lim inf an + lim bn und lim sup(an + bn ) = lim sup an + lim bn . n→∞ n→∞ n→∞ n→∞ n→∞ n→∞ (c) Ist (bn )n∈N konvergent mit von Null verschiedenen Grenzwert b ∈ R\{0}, so sind lim inf (an · bn ) = lim inf an · lim bn , n→∞ n→∞ n→∞ lim sup(an · bn ) = lim sup an · lim bn n→∞ n→∞ n→∞ wenn b > 0 ist und lim inf (an · bn ) = lim sup an · lim bn , n→∞ n→∞ n→∞ lim sup(an · bn ) = lim inf an · lim bn n→∞ n→∞ n→∞ wenn b < 0 ist. Beweis: (a) Sei n ∈ N und setze An := sup{ak |k ∈ N, k ≥ n} und Bn := sup{bk |k ∈ N, k ≥ n}. Für jedes k ∈ N mit k ≥ n haben wir ak ≤ bk ≤ Bn , also ist Bn eine obere Schranke der Menge {ak |k ∈ N, k ≥ n} und somit gilt An ≤ Bn . Mit Lemma 5.(a), eventuell in der Form für die erweiterten reellen Zahlen, folgt lim sup an = lim An ≤ lim Bn = lim sup bn . n→∞ n→∞ n→∞ n→∞ Die Aussage über den Limes Inferior ergibt sich analog. (b,c) Seien b ∈ R der Grenzwert der Folge (bn )n∈N und H die Menge der Häufungspunkte von (an )n∈N in R. Nach Satz 11.(a) ist s := max H der Limes Superior der Folge (an )n∈N und t := min H der Limes Inferior der Folge (an )n∈N . Weiter ist nach Lemma 10.(a) in der Form für die erweiterten reellen Zahlen M = {a + b|a ∈ H} die Menge der Häufungspunkte von (an + bn )n∈N in R. Da für x, y ∈ H stets genau dann x ≤ y gilt wenn x + b ≤ y + b ist, ist nach Satz 11.(a) auch lim sup(an + bn ) = max M = s + b = lim sup an + lim bn . n→∞ n→∞ 127 n→∞ Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 Nun kommen wir zum Produkt und nehmen b 6= 0 an. Nach Lemma 10.(b) in der Form für die erweiterten reellen Zahlen ist N := {ab|a ∈ H} die Menge der Häufungspunkte von (an bn )n∈N in R. Ist b > 0, so gilt für alle x, y ∈ H genau dann x ≤ y wenn xb ≤ yb ist, also ist nach Satz 11.(a) auch lim sup(an · bn ) = max N = sb = n→∞ lim sup an · lim bn . n→∞ n→∞ Ist dagegen b < 0, so gilt für x, y ∈ H genau dann x ≤ y wenn yb ≤ xb ist, also ist in diesem Fall lim sup(an · bn ) = max N = tb = lim inf an · lim bn . n→∞ n→∞ n→∞ Damit sind alle Aussagen für den Limes Superior bewiesen und die entsprechenden Aussagen über den Limes Inferior folgen analog. Der Satz 11 besagt insbesondere das jede reelle Zahlenfolge einen Häufungspunkt in R hat. Eine direkte Konsequenz dieser Beobachtung ist der sogenannte Satz von Heine-Borel: Satz 4.13 (Satz von Heine-Borel) Sei K ∈ {R, C}. Dann hat jede beschränkte Folge in K einen Häufungspunkt. Beweis: Zunächst sei K = R. Ist dann (an )n∈N eine beschränkte reelle Zahlenfolge, so ist nach Satz 11.(d) auch s := lim supn→∞ an ∈ R und nach Satz 11.(a) ist s ein Häufungspunkt von (an )n∈N . Damit ist die Aussage im reellen Fall bewiesen. Nun sei K = C und es sei (zn )n∈N eine beschränkte komplexe Zahlenfolge. Wie am Ende von §3.1 festgehalten sind dann auch die reellen Zahlenfolgen (Re(zn ))n∈N und (Im(zn ))n∈N beschränkt. Wie bereits gezeigt hat (Re(zn ))n∈N einen Häufungspunkt a ∈ R, und somit gibt es eine gegen a konvergente Teilfolge (Re(znk ))k∈N von (Re(zn ))n∈N . Ebenso gibt es dann auch eine gegen ein b ∈ R konvergente Teilfolge (Im(znkl ))l∈N von (Im(znk ))k∈N . Nach Lemma 1.(a) ist auch (Re(znkl ))l∈N −→ a und Lemma 1.(e) ergibt damit (znkl )l∈N −→ a + ib ∈ C. Damit ist a + ib ein Häufungspunkt von (zn )n∈N und der Satz ist auch im komplexen Fall bewiesen. Man kann den Satz von Heine-Borel auch direkter, und ohne den Limes Superior zu verwenden, beweisen. Wie im Beweis gesehen reicht es den reellen Fall einzusehen, und hierzu kann man zeigen das jede reelle Zahlenfolge immer eine monoton steigende oder eine monoton fallende Teilfolge enthält. Mit Satz 3 folgt dann die Existenz eines reellen Häufungspunkts einer jeden beschränkten reellen Zahlenfolge. 128 Mathematik für Physiker I, WS 2016/2017 4.3 Montag 5.12.2016 Cauchyfolgen Wir kommen nun zum letzten Thema dieses Kapitels. Ein Problem unserer Konvergenzdefinition ist, dass man zum Nachweis einer Konvergenzaussage (an )n∈N −→ a immer bereits einen Kandidaten a für den Grenzwert der Folge kennen muss. Nur für monotone reelle Zahlenfolgen konnten wir mit Satz 3 die Konvergenz der Folge einsehen ohne den Grenzwert kennen zu müssen. In diesem Abschnitt werden wir mit dem Begriff einer Cauchyfolge eine weitere Möglichkeit kennenlernen, die Konvergenz einer Folge ohne Kenntnis ihres Grenzwerts zu beweisen. Formal ist die Definition einer Cauchyfolge recht ähnlich zur Konvergenzdefinition, man fordert nicht mehr das die Folgenglieder einem Grenzwert a nahekommen, sondern das sich alle Folgenglieder mit ausreichend großen Index einander nahekommen. Definition 4.10 (Cauchyfolgen) Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt eine Cauchyfolge wenn es für jedes > 0 ein n0 ∈ N mit |an − am | < für alle n, m ∈ N mit n, m ≥ n0 gibt. In logischen Quantoren geschrieben wird diese Definition zu ∀( > 0)∃(n0 ∈ N)∀(n, m ∈ N, n, m ≥ n0 ) : |an − am | < . Ganz genauso wie bei der Definition der Konvergenz, kann man das <“ hier auch ” gegen ein ≤“ ersetzen, die Folge ist also auch genau dann eine Cauchyfolge wenn ” ∀( > 0)∃(n0 ∈ N)∀(n, m ∈ N, n, m ≥ n0 ) : |an − am | ≤ gilt. Wir werden gleich sehen, dass jede konvergente Folge auch eine Cauchyfolge ist und damit kennen wir dann bereits recht viele Beispiele von Cauchyfolgen. Zuvor wollen wir aber ein explizites Beispiel einer Cauchyfolge diskutieren. Wir definieren rekursiv eine reelle Zahlenfolge (an )n∈N indem wir a0 := 0 und an+1 := 1 − a2n für alle n ∈ N 3 setzen. Beispielsweise sind a1 = 1/3, a2 = 8/27 und a3 = 665/2187. Die Folge ist weder monoton steigend noch monoton fallend, auch nicht ab irgendeinem noch so großen Startindex. Es ist auch nicht sofort zu sehen, ob die Folge (an )n∈N konvergent ist. Wir werden im Folgenden einsehen, dass (an )n∈N eine Cauchyfolge ist. Wir beginnen mit einer einfachen Beobachtung. Ist x ∈ R mit 0 < x < 1/3, so gelten auch 0 < x2 < 1/9 und 8/9 < 1 − x2 < 1, also insgesamt 8/27 < (1 − x2 )/3 < 1/3, also haben wir ∀(x ∈ R) : 0 < x < 1 8 1 − x2 1 =⇒ 0 < < < . 3 27 3 3 Insbesondere bedeutet dies das für jedes n ∈ N aus an ∈ (0, 1/3) auch an+1 = (1 − a2n )/3 ∈ (0, 1/3) folgt. Da a2 = 8/27 ∈ (0, 1/3) gilt, folgt per vollständiger Induktion 129 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 auch 0 < an < 1/3 für alle n ∈ N mit n ≥ 2. Für jedes n ∈ N mit n ≥ 3 ergibt sich weiter 1 − a2n 1 − a2n−1 1 2 = |an − a2n−1 | = 1 |an + an−1 | · |an − an−1 | |an+1 − an | = − 3 3 3 3 2 |an | + |an−1 | |an − an−1 | < |an − an−1 |. ≤ 3 9 Ist wieder n ∈ N mit n ≥ 3, so sind damit auch 2 2 |an − an−1 |, 9 3 2 2 |an+3 − an+2 | < |an+2 − an+1 | < |an − an−1 |, 9 9 2 |an+2 − an+1 | < |an+1 − an | < 9 und so fortfahrend folgt auch k 2 |an+k − an+k−1 | ≤ |an − an−1 |, 9 für alle k ∈ N. Streng genommen ist dies ein Beweis durch vollständige Induktion auf deren exakte Durchführung wir hier verzichten. Wenden wir dies speziell auf n = 3 an und schreiben k = n − 2 für ein neues n ∈ N mit n ≥ 2, so wird diese Abschätzung zu n−2 2 |a3 − a2 |, |an+1 − an | ≤ 9 und wir wollen uns überlegen das (an )n∈N damit eine Cauchyfolge ist. Hierzu schreiben wir für n, m ∈ N mit m > n am − an = (am − am−1 ) + (am−1 − am−2 ) + · · · + (an+1 − an ) = m−1 X (ak+1 − ak ) k=n und erhalten für n ≥ 2 m−1 m−1 X X |am − an | = (ak+1 − ak ) ≤ |ak+1 − ak | ≤ k=n k=n m−1 X k=n 2 9 k−2 ! |a3 − a2 |. Die hier rechts stehende Summe ist eine sogenannte geometrische Summe und um diese weiter auszuwerten, brauchen wir ein allgemeines Lemma, das mit der konkreten Situation nichts zu tun hat. Lemma 4.14 (Die geometrische Summe) Seien q ∈ C und n ∈ N. Dann gilt n X k=0 qk = n X 1 − q n+1 für q 6= 1, und q k = n + 1 für q = 1. 1−q k=0 130 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 Beweis: Die Aussage für q = 1 ist klar, wir nehmen also q 6= 1 an. Schreibe s := Pn k q . Dann ist k=0 q·s= n X q k+1 = q n+1 + k=0 n X q k − 1 = q n+1 − 1 + s, k=0 also (1 − q)s = s − qs = 1 − q n+1 , und dies ergibt die Behauptung. Verwenden wir nun die eben bewiesene Summenformel der geometrischen Summe, so erhalten wir jetzt für alle n, m ∈ N mit m > n ≥ 2 n−2 m−n−1 X 2 k 2 |am − an | ≤ |a3 − a2 | · 9 9 k=0 n−2 m−n ! 2 9 2 |a3 − a2 | · 1 − = 7 9 9 n−2 n−2 9 2 17 2 ≤ |a3 − a2 | = =: An . 7 9 1701 9 Damit können wir leicht einsehen, dass (an )n∈N eine Cauchyfolge ist. Wir wissen bereits das die geometrische Folge (q n )n∈N für jedes q ∈ C mit |q| < 1 eine Nullfolge ist, und nach den Rechenregeln für Grenzwerte ist somit auch 17 lim n→∞ 1701 n−2 2 = 0, 9 ist also > 0 gegeben, so existiert ein n0 ∈ N mit n0 ≥ 2 und An < für alle n ∈ N mit n ≥ n0 . Sind dann n, m ∈ N mit n, m ≥ n0 , so können wir durch eventuelles Vertauschen von n und m auch m ≥ n annehmen, und haben |am − an | < An < . Somit ist (an )n∈N tatsächlich eine Cauchyfolge. Nach diesem Beispiel kommen wir nun zu einigen allgemeinen Aussagen. Die Grundeigenschaften von Cauchyfolgen sind schnell eingesehen. Lemma 4.15 (Grundeigenschaften von Cauchyfolgen) Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. (a) Ist (an )n∈N konvergent, so ist (an )n∈N auch eine Cauchyfolge. (b) Ist (an )n∈N eine Cauchyfolge, so ist (an )n∈N auch beschränkt. 131 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 (c) Sind (an )n∈N eine Cauchyfolge und (ank )k∈N eine konvergente Teilfolge von (an )n∈N mit dem Grenzwert a ∈ K, so ist auch (an )n∈N −→ a. Beweis: (a) Bezeichne a ∈ K den Grenzwert von (an )n∈N . Sei > 0 gegeben. Dann existiert ein n0 ∈ N mit |an − a| < /2 für alle n ∈ N mit n ≥ n0 . Sind dann n, m ∈ N mit n, m ≥ n0 so folgt auch |an − am | = |an − a + a − am | ≤ |an − a| + |am − a| < + = . 2 2 Damit ist (an )n∈N eine Cauchyfolge. (b) Es gibt ein n0 ∈ N mit |an − am | < 1 für alle n, m ∈ N mit n, m ≥ n0 . Setze c := max{|a0 |, |a1 |, . . . , |an0 −1 |, |an0 | + 1} > 0. Ist dann n ∈ N, so gilt im Fall n < n0 sofort |an | ≤ c und im Fall n ≥ n0 haben wir ebenfalls |an | = |an − an0 + an0 | ≤ |an − an0 | + |an0 | < |an0 | + 1 ≤ c. Damit ist |an | ≤ c für alle n ∈ N und (an )n∈N ist beschränkt. (c) Sei > 0 gegeben. Dann existieren ein n0 ∈ N mit |an − am | < /2 für alle n, m ∈ N mit n, m ≥ n0 und ein k0 ∈ N mit |ank − a| < /2 für alle k ∈ N mit k ≥ k0 . Sei n ∈ N mit n ≥ n0 . Setzen wir k := max{k0 , n0 }, so ist |ank − a| < /2 und wegen nk ≥ k ≥ n0 ist auch |an − ank | < /2. Insgesamt ist damit |an − a| = |an − ank + ank − a| ≤ |an − ank | + |ank − a| < + = , 2 2 und wir haben (an )n∈N −→ a bewiesen. Damit eine Folge (an )n∈N eine Cauchyfolge ist, reicht es nicht aus, das sich aufeinanderfolgende Folgenglieder immer näher kommen, die Cauchybedingung ist wesentlich √ stärker. Beispielsweise ist Zahlenfolge nicht nach oben √ die durch an = n gegebene √ beschränkt, es ist sogar ( n)n∈N −→ +∞, also ist ( n)n∈N insbesondere keine Cauchyfolge. Andererseits hatten wir bereits in einem Beispiel gesehen das √ √ lim (an+1 − an ) = lim n+1− n =0 n→∞ n→∞ gilt. Nun sind wir bereit das sogenannte Cauchy-Kriterium zu beweisen, dieses zeigt das konvergente Folgen und Cauchyfolgen genau dasselbe sind. Satz 4.16 (Cauchy-Kriterium) Sei K ∈ {R, C}. Eine Folge (an )n∈N in K ist genau dann konvergent wenn (an )n∈N eine Cauchyfolge ist. Beweis: ”=⇒” Dies ist Lemma 15.(a). 132 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 ”⇐=” Nach Lemma 15.(b) ist (an )n∈N beschränkt, hat also nach dem Satz von HeineBorel Satz 13 einen Häufungspunkt beziehungsweise eine konvergente Teilfolge. Nach Lemma 15.(c) ist (an )n∈N selbst konvergent. Wir kommen schließlich wieder zum Beispiel der rekursiv definierten Folge a0 := 0 und an+1 := 1 − a2n für alle n ∈ N 3 zurück. Wir haben bereits eingesehen, dass (an )n∈N eine Cauchyfolge mit 0 < an < 1/3 für alle n ∈ N mit n ≥ 2 ist. Nach dem eben bewiesenen Satz ist (an )n∈N damit konvergent, und nach Lemma 5.(a) gilt 1 a := lim an ∈ 0, . n→∞ 3 Wenden wir die Rechenregeln für Grenzwerte Satz 6 an, so folgt weiter 2 1 − lim a n 1 − a2n 1 − a2 n→∞ a = lim an+1 = lim = = , n→∞ n→∞ 3 3 3 also ist a2 + 3a − 1 = 0. Fassen wir dies als eine quadratische Gleichung für a auf, so ergibt sich r √ √ 3 9 13 − 3 −3 ± 13 a=− ± +1= =⇒ a = 2 4 2 2 da a ≥ 0 ist. Diese Methode den Grenzwert einer rekursiv definierten Folge durch Grenzübergang in der Rekursionsformel zu gewinnen, läßt sich in solchen Beispielen häufig anwenden, es ist dabei aber entscheidend sich zuerst die Existenz eines Grenzwerts zu überlegen, andernfalls sind die Rechenregeln für Folgengrenzwerte überhaupt nicht anwendbar. Wir wollen uns auch hierzu noch ein kleines Beispiel anschauen. Wir betrachten die durch a0 := 0 und an+1 := an (1 + an ) − 3 für n ∈ N definierte Folge (an )n∈N . Führen wir in der Rekursionsgleichung den Grenzübergang für einen hypothetischen Grenzwert a ∈ R durch, so ergibt sich a = a(1 + a) − 3 =⇒ a2 = 3. Für x ≥ 2 ist x(1 + x) − 3 ≥ 3, erreicht die Folge also einen Wert an ≥ 2, so ist auch ak ≥ 2 für alle k ≥ n. Nun sind a1 = −3 und √ a2 = 3, also gilt an ≥ 2 für alle n ≥ 2. Insbesondere ist a ≥ 0 und damit muss a = 3 sein. Andererseits müsste für 133 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 den Grenzwert auch a ≥ 2 gelten, aber dann kann nicht a2 = 3 sein. Damit haben wir den Grenzwert“ ausgerechnet, aber in Wahrheit existiert er gar nicht, tatsächlich ist ” der eben aufgetretene Widerspruch ein Beweis der Divergenz der Folge (an )n∈N . Die Berechnung“ des Grenzwerts alleine reicht also nicht aus und beweist gar nichts, man ” muss zuerst seine Existenz begründen. $Id: reihen.tex,v 1.31 2016/12/12 10:44:18 hk Exp $ §5 Reihen Eine Reihe ist eine unendliche Summe“ ” a0 + a1 + a2 + · · · . Die Summanden ai können dabei reell oder komplex sein. Historisch sind Reihen sehr viel älter als Folgen, und im Gegensatz zu den Folgen sind sie auch von eigenständigen Interesse. Als ein erstes Beispiel wollen wir uns die sogenannte Zenonsche Paradoxie anschauen. Bei dieser betrachten wir ein Rennen zwischen zwei Läufern sehr unterschiedlicher Geschwindigkeit, etwa Achilles und eine Schildkröte. Der Einfachheit halber nehmen wir an das die Schildkröte eine konstante Geschwindigkeit v > 0 hat während Achilles sich konstant mit der hunderfachen Geschwindigkeit bewegt. Um den Anschein von Fairness zu erwecken startet die Schildkröte mit einem Vorsprung m > 0. Sei etwa m in Metern und v in Metern pro Sekunde gegeben. Dann hat Achilles den Startpunkt der Schildkröte nach m/(100v) Sekunden erreicht aber in dieser Zeit ist die Schildkröte schon etwa weiter gekommen und hat die Strecke (m/(100v))·v = m/100 zurückgelegt. Achilles braucht jetzt nur noch (m/100)/(100v) = 10−4 m/v Sekunden um auch diese Strecke zu überwinden, aber dann ist die Schildkröte wieder (10−4 m/v) · v = 10−4 m vorangekommen. Dies geht jetzt immer so weiter, Achilles braucht nächstes Mal nur noch 10−6 m/v Sekunden, aber die Schildkröte ist wieder weg, dann dauert es nur noch 10−8 m/v Sekunden und die Schildkröte ist immer noch weiter vorne, und das setzt sich ewig so fort. Damit kann Achilles die Schildkröte niemals einholen, und so etwas wie Bewegung“ wäre ein in sich widersprüchliches Konzept. Diese Paradoxie ist eine von ” vielen in der Antike verwendeten Argumenten die Problematik von Unendlichkeiten“ ” einzusehen, wir denken uns hier ja die Zeit und die Rennstrecke als ins Unendliche teilbar. Wieweit diese Paradoxie ernst genommen wurde kann man heute natürlich nicht mehr einschätzen, man kann allerdings feststellen das die antike, griechische Mathematik jedliche Unendlichkeiten strikt vermieden hat. Um den Zusammenhang mit Reihen herzustellen, wollen wir uns überlegen wieviel Zeit vergeht bis die Schildkröte schließlich eingeholt ist. Dieser Zeitraum setzt sich aus all den oben beschriebenen Teilabschnitten zusammen, also erst die 10−2 m/v Sekunden, dann die nächsten 10−4 m/v gefolgt von den nächsten 10−6 m/v Sekunden und so weiter, 134 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 also insgesamt m m m m + 10−4 + 10−6 + 10−8 + · · · . v v v v Hier werden unendlich viele positive Zahlen aufaddiert und man will das irgendwie doch eine endliche Summe herauskommt. Wir können auch von vornherein sagen was herauskommen sollte, denn Achilles ist nach t Sekunden gerade 100vt Meter von seinem Startpunkt entfernt während die Schildkröte zu diesem Zeitpunkt m + vt Meter weit von diesem weg ist, Achilles holt die Schildkröte also ein wenn 10−2 100vt = m + vt, d.h. t = m 99v ist. Es sollte also in irgendeinem Sinne 10−2 m m m m 1 m + 10−4 + 10−6 + 10−8 + · · · = v v v v 99 v gelten. Bevor dies allerdings auch nur eine sinnvolle Vermutung ist, muss erst einmal definiert werden was solch eine unendliche Summe denn überhaupt sein soll, wir benötigen einen Grenzwertbegriff für Reihen. 5.1 Konvergenz von Reihen Wir hatten in §4.1 gesagt das Folgen und ihr Konvergenzbegriff ein Hilfsbegriff sind, auf den viele andere Grenzwertbegriffe zurückgeführt werden und dementsprechend werden wir unendliche Summen in Termen von Folgengrenzwerten definieren. Angenommen die Folge (an )n∈N ist gegeben. Dann betrachten wir die sogenannten Partialsummen s0 := a0 , s1 := a0 + a1 , s2 := a0 + a1 + a2 , und allgemein sn := n X ak , k=0 also die endlichen Summen die jeweils durch Summation der ersten n + 1 Summanden unserer unendlichen Summe gebildet werden. Damit können wir definieren: Definition 5.1: Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. Bezeichne ! n X (sn )n∈N := ak k=0 n∈N P die Folge der zugehörigen Partialsummen. Wir nennen die Reihe ∞ n=0 an konvergent wenn die Folge (sn )n∈N der Partialsummen konvergent ist und schreiben in diesem Fall ∞ X n=0 an := lim sn = lim n→∞ Andernfalls heißt die Reihe divergent. 135 n→∞ n X k=0 ak . Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 P∞ Oftmals bezeichnen wir mit dem Symbol n=0 an auch die P Folge der Partialsummen, selbst wenn die Reihe divergent ist. Dass das Symbol ∞ n=0 an sowohl die Folge der Partialsummen als auch den eventuellen Grenzwert bezeichnet, ist normalerweise unproblematisch. Die jeweilige Bedeutung ist immer aus dem Kontext heraus klar. Außerdem schreiben wir mit einem weiteren Bezeichnungsmißbrauch auch einfach Sei ” ∞ X an eine Reihe“, n=0 dies soll dann bedeuten, dass (an )n∈N eine Folge ist und wir beabsichtigen die zugehörige Folge der Partialsummen zu untersuchen. Genau wie bei Folgen betrachtet man auch Reihen mitPeinem beliebigen Startindex n0 ∈ N anstelle des Startindex 0, zum Beispiel 2 die Reihe P∞ n=1 1/n mit dem Startindex n0 = 1. Die Partialsummen sind in diesem n0 +n Fall sn = k=n0 ak für n ∈ N. Oft ist es in diesem Zusammenhang dann etwas bequemer auch für die P Folge der Partialsummen einen anderen Startindex zu verwenden, beispielsweise sn = nk=n0 ak für n ∈ N mit n ≥ n0 . Die hiermit verbundene Willkür ist dabei unproblematisch, da die Wahl des Startindex auf Konvergenz und eventuelle Summe der Reihe keinen Einfluß hat. Genau wie im vorigen Kapitel formulieren wir die meisten Aussagen mit dem Startindex 0 oder 1, es sind aber implizit auch immer alle Reihen mit einem anderen Startindex mit gemeint. Lassen wir endlich viele Summanden am Beginn der Reihe einfach weg, so ändert sich nichts der P∞am Konvergenzverhalten der Reihe aber sehr wohl am Grenzwert.PIn n Tat, ist n=0 an eine ReihePund n0 ∈ N, so hängen die Partialsummen sn = k=0 ak 0 +n der Originalreihe und tn = nk=n ak der verkürzten Reihe über die Beziehung 0 sn = n X ak = k=0 nX 0 −1 n X ak + ak = nX 0 −1 k=n0 k=0 ak + tn−n0 k=0 für alle n ∈ N mit n ≥ n0 zusammen, und somit konvergiert die Folge (sn )n∈N genau dann wenn die Folge (tn )n∈N konvergiert und in diesem Fall ist ∞ X an = n=0 nX 0 −1 an + n=0 ∞ X an . n=n0 Wir wollen jetzt einige Beispiele von Reihen besprechen, und beginnen mit der Reihe ∞ X n=2 1 1 1 1 1 1 1 1 1 = + + + + ··· = + + + + ··· . n(n − 1) 2 2·3 3·4 4·5 2 6 12 20 In diesem Beispiel können wir die Partialsummen sn explizit berechnen, dies haben wir bereits am Anfang von §4 getan. Im einleitenden Beispiel (5) von §4 hatten wir sn = n X k=2 1 1 =1− k(k − 1) n 136 Mathematik für Physiker I, WS 2016/2017 Montag 5.12.2016 für alle n ∈ N mit n ≥ 2 nachgerechnet. Damit ist die Reihe konvergent und ihr Grenzwert ist ∞ X 1 1 = lim 1 − = 1. n→∞ n(n − 1) n n=2 Das nächste Beispiel ist die sogenannte geometrische Reihe, dies ist die aus den Potenzen einer festen Zahl q ∈ C gebildete Reihe. Dieses Beispiel wird sich als derart wichtig herausstellen das wir es in einem Satz festhalten wollen. Satz 5.1 (Die geometrische Reihe) P∞ n Sei q ∈ C. Dann ist die geometrische Reihe n=0 q genau dann konvergent wenn |q| < 1 ist, und in diesem Fall gilt ∞ X n=0 qn = 1 . 1−q Beweis: Nach §4.Lemma 14 ist die n-te Partialsumme für jedes n ∈ N als ( n+1 n 1−q X , q 6= 1, k 1−q q = sn := n + 1, q = 1 k=0 gegeben. Für q = 1 ist die Folge der Partialsummen (sn )n∈N = (n + 1)n∈N divergent. Nun sei q 6= 1. Dann ist die Folge (sn )n∈N nach §4.Satz 6.(a,b) genau dann konvergent wenn die Folge (q n+1 )n∈N konvergent ist und wie wir in einem Beispiel in §4.1 gesehen haben ist dies genau dann der Fall wenn |q| < 1 gilt. Ist |q| < 1, so ist nach dem erwähnten Beispiel und §4.Satz 6.(a,b) auch 1 − lim q n+1 n+1 1 − q 1 n→∞ = = . q n = lim n→∞ 1 − q 1−q 1−q n=0 ∞ X Wir wollen kurz einige konkrete Beispiele geometrischer Reihen durchgehen. 1. Die Reihe können wir auch als ∞ X 1 1 1 1 = 1 + + + + ··· n 2 2 4 8 n=0 ∞ ∞ n X X 1 1 = 2n 2 n=0 n=0 schreiben, sie ist also eine geometrische Reihe mit q = 1/2. Nach dem eben bewiesenen Satz ist sie somit konvergent mit der Summe ∞ X 1 1 = n 2 1− n=0 137 1 2 = 2. Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 2. Wir berechnen die Zahl 0, 9. Nach der Definition der Dezimalschreibweise, die wir zwar streng genommen in dieser Vorlesung nie definiert haben aber trotzdem benutzen wollen, ist 1 1 1 1 1 1 +9· +9· + ··· = 9 · + + + ··· . 0, 9 = 9 · 10 100 1000 10 100 1000 In der Klammer steht im wesentlichen eine geometrische Reihe mit q = 1/10, und der Satz über die geometrische Reihe ergibt ! n n ∞ ∞ X X 1 1 1 1 =9· −1 =9· 0, 9 = 9 · = 9 · = 1. 1 −1 10 10 9 1 − 10 n=1 n=0 3. Ganz entsprechend können wir das einleitende Beispiel dieses Kapitels behandeln, es ist in den dort verwendeten Bezeichnungen −2 m 10 v −4 m + 10 v −6 m + 10 v n ∞ mX 1 + ··· = v v n=1 100 1 m m = . = 1 −1 v 99v 1 − 100 −8 m + 10 4. Als viertes und letztes Beispiel behandeln wir die Reihe ∞ X (−1)n n=0 2n =1− 1 1 1 + − + ··· . 2 4 8 Dies ist eine geometrische Reihe mit q = −1/2, also ergibt sich ∞ X (−1)n n=0 2n n ∞ X 1 1 2 = . = = − 1 2 3 1 − −2 n=0 Vorlesung 14, Freitag 9.12.2016 In der letzten hatten wir den Reihenbegriff eingeführt und uns auch schon einige Beispiele konvergenter Reihen. Wir wollen diese Sitzung mit einem weiteren und etwas komplizierteren Beispiel beginnen, wir betrachten die Reihe ∞ X 1 1 1 1 1 =1+1+ + + + + ··· . n! 2 6 24 120 n=0 138 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 Hierzu setzen wir für jedes n ∈ N mit n ≥ 1 n n X 1 1 und an := 1 + , sn := k! n k=0 und wie schon in einem der einleitenden Beispiele des §4 gesehen können wir auch k n X 1 Yn−j+1 an = · k! j=1 n k=0 schreiben und insbesondere ist an ≤ sn . Die Folge (an )n∈N hatten wir bereits in §4.1 zur Definition der eulerschen Konstante n 1 e = lim 1 + n→∞ n verwendet. Sei wieder n ∈ N mit n ≥ 1 gegeben. Für jedes m ∈ N mit m ≥ n ist dann am = k n k m X 1 Ym−j+1 X 1 Ym−j+1 · ≥ · , k! m k! m j=1 j=1 k=0 k=0 also liefern §4.Lemma 5.(a) und die Rechenregeln §4.Satz 6 für Folgengrenzwerte auch X k n n X 1 Y m−j+1 1 e = lim am ≥ · lim = sn . = m→∞ m→∞ k! j=1 m k! k=0 k=0 Für jedes n ∈ N mit n ≥ 1 haben wir damit an ≤ sn ≤ e und das Einschnürungslemma §4.Lemma 5.(b) ergibt schließlich ∞ X 1 = lim sn = e. n! n→∞ n=0 5.2 Grundeigenschaften von Reihen Über die Partialsummen sind Reihen vollständig auf den Folgenbegriff zurückgeführt, und wir können jetzt den ganzen in §4 entwickelten Apperat auf Reihen loslassen. Dies führt zu einer ganzen Sequenz von grundlegenden Sätzen, Lemmata und Beobachtungen über Reihen und ihre Konvergenz. Wir beginnen mit einer einfachen Feststellung über den Zusammenhang von reellen und komplexen Reihen. Lemma 5.2 (Real- und P∞Imaginärteil komplexer Reihen) Eine P∞ n=0 zn ist genau dann konvergent wenn die beiden reellen Reihen P∞ komplexe Reihe Re(z ) und n n=0 n=0 Im(zn ) konvergent sind, und in diesem Fall gilt ∞ X n=0 zn = ∞ X Re(zn ) + i · n=0 ∞ X n=0 139 Im(zn ). Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 Weiter ist eine reelle Reihe genau dann in R konvergent wenn sie in C konvergent ist. Beweis: Klar nach §4.Lemma 1.(e,f). Wie bei Folgen ist der komplexe Fall damit auch bei Reihen der allgemeine Fall. Nun wollen wir einsehen, dass die Summanden einer konvergenten Reihe eine Nullfolge bilden müssen. Leider stellt sich heraus, dass die Umkehrung dieser Tatsache nicht gilt, eine Reihe deren Summanden gegen Null konvergieren ist im allgemeinen nicht selbst konvergent. Ein Beispiel hierfür werden wir bald sehen. Lemma 5.3 (Summanden P∞und Partialsummen konvergenter Reihen) Sei K ∈ {R, C} und sei n=0 an eine konvergente Reihe in K. Dann ist (an )n∈N eine Nullfolge und die Folge (sn )n∈N der Partialsummen der Reihe ist beschränkt. Beweis: Nach §4.Lemma 2.(a) ist die Folge (sn )n∈N beschränkt, und nach §4.Satz 6.(a,b) ist die Folge (an )n≥1 = (sn − sn−1 )n≥1 eine Nullfolge, also ist auch die Folge (an )n∈N selbst eine Nullfolge. Im allgemeinen muss eine Reihe mit beschränkten Partialsummen nicht konvergent sein, ein einfaches solches Beispiel ist die divergente Reihe ∞ X (−1)n = 1 − 1 + 1 − 1 + 1 − 1 + · · · n=0 und man kann sogar Beispiele konstruieren in denen die Summanden der Reihe eine Nullfolge bilden. Es gibt aber einen wichtigen Spezialfall in dem die die Beschränktheit der Partialsummen die Konvergenz der Reihe impliziert, nämlich wenn alle Summanden der Reihe reell und nicht negativ sind. Wir können für reelle Reihen sogar noch etwas weiter gehen und wie in §4.2 zusätzlich noch den Begriff der Konvergenz in den erweiterten reellen Zahlen R einführen, und dann können auch ±∞ als Summen von Reihen auftauchen. Für Reihen mit konstanten Vorzeichen ergibt sich dann der folgende Satz: Satz 5.4 (Monotonieeigenschaften reeller Reihen) Es gelten: P P∞ (a) Sind ∞ n=0 an und n=0 bn zwei in R konvergente reelle Reihen mit an ≤ bn für alle n ∈ N, so gilt auch ∞ ∞ X X an ≤ bn . n=0 n=0 P (b) Eine reelle Reihe ∞ n=0 an mit an ≥ 0 für alle n ∈ N ist in R konvergent und ihr Grenzwert ist das Supremum der Menge aller Partialsummen der Reihe. Die 140 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 P∞ Reihe ist genau dann in R konvergent wenn n=0 an < ∞ ist, wenn also die Folge der Partialsummen der Reihe beschränkt ist. Beweis: (a) P Für jedes nP ∈ N gilt auch für die Partialsummen der beiden Reihen die n Ungleichung k=0 ak ≤ nk=0 bk und mit §4.Lemma 5.(a) folgt die Behauptung. (b) Bezeichnet (sn )n∈N die Folge der Partialsummen unserer Reihe, so gilt sn+1 = n+1 X ak = sn + an+1 ≥ sn k=0 für jedes n ∈ N da an+1 ≥ 0 ist, die Folge (sn )n∈N ist also monoton steigend. Damit folgen alle Aussagen mit §4.Satz 3.(a). Eine (b) entsprechende Aussage gilt natürlich auch für Reihen mit negativen Summanden. Wie bei Folgen gibt es auch für Reihen Rechenregeln für die Grenzwerte. Die beiden einfachsten dieser Regeln betreffen Summen und Vielfache von Reihen und sollen jetzt schon bewiesen werden. P∞ P Lemma 5.5: Sei K ∈ {R, C} und seien ∞ n=0 an und n=0 bn zwei konvergente Reihen in K. P (a) Die Reihe ∞ n=0 (an + bn ) ist konvergent mit ∞ X (an + bn ) = n=0 (b) Für jedes c ∈ K ist die Reihe ∞ X an + n=0 P∞ n=0 ∞ X ∞ X bn . n=0 can konvergent mit (can ) = c · n=0 ∞ X an . n=0 Beweis: Die jeweiligen Partialsummen sind die Summen beziehungsweise Vielfachen der Partialsummen der gegebenen Reihen, und die Behauptung folgt damit mit §4.Satz 6.(a,b). Wir wollen diese Sätze nun zur Behandlung einiger weiterer Beispiele verwenden. Wir kennen bereits die Reihe ∞ X 1 =1 n(n − 1) n=2 und mit dieser erhalten wir auch ∞ ∞ ∞ X X 1 1 X 1 1 1= = = + , n(n − 1) n(n + 1) 2 n(n + 1) n=2 n=1 n=2 141 Mathematik für Physiker I, WS 2016/2017 also ist ∞ X n=2 Freitag 9.12.2016 1 1 = . n(n + 1) 2 Beachten wir nun das für jedes n ∈ N mit n ≥ 2 stets 1 1 (n + 1) + (n − 1) 2 + = = 2 n(n − 1) n(n + 1) n(n − 1)(n + 1) n −1 gilt, so ergibt sich mit Lemma 5 ∞ ∞ X X 1 1 1 1 1 1 3 = + = 1+ = . 2 n − 1 n=2 2 n(n − 1) n(n + 1) 2 2 4 n=2 Während wir bisher bei all unseren Beispielen nicht nur die Konvergenz beweisen konnten sondern gleich auch den Reihenwert berechnet haben, wollen wir uns jetzt ein Beispiel anschauen bei dem wir nur die Konvergenz der Reihe einsehen Hierzu P∞werden. 2 wird Satz 4 verwendet, konkret wollen wir zeigen, dass die Reihe n=1 1/n konvergiert. Nach dem Satz P ist hierzu zu zeigen, dass ihre Partialsummen beschränkt bleiben, 2 beziehungsweise das ∞ n=1 1/n < ∞ gilt. Nun haben wir für jedes n ∈ N mit n ≥ 2 2 die Abschätzung 1/n ≤ 1/n(n − 1) und damit folgt ∞ ∞ ∞ X X X 1 1 1 = 1 + ≤ 1 + = 2 < ∞. 2 2 n n n(n − 1) n=1 n=2 n=2 Dies beweist die Konvergenz der Reihe. Die explizite Berechnung der Summe ist schon recht schwer, und für uns an dieser Stelle nicht direkt möglich. Das Problem der Berechnung dieser Reihe wurde erstmals im Jahr 1644 von Mensoli gestellt und war rund 90 Jahre offen bis Euler 1735 ∞ X 1 1 1 1 π2 = 1 + + + + · · · = n2 4 9 16 6 n=1 zeigen konnte. Es gibt über zwanzig verschiedene Beweise dieser Formel, im Rahmen der Mathematik für Physiker“ Reihe kommen wir aber erst im vierten Semester zu ” einer Stelle an der ein bequemer Beweis möglich ist. Etwas allgemeiner ist jetzt auch für jeden Exponenten k ∈ N mit k ≥ 2 ∞ ∞ X X 1 1 ≤ ≤ 2 < ∞, k 2 n n n=1 n=1 P k d.h. auch ∞ n=1 1/n konvergiert. Eine explizite Formel für diese Summe ist nur bei geraden k bekannt, und auch diese wurde bereits von Euler angegeben. Eine einfache P∞ 3 und explizite Formel selbst für den einfachsten ungeraden Fall n=1 1/n ist bis heute nicht bekannt, seit den achtziger Jahren des vorigen Jahrhunderts weiss man aber 142 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 zumindest das diese Summe irrational ist. Es verbleibt der Fall k = 1. Man nennt die Reihe ∞ X 1 1 1 1 = 1 + + + + ··· (Harmonische Reihe) n 2 3 4 n=1 die harmonische Reihe. Die Summanden der Reihe bilden eine Nullfolge,Pes wird sich aber herausstellen das die Reihe trotzdem divergiert. Es bezeichne sn := nk=1 1/k für n ∈ N mit n ≥ 1 die Partialsummen der harmonischen Reihe. Dann gelten s20 = 1, 1 1 =1+1· , 2 2 1 1 1 1 = 1+ + + >1+2· , 2 |{z} 3 4 2 s21 = 1 + s22 >1/4 s23 = s22 + 1 1 1 1 1 + + + >1+3· , 6 7} 8 2 |5 {z jeweils > 1/8 und allgemein ergibt sich 1 für alle n ∈ N mit n ≥ 2. 2 Insbesondere ist die Folge der Partialsummen der harmonischen Reihe nach dem archimedischen Prinzip §1.Lemma 5 nicht nach oben beschränkt, d.h. s2n > 1 + n · ∞ X 1 = ∞. n n=1 In der Abschätzung wird die harmonische Reihe nur sehr langsam größer, um beispielsweise über 10 = 1+18·(1/2) zu kommen, braucht es bereits 218 = 262144 Summanden. Man kann zeigen, dass die Partialsummen in Abhängigkeit von n die Größenordnung sn ≈ γ + ln(n) haben, wobei γ eine Konstante etwas größer als 1/2 ist. Wir hatten die Divergenz der harmonischen Reihe eingesehen indem wir die Summanden der harmonischen Reihe in Blöcken von Zweierpotenzlänge zusammengefasst hatten und so für jedes n ∈ N mit n ≥ 2 2n X 1 n >1+ k 2 k=1 gezeigt hatten. Dieses Argument kann man auch in einer etwas allgemeineren Situation verwenden, es ist nicht wirklich wichtig das die Summanden der Reihe die Stammbrüche sind, sie müssen nur monoton fallend sein. Angenommen wir haben eine monoton fallende Folge (an )n≥1 positiver reeller Zahlen. Für jedes n ∈ N haben wir dann n 2 X ak ≥ 2n−1 a2n und k=2n−1 +1 n −1 2X k=2n−1 143 ak ≤ 2n−1 a2n−1 , Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 P∞ im wesentlichen lassen sich die Partialsummen der Reihe nach oben n=1 an also P ∞ n und unten durch Partialsummen der sogenannten kondensierten Reihe n=0 2 a2n abschätzen. Dies führt uns zum folgenden sogenannten Kondensationskriterium“ oder ” Verdichtungskriterium“. ” Satz 5.6 (Cauchys Kondensationskriterium) Sei (an )n≥1 eine monoton fallende, reelle Zahlenfolge mit an ≥ 0 für alle n ∈ N mit n ≥ 1. Dann ist die Reihe ∞ X an genau dann konvergent wenn die Reihe ∞ X 2n a2n n=0 n=1 konvergent ist. Beweis: Es seien sn := n X ak beziehungsweise tn := n X 2k a2k k=0 k=1 für jedes n ∈ N die Partialsummen P∞ der Ausgangsreihe beziehungsweise der kondensierten Reihe. Nach Satz 4.(b) ist n=1 an genau dann konvergent P∞ n wenn die Folge (sn )n≥1 nach oben beschränkt ist und die kondensierte Reihe n=0 2 a2n ist genau dann konvergent wenn die Folge (tn )n∈N nach oben beschränkt ist. Es ist also nur zu zeigen, dass (sn )n≥1 genau dann nach oben beschränkt ist wenn (tn )n∈N dies ist. ”=⇒” Sei also (sn )n≥1 nach oben beschränkt, d.h. es gibt ein C ∈ R mit sn ≤ C für jedes n ∈ N mit n ≥ 1. Für jedes n ∈ N mit n ≥ 1 gilt a2n ≤ ak für alle k ∈ N mit 2n−1 < k ≤ 2n , da die Folge (ak )k∈N als monoton fallend vorausgesetzt ist, also auch n n−1 2 a2n = n 2 X a2n ≤ k=2n−1 +1 2 X ak . k=2n−1 +1 Für jedes n ∈ N folgt weiter tn = n X k=0 2k a2k = a1 + 2 · n X 2k−1 a2k ≤ a1 + 2 n X k 2 X k=1 l=2k−1 +1 k=1 n al ≤ 2 · 2 X ak = 2s2n ≤ 2C, k=1 d.h. auch die Folge (tn )n∈N ist nach oben beschränkt. ”⇐=” Nun nehme umgekehrt an das (tn )n∈N nach oben beschränkt ist, es gibt also ein C ∈ R mit tn ≤ C für jedes n ∈ N. Wieder da die Folge (an )n∈N monoton fallend ist haben wir für jedes n ∈ N und alle k ∈ N mit 2n ≤ k < 2n+1 stets ak ≤ a2n und somit auch 2n+1 2n+1 X−1 X−1 ak ≤ a2n = 2n a2n . k=2n k=2n 144 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 Ist also n ∈ N, so ergibt die Bernoullische Ungleichung §1.Lemma 6 zunächst 2n −1 ≥ n und damit ist auch k+1 sn ≤ s2n −1 = n−1 2 X −1 X k=0 al ≤ l=2k n−1 X 2k a2k = tn−1 ≤ C, k=0 d.h. die Folge (sn )n≥1 ist nach oben beschränkt. Wir wollen das Kriterium einmal dazu verwenden, die Konvergenz der Reihe ∞ X 1 nα n=1 für ein allgemeines α ∈ R zu entscheiden. Ist α ≤ 0, so gilt für jedes n ∈ N mit n ≥ 1 auch nα ≤ n0 = 1 also 1/nα ≥ 1 und damit ist (1/nα )n≥1 nicht einmal eine Nullfolge, wir können uns also auf den Fall α > 0 beschränken. Dann ist die Folge (1/nα )n≥1 eine monoton fallende Nullfolge. Nach dem Kondensationskriterium müssen wir also die Reihe n ∞ ∞ ∞ X X X 1 2n 2 n = 2 n α = (2 ) (2α )n 2α n=0 n=0 n=0 untersuchen. Dies ist eine geometrische Reihe und nach Satz 1 genau dann konvergent wenn 2/2α < 1, also wenn 2α > 2 = 21 , gilt. Dies ist weiter gleichwertig zu α > 1 und wir haben ∞ X 1 < ∞ ⇐⇒ α > 1. nα n=1 Ein Phänomen das die Behandlung der Konvergenz von Reihen deutlich erschwert, ist das diese nicht nur vom Betrag der Summanden sondern auch von deren Vorzeichen, beziehungsweise ihrem Argument im komplexen Fall, abhängt. Beispielsweise ist die harmonische Reihe ∞ X 1 1 1 1 = 1 + + + + ··· n 2 3 4 n=1 wie gesehen divergent, aber die Reihe ∞ X (−1)n−1 n=1 n =1− 1 1 1 + − + ··· 2 3 4 wird sich gleich als konvergent herausstellen. Derartige Reihen bei denen das Vorzeichen ständig hin und her wechselt werden als alternierende Reihen bezeichnet, und das folgende sogenannte Leibniz-Kriterium wird zeigen, dass eine große Zahl dieser Reihen konvergent ist. Satz 5.7 (Leibniz-Kriterium) Sei (an )n∈N eine monoton fallende, reelle Nullfolge mit an ≥ 0 für alle n ∈ N. Dann 145 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 P n ist die alternierende Reihe ∞ n=0 (−1) an konvergent. Ist (sn )n∈N die Folge der Partialsummen dieser Reihe, so gilt s2n ≥ ∞ X (−1)k ak ≥ s2n+1 k=0 für alle n ∈ N. Beweis: Für jedes n ∈ N gelten s2(n+1) = s2n+2 = s2n − a2n+1 + a2n+2 ≤ s2n da a2n+2 ≤ a2n+1 ist und s2(n+1)+1 = s2n+3 = s2n+1 + a2n+2 − a2n+3 ≥ s2n+1 da a2n+2 ≥ a2n+3 ist. Damit ist die Folge (s2n )n∈N monoton fallend und die Folge (s2n+1 )n∈N ist monoton steigend. Für jedes n ∈ N gilt außerdem s1 ≤ s2n+1 = s2n − a2n+1 ≤ s2n ≤ s0 , d.h. (s2n )n∈N ist nach unten und (s2n+1 )n∈N ist nach oben beschränkt. Nach §4.Satz 3 existieren die beiden Grenzwerte s := lim s2n und t := lim s2n+1 . n→∞ n→∞ Nach §4.Satz 6.(a,b) ist dabei t − s = lim s2n+1 − lim s2n = lim (s2n+1 − s2n ) = − lim a2n+1 = 0, n→∞ n→∞ n→∞ n→∞ also haben wir s = t. Nach §4.Lemma 1.(d) ist auch die Folge P∞(sn )n∈Nnkonvergent mit dem Grenzwert s = t. Dies zeigt die Konvergenz der Reihe n=0 (−1) an sowie s2n ≥ s = ∞ X (−1)n an = t ≥ s2n+1 n=0 für jedes n ∈ N. Beispielsweise konvergieren damit die beiden Reihen ∞ X (−1)n−1 n=1 ∞ X n=0 n = 1− 1 1 1 + − + · · · = ln(2), 2 3 4 (−1)n 1 1 1 π = 1 − + − + ··· = , 2n + 1 3 5 7 4 146 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 wobei letztere Reihe oft als die Leibniz-Reihe bezeichnet wird. Die Grenzwerte sind hier nur zur Information angegeben, mit den uns hier zur Verfügung stehenden Hilfsmitteln können wir diese noch nicht weiter begründen. Man kann sich das Leibniz Kriterium, zumindest teilweise, auch so erklären das je zwei Summanden der Reihe zusammengefasst werden, man also zu neuen Summanden der Form bn = a2n − a2n+1 ≥ 0 übergeht und so eine Reihe bestehend aus nichtnegativen Summanden erhält. Eine solche KonstruktionP kann man auch noch etwas allgemeiner betrachten, startend mit einer beliebigen Reihe ∞ n=0 an , fasst man die Summanden in einzelnen Blöcken zusammen b0 = a0 + · · · + an1 −1 , b1 = an1 + · · · + an2 −1 , b2 = an2 + · · · + bn3 −1 , . . . P∞ und erhält so eine geblockte Reihe“ n=0 bn . Setzt man noch n0 := 0 so stehen in ” der Definition des i-ten Blocks bi stets ni+1 − ni viele Summanden der Ausgangsreihe. Ist die Ausgangsreihe konvergent so konvergiert auch die geblockte Reihe mit demselben Grenzwert und unter einigen Zusatzbedingungen gilt auch die Umkehrung dieser Aussage. Lemma 5.8 (GeblocktePReihen) Seien K ∈ {R, C} und ∞ n=0 an eine Reihe in K. Weiter seien n0 , n1 , n2 , . . . ∈ N mit 0 = n0 < n1 < n2 < n3 < · · · gegeben und definiere den k-ten Block bk für jedes k ∈ N als nk+1 −1 X bk := aj = ank + · · · + ank+1 −1 . j=nk Dann gelten: P P∞ (a) Konvergiert P die Reihe P∞ n=0 an , so konvergiert auch die geblockte Reihe n=0 bn ∞ ∞ und es ist n=0 bn = n=0 an . (b) Es gelte: 1. Die geblockte Reihe P∞ n=0 bn konvergiert. 2. Die Folge (an )n∈N ist eine Nullfolge. 3. Die Blocklängen sind nach oben beschränkt, d.h. es gibt ein m ∈ N mit nk+1 − nk ≤ m für alle k ∈ N. Dann ist auch die Reihe P∞ n=0 an konvergent. Beweis: Für jedes n ∈ N seien sn := n X ak und tn := k=0 n X k=0 147 bk Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 die Partialsummen der ursprünglichen beziehungsweise der geblockten Reihe. Für alle k ∈ N haben wir dann tk = k X bj = j=0 k nj+1 X X−1 j=0 nk+1 −1 ai = i=nj X ai = snk+1 −1 . i=0 (a) Wie eben gezeigt ist (tk )k∈N eine Teilfolge von (sn )n∈N , diese Behauptung folgt damit aus §4.Lemma 1.(a). P (b) Sei a := ∞ k=0 bk . Wir zeigen das auch (sn )n∈N −→ a gilt. Sei also > 0 gegeben. Wegen (aj )j∈N −→ 0 existiert ein j0 ∈ N mit |aj | < /(2m) für alle j ∈ N mit j ≥ j0 und wegen (tk )k∈N −→ a existiert ein k0 ∈ N mit |tk − a| < /2 für alle k ∈ N mit k ≥ k0 . Setze m0 := max{nk0 +1 , nj0 } ∈ N. Wir zeigen nun das für jedes n ∈ N mit n ≥ m0 stets |sn − a| < ist. Sei also n ∈ N mit n ≥ m0 gegeben. Sei k ∈ N minimal mit n < nk+1 , und wegen n ≥ nk0 +1 ≥ n1 sind dann k ≥ 1 und nk ≤ n < nk+1 . Wegen nk+1 > n ≥ nk0 +1 ist k + 1 > k0 + 1 also k − 1 ≥ k0 und |tk−1 − a| < /2. Ebenso folgt k ≥ j0 also gilt für jedes j ∈ N mit nk ≤ j ≤ n stets j ≥ nk ≥ nj0 ≥ j0 und somit |aj | < /(2m). Insgesamt haben wir damit n n X X aj aj = tk−1 − a + |sn − a| = snk −1 − a + j=nk j=nk ≤ |tk−1 − a| + n X |aj | < j=nk nk+1 − nk + (n − nk + 1) ≤ + ≤ , 2 2m 2 m 2 und (sn )n∈N −→ a ist bewiesen. In Teil (b) des Lemmas benötigt man tatsächlich die beiden Voraussetzungen (2) und (3), und wir wollen uns für jede der beiden ein Beispiel hierzu anschauen. Haben wir die Folge (an )n∈N = ((−1)n )n∈N und setzen nk := 2k für jedes k ∈ N, so haben wir ( 1, n ist gerade, 1 − (−1)n+1 sn = = und bn = (−1)2n + (−1)2n+1 = 0 2 0, n ist ungerade P P∞ für jedes n ∈ N, die Reihe ∞ a divergiert also, aber die geblockte Reihe n n=0 n=0 bn = 0 konvergiert und die Blocklänge ist konstant nk+1 − nk = 2 für jedes k ∈ N. Dies war ein Gegenbeispiel in dem Bedingung (2) verletzt ist, ein Gegenbeispiel zu Bedingung (3) ist etwas schwerer zu konstruieren. Wir wählen die Blockunterteilung (nk )k∈N so, dass nk+1 − nk = 2(k + 1) für jedes k ∈ N gilt, also nk := k X j = k(k + 1) j=1 148 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 für jedes k ∈ N. Die Folge (an )n∈N definieren wir so das im k-ten Block zunächst (k + 1) viele Folgenglieder gleich 1/(k + 1) sind und die darauf folgenden (k + 1) Folgenglieder gleich −1/(k + 1) sind, also als Formel ( 1 , wenn k(k + 1) ≤ n < (k + 1)2 für ein k ∈ N, k+1 an := 1 − k+1 , wenn (k + 1)2 ≤ n < (k + 1)(k + 2) für ein k ∈ N P∞ für jedes n ∈ N. Wir wollen uns überlegen das die geblockte P∞ Reihe n=0 bn konvergiert und die Folge (an )n∈N eine Nullfolge ist aber die Reihe n=0 an divergiert. Ersteres ist dabei klar, für jedes k ∈ N summiert sich der k-te Block zu bk = nk+1 −1 (k+1)(k+2)−1 (k+1)2 −1 X X X aj = j=nk aj = j=k(k+1) j=k(k+1) 1 − k+1 (k+1)(k+2)−1 X j=(k+1)2 1 = 0, k+1 P also konvergiert ∞ k=0 bk = 0. Weiter ist die Folge (|an |)n∈N monoton fallend und für jedes k ∈ N gilt |ank | = 1/(k+1), P∞ also ist (|an |)n∈N −→ 0 und somit auch (an )n∈N −→ 0. Um die Divergenz der Reihe n=0 an einzusehen, blocken wir diese auch noch auf eine zweite Weise, nämlich durch n02k := nk = k(k + 1) und n02k+1 := nk + (k + 1) = (k + 1)2 für jedes k ∈ N. Für jedes k ∈ N ergeben sich die zugehörigen Blöcke als b02k := n02k+1 −1 (k+1)2 −1 X X j=n02k aj = j=k(k+1) 1 = 1 und analog b02k+1 := k+1 n02(k+1) −1 X aj = −1 j=n02k+1 P∞ 0 P∞ n d.h. b0n = (−1)n für jedes n ∈ N und die geblockte P Reihe n=0 bn = n=0 (−1) ∞ divergiert, also muss nach dem Lemma auch die Reihe n=0 an divergieren. Wir wollen in diesem Abschnitt noch eine letzte allgemeine Aussage festhalten. Wir wissen das eine Folge genau dann konvergiert wenn sie eine Cauchyfolge ist, und damit ist es naheliegend zu fragen wann die Folge der Partialsummen einer Reihe eine Cauchyfolge ist. Dies führt dann zum sogenannten Cauchy-Kriterium für die Konvergenz von Reihen. Tatsächlich ist dieses das ursprüngliche Cauchy-Kriterium, die Version für Folgen wurde erst später formuliert. Satz 5.9 (Cauchy Kriterium für Reihen) P Sei K ∈ {R, C}. Dann ist eine Reihe ∞ n=0 an in K genau dann konvergent wenn es für jedes > 0 ein n0 ∈ N mit m X a k < k=n für alle n, m ∈ N mit m ≥ n ≥ n0 gibt. 149 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 Beweis: Ist (sn )n∈N die Folge der Partialsummen der Reihe, so gilt m X ak = |sm − sn−1 | k=n für alle n, m ∈ N mit m ≥ n. Die Behauptung folgt also aus dem Cauchy Kriterium §4.Satz 16 für Folgen. Das Cauchy-Kriterium ist eher für theoretische Überlegungen von Bedeutung, bei der Behandlung konkret gegebener Reihen kommt es nur selten zum Einsatz. 5.3 Absolute Konvergenz Wir betrachten noch einmal die Leibniz-Reihe ∞ X 1 1 1 (−1)n = 1 − + − + ··· . 2n + 1 3 5 7 n=0 Es ist beispielsweise nach Satz 7 ∞ 0, 6 = 1 X (−1)n 1 1 13 2 =1− < <1− + = = 0, 86, 3 3 n=0 2n + 1 3 5 15 und um eine bessere Abschätzung zu erhalten, berechnen wir einige weitere Partialsummen sn n=0 1 n=1 0, 666666 n=2 0, 866666 n = 3 0, 723809 n=4 0, 834920 n = 5 0, 744011 n=6 0, 820934 n = 7 0, 754267 n=8 0, 813091 n = 9 0, 760459 n = 18 0, 798546 n = 19 0, 772905 n = 28 0, 794016 n = 29 0, 777067 n = 98 0, 787923 n = 99 0, 782898 n = 198 0, 786654 n = 199 0, 784148 n = 998 0, 785648 n = 999 0, 785148 P n es ist also 0, 785148 < ∞ n=0 (−1) /(2n + 1) < 0, 785648. Die Konvergenz der Leibniz Reihe ist sehr langsam, wir brauchen bereits 1000 Summanden um nur drei Nachkommastellen der Summe sicher zu kennen. Wir summieren die Leibniz Reihe jetzt in einer anderen Reihenfolge auf ∞ 1+ X 1 1 1 1 1 − + + − + · · · =: an 5 3 9 11 7 n=0 150 Mathematik für Physiker I, WS 2016/2017 Freitag 9.12.2016 d.h. es werden je zwei positive gefolgt von nur einem negativen Term genommen. Ist n ∈ N so stehen in der n-ten Dreiergruppe also der (2n)-te und der (2n + 1)-te positive Summand der Leibniz-Reihe gefolgt vom n-ten negativen Summanden der LeibnizReihe, d.h. 1 1 1 1 1 = , a3n+1 = = , a3n+2 = − . 4 · (2n) + 1 8n + 1 4 · (2n + 1) + 1 8n + 5 4n + 3 P Wir fassen die Summanden der umgeordneten Reihe ∞ n=0 an in Dreierblöcken zusammen und erhalten die geblockte Reihe ∞ X 1 1 1 1 1 1+ − + + − + ··· = bn 5 3 9 11 7 n=0 a3n = mit 1 1 1 + − 8n + 1 8n + 5 4n + 3 (8n + 5)(4n + 3) + (8n + 1)(4n + 3) − (8n + 1)(8n + 5) = (8n + 1)(8n + 5)(4n + 3) 24n + 13 >0 = (8n + 1)(8n + 5)(4n + 3) bn = a3n + a3n+1 + a3n+2 = für jedes n ∈ N mit n ≥ 13 haben wir weiter bn ≤ 25/n2 also auch P Pn jedes n ∈ N.PFür ∞ 2 Reihe ∞ k=13 bk ≤ 25 · k=1 1/k < ∞, d.h. die Partialsummen der P n=0 bn sind nach ∞ oben beschränkt und nach Satz 4.(b) konvergiert die Reihe n=0 bn . Nach Lemma 8 konvergiert damit auch die Reihe ∞ X ∞ X ∞ X (−1)k 1 1 1 1 1 3734 an = bn > 1 + − + + − = = 0, 911843 . . . > . 5 3 9 11 7 4095 2k + 1 n=0 n=0 k=0 In dieser Reihenfolge aufsummiert erhalten wir also eine andere Summe. Tatsächlich läßt sich zeigen, dass 1 1 1 1 1 π + ln(2) − + + − + ··· = 5 3 9 11 7 4 gilt. Die Summation unendlicher Summen ist also nicht kommutativ“ sondern kann ” wie in diesem Beispiel von der Reihenfolge der Summanden abhängen. Das ist natürlich ein eher unerfreuliches Phänomen. Von besonderen Interesse sind jetzt die guten Rei” hen“, die unabhängig von der Summationsreihenfolge immer gegen denselben Wert konvergieren. Derartige Reihen nennt man manchmal unbedingt konvergent, es wird sich aber gleich herausstellen, dass es eine einfache äquivalente Beschreibung gibt, die sogenannte absolute Konvergenz. 1+ Definition 5.2 (Absolute Konvergenz) P Sei K P ∈ {R, C}. Eine Reihe ∞ n=0 an in KPheißt absolut konvergent, wenn die reelle ∞ Reihe n=0 |an | konvergent ist, wenn also ∞ n=0 |an | < ∞ ist. 151 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 Letzteres gilt dabei nach Satz 4.(b). Beispielsweise ist jede konvergente reelle Reihe mit nur nicht negativen Summanden trivialerweise auch absolut konvergent, was schon einen großen Teil unserer bisher behandelten Beispiele P∞ nabdeckt. Nach Satz 1 ist für jedes q ∈ C mit |q| < 1 die geometrische Reihe n=0 q absolut konvergent denn die Reihe der Beträge ∞ ∞ X X n |q | = |q|n n=0 n=0 ist wieder eine konvergente geometrische Reihe. Die geometrische Reihe wird sich als eines der wichtigsten Beispiele absolut Reihen herausstellen. Nicht absolut P∞ konvergenter n konvergent ist dagegen die Reihe n=1 (−1) /n. Vorlesung 15, Montag 12.12.2016 Am Ende der letzten Sitzung hatten wir den Begriff einer absolut konvergenten Reihe eingeführt, dies war eine Reihe bei der die aus den Beträgen der einzelnen Summanden gebildete Reihe konvergiert. Wir wollen uns überlegen, dass die absolute Konvergenz einer Reihe eine stärkere Eigenschaft als ihre Konvergenz ist, dies ist zwar anhand der Definition nicht offensichtlich, läßt sich aber mit dem Cauchy-Kriterium des vorigen Abschnitts beweisen. Lemma 5.10 (Absolute Konvergenz impliziert Konvergenz) P∞ Sei n=0 an eine absolut konvergente Reihe in K. Dann ist P∞ K ∈ {R, C} und sei a auch konvergent und es gilt die Dreiecksungleichung n=0 n ∞ ∞ X X a ≤ |a |. n n=0 n=0 n Beweis: Für alle n, m ∈ N mit m ≥ n gilt m m X X ak ≤ |ak | k=n k=n P∞ und die Konvergenz von n=0 an folgt mit dem Cauchy-Kriterium Satz 9 für Reihen. Mit §4.Lemma 2.(b) und §4.Lemma 5.(a) folgt auch ∞ n n n ∞ X X X X X an = lim ak = lim ak ≤ lim |ak | = |an |. n=0 n→∞ n→∞ n→∞ k=0 k=0 152 k=0 n=0 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 Genau wie die Konvergenz komplexer Reihen läßt sich auch die absolute Konvergenz dieser Reihen an Real- und Imaginärteil ablesen. Lemma 5.11 (Absolute P∞ Konvergenz komplexer Reihen) Eine komplexe an ist genau dann absolut konvergent wenn die beiden reellen P∞ Reihe n=0P Reihen n=0 Re(an ) und ∞ n=0 Im(an ) absolut konvergent sind. P∞ P∞ Beweis: ”=⇒” Sei n=0 an absolut konvergent, d.h. es ist n=0 |an | < ∞. Nach §3.Lemma 3.(a) und Satz 4.(a) ist dann auch ∞ X n=0 ∞ X |Re(an )| ≤ |Im(an )| ≤ n=0 ∞ X n=0 ∞ X |an | < ∞ und |an | < ∞, n=0 P P∞ d.h. die beiden reellen ReihenP ∞ n=0 Re(an ) undP n=0 Im(an ) sind absolut konvergent. ∞ ”⇐=” Da die beiden Reihen ∞ n=0 Re(an ) und n=0 Im(an ) absolut konvergieren sind A := ∞ ∞ X X Re(an ) < ∞ und B := Im(an ) < ∞. n=0 n=0 Nach §3.Lemma 3.(a) gilt für jedes k ∈ N stets √ √ |ak | ≤ 2 max{| Re(ak )|, | Im(ak )|} ≤ 2(| Re(ak )| + | Im(ak )|), also folgt für jedes n ∈ N auch n X |ak | ≤ √ k=0 P Damit ist ∞ n=0 |an | ≤ konvergent. 2 n X k=0 √ | Re(ak )| + n X ! | Im(ak )| ≤ √ 2(A + B). k=0 2(A + B) < ∞ und die komplexe Reihe P∞ n=0 an ist absolut Insbesondere ist damit eine reelle Reihe genau dann absolut konvergent wenn sie als komplexe Reihe absolut konvergent ist, wir können uns also erneut den komplexen Fall als den allgemeinen Fall denken. Wie schon bemerkt sind die absolut konvergenten Reihen genau diejenigen, deren Wert sich bei beliebiger Umsortierung der Summanden nicht ändert. Wir werden jetzt gleich beweisen, dass die absolut konvergenten Reihen tatsächlich diese Eigenschaft haben. Zuvor müssen wir aber den Begriff des Umsortierens“ formal noch etwas genauer fassen. Eine umsortierte Version einer Rei” he a0 + a1 + a2 + · · · ist eine Reihe in der dieselben Summanden nur in einer anderen Reihenfolge auftreten, also eine Reihe der Form aπ(0) + aπ(1) + aπ(2) + · · · wobei π(0), π(1), π(2), . . . die entsprechenden Indizes der Originalreihe sind. Dass jeder Index 153 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 n ∈ N unter den π(0), π(1), π(2), . . . an genau einer Stelle auftaucht, bedeutet das es für jedes n ∈ N genau einen umsortierten Index k ∈ N mit π(k) = n gibt. In anderen Worten soll die Abbildung π : N → N bijektiv sein. Damit können wir unseren Umordnungssatz für absolut konvergente Reihen formulieren. Der Beweis wurde in der Vorlesung nur sehr grob skizziert, hier wollen wir den vollständigen, exakten Beweis vorführen. Lemma 5.12 (Umordnungen P absolut konvergenter Reihen) Sei K ∈ {R, C} und seien ∞ in K und π : N → n=0 an eine absolut konvergente Reihe P N eine bijektive Abbildung. Dann ist auch die umgeordnete Reihe ∞ n=0 aπ(n) absolut konvergent und es gilt ∞ ∞ X X aπ(n) = an . n=0 n=0 Beweis: Ist n ∈ N, so setzen wir n∗ := max{π(0), π(1), . . . , π(n)}, und haben die Inklusion {π(0), π(1), . . . , π(n)} ⊆ {0, . . . , n∗ }, also auch n X ∗ |aπ(k) | ≤ n X |ak | ≤ |ak | < ∞. k=0 k=0 k=0 ∞ X P P∞ Nach Satz 4.(b) ist ∞ n=0 |aπ(n) | konvergent, d.h. auch n=0 aπ(n) ist absolut konvergent. P∞ P Damit ist die erste Aussage bewiesen. Insbesondere sind ∞ n=0 aπ(n) und n=0 an nach Lemma 10 beide konvergent. Bezeichne sn := n X ak und s0n := k=0 n X aπ(k) k=0 für jedes n ∈ N die jeweiligen Partialsummen. Wir wollen zeigen, dass die Differenzen (sn − s0n )n∈N eine Nullfolge bilden. Sei > 0. Nach dem Cauchy Kriterium Satz 9 für Reihen existiert n1 ∈ N mit m X |ak | < k=n für alle n, m ∈ N mit m ≥ n ≥ n1 . Wir setzen n0 := max{n1 , π −1 (0), . . . , π −1 (n1 )}. Sei jetzt n ∈ N mit n ≥ n0 gegeben. Dann sind 0, 1, . . . , n1 − 1, π −1 (0), π −1 (1), . . . , π −1 (n1 − 1) ∈ {0, . . . , n}, also auch 0, 1, . . . , n1 − 1 ∈ {π(0), π(1), . . . , π(n)}. 154 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 Bilden wir also die Differenz sn − s0n = n X ak − k=0 n X aπ(k) , k=0 so kommt jeder der Summanden a0 , . . . , an1 −1 sowohl in sn als auch in s0n vor, und verschwindet in der Differenz. Von sn und s0n verbleiben dann nur noch Summanden der Form ak mit k ≥ n1 und k ∈ {0, . . . , n, π(0), . . . , π(n)}. Diejenigen davon die in sn und s0n vorkommen verschwinden in der Differenz, und die anderen bleiben mit eventuellen Vorzeichen stehen. Setzen wir also m := max{n, π(0), . . . , π(n)}, so ist m ≥ n1 und es gibt eine Menge M ⊆ {n1 , n1 + 1, . . . , m} und Vorzeichen σk ∈ {−1, 1} für k ∈ M mit X sn − s0n = σk ak . k∈M Mit der Dreiecksungleichung folgt m X X X |sn − s0n | = |ak | < . σk ak ≤ |ak | ≤ k∈M k∈M k=n1 Damit ist (sn − s0n )n∈N eine Nullfolge. Mit den Grenzwertsätzen §4.Satz 6.(a,b) folgt schließlich ∞ X n=0 an − ∞ X aπ(n) = lim sn − lim s0n = lim (sn − s0n ) = 0. n→∞ n=0 n→∞ n→∞ Wie schon erwähnt spricht man auch davon das eine absolut konvergente Reihe unbedingt konvergent ist, also unabhängig von der Summationsreihenfolge stets denselben Wert hat. Tatsächlich handelt es sich bei den absolut konvergenten Reihen auch genau um die unbedingt konvergenten Reihen. Wir wollen uns jetzt kurz überlegen, dass man eine konvergente, aber nicht absolut konvergente, Reihe stets so umordnen P∞kann das sie divergiert. Zunächst betrachten wir hierzu den reellen Fall, es sei also n=0 an eine konvergente reelle Reihe die nicht absolut konvergent ist. Da eine konvergente Reihe mit nur positiven oder nur negativen Summanden auch absolut konvergent ist, müssen dann sowohl unendlich viele positive als auch unendlich viele negative Summanden vorkommen. Damit können wir die Folge (an )n∈N in eine positive Teilfolge (an+ )k∈N k und eine negative Teilfolge (an− )k∈N einteilen, es soll also k {n+ k |k ∈ N} = {n ∈ N|an ≥ 0} und − {nk |k ∈ N} = {n ∈ N|an < 0} 155 Mathematik für Physiker I, WS 2016/2017 gelten. Da P∞ n=0 Montag 12.12.2016 |an | = ∞ ist, müssen ∞ X an+ = +∞ und ∞ X k k=0 an− = −∞ k k=0 gelten. Dies bedarf P∞ einer kleinen Begründung, nehme also einmal an, dass etwa der positive Teil k=0 an+ < ∞ ist. Wir betrachten dann die durch k ( an , an ≥ 0, b+ n := 0, an < 0 P∞ + für n ∈ N definierte Folge. Die Partialsummen P∞ der Reihe n=0 bn sind dann im wesentlichen dieselben wie diejenigen der Reihe k=0 an+ nur das jedes Folgenglied eventuell k P + endlich oft wiederholt wird. Also ist auch ∞ n=0 bn konvergent. Damit ist aber auch ∞ X |an | = 2 ∞ X b+ n n=0 n=0 − ∞ X an n=0 P∞ konvergent, im Widerspruch dazu das n=0 an als nicht absolut P∞ konvergent vorausgeP + = +∞ und analog folgt auch setzt ist. Also ist ∞ a = −∞. Wegen k=0 nk k=0 an− k limk→∞ an− = limn→∞ an = 0 gibt es ein p ∈ N mit −1 < an− < 0 für alle k ∈ N mit k k k > p. P∞Setze q0 := −1. Ist kP∈∞ N und ist qk ∈ N ∪ {−1} bereits definiert, so ist wegen = +∞ auch = +∞, und somit existiert ein qk+1 ∈ N mit l=0 an+ l=qk +1 an+ l l Pqk+1 qk+1 > qk und l=qk +1 an+ > 2. Weiter definieren wir die Zahlen l mk := p + 1 + k−1 X (ql+1 − ql + 1) = k + qk + p + 2 l=0 für alle k ∈ N, also p + 1 = m0 < m1 < m2 < m3 < . . .. Definiere jetzt die Umordnung − 0 ≤ l ≤ p, nl , + π : N → N; l 7→ nqk +l−mk +1 , mk ≤ l < mk+1 − 1 für ein k ∈ N, − np+k+1 , l = mk+1 − 1 für ein k ∈ N. Pp Setze M := k=0 an− . Für jedes k ∈ N gelten k mk+1 −2 qk+1 mk+1 −1 X X X l=mk aπ(l) = an+ > 2 und l l=qk +1 mk+1 −2 aπ(l) = l=mk X p+k+1 l=mk also ist für alle k ∈ N und alle m ∈ N mit m ≥ mk+1 auch m X aπ(l) ≥ M + k. l=0 156 aπ(l) + an− > 1, Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 P Dies zeigt ∞ n=0 aπ(n) = +∞ und insbesondere ist die umgeordnete Reihe divergent. Damit haben wir bewiesen, dass man eine konvergente, aber nicht absolut konvergente, reelle Reihe immer so umordnen kann das die entstehende Reihe P∞ divergent ist. Dies kann man jetzt leicht auf den komplexen Fall ausdehnen. Ist n=0 zn eine konvergente, aber nicht absolut konvergente, komplexe Reihe, so sind nach Lemma 2 auch P∞ P∞ die beiden reellen Reihen n=0 Re(zn ) und n=0 Im(zn ) konvergent und nach Lemma 11 ist eine der beiden Reihen nicht absolut konvergent. P∞ gibt es daP∞ Wie bereits gezeigt mit eine bijektive Abbildung π : N → N so, dass n=0 π(n) ) oder n=0 Im(zπ(n) ) PRe(z ∞ divergiert, und wieder nach Lemma 2 ist damit auch n=0 zπ(n) divergent. Insgesamt haben wir damit den folgenden Satz bewiesen: Satz 5.13 (Absolute Konvergenz ist unbedingte Konvergenz) P∞ Sei K ∈ {R, C}. Dann ist eine Reihe n=0 an in K genau dann absolut P konvergent wenn für jede bijektive Abbildung π : N → N auch die umgeordnete Reihe ∞ n=0 aπ(n) konvergent ist. Unsere Argumentation im reellen Fall des obigen Satzes kann man noch etwas verfeinern, und erhält dann den sogenannten Riemannschen Umordnungssatz: SatzP5.14 (Riemanscher Umordnungssatz) Sei ∞ n=0 an eine konvergente, aber nicht absolut konvergente, reelle P∞ Reihe. Dann gibt es für jedes a ∈ R stets eine bijektive Abbildung π : N → N mit n=0 aπ(n) = a. Beweis: Wir übernehmen die Bezeichungen der obigen Überlegung. Ist a = +∞ so haben wir bereits alles bewiesen und für a = −∞ kann man alles analog zu oben beweisen. Wir müssen also nur noch den Fall a ∈ R betrachten. Wir setzen p+ 0 := 0. Pp−0 −1 P∞ − − Wegen k=0 an− = −∞ existiert ein p0 ∈ N mit p0 > 0 und k=0 an− < a. k k Pp−k −1 Pp+k −1 + − Sei jetzt k ∈ N und pk , pk mit j=0 an+j + j=0 an−j < a seien schon definiert. P + + Wegen ∞ an+j = +∞ existiert dann ein minimales p+ k+1 ∈ N mit pk+1 > pk und j=p+ k Pp+k+1 −1 Pp−k −1 + + > a. Die Minimalität von p+ a j=0 an− j=0 nj k+1 ergibt dann j p+ k+1 −2 X p− k −1 an+j + X j=0 also ist a< p− k −1 an+j + j=0 Da auch j=0 p+ k+1 −1 X P∞ j=p− k an−j ≤ a, X an−j ≤ a + an++ p j=0 k+1 . −1 − an−j = −∞ gilt, gibt es analog ein minimales p− k+1 > pk mit p− k+1 −1 p+ k+1 −1 a + an−− p k+1 ≤ −1 X an+j + X j=0 j=0 157 an−j < a. Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 − Damit werden induktiv zwei Folgen (p+ k )k∈N , (pk )k∈N in N definiert, und mit diesen definieren wir die bijektive Abbildung π : N → N durch − − n−− , wenn n = p+ k + j mit pk−1 ≤ j < pk , k ∈ N, pk−1 +j π : N → N; n 7→ + + n++ , wenn n = p− k + j mit pk ≤ j < pk+1 , k ∈ N, p +j k wobei p− −1 := 0 gesetzt ist. In anderen Worten sortiert π die natürlichen Zahlen als − + − − + + + n− 0 , . . . , np− −1 , n0 , . . . , np+ −1 , np− , . . . , np− −1 , np+ , . . . , np+ −1 , . . . 0 1 0 1 1 2 P∞ um. Wir behaupten das für diese Umordnung n=0 aπ(n) = a gilt. Bezeichne hierzu (sn )n∈N die Folge der Partialsummen dieser Reihe. Sei > 0 gegeben. Da (an )n∈N nach Lemma 3 eine Nullfolge ist, existiert ein n1 ∈ N mit |an | < für alle n ∈ N mit n ≥ n1 . + − − Wähle k + , k − ∈ N mit n− k− ≥ n1 und nk+ ≥ n1 . Weiter gibt es k1 , k2 ∈ N mit pk1 ≥ k + − + und p+ k2 ≥ k . Setze schließlich k0 := 1 + max{k1 , k2 } und n0 := pk0 + pk0 ∈ N. Sei n ∈ N mit n ≥ n0 . Dann können zwei verschiedene Fälle auftreten. − + + − Fall 1. Es gebe k, j ∈ N mit p− k−1 ≤ j < pk und n = pk + j. Wegen n ≥ n0 = pk0 + pk0 − ist dann k − 1 ≥ k0 also k ≥ k0 + 1 und insbesondere k ≥ 1. Weiter sind p− k > pk 0 ≥ − + + + − − + + − + pk1 ≥ k und pk > pk0 ≥ pk2 ≥ k also auch np− −1 ≥ nk− ≥ n1 und np+ −1 ≥ nk+ ≥ n1 , k d.h. |an−− | < und |an++ | < . Weiter ist p k −1 p sn = n X k −1 p+ k −1 aπ(i) = i=0 X an+i + j X an−i ≥ X sn = an+i + an−i ≤ i=0 i=0 X X an−i ≥ a + an−− p i=0 k −1 p− k−1 −1 p+ k −1 j X an+i + i=0 und p+ k −1 p− k −1 p+ k −1 i=0 i=0 X k an+i + X an−i ≤ a + an++ , p i=0 i=0 k −1 also insgesamt a + an−− p k −1 ≤ sn ≤ a + an++ , also |sn − a| ≤ max{|an−− |, |an++ |} < . p k −1 p k −1 p k −1 + − + − Fall 2. Es gebe k, j ∈ N mit p+ k ≤ j < pk+1 und n = pk + j. Wegen n ≥ n0 = pk0 + pk0 − − + + − ist k ≥ k0 und insbesondere k ≥ 1. Weiter sind p− k ≥ pk0 > pk1 ≥ k und pk+1 > pk0 ≥ + − − + + pk2 ≥ k + also auch np− −1 ≥ nk− ≥ n1 und np+ −1 ≥ nk+ ≥ n1 , d.h. |an−− | < und k |an++ p k+1 k+1 p | < . Weiter ergibt sich k −1 sn = j X i=0 an+i + p− k −1 p+ k+1 −1 X X i=0 an−i ≤ p− k −1 an+i + i=0 158 X i=0 an−i ≤ a + an++ p k+1 −1 −1 Mathematik für Physiker I, WS 2016/2017 und sn = j X an+i + p− k −1 p+ k −1 X X an−i ≥ p− k −1 an+i + X an−i ≥ a + an−− , p i=0 i=0 i=0 i=0 Montag 12.12.2016 k −1 also ist in diesem Fall a + an−− p k −1 ≤ sn ≤ a + an++ p k+1 −1 , also erneut |sn − a| ≤ max{|an−− |, |an++ p k −1 Damit ist in beiden Fällen |sn −a| < gezeigt. Insgesamt haben wir damit limn→∞ sn = a eingesehen. p |} < . k+1 −1 P∞ n=0 aπ(n) = Es verbleibt die Frage wieweit ein analoger Satz auch für komplexe Reihen gilt? Diese P∞Frage wird durch einen Satz von Steinitz vollständig beantwortet. Angenommen n=0 an ist eine konvergente, aber nicht absolut konvergente, komplexe Reihe. Dann betrachten wir die Menge ) ( ∞ X aπ(n) = a L := a ∈ C Es existiert eine bijektive Abbildung π : N → N mit n=0 aller komplexen Zahlen, die als Summe einer umgeordneten Version der Reihe auftreten können. Der Satz von Steinitz sagt dann, dass entweder L = C ist oder L ist eine Gerade. Dies ist schon ein etwas komplizierteres Ergebnis, dessen Beweis wir hier nicht einmal andeuten wollen. Wir kommen jetzt zum rechnerischen Problem einer vorgelegten Reihe anzusehen, ob sie absolut konvergent ist oder nicht. Es gibt hierfür zwar kein allgemein anwendbares immer funktionierendes Verfahren, aber doch einige Kriterien die oft schon ausreichen. In gewissen Sinne ist die absolute Konvergenz einer Reihe besser zu behandeln als die Konvergenz, da erstere nur von der Größenordnung der Summanden aber nicht von Vorzeichen oder Argument abhängt. Das Grundkriterium zum Erkennen absoluter Konvergenz ist das nun zu formulierende Majorantenkriterium. Satz 5.15 (Majorantenkriterium für die absolute Konvergenz) P P∞ Sei K ∈ {R, C} und sei n=0 anP eine Reihe in K. Es gebe eine reelle Reihe ∞ n=0 Mn mit Mn ≥ 0 für alle n ∈ N und ∞ M < ∞. Weiter gebe es eine Konstante c≥0 n n=0 in R und einen P∞ Startindex n0 ∈ N mit |an | ≤ cMn für alle n ∈ N mit n ≥ n0 . Dann ist die Reihe n=0 an absolut konvergent. Beweis: Für jedes n ∈ N mit n ≥ n0 ist n X k=0 |ak | ≤ nX 0 −1 k=0 |ak | + c · n X Mk ≤ k=n0 nX 0 −1 k=0 |ak | + c · ∞ X Mk < ∞, k=0 P also ist die Folge der Partialsummen der Reihe ∞ n | nach oben beschränkt, die n=0 P|a ∞ Reihe ist also nach Satz 4.(b) konvergent. Damit ist n=0 an absolut konvergent. 159 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 P∞ In diesen Zusammenhang nennt man die Reihe n=0 Mn auch eine Majorante der P Reihe ∞ a . Wir wollen uns ein kleines Beispiel zur Anwendung des Majorantenn=0 n kriteriums anschauen und betrachten die Reihe ∞ X sin n n2 n=1 . Für jedes n ∈ N mit n ≥ 1 haben wir wegen | sin n| ≤ 1 auch sin n 1 n2 ≤ n2 P 2 und da wir bereits wissen das die Reihe ∞ n=1 1/n P∞ konvergiert2 liefert das Majorantenkriterium die absolute Konvergenz der Reihe n=1 sin(n)/n . Insbesondere ist diese Reihe konvergent. Die Kontraposition des Majorantenkriteriums, beziehungsweise eine kleine Umformulierung dieser, wird gelegentlich als Minorantenkriterium bezeichnet. P∞ Dieses kann man beispielsweise wie folgt aussprechen, sind a eine reelle oder n=0 n P∞ komplexe Reihe P∞und n=0 bn eine divergente reelle Reihe mit |an | ≥ bn ≥ 0 für alle n ∈P N, so ist n=0 an nicht absolut konvergent. In der P∞Tat, dass die nichtnegative Reihe ∞ b divergiert bedeutet nach Satz 4.(b) ja n=0 n n=0 bn = ∞ und nach Satz 4.(a) ist damit auch ∞ ∞ X X |an | ≥ bn = ∞. n=0 n=0 Da dieses Minorantenkriterium damit nur ein Spezialfall von Satz 4 ist, wollen wir es hier auch nicht als eigenen Satz festhalten. Spezialisieren wir das Majorantenkriterium auf eine geometrische Reihe als Majorante, so ergibt sich das sogenannte Wurzelkriterium, und als einen weiteren Spezialfall werdenPwir das Quotientenkriterium kennen lernen. Wir wissen das die geometrische n Reihe ∞ n=0 q für q ∈ C mit |q| < 1 absolut konvergent ist, und insbesondere trifft dies auf reelle q mit 0 ≤ q < 1 zu. Diese Tatsache führt uns auf das erwähnte Wurzelkriterium. Korollar 5.16 (Wurzelkriterium P∞ für die absolute Konvergenz) Sei K ∈ {R, C} und sei eine Reihe in K. Dann gibt es n=1 an P P∞genau dann ein ∞ n q ∈ R mit p 0 ≤ q < 1 so, dass q eine Majorante von n=1 n=1 an ist, wenn n lim supn→∞ |an | < 1 ist. Insbesondere gilt damit die Implikation ∞ X p n lim sup |an | < 1 =⇒ an ist absolut konvergent. n→∞ n=1 Beweis: Wir beginnen mit der ersten Aussage und zeigen P in dieser beide Implikationen. ∞ n ”=⇒” P∞ Es gebe also eine reelle Zahl q ∈ [0, 1) so, dass n=1 q eine Majorante von n=1 an ist, d.h. es gibt eine weitere Konstante c ≥ 0 und einen Index n0 ∈ N mit 160 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 n0 ≥ 1 und |an | ≤ cq n für jedes n ∈ N mit n ≥ n0 . Durch eventuelles Vergrößern von c können wir dabei c > 0 annehmen. Für alle n ∈ N mit n ≥ n0 ist dann auch p √ n n |an | ≤ c · q, d.h. es gilt nach §4.Lemma 12.(a) und §4.Satz 11.(b) lim sup n→∞ p √ √ n |an | ≤ lim sup( n c · q) = lim ( n c · q) = q < 1. n→∞ n→∞ p ”⇐=” Sei nun lim supn→∞ n |an | < 1 vorausgesetzt. Nach p §4.Satz 11.(e) existieren n dann eine reelle Zahl q ∈ R und ein n0 ∈ N mit q < 1 und |an | < q für alle n ∈ N mit nP≥ n0 . Insbesondere ist auch q >P0 und für jedes n ∈ N mit n ≥ n0 gilt |an | ≤ q n , ∞ n d.h. ∞ n=1 q ist eine Majorante von n=1 an . p DamitP ist die erste Aussage bewiesen. Setzen wir also lim supn→∞ n |an | < 1 voraus, so besitzt ∞ n=1 an eine konvergente geometrische Reihe als Majorante und ist nach Satz 15 absolut konvergent. Man kann das Wurzelkriterium auch ohne Verwendung des Limes Superior formulieren. Nach §4.Satz 11.(e) ist die Bedingung an den Limes Superior äquivalent zu p ∃(c ∈ R, 0 ≤ c < 1)∃(n0 ∈ N)∀(n ∈ N, n ≥ n0 ) : n |an | < c. Oftmals wird auch diese äquivalente Formulierung als das Wurzelkriterium bezeichnet. In den allermeisten Fällen, zumindest solange man bei den typischen Rechenaufgaben p n bleibt, ist die Folge ( |an |)n≥1 sogar konvergent, und dann stimmt ihr Grenzwert nach §4.Satz 11.(b) mit dem Limes Superior überein, also ergibt sich in diesem Fall die Implikation ∞ X p n lim |an | < 1 =⇒ an ist absolut konvergent. n→∞ n=1 Als ein einfaches Beispiel wollen wir die Reihe ∞ X n 2n n=1 unter Verwendung des Wurzelkriteriums auf absolute Konvergenz untersuchen. Hierzu berechnen wir für jedes n ∈ N mit n ≥ 1 r n 1√ 1 1√ n = n n und beachten lim n n = < 1, n n→∞ 2 2 2 2 d.h. die Reihe ist nach dem Wurzelkriterium absolut konvergent. Bald werden wir auch in der Lage sein, ihren Grenzwert zu berechnen. Das Wurzelkriterium ist nicht dazu in der Lage die absolute Konvergenz oder ihre Verneinung sicher zu entscheiden, das ist auch von vornherein nicht zu erwarten, wir hatten ja gesehen das das Wurzelkriterium nur testet ob sich die Reihe durch eine konvergente geometrische Reihe majorisieren 161 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 läßt. Man kann dem Wurzelkriterium aber zumindest noch einen recht primitiven Divergenztest hinzufügen, nämlich lim sup ∞ X p n an ist divergent. |an | > 1 =⇒ n→∞ n=1 p Um dies nachzuweisen, beachte zunächst das der Limes Superior der Folge ( n |an |)n≥1 nach Folge ist, es gibt also eine Teilfolge p §4.Satz 11.(a) ein Häufungspunkt dieser p n nk ( |ank |)k∈N , die in R p gegen s = lim supn→∞ |an | > 1 konvergiert. Folglich gibt nk es auch ein k0 ∈ N mit |ank | > 1 für alle k ≥ k0 und damit ist auch |ank | > 1 für alle k ≥ k0 , die Folge (ank )k∈N ist also sicher keine Nullfolge. Damit ist aber (an )n∈N P∞nach §4.Lemma 1.(a) ebenfalls keine Nullfolge und nach Lemma 3 ist die Reihe n=1 an divergent. p Im verbleibenden Fall lim supn→∞ n |an | = 1 kann man dagegen nichts sagen, die Reihe kann konvergieren oder auch divergieren. Ist beispielsweise k ∈ N mit k ≥ 1, so gilt r 1 1 n lim = k = 1, √ n→∞ nk n lim n n→∞ aber für k = 1 haben wir die divergente harmonische Reihe während die Reihe für k ≥ 2 konvergiert. Aufgrund des Auftauchens der n-ten Wurzel ist das Wurzelkriterium gelegentlich rechnerisch nur schwer zu überprüfen. Es gibt ein weiteres Kriterium, das sogenannte Quotientenkriterium, das oftmals zu leichteren Rechnungen führt. Dieses ist ein gewisser Spezialfall des Wurzelkriteriums, und beruht auf einem allgemeinen Lemma über Folgen des im Wurzelkriterium vorkommenden Typs. Lemma 5.17: Sei (an )n≥1 eine Folge in R>0 . Dann gelten (a) Es ist lim sup √ n n→∞ (b) Es ist lim inf n→∞ an ≤ lim sup n→∞ √ n an ≥ lim inf n→∞ an+1 . an an+1 . an √ (c) Ist die Folge (an+1 /an )n≥1 in R konvergent, so ist auch die Folge ( n an )n≥1 in R konvergent und es gilt √ an+1 lim n an = lim . n→∞ n→∞ an Beweis: (a) Angenommen es wäre lim sup √ n an > lim sup n→∞ n→∞ 162 an+1 . an Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 Nach §4.Satz 11.(e) existieren dann eine reelle Zahl q ∈ R und eine natürliche Zahl √ n0 ∈ N mit q < lim supn→∞ n an , n0 ≥ 1 und an+1 /an < q für alle n ∈ N mit n ≥ n0 . Insbesondere ist q > 0 und für jedes n ∈ N mit n ≥ n0 ist auch an+1 < qan . Für jedes n ∈ N mit n ≥ n0 ergibt sich mit iterierter Anwendung dieser Ungleichung auch an < qan−1 < q 2 an−2 < . . . < q n−n0 an0 , d.h. an ≤ q n−n0 · an0 . Für jedes n ∈ N mit n ≥ n0 ist folglich √ n r an ≤ n an0 ·q q n0 und mit §4.Satz 11.(b), §4.Satz 6.(b) und §4.Lemma 12.(a) ergibt sich r r √ √ a a n n 0 0 lim sup n an ≤ lim sup n n0 · q = lim n n0 · q = q < lim sup n an , n→∞ q q n→∞ n→∞ n→∞ ein Widerspruch. Dieser Widerspruch zeigt (a). (b) Dies ist völlig analog zu (a). Angenommen es wäre lim inf n→∞ √ n an < lim inf n→∞ an+1 . an Nach §4.Satz 11.(e) existieren eine reelle Zahl q ∈ R und eine natürliche Zahl n0 ∈ N mit √ q > lim inf n→∞ n an , n0 ≥ 1 und an+1 /an > q für alle n ∈ N mit n ≥ n0 . Insbesondere ist q > 0 und für jedes n ∈ N mit n ≥ n0 ist auch an+1 > qan . Wie in (a) ergibt sich hieraus auch an ≥ q n−n0 · an0 für jedes n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 haben wir damit r √ an n an ≥ n n00 · q q und mit §4.Satz 11.(b), §4.Satz 6.(b) und §4.Lemma 12.(a) folgt r r √ √ a a n n 0 0 lim inf n an ≥ lim inf n n0 · q = lim n n0 · q = q > lim sup n an , n→∞ n→∞ n→∞ q q n→∞ erneut ein Widerspruch. Dieser Widerspruch zeigt (b). (c) Nach (a,b) und §4.Satz 11.(b,c) gilt √ √ an+1 an+1 an+1 an+1 = lim inf ≤ lim inf n an ≤ lim sup n an ≤ lim inf = lim , n→∞ an n→∞ n→∞ n→∞ n→∞ an an an n→∞ lim also ist lim inf n→∞ √ n an = lim sup n→∞ 163 √ n an+1 n→∞ an an = lim Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 und §4.Satz 11.(b,c) ergibt die Behauptung. Damit ergibt sich jetzt das angekündigte Quotientenkriterium. Korollar 5.18 (Quotientenkriterium für die absolute Konvergenz) P Sei K ∈ {R, C} und sei ∞ a eine Reihe in K mit an 6= 0 für alle n ∈ N. Dann n=0 n besteht die Implikation ∞ X |an+1 | an ist absolut konvergent. lim sup < 1 =⇒ |an | n→∞ n=0 Beweis: Nehmen wir lim supn→∞ |an+1 |/|an | < 1 an, so ist nach Lemma 17.(a) auch lim sup n→∞ p |an+1 | n |an | ≤ lim sup <1 |an | n→∞ und das Wurzelkriterium Korollar 16 liefert die Behauptung. Genau wie beim Wurzelkriterium wird das Quotientenkriterium oft auch in der Form ∃(c ∈ R, 0 ≤ c < 1)∃(n0 ∈ N)∀(n ≥ n0 ) : |an+1 | <c |an | formuliert. In Aufgaben ist (|an+1 |/|an |)n≥1 oft sogar konvergent, und die Bedingung des Quotientenkriteriums wird dann zu limn→∞ |an+1 |/|an | < 1. Die oben behandelte Reihe P ∞ n n=1 n/2 kann man auch mit dem Quotientenkriterium rechnen, für jedes n ∈ N gilt (n + 1)/2n+1 1 n+1 1 = · −→ < 1. n/2n 2 n 2 Für ein zweites Beispiel sei z ∈ C gegeben und wir wollen die absolute Konvergenz der Reihe ∞ X zn n! n=0 einsehen. Für z = 0 ist dies klar, wir können also z 6= 0 annehmen und versuchen das Quotientenkriterium anzuwenden. Für jedes n ∈ N haben wir zn+1 (n+1)! |z|n+1 n! |z| zn = · = −→ 0 < 1, (n + 1)! |z|n n+1 n! also liefert das Quotientenkriterium die absolute Konvergenz unserer Reihe auch für z 6= 0. 164 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 Das Lemma 17 zeigt, dass das Wurzelkriterium stärker als das Quotientenkriterium ist, wann immer man die absolute Konvergenz einer Reihe mit dem Quotientenkriterium einsehen kann, so würde auch das Wurzelkriterium funktionieren. Es gibt Reihen bei denen das Wurzelkriterium anwendbar ist, das Quotientenkriterium aber nicht. Wir wollen auch hierfür ein Beispiel angeben, die Reihe 1 1 1 1 1 1 1 1 + + 2 + 2 + 3 + 3 + 4 + 4 + ··· , 2 3 2 3 2 3 2 3 also P∞ n=1 an mit ( an = 1 , 2(n+1)/2 1 , 3n/2 n ist ungerade, n gerade. Versuchen wir zuerst einmal das Quotientenkriterium. Für jedes n ∈ N mit n ≥ 1 ist ( (n+1)/2 2 , n ist ungerade, an+1 3 = 1 3 n/2 an , n ist gerade, 2 2 und diese Folge hat die beiden Häufungspunkte 0 und +∞, also ist lim sup n→∞ an+1 = +∞. an Das Quotientenkriterium läßt sich hier also nicht anwenden. Für das Wurzelkriterium rechnen wir dagegen für jedes n ∈ N mit n ≥ 1 ( √ 12n √ , n ist ungerade, √ n an = 12 2 √ , n ist gerade, 3 √ √ also haben wir diesmal die beiden Häufungspunkte 1/ 2 und 1/ 3 und es folgt lim sup √ n an = n→∞ 1√ 2 < 1. 2 Das Wurzelkriterium ist also anwendbar, und liefert die absolute Konvergenz der Reihe. Beachte das dieses Beispiel insbesondere zeigt, dass aus lim supn→∞ |an+1 |/|an | > 1 nicht die Divergenz der untersuchten Reihe folgt. Die Divergenz folgt dagegen aus lim inf n→∞ |an+1 |/|an | > 1, denn dann haben wir nach Lemma 17.(b) und §4.Satz 11.(c) auch p p |an+1 | lim sup n |an | ≥ lim inf n |an | ≥ lim inf > 1, n→∞ n→∞ |an | n→∞ P und wir hatten bereits gesehen das dies die Divergenz der Reihe ∞ n=0 an impliziert. Ist die Folge (|an+1 |/|an |)n∈N konvergent mit limn→∞ |an+1 |/|an | > 1, so ist nachP §4.Satz 11.(b) auch lim inf n→∞ |an+1 |/|an | = limn→∞ |an+1 |/|an | > 1, und die Reihe ∞ n=0 an ist divergent. 165 Mathematik für Physiker I, WS 2016/2017 5.4 Montag 12.12.2016 Das Cauchy Produkt von Reihen Im letzten Abschnitt haben wir unter anderem gesehen, dass die Summation von Reihen sich mit Addition und Bilden der Vielfachen verträgt, dies war Lemma 5. Nun wollen wir uns der Frage der Multiplikation von Reihen zuwenden. Diese ist leider wesentlich komplizierter als die Multiplikation von Folgen. Das Produkt der Summen zweier Reihen ist natürlich nicht die Summe der Einzelprodukte, dies ist ja nicht einmal bei endlichen Summen so (a1 + a2 + a3 ) · (b1 + b2 + b3 ) = a1 b1 + a1 b2 + a1 b3 + a2 b1 + a2 b2 + a2 b3 + a3 b1 + a3 b2 + a3 b3 . Als eine etwas optimistische Erwartung könnten wir schauen ob eine entsprechende Rechnung auch für unendliche Summen wahr ist, ob also so etwas wie ∞ ∞ P P an · bn = a0 b0 + a0 b1 + a0 b2 + · · · n=0 n=0 + a1 b0 + a1 b1 + a1 b2 + · · · + a2 b0 + a2 b1 + a2 b2 + · · · .. .. .. . . . gilt? Hierzu müssten wir uns zunächst einmal überlegen was die rechte Seite denn überhaupt bedeuten soll, so eine doppelt unendliche“ Summe haben wir bisher nicht be” handelt und wollen es in diesem Semester auch nicht tun. Eine naheliegende Möglichkeit dieses Problem zu umgehen, ist es die Summanden einfach in irgendeiner Reihenfolge nacheinander hinzuschreiben, etwa nach Diagonalen geordnet als a0 b0 + a0 b1 + a1 b0 + a0 b2 + a1 b1 + a2 b0 + · · · Dass dies möglich ist klingt zunächst nicht sehr glaubhaft, wir hatten doch gesehen, dass unendliche Summen von der Reihenfolge der Summanden abhängen können, und nun soll es auf einmal keine Rolle spielen in welcher Reihenfolge wir unsere Summanden durchlaufen. Dies ist aber kein hoffnungsloses Problem, wir haben ja bereits in Lemma 12 festgehalten, dass wir absolut konvergente Reihen in beliebiger Reihenfolge aufsummieren können. P P∞ Sind beide Summen ∞ n=0 an und n=0 bn absolut konvergent, so kann man sehen, dass sich die Produkte ak bl in jeder beliebigen Reihenfolge summieren lassen, und sich stets das Produkt der Summen der beiden einzelnen Reihen ergibt. Aus Gründen die erst später bei der Behandlung von Potenzreihen klar werden, ist es nützlich jetzt noch eine kleine Variante dieser Summationstechnik einzuführen. Wir fassen die Summanden entlang der Diagonalen zusammen, schreiben also a0 b0 +a0 b1 +a1 b0 +a0 b2 +a1 b1 +a2 b0 +· · · = a0 b0 +(a0 b1 + a1 b0 )+(a0 b2 + a1 b1 + a2 b0 )+· · · Die endlichen Summen in den Klammern fassen wir als eine neue Folge (cn )n∈N auf, und diese Folge, beziehungsweise die zugehörige Reihe, ist das sogenannte Cauchyprodukt 166 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 der beiden Reihen. Der erste Summand a0 b0 hat 0 = 0 + 0 als Summe der auftauchenden Indizes, die beiden Terme a0 b1 , a1 b0 im zweiten Summanden haben beide die Indexsumme 0 + 1 = 1 + 0 = 1, die drei Terme a0 b2 , a1 b1 , a2 b0 im dritten Summanden haben alle die Indexsumme 0 + 2 = 1 + 1 = 2 + 0 = 2, und dies geht immer so weiter. Numerieren wir die Diagonalen mit n = 0, 1, 2, 3, . . . durch, so sind die Produkte ak bl auf der n-ten Diagonalen gerade durch k + l = n beschrieben. Dies führt auf die folgende Definition. Definition 5.3 (Cauchyprodukt P∞ von PReihen) Sei K ∈ {R, C} und seien n=0 an , ∞ n=0 Pbn zwei Reihen über K. Das Cauchyprodukt dieser beiden Reihen ist dann die Reihe ∞ n=0 cn definiert durch cn := n X ak bn−k = k=0 X ak b l k+l=n für jedes n ∈ N. Die ersten vier Summanden des Cauchyprodukts sind also die Summen der unten jeweils eingekästelten Produkte: a0 b0 a1 b0 a2 b0 a3 b0 a0 b1 a0 b2 a0 b3 a1 b1 a1 b2 a1 b3 a2 b1 a2 b2 a2 b3 a3 b1 a3 b2 a3 b3 c0 a0 b 0 a1 b0 a2 b0 a3 b0 a0 b0 a1 b0 a2 b0 a3 b 0 a0 b1 a0 b2 a0 b3 a1 b1 a1 b2 a1 b3 a2 b1 a2 b2 a2 b3 a3 b1 a3 b2 a3 b3 c1 a0 b1 a0 b2 a1 b1 a1 b2 a2 b1 a2 b2 a3 b1 a3 b2 c2 a0 b 3 a1 b3 a2 b3 a3 b 3 a0 b0 a1 b0 a2 b 0 a3 b0 a0 b1 a0 b2 a1 b1 a1 b2 a2 b1 a2 b2 a3 b1 a3 b2 c3 a0 b3 a1 b3 a2 b3 a3 b3 Wir wollen jetzt den Satz über Produkte von Reihen ansteuern. Überraschenderweise stellt sich heraus, dass es für die Konvergenz des Cauchyprodukts bereits ausreicht, das eine der beiden Reihen absolut konvergent ist. Aus Zeitgründen hatten wir in der Vorlesung auf den Beweis des folgenden Satzes verzichtet, in diesem Skript ist er aber mit aufgeführt. WirPgehen zunächst P∞ die Beweisstrategie durch. Gegeben seien zwei ∞ konvergente Reihen n=0 an und n=0 bn , deren Partialsummen wir mit (An )n∈N und (Bn )n∈N bezeichnen. Mit den Rechenregeln für Folgengrenzwerte §4.Satz 6.(c) haben wir zunächst ! ! ∞ ∞ X X an · bn = lim An · lim Bn = lim (An Bn ). n=0 n=0 n→∞ n→∞ n→∞ Denken wir uns die Produkte ak bl wie oben quadratisch angeordnet, so ist das Produkt An Bn diePSumme aller Einträge im n × n Quadrat links oben in diesem Schema. Bezeichnet ∞ n=0 cn das Cauchyprodukt der beiden Reihen und (Cn )n∈N die Folge seiner Partialsummen, so ist Cn die Summe aller Einträge im unten eingezeichneten Dreieck: 167 Mathematik für Physiker I, WS 2016/2017 ak Montag 12.12.2016 ak ak Cn An Bn An Bn − Cn bl bl bl Das Quadrat An Bn n0 Das Dreieck Cn Differenz der beiden Da die Folge (An Bn )n∈N gegen das Produkt der beiden Summen konvergiert, ist die Konvergenz von (Cn )n∈N gegen dieses Produkt gleichwertig dazu das (An Bn − Cn )n∈N eine Nullfolge ist. Diese Differenz ist die Summe über das Dreieck ganz rechts. In diesem Dreieck hat man sowohl Summanden ak bl mit kleinem k als auch solche mit kleinem l. Wegen k + l > n können k und l aber nicht beide gleichzeitig klein sein und zur Abschätzung teilt man die Summe über das Dreieck in zwei Teile auf, einmal Summanden mit l ≥ n0 für einen Startindex n0 , und zum anderen die restlichen mit l < n0 . Satz 5.19 (Cauchyprodukte P P∞von Reihen) Sei K ∈ {R, C} und seien n=0 an , ∞ von denen eine n=0 bn zwei konvergente Reihen P sogar absolut konvergent ist. Dann ist auch das Cauchyprodukt ∞ c n=0 n dieser beiden Reihen konvergent, und es gilt ! ! " n # ∞ ∞ ∞ ∞ X X X X X bn . ak bn−k = an · cn = n=0 n=0 P∞ n=0 k=0 n=0 P∞ Sind sogar beide Reihen a , b absolut konvergent, so ist auch n n n=0 n=0 n=0 cn absolut konvergent, und istP weiter d0 , d1 , d2 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N), so ist auch die Reihe ∞ n=0 dn absolut konvergent mit ! ! ∞ ∞ ∞ X X X dn = an · bn . n=0 P∞ n=0 n=0 Beweis: Seien An , Bn , Cn wie oben. Da das Cauchyprodukt P∞ sich bei Vertauschen der beiden Reihen nicht ändert, können wir annehmen das n=0 an absolut konvergent ist, also ∞ X A := |an | < ∞. n=0 Wie bemerkt müssen wir zeigen, dass (An Bn − Cn )n∈N eine Nullfolge ist. Sei P also > 0 gegeben. Nach dem Cauchy Kriterium für Reihen Satz 9 angewandt auf ∞ n=0 bn existiert ein n1 ∈ N mit m X bl < 2A + 1 l=n 168 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 Pn1 −1 für alle n, m ∈ N mit m ≥ n ≥ n1 . Setze M := l=0 |bl |. Erneut P nach dem Cauchy Kriterium für Reihen Satz 9, diesmal angewandt auf die Reihe ∞ n=0 |an |, existiert ein n2 ∈ N mit m X |ak | < 2M + 1 k=n für alle n, m ∈ N mit m ≥ n ≥ n2 . Setze n0 := n1 + n2 . Sei n ∈ N mit n ≥ n0 . Dann ist n −1 n 1 X X X X X bl + ak · bl ak · ak bl = |An Bn − Cn | = l=1 1≤k≤n n ≤l≤n k=1 0≤k,l≤n 1 k+l>n k+l>n k+l>n # n1 −1 " n n n X X X X ≤ |ak | · |ak | · |bl | bl + l=1 k=n−l+1 k=1 l=max{n1 ,n−k+1} ≤ A M + < 2A + 1 2M + 1 da für jedes 1 ≤ l ≤ n1 −1 stets n−l+1 ≥ n0 −n1 +2 > n2 ist. Damit ist (An Bn −Cn )n∈N eine Nullfolge, und die erste Aussage des Satzes ist bewiesen. P∞ Nun nehmen wir an, dass auch n=0 bn absolut konvergent ist und setzen B := ∞ X |bn | < ∞. n=0 Für jedes n ∈ N gilt dann n X |cn | ≤ k=0 X 0≤k,l≤n k+l≤n |ak | · |bl | ≤ n X ! |ak | · k=0 n X ! |bl | ≤ AB, l=0 P∞ P∞ also ist |c | ≤ AB < ∞ und auch n n=0 n=0 cn ist absolut konvergent. Sei jetzt d0 , d1 , d2 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N), also dn = aα(n) bβ(n) für alle n ∈ N wobei γ : N → N × N; n 7→ (α(n), β(n)) eine bijektive Abbildung ist. Sei n ∈ N. Dann setzen wir m := max{α(k) + β(k)|k ∈ N, 0 ≤ k ≤ n} und haben n X k=0 |dk | = n X |aα(k) | · |bβ(k) | ≤ k=0 X |ak | · |bl | ≤ AB. 0≤k,l≤m k+l≤m P P∞ 0 Also ist ∞ n=0 |dn | ≤ AB < ∞ und n=0 dn ist absolut konvergent. Sei jetzt (dn )n∈N die Aufzählung der Produkte ak bl geordnet nach Diagonalen. Dann ist das Cauchyprodukt 169 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 P∞ P∞ 0 c eine geblockte Form von n n=0 n=0 dn im Sinne von Lemma 8, und nach Lemma 8.(a) sowie der schon bewiesenen Teilaussage ist damit ! ! ∞ ∞ ∞ ∞ X X X X d0n = cn = an · bn . n=0 n=0 n=0 n=0 Schreiben wir wie oben d0n = aα0 (n) bβ 0 (n) für alle n ∈ N mit einer bijektiven Abbildung γ 0 : N → N × N; n 7→ (α0 (n), β 0 (n)), so ist auch π := γ −1 ◦ γ 0 bijektiv mit γ ◦ π = γ 0 , also α0 = α ◦ π und β 0 = β ◦ π. Für jedes n ∈ N ist damit d0n = aα0 (n) bβ 0 (n) = aα(π(n)) bβ(π(n)) = dπ(n) , und mit Lemma 12 folgt schließlich ∞ X dn = ∞ X dπ(n) = n=0 n=0 ∞ X d0n = n=0 ∞ X n=0 ! an · ∞ X ! bn . n=0 Wir wollen hierzu ein kleines Beispiel rechnen. Sei q ∈ C mit |q| < 1 gegeben. Dann wissen wir bereits nach Satz 1 das die geometrische Reihe ∞ X qn = n=0 1 1−q absolut konvergiert. Wir bilden jetzt das Cauchyprodukt (cn )n∈N dieser Reihe mit sich selbst, und erhalten für jedes n ∈ N cn = m X q k q n−k = k=0 n X q n = (n + 1)q n . k=0 Der Satz über das Cauchyprodukt Satz 19 ergibt damit die absolute Konvergenz der Reihe !2 ∞ ∞ X X 1 n n . (n + 1)q = q = (1 − q)2 n=0 n=0 Damit folgt weiter ∞ X n=1 n nq = ∞ X n=0 n (n + 1)q − ∞ X qn = n=0 1 1 q − = . 2 (1 − q) 1−q (1 − q)2 Auch diese Reihe ist absolut konvergent da Summen und Vielfache absolutP konvergenter ∞ Reihen wieder absolut konvergent sind. Dies ist leicht zu sehen, sind n=0 an und 170 Mathematik für Physiker I, WS 2016/2017 Montag 12.12.2016 P∞ n=0 bn zwei absolut konvergente Reihen über K ∈ {R, C} und c ∈ K eine Konstante, so gilt für jedes n ∈ N auch n X |ak + bk | ≤ k=0 und n X (|ak | + |bk |) = k=0 n X |cak | = k=0 n X |ak | + k=0 n X (|c| · |ak |) = |c| · n X |bk | ≤ ∞ X k=0 ∞ X k=0 k=0 |ak | ≤ |c| · k=0 |ak | + ∞ X ∞ X |bk | < ∞ k=0 |ak | < ∞, k=0 P∞ P die Folgen der Partialsummen der beiden Reihen n=0 |an + bn | und ∞ n=0 |can | sind also nach oben beschränkt und Satz 4.(b) folgt Konvergenz dieser Reihen, also Pdie Pmit ∞ ∞ die absolute Konvergenz von n=0 (an + bn ) und n=0 (can ). Setzen wir in der Reihe ∞ X q nq n = (1 − q)2 n=1 beispielsweise q = 1/2 ein, so ergibt sich ∞ 1 X n 1 2 3 4 5 2 = + + + + + · · · = = 2. n 1 2 2 2 4 8 16 32 1 − n=1 2 P P∞ a und Falls beide Reihen ∞ n n=0 n=0 bn nur konvergent aber nicht absolut konvergent sind, so kann das Cauchyprodukt der beiden Reihen tatsächlich divergent sein. Beispielsweise ist die Reihe ∞ X (−1)n √ n+1 n=0 nach dem Leibniz Kriterium Satz 7 konvergent. Das Cauchyprodukt dieser Reihe mit sich selbst ist für n ∈ N gegeben durch n n X X 1 (−1)k (−1)n−k n √ √ p = (−1) · . cn := n−k+1 k+1 (k + 1)(n − k + 1) k=0 k=0 Sind n, k ∈ N mit 0 ≤ k ≤ n, so haben wir (k + 1)(n − k + 1) = d.h. |cn | = n 2 +1− n X 2 −k n n · +1+ −k 2 2 n 2 n 2 n 2 = +1 − −k ≤ +1 , 2 2 2 1 p k=0 n (k + 1)(n − k + 1) 171 ≥ n X n k=0 2 1 2(n + 1) = +1 n+2 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 und somit ist (cn )n∈N nicht einmal eine Nullfolge. Eine letzte überraschende Tatsache wollen wir hier noch festhalten, aber nicht beweisen. Wie gesehen kann das Cauchyprodukt zweier konvergenter Reihen divergent sein, wenn es aber konvergent ist, so muss es immer gegen den richtigen Wert, also das Produkt der beiden Ausgangsreihen, konvergieren. $Id: lgs.tex,v 1.20 2016/12/12 10:51:21 hk Exp $ §6 Lineare Gleichungssysteme Vorlesung 16, Freitag 16.12.2016 In diesem Kapitel beginnen wir mit der sogenannten linearen Algebra, und ein guter Einstiegspunkt hierfür sind die linearen Gleichungssysteme. Als einen Algorithmus zur systematischen Lösung derartiger Systeme werden wir das sogenannte Gaußsche Eliminationsverfahren vorstellen. Die meisten anderen rechnerischen Aufgabentypen in der linearen Algebra werden dann auf lineare Gleichungssysteme zurückgeführt oder mit gewissen Varianten des Gaußalgorithmus behandelt. Ein lineares Gleichungssystem ist ein Gleichungssystem der Form a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . am1 x1 + am2 x2 + · · · + a1n xn = b1 + · · · + a2n xn = b2 .. . . = .. + · · · + amn xn = bm . Solche linearen Gleichungssysteme kommen in vielen verschiedenen Kontexten vor, und wir wollen jetzt beispielhaft einige dieser Situationen vorstellen. 1. Angenommen wir haben zwei Geraden g1 , g2 in der Ebene. Für i = 1, 2 sei die Gerade gi durch einen Aufpunkt pi und einen Richtungsvektor ui gegeben, d.h. gi = {pi + t · ui |t ∈ R}. Wir wollen den Schnittpunkt g1 ∩ g2 der beiden Geraden berechnen. Für i = 1, 2 liegt ein Punkt x der Ebene genau dann auf gi wenn es ein t ∈ R mit x = pi + tui gibt, also ist ein solcher Punkt x genau dann Schnittpunkt der beiden Geraden wenn es gleichzeitig t, s ∈ R mit x = p1 +tu1 und x = p2 +su2 gibt. Dann ist auch 172 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 p1 + tu1 = p2 + su2 und in Komponenten ausgeschrieben und etwas umgestellt bedeutet dies u11 t − u21 s = p21 − p11 u12 t − u22 s = p22 − p12 . Dies ist ein lineares Gleichungssystem aus zwei Gleichungen in den beiden Unbekannten t, s. Lösen wir dieses durch t, s so ergibt sich der Schnittpunkt als x = p1 + tu1 . Es kann durchaus vorkommen das das lineare Gleichungssystem überhaupt keine Lösung hat, nämlich wenn die beiden Geraden parallel aber verschieden sind, und es kann auch sein das es mehr als eine Lösung gibt, nämlich wenn die beiden Geraden gleich sind. 2. Angenommen wir haben eine Ebene e und eine Gerade l im dreidimensionalen Raum. Die Ebene sei durch einen Aufpunkt p und zwei Richtungsvektoren u, v gegeben, also e = {p + tu + sv|t, s ∈ R}. Entsprechend sei die Gerade durch einen Aufpunkt q und einen Richtungsvektor w gegeben, also l = {q + tw|t ∈ R}. Wir wollen den Durchschnitt e ∩ l berechnen. Ein Punkt x liegt genau dann in e und l wenn es reelle Zahlen t, s, r ∈ R mit x = p + tu + sv und x = q + rw gibt. zur Bestimmung dieser Punkte x müssen wir also alle Lösungen der Gleichung p + tu + sv = q + rw in den Variablen t, s, r ∈ R finden. Schreiben wir die obige Gleichung für die einzelnen Komponenten hin, und machen eine kleine Umstellung, so ergibt sich das lineare Gleichungssystem u1 t + v1 s − w1 r = q1 − p1 u2 t + v2 s − w2 r = q2 − p2 u3 t + v3 s − w3 r = q3 − p3 aus drei Gleichungen in drei Unbekannten. Es gibt natürlich besere Rechenwege zur Bestimmung von e ∩ l, etwa durch Umformung von e in die Hessesche Normalform, aber uns geht es hier um das lineare Gleichungssystem und nicht um die konkrete Aufgabe. 3. Als ein ähnliches Problem denken wir uns diesmal gleich zwei Ebenen e1 , e2 im dreidimensionalen Raum gegeben, und für i = 1, 2 sei die Ebene ei durch einen Aufpunkt pi und zwei Richtungsvektoren ui , vi gegeben. Zur Berechnung des Schnitts e1 ∩ e2 müssen wir diesmal die Gleichung p1 + au1 + bv1 = p2 + cu2 + dv2 173 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 in den vier Variablen a, b, c, d ∈ R lösen. Ausgeschrieben und etwas umgestellt ergibt sich das lineare Gleichungssystem u11 a + v11 b − u21 c − v21 d = p21 − p11 u12 a + v12 b − u22 c − v22 d = p22 − p12 u13 a + v13 b − u23 c − v23 d = p23 − p13 aus drei Gleichungen in vier Unbekannten. Auch hier gibt es bessere Rechenwege. 4. Lineare Gleichungssysteme entstehen auch bei der numerischen Lösung von Differentialgleichungen. Angenommen wir haben ein zu berechnendes Skalarfeld u auf dem Würfel [0, 10]3 , also anders gesagt eine Funktion u : [0, 10]3 → R. Dabei sei u durch eine Differentialgleichung, also durch eine Gleichung in den Ableitungen der Funktion u, und zusätzliche Randbedingungen gegeben. Ein Ansatz zum numerischen Rechnen ist es den Würfel durch ein diskretes Gitter zu ersetzen, etwa indem das Intervall [0, 10] in jeder der drei Dimensionen mit einer festen Schrittweite unterteilt wird. Um die Funktion u auf den Gitterpunkten zu berechnen, nähert man alle Ableitungen durch gewissen Differenzenquotienten in der gewählten Schrittweite an und ersetzt die Differentialgleichung näherungsweise durch ein lineares Gleichungssystem. Dieses Gleichungssystem hat dann eine Gleichung und eine Unbekannte für jeden Gitterpunkt. Hierbei kommt man sehr schnell auf recht große lineare Gleichungssysteme, haben wir etwa die Schrittweite h = 0, 1, so wird das Intervall [0, 10] in 100 Teile zerlegt und wir haben 1003 = 1000000 Gleichungen in ebensovielen Unbekannten. 5. Als ein letztes Beispiel eines linearen Gleichungssystems wollen wir den sogenannten Pagerang einer Seite im WWW besprechen. Der Pagerang ist eine positive Zahl die die Relevanz der fraglichen Seite messen soll. Wir denken uns alle Seiten im Netz als S1 , . . . , Sn durchnumeriert, dabei ist n eine recht grosse Zahl. Jeder Seite Si soll ein Pagerang P (Si ) > 0 zugeordnet werden. Dabei soll sich die Relevanz der Seite daraus ergeben wieviele andere Seiten einen Link auf sie haben. Schreiben wir für jedes 1 ≤ i ≤ n Bi := {1 ≤ j ≤ n|j 6= i und es gibt einen Link von Seite Sj nach Seite Si } für die Menge aller Seiten die einen Link nach Si haben, so soll sich P (Si ) also aus Bi ergeben. Wir wollen aber nicht einfach die Anzahl aller Links nach Si zählen, Links die von wichtigen Seiten kommen sollten mehr zählen als solche die von unwichtigen Seiten kommen. Welche Seite dabei wichtig ist, wird wiederum durch deren Pagerang beschrieben. Man könnte also daran denken als Pagerang von Si die Summe alle Ränge der nach Si linkenden Seiten zu nehmen. Das ist aber auch problematisch, haben wir etwa eine wichtige Seite Sj in Bi die nur auf wenige andere Seiten verlinkt, so sollte dieser Link mehr zählen als ein Link von einer ebenso wichtigen Seite Sk ∈ Bi die auf sehr viele andere Seiten verweist. 174 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Hierzu betrachtet man die Bedeutung eines von der Seite Sj ausgehenden Links relativ zur Gesamtzahl Lj := Anzahl aller von Sj ausgehenden Links aller Links von Sj . Dabei werden mehrfache Links auf dieselbe Seite nur einmal gezählt und Links von Sj auf sich selbst werden ignoriert. Hat Seite Sj dann den Pagerang P (Sj ), so soll jeder von Sj ausgehende Link die Wichtigkeit“ P (Sj )/Lj ” auf sein Ziel übertragen. Um dann den Pagerang von Si zu ermitteln summieren wir diese Wichtigkeiten alle auf, also P (Si ) = X P (Sj ) . Lj j∈B i So weit so gut, nur ist das leider keine Definition. Haben wir etwa kreisförmig angeordnete Links S1 → S2 → S3 → S4 → S1 , so hängt P (S1 ) von P (S4 ) ab, was wiederum von P (S3 ) abhängt, dieses hängt von P (S2 ) ab, und P (S2 ) hängt schließlich wieder von P (S1 ) ab. Trotzdem funktioniert alles, man muss sich die obige Formel nur nicht als eine Definition sondern als eine Gleichung denken. Schreiben wir die Formel zu X 1 P (Sj ) = 0 P (Si ) − L j j∈B i um, so haben wir damit ein lineares Gleichungssystem in den n Unbekannten P (S1 ), . . . , P (Sn ) und ebenso vielen Gleichungen. Das ist noch nicht ganz das Gleichungssystem das wirklich verwendet wird, aber es kommt nur noch eine kleine Modifikation hinzu. Das dann entstehende lineare Gleichungssystem hat eine bis auf eine willkürliche Normierung eindeutige Lösung und in dieser sind alle P (Si ) tatsächlich positiv. Definition 6.1: Ein lineares Gleichungssystem besteht aus m linearen Gleichungen a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm für die gesuchten n Unbekannten x1 , . . . , xn . Dabei sind die sogenannten Koeffizienten aij und die rechten Seiten bj reelle oder komplexe Zahlen, und auch die Variablen x1 , . . . , xn können reell oder komplex sein. Je nachdem ob reelle oder komplexe Zahlen vorliegen, sprechen wir von einem linearen Gleichunssystem über R oder über C. Wir wollen noch einige Anmerkungen zur Notation machen. Zunächst beache das aij den Koeffizienten vor xj in der i-ten Gleichung 175 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 meint, der erste Index i“ ist also der Zeilenindex der sagt welche der Einzelgleichungen ” gemeint ist und der zweite Index j“ ist der Spaltenindex der angibt auf welche Variable ” wir uns hier beziehen. Dieser Konvention werden wir, soweit sinnvoll, auch bei anderen Arten solcher doppelt indizierten Größen aij folgen, der erste Index ist der Zeilenindex und der zweite Index der Spaltenindex. Eine Lösung des obigen Gleichungssystems (*) gibt für jede der Variablen x1 , . . . , xn einen reellen oder komplexen Wert an unter dem alle Gleichungen aus (*) erfüllt sind, und um eine solche Lösung hinzuschreiben geben wir entweder die Zuweisungen explizit an, beispielsweise x1 = 3, . . . , xn = −7“, oder ” wir notieren sie kompakt als ein Tupel (3, . . . , −7). Oft schreiben wir dieses Tupel dann auch vertikal“, in Form eines sogenannten Spaltenvektors“, dies dient aber zunächst ” ” nur der Optik und hat im Kontext dieses Kapitels keine inhaltliche Bedeutung. Die Menge aller Lösungen von (*) nennen wir dann die Lösungsmenge des linearen Gleichungssystems, diese wird immer in der Tupelschreibweise angegeben. Haben wir ein konkretes lineares Gleichungssystem, also auch einen festen Wert für die Anzahl n der Unbekannten, so nennen wir die Variablen bei kleinen n oftmals nicht x1 , . . . , xn sondern geben ihnen eigene Namen. Für die Benennung gibt es dabei keine fixierte Konvention, manchmal ergibt sich eine natürliche Benennung“ aus ” der sonstigen Aufgabenstellung, manchmal kann man rein willkürlich gewählte Namen verwenden. In diesem Skript und in den Übungsaufgaben werden wir im Fall n = 2 meist x, y oder s, t nehmen, im Fall n = 3 zumeist x, y, z und für n = 4 in der Regel x, y, u, v. Bevor wir an die Lösung linearer Gleichungssysteme gehen, ist es hilfreich eine kompakte Schreibweise für diese einzuführen. Definition 6.2 (Reelle und komplexe Matrizen) Eine m × n Matrix A über K ∈ {R, C} ist ein rechteckiges Schema a11 · · · a1n .. A = ... . am1 · · · amn bestehend aus m Zeilen von je n Elementen von K. Ist dabei m = n, so spricht man auch von einer quadratischen Matrix. Wir können jetzt ein lineares Gleichungssystem wie unser obiges (∗) als eine Matrix schreiben, indem nur noch die Koeffizienten und die rechte Seite des Systems hingeschrieben werden. Hierbei gehen die Bezeichungen der Unbekannten verloren, aber diese spielen innerhalb der Rechnungen sowieso keine Rolle. Definition 6.3: Sei (∗) das lineare Gleichungssystem aus Definition 1. Dann nennt man die Matrix a11 · · · a1n .. A = ... . am1 · · · amn 176 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 die Koeffizientenmatrix des linearen Gleichungssystems (∗). Weiter heißt die Matrix a11 · · · a1n b1 .. .. A0 = ... . . am1 · · · amn bm die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (∗). Gelegentlich wird die rechte Seite des Gleichungssystems in der erweiterten Koeffizientenmatrix durch einen senkrechten Strich von den Koeffizienten getrennt, also a11 · · · a1n b1 .. .. , .. . . . am1 · · · amn bm dies hat dann aber keine inhaltliche Bedeutung, sondern dient nur der Optik. Wir wollen uns jetzt auch noch ein erstes konkretes Beispiel eines linearen Gleichungssystems anschauen, nämlich das folgende System von vier Gleichungen in vier Unbekannten: x + 2y − u + v = 1 x + 2y + u − v = −3 −x + 2y + 3u − v = 1 3x − u = 0 Koeffizientenmatrix A und erweiterte Koeffizientenmatrix A0 dieses Gleichungssystems entstehen dann indem wir alle redundanten Symbole, also Plus/Minus-Zeichen, Gleichheitszeichen und Unbekannte weglassen, sie sind also die 4 × 4 beziehungsweise 4 × 5 Matrix 1 2 −1 1 1 2 −1 1 1 1 2 1 −1 1 −1 −3 , A0 = 1 2 . A= −1 2 3 −1 −1 2 3 −1 1 3 0 −1 0 3 0 −1 0 0 Auf einige Randfälle wollen wir besonders hinweisen: 1. Einzeln stehende Variablen werden in der Koeffizientenmatrix zu 1“, da bei” spielsweise das x“ in der ersten Gleichung als 1 · x gelesen werden kann. ” 2. Subtraktionen im Gleichungssystem werden als Addition mit dem entsprechenden negativen Vielfachen aufgefasst, so wird beispielsweise das −u“ in der ersten ” Gleichung zu −1“ in der Koeffizientenmatrix. ” 3. Nicht vorkommende Variablen in einer der Gleichungen denken wir uns als Null mal die entsprechende Variable dazu, beispielsweise führt das fehlende y in der vierten Gleichung in der Koeffizientenmatrix zu einer 0“ in der zweiten Spalte ” der vierten Zeile. 177 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Sehr kleine lineare Gleichungssysteme mit n = 2 oder n = 3 Unbekannten kann man einfach durch schrittweises Eliminieren der Unbekannten lösen, sind die Unbekannten etwa x, y und haben wir zwei Gleichungen, so nehmen wir eine der beiden Gleichungen um y durch x auszudrücken, setzen das Ergebnis für y in die andere Gleichung ein, lösen diese nach x auf, und berechnen hieraus schließlich y. Dieses Verfahren wird aber schon ab n = 4 Unbekannten unpraktisch. Das Gleichungssystem im obigen Beispiel wäre noch gerade ausreichend klein um direkt durch schrittweises Eliminieren der Unbekannten gelöst zu werden, wir wollen aber lieber ein systematisches, allgemein verwendbares, Lösungsverfahren haben. Als ein solches werden wir das sogenannte Gaußsche Eliminationsverfahren“ verwenden. Dieses Verfahren beruht darauf ein ge” gebenes lineares Gleichungssystem von allgemeiner Form in ein äquivalentes System von sehr spezieller Gestalt umzuformen. Diese speziellen linearen Gleichungssysteme sind die linearen Gleichungssysteme die in der sogenannten Stufenform“ vorliegen: ” a11 x1 + · · · + a1i xi + · · · + a1j xj + · · · = b1 a2i xi + · · · + a2j xj + · · · = b2 a3j xj + · · · = b3 .. . . = .. mit a11 6= 0, a2i 6= 0, a3j 6= 0 und so weiter. In jeder Gleichung kommen also von links gesehen immer weniger der Unbekannten vor. Ein konkretes Beispiel für ein solches Gleichungssystem mit m = 2 Gleichungen und n = 4 Unbekannten ist x+y + u−v = 1 u + v = 2, hier haben wir die beiden unterstrichenen Stufen der Länge 2. Wir lösen ein System in Stufenform indem wir von unten nach oben gehend jeweils eine Gleichung benutzen, die in dieser Gleichung am weitesten links stehende Variable mit von Null verschiedenen Koeffizienten festzulegen. In anderen Worten benutzen wir für die Systeme in Stufenform eine einfache, schrittweise Elimination von Variablen, bei Systemen in Stufenform ist diese aber wesentlich einfacher als für ein allgemeines lineares Gleichungssystem, da von jedem Einsetzungsschritt immer nur Variablen weiter rechts betroffen sind. Im Beispiel ergibt die zweite Gleichung u = 2 − v und die Variable u ist festgelegt. An die andere Variable sind keine Bedingungen gestellt. Setzen wir u = 2 − v in die erste Gleichung ein, so wird diese zu x + y + 2 − v − v = 1, also x = −1 − y + 2v, d.h. durch diese Gleichung wird x festgelegt und an y gibt es keine Bedingungen. Für die Lösungsmenge ist es nun praktisch, die frei gebliebenen Variablen y und v in t und s umzutaufen. Die Lösungsmenge ist dann 1 − s + 2t s s, t ∈ R . 2 − t t 178 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Wie schon angekündigt schreiben wir die einzelnen Lösungen dabei in Tupelform, hier in vertikaler Form als einen sogenannten Spaltenvektor, also als eine 4 × 1 Matrix deren vier Einträge von oben nach unten für x, y, u, v stehen. Weiter haben wir das lineare Gleichungssystem über K = R interpretiert, wollen wir es als ein komplexes Gleichungssystem auffassen, so muss t, s ∈ R“ durch t, s ∈ C“ ersetzt werden. In ” ” einem linearen Gleichungssystem aus r Gleichungen in n Variablen das in Stufenform vorliegt, wird die Lösungsmenge durch n − r freie Variablen beschrieben, die die restlichen r Variablen festlegen. Wenn n = m = r ist, es also keine langen Stufen im System gibt, so ist die Lösung eindeutig. Lange Stufen sind dabei solche, die zwei oder mehr Unbekannte umfassen. Nehmen wir beispielsweise x + 2y − u + v 4y + 2u 2u − 2v 2v = 1 = 2 = −4 = 10 so liefert die vierte Gleichung v = 5, damit wird die dritte zu 2u − 10 = −4, also u = 3, die zweite Gleichung ergibt 4y + 6 = 2, also y = −1 und schließlich mit der ersten Gleichung auch x − 2 − 3 + 5 = 1, also x = 1. Die Lösung von Systemen in Stufenform ist also völlig unproblematisch und zwar sowohl wenn die Lösung eindeutig ist als auch wenn es mehrere Lösungen gibt. Ein allgemeines lineares Gleichungssystem wollen wir lösen, indem wir es in ein äquivalentes System in Stufenform umwandeln. Hierzu verwenden wir die folgenden drei elementaren Transformationen eines linearen Gleichungssystems: 1. Vertauschen zweier Gleichungen. 2. Multiplikation einer der Gleichungen mit einer Zahl c 6= 0. 3. Addition eines Vielfachen einer Gleichung zu einer anderen Gleichung. Offenbar verändert keine dieser drei Transformationen die Lösungsmenge des linearen Gleichungssystems. Die Operation (2) wird dabei nicht wirklich benötigt, wir können sie beispielsweise dazu benutzen in der Stufenform zusätzlich a11 = a2i = a3j = · · · = 1 anzunehmen, was gelegentlich bequem ist. In Termen der erweiterten Koeffizientenmatrix werden diese drei Operationen zu 1. Vertauschen zweier Zeilen. 2. Multiplikation einer Zeile mit einer Zahl c 6= 0. 3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile. Diese drei Transformationen einer Matrix werden auch als elementare Zeilenumformungen bezeichnet. Das schon angekündigte Gaußsche Eliminationsverfahren, oft auch als 179 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Gauß-Algorithmus bezeichnet, wendet diese drei elementaren Umformungen systematisch auf ein gegebenes lineares Gleichungssystem an, um es in ein System in Stufenform zu überführen. Wir wollen das Eliminationsverfahren zunächst am obigen Beispiel des linearen Gleichungssystems mit der erweiterten Koeffizientenmatrix 1 2 −1 1 1 1 2 1 −1 −3 −1 2 3 −1 1 3 0 −1 0 0 durchführen. Das Verfahren startet hier indem wir Vielfache der ersten Zeile zu den anderen drei Zeilen addieren, und zwar so, dass der neue Eintrag in der ersten Spalte dieser drei Gleichungen zu Null wird. Ziehen wir die erste Zeile von der zweiten ab, so erhalten wir ganz links in der zweiten Zeile tatsächlich eine Null. Beachte dabei das ein Abziehen der ersten Zeile von der zweiten auch als Addition des (−1)-fachen der ersten Zeile zur zweiten gedeutet werden kann. Entsprechend müssen wir die erste Zeile zur dritten Zeile addieren, und das dreifache der ersten Zeile von der vierten Zeile abziehen. Mit diesen drei elementaren Zeilenumformungen wird unsere erweiterte Koeffizientenmatrix zu 1 2 −1 1 1 1 2 −1 1 1 1 2 1 −1 −3 0 2 −2 −4 −→ 0 . −1 2 0 3 −1 1 4 2 0 2 3 0 −1 0 0 0 −6 2 −3 −3 Damit sind wir der Stufenform ein Stück näher gekommen. Nun würden wir gerne mit der zweiten Zeile so fortfahren, also Vielfache der zweiten Zeile zur dritten und vierten addieren so, dass wir in der dritten und vierten Zeile zwei führende Nullen bekommen. Leider geht dies nicht sofort, da der zweite Eintrag der zweiten Zeile ja selbst eine Null ist. Dies können wir aber leicht beheben, wir benutzen die erste unserer elementaren Zeilenumformungen um die zweite und die dritte Zeile der Matrix miteinander zu vertauschen 1 2 −1 1 1 1 2 −1 1 1 0 0 2 −2 −4 4 2 0 2 −→ 0 . 0 0 4 2 0 2 0 2 −2 −4 0 −6 2 −3 −3 0 −6 2 −3 −3 Danach kann es weitergehen, um auch der vierten Zeile eine zweite Null zu geben, muss nur noch das 3/2-fache der zweiten Zeile zur vierten addiert werden 1 2 −1 1 1 1 2 −1 1 1 0 4 2 0 2 2 0 2 −→ 0 4 . 0 0 0 0 2 −2 −4 2 −2 −4 0 −6 2 −3 −3 0 0 5 −3 0 180 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Damit ist die Stufenform schon beinahe erreicht. Wir müssen nur noch als letzten Schritt das 5/2-fache der dritten Zeile von der vierten abziehen und erhalten 1 2 −1 1 1 1 2 −1 1 1 0 4 2 0 2 2 0 2 . −→ 0 4 0 0 0 0 2 −2 −4 2 −2 −4 0 0 0 2 10 0 0 5 −3 0 Damit haben wir unser lineares Gleichungssystem in Stufenform gebracht. Tatsächlich ist das erhaltene System in Stufenform gerade x + 2y − u + v 4y + 2u 2u − 2v 2v = 1 = 2 = −4 = 10 und dies war unser zweites Beispiel eines linearen Gleichungssystems in Stufenform. Die eindeutige Lösung dieses Gleichungssystems hatten wir bereits als x = 1, y = −1, u = 3, v = 5 berechnet. Wir wollen nun noch ein zweites Beispiel durchrechnen. Wir betrachten das folgende lineare Gleichungssystem x + y + z=1 2x − y + 3z = 0 5x − y + 7z = b. wobei b ∈ R eine Konstante ist. Hier beginnt das Eliminationsverfahren, indem wir das doppelte der ersten Zeile von der zweiten Zeile abziehen und anschließend das fünffache der ersten Zeile von der dritten Zeile abziehen 1 1 1 1 1 1 1 1 2 −1 3 0 −→ 0 −3 1 −2 . 5 −1 7 1 0 −6 2 b − 5 Jetzt wird das doppelte der zweiten Zeile von der dritten Zeile abgezogen, und es entsteht 1 1 1 1 1 1 1 1 0 −3 1 −2 −→ 0 −3 1 −2 . 0 −6 2 b − 5 0 0 0 b−1 Die unterste Zeile der Koeffizientenmatrix besteht jetzt nur noch aus Nullen, und die Elimination ist beendet. Was jetzt passiert hängt von der Konstanten b ab. Ist b − 1 6= 0, also b 6= 1, so ist die unterste Gleichung nicht erfüllbar, denn diese bedeutet ausgeschrieben ja 0 · x + 0 · y + 0 · z = b − 1 6= 0. 181 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Das lineare Gleichungssystem hat in diesem Fall also keine Lösung. Dass ein lineares Gleichungssystem nicht lösbar sein muss, sollte keine Überraschung sein, wir hatten als ein Beispiel zu Beginn dieses Kapitels den Schnitt einer Ebene mit einer Gerade als lineares Gleichungssystem ausgedrückt, und ist die Gerade zufällig parallel zur Ebene, so hat dieses System halt keine Lösung. Ist im Beispiel dagegen b = 1, so können wir die unterste Zeile ignorieren, diese besagt ja nur noch 0 = 0, und haben ein System in Stufenform. Die untere Zeile des verkleinerten Systems gibt dann 1 2 −3y + z = −2 =⇒ y = z + 3 3 also eingesetzt in die erste Gleichung x=1−y−z = 1 4 − z. 3 3 In der Beschreibung der Lösungsmenge verwenden wir diesmal z = 3t mit t ∈ R und haben 1 3 − 4t 2 + t t ∈ R 3 3t als die Lösungsmenge des linearen Gleichungssystems. Das Gaußsche Eliminationsverfahren für ein lineares Gleichungssystem aus m Gleichungen in n Variablen läuft damit prinzipiell in drei Phasen ab: 1. Bringe das gegebene lineare Gleichungssystem von oben beginnend in Stufenform indem die Einträge der weiter unten liegenden Zeilen in der gerade betrachteten Spalte durch Addition geeigneter Vielfacher der oberen Zeile auf Null gebracht werden. 2. In der Koeffizientenmatrix des so entstandenen linearen Gleichungssystems seien die ersten r ≤ m Zeilen von Null verschieden. Es gibt zwei verschiedene Möglichkeiten: (a) Ist r < m, sind also unten in der Koeffizientenmatrix nur aus Nullen bestehende Zeilen entstanden, und ist die rechte Seite einer dieser Nullzeilen von Null verschieden, so hat das lineare Gleichungssystem keine Lösung. In diesem Fall sind wir an dieser Stelle fertig. (b) Andernfalls ist entweder r = m oder in jeder Nullzeile ist auch die rechte Seite Null. Dann ignorieren wir die unteren m − r Zeilen und erhalten ein lineares Gleichungssystem aus r Gleichungen in n Unbekannten das in Stufenform ist. In diesem Fall ist unser Gleichungssystem auf jeden Fall lösbar. 3. Löse das entstandene lineare Gleichungssystem in Stufenform von unter her, indem jede der verbliebenen Gleichungen die am weitesten links stehende Unbekannte mit von Null verschiedenen Koeffizienten festlegt, und eventuell verbleibende Unbekannte als freie Parameter behandelt werden. Für r = n haben wir 182 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 eine eindeutige Lösung und für r < n eine Lösungsmenge, die durch n − r Parameter beschrieben wird. Beachte das bei diesem Verfahren immer nur Vielfache einer oben stehenden Zeile zu einer weiter unten stehenden Zeile addiert werden, niemals in die andere Richtung. Auch werden keine Hilfsmultiplikationen“ zur Vermeidung von Brüchen verwendet. ” Damit liegen die einzelnen Rechenschritte weitgehend fest und es nicht nötig, und auch nicht üblich, diese zu vermerken. Werden die elementaren Zeilenumformungen in irgendeiner anderen Reihenfolge verwendet so spricht man nicht vom Gaußschen ” Eliminationsverfahren“. In dieser Form ist das Eliminationsverfahren für die manuelle Bearbeitung linearer Gleichungssysteme moderater Größe geeignet. Außerdem wird es sich für die theoretische Untersuchung linearer Gleichungssysteme völlig beliebiger Größe als günstig erweisen. Zur Implementation auf einem Rechner ist die hier angegebene Form noch etwas ungünstig, da Rundungsfehler sich noch unnötig stark auswirken können. Wie man dies vermeiden kann, ist ein Thema der Numerik und soll hier nicht behandelt werden. Ebenfalls nicht geeignet ist das Verfahren für große“ Systeme, wie ” etwa diejenigen die durch Diskretisierung von Differentialgleichungen entstehen, oder die Pagerang-Gleichung, für solche Gleichungen verwendet man in der Regel spezialisierte Methoden. Will man das Eliminationsverfahren tatsächlich implementieren, so sind, abgesehen von den schon erwähnten numerischen Details, noch zwei weitere Kleinigkeiten zu beachten. Zum einen haben wir den Randfall ignoriert das die erste Unbekannte gar nicht in der Gleichung vorkommt, dass unser lineares Gleichungssystem in den Unbekannten x, y, z also beispielsweise y + z = 1, y − z = 2 ist. Falls dieser Fall vorliegt oder sogar die ersten Variablen x1 , . . . , xs nur mit den Koeffizienten Null auftreten, so führen wir den Gaußschen Algorithmus zunächst mit den verbleibenden Variablen durch und falls dieses lösbar ist so fügen wir x1 , . . . , xs der Beschreibung der Lösungsmenge als freie Parameter hinzu. Andere solche nicht vorkommenden Variablen die nicht gerade am Anfang stehen bereiten dagegen keine Probleme, da diese einfach die jeweiligen Stufen des äquivalenten Systems in Stufenform verlängern. Derartige lineare Gleichungssysteme können durchaus vorkommen wenn das lineare Gleichungssystem als Teilproblem einer größeren Rechnung auftaucht und selbst als Ergebnis einer Rechnung erzeugt wurde. Das zweite Problem ist das der Gaußsche Algorithmus in unserer bisherigen Beschreibung kein Algorithmus im üblichen strikten Sinn ist, da an einigen Stellen willkürliche Wahlen getroffen werden können. Es ist erlaubt und gelegentlich hilfreich einzelne Zeilen während der Rechnung mit von Null verschiedenen Konstanten zu multiplizieren oder zwei Zeilen miteinander zu vertauschen. Auf ersteres kann man dabei verzichten, das Vertauschen von Zeilen ist aber gelegentlich notwendig wenn der Koeffizient der gerade bearbeiteten Spalte in der obersten noch nicht festgelegten Zeile gleich Null ist. Wir sagen das wir den Gaußschen Algorithmus in seiner Standardform durchführen wenn auf die Multiplikation von Zeilen mit Konstanten verzichtet wird und im Falle notwendiger Zeilenvertauschungen 183 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 immer die oberste bearbeitete Zeile mit der am weitesten oben stehenden Zeile mit von Null verschiedenen ersten Koeffizienten vertauscht wird. In der Standardform ist dann jeder Rechenschritt eindeutig festgelegt und es gibt nur einen möglichen Rechenweg. In unserem einführenden Beispiel zum Gaußchen Algorithmus haben wir diese Standardform verwendet. $Id: matrix.tex,v 1.27 2016/12/19 11:58:44 hk Exp $ §7 Matrizen über R und C In §6 hatten wir Matrizen nur als eine kompakte Schreibweise für lineare Gleichungssysteme eingeführt. In diesem Kapitel wollen wir die Matrizen in ihren Status etwas aufwerten, und diverse Möglichkeiten einführen mit ihnen zu rechnen. Zunächst brauchen wir eine Bezeichnung für die Menge aller Matrizen einer gegebenen Größe. Definition 7.1: Seien K ∈ {R, C} und n, m ∈ N mit n, m ≥ 1. Dann bezeichne K m×n die Menge aller m × n Matrizen über K, also aller Matrizen bestehend aus m Zeilen und n Spalten mit Einträgen aus K. Jede reelle Matrix ist natürlich insbesondere eine komplexe Matrix, also Rm×n ⊆ Cm×n und man kann komplexe Matrizen als den allgemeinen Fall auffassen. Manchmal ist es technisch bequem auch m = 0 oder n = 0 zuzulassen, dann wird die Menge K m×n als {0} interpretiert. Weiter nennt man 1 × n Matrizen auch Zeilenvektoren und m × 1 Matrizen werden Spaltenvektoren genannt. Wir werden zwischen diesen beiden meistens keinen Unterschied machen. Sowohl für die Menge K n := K 1×n aller Zeilenvektoren der Länge n als auch für die Menge K m := K m×1 aller Spaltenvektoren der Länge m verwenden wir dasselbe Symbol. Dies ist normalerweise unproblematisch. 7.1 Addition und Multiplikation von Matrizen Die beiden einfachsten Operationen sind die Addition von Matrizen derselben Größe und die Multiplikation mit reellen beziehungsweise komplexen Zahlen. In diesem Zusammenhang nennt man letztere oft auch Skalare“. ” Definition 7.2: Sei K ∈ {R, C} und seien n, m ∈ N\{0}. Sind dann A, B zwei m × n Matrizen a11 · · · a1n b11 · · · b1n .. , B = .. .. A = ... . . . am1 · · · amn bm1 · · · bmn 184 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 so definieren wir die Summe A + B von A und B als a11 + b11 · · · a1n + b1n .. .. A + B := . . . am1 + bm1 · · · amn + bmn Sind weiter c ∈ K ein Skalar und A ∈ K m×n wieder die obige Matrix, so definieren wir das Vielfache c · A durch ca11 · · · ca1n a11 · · · a1n .. . .. := .. c · A = c · ... . . . cam1 · · · camn am1 · · · amn Insbesondere sind die Summen von Zeilen- beziehungsweise Spaltenvektoren gleicher Größe und Produkte von Skalaren mit Zeilen- beziehungsweise Spaltenvektoren definiert. Mit dieser Addition beziehungsweise Multiplikation mit Skalaren haben wir dann die folgenden Rechenregeln: 1. Assoziativgesetz der Addition Für alle m×n Matrizen A, B, C gilt (A+B)+ C = A + (B + C). 2. Kommutativgesetz der Addition Für alle m × n Matrizen A, B gilt A + B = B + A. 3. Existenz des neutralen Elements der Addition Ist 0 ∈ K m×n die Nullmatrix, deren Einträge alle Null sind, so gilt 0 + A = A für jede m × n Matrix A. 4. Existenz additiver Inverser Sind A eine m × n Matrix so gilt (−A) + A = 0 wobei −A := (−1) · A ist. Beachte das wir die Nullmatrix unabhängig von ihrer Größe einfach als 0“ schreiben. ” Diese vier Rechenregeln entsprechen den sich auf die Addition beziehenden ersten vier Körperaxiomen (A1) bis (A4) aus §1.1. Es gibt jetzt einige weitere Rechenregeln über die Multiplikation mit Skalaren und deren Zusammenhang mit der Addition. 1. Assoziativgesetz für die Multiplikation mit Skalaren Für alle Zahlen t, s ∈ K und alle m × n Matrizen A über K gilt (ts) · A = t · (s · A). 2. Eins Für jede m × n Matrix A über K ist 1 · A = A. 3. Distributivgesetze Für alle m × n Matrizen A, B ∈ K m×n und alle Zahlen t, s ∈ K gelten (t + s) · A = t · A + s · A und t · (A + B) = t · A + t · B. 185 Mathematik für Physiker I, WS 2016/2017 Freitag 16.12.2016 Beachte das wir all diese Regeln insbesondere auch auf Zeilen- und Spaltenvektoren anwenden können. Auf explizite Beweise dieser Regeln wollen wir hier verzichten, sie sind allesamt trivial da einfach in jeder Komponente das jeweilige Körperaxiom für R oder C angewandt wird. Man kann Matrizen passender Größe auch miteinander multiplizieren, allerdings wird hierzu nicht die zunächst naheliegende komponentenweise Multiplikation verwendet. Warum die Matrixmultiplikation genau wie folgt definiert ist, und auch genau so definiert werden muss, werden wir erst später in §9.5 im Zusammenhang mit den sogenannten linearen Abbildungen sehen. Definition 7.3: Seien n, m, l ∈ N\{0}. Sind dann A eine m × l Matrix und B eine l × n Matrix jeweils über K ∈ {R, C} b11 · · · b1n a11 · · · a1l .. , .. , B = .. A = ... . . . bl1 · · · bln am1 · · · aml so ist das Produkt c11 · · · c1n .. C := A · B = ... . cm1 · · · cmn die m×n Matrix C, deren Eintrag cij in der i-ten Zeile und der j-ten Spalte (1 ≤ i ≤ m, 1 ≤ j ≤ n) durch l X aik bkj = ai1 b1j + · · · + ail blj cij := k=1 definiert ist. Zwei Matrizen A, B können also nur dann multipliziert werden, wenn die linke Matrix A genausoviele Spalten hat wie die rechte Matrix B Zeilen hat. Die Formel zur Multiplikation zweier Matrizen sieht zunächst etwas bedrohlich aus, ist in Wahrheit aber sehr einfach. Wir wollen einmal ein kleines Beispiel anschauen, betrachte etwa die beiden Matrizen 1 1 0 1 1 −1 1 0 . A= , B= 0 0 1 −2 3 1 1 2 0 −1 Hier sind A eine 2 × 3 und B eine 3 × 4 Matrix, d.h. A und B können multipliziert werden und ihr Produkt ist eine 2 × 4 Matrix. Wie sieht die erste Zeile des Produktes A · B aus? Die Formel für den allerersten Eintrag dieser Zeile lautet c11 = a11 b11 + a12 b21 + a13 b31 = 1 · 1 + (−1) · 0 + 1 · 1 = 2. Übersichtlicher wird dies wenn wir uns die erste Zeile von A zu einer Spalte gedreht denken und diese der ersten Spalte von B gegenüberstellen 1 −1 1 1 0 1. 186 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 Gegenüberliegende Zahlen werden dann miteinander multipliziert, und anschließend wird alles aufaddiert. Der zweite Eintrag der ersten Zeile ergibt sich dann ebenso, nur taucht diesmal auf der rechten Seite die zweite Spalte von B auf, also 1 −1 1 1 0 2, und wir erhalten c12 = 1 + 0 + 2 = 3. Die restlichen Einträge der ersten Zeile von A · B ergeben sich analog. Gehen wir dann zur zweiten Zeile des Produkts über, so müssen wir uns die zweite Zeile der linken Matrix A gedreht denken und stellen diese den Spalten von B gegenüber, also etwa für den Eintrag in der ersten Spalte der zweiten Zeile von A · B −2 1 0 3 1 1. So fortfahrend haben wir dann insgesamt 1 1 0 1 2 3 −1 0 1 −1 1 0 0 1 0 · = . −1 0 3 −3 −2 3 1 1 2 0 −1 Vorlesung 17, Montag 19.12.2016 In der letzten Sitzung haben wir begonnen uns mit der Matrizenrechnung zu beschäftigen und insbesondere haben wir eine Addition und eine Multiplikation von Matrizen eingeführt. Wir wollen nun einige der Rechenregeln für die Matrixmultiplikation festhalten. Dabei sollen alle vorkommenden Matrizen über den reellen oder den komplexen Zahlen definiert sein. Lemma 7.1 (Rechenregeln für Matrizen) Seien K ∈ {R, C} und n, m, p, q ∈ N\{0}. (a) Assoziativgesetz Sind A ∈ K m×p eine m×p, B ∈ K p×q eine p×q und C ∈ K q×n eine q × n Matrix jeweils über K, so gilt (A · B) · C = A · (B · C). (b) Einheitsmatrizen Ist 0 ··· 1 1 ··· .. . . . .. En := = . . 1 0 0 ··· 0 0 ··· {z | 1 0 .. . n Spalten 187 n Zeilen 1 0 0 1 } 0 0 .. . 0 0 .. . Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 die sogenannte n × n Einheitsmatrix, so gelten für jede m × n Matrix A ∈ K m×n über K die Gleichungen A · En = A und Em · A = A. (c) Distributivgesetze Sind A ∈ K m×p eine m × p Matrix und B, C ∈ K p×n zwei p × n Matrizen, so gilt A · (B + C) = A · B + A · C. Sind ebenso A, B ∈ K m×p zwei m×p Matrizen und C ∈ K p×n eine p×n Matrix, so gilt (A+B)·C = A·C +B ·C. (d) Multiplikation mit Skalaren Sind A ∈ K m×p eine m × p Matrix, B ∈ K p×n eine p × n Matrix und c ∈ K ein Skalar, so gilt (cA) · B = A · (cB) = c · (A · B). Beweis: (a) Seien also A, B, C wie in (a) gegeben. Die beiden Produkte (AB)C und A(BC) sind dann zwei m×n Matrizen. Wir müssen einsehen das diese beiden Matrizen in allen ihren Einträgen übereinstimmen. Für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n ergibt sich der Eintrag von (AB)C in der i-ten Zeile und der j-ten Spalte als ! q p q X X X X Ail Blk Ckj Ail Blk Ckj = (AB)ik Ckj = ((AB)C)ij = k=1 k=1 1≤l≤p 1≤k≤q l=1 und auf der anderen Seite haben wir ebenfalls (A(BC))ij = p X p X Ail (BC)lj = Ail l=1 l=1 q X ! Blk Ckj k=1 = X Ail Blk Ckj . 1≤l≤p 1≤k≤q Dies zeigt ((AB)C)ij = (A(BC))ij , und (a) ist bewiesen. (b) Sei A ∈ K m×n gegeben. Dann ist AEn eine m × n Matrix und für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n haben wir n X Aik (En )kj = Aij (AEn )ij = k=1 da (En )kj für k = j gleich 1 ist aber für 1 ≤ k ≤ n mit k 6= j stets Null ist. Damit ist AEn = A und analog ergibt sich auch Em A = A. (c) Seien A ∈ K m×p und B, C ∈ K p×n gegeben. Dann sind A(B + C) und AB + AC beides m × n Matrizen und für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n gilt (A(B + C))ij = p X Aik (B + C)kj = k=1 = p X k=1 p X Aik (Bkj + Ckj ) k=1 p Aik Bkj + X Aik Ckj = (AB)ij + (AC)ij = (AB + AC)ij . k=1 Damit ist A(B + C) = AB + AC und das erste der beiden Distributivgesetze ist bewiesen. Das andere Distributivgesetz folgt analog. 188 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 (d) Seien A ∈ K m×p , B ∈ K p×n und c ∈ K gegeben. Dann sind (cA)B, A(cB) und c(AB) alles m × n Matrizen über K und für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n haben wir ((cA)B)ij = p X (cA)ik Bkj = k=1 p X cAik Bkj = c · k=1 p X Aik Bkj = c(AB)ij = (c(AB))ij k=1 und ebenso (A(cB))ij = p X k=1 cAik (cB)kj = p X Aik cBkj = c · k=1 p X Aik Bkj = c(AB)ij = (c(AB))ij . k=1 Damit ist (cA)B = c(AB) und A(cB) = c(AB). Wir wollen hier noch auf zwei kleine Konventionen hinweisen. Im Lemma haben wir die n × n-Einheitsmatrix 1 .. En = . 1 definiert und die leeren Einträge“ in dieser Matrix werden dabei per Konvention als ” Null interpretiert. Genauso wie wir für die Nullmatrix in jeder Größe einfach Null schreiben, werden wir auch die Einheitsmatrizen En unabhängig von ihrer Größe n einfach als 1“ schreiben. Etwas weitergehend verwenden wir auch die folgende Kon” vention, wenn immer an einer Stelle an der eine n × n Matrix stehen sollte ein Skalar auftaucht, so ist das Produkt dieses Skalars mit der n × n Einheitsmatrix En gemeint, ist beispielsweise A ∈ K n×n und c ∈ K so steht c + A“ für cEn + A“. ” ” Wichtiger noch als die in Lemma 1 aufgeführten Rechenregeln für die Multiplikation von Matrizen, ist es welche Rechenregeln dort nicht stehen. Zum einen ist die Multiplikation von Matrizen nicht kommutativ. Wir haben zum Beispiel 1 1 1 0 2 1 1 1 1 0 1 1 · = 6= = · . 0 1 1 1 1 1 1 2 1 1 0 1 Die Multiplikation verhält sich auch in einer anderen Hinsicht ungewöhnlich. Für reelle oder komplexe Zahlen x, y wissen wir das aus x · y = 0 stets x = 0 oder y = 0 folgt. Für Matrizen ist dies falsch, es gibt sogar von Null verschiedene Matrizen, deren Quadrat gleich Null ist. Beispielsweise gilt für 2 0 1 0 1 0 1 0 1 2 A := auch A = = · = 0, 0 0 0 0 0 0 0 0 hier haben wir also A2 = 0 aber A 6= 0. Hieraus folgt dann auch das es kein mul” tiplikatives Inverses“ zu A geben kann, hätten wir nämlich eine 2 × 2-Matrix B mit BA = E2 so ergibt sich der Widerspruch 0 = B · 0 = B · A2 = (B · A) · A = E2 · A = A 6= 0. 189 Mathematik für Physiker I, WS 2016/2017 7.2 Montag 19.12.2016 Transposition von Matrizen Im letzten Abschnitt hatten wir Addition und Multiplikation von Matrizen passender Größe, sowie die Multiplikation von Matrizen mit Skalaren, also mit reellen oder komplexen Zahlen, eingeführt. Es gibt noch eine weitere, etwas weniger wichtige, Grundrechenoperation für Matrizen, die sogenannte Transposition. Definition 7.4: Sei a11 · · · a1n .. ... A = ... . am1 · · · amn eine m × n Matrix über K ∈ {R, C}. Die Transponierte At von A ist dann die n × m Matrix a11 · · · am1 .. , At := ... . . . . a1n · · · amn über K deren Zeilen gerade die Spalten von A sind. Beispielsweise ist 1 1 −1 0 2 −1 2 4 7 1 = 0 −3 −5 7 11 2 t 2 −3 4 −5 . 7 7 1 11 Auch die Matrixtransposition erfüllt einige einfache Rechenregeln: Lemma 7.2 (Rechenregeln für die Transposition) Seien K ∈ {R, C} und n, m, l ∈ N\{0} drei natürliche Zahlen. (a) Für jede m × n Matrix A über K gilt (At )t = A. (b) Sind A, B zwei m × n Matrizen über K, so gilt (A + B)t = At + B t . (c) Sind A eine m × n Matrix über K und c ∈ K eine Zahl, so gilt (cA)t = cAt . (d) Sind A eine m × l und B eine l × n Matrix über K, so gilt (AB)t = B t At . Beweis: (a,b,c) Diese Aussagen sind klar. (d) Da B t eine n × l und At eine l × m Matrix sind, sind (AB)t und B t At beides n × m Matrizen. Für alle 1 ≤ i ≤ n, 1 ≤ j ≤ m ergibt sich der Eintrag in der i-ten Zeile und der j-ten Spalte zu (B t At )ij = l X k=1 t Bik Atkj = l X Ajk Bki = (AB)ji = (AB)tij , k=1 190 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 d.h. es gilt tatsächlich (AB)t = B t At . 7.3 Lineare Gleichungssysteme als Matrixgleichung Was hat die Matrixmultiplikation nun mit linearen Gleichungssystemen zu tun? Um dies zu sehen, betrachten wir ein lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm und schreiben A für seine Koeffizientenmatrix sowie b1 b := ... bm für seine rechte Seite. Ist weiter x1 x := ... xn der Vektor der n Unbekannten, so können wir x auch als eine n×1 Matrix, also als einen Spaltenvektor, auffassen. Da A eine m × n Matrix ist, ist damit das Matrixprodukt Ax definiert und ergibt eine m × 1 Matrix, also einen Spaltenvektor mit m Einträgen. Diesen Vektor können wir auch leicht ausrechnen a11 x1 + · · · + a1n xn a11 · · · a1n x1 .. .. · .. = Ax = ... , . . . am1 x1 + · · · + amn xn am1 · · · amn xn die m Komponenten des Produkts Ax sind also gerade die linken Seiten unseres linearen Gleichungssystems. Damit kann das gesamte lineare Gleichungssystem (∗) als eine einzelne Matrixgleichung Ax = b interpretiert werden. Wir wollen diese Interpretation nun verwenden, um einige einfache Beobachtungen über die Menge der Lösungen unseres linearen Gleichungssystems zu machen. Um diese auszusprechen ist eine weitere kleine Definition hilfreich. 191 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 Definition 7.5: Das lineare Gleichungssystem (∗) heißt homogen, wenn b = 0 ist, d.h. wenn es die Form + · · · + a1n xn + · · · + a2n xn .. . = 0 = 0 .. . am1 x1 + am2 x2 + · · · + amn xn = 0 a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . hat. Ein homogenes lineares Gleichungssystem hat offenbar immer die Lösung x = 0, also x1 = . . . = xn = 0, die man als die triviale Lösung des linearen Gleichungssystems bezeichnet. Als das zum allgemeinen Gleichungssystem (∗), also Ax = b, gehörige homogene Gleichungssystem bezeichnet man das homogene lineare Gleichungssystem Ax = 0. Ein allgemeines lineares Gleichungssystem Ax = b bezeichnet man dann auch als inhomogen. Beachte das inhomogen“ nur für nicht notwendig homogen“ steht und ” ” nicht die Verneinung von homogen“ bedeutet. ” Satz 7.3 (Homogene und inhomogene Lösungen) Seien n, m ∈ N\{0} und A ∈ K m×n eine m × n Matrix über K. (a) Sind u, v ∈ K n zwei Lösungen des homogenen linearen Gleichungssystems Ax = 0 und c ∈ K eine Zahl, so sind auch u + v und cu Lösungen von Ax = 0. (b) Sei weiter b ∈ K m gegeben. Gibt es dann überhaupt eine Lösung x0 ∈ K n des linearen Gleichungssystems Ax = b, so ist {x0 + u|u ∈ K n , Au = 0} die volle Lösungsmenge von Ax = b, d.h. die Lösungen von Ax = b sind genau die Vektoren der Form x = x0 + u wobei u die Lösungen des zugehörigen homogenen linearen Gleichungssystems durchläuft. Beweis: (a) Aus Au = Av = 0 folgen nach Lemma 1.(c,d) auch A·(u+v) = Au+Av = 0 und A · (cu) = cAu = 0, d.h. auch u + v und cu sind Lösungen von Ax = 0. (b) Ist u eine Lösung des homogenen Systems, gilt also Au = 0, so haben wir nach Lemma 1.(c) auch A · (x0 + u) = Ax0 + Au = Ax0 = b, d.h. x = x0 + u ist eine Lösung von Ax = b. Nun sei umgekehrt x ∈ K n mit Ax = b gegeben. Dann setzen wir u := x − x0 ∈ K n und haben wieder nach Lemma 1.(c,d) auch Au = A · (x − x0 ) = Ax−Ax0 = b−b = 0. Also ist u eine Lösung des homogenen linearen Gleichungssystems und es gilt x = x0 + (x − x0 ) = x0 + u. Hat also insbesondere das zugehörige homogene lineare Gleichungssystem nur die triviale Lösung, so ist das allgemeine lineare Gleichungssystem Ax = b für jede rechte Seite b ∈ K m entweder gar nicht lösbar oder eindeutig lösbar. Oft wird die Aussage (a) 192 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 des Lemmas noch zum Superpositionsprinzip“ verallgemeinert: Sind x1 , . . . , xr ∈ K n ” Lösungen des homogenen linearen Gleichungssystem Ax = 0, und λ1 , . . . , λr ∈ K beliebige Skalare, so ist auch x = λ1 x 1 + · · · + λr x r ein Lösung von Ax = 0. Diese Lösung wird dann oft als eine Linearkombination“, ” beziehungsweise als Superposition“ oder Überlagerung“, der gegebenen Lösungen ” ” x1 , . . . , xr bezeichnet. Auch für Teil (b) gibt es eine oft zu findende Sprechweise. Die vorgegebene Lösung x0 von Ax = b bezeichnet man als eine spezielle Lösung, oder auch als eine Partikularlösung“, des linearen Gleichungssystems Ax = b und damit kann ” (b) als Allgemeine Lösung Spezielle Lösung Allgemeine Lösung = + von Ax = b von Ax = b von Ax = 0 ausgesprochen werden. 7.4 Inverse Matrizen und reguläre lineare Gleichungssysteme Schreiben wir ein lineares Gleichungssystem in der Form Ax = b, so ist es naheliegend dieses durch A auf die andere Seite bringen“ zu lösen, also mit so etwas wie 1/A zu ” multiplizieren, nur gibt es leider keine Quotienten von Matrizen im üblichen Sinne. So etwas läßt sich nur für eine spezielle Sorte von Matrizen einführen, die wir nun definieren wollen. Definition 7.6: Sei n ∈ N mit n ≥ 1. Eine n × n Matrix A über K ∈ {R, C} heißt invertierbar, oder auch regulär, wenn es eine n × n Matrix A−1 über K, genannt die Inverse von A, gibt so, dass A · A−1 = A−1 · A = 1 gelten. Beachte das wir hier A−1 statt 1/A schreiben. Die Bruchschreibweise ist für Matrizen in der Tat nicht sinnvoll. Wollten wir A/B definieren, so könnte dies A · B −1 oder B −1 · A bedeuten, und diese beiden Ausdrücke können durchaus verschieden sein, wir hatten ja bereits bemerkt das die Multiplikation von Matrizen nicht kommutativ ist. Können wir also A/B keine Bedeutung geben, so erscheint auch die Schreibweise 1/A als nicht sinnvoll. Für die Invertierbarkeit einer Matrix A ∈ K n×n reicht es bereits aus, dass es eine Matrix B ∈ K n×n mit AB = 1 oder BA = 1 gibt, eine der beiden Bedingungen in der Definition der inversen Matrix ist also redundant. Diese Tatsache ist etwas diffiziler als sie zunächst erscheint, man kann sie nicht einfach aus den Rechenregeln für Matrizen herleiten. Wir werden dies erst im nächsten Kapitel beweisen können. Beachte weiter, dass es zunächst sein könnte, das es zu einer invertierbaren Matrix A mehrere Matrizen A−1 gibt. Dies wollen wir nun ausschließen. Lemma 7.4 (Grundeigenschaften des Invertierens) Seien n ∈ N mit n ≥ 1 und K ∈ {R, C}. 193 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 (a) Ist A ∈ K n×n invertierbar, so gibt es genau eine Matrix A−1 ∈ K n×n mit AA−1 = A−1 A = 1. (b) Ist A ∈ K n×n invertierbar, so ist auch A−1 invertierbar mit (A−1 )−1 = A. (c) Sind A, B ∈ K n×n invertierbar, so ist auch A · B invertierbar mit (A · B)−1 = B −1 · A−1 . (d) Sind A ∈ K n×n invertierbar und c ∈ K\{0}, so ist auch cA invertierbar mit (cA)−1 = 1 · A−1 . c (e) Ist A ∈ K n×n invertierbar, so ist auch At invertierbar mit (At )−1 = (A−1 )t . (f ) Sind A ∈ K n×n eine beliebige n × n Matrix und B ∈ K n×n invertierbar, so ist A genau dann invertierbar wenn AB invertierbar ist und auch genau dann invertierbar wenn BA invertierbar ist. Beweis: (a) Sei B ∈ K n×n eine weitere Matrix mit AB = BA = 1. Dann haben wir B = 1 · B = (A−1 A)B = A−1 (AB) = A−1 · 1 = A−1 . (b) Klar. (c) Es gilt (AB) · (B −1 A−1 ) = A(BB −1 )A−1 = AA−1 = 1, und analog folgt auch (B −1 A−1 )(AB) = 1. Damit ist AB invertierbar mit (AB)−1 = B −1 A−1 . (d) Mit Lemma 1.(d) rechnen wir (cA) · (c−1 A−1 ) = (c−1 cA) · A−1 = AA−1 = 1, und analog ist auch (c−1 A−1 ) · (cA) = 1. Damit ist cA invertierbar mit (cA)−1 = c−1 A−1 . (e) Mit Lemma 2.(d) erhalten wir At ((A−1 )t ) = (A−1 A)t = 1t = 1 und analog folgt auch ((A−1 )t )At = 1. Damit ist At invertierbar mit (At )−1 = (A−1 )t . (f ) Ist A invertierbar so ist nach (c) auch AB invertierbar. Ist umgekehrt AB invertierbar, so ist nach (c) und (b) auch A = (AB)B −1 invertierbar. Analog ist A auch genau dann invertierbar wenn BA invertierbar ist. Die Aussage (e) des Lemmas erlaubt es uns die Kombination aus Transponieren und Invertieren in einem Symbol A−t := (At )−1 = (A−1 )t zusammenzufassen, zumindest wenn A invertierbar ist. Wir wollen schon hier auf eine weitere kleine Tatsache hinweisen, in Aussage (f) muss die Invertierbarkeit von B gar nicht vorausgesetzt werden, d.h. ist ein Produkt AB zweier n×n Matrizen invertierbar, 194 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 so sind bereits beide Faktoren A, B einzeln invertierbar. Dies können wir an dieser Stelle aber noch nicht beweisen, und kommen erst im nächsten Kapitel hierauf zurück. Wir wenden den Begriff einer invertierbaren Matrix nun auf lineare Gleichungssysteme an und führen hierzu erst einmal den Begriff eines regulären linearen Gleichungssystems ein. Definition 7.7: Ein quadratisches lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn a21 x1 + a22 x2 + · · · + a2n xn .. .. .. . . . an1 x1 + an2 x2 + · · · + ann xn = b1 = b2 .. . = bn heißt regulär, wenn seine Koeffizientenmatrix regulär, also invertierbar, ist. Die regulären linearen Gleichungssystem lassen sich immer eindeutig lösen, und zwar durch Multiplikation mit der inversen Matrix. Satz 7.5 (Reguläre lineare Gleichungssysteme) Ein reguläres lineares Gleichungssystem mit Koeffizientenmatrix A und rechter Seite b hat genau eine Lösung, nämlich x = A−1 b. Beweis: Wegen A · (A−1 b) = (AA−1 )b = 1 · b = b ist A−1 b eine Lösung des linearen Gleichungssystems Ax = b. Ist umgekehrt x ∈ K n mit Ax = b, so gilt auch x = 1 · x = (A−1 A)x = A−1 · (Ax) = A−1 b. Um diesen Satz zur Lösung linearer Gleichungssysteme zu verwenden, benötigen wir noch eine Methode die Inverse einer gegebenen Matrix tatsächlich zu berechnen, sofern sie überhaupt existiert. Wir wollen mit zwei häufig auftretenden Spezialfällen beginnen. Zunächst betrachten wir sogenannte Diagonalmatrizen, das sind quadratische Matrizen die außerhalb der Hauptdiagonale keine von Null verschiedenen Einträge haben, also beispielsweise die Einheitsmatrizen En . Diese Diagonalmatrizen multiplizieren sich auf sehr einfache Weise λ1 µ1 λ 1 µ1 ... ... ... · = . λn µn λ n µn Sind also insbesondere λ1 , . . . , λn ∈ K\{0} alle von Null verschieden, so ist die zugehörige Diagonalmatrix invertierbar mit −1 λ1 ... = λn 195 1 λ1 ... 1 λn . Mathematik für Physiker I, WS 2016/2017 Ein weiterer gut folgende einfache a c Montag 19.12.2016 überschaubarer Fall sind 2 × 2 Matrizen. Wir haben nämlich die Rechnung b d −b ad − bc 0 · = = ad − bc, d −c a 0 ad − bc und ebenso ergibt sich dieses Ergebnis, wenn wir die beiden Matrizen in der anderen Reihenfolge multiplizieren. Damit haben wir die Äquivalenz a b ist invertierbar ⇐⇒ ad − bc 6= 0, c d und in diesem Fall ist a b c d −1 1 = ad − bc d −b −c a . Wie wir in §8.3 einsehen werden gibt es eine solche direkte Formel für die inverse Matrix auch für n × n-Matrizen bei beliebigen n, allerdings ist diese zum praktischen Rechnen höchstens noch für n = 3 geeignet. Wir wollen uns daher nun ein Verfahren überlegen das Invertieren von n × n-Matrizen bei beliebigen n durchzuführen. Angenommen A ist eine invertierbare n × n-Matrix. Sind dann v1 , . . . , vn die Spalten von A−1 so hat die Matrix A · A−1 die Spalten Av1 , . . . , Avn diese müssen also die Spalten der n × nEinheitsmatrix sein. Bezeichnen wir letztere mit e1 , . . . , en , so ist die i-te Spalte vi von A−1 für 1 ≤ i ≤ n also eine Lösung des linearen Gleichungssystems Ax = ei , zur Berechnung von A−1 müssen also n lineare Gleichungssysteme gelöst werden. Im gleich beschriebenen Berechnungsverfahren werden diese alle simultan gelöst. Wir besprechen nun den eben angekündigten Algorithmus zur Berechnung der Inversen einer allgemeinen n × n Matrix, und wollen diesen zugleich am Beispiel der Matrix 1 2 −1 1 1 2 1 −1 A= −1 2 3 −1 3 0 −1 0 durchführen. Dies ist gerade die Koeffizientenmatrix unseres Beispiels zum Gaußschen Eliminationsverfahren in §6. Das Verfahren zum Invertieren dieser Matrix läuft in zwei Schritten ab. 1. Zunächst schreibe A und die 4×4 Einheitsmatrix nebeneinander, also im Beispiel 1 1 −1 3 2 −1 1 2 1 −1 2 3 −1 0 −1 0 196 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 Dann führe das Gaußsche Eliminationsverfahren für die linke Matrix (also für A) durch. Dabei verwende zusätzlich Zeilenumformungen vom Typ 2, also Multiplikation von Zeilen mit Konstanten 6= 0, um den am weitesten links stehenden von Null verschiedenen Eintrag einer jeder Zeile auf Eins zu bringen. Wende dabei simultan genau dieselben Zeilenumformungen auf die rechte Matrix an. Tritt während der Elimination eine lange Stufe auf, so ist die Ausgangsmatrix A nicht invertierbar, und wir können das Verfahren abbrechen. Andernfalls ist die Matrix invertierbar. Wir führen diesen Schritt jetzt im Beispiel durch. Wir beginnen also wieder mit der ersten Zeile. In dieser steht ganz links bereits eine Eins, und wir bringen alle Einträge unterhalb dieser Eins auf Null 1 1 −1 3 2 −1 1 2 1 −1 2 3 −1 0 −1 0 1 0 0 0 0 1 0 0 0 0 1 0 1 2 −1 1 0 0 0 0 2 −2 −→ 0 4 2 0 0 1 0 −6 2 −3 1 −1 1 −3 0 1 0 0 0 0 1 0 0 0 0 1 Dann müssen wir die zweite und die dritte Zeile vertauschen und die neue zweite Zeile anschließend durch 4 teilen 1 2 −1 1 0 0 2 −2 0 4 2 0 0 −6 2 −3 1 −1 1 −3 0 1 0 0 0 0 1 0 0 1 2 −1 1 1 0 0 1 0 2 −→ 0 0 0 2 −2 1 0 −6 2 −3 1 0 0 0 1 0 14 0 4 −1 1 0 0 −3 0 0 1 Jetzt bringen wir die untenstehenden Einträge der zweiten Spalte auf Null. 1 2 −1 1 1 0 1 0 2 0 0 2 −2 0 −6 2 −3 1 0 0 0 1 2 −1 1 1 1 1 0 4 0 0 1 0 4 2 −→ −1 1 0 0 0 0 2 −2 −3 0 0 1 0 0 5 −3 1 0 0 0 1 0 41 0 4 −1 1 0 0 − 32 0 23 1 Jetzt bringe die führende Zwei der dritten Zeile auf Eins 1 0 0 0 2 −1 1 1 1 0 2 0 2 −2 0 5 −3 1 0 0 0 1 2 −1 1 1 1 1 0 1 0 4 0 0 4 2 −→ −1 1 0 0 0 0 1 −1 3 3 −2 0 2 1 0 0 5 −3 1 0 0 0 1 0 14 0 4 − 12 21 0 0 − 32 0 32 1 Schließlich bringe die linke Seite endgültig auf Stufenform 1 0 0 0 2 −1 1 1 1 0 2 0 1 −1 0 5 −3 1 0 0 0 1 2 −1 1 1 1 1 0 4 0 0 1 0 4 2 −→ 1 1 −2 2 0 0 0 0 1 −1 − 32 0 32 1 0 0 0 2 197 1 0 0 0 0 14 0 1 0 0 2 1 − 52 32 1 1 4 − 12 Mathematik für Physiker I, WS 2016/2017 Montag 19.12.2016 und teile die unterste Zeile anschließend durch Zwei 2 −1 1 1 1 0 2 0 1 −1 0 0 2 1 0 0 0 0 0 0 1 2 −1 1 1 1 0 4 0 0 1 0 2 −→ 1 0 0 0 0 1 −1 2 5 3 1 −2 2 1 0 0 0 1 1 1 1 4 − 12 1 4 − 12 1 2 0 0 0 0 14 0 1 0 0 2 − 54 3 4 1 2 Damit ist Schritt Eins für dieses Beispiel beendet. Insbesondere hat sich herausgestellt, dass unsere Koeffizientenmatrix überhaupt invertierbar ist, da keine lange Stufe aufgetreten ist. Damit kommen wir zum zweiten Schritt. 2. Jetzt bringen wir analog zum Vorgehen bei der Gauß-Elimination, nur diesmal von unten nach oben und von rechts nach links gehend, in der linken Matrix alle Einträge außerhalb der Hauptdiagonale auf Null, und führen wieder simultan in der rechten Matrix dieselben Zeilenoperationen durch. Nachdem dies getan ist, steht auf der rechten Seite die gesuchte inverse Matrix. Schauen wir uns auch diesen Schritt im Beispiel an. Wir müssen also zuerst die Spalte ganz rechts betrachten 2 −1 1 1 1 0 2 0 1 −1 0 0 1 1 0 0 0 1 0 0 0 1 0 4 0 0 −→ 1 0 0 0 2 5 3 1 −4 4 2 0 1 1 4 − 12 1 2 5 4 − 34 − 12 1 0 0 4 1 2 1 4 2 −1 0 1 1 0 2 0 1 0 0 0 1 0 − 34 1 − 54 2 3 4 3 4 1 2 1 2 Nun wird auch die dritte Spalte oben auf Null gebracht 1 0 0 0 2 −1 0 1 1 0 2 0 1 0 0 0 1 1 2 1 4 5 4 − 34 − 21 1 0 0 4 3 4 3 4 0 − 34 1 − 54 2 1 0 −→ 0 0 1 2 1 2 2 1 0 0 0 0 1 0 0 0 0 1 1 2 1 4 0 1 2 1 2 3 8 − 34 − 54 0 0 − 18 3 4 3 4 − 14 1 2 1 2 Als letzter Schritt wird nun die zweite Spalte bearbeitet 1 0 0 0 2 1 0 0 0 0 1 0 0 0 0 1 1 2 1 4 0 1 2 1 2 3 8 − 34 − 54 0 0 − 18 − 14 3 4 3 4 1 2 1 2 1 0 −→ 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 − 14 1 4 0 1 2 3 8 − 34 − 54 1 4 − 18 3 4 3 4 1 2 − 14 1 2 1 2 Als inverse Matrix haben wir in diesem Beispiel damit −1 0 − 1 1 1 1 2 −1 1 0 −2 2 4 4 4 2 1 3 1 2 − 18 − 41 1 −1 2 3 −1 −2 1 4 8 = . = 3 1 3 −1 2 3 −1 0 −6 6 4 8 0 −4 4 2 3 0 −1 0 4 −10 6 4 1 5 3 1 − 2 4 4 198 2 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Die erste Phase des Verfahrens löst wie angekündigt gleich n lineare Gleichungssysteme simultan indem die n vielen rechten Seiten dort als die rechte Matrix“ verwendet ” werden. Wir könnten dann die Spalten der inversen Matrix wie beim Gaußschen Eliminationsverfahren durch Einsetzen von unten nach oben berechnen, da man dies aber gleich n Mal durchführen müsste werden stattdessen in der zweiten Phase weitere Zeilenumformungen verwendet nach denen die Lösung jeweils direkt auf der rechten Seite steht. Wollen wir erneut das lineare Gleichungssystem x + 2y − u + v = 1 x + 2y + u − v = −3 −x + 2y + 3u − v = 1 3x − u = 0 aus §6 lösen, so können wir die eben berechnete inverse Matrix verwenden, um mit Satz 5 direkt die Lösung des Gleichungssystem zu erhalten 0 −2 2 4 1 8 1 1 2 3 −1 −2 · −3 = 1 −8 = −1 , x= 6 4 1 8 24 3 8 0 −6 4 −10 6 4 0 40 5 und dies ist wieder die Lösung, die wir schon damals berechnet hatten. Man sollte allerdings die praktische Bedeutung inverser Matrizen für das Lösen linearer Gleichungssysteme nicht überschätzen. Unser Verfahren zur Berechnung von A−1 erfordert ungefähr den drei- bis vierfachen Aufwand im Vergleich zum Gaußschen Eliminationsverfahren. Selbst wenn mehrere Gleichungssysteme mit derselben Koeffizientenmatrix zu lösen sind, ist das Eliminationsverfahren effektiver, da der Hauptteil des Algorithmus sich nur auf die Koeffizientenmatrix bezieht, und wir die Wirkung auf die rechte Seite einmal bestimmen und dann immer wieder anwenden können. $Id: det.tex,v 1.26 2017/01/13 14:27:14 hk Exp $ §8 Determinanten Vorlesung 18, Montag 9.1.2017 Wir kommen jetzt zum Begriff der Determinante. Determinanten sind merkwürdigerweise über hundert Jahre älter als Matrizen, und sie wurden auch ursprünglich nicht 199 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 im Zusammenhang mit linearen Gleichungssystemen eingeführt, sondern bei der Behandlung von Polynomgleichungen n-ten Grades. Der Name Determinante“ kommt ” dagegen aus ihrer Verwendung im Zusammenhang mit linearen Gleichungssystemen, und wir wollen erst einmal erwähnen was hier eigentlich determiniert“ wird. Ange” nommen wir haben eine quadratische Matrix A über den reellen oder den komplexen Zahlen. Wie wir noch sehen werden können dann zwei verschiedene Fälle auftreten, entweder ist das lineare Gleichungssystem Ax = b für jede rechte Seite b eindeutig lösbar oder es ist niemals eindeutig lösbar und es gibt sowohl rechte Seiten b für die Ax = b nicht lösbar ist als auch rechte Seiten b für die Ax = b mehrere verschiedene Lösungen hat, man nennt dieses Verhalten linearer Gleichungssysteme manchmal auch die Fredholm-Alternative“. Ersteres tritt genau dann auf wenn die Determinante von ” A von Null verschieden ist und letzteres genau dann wenn sie gleich Null ist. In diesem Sinne bestimmt, also determiniert, die Determinante von A also das Lösbarkeitsverhalten linearer Gleichungssysteme mit der Koeffizientenmatrix A. Die Determinante einer n × n Matrix A über K = R oder K = C ist eine Zahl det A ∈ K. Alternativ wird oft auch |A| anstelle von det A geschrieben. Wird dabei A direkt in Matrixform (...) hingeschrieben, so läßt man die Klammern um die Matrix in der Schreibweise |A| üblicherweise fort, schreibt also etwa 1 2 1 3 für die Determinante det A der Matrix A= 1 2 1 3 . Beachte das die Determinante nur für quadratische Matrizen definiert wird. Bevor wir zur Definition der allgemeinen Determinante kommen, wollen wir sie zunächst in den drei kleinen Fällen n = 1, 2, 3 explizit hinschreiben. Für 1 × 1 Matrizen ist die Determinante einfach der eine Eintrag der Matrix, also det(a) = a für a ∈ K. Die Determinante einer 2 × 2 Matrix wird durch die Formel a b c d := ad − bc definiert. Beachte das uns der Ausdruck ad − bc bereits in §7 in der Formel a b c d −1 1 = ad − bc d −b −c a für die Inverse eine 2 × 2 Matrix begegnet ist. Dies ist kein Zufall, wie wir sehen werden gibt es auch für n × n Matrizen eine direkte Formel für die Einträge der inversen Matrix A−1 in Termen gewisser Determinanten. Für n > 3 ist diese Formel allerdings 200 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 für praktische Zwecke nur selten hilfreich. Wir kommen nun zur Determinante einer 3 × 3 Matrix, und diese Formel ist bereits merklich komplizierter a11 a12 a13 a21 a22 a23 := a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 . a31 a32 a33 Es ist populär sich diese Formel mit Hilfe der sogenannten Regel von Sarrus zu merken. Hierzu schreibt man sich die ersten beiden Spalten der 3 × 3 Matrix noch einmal rechts neben die Matrix. Dann bildet man die drei Dreierprodukte entlang der drei Diagonalen von links nach rechts und addiert diese. Anschließend bildet man die Dreierprodukte auf den drei Gegendiagonalen von rechts nach links und zieht diese von der zuvor gebildeten Summe ab. Die so erhaltene Zahl ist die Determinante der Matrix. − a11 a12 a13 a11 a12 a21 a22 a23 a21 a22 a31 a32 a33 a31 a32 − − + + + Natürlich sind Sie nicht verpflichtet die Regel von Sarrus zu verwenden, mit etwas Konzentration und ein wenig Übung ist es leicht sich die beiden verdoppelten Spalten im Kopf zu denken, ohne sie extra hinzuschreiben. Allerdings ist es am besten die Regel von Sarrus gleich wieder zu vergessen, sie stellt sich als die mit Abstand umständlichste Methode zur Berechnung der Determinante einer 3 × 3 Matrix heraus. Für n = 2 und n = 3 hat die Determinante auch eine direkte geometrische Bedeutung. Die Determinante einer 2 × 2 Matrix, beziehungsweise genauer ihr Betrag, ist die Fläche des von den beiden Spalten, oder Zeilen, aufgespannten Parallelograms. Entsprechend ist der Betrag der Determinante für n = 3 gleich dem Volumen des von den drei Spalten aufgespannten Parallelepipeds, dies ist das dreidimensionale Analogon zum Parallelogram und wird oft auch als ein Spat“ bezeichnet. Wir werden ” diese geometrischen Interpretationen aber erst etwas später in diesem Semester begründen. Entsprechend kann dann auch die Determinante in höheren Dimensionen als ein n-dimensionales Volumen aufgefasst werden. Bevor wir die exakte Definition dieser höherdimensionalen Determinanten behandeln, wollen wir hier nur erwähnen das die Sarrus-Regel sich nicht auf die Determinante von quadratischen Matrizen mit n ≥ 4 Zeilen und Spalten fortsetzt, beispielsweise ist die Determinante einer 4 × 4 Matrix eine Summe aus 24 Summanden und nicht nur von 8 wie es die Sarrus Regel erwarten ließe. 8.1 Die symmetrische Gruppe Um die Determinante für größere Matrizen zu definieren, benötigen wir den Begriff einer Permutation. Ist n ∈ N eine natürliche Zahl, so ist eine Permutation der Zahlen 1, 2, . . . , n definiert als eine bijektive Abbildung π : {1, . . . , n} → {1, . . . , n}. Bezeichnet 201 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Sn die Menge all dieser Permutationen, so notieren wir ein Element π ∈ Sn als das Tupel [π(1), . . . , π(n)] seiner Werte, so steht beispielsweise π = [4, 1, 3, 5, 2] für die Bijektion π(1) = 4, π(2) = 1, π(3) = 3, π(4) = 5, π(5) = 2. Da die Hintereinanderausführung zweier bijektiver Abbildungen wieder bijektiv ist, können wir für π, η ∈ Sn ein Produkt π · η := π ◦ η als die Hintereinanderausführung von π und η definieren. Ist zum Beispiel π wie oben und η = [5, 4, 3, 2, 1] so ist das Produkt τ := π · η durch τ (1) = π(η(1)) = π(5) = 2, τ (2) = π(η(2)) = π(4) = 5, τ (3) = π(η(3)) = π(3) = 3, τ (4) = π(η(4)) = π(2) = 1, τ (5) = π(η(5)) = π(1) = 4 gegeben, also τ = [2, 5, 3, 1, 4]. Diese Multiplikation erfüllt dann einige Rechenregeln: (G1) Das Assoziativgesetz π · (η · τ ) = (π · η) · τ für alle π, η, τ ∈ Sn . Dies ist nur ein Spezialfall des allgemeinen Assoziativgesetzes der Hintereinanderausführung aus §2.Lemma 1. (G2) Es gibt ein neutrales Element der Multiplikation, nämlich die identische Abbildung 1 := idM . Diese erfüllt 1 · π = π · 1 = π für alle π ∈ Sn . (G3) Jedes π ∈ Sn hat ein multiplikatives Inverses π −1 ∈ Sn mit π −1 · π = π · π −1 = 1. Nach §2.Lemma 3 ist π −1 nämlich gerade die Umkehrabbildung zu π. Man bezeichnet diese drei Eigenschaften als die Gruppenaxiome und nennt Sn eine Gruppe. Wir sind hier nicht abstrakt an den Gruppenaxiomen interessiert, aber drei Folgerungen aus diesen werden für uns sehr wichtig sein. 1. Ist η ∈ Sn und durchläuft π die Elemente von Sn , so durchläuft das Produkt η · π ebenfalls genau alle Elemente von Sn . Etwas formaler gesagt, ist die Abbildung f : Sn → Sn ; π 7→ η · π bijektiv. In der Tat, um einzusehen das f bijektiv ist, ist einzusehen das es für jedes τ ∈ Sn genau ein π ∈ Sn mit τ = η · π gibt, und die Gruppenaxiome sagen uns das π = η −1 · τ dieses eindeutige Element von Sn ist. 2. Analog ist für jedes η ∈ Sn auch die Abbildung g : Sn → Sn ; π 7→ π · η bijektiv. 3. Auch die Abbildung h : Sn → Sn ; π 7→ π −1 ist bijektiv und wegen (π −1 )−1 = π für alle π ∈ Sn gleich ihrer eigenen Umkehrabbildung. 202 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Man kann sich die symmetrische Gruppe Sn alternativ auch als die Menge aller möglichen Anordnungen der Zahlen 1, . . . , n vorstellen. Ist nämlich π ∈ Sn eine Permutation, so kommt in der Liste π(1), π(2), . . . , π(n) jede Zahl zwischen 1 und n genau einmal vor, die Liste ist also eine Anordnung der Zahlen 1, . . . , n. Haben wir umgekehrt eine solche Liste k1 , . . . , kn in der jede Zahl zwischen 1 und n genau einmal vorkommt, so können wir durch π(i) := ki für i = 1, . . . , n eine zugehörige Permutation definieren. Schauen wir uns dies einmal an einem Beispiel mit n = 4 an. Die Anordnung π: 4, 3, 2, 1 entspricht der durch π(1) = 4, π(2) = 3, π(3) = 2 und π(4) = 1 gegebenen Permutation, denn 4 ist das erste Element in unserer Aufzählung, 3 ist das zweite Element in der Aufzählung, und so weiter. Ebenso entspricht η: 3, 1, 4, 2 der Permutation η(1) = 3, η(2) = 1, η(3) = 4 und η(4) = 2. Für das Produkt τ := π · η = π ◦ η ist also τ (1) τ (2) τ (3) τ (4) = = = = π(η(1)) = π(3) = 2, π(η(2)) = π(1) = 4, π(η(3)) = π(4) = 1, π(η(4)) = π(2) = 3, und als Aufzählung geschrieben ist damit τ =π·η : 2, 4, 1, 3. Mit der Interpretation von Permutationen als Auflistungen der Zahlen von 1 bist n ist es auch leicht die Elemente der symmetrischen Gruppe zu zählen. Lemma 8.1 (Elementeanzahl der Sn ) Für jedes n ∈ N mit n ≥ 1 hat die symmetrische Gruppe Sn genau n! viele Elemente. Beweis: Für das erste Element der Aufzählung haben wir n Möglichkeiten, für das zweite dann nur noch n − 1 Möglichkeiten, für das dritte n − 2 Möglichkeiten, und so weiter, bis für das letzte Element nur noch eine Möglichkeit verbleibt. Als Anzahl aller möglichen Permutationen ergibt sich damit n · (n − 1) · (n − 2) · . . . 1 = 1 · 2 · . . . · n = n!. 203 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Schreiben wir |M | für die Anzahl aller Elemente einer endlichen Menge M , so sind also |S1 | = 1, |S2 | = 2, |S3 | = 6, |S4 | = 24, |S5 | = 120, . . . Die Elemente der symmetrischen Gruppe Sn können in zwei verschiedene Sorten eingeteilt werden, die geraden und die ungeraden Permutationen. Nehmen wir einmal an wir haben eine Permutation π ∈ Sn gegeben. Dann sind π(1), π(2), . . . , π(n) genau die Zahlen zwischen 1 und n nur in einer anderen Reihenfolge. Dies übeträgt sich dann auch auf Paare von verschiedenen Zahlen zwischen 1 und n, d.h. (π(1), π(2)), . . . , (π(1), π(n)), (π(2), π(1)), (π(2), π(3)), . . . , (π(2), π(n)), . . . , (π(n − 1), π(1)), . . . , (π(n − 1), π(n)) sind wieder genau diese Paare, nur erneut in einer anderen Reihenfolge. Dies modifizieren wir noch etwas und betrachten nur noch die nach Größe geordneten Paare (i, j) mit 1 ≤ i < j ≤ n, bei denen der zweite Eintrag also größer als der erste Eintrag ist. Wenden wir unsere Permutation auf diese korrekt geordneten Paare an, so erhalten wir (π(1), π(2)), . . . , (π(1), π(n)), (π(2), π(3)), . . . , (π(2), π(n)), . . . , (π(n − 1), π(n)) nur noch die Hälfte aller möglichen Paare. Diese umgeordneten Paare müssen aber nicht mehr nach Größe geordnet sein, die Permutation kann ja auch richtig geordnete Paare auf falsch geordnete Paare abbilden. Jedes Paar bei dem dies vorkommt nennen wir einen Fehlstand von π, d.h. (i, j) mit 1 ≤ i < j ≤ n ist Fehlstand von π :⇐⇒ π(i) > π(j). Bilden wir nun das Produkt der Differenzen aller unserer obigen Paare, so erhalten wir fast genau das Produkt aller Differenzen nach Größe geordneter Paare, es kommt nur für jeden Fehlstand ein Minus Zeichen hinzu. Schreiben wir also F (π) für die Menge aller Fehlstände von π, so ist Y Y Y (π(j) − π(i)) = (−1)|F (π)| (j − i) = ± (j − i). 1≤i<j≤n 1≤i<j≤n 1≤i<j≤n Tritt in der obigen Formel das Pluszeichen auf, ist also |F (π)| gerade, so nennen wir π eine gerade Permutation, und andernfalls heißt π eine ungerade Permutation. Zur Verwendung in Rechnungen führen wir noch ein Symbol für das auftretende Vorzeichen ein. Definition 8.1 (Vorzeichen einer Permutation) Seien n ∈ N mit n ≥ 1 und π ∈ Sn . Dann heißt Y (−1)π := (−1)|F (π)| = π(j) − π(i) j−i 1≤i<j≤n das Vorzeichen von π. Wir wollen drei Beispiele behandeln. 204 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 1. Wir fangen mit dem konkreten Beispiel n = 4 und der durch 3, 4, 1, 2 gegebenen Permutation π an. Listen wir die nach Größe geordneten Paare und ihre Bilder unter π auf, so ergibt sich (π(i), π(j)) 3, 4 3, 1 F 3, 2 F 4, 1 F 4, 2 F 1, 2, (i, j) 1, 2 1, 3 1, 4 2, 3 2, 4 3, 4 wobei die Fehlstände mit dem Symbol F“ markiert sind. Wir haben in diesem ” Beispiel also |F (π)| = 4 Fehlstände und somit (−1)π = 1, d.h. π ist eine gerade Permutation. 2. Sei n ∈ N mit n ≥ 2 und bezeichne τ ∈ Sn die Transposition die zwei verschiedene Zahlen 1 ≤ i < j ≤ n miteinander vertauscht. Fehlstände von τ müssen i oder j involvieren. Gehen wir die Möglichkeiten durch so ergeben sich genau die folgenden Fehlstände von τ F (τ ) = {(i, k)|i < k ≤ j} ∪ {(k, j)|i < k < j} also |F (τ )| = (j − i) + (j − i − 1) = 2(j − i) − 1 und insbesondere (−1)τ = −1, d.h. Transpositionen sind immer ungerade. 3. Nun sei π eine Permutation die r ≥ 2 aufeinanderfolgende Ziffern zyklisch nach rechts schiebt, beispielsweise die Ziffern von i bis i + r − 1 mit 1 ≤ i ≤ n − r + 1. Es soll also π(k) = k für 1 ≤ k < i und für i + r ≤ k ≤ n, π(k) = k + 1 für i ≤ k < i + r − 1 und π(i + r − 1) = i sein. Fehlstände von π müssen offenbar zwei Ziffern zwischen i und i + r − 1 involvieren und i + r − 1 als rechte Komponente haben, also F (π) = {(k, i + r − 1)|i ≤ k < i + r − 1}, und somit |F (π)| = r − 1, und folglich ist auch (−1)π = (−1)r−1 , ist also r gerade so ist π ungerade und ist r ungerade so ist π gerade. Lemma 8.2 (Rechenregeln für das Vorzeichen einer Permutation) Sei n ∈ N mit n ≥ 1. Dann gelten: (a) Ist id ∈ Sn die identische Permutation, so ist (−1)id = 1. (b) Für alle π, η ∈ Sn ist (−1)πη = (−1)π (−1)η . (c) Für jedes π ∈ Sn ist (−1)π −1 = (−1)π . 205 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Beweis: (a) Klar da die Identität keine Fehlstände hat. (b) Es gilt Y Y (π(η(j)) − π(η(i))) = (−1)|F (η)| 1≤i<j≤n (π(j) − π(i)) 1≤i<j≤n = (−1)π (−1)η Y (j − i) 1≤i<j≤n und somit ist (−1)πη = π(η(j)) − π(η(i)) = (−1)π (−1)η . j − i 1≤i<j≤n Y (c) Nach (a) und (b) gilt 1 = (−1)ππ 8.2 −1 = (−1)π (−1)π −1 =⇒ (−1)π −1 = 1 = (−1)π . (−1)π Definition und Grundeigenschaften der Determinante Wir definieren die allgemeine Determinante durch die sogenannte Leibniz-Formel. Definition 8.2 (Definition der Determinante) Sei n ∈ N mit n ≥ 1 und sei K ∈ {R, C}. Die Determinante einer n × n Matrix über K wird durch die Formel a11 · · · a1n .. . . .. := X (−1)π a . . . 1π(1) · . . . · anπ(n) π∈Sn an1 · · · ann definiert. Die Determinante einer n×n Matrix ist also eine Summe mit |Sn | = n! vielen Summanden und jeder Summand ist ein Produkt aus n Matrixeinträgen und einem Vorzeichen. Für n = 1, 2, 3 stimmt dies mit der schon eingeführten Determinante überein. Schon für n = 4 ist die Definition aber nicht direkt zum Berechnen der Determinante geeignet, man hat |S4 | = 24 viele Summanden in der Summe. Es gibt im wesentlichen zwei Methoden Determinanten zu berechnen, zum einen über die sogenannte LaplaceEntwicklung, die wir im nächsten Abschnitt behandeln, und zum anderen über die Umformung einer Determinante mittels elementarer Zeilen- und Spaltenoperationen. Um den letzteren Weg zu begründen, müssen wir uns überlegen wie sich die Determinante bei Anwendung von Zeilenoperationen verhält, und hierfür wollen wir das folgende Lemma formulieren und beweisen. 206 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Lemma 8.3 (Grundeigenschaften der Determinante) Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und a11 · · · a1n A = ... . . . ... ∈ K n×n an1 · · · ann eine n × n Matrix über K. Dann gelten: (a) Es ist det At = det A. (b) Geht A0 aus A durch Multiplikation einer Zeile oder einer Spalte mit einer Konstanten c ∈ K hervor, so ist det A0 = c · det A. (c) Sei α ∈ Sn eine Permutation und bezeichne A0 die Matrix, die aus A durch Permutation der Zeilen gemäß α hervorgeht, d.h. für 1 ≤ k ≤ n ist die k-te Zeile von A0 gleich der α(k)-ten Zeile von A. Dann ist det A0 = (−1)α det A. Die analoge Aussage gilt für Permutationen der Spalten von A. (d) Geht A0 aus A durch Vertauschen zweier Zeilen oder Spalten hervor, so ist det A0 = − det A. (e) Geht A0 aus A durch Addition eines Vielfachen einer Zeile zu einer anderen Zeile hervor, so ist det A0 = det A. Die analoge Aussage gilt auch für Spalten statt Zeilen. (f ) Besteht eine Zeile oder eine Spalte von A nur aus Nullen, so ist det A = 0. (g) Ist eine Zeile von A ein Vielfaches einer anderen Zeile von A, oder eine Spalte von A ein Vielfaches einer anderen Spalte von A, so ist det A = 0. Beweis: (a) Es gilt nach Lemma 2.(c) det At = X (−1)π aπ(1)1 · . . . · aπ(n)n = π∈Sn = X X (−1)π aπ(1),π−1 (π(1)) · . . . · aπ(n),π−1 (π(n)) π∈Sn π −1 (−1) a1,π−1 (1) · . . . · an,π−1 (n) = π∈Sn X (−1)π a1π(1) · . . . · anπ(n) = det A. π∈Sn (b) Sei 1 ≤ i ≤ n und die i-te Zeile von A0 sei das c-fache der i-ten Zeile von A. Dann ist X det A0 = (−1)π a1π(1) · . . . · (caiπ(i) ) · . . . · anπ(n) π∈Sn =c X π∈Sn 207 (−1)π a1π(1) · . . . · anπ(n) = c · det A. Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 Mit (a) folgt hieraus auch die Aussage über Spalten. (c) Es gilt nach Lemma 2.(b) det A0 = X (−1)π aα(1),π(1) · . . . · aα(n),π(n) π∈Sn = (−1)α X −1 (−1)πα a1,π(α−1 (1)) · . . . · an,π(α−1 (n)) = (−1)α det A. π∈Sn Mit (a) folgt hieraus auch die Aussage über Spaltenpermutationen. (d) Da Transpositionen ungerade Permutationen sind ist dies ein Spezialfall von (c). (f ) Ist 1 ≤ i ≤ n und besteht die i-te Zeile von A nur aus Nullen, so ist für jedes π ∈ Sn stets aiπ(i) = 0, also auch a1π(1) · . . . · anπ(n) = 0. Damit ist det A = 0. Mit (a) folgt auch die Aussage über Spalten. (g) Nach (a) reicht es die Aussage für Zeilen einzusehen, und nach (b) können wir annehmen, dass A sogar zwei identische Zeilen hat. Dann ändert sich die Matrix bei Vertauschen dieser beiden Zeilen nicht, und (d) ergibt det A = − det A, also det A = 0. (e) Seien c ∈ K, 1 ≤ i, j ≤ n mit i 6= j und A0 gehe aus A durch Addition des c-fachen der j-ten Zeile zur i-ten Zeile hervor. Dann ist det A0 = X (−1)π a1π(1) · . . . · (aiπ(i) + cajπ(i) ) · . . . · anπ(n) π∈Sn = det A + c X (−1)π a1π(1) · . . . · ajπ(i) · . . . · anπ(n) . π∈Sn Die hintere Summe ist gerade die Determinante der Matrix A00 , die aus A durch Ersetzen der i-ten Zeile durch die j-te Zeile entsteht. Da A00 zwei identische Zeilen hat, ist nach (g) aber det A00 = 0, und dies zeigt det A0 = det A. Mit (a) folgt dann auch die Aussage über Spaltenunformungen. Wie schon bemerkt soll uns das Lemma eine Methode zur Berechnung von Determinanten liefern. Wir wissen das wir jede Matrix durch Anwendung der drei elementaren Zeilenumformungen auf Stufenform bringen können, und das Lemma sagt uns wie sich die Determinante bei Anwendung dieser Zeilenumformungen verhält. Damit kann die Berechnung einer allgemeinen Determinante auf die Berechnung der Determinante einer Matrix in Stufenform zurückgeführt werden. Etwas allgemeiner behandeln wir gleich Determinanten von Dreiecksmatrizen. Lemma 8.4 (Determinante von Dreiecksmatrizen) Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und a11 ∗ a11 ... ... A= oder A = ann ∗ ann 208 Mathematik für Physiker I, WS 2016/2017 Montag 9.1.2017 eine obere oder eine untere Dreiecksmatrix. Dann ist det A = a11 · . . . · ann . Beweis: Schreibe wieder a11 · · · a1n A = ... . . . ... . an1 · · · ann Zunächst sei A eine obere Dreiecksmatrix, also aij = 0 für 1 ≤ j < i ≤ n. Sei π ∈ Sn . Gibt es dann ein 1 ≤ i ≤ n mit π(i) < i, so ist ai,π(i) = 0 und somit auch a1,π(1) · . . . · an,π(n) = 0. Ist dagegen π(i) ≥ i für jedes 1 ≤ i ≤ n, so ist π(n) ≥ n, also π(n) = n, und weiter π(n − 1) ≥ n − 1 also π(n − 1) = n − 1 oder π(n − 1) = n, und wegen π(n − 1) 6= π(n) = n sogar π(n − 1) = n − 1. So fortfahrend folgt dann π(i) = i für alle 1 ≤ i ≤ n. Es gibt in det A also höchstens einen von Null verschiedenen Summanden, nämlich derjenige zur identischen Permutation und da diese Permutation gerade ist, folgt det A = a11 · . . . · ann . Ist A eine untere Dreiecksmatrix, so ist At eine obere Dreiecksmatrix und mit Lemma 3.(a) folgt die Behauptung auch in diesem Fall. Wir rechnen ein Beispiel. 1 2 −1 1 1 1 2 −1 1 2 −1 1 2 0 0 1 −1 0 2 −2 4 2 = = − −1 2 3 −1 0 4 2 0 0 2 0 3 0 −1 0 0 −6 2 −3 0 −6 2 1 2 −1 1 1 0 4 0 2 0 = − = − 0 2 −2 0 0 0 0 0 5 −3 1 0 −2 −3 2 −1 1 4 2 0 = −16. 0 2 −2 0 0 2 Man ist allerdings nicht gezwungen so stur den Gaußschen Algorithmus abzuarbeiten, oft kann man sich die Arbeit durch Mischen von Zeilen- und Spaltenoperationen erleichtern. Dies geschieht etwa im folgenden Beispiel wo wir zuerst Vielfache der ersten Zeile von der dritten und vierten Zeile abziehen und anschließend die zweite und dritte Spalte von der ersten Spalte subtrahieren 1 0 1 −1 1 0 0 0 3 1 −1 3 1 −1 3 4 1 3 7 −5 4 1 3 7 −5 0 1 3 7 −5 2 2 0 1 0 = 0 2 −2 3 −6 = 0 2 −2 3 −6 = 0 4 0 4 −3 6 0 0 0 1 −6 0 0 0 1 −6 1 1 0 8 1 1 1 0 8 1 0 1 0 8 1 209 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 nach Lemma 3.(f). Dies ist schon eine durchaus effektive Methode zur Berechnung von Determinanten. Vorlesung 19, Freitag 13.1.2017 In der letzten Sitzung haben wir die Determinante einer allgemeinen n × n-Matrix definiert und gesehen wie sich diese mit Hilfe elementarer Zeilen- und Spaltenumformungen berechnen läßt. Bevor wir fortfahren wollen wir noch ein oft nützliches Korollar aus unserem Lemma über Dreiecksmatrizen festhalten. Korollar 8.5 (Determinanten von Blockdreiecksmatrizen) Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und A eine n × n-Matrix über K der Form ∗ D1 D1 D2 D2 A= oder A = .. .. . . ∗ Dr Dr mit quadratischen Untermatrizen D1 , . . . , Dr . Dann gilt det A = det(D1 ) · . . . · det(Dr ). Beweis: Zunächst sei A eine obere Blockdreiecksmatrix habe also die links stehende Form. Für jedes 1 ≤ i ≤ r überführe Di durch Vertauschen von Zeilen und Addition von Vielfachen einer Zeile zu einer anderen Zeile in eine obere Dreiecksmatrix Di0 und bezeichne si die Anzahl der dabei verwendeten Zeilenvertauschungen. Lassen wir die dabei verwendeten elementaren Zeilenumformungen dann auch auf ganz A wirken, so wird A in eine Matrix A0 der Form D10 ∗ 0 D 2 A0 = ... 0 Dr P überführt, und s := ri=1 si ist die Anzahl der dabei verwendeten Zeilenvertauschungen. Mit Lemma 3.(d,e) folgen det A = (−1)s det A0 und det Di = (−1)si det Di0 210 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 für alle 1 ≤ i ≤ r. Die Matrix A0 ist eine obere Dreiecksmatrix, und damit gilt nach Lemma 4 r Y det A0 = det Di0 . i=1 Insgesamt ist damit r r Y Y si 0 det A = (−1) det A = (−1) det Di = det Di , 0 s i=1 i=1 und die Aussage ist für obere Blockdreiecksmatrizen bewiesen. Mit Lemma 3.(a) folgt dann auch die Aussage über untere Blockdreiecksmatrizen. Beispielsweise ist damit 1 −1 0 0 3 7 0 0 1 −1 2 1 = · = 10 · (−3) = −30, −5 3 2 1 3 7 9 3 −9 4 9 3 da es sich hier um eine untere Blockdreiecksmatrix mit den beiden 2 × 2-Kästchen D1 = 1 −1 3 7 und D2 = 2 1 9 3 handelt. Nachdem die zuletzt bewiesenen Aussagen über Determinanten hauptsächlich rechnerische Aspekte behandelt haben, wollen wir nun zu einem wichtigen und eher theoretischen Satz kommen der den Zusammenhang von Determinanten und der Matrixmultiplikation herstellt. Satz 8.6 (Multiplikationssatz für Determinanten) Sind n ∈ N mit n ≥ 1 und A, B zwei n × n Matrizen über K ∈ {R, C} so gilt det(A · B) = det(A) · det(B). Beweis: Wir schreiben a11 · · · a1n A = ... . . . ... , B = an1 · · · ann b11 · · · b1n .. . . . . .. und AB = . bn1 · · · bnn 211 c11 · · · c1n .. . . . . .. . . cn1 · · · cnn Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 Nach Definition der Matrizenmultiplikation gilt dann cij = i, j ≤ n. Hiermit rechnen wir det(AB) = X Pn k=1 aik bkj für alle 1 ≤ (−1)π c1,π(1) · . . . · cn,π(n) π∈Sn X = (−1)π = ! a1,j1 bj1 ,π(1) (−1)π n X · ... · j1 =1 π∈Sn X n X ! an,jn bjn ,π(n) jn =1 X a1,j1 · . . . · an,jn · bj1 ,π(1) · . . . · bjn ,π(n) 1≤j1 ,...,jn ≤n π∈Sn " = X a1,j1 · . . . · an,jn · 1≤j1 ,...,jn ≤n # X π (−1) bj1 ,π(1) · . . . bjn ,π(n) . π∈Sn Nun kümmern wir uns um den Faktor in den eckigen Klammern. Die dort stehende Summe sieht fast wie eine Determinante aus, nur das dort überall ji statt i steht. Dies ist aber kein echtes Problem, schreiben wir B(j1 , . . . , jn ) für die n × n Matrix, deren i-te Zeile gerade die ji -te Zeile von B ist, so ist der Ausdruck in eckigen Klammern gerade die Determinante von B(j1 , . . . , jn ), also ist X a1,j1 · . . . · an,jn · det B(j1 , . . . , jn ). det(AB) = 1≤j1 ,...,jn ≤n Wir betrachten nun einen einzelnen Summanden in dieser Summe, seien also 1 ≤ j1 , . . . , jn ≤ n gegeben. Gibt es dann zwei Indizes 1 ≤ i, i0 ≤ n mit i 6= i0 und ji = ji0 , so hat die Matrix B(j1 , . . . , jn ) zwei identische Zeilen, und somit ist dann det B(j1 , . . . , jn ) = 0 nach Lemma 3.(g). Also müssen wir in der obigen Summe nur die Summanden (j1 , . . . , jn ) betrachten in denen j1 , . . . , jn paarweise verschieden sind. Aber Tupel aus n verschiedenen Zahlen aus {1, . . . , n} sind ja gerade die Ordnungen von {1, . . . , n}, also folgt mit Lemma 3.(c) det(AB) = X a1,π(1) · . . . · an,π(n) · det B(π(1), . . . , π(n)) π∈Sn ! = X (−1)π a1,π(1) · . . . · an,π(n) · det(B) = det(A) · det(B). π∈Sn Wir wollen uns als Beispiele zwei kleine Anwendungen des Determinantenmultiplikationssatz es anschauen und beginnen mit einer erstaunlichen auf Sylvester zurückgehenden Formel. Angenommen wir haben n, m ≥ 1, eine m × n-Matrix A und eine n × m-Matrix B. Dann können wir die beiden Produkte AB und BA bilden, dabei ist AB eine m × m- und BA eine n × n-Matrix, diese beiden können also von sehr unterschiedlicher Größe sein. Trotzdem gilt nun: 212 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 Korollar 8.7 (Sylvestersche Determinantenformel) Seien n, m ∈ N mit n, m ≥ 1, K ∈ {R, C} und A ∈ K m×n eine m×n- sowie B ∈ K n×m eine n × m-Matrix über K. Dann gilt det(1 + AB) = det(1 + BA). Beweis: Wir betrachten die (m + n) × (m + n)-Matrix Em −A ∈ K (m+n)×(m+n) . C := B En Dann gelten Em 0 −A Em Em −A 1 + AB 0 · = C und · =C B En 0 1 + BA 0 En B En und da es sich hier jeweils um Produkte von (m + n) × (m + n)-Matrizen handelt ergibt der Multiplikationssatz Satz 6 zusammen mit Korollar 5 det(1 + BA) = det C = det(1 + AB). Als eine zweite Konsequenz des Multiplikationssatzes erhalten wir unmittelbar eine Formel für die Determinante der Inversen einer regulären Matrix. Korollar 8.8 (Determinante der inversen Matrix) Sei n ∈ N mit n ≥ 1 und sei A eine invertierbare n × n Matrix über K ∈ {R, C}. Dann gilt det A 6= 0 und es ist 1 det(A−1 ) = . det A Beweis: Nach dem Multiplikationssatz ist det(A) · det(A−1 ) = det(A · A−1 ) = det En = 1. Wie wir im nächsten Abschnitt sehen werden gilt auch die Umkehrung dieses Korollars, ist det A 6= 0 so ist die Matrix A invertierbar. Damit ist dann auch die zu Beginn dieses Kapitels erwähnte Eigenschaft der Determinante das Lösungsverhalten quadratischer linearer Gleichungssysteme zu bestimmen bewiesen. In der Tat, ist det A 6= 0 so ist A invertierbar und jedes lineare Gleichungssystem Ax = b ist regulär, also nach §7.Satz 213 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 5 auch eindeutig lösbar, und ist det A = 0 so ist A nicht invertierbar also führt das Gaußsche Eliminationsverfahren auf eine lange Stufe und damit auf eine nur aus Nullen bestehende Zeile, d.h. lineare Gleichungssysteme Ax = b sind niemals eindeutig lösbar und es gibt sowohl rechte Seiten b für die Ax = b nicht lösbar ist als auch rechte Seiten b bei denen Ax = b lösbar ist. 8.3 Laplace Entwicklung Die Laplace Entwicklung einer Determinante ist ein weiteres Rechenverfahren zur Bestimmung von Determinanten. Bei diesem Verfahren wird die Determinante einer n × n Matrix als eine Summe von n Termen berechnet die ihrerseits im wesentlichen aus einer (n−1)×(n−1) Determinante bestehen. Wir wollen dies zunächst an einigen Beispielen vorführen, bevor wir es als abstrakten Satz formulieren. Wir beginnen dabei mit der Berechnung einer 3 × 3 Determinante 1 −1 3 2 1 −1 . 5 1 0 Als Entwicklung dieser Determinante nach der ersten Zeile bezeichnet man die folgende Rechnung 1 −1 3 1 −1 2 −1 2 1 2 − (−1) · +3· 1 −1 = 1 · 5 5 1 = 1 + 5 − 9 = −3. 1 0 0 5 1 0 Diese Summe beginnt mit dem Eintrag 1 in der ersten Zeile und Spalte multipliziert mit der Determinante, die aus der ursprünglichen Determinante durch Streichen der ersten Zeile und der ersten Spalte entsteht. Hiervon wird dann der Eintrag −1 in der zweiten Spalte der ersten Zeile mal die durch Streichen der ersten Zeile und der zweiten Spalte gebildete Determinante abgezogen. Schließlich wird der Eintrag 3 in der dritten Spalte der ersten Zeile mit der durch Streichen der ersten Zeile und dritten Spalte erhaltenen Determinante multipliziert und zur Gesamtsumme addiert: 1 −1 1 −1 1 −1 1 −1 3 3 3 3 2 1 −1 = 1 · 2 1 −1 − (−1) · 2 1 −1 + 3 · 2 1 −1 . 5 5 5 5 1 0 1 0 1 0 1 0 Diese Rechenverfahren ist etwas effizienter als die Rechnung über die Regel von Sarrus. Bei der Sarrusschen Regel hat man die Summe von sechs Dreierprodukten zu bilden, benötigt also 12 Multiplikationen und 5 Additionen, wobei wir Subtraktion und Addition nicht unterscheiden. Bei der Entwicklung nach der ersten Zeile bilden wir dagegen drei 2 × 2 Determinanten, und jede von diesen erfordert zwei Multiplikationen und eine Addition, also insgesamt 6 Multiplikationen und drei Additionen. Dann werden diese 2 × 2 Determinanten jeweils mit einer Zahl multipliziert und dann addiert, dies 214 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 sind 3 weiter Multiplikationen und zwei Additionen. Insgesamt erfordert die Entwicklung nach der ersten Zeile also 9 Multiplikationen und 5 Additionen, wir haben also 3 Multiplikationen eingespart, dies sind immerhin 25% des Aufwands der Regel nach Sarrus. Ebenso kann die Determinante auch nach der ersten Spalte entwickelt werden, hier gehen wir entsprechend die Einträge in der ersten Spalte der Matrix durch 1 −1 1 −1 1 −1 1 −1 3 3 3 3 =1· 2 . 2 −2· 2 +5· 2 1 −1 1 −1 1 −1 1 −1 5 5 1 1 0 5 1 0 5 1 0 0 Noch allgemeiner kann die Determinante auch nach einer beliebigen Zeile oder einer beliebigen Spalte entwickelt werden. Das einzige kleine Detail auf das man dabei achten muss ist die Verteilung der Vorzeichen. Entwickeln wir nach der ersten Zeile oder Spalte, so beginnt die Entwicklung mit +“ und dann wechseln die Vorzeichen sich ab. ” Entwickeln wir dagegen nach der zweiten Zeile oder Spalte, so beginnen die Vorzeichen mit −“ und wechseln sich dann ab. In der dritten Zeile oder Spalte starten wir dann ” wieder mit +“ und so weiter. Allgemein gehört zum Eintrag (i, j) der Determinan” te, also dem Eintrag in der i-ten Zeile und in der j-ten Spalte, die Determinante die durch Entfernen der i-ten Zeile und der j-ten Spalte entsteht und mit dem Vorzeichen (−1)i+j versehen ist. Diese Vorzeichen beginnen links oben mit (−1)2 = 1 und breiten sich dann schachbrettartig aus + − + − .. . − + − + .. . + − + − .. . − + − + .. . ··· ··· ··· ··· ... Wir haben das Vorzeichenschema hier gleich allgemein für quadratische Matrizen beliebiger Größe angegeben und nicht nur für 3 × 3 Matrizen. Es bietet sich an nach einer Zeile oder Spalte zu entwickeln die möglichst viele Nullen enthält, denn bei jeder Null können wir den entsprechenden Summanden in der Entwicklung ignorieren. In unserem obigen Beispiel ist es daher naheliegend etwa nach der dritten Zeile zu entwickeln 1 −1 1 −1 1 −1 3 3 3 2 1 −1 = 5 · 2 1 −1 − 1 · 2 1 −1 = 5 · (−2) − (−7) = −3 5 5 5 1 0 1 0 1 0 erneut mit demselben Ergebnis. Die Entwicklung einer Determinante nach Zeilen oder Spalten ist aber nicht auf 3×3 Determinanten beschränkt, sondern ist für jede natürlich Zahl n ≥ 1 möglich. Wir wollen als ein Beispiel einmal eine 4 × 4 Determinante nach 215 Mathematik für Physiker I, WS 2016/2017 der zweiten Zeile entwickeln: 1 −1 0 2 3 1 −1 0 = 0 2 5 −3 1 2 −1 1 1 −1 0 2 3 1 −1 0 −3· + 1 · 0 2 5 −3 1 2 −1 1 Freitag 13.1.2017 1 −1 0 2 3 1 −1 0 − (−1) · 0 2 5 −3 1 2 −1 1 1 −1 0 2 3 1 −1 0 0 2 5 −3 1 2 −1 1 = (−3) · (−26) + 1 · (−8) + 1 · 7 = 77, wobei wir die haben und die −1 2 2 1 0 1 1 0 1 mit Null zu multiplizierende vierte Determinante gleich weggelassen Werte der verbleibenden drei 3 × 3 Determinanten 0 2 5 −3 2 5 + 2 = −2 − 24 = −26, 5 −3 = − −1 1 2 −1 −1 1 0 2 5 −3 0 5 5 −3 = + 2 = 2 − 10 = −8, −1 1 1 −1 −1 1 −1 2 1 2 1 −1 = −2 + 9 = 7 2 −3 = 2 + 3 1 1 1 2 2 1 gleich eingesetzt haben. Man kann dieses Rechenverfahren durch Entwicklung nach einer Zeile oder Spalte natürlich auch mit den elementaren Zeilen- und Spaltenumformungen kombinieren. In unserem eben gerechneten Beispiel einer 4 × 4 Determinante können wir auch zunächst die erste Spalte zur zweiten Spalte addieren. Dann haben wir auf einmal zwei Nullen in der ersten Zeile, und bei der Entwicklung nach der ersten Zeile treten nur noch zwei Summanden auf. 1 −1 0 2 1 0 0 2 3 1 −1 0 3 4 −1 0 = = 0 2 5 −3 0 2 5 −3 1 2 −1 1 1 3 −1 1 4 −1 3 4 −1 4 −1 0 0 3 −1 3 4 2 − 5 5 −3 − 2 0 2 5 = 11 2 0 − 2 · 2 1 3 1 −1 3 −1 1 1 3 −1 3 −1 1 4 −1 − 2 · (−4 − 25) = 19 + 59 = 77. = 11 2 Wir wollen im folgenden die theoretische Begründung für dieses Rechenverfahren angeben. Die Grundlage für all diese Dinge ist die sogenannte Linearität der Determinante in Zeilen und Spalten. 216 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 Satz 8.9 (Zeilen- und spaltenweise Linearität der Determinante) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und 1 ≤ k ≤ n. Dann gilt für alle Zahlen t, s ∈ K und alle aij , ai , bi ∈ K (1 ≤ i, j ≤ n) die Gleichung a11 ··· a1n . .. .. . ta1 + sb1 · · · tan + sbn .. .. . . an1 ··· ann =t· a11 · · · a1n .. .. . . a1 · · · an + s · .. .. . . an1 · · · ann a11 · · · a1n .. .. . . b1 · · · bn , .. .. . . an1 · · · ann wobei die Summen in der k-ten Zeile dieser Determinante stehen. Die entsprechende Aussage gilt auch für Summen von Spalten. Beweis: Nach Lemma 3.(a) reicht es wieder die Aussage über Zeilen zu beweisen. Die linke Determinante ist dann X (−1)π a1,π(1) · . . . · (taπ(k) + sbπ(k) ) · . . . · an,π(n) π∈Sn = t· X (−1)π a1,π(1) · . . . · aπ(k) · . . . · an,π(n) + s · X (−1)π a1,π(1) · . . . · bπ(k) · . . . · an,π(n) π∈Sn π∈Sn und dies ist gerade die rechts stehende Summe von Determinanten. Ein direktes Beispiel für die obige Formel ist etwa 1 −1 1 1 −1 1 1 −1 1 2 1 3 + 2 · 0 −1 −1 = 2 −1 1 . −1 −1 0 2 0 2 −1 0 2 Die erste und die dritte Zeile dieser Matrizen stimmen jeweils überein, Addition und Multiplikation werden nur in einer Zeile, in diesem Beispiel in der zweiten Zeile, durchgeführt. Nach dieser Vorbemerkung kommen wir zur Entwicklung von Determinanten zurück. Die Entwicklung einer Determinante nach einer Zeile oder Spalte nennt man auch den Laplaceschen Entwicklungssatz, und um diesen, und später auch die Cramersche Regel für die Matrixinversion, bequem formulieren zu können, führen wir noch eine kleine Definition ein. Definition 8.3: Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und sei A eine n × n Matrix über K. Sind 1 ≤ i, j ≤ n, so bezeichnet Aij die (n − 1) × (n − 1) Matrix, die aus A durch Streichen der i-ten Zeile und der j-ten Spalte entsteht. Die Zahl b aij := (−1)i+j det Aji 217 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 wird dann als (i, j)-ter Komplementärwert bezeichnet (das i und j hier vertauscht werden ist kein Schreibfehler, sondern tatsächlich so gemeint), und die n × n Matrix b a11 · · · b a1n . . b := A .. . . . .. b an1 · · · b ann heißt die Komplementärmatrix oder Adjunkte zu A. Für n = 2, 3 können wir die Komplementärmatrix noch direkt a b b d −b = , c d −c a a11 a12 a13 b a22 a33 − a23 a32 a13 a32 − a12 a33 a21 a22 a23 = a23 a31 − a21 a33 a11 a33 − a13 a31 a31 a32 a33 a21 a32 − a22 a31 a12 a31 − a11 a32 hinschreiben a12 a23 − a13 a22 a13 a21 − a11 a23 , a11 a22 − a12 a21 aber schon für n ≥ 4 sind die entstehenden Formeln zu gross. Ganz konkret ist beispielsweise die Komplementärmatrix zu 1 −1 2 8 5 −1 0 2 −3 gleich −3 −1 3 . 1 2 1 −2 −3 2 Wir wollen jetzt den Laplaceschen Entwicklungssatz explizit formulieren. Die Grundidee zur Herleitung des Entwicklungssatzes ist einfach zu beschreiben. Wir wollen die Determinante A nach der i-ten Zeile entwickeln. In der Leibniz-Summe P einer Matrix π det(A) = π∈Sn (−1) a1,π(1) · . . . · an,π(n) fasse für 1 ≤ j ≤ n alle Terme π ∈ Sn mit π(i) = j zusammen. Dann wird det A = n X j=1 X π (−1) a · . . . a · a · . . . a aij · 1,π(1) i−1,π(i−1) i+1,π(i+1) n,π(n) π∈Sn π(i)=j und die Summe in eckigen Klammern stellt sich als (−1)i+j det Aij heraus, sie ist ja beinahe bereits eine Leibniz-Summe. Für die exakte Durchführung des Beweises ist es technisch etwas bequemer zunächst den Sonderfall i = n zu behandeln, und den allgemeinen Fall darauf zurückzuführen. In der Vorlesung wurde der folgende Beweis nur skizziert, hier soll er aber vollständig wiedergegeben werden. Satz 8.10 (Entwicklung nach Zeilen und Spalten) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und sei A = (aij )1≤i,j≤n eine n × n Matrix über K. Dann gelten für jedes 1 ≤ i ≤ n die Gleichungen det A = n X (−1)i+1 aij det Aij (Entwicklung nach einer Zeile) j=1 218 Mathematik für Physiker I, WS 2016/2017 und det A = n X (−1)i+j aji det Aji Freitag 13.1.2017 (Entwicklung nach einer Spalte). j=1 Beweis: Wir beginnen mit der Entwicklung der Determinante nach der letzten Zeile. Schreiben wir die letzte Zeile als (an1 , . . . , ann ) = a11 · (1, 0, . . . , 0) + · · · + ann · (0, . . . , 0, 1), so ergibt sich mit der Linearität der Determinante in der letzten Zeile Satz 9 die Formel a11 · · · a1,j−1 a1j a1,j+1 · · · a1n n n X .. .. .. X . . . anj det Bj , det A = anj · = an−1,1 · · · an−1,j−1 an−1j an−1,j+1 · · · an−1,n j=1 j=1 0 ··· 0 1 0 ··· 0 wenn wir Bj für die Matrix im j-ten Summanden schreiben. Wir müssen also die Determinante der Matrix Bj berechnen. Im Fall j = n liegt dabei eine obere Blockdreiecksmatrix nn A ∗ Bn = 0 1 vor und Korollar 5 ergibt det Bn = det Ann . Wir wollen jetzt zeigen, dass für alle 1 ≤ j < n stets det Bj = (−1)n+j det Anj gilt, für j = n wissen wir dies wegen (−1)2n = 1 bereits. Sei also ein 1 ≤ j < n gegeben. Bezeichne τ ∈ Sn die Transposition die n und j vertauscht und sei B 0 die Matrix die aus Bj durch Permutation der Spalten gemäß τ , also durch Vertauschen der j-ten mit der n-ten Spalte entsteht. Sei weiter α ∈ Sn−1 die Permutation, die die Ziffern j, . . . , n − 1 zyklisch nach rechts verschiebt und sei A0 die (n − 1) × (n − 1) Matrix, die aus Anj durch Permutation der Spalten gemäß α entsteht. Dann ist a1j .. 0 A . 0 B = , an−1,j 1 0 ··· 0 und mit Lemma 3.(c) und der schon bewiesenen Aussage folgt det Bj = − det B 0 = − det A0 = −(−1)n−j−1 det Anj = (−1)n+j det Anj . Insgesamt ist damit det A = n X j=1 anj det Bj = n X j=1 219 (−1)n+j anj det Anj , Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 und wir haben die Entwicklung nach der letzten Zeile bewiesen. Die Entwicklung nach anderen Zeilen können wir hierauf zurückführen. Sei 1 ≤ i < n und bezeichne A0 die Matrix die aus A durch Vertauschen der i-ten und der n-ten Spalte entsteht. Mit Lemma 3.(c) und der schon bewiesenen Teilaussage folgt 0 det A = − det A = − n X nj (−1)n+j aij det A0 . j=1 Ist α ∈ Sn−1 die Permutation die die Ziffern i, . . . , n − 1 zyklisch um eine Stelle nach rechts verschiebt, so geht A0 nj für jedes 1 ≤ j ≤ n aus Aij durch Permutation der Zeilen gemäß α hervor, also det A0 nj = (−1)α det Aij = (−1)n−i−1 det Aij . Insgesamt ist damit det A = n X (−1)n+j+1+n−i−1 aij det Aij = j=1 n X (−1)i+j aij det Aij . j=1 Damit haben wir auch die Entwicklung nach einer beliebigen Zeile bewiesen. Die Entwicklung nach Spalten folgt dann schließlich durch Übergang zur transponierten Matrix mit Lemma 3.(a). Eine der Folgerungen der Laplace-Entwicklung sind die sogenannten Cramerschen Regeln. Es gibt zwei derartige Regeln, eine für die Berechnung der Inversen einer n × n Matrix und eine für das Lösen regulärer linearer Gleichungssysteme. Die Cramersche Regel für die inverse Matrix wird sich dabei aus dem folgenden Satz über die komplementäre Matrix ergeben. Satz 8.11 (Satz über die Komplementärmatrix) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A sei eine n × n Matrix über K. Dann gilt det A ... b=A b·A = A·A = det(A). det A b in der i-ten Zeile Beweis: Seien 1 ≤ i, j ≤ n gegeben. Der Eintrag des Produkts A · A und j-ten Spalte ist dann gleich n X k=1 bkj = Aik A n X (−1)j+k Aik det Ajk . k=1 Im Fall eines Diagonaleintrags, d.h. wenn i = j ist, so steht hier gerade die Entwicklung von det A nach der i-ten Zeile, und die Summe ist nach dem Entwicklungssatz Satz 10, 220 Mathematik für Physiker I, WS 2016/2017 Freitag 13.1.2017 in seiner Version für Zeilen, gleich der Determinante det A von A. Nun betrachten wir den Fall i 6= j. Dann ist die Summe ebenfalls nach dem Entwicklungssatz für Zeilen gleich einer Determinante det A0 , wobei A0 die n × n Matrix über K ist die wir aus A erhalten indem die j-te Zeile von A durch eine Kopie der i-ten Zeile von A ersetzt wird. Insbesondere hat A0 zwei identische Zeilen, und damit ist det A0 = 0 nach Lemma b = det(A). Die andere Gleichung A b · A = det(A) 3.(g). Dies beweist die Formel A · A folgt ebenso mit dem Entwicklungssatz nach Spalten. Damit können wir nun die beiden Cramerschen Regeln einsehen. Korollar 8.12 (Cramersche Regel für die Matrixinversion) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A sei eine n × n Matrix über K. Dann ist A genau dann invertierbar wenn det A 6= 0 ist, und in diesem Fall gilt A−1 = 1 b A. det A Beweis: ”=⇒” Dies gilt nach Korollar 8. ”⇐=” Dies ist klar nach Satz 11. Wegen 1 −1 2 0 =2· 1 2 2 −3 1 1 1 2 1 1 −1 +3· = 2 · (−1) + 3 · 3 = 7 1 2 haben wir in unserem obigen Beispiel damit −1 8 5 −1 1 −1 2 1 0 3 . 2 −3 = −3 −1 7 −2 −3 2 1 2 1 Etwas trickreicher könnten wir auch den ersten Eintrag der ersten Zeile des Produkts b ausrechnen, und wir wissen dann nach Satz 11 das die so erhaltene Zahl die DeA·A terminante von A ist. Mit Hilfe der Cramerschen Regel für die Matrixinversion können wir jetzt auch die schon in §7.4 angesprochene Tatsache beweisen, dass ein Produkt zweier n × n Matrizen genau dann invertierbar ist wenn beide Faktoren invertierbar sind. Korollar 8.13: Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A, B zwei n × n Matrizen über K. Dann ist das Produkt AB genau dann invertierbar wenn A und B beide invertierbar sind. 221 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 Beweis: Nach dem Multiplikationssatz für Determinanten Satz 6 gilt det(AB) = det(A) · det(B). Damit ist genau dann det(AB) 6= 0 wenn det A 6= 0 und det B 6= 0 gelten. Nach Korollar 12 folgt daraus die Behauptung. Vorlesung 20, Montag 16.1.2017 In der letzten Sitzung haben wir die Cramersche Regel für die inverse Matrix hergeleitet, dass also die Inverse einen invertierbaren n × n-Matrix als A−1 = 1 b A det A b die zu A adjunkte Matrix ist Kombinieren wir die Cramersche gegeben ist, wobei A Regel für inverse Matrizen mit dem Lösungssatz §7.Satz 5 für reguläre lineare Gleichungssysteme, so ergibt sich die Cramersche Regel für lineare Gleichungssysteme. Korollar 8.14 (Cramersche Regel für reguläre lineare Gleichungssysteme) Gegeben sei ein reguläres lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 .. .. .. .. . . . . an1 x1 + an2 x2 + · · · + ann xn = bn über K ∈ {R, C}, d.h. Ax = b mit einer invertierbaren Koeffizientenmatrix A ∈ K n×n . Für 1 ≤ i ≤ n sei Ai die n × n Matrix, die aus A durch Ersetzen der i-ten Spalte von A durch die rechte Seite b entsteht. Dann ist die Lösung von Ax = b durch xi = det Ai det A (1 ≤ i ≤ n) gegeben. Beweis: Nach §7.Satz 5 und Korollar 12 ist die Lösung von Ax = b durch x = A−1 b = 1 b Ab det A b gleich gegeben. Für 1 ≤ i ≤ n ist der i-te Eintrag von Ab n X j=1 b aij bj = n X (−1)i+j bj det Aji , j=1 222 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 und letztere Summe ist nach dem Entwicklungssatz Satz 10 gerade gleich der Determinante det Ai . Als ein Beispiel zur Cramerschen Regel wollen wir einmal das lineare Gleichungssystem x − y + 2z = 1 2y − 3z = 0 x + 2y + z = −1 lösen. Die Koeffizientenmatrix A dieses linearen Gleichungssystem ist gerade die bereits oben als Beispiel verwendete Matrix 1 −1 2 2 −3 A= 0 1 2 1 von der wir bereits det A = 7 nachgerechnet haben. Die rechte Seite ist 1 b = 0 , −1 und dies müssen wir der Reihe nach als erste, zweite, dritte Spalte von A einsetzen, um die Lösung mit der Cramerschen Regel zu erhalten. Es ergibt sich damit die Lösung 1 −1 2 1 2 −3 −1 1 2 = − = 1 (8 + 1) = 9 , 0 2 −3 x = 2 1 2 −3 7 7 7 7 −1 2 1 1 1 2 1 3 1 1 = −6, 0 0 −3 = y = 7 7 1 −1 7 1 −1 1 1 −1 1 2 1 1 4 1 0 2 0 = z = =− . 7 7 1 −1 7 1 2 −1 Obwohl die Cramerschen Regeln sowohl für die inverse Matrix als auch für reguläre lineare Gleichungssysteme zunächst nach einer guten Rechenmethode aussehen, da sie eben so schön direkte und explizite Formeln sind, sind sie fürs praktische Rechnen meist eher ungeeignet. Es ist eine relativ große Zahl von Determinanten zu berechnen, und da ist es fast immer schneller unseren Gauß-Algorithmus sowohl zum Lösen linearer Gleichungssysteme als auch zur Berechnung der inversen Matrix heranzuziehen. Der einzige Fall in dem die Cramerschen Regeln manchmal brauchbar sind ist n = 3, aber selbst hier fährt man mit der Gaußschen Elimination fast immer besser. $Id: vektor.tex,v 1.32 2017/01/23 11:03:09 hk Exp $ 223 Mathematik für Physiker I, WS 2016/2017 §9 Montag 16.1.2017 Vektorräume Wir kommen jetzt zum wohl abstraktesten Kapitel dieses ganzen Semesters, der Theorie der sogenannten Vektorräume. Normalerweise ist ein Vektor etwas das eine Länge und eine Richtung hat, und man unterscheidet zwischen Dingen wie Orts- und Richtungsvektoren. Im mathematischen Sprachgebrauch wird das Wort Vektor“ al” lerdings in einem etwas anderen Sinne verwendet. Konzepte wie Orts-“ und Rich” ” tungsvektoren“ kommen überhaupt nicht explizit vor und unter einem Vektor versteht man ein Element eines sogenannten Vektorraums. Ein Vektor kann dann alles mögliche sein, etwa ein Vektor im üblichen Sinne, eine Folge, eine Funktion oder etwas noch ganz anderes. Was Vektor“ gerade konkret bedeutet hängt immer am Kontext des ” behandelten Vektorraums. Wir werden Vektorräume sowohl mit reellen als auch mit komplexen Skalaren betrachten, und in diesem ganzen Kapitel bezeichne K ∈ {R, C} entweder die reellen oder die komplexen Zahlen. Ein allgemeiner Vektorraum ist ein recht abstrakter Begriff, der nun eingeführt werden soll. 9.1 Der Vektorraumbegriff Wie gerade eben angekündigt hat das Wort Vektor“ in der linearen Algebra keinen ” ontologischen Status, es ist ein wesentlicher Punkt das gerade nicht festgelegt wird was ein Vektor“ denn zu sein hat. Ein Vektorraum wird durch die Dinge definiert die man ” mit Vektoren machen kann, man kann zwei Vektoren addieren und erhält einen neuen Vektor und man kann einen Vektor mit einem Skalar multiplizieren und erhält wieder einen Vektor. Metrische Konzepte wie beispielsweise die Länge eines Vektors“ oder ” der Winkel zwischen zwei Vektoren“ werden nicht in den allgemeinen Begriff eines ” Vektorraums aufgenommen, in einem allgemeinen Vektorraum ist es sinnlos von der Länge eines Vektors zu sprechen da solch ein Begriff auf dieser Ebene gar nicht definiert wird. Genau wie wir in §1 für die reellen Zahlen einen Satz von Grundrechenregeln gefordert haben, sollen auch die Addition und die Multiplikation mit Skalaren in einem Vektorraum gewissen Grundregeln genügen die wir in der Definition eines Vektorraums alle auflisten. Es gibt allerdings einen wesentlichen Unterschied zur Situation des §1, während die Axiome der reellen Zahlen selbige vollständig festlegten gibt es viele wesentlich verschiedene Beispiele von Vektorräumen, mit der Vektorraumdefinition wird also eine ganze Klasse mathematischer Objekte eingeführt. Definition 9.1 (Die Vektorraumaxiome) Ein Vektorraum über K besteht aus einer Menge V , deren Elemente Vektoren genannt werden, und zwei Abbildungen + : V × V → V ; (x, y) 7→ x + y und · : K × V → V ; (λ, x) 7→ λx, die die folgenden Vektorraumaxiome erfüllen: 224 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 (A1) Das Assoziativgesetz der Addition: Für alle x, y, z ∈ V gilt (x + y) + z = x + (y + z). (A2) Das Kommutativgesetz der Addition: Für alle x, y ∈ V gilt x + y = y + x. (A3) Existenz des Nullvektors: Es gibt ein Element 0 ∈ V mit 0 + x = x für alle x∈V. (A4) Existenz additiver Inverser: Für jedes x ∈ V existiert ein Vektor −x ∈ V mit (−x) + x = 0. (S1) Assoziativgesetz der Multiplikation: Für alle λ, µ ∈ K und alle x ∈ V gilt λ · (µ · x) = (λµ) · x. (S2) Multiplikation mit Eins: Für jedes x ∈ V gilt 1 · x = x. (S3) Distributivgesetz für Vektoren: Für alle λ ∈ K und alle x, y ∈ V gilt λ · (x + y) = λ · x + λ · y. (S4) Distributivgesetz für Skalare: Für alle λ, µ ∈ K, x ∈ V gilt (λ + µ) · x = λ · x + µ · x. Beachte das die vier additiven Axiome (A1), (A2), (A3), (A4) mit den vier additiven Körperaxiomen aus §1.1 übereinstimmen. Daher gelten auch die Folgerungen aus diesen, wir wissen also das die Null 0 des Vektorraums eindeutig festgelegt ist, das die additive Inverse −x jedes Vektors x ∈ V eindeutig bestimmt ist und das −(x + y) = (−x) + (−y) für alle x, y ∈ V gilt. Außerdem können wir damit auch wieder die Subtraktion x − y := x + (−y) für Vektoren x, y ∈ V definieren. Schließlich folgen mit den multiplikativen Axiomen (S1) bis (S4) auch −x = (−1) · x und λ · x = 0 ⇐⇒ (λ = 0 ∨ x = 0) für alle x ∈ V , λ ∈ K. Dies kann man ähnlich wie die entsprechenden Aussagen für die multiplikativen Körperaxiome zeigen, und soll hier nicht vorgeführt werden. Es ist übrigens tatsächlich nötig 1 · x = x zu fordern, andernfalls wäre es möglich das λ · x = 0 für alle Vektoren x ∈ V und alle λ ∈ K gilt. In allgemeinen Vektorräumen läßt sich also wie gewohnt rechnen. Wir wollen jetzt einige Beispiele von Vektorräumen durchgehen. In der Vorlesung hatten wir dabei auf den expliziten Nachweis der Vektorraumaxiome verzichtet, hier wollen wir aber ruhig etwas ausführlicher sein. 225 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 1. Das Urbeispiel eines Vektorraums ist der Vektorraum K n der n-Tupel von Zahlen aus K, also Rn oder Cn . Die Addition derartiger n-Tupel und die Multiplikation mit Skalaren hatten wir in §7.1 eingeführt, und dort hatten wir auch bereits die Gültigkeit der verschiedenen Vektorraumaxiome festgehalten. 2. Ein sehr ähnliches Beispiel eines Vektorraums ist die Menge a · · · a 11 1n .. . m×n . .. .. a11 , . . . , amn ∈ K K := . a m1 · · · amn aller m × n Matrizen über K, erneut mit der in §7.1 eingeführten Addition und Multiplikation mit Skalaren. Auch hier hatten wir den Nachweis der Vektorraumaxiome bereits in §7.1 erbracht. In Wahrheit kann man diesen Vektorraum natürlich auch als den K nm auffassen, indem wir einfach die m · n Matrixeinträge hintereinander in einer Zeile hinschreiben. 3. Ein anderer wichtiger Typ von Vektorräumen sind Funktionsräume, also Mengen deren Elemente Funktionen sind. Ist M eine beliebige Menge, so betrachten wir die Menge K M := {f |f : M → K ist eine Abbildung} aller Abbildungen von M nach K. Die Elemente von K M können wir addieren, sind f, g ∈ K M , so sind f und g Abbildungen von M nach K, und wir definieren die Summe f + g dieser Abbildungen durch f + g : M → K; x 7→ f (x) + g(x). Ebenso können wir für eine Funktion f ∈ K M und eine Zahl λ ∈ K eine neue Funktion λ · f : M → K durch λ · f : M → K; x 7→ λf (x) definieren. Wir wollen jetzt nachweisen das V = K M mit dieser Addition und Multiplikation tatsächlich ein Vektorraum über K ist. Hierzu seien f, g, h ∈ K M und λ, µ ∈ K gegeben. Für jedes x ∈ M gelten dann ((f + g) + h)(x) = (f + g)(x) + h(x) = (f (x) + g(x)) + h(x) = f (x) + (g(x) + h(x)) = f (x) + (g + h)(x) = (f + (g + h))(x), und (f + g)(x) = f (x) + g(x) = g(x) + f (x) = (g + f )(x) sowie für die multiplikativen Aussagen (λ · (µ · f ))(x) = λ · (µ · f )(x) = λ · (µ · f (x)) = (λµ) · f (x) = ((λµ) · f )(x) 226 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 und (1 · f )(x) = 1 · f (x) = f (x) sowie (λ · (f + g))(x) = λ · (f + g)(x) = λ · (f (x) + g(x)) = λ · f (x) + λ · g(x) = (λf )(x) + (λg)(x) = (λf + λg)(x) und schließlich ((λ + µ) · f )(x) = (λ + µ) · f (x) = λ · f (x) + µ · f (x) = (λf )(x) + (µf )(x) = (λf + µf )(x), d.h. es sind (f + g) + h = f + (g + h), f + g = g + f , λ · (µ · f ) = (λµ) · f , 1 · f = f , λ · (f + g) = λ · f + λ · g und (λ + µ) · f = λ · f + µ · f . Damit haben wir die Axiome (A1), (A2), (S1), (S2), (S3) und (S4) nachgewiesen. Kommen wir zum Axiom (A3). Hier müssen wir eine Nullfunktion“ als die Null des Vektorraums ” K M definieren, und wir verwenden die Funktion 0 : M → K; x 7→ 0 die jedes x ∈ M auf den Skalar 0 abbildet. Beachte das hier das Symbol 0“ ” auf ein und derselben Zeile in zwei verschiedenen Bedeutungen verwendet wird, dies ist zwar etwas ungenau stellt sich aber als bequem heraus und wird daher üblicherweise so gemacht. Mit dieser Null ist das Axiom (A3) in K M erfüllt, denn ist f ∈ K M so gilt für jedes x ∈ M stets (0 + f )(x) = 0(x) + f (x) = 0 + f (x) = f (x), d.h. es ist 0 + f = f . Es verbleibt das Axiom (A4), sei also ein f ∈ K M gegeben. Dann definieren wir das additive Inverse −f ∈ K M durch −f : M → K; x 7→ −f (x). Für jedes x ∈ M ist dann ((−f ) + f )(x) = (−f )(x) + f (x) = (−f (x)) + f (x) = 0 = 0(x), d.h. es gilt (−f ) + f = 0 und alles ist bewiesen. 4. Ist im vorigen Beispiel M = N, so wird K N = {(an )n∈N | an ∈ K für alle n ∈ N} beispielsweise zum Vektorraum aller Folgen in K. 227 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 5. Sind V1 , V2 zwei Vektorräume über K so können wir auf dem cartesischen Produkt V := V1 × V2 durch (x, y) + (x0 , y 0 ) := (x + x0 , y + y 0 ) für alle x, x0 ∈ V1 , y, y 0 ∈ V2 eine Addition definieren und durch λ · (x, y) := (λx, λy) für alle λ ∈ K, x ∈ V1 , y ∈ V2 wird auch eine Multiplikation mit Skalaren erklärt. Mit diesen Verknüpfungen wird V = V1 × V2 zu einem Vektorraum über K genannt das Produkt oder das direkte Produkt der beiden Vektorräume V1 und V2 . Um dies einzusehen, müssen wir auch hier die acht Axiome eines Vektorraums nachweisen. Seien also x, x0 , x00 ∈ V1 , y, y 0 , y 00 ∈ V2 und λ, µ ∈ K gegeben. Dann haben wir (x, y) + (x0 , y 0 ) + (x00 , y 00 ) = (x + x0 , y + y 0 ) + (x00 , y 00 ) = ((x + x0 ) + x00 , (y + y 0 ) + y 00 ) = (x + (x0 + x00 ), y + (y 0 + y 00 )) = (x, y) + (x0 + x00 , y 0 + y 00 ) = (x, y) + (x0 , y 0 ) + (x00 , y 00 ) und (x, y) + (x0 , y 0 ) = (x + x0 , y + y 0 ) = (x0 + x, y 0 + y) = (x0 , y 0 ) + (x, y) sowie für die multiplikativen Aussagen λ · µ · (x, y) = λ · (µx, µy) = (λ(µx), λ(µy)) = ((λµ)x, (λµ)y) = (λµ) · (x, y) und 1 · (x, y) = (1 · x, 1 · y) = (x, y) sowie λ · (x, y) + (x0 , y 0 ) = λ · (x + x0 , y + y 0 ) = (λ(x + x0 ), λ(y + y 0 )) = (λx + λx0 , λy + λy 0 ) = (λx, λy) + (λx0 , λy 0 ) = λ · (x, y) + λ · (x0 , y 0 ) und schließlich (λ + µ) · (x, y) = ((λ + µ)x, (λ + µ)y) = (λx + µx, λy + µy) = (λx, λy) + (µx, µy) = λ · (x, y) + µ · (x, y). Damit sind alle Vektorraumaxiome bis auf (A3) und (A4) nachgewiesen. Das Nullelement in V = V1 × V2 definieren wir als 0 := (0, 0), wobei hier alle drei Nullen etwas unterschiedliches bedeuten, und haben dann für alle x ∈ V1 , y ∈ V2 stets 0 + (x, y) = (0, 0) + (x, y) = (0 + x, 0 + y) = (x, y), 228 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 d.h. (A3) gilt. Für (A4) geben wir uns letztlich x ∈ V1 , y ∈ V2 vor und setzen −(x, y) := (−x, −y). Dies ist dann tatsächlich das additive Inverse zu (x, y) denn es gilt (−(x, y)) + (x, y) = (−x, −y) + (x, y) = ((−x) + x, (−y) + y) = (0, 0) = 0. Betrachten wir etwa ganz konkret den Fall K = M = R, so ist V := RR die Menge aller reellen Funktionen f : R → R. Zum Beispiel sind dann die Sinusfunktion sin, der Cosinus cos, die Exponentialfunktion exp Elemente des Vektorraums V , und wir können Ausdrücke wie √ f := sin + 2 · cos − 2 · exp hinschreiben. Dies ist dann die Funktion f : R → R; x 7→ sin x + 2 cos x − √ 2ex . Hieran sieht man insbesondere, dass das Wort Vektor“ hier wirklich nur eine Rollen” beschreibung der Elemente x ∈ V und keine intrinsische Eigenschaft dieser Elemente ist. In unserem Vektorraum V = RR ist die Sinusfunktion sin selbst ein Vektor. Ebenso sprechen wir im Zusammenhang mit Vektorräumen oft von Skalaren statt von Zahlen, auch dies ist nur eine Rollenbezeichnung, Skalare sind einfach Zahlen, das andere Wort wird nur verwendet um anzudeuten, dass wir sie an Vektoren heranzumultiplizieren gedenken. Ein weiteres Beispiel eines Vektorraums ergibt sich aus den linearen Gleichungssystemen. Angenommen wir haben ein homogenes lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = 0 a21 x1 + a22 x2 + · · · + a2n xn = 0 (∗) .. .. .. .. . . . . am1 x1 + am2 x2 + · · · + amn xn = 0 über K. Dann können wir die Menge x1 .. n V := . ∈ K x1 , . . . , xn ist eine Lösung von (∗) x n aller Lösungen des Gleichungssystems betrachten. Nach §7.Satz 3.(a) sind Summen und Vielfache von Elementen aus V wieder Elemente aus V und somit haben wir eine auf V definierte Addition und eine auf V definierte Multiplikation mit Skalaren. Dass diese die Vektorraumaxiome erfüllen, V also ein Vektorraum ist, folgt im wesentlichen daraus das der umgebende K n ein Vektorraum ist. Die Axiome (A1), (A2), (S1), (S2), (S3) und (S4) fordern die Gültigkeit gewisser Formeln für alle Elemente von V , und 229 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 sind damit automatisch wahr da sie sogar für alle Elemente der größeren Menge K n gelten. Die verbleibenden Axiome (A3) und (A4) sind ein klein wenig komplizierter, da sie eine Existenzforderung enthalten. Für Axiom (A3) brauchen wir eine Null in V . Wir haben eine Null im K n , wir müssen also nur noch wissen das diese in V liegt. Dies ist glücklicherweise klar da die Null des K n gerade die triviale Lösung des homogenen linearen Gleichungssystems (∗) ist. Das letzte Axiom (A4) ist die Existenz additiver Inverser, und genau wie für die Null reicht es zu sehen, dass für jedes x ∈ V auch das in K n gebildete −x in V liegt. Dies ist wegen −x = (−1) · x klar. Damit ist auch die Lösungsmenge V ein Beispiel eines Vektorraums. 9.2 Untervektorräume und Erzeugendensysteme Wir hatten gesehen, dass die Lösungsmenge eines homogenen linearen Gleichungssystems in n Unbekannten einen Vektorraum bildet. Der Nachweis der acht Vektorraumaxiome ergab sich dabei im wesentlichen daraus, das diese alle im größeren Vektorraum K n gelten. Die verwendeten Eigenschaften homogener linearer Gleichungssysteme waren zum einen das Summen und Vielfache von Lösungen wieder Lösungen sind und zum anderen das der Nullvektor des K n eine Lösung ist. Diese Eigenschaften führen uns auf den Begriff eines sogenannten Untervektorraums. Definition 9.2 (Untervektorräume eines Vektorraums) Sei V ein Vektorraum. Eine Teilmenge U ⊆ V heißt ein Untervektorraum von V , geschrieben als U ≤ V , wenn sie die folgenden drei Bedingungen erfüllt: (U1) Es ist 0 ∈ U . (U2) Für alle x, y ∈ U ist auch x + y ∈ U . (U3) Für alle x ∈ U und alle λ ∈ K ist auch λx ∈ U . Anstelle von Untervektorraum“ werden wir oft auch das kürzere Synonym Teil” ” raum“ verwenden. Manchmal werden für die beiden Bedingungen (U2) und (U3) auch die Sprechweisen U ist abgeschlossen unter der Addition“ beziehungsweise U ist ab” ” geschlossen unter der Multiplikation mit Skalaren“ verwendet. Anstelle von (U1) kann man auch die bei Gültigkeit von (U3) äquivalente Bedingung U 6= ∅ verwenden, gibt es nämlich überhaupt ein x ∈ U so ist nach (U3) auch 0 = 0 · x ∈ U . Da U 6= ∅ aber eigentlich so gut wie immer bewiesen wird indem 0 ∈ U gezeigt wird, kann man dies auch gleich als die Bedingung verwenden. Genau wie wir eingesehen haben, dass die Lösungsmenge eines homogenen linearen Gleichungssystems einen Vektorraum bildet, ist auch jeder Untervektorraum eines Vektorraums V selbst ein Vektorraum, die Existenz additiver Inverser (A4) folgt dabei über −x = (−1) · x für jedes x ∈ V aus (U3). Ein Beispiel eines Untervektorraums sind natürlich die Lösungsmengen homogener linearer Gleichungssysteme in n Variablen als Untervektorräume des K n . Als ein etwas 230 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 komplizierteres Beispiel betrachten wir den Vektorraum K N aller Folgen in K. Dieser enthält die Menge C := (an )n∈N ∈ K N (an )n∈N ist konvergent , aller konvergenten Folgen und wir behaupten, dass C ein Untervektorraum von K N ist. Dass 0 ∈ C gilt, ist dabei klar, konstante Folgen sind ja insbesondere konvergent. Die beiden anderen Bedingungen (U2), (U3) besagen, dass Summen und Vielfache von konvergenten Folgen wieder konvergent sind, und dies ist gerade §4.Satz 6.(a,b). Also ist C ein Untervektorraum von K N , und somit selbst ein Vektorraum. Die für uns wichtigste Klasse von Untervektorräumen wird durch das Bilden des sogenannten Aufspanns gegebener Vektoren in einem Vektorraum V definiert. Um dieses Konzept einzuführen benötigen wir die sogenannten Linearkombinationen von Vektoren in einem Vektorraum. Definition 9.3 (Linearkombinationen) Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißt ein weiterer Vektor v ∈ V eine Linearkombination von v1 , . . . , vn , wenn es Skalare λ1 , . . . , λn ∈ K mit v = λ1 v 1 + . . . + λn v n = n X λk v k k=1 gibt. Die Menge aller Linearkombinationen von v1 , . . . , vn heißt das Erzeugnis, oder auch der Aufspann, von v1 , . . . , vn , geschrieben als ( n ) X hv1 , . . . , vn i = span(v1 , . . . , vn ) := λk v k λ1 , . . . , λ n ∈ K . k=1 Für Vektoren v1 , . . . , vn im Spaltenvektorraum K m ist es uns leicht möglich zu entscheiden, ob ein weiterer Vektor v eine Linearkombination der v1 , . . . , vn ist. Schreiben wir hierzu a1n a12 a11 v1 := ... , v2 := ... , . . . , vn := ... , amn am2 am1 so ist für alle x1 , . . . , xn ∈ K stets a12 a1n a11 x1 + · · · + a1n xn a11 .. x1 · ... + x2 · ... + · · · + xn · ... = . am2 amn am1 x1 + · · · + amn xn am1 also x1 x1 v1 + · · · + xn vn = A · ... , xn 231 Mathematik für Physiker I, WS 2016/2017 wobei Montag 16.1.2017 a11 · · · a1n .. , ... A := ... . am1 · · · amn die Matrix ist, deren Spalten gerade die Vektoren v1 , . . . , vn sind. Damit ist ein Vektor v ∈ K m genau dann eine Linearkombination der Vektoren v1 , . . . , vn wenn das lineare Gleichungssystem Ax = v eine Lösung hat. Insbesondere können wir dies mit dem Gaußschen Eliminationsverfahren effektiv entscheiden. Wir schauen uns dies einmal am Beispiel der drei Vektoren 3 1 1 −1 , v2 = 0 , v3 = 1 v1 = −3 −1 2 0 1 1 im R4 an und berechnen ihren Aufspann. Wir müssen alle b ∈ R4 bestimmen für die x1 v1 + x2 v2 + x3 v3 = b lösbar ist und rechnen 1 1 3 b1 1 1 3 b1 1 1 3 b1 0 1 4 b1 + b2 0 1 4 b1 + b2 −1 0 1 b2 −→ −→ 0 0 3 b3 + 3b2 + b1 0 −3 −9 b3 − 2b1 2 −1 −3 b3 0 0 −3 b4 − b1 0 0 −3 b4 − b1 1 1 0 b4 1 0 −→ 0 0 1 1 0 0 3 b1 4 b1 + b2 3 b3 + 3b2 + b1 0 b4 + b3 + 3b2 . Die vierte Zeile liefert uns die Lösbarkeitsbedingung und damit ist b 1 b 2 4 ∈ R 3b2 + b3 + b4 = 0 . hv1 , v2 , v3 i = b3 b4 Ein weiteres solches Beispiel ist Aufgabe (38), diese können wir auch so interpretieren das der Aufspann der vier Vektoren 1 −4 5 1 1 , v2 = −2 , v3 = 3 , v4 = 1 v1 = 7 −11 18 7 −2 3 −5 −2 im R4 berechnet wird. Die rechnerische Bestimmung des Aufspanns von Vektoren im K m stellt uns also vor keine neuen Probleme. Wir stellen jetzt die Grundeigenschaften von Untervektorräumen zusammen. 232 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 Lemma 9.1 (Grundeigenschaften von Untervektorräumen) Sei V ein Vektorraum über K. Dann gelten: (a) Die Mengen V und {0} sind Untervektorräume von V , genannt die beiden trivialen Untervektorräume. (b) Sind U ein Untervektorraum von V und W ein Untervektorraum von U , so ist W auch ein Untervektorraum von V . (c) Sind U, W zwei Untervektorräume von V , so ist auch der Durchschnitt U ∩ V ein Untervektorraum von V . (d) Sind U, W zwei Untervektorräume von V , so ist auch die Summe U + W := {x + y|x ∈ U, y ∈ W } ⊆ V ein Untervektorraum von V . (e) Sind v1 , . . . , vn ∈ V , so ist der Aufspann hv1 , . . . , vn i der kleinste Untervektorraum von V der v1 , . . . , vn enthält. Beweis: Die ersten drei Aussagen (a,b,c) sind alle klar. (d) Wir kommen daher zum Beweis von (d). Zunächst ist 0 = 0 + 0 ∈ U + W . Sind u, u0 ∈ U + W , so gibt es x, x0 ∈ U und y, y 0 ∈ W mit u = x + y und u0 = x0 + y 0 , also ist auch u + u0 = (x + x0 ) + (y + y 0 ) ∈ U + W . Weiter haben wir für jedes λ ∈ K dann auch λ · u = λ · (x + y) = λ · x + λ · y ∈ U + W . Damit ist auch U + W ein Untervektorraum von V und (d) ist bewiesen. P (e) Schreibe U := hv1 , . . . , vn i. Zunächst ist 0P= ni=1 0 · vi ∈ UP . Sind x, y ∈ U , so n existieren λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit x = i=1 λi vi und y = ni=1 µi vi . Damit ist auch n n n X X X x+y = λi v i + µi v i = (λi + µi )vi ∈ U. i=1 i=1 i=1 Außerdem ist für jedes λ ∈ K λ·x= n X (λλi )vi ∈ U. i=1 P Damit ist U ein Unterraum von K. Für jedes 1 ≤ i ≤ n gilt dabei vi = nj=1 δij vj ∈ U , es ist also v1 , . . . , vn ∈ U . Ist umgekehrt P W ≤ V ein Teilraum von V mit v1 , . . . , vn ∈ W , so gilt für alle λ1 , . . . , λn ∈ K auch ni=1 λi vi ∈ W , d.h. jede Linearkombination von v1 , . . . , vn liegt wieder in W . Damit ist U ⊆ W . Das im letzten Beweisteil verwendete Kronecker-Symbol“ ist dabei als ”( 1, α = β, δαβ := 0, α 6= β 233 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 definiert. Der Begriff des Aufspanns von Vektoren führt uns im nächsten Schritt zu den sogenannten Erzeugendensystemen eines Vektorraums. Definition 9.4 (Erzeugendensysteme eines Vektorraums) Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißen v1 , . . . , vn ein Erzeugendensystem von V wenn V = hv1 , . . . , vn i ist, wenn also jeder Vektor v ∈ V Linearkombination von v1 , . . . , vn ist. Auf einen Randfall wollen wir noch gesondert hinweisen, nämlich den Fall n = 0. Erinnern wir uns an die Konvention leere Summen“ als Null zu interpretieren, so ha” ben n = 0 viele Vektoren in V den Nullvektor als einzige Linearkombination und ihr Aufspann ist damit der triviale Untervektorraum h i = {0}. Insbesondere hat der triviale Vektorraum V = {0} ein aus Null Vektoren bestehendes Erzeugendensystem. Wir wollen nun noch einige wichtige Grundbeispiele von Erzeugendensystemen besprechen. 1. Das erste Beispiel ist dabei besonders trivial, aber wichtig. Für beliebige Vektoren v1 , . . . , vn ∈ V in einem Vektorraum V ist v1 , . . . , vn ein Erzeugendensystem des Aufspanns hv1 , . . . , vn i. 2. Der K n besitzt ein besonders einfaches Erzeugendensystem bestehend aus den Vektoren 1 0 0 0 1 0 e1 := .. , e2 := .. , . . . , en := .. , . . . 0 0 1 denn jeder Vektor x ∈ K n x1 x2 x = .. = x1 · . xn ist ja eine Linearkombination 1 0 1 0 .. + x2 · .. + · · · + xn · . . 0 0 0 0 .. . n X xk ek . = k=1 1 Im dreidimensionalen reellen Fall V = R3 , schreibt man gelegentlich i, j, k für die drei Vektoren e1 , e2 , e3 . 3. Analog bilden die Basismatrizen eij := (δik δjl )1≤k≤m,1≤l≤n für 1 ≤ i ≤ m, 1 ≤ j ≤ n ein Erzeugendensystem des Matrixraums K m×n . Das vorige Beispiel läßt sich als ein Spezialfall dieses Beispiels interpretieren, schreiben wir K n = K n×1 so wird ek = en1 k1 für jedes 1 ≤ k ≤ n. 4. Angenommen wir haben einen Vektorraum V mit Erzeugendensystem v1 , . . . , vn und einen weiteren Vektorraum W mit dem Erzeugendensystem w1 , . . . , wm . Im direkten Produkt V × W definieren wir dann die n + m Vektoren v i := (vi , 0) für 1 ≤ i ≤ n und wj := (0, wj ) für 1 ≤ j ≤ m 234 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 und behaupten das v 1 , . . . , v n , w1 , . . . , wm ein Erzeugendensystem von V × W ist. Ist nämlich x ∈ V × W ,P so ist x = (v, w) mit v ∈ V , w ∈ W undP es gibt Skalare n λ1 , . . . , λn ∈ K mit v = i=1 λi vi sowie µ1 , . . . , µm ∈ K mit w = m j=1 wj . Damit ist dann auch ! n m n m X X X X λi v i + µj w j = λi v i , µj wj = (v, w) = x i=1 j=1 i=1 j=1 und wir haben x als eine Linearkombination der betrachteten Vektoren dargestellt. 5. Ein weiteres Beispiel von Erzeugendensystemen kennen wir auch bereits aus unserer Diskussion linearer Gleichungssysteme aus §6. Angenommen wir haben ein homogenes lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = 0 a21 x1 + a22 x2 + · · · + a2n xn = 0 (∗) .. .. .. .. . . . . am1 x1 + am2 x2 + · · · + amn xn = 0 und betrachten die Menge V seiner Lösungen. Wie bereits bemerkt ist V ein Teilraum des K n , also selbst ein Vektorraum. Wenden wir nun das Gaußsche Eliminationsverfahren auf das lineare Gleichungssystem (∗) an, so erhalten wir ein äquivalentes lineares Gleichungssystem xi1 + c1,i1 +1 xi1 +1 + · · · + c1i2 xi2 + · · · + c1ir xir + · · · = 0 xi2 + · · · + c2ir xir + · · · = 0 .. .. . . xir + · · · = 0, in Stufenform, dessen untere m − r nur aus Nullen bestehende Zeilen hier fortgelassen werden, d.h. r ist die Anzahl der nach Anwendung des Gaußschen Eliminationsverfahrens verbleibenden nicht trivialen Zeilen. Wir haben hier die Variante des Eliminationsverfahrens verwendet, die den führenden Eintrag jeder verbleibenden Zeile durch Multiplikation mit einer Konstanten auf Eins bringt. Jede dieser r Zeilen legt eine der Unbekannten fest, d.h. die Werte von xi1 , . . . , xir werden festgelegt während die anderen Unbekannten frei bleiben. Dabei haben wir xir = −cr,ir +1 xir +1 − · · · − crn xn , xir−1 = −cr−1,ir−1 +1 xir−1 +1 − · · · − cr−1,ir xir − cr−1,ir +1 xir +1 − · · · − cr−1,n xn = −cr−1,ir−1 +1 xir−1 +1 − · · · − (cr−1,ir +1 − cr−1,ir cr,ir +1 )xir +1 − · · · − (cr−1,n − cr−1,ir crn )xn 235 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 und so weiter. Benennen wir die frei bleibenden Unbekannten in t1 , . . . , tn−r um, so können wir die allgemeine Lösung des homogenen linearen Gleichungssystems (∗) damit in der Form ∗ ∗ ∗ . .. .. .. . . . . . .. ∗ . 1 x = t1 · + t2 · ∗ + · · · + tn−r · ... 1 ... .. . . . .. .. ∗ 0 0 1 schreiben. Damit wird der Lösungsraum des homogenen linearen Gleichungssystems (∗) von diesen n − r Vektoren erzeugt. Der Lösungsraum V hat also ein aus n − r Vektoren bestehendes Erzeugendensystem. Dies sollte an einem kleinen Beispiel klarer werden. Wir betrachten das folgende homogene lineare Gleichungssystem in den Unbekannten x1 , . . . , x6 x1 + 2x4 − x5 =0 3x4 + x6 = 0 Die Unbekannten x2 , x3 kommen hier gar nicht vor, aber das ist gewollt. Dieses Gleichungssystem ist bereits in Stufenform, wobei die Unbekannten x1 und x4 festgelegt sind, während x2 , x3 , x5 und x6 frei bleiben. Wir haben 1 2 x4 = − x6 und x1 = x5 − 2x4 = x5 + x6 , 3 3 benennen wir also die freien Unbekannten x2 , x3 , x5 , x6 in t1 , t2 , t3 , t4 um, so wird der Lösungsraum dieses homogenen linearen Gleichungssystems zu 2 t t + 4 3 3 t 1 t 2 − 1 t4 t1 , t2 , t3 , t4 ∈ R 3 t3 t4 2 0 1 0 3 0 0 0 1 1 0 0 0 = t1 · + t2 · + t3 · + t4 · 1 t1 , t2 , t3 , t4 ∈ R . 0 0 − 3 0 0 0 0 1 1 0 0 0 236 Mathematik für Physiker I, WS 2016/2017 Montag 16.1.2017 Ein Erzeugendensystem des Lösungsraums besteht hier also aus den vier Vektoren 2 1 0 0 3 0 0 0 1 0 0 1 0 u1 = , u 2 = , u 3 = , u 4 = 1 . −3 0 0 0 0 1 0 0 0 0 0 1 Die spezielle Gestalt dieses Erzeugendensystems wird später noch einmal wichtig werden, jeder der Vektoren hat oben einige weitgehend beliebige Einträge, dann folgt eine 1 und der untere Teil des Vektors besteht nur aus Nullen. Gehen wir die Vektoren dabei von links nach rechts durch, so wird der untere aus Nullen bestehende Teil immer kleiner. Zum Abschluss dieses Abschnitts wollen wir noch die Grundeigenschaften von Erzeugendensystemen festhalten. Lemma 9.2 (Grundeigenschaften von Erzeugendensystemen) Sei V ein Vektorraum über K. (a) Sind v1 , . . . , vn , w1 , . . . , wm ∈ V , so ist hv1 , . . . , vn , w1 , . . . , wm i = hv1 , . . . , vn i + hw1 , . . . , wm i. (b) Sind v1 , . . . , vn ein Erzeugendensystem von V und w1 , . . . , wm ∈ V mit vi ∈ hw1 , . . . , wm i für alle 1 ≤ i ≤ n, so ist auch w1 , . . . , wm ein Erzeugendensystem von V . Beweis: (a) Es ist hv1 , . . . , vn i + hw1 , . . . , wm i ( n ) ( m ) X X λi v i λ1 , . . . , λ n ∈ K + µi wi µ1 , . . . , µm ∈ K = i=1 (i=1 ) n m X X λ , . . . , λn ∈ K, = λi v i + µj wj 1 = hv1 , . . . , vn , w1 , . . . , wm i. µ1 , . . . , µ m ∈ K i=1 j=1 (b) Nach Lemma 1.(e) gilt V = hv1 , . . . , vn i ⊆ hw1 , . . . , wm i ⊆ V, also ist auch V = hw1 , . . . , wm i, d.h. w1 , . . . , wm ist ein Erzeugendensystem von V . Aussage (b) des Lemmas ist oft nützlich um bei gegebenen Vektoren nachzuweisen, dass sie ein Erzeugendensystem bilden. Anstatt einzusehen, dass man jeden anderen Vektor als Linearkombination dieser Vektoren schreiben kann, reicht es dies für die Vektoren eines bereits bekannten Erzeugendensystems zu tun. 237 Mathematik für Physiker I, WS 2016/2017 9.3 Freitag 20.1.2017 Lineare Unabhängigkeit, Basen und Dimension Haben wir ein Erzeugendensystem v1 , . . . , vn des Vektorraums V , so können wir jeden Vektor v ∈ V als eine Linearkombination v = λ1 v 1 + · · · + λn v n schreiben, aber leider ist diese Darstellung im Allgemeinen nicht eindeutig. Betrachten wir zum Beispiel einmal im R2 die drei Vektoren 1 1 1 v1 = , v2 = und v3 = . 1 −1 2 Wegen e1 = (1/2)(v1 + v2 ) und e2 = v3 − v1 sind v1 , v2 , v3 nach Lemma 2.(b) ein Erzeugendensystem des R2 . In diesem Erzeugendensystem können wir andere Vektoren auf mehrere verschiedene Arten als Linearkombinationen schreiben, zum Beispiel ist 1 1 e2 = v3 − v1 = v1 − v2 . 2 2 Von besonderem Interesse sind nun natürlich diejenigen Erzeugendensysteme für die die Darstellung anderer Vektoren als Linearkombination eindeutig ist. Die hierfür zuständige Bedingung ist die sogenannte lineare Unabhängigkeit. Definition 9.5 (Lineare Unabhängigkeit) Sei V ein Vektorraum. Dann heißen die Vektoren v1 , . . . , vn ∈ V linear unabhängig, wenn für alle Skalare λ1 , . . . , λn ∈ K aus λ1 v1 +· · ·+λn vn = 0 bereits λ1 = · · · = λn = 0 folgt. Andernfalls nennt man v1 , . . . , vn linear abhängig. Die Vektoren v1 , v2 , v3 des obigen Beispiels sind dann nicht linear unabhängig, da ja etwa 3 1 v1 − v2 − v3 = 0 2 2 gilt. Beachte das die lineare Unabhängigkeit auch die Eindeutigkeit der Koeffizienten in einer Linearkombination bedeutet, sind nämlich λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit λ 1 v 1 + · · · + λ n v n = µ1 v 1 + · · · + µn v n so folgt auch (λ1 − µ1 )v1 + · · · + (λn − µn )vn = 0, und damit ist λk − µk = 0, also λk = µk , für alle k = 1, . . . , n. Vorlesung 21, Freitag 20.1.2017 238 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 Am Ende hatten wir den Begriff der linearen Unabhängigkeit von Vektoren eingeführt, Vektoren v1 , . . . , vn in einem Vektorraum V hießen linear unabhängig wenn sich der Nullvektor nur auf triviale Weise als Linearkombination dieser Vektoren schreiben läßt, aus λ1 v1 +· · ·+λn vn = 0 soll also λ1 · · · = λn = 0 folgen. Wir wollen uns jetzt kurz klarmachen wie man die lineare Unabhängigkeit von Vektoren in einem Spaltenvektorraum K m rechnerisch nachweist. Seien also v1 , . . . , vn Vektoren im K m , und schreibe a1n a12 a11 v1 = ... , v2 = ... , . . . , vn = ... . amn am2 am1 Die Linearkombinationen dieser Vektoren sind dann a11 λ1 + · · · + a1n λn ! .. λ1 v 1 + · · · + λn v n = = . am1 λ1 + · · · + amn λn 0 .. , . 0 und da die Vektoren v1 , . . . , vn nach Definition genau dann linear unabhängig sind, wenn diese Gleichung nur durch λ1 = · · · = λn = 0 lösbar ist, sind sie auch genau dann linear unabhängig wenn das homogene lineare Gleichungssystem + · · · + a1n xn .. . = 0 .. . am1 x1 + · · · + amn xn = 0 a11 x1 .. . nur die triviale Lösung hat. Diese Bedingung können wir rechnerisch noch etwas weiter auswerten. Nehme hierzu wieder an, dass wir das Gaußsche Eliminationsverfahren mit dem obigen homogenen linearen Gleichungssystem laufen lassen, und das dieses mit einen System in Stufenform das aus r Gleichungen 6= 0 besteht endet. Dann sind r der n Unbekannten durch das Gleichungssystem festgelegt, es hat also genau dann nur die triviale Lösung wenn r = n ist. Damit gilt auch Das Gaußssche Eliminationsverfahren angewandt auf die Matrix deren Spalten v1 , . . . , vn sind linear unabhängig ⇐⇒ die Vektoren v1 , . . . , vn sind endet mit n von Null verschiedenen Zeilen. Insbesondere stellt der Nachweis der linearen Unabhängigkeit im K m uns vor keine neuen rechnerischen Probleme. Wir wollen jetzt unsere Beispiele von Erzeugendensystemen aus dem vorigen Abschnitt auf lineare Unabhängigkeit überprüfen. 1. Starten wir für n ∈ N mit n ≥ 1 mit den Vektoren e1 , . . . , en ∈ K n . Für alle λ1 , . . . , λn ∈ K haben wir dann 1 0 0 λ1 n 0 1 0 λ2 X λk ek = λ1 .. + λ2 .. + · · · + λn .. = .. , . . . . k=1 0 0 1 λn 239 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 und damit folgt aus λ1 e1 + · · · + λn en = 0 sofort λ1 = · · · = λn = 0. Folglich sind e1 , . . . , en linear unabhängig. 2. Etwas allgemeiner sind auch die Basismatrizen zu gegebener Größe linear unabhängig, d.h. sind n, m ∈ N mit n, m ≥ 1 so sind die Matrizen enm kl für 1 ≤ k ≤ m×n m, 1 ≤ l ≤ n im Vektorraum K linear unabhängig. Dies folgt genau wie im vorigen Beispiel, sind λklP∈ K für 1 ≤ k ≤ m, 1 ≤ l ≤ n gegeben, so ist die Linearkombination A = 1≤k≤m,1≤l≤n λkl enm kl die m × n-Matrix deren Eintrag für 1 ≤ k ≤ m, 1 ≤ l ≤ n in der k-ten Zeile und l-ten Spalte gleich Akl = λkl ist, also folgt aus A = 0 wieder λkl = 0 für alle 1 ≤ k ≤ m, 1 ≤ l ≤ n. 3. Nun seien V, W zwei Vektorräume über K und v1 , . . . , vn ∈ V im Vektorraum V linear unabhängig und w1 , . . . , wm ∈ W im Vektorraum W linear unabhängig. Wir bilden das direkte Produkt V × W und betrachten in diesem für 1 ≤ i ≤ n, 1 ≤ j ≤ m die Vektoren v i := (vi , 0) und wj := (0, wj ). Dann sind die Vektoren v 1 , . . . , v n , w1 , . . . , wm in V ×WPlinear unabhängig. In der Pm n Tat, haben wir Skalare λ1 , . . . , λn , µ1 , . . . , µm ∈ K mit i=1 λi v i + j=1 µj wj = 0, so ist ! n m m n X X X X λi v i + µj w j = µj wj , 0= λi v i , i=1 j=1 i=0 j=1 Pn also haben P wir zum einen i=1 λi vi = 0 und somit λ1 = · · · = λn = 0 und zum anderen m j=1 µj wj = 0 und somit µ1 = · · · = µm = 0. 4. Kommen wir nun zu den n − r Vektoren u1 , . . . , un−r , die den Lösungsraum des homogenen linearen Gleichungssystems Ax = 0 aufspannen. Diese Vektoren hatten die spezielle Form ∗ ∗ ∗ .. .. .. . . . . . . ∗ .. . 1 u1 = , u2 = ∗ , . . . , un−r = ... , ... 1 .. . . . .. .. ∗ 0 0 1 und wir behaupten, dass sie linear unabhängig sind. Seien nämlich λ1 , . . . , λn−r ∈ K mit λ1 u1 + · · · + λn−r un−r = 0 gegeben. Beachten wir nun, dass nur der letzte Vektor un−r in der untersten Zeile eine Eins hat, während die restlichen Vektoren 240 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 u1 , . . . , un−r−1 an dieser Stelle eine Null haben, so ∗ n−r .. X 0= λk u k = . ∗ k=1 λn−r haben wir , also ist zumindest λn−r = 0. Damit ist aber auch λ1 u1 + · · · + λn−r−1 un−r−1 = 0. Schauen wir uns dann beim jetzt letzten Vektor un−r−1 die unterste von Null verschiedene Zeile an, so haben alle anderen Vektoren u1 , . . . , un−r−2 dort eine Null, und es folgt wieder λn−r−1 = 0. So fortfahrend erhalten wir schließlich λn−r = λn−r−1 = · · · = λ1 = 0. Damit sind u1 , . . . , un−r tatsächlich linear unabhängig, und somit wird der Lösungsraum eines homogenen linearen Gleichungssystems von n − r linear unabhängigen Vektoren erzeugt, wobei r wieder die Anzahl der nach dem Gaußschen Eliminationsverfahren verbleibenden von Null verschiedenen Zeilen bezeichnet. Nach diesen Beispielen kommen wir jetzt zu einer ganzen Sequenz eher theoretischer Aussagen über lineare Unabhängigkeit und Erzeugendensysteme in einem abstrakten Vektorraum. In der Vorlesung wurden diese Tatsachen nur übersichtsweise vorgestellt und nicht weitergehend begründet. In diesem Skript wollen wir die vollständigen Beweise mit angeben. Lemma 9.3 (Grundeigenschaften der linearen Unabhängigkeit) Seien V ein Vektorraum über K und v1 , . . . , vn ∈ V . (a) Ist v ∈ V , so sind v1 , . . . , vn , v genau dann linear unabhängig wenn v1 , . . . , vn linear unabhängig sind und v ∈ / hv1 , . . . , vn i gilt. (b) Die folgenden Aussagen sind äquivalent: 1. Die Vektoren v1 , . . . , vn sind linear unabhängig. 2. Kein vi ist eine Linearkombination der anderen, d.h. für jedes 1 ≤ i ≤ n ist vi ∈ / hv1 , . . . , vbi , . . . , vn i (dabei ist b das sogenannte Auslassungssymbol, d.h. die so bezeichneten Terme sollen weggelassen werden). 3. Für jedes 1 ≤ i ≤ n ist vi ∈ / hv1 , . . . , vi−1 i. Beweis: (a) ”=⇒” Dass die Vektoren v1 , . . . , vn linear Pnunabhängig sind ist klar. Wäre v ∈ hv1 , . . . , vn i, so gäbe es λ1 , . . . , λn ∈ K mit v = i=1 λi vi , und dann ist auch 1·v+ n X (−λi )vi = v − i=1 n X λi vi = 0, i=1 im Widerspruch zur linearen Unabhängigkeit von v1 , . . . , vn , v. 241 Mathematik für Physiker I, WS 2016/2017 ”⇐=” Seien λ, λ1 , . . . , λn ∈ K mit λv + Pn i=1 Freitag 20.1.2017 λi vi = 0. Wäre λ 6= 0, so hätten wir n n X 1X λi λi v i = − vi ∈ hv1 , . . . , vn i, v=− λ i=1 λ i=1 P also muss λ = 0 sein. Wegen ni=1 λi vi = 0 ist damit auch λ1 = · · · = λn = 0, d.h. v1 , . . . , vn , v sind linear unabhängig. (b) (1)=⇒(2). Klar nach (a). (2)=⇒(3). Klar. (3)=⇒(1). Wir zeigen durch vollständige Induktion nach k ∈ N das v1 , . . . , vk für jedes 0 ≤ k ≤ n linear unabhängig sind. Für k = 0 ist dies klar. Nun sei k ∈ N mit 1 ≤ k ≤ n gegeben und nehme an das v1 , . . . , vk−1 linear unabhängig sind. Wegen vk ∈ / hv1 , . . . , vk−1 i sind dann auch v1 , . . . , vk nach (a) linear unabhängig. Damit ist diese Aussage durch vollständige Induktion bewiesen und insbesondere sind v1 , . . . , vn linear unabhängig. Wir hatten die Vektoren v1 , . . . , vn linear abhängig genannt wenn sie nicht linear unabhängig sind, und damit besagt der Satz, dass v1 , . . . , vn genau dann linear abhängig sind, wenn für einen der Vektoren vi die Bedingung vi ∈ hv1 , . . . , vbi , . . . , vn i erfüllt ist, d.h. wenn sich ein vi als Linearkombination der anderen vj schreiben läßt. Entsprechend sagt man häufig auch anstelle von v ist eine Linearkombination von v1 , . . . , vn“ das ” v von v1 , . . . , vn linear abhängt“. ” Ist v1 , . . . , vn ein Erzeugendensystem des Vektorraums V , so läßt sich jedes v ∈ V als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, und sind die v1 , . . . , vn zusätzlich linear unabhängig, so sind die Koeffizienten λ1 , . . . , λn in dieser Linearkombination eindeutig bestimmt. In dieser Situation sprechen wir dann von einer Basis des Vektorraums V . Definition 9.6 (Basen eines Vektorraums) Sei V ein Vektorraum über K. Eine Basis von V ist ein linear unabhängiges Erzeugendensystem v1 , . . . , vn von V . Wir wollen einsehen, dass jeder nicht zu große“ Vektorraum eine Basis hat. Was dabei ” nicht zu groß“ bedeutet werden wir bald genau sagen. Es gibt durchaus Vektorräume ” die überhaupt kein (endliches) Erzeugendensystem, und damit auch keines Basis, haben, beispielsweise der reelle Vektorraum aller Funktionen f : R → R. Die Existenz von Basen in den anderen Fällen ergibt sich leicht durch eine kleine Umformulierung des Begriffs einer Basis, die wir in unserem nächsten Lemma beweisen werden. Lemma 9.4 (Charakterisierung der Basen eines Vektorraums) Seien V ein Vektorraum über K und v1 , . . . , vn ∈ V . Dann sind die folgenden Aussagen äquivalent: (a) Die Vektoren v1 , . . . , vn sind eine Basis von V . 242 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 (b) Die Vektoren v1 , . . . , vn sind maximal linear unabhängig, also linear unabhängig und es kann kein weiterer Vektor zu ihnen hinzugefügt werden so, dass das vergrößerte System linear unabhängig bleibt. (c) Die Vektoren v1 , . . . , vn sind ein minimales Erzeugendensystem von V , d.h. sie bilden ein Erzeugendensystem von V und läßt man auch nur einen Vektor weg, so bilden die restlichen Vektoren kein Erzeugendensystem. Beweis: (a)=⇒(b). Jedes v ∈ V ist eine Linearkombination von v1 , . . . , vn , also sind v1 , . . . , vn , v nach Lemma 3.(a) nicht linear unabhängig. (b)=⇒(a). Ist v ∈ V , so sind v1 , . . . , vn , v nicht linear unabhängig, also ist nach Lemma 3.(a) auch v ∈ hv1 , . . . , vn i. Damit ist v1 , . . . , vn auch ein Erzeugendensystem von V , also eine Basis von V . (a)=⇒(c). Für 1 ≤ i ≤ n ist nach Lemma 3.(b) stets vi ∈ / hv1 , . . . , vbi , . . . , vn i und insbesondere sind v1 , . . . , vbi , . . . , vn kein Erzeugendensystem von V . (c)=⇒(a). Wäre vi ∈ hv1 , . . . , vbi , . . . , vn i für ein 1 ≤ i ≤ n, so wären auch die Vektoren v1 , . . . , vbi , . . . , vn nach Lemma 2.(b) ein Erzeugendensystem von V , im Widerspruch zur vorausgesetzten Minimalität von v1 , . . . , vn . Also ist vi ∈ / hv1 , . . . , vbi , . . . , vn i für jedes 1 ≤ i ≤ n, und nach Lemma 3.(b) sind v1 , . . . , vn linear unabhängig, also eine Basis von V . Gibt es also überhaupt ein Erzeugendensystem v1 , . . . , vn von V , so können wir aus diesem solange Vektoren rauswerfen bis wir zu einem minimalen Erzeugendensystem kommen, und dieses ist dann eine Basis von V . Man kann also jedes Erzeugendensystem eines Vektorraums zu einer Basis ausdünnen. Das eben bewiesene Lemma scheint auch zu zeigen, dass man linear unabhängige Vektoren immer zu einer Basis ergänzen kann. Angenommen wir starten mit linear unabhängigen Vektoren v1 , . . . , vn in V . Sind diese maximal, so sind sie bereits eine Basis von V . Andernfalls kann man sie durch einen Vektor vn+1 ∈ V zu einem linear unabhängigen System v1 , . . . , vn , vn+1 ergänzen. Ist dieses System maximal, so haben wir wieder eine Basis von V . Andernfalls können wir einen weiteren Vektor vn+2 ∈ V hinzufügen. Führen wir dies immer so weiter, so sollten wir schließlich auf eine Basis von V stossen. Leider muss das nicht so sein, es kann passieren das wir immer wieder einen neuen Vektor hinzufügen können, ohne je zu einem Ende zu kommen. Wir werden zeigen, dass dies nur passieren kann wenn der Vektorraum V zu groß“ ist. Sobald sich V von Vektoren w1 , . . . , wm erzeugen läßt, ” muss das Verfahren zu einem Ende kommen. Zunächst führen wir einen Namen für solche Vektorräume ein. Definition 9.7: Ein Vektorraum V heißt endlich erzeugt wenn er ein Erzeugendensystem v1 , . . . , vn ∈ V besitzt. Wie bereits gezeigt muss jedes solche eine Basis enthalten, und insbesondere hat jeder endlich erzeugte Vektorraum eine Basis. Es wäre aber immer noch denkbar das es unendlich lange Ketten linear unabhängiger Vektoren gibt, selbst wenn der Vektorraum 243 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 endlich erzeugt ist. Um einzusehen, dass dies nicht passieren kann beweisen wir gleich den sogenannten Steinitzschen Austauchsatz. Die Hauptaussage dieses Satz ist ihnen wohlbekannt, in den R2 passen nur zwei linear unabhängige Vektoren rein, in den R3 nur drei Stück und der Steinitzsche Austauschsatz verallgemeinert diese Tatsachen und sagt unter anderem, dass in einem Vektorraum mit einer Basis aus n Vektoren auch höchstens n linear unabhängige Vektoren hineinpassen. Lemma 9.5 (Steinitzsches Austauschlemma für Vektorräume) Seien V ein Vektorraum über K, w1 , . . . , wm ∈ V linear unabhängig und weiter seien auch v1 , . . . , vn ∈ hw1 , . . . , wm i linear unabhängig. Dann ist n ≤ m und wir können n der m Vektoren w1 , . . . , wm durch v1 , . . . , vn ersetzen so, dass das entstehende System 0 0 w10 , . . . , wm linear unabhängig mit hw1 , . . . , wm i = hw10 , . . . , wm i ist. Beweis: Wir beweisen dies durch Induktion nach n. Für n = 0 ist die Behauptung dabei klar. Nun sei n ∈ N und die Behauptung gelte für n linear unabhängige Vektoren v1 , . . . , vn ∈ hw1 , . . . , wm i. Wir kommen zum Induktionsschluß, seien also n + 1 linear unabhängige Vektoren v1 , . . . , vn+1 ∈ hw1 , . . . , wm i gegeben. Nach der Induktionsannahme ist n ≤ m und nach eventuellen Umnumerieren der w1 , . . . , wm können wir annehmen, dass v1 , . . . , vn , wn+1 , . . . , wm linear unabhängig mit hv1 , . . . , vn , wn+1 , . . . , wm i = hw1 , . . . , wm i sind. Insbesondere ist vn+1 ∈ hw1 , . . . , wm i = hv1 , . . . , vn , wn+1 , . . . , wm i, also existieren Skalare λ1 , . . . , λm ∈ K mit vn+1 = n X λi v i + i=1 m X λi wi . i=n+1 Da v1 , . . . , vn+1 linear unabhängig sind, ist nach Lemma 3.(b) aber vn+1 ∈ / hv1 , . . . , vn i und damit kann nicht λn+1 = · · · = λm = 0 sein, d.h. es ist n + 1 ≤ m und es gibt ein n < i ≤ m mit λi 6= 0. Durch ein weiteres eventuelles Umnumerieren der Vektoren wn+1 , . . . , wm können wir i = n + 1, also λn+1 6= 0 annehmen. Da die Vektoren v1 , . . . , vn , wn+1 , . . . , wm linear unabhängig sind, ergibt die Eindeutigkeit der Darstellung von vn+1 als Linearkombination auch vn+1 ∈ / hv1 , . . . , vn , wn+2 , . . . , wm i, also sind v1 , . . . , vn , vn+1 , wn+2 , . . . , wm nach Lemma 3.(a) linear unabhängig. Wegen ! n m X X 1 wn+1 = − λi vi + vn+1 − λi wi ∈ hv1 , . . . , vn+1 , wn+2 , . . . , wm i λn+1 i=1 i=n+2 ist nach Lemma 2.(b) auch hv1 , . . . , vn+1 , wn+2 , . . . , wm i = hv1 , . . . , vn , wn+1 , . . . , wm i = hw1 , . . . , wm i. 244 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 Damit ist die Behauptung auch für n + 1 bewiesen, und per vollständiger Induktion ist damit alles gezeigt. In einem endlich erzeugten Vektorraum V hatten wir bereits gesehen, dass es stets eine Basis gibt, und nach dem Steinitzschen Austauschlemma kann es in V keine beliebig großen Systeme linear unabhängiger Vektoren geben. Damit liefert die weiter oben beschriebene Konstruktion, dass sich linear unabhängige Vektoren in V stets zu einer Basis von V ergänzen lassen und es ist bereits der Hauptteil des nun folgenden Satzes bewiesen. Satz 9.6 (Existenz von Basen und Dimension) Sei V ein endlich erzeugter Vektorraum über K. (a) Es gibt eine Basis v1 , . . . , vn von V . (b) Jedes Erzeugendensystem von V enthält eine Basis von V . (c) Sind v1 , . . . , vn ∈ V linear unabhängig, so lassen sich diese Vektoren zu einer Basis v1 , . . . , vm von V ergänzen. (d) Sind v1 , . . . , vn und w1 , . . . , wm zwei Basen von V , so ist n = m. Beweis: (b,c) Dies haben wir bereits eingesehen. (a) Klar nach (b). (d) Nach Lemma 5 sind n ≤ m und m ≤ n, also n = m. Die nach dem Satz eindeutig bestimmte Länge einer Basis von V wird als die Dimension des Vektorraums V bezeichnet. Definition 9.8: Sei V ein endlich erzeugter Vektorraum. Die Dimension dim V von V ist dann die nach Satz 6 eindeutig bestimmte Länge einer Basis von V . Wir schauen uns jetzt wieder einige Beispiele zu den eben bewiesenen Sätzen an. 1. Sei n ∈ N mit n ≥ 1 und betrachte die schon oben eingeführten Vektoren e1 , . . . , en ∈ K n im Spaltenvektorraum K n . Wir haben bereits eingesehen das diese ein linear unabhängiges Erzeugendensystem des K n , also eine Basis, sind. Diese Basis wird auch als die kanonische Basis oder die Standardbasis des K n bezeichnet. Da die kanonische Basis aus n Elementen besteht ist der K n insbesondere endlich erzeugt mit dim K n = n. 2. Etwas allgemeiner seien n, m ∈ N mit n, m ≥ 1 gegeben und betrachte den Vektorraum K m×n der m × n-Matrizen über K. Wir haben bereits gesehen das die Basismatrizen emn kl für 1 ≤ k ≤ m, 1 ≤ l ≤ n ein linear unabhängiges Erzeugendensystem von K m×n bilden, d.h. K m×n ist endlich erzeugt und die 245 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 Basismatrizen bilden eine Basis dieses Vektorraums, genannt die kanonische Basis oder die Standardbasis von K m×n . Dies erklärt auch weshalb wir diese Matrizen als Basismatrizen“ bezeichnet haben. Die Standardbasis hat m·n Elemente, also ” gilt dim K m×n = mn. 3. Nun seien V, W zwei endlich erzeugte Vektorräume über K. Dann wissen wir bereits das es eine Basis v1 , . . . , vn von V und eine Basis w1 , . . . , wm von W gibt, insbesondere sind also n = dim V und m = dim W . Im direkten Produkt V × W bilden wir jetzt für 1 ≤ i ≤ n, 1 ≤ j ≤ m die Vektoren v i := (vi , 0) und wj := (0, wj ). In zwei früher behandelten Beispielen hatten wir bereits nachgerechnet, dass v 1 , . . . , v n , w1 , . . . , wm ein linear unabhängiges Erzeugendensystem von V × W , also eine Basis von V × W , ist. Damit ist das direkte Produkt V × W endlich erzeugt und es gilt dim(V × W ) = n + m = dim V + dim W . 4. Ist + · · · + a1n xn + · · · + a2n xn .. . = 0 = 0 .. . am1 x1 + am2 x2 + · · · + amn xn = 0 a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . ein homogenes lineares Gleichungssystem, und verbleiben nach Ablauf des Gaußschen Eliminationsverfahrens r von Null verschiedene Zeilen, so haben wir oben eingesehen, dass das Eliminationsverfahren uns dann ein Erzeugendensystem des Lösungsraums U des Gleichungssystems liefert, das aus n − r linear unabhängigen Vektoren besteht. Dieses Erzeugendensystem ist dann eine Basis von U , und insbesondere ist dim U = n − r. Hieraus folgt insbesondere, dass das Gaußsche Eliminationsverfahren unabhängig von den konkret gewählten Zeilenoperationen am Ende immer auf dieselbe Anzahl von Null verschiedener Zeilen führt. Ist die Dimension des endlich erzeugten Vektorraums V bereits bekannt, so läßt sich die explizite Bestimmung von Basen rechnerisch noch etwas vereinfachen. Wollen wir n Vektoren v1 , . . . , vn aus V ansehen ob sie eine Basis bilden, so muss man eigentlich zeigen das sie zugleich linear unabhängig und ein Erzeugendensystem sind. Wenn allerdings die Zahl n bereits die Dimension von V ist, also n = dim V , so reicht es eine der beiden Bedingungen zu überprüfen, d.h. ein aus n = dim V Vektoren bestehendes Erzeugendensystem ist automatisch auch linear unabhängig und n = dim V viele linear unabhängige Vektoren bilden automatisch ein Erzeugendensystem. Diese Tatsachen lassen sich leicht beweisen. Korollar 9.7: Sei V ein endlich erzeugter Vektorraum und seien v1 , . . . , vn ∈ V . 246 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 (a) Sind v1 , . . . , vn ein Erzeugendensystem von V , so ist n ≥ dim V und v1 , . . . , vn ist genau dann eine Basis von V wenn n = dim V ist. (b) Sind v1 , . . . , vn linear unabhängig so ist n ≤ dim V und genau dann ist v1 , . . . , vn eine Basis von V wenn n = dim V gilt. Beweis: (a) Nach Satz 6.(b) bilden m ≤ n viele der Vektoren v1 , . . . , vn eine Basis von V . Insbesondere ist n ≥ m = dim V und gilt n = dim V , so ist n = m und unsere Vektoren bilden selbst eine Basis von V . Sind umgekehrt v1 , . . . , vn eine Basis von V , so ist n = dim V . (b) Nach Satz 6.(c) lassen sich v1 , . . . , vn zu einer Basis v1 , . . . , vm von V ergänzen, und insbesondere ist n ≤ m = dim V . Ist dabei n = dim V = m, so sind v1 , . . . , vn selbst eine Basis von V . Ist umgekehrt v1 , . . . , vn als Basis von V vorausgesetzt, so ist auch n = dim V . Sind also insbesondere a11 v1 = ... , v2 = an1 a12 .. , . . . , v = n . an2 a1n .. , . ann n Vektoren im K n , so ist v1 , . . . , vn genau dann eine Basis des K n , wenn sie linear unabhängig sind also wenn das homogene lineare Gleichungssystem + · · · + a1n xn .. . = 0 .. . am1 x1 + · · · + amn xn = 0 a11 x1 .. . nur die triviale Lösung hat, und wie bereits gezeigt ist dies weiter genau dann der Fall wenn das Gaußsche Eliminationsverfahren angewendet auf die n × n Matrix A mit den Spalten v1 , . . . , vn bis zur untersten Zeile durchläuft, also n von Null verschiedene Zeilen liefert. Wir wollen dies an einem kleinen Beispiel im R3 illustrieren. Betrachte etwa die drei Vektoren 1 −1 0 v1 := −1 , v2 := −1 , v3 := 3 . 1 −1 0 Um zu überprüfen, ob diese eine Basis sind können wir also die Matrix A mit Spalten v1 , v2 , v3 hinschreiben, und lassen dann das Gaußsche Eliminationsverfahren auf A laufen. Kommt dieses bei der untersten Zeile an, tritt also vorher keine nur aus Nullen bestehende Zeile auf, so sind die drei Vektoren eine Basis des R3 und sonst nicht. Führen wir dies einmal durch 1 −1 0 1 −1 0 1 −1 0 −1 −1 3 → 0 −2 3 → 0 −2 3 0 1 −1 0 1 −1 0 0 12 . 247 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 Die Stufenform hat also drei von Null verschiedene Zeilen, und somit bilden v1 , v2 , v3 eine Basis des R3 . 9.4 Koordinatentransformationen Sei V ein endlich erzeugter Vektorraum und bezeichne n = dim V seine Dimension. Weiter sei v1 , . . . , vn eine Basis von V . Dann können wir jeden Vektor v ∈ V in eindeutiger Weise als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, man nennt λ1 , . . . , λn ∈ K dann die Koordinaten des Vektors v bezüglich der Basis v1 , . . . , vn . Diese Koordinaten hängen natürlich von der gewählten Basis ab, verwenden wir eine andere Basis, so ergeben sich auch andere Koordinaten. Wir wollen uns überlegen wie die Koordinaten eines Vektors bezüglich verschiedener Basen miteinander zusammenhängen. Zu diesem Zweck ist es hilfreich die sogenannten Koordinatenabbildungen einzuführen, diese ordnen den Koordinaten λ1 , . . . , λn ihren zugehörigen Vektor zu. In anderen Worten ist die Koordinatenabbildung Ψ bezüglich der Basis v = (v1 , . . . , vn ) die bijektive Abbildung n Ψ : K → V ; (λ1 , . . . , λn ) 7→ n X λi v i . i=1 Wir schreiben Ψ = Ψv für die Koordinatenabbildung von V bezüglich der Basis v = (v1 , . . . , vn ) wenn wir die betrachtete Basis in der Notation hervorheben wollen. Ist beispielsweise V = K n und e := (e1 , . . . , en ) die kanonische Basis des K n , so ist die zugehörige Koordinatenabbildung durch x1 Ψ(x) = x1 e1 + · · · + xn en = ... xn gegeben, d.h. Ψe = idK n ist die identische Abbildung. Ist dagegen 1 −1 0 v1 := −1 , v2 := −1 , v3 := 3 0 1 −1 die schon im vorigen Abschnitt als Beispiel verwendete Basis des R3 , so ist die zugehörige Koordinatenabbildung gegeben als 1 −1 0 x−y Ψ(x, y, z) = x · −1 + y · −1 + z · 3 = 3z − x − y . 0 1 −1 y−z Die Koordinatenabbildung Ψ einer Basis v1 , . . . , vn verträgt sich mit Addition und Multiplikation in V , d.h. werden die Koordinaten addiert so addieren sich auch die zugehörigen Vektoren und werden die Koordinaten mit einem Skalar multipliziert so 248 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 wird auch der zugehörige Vektor mit demselben Skalar multipliziert. Dies kann man leicht nachrechnen, sind x, y ∈ K n so haben wir Ψ(x + y) = n X (xi + yi )vi = i=1 n X xi vi + i=1 n X yi vi = Ψ(x) + Ψ(y) i=1 n und für alle x ∈ K , λ ∈ K ist auch Ψ(λx) = n X (λxi )vi = λ i=1 n X xi vi = λΨ(x). i=1 Die Koordinatenabbildung Ψ ist damit eine lineare Abbildung im Sinne der folgenden Definition. Definition 9.9 (Lineare Abbildungen zwischen Vektorräumen) Seien V, W zwei Vektorräume über K. Eine Abbildung f : V → W heißt linear, wenn sie die folgenden beiden Bedingungen erfüllt: (L1) Für alle x, y ∈ V ist f (x + y) = f (x) + f (y). (L2) Für alle x ∈ V , λ ∈ K ist f (λx) = λf (x). Wir werden diese Abbildungen im nächsten Abschnitt noch etwas weiter untersuchen. Zu verschiedenen Basen eines Vektorraums gehören auch verschiedene Koordinatenabbildungen, und wir wollen uns jetzt überlegen wie genau sich diese Koordinatenabbildungen unterscheiden. Definition 9.10 (Transformationsmatrizen) Sei V ein endlich erzeugter Vektorraum und seien v1 , . . . , vn sowie w1 , . . . , wn zwei Basen von . Für jedes 1 ≤ i ≤ n können wir dann vi bezüglich der Basis w1 , . . . , wn PV n als vi = j=1 aji wj mit a1i , . . . , ani ∈ K schreiben, und mit diesen Zahlen bilden wir die Matrix a11 · · · a1n A := ... . . . ... . an1 · · · ann Diese Matrix ist dann die Transformationsmatrix oder Übergangsmatrix von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn von V . Die Transformationsmatrix A überführt die Koordinaten bezüglich der ersten Basis v = (v1 , . . . , vn ) in diejenigen bezüglich der anderen Basis w = (w1 , . . . , wn ). Damit ist die folgende Beobachtung gemeint. Angenommen wir haben einen Vektor u ∈ V , der bezüglich der Basis v1 , . . . , vn die Koordinaten x1 , . . . , xn hat, also u = Ψv (x), beziehungsweise u = x1 v1 + · · · + xn vn . Setzen wir hier die Darstellung von vi für i = 1, . . . , n bezüglich der Basis w ein, so ergibt sich ! n n X n n n n X X X X X u= xi vi = aji xi wj = aji xi wj = (Ax)j wj , i=1 i=1 j=1 j=1 249 i=1 j=1 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 d.h. der Koordinatenvektor y ∈ K n von u bezüglich der Basis w ist gerade y = Ax. In anderen Worten haben wir Ψv (x) = Ψw (Ax) für jedes x ∈ K n . Die Transformation von v- auf w-Koordinaten erfolgt also durch Multiplikation mit der Transformationsmatrix zwischen v und w. Auf einen besonders wichtigen Spezialfall wollen wir hier gesondert hinweisen. Sei n ∈ N mit n ≥ 1 und sei vn1 v11 v1 = ... , . . . , vn = ... vnn v1n eine Basis des K n . Wir wollen die Transformationsmatrix A von v1 , . . . , vn zur Standardbasis e1 , . . . , en des K n bestimmen. Für jedes 1 ≤ i ≤ n haben wir vi1 n X vij ej , vi = ... = j=1 vin also ist A = (vji )1≤i,j≤n , d.h. für jedes 1 ≤ j ≤ n steht in der j-ten Spalte von A der Spaltenvektor vj . Die Übergangsmatrix A entsteht also einfach indem die Basisvektoren v1 , . . . , vn als die Spalten einer n × n-Matrix hintereinandergeschrieben werden. Haben wir also beispielsweise die obige Basis v1 , v2 , v3 des R3 so ist die Transformationsmatrix A von der Basis v1 , v2 , v3 zur Standardbasis des R3 gegeben als 1 −1 0 3 . A = −1 −1 0 1 −1 Auch die Transformationsmatrix zwischen zwei beliebigen Basen des K n läßt sich mit den uns schon bekannten Techniken berechnen. Angenommen wir haben zwei Basen v1 , . . . , vn und w1 , . . . , wn und wollen die Transformationsmatrix T von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn berechnen. Für jedes 1 ≤ i ≤ n suchen wir dann Skalare P tji ∈ K für 1 ≤ j ≤ n mit vi = nj=1 tji wj . Schreiben wir b1i a1j vi = ... und wj = ... für 1 ≤ j ≤ n bni anj so wird a11 t1i + · · · + a1n tni .. tji wj = = A . j=1 an1 t1i + · · · + ann tni n X t1i .. . tni wobei A die n × n-Matrix ist deren Spalten die Vektoren w1 , . . . , wn sind. Zur Bestimmung der tji für 1 ≤ j ≤ n müssen wir also das lineare Gleichungssystem At = vi 250 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 lösen. Dies gibt uns dann die i-te Spalte der Transformationsmatrix T und um ganz T zu berechnen müssen wir i = 1, . . . , n durchgehen. Es sind also gleich n viele lineare Gleichungssysteme zu lösen. Diese haben allerdings alle dieselbe Koeffizientenmatrix A was die Rechnung deutlich vereinfacht. Man kann das lineare Gleichungssystem Ax = b für eine allgemeine rechte Seite b lösen und dann der Reihe nach b = v1 , b = v2 und so weiter einsetzen. Alternativ kann man die n linearen Gleichungssysteme simultan lösen, indem man das Gaußsche Eliminationsverfahren gleich mit allen rechten Seiten v1 , . . . , vn rechnet, also mit einer erweiterten Koeffizientenmatrix“ (A|B) wobei B die ” n×n-Matrix ist deren Spalten die Vektoren v1 , . . . , vn sind. Die Rechnung beginnt dann dem Verfahren zur Bestimmung der inversen Matrix zu ähneln, und tatsächlich gibt es hier einen Zusammenhang den wir gleich besprechen werden. Zunächst behandeln wir aber ein Beispiel und betrachten die folgenden beiden Basen des R2 1 3 −1 7 v1 = , v2 = und w1 = , w2 = . 2 −5 3 1 Wir wollen die Transformationsmatrix T von der Basis v1 , v2 zur Basis w1 , w2 berechnen. Wählen wir den Weg über die allgemeine Lösung des eben beschriebenen linearen Gleichungssystems, so wird −1 7 b1 −1 7 b1 −→ 0 22 b2 + 3b1 3 1 b2 also y= 1 1 1 (3b1 + b2 ), x = −(b1 − 7y) = − (22b1 − 7(3b1 + b2 )) = − (b1 − 7b2 ). 22 22 22 Einsetzen von b = v1 gibt x = 13 5 19 2 , y= und von b = v2 ergibt x = − , y = . 22 22 11 11 Die Transformationsmatrix T von v1 , v2 nach w1 , w2 ist damit 1 13 −38 T = . 5 4 22 Wir kommen nun zur allgemeinen Situation zurück und behaupten das die Transformationsmatrix A immer invertierbar ist und ihre Inverse A−1 ist gerade die Transformationsmatrix in der anderen Richtung, also in der obigen Notation von der Basis w1 , . . . , wn von V zur Basis v1 , . . . , vn von V . Satz 9.8 (Invertierbarkeit der Transformationsmatrix) Seien V ein endlich erzeugter Vektorraum, v1 , . . . , vn sowie w1 , . . . , wn zwei Basen von V und bezeichne A ∈ K n×n die Transformationsmatrix von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn . Dann ist A invertierbar und die Inverse A−1 ist die Transformationsmatrix von der Basis w1 , . . . , wn zur Basis v1 , . . . , vn . 251 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 Beweis: Sei B die Transformationsmatrix von der Basis w = (w1 , . . . , wn ) zur Basis v = (v1 , . . . , vn ). Für jedes x ∈ K n gilt Ψv (x) = Ψw (Ax) = Ψv (BAx), also BAx = x da Ψv bijektiv ist. Für jedes 1 ≤ i ≤ n ist die i-te Spalte von BA gleich dem Vektor BAei = ei , also haben wir BA = 1. Analog folgt AB = 1 und damit ist A invertierbar mit A−1 = B. Sei v1 , . . . , vn wieder eine Basis des K n und bezeichne B die n×n-Matrix mit den Spalten v1 , . . . , vn . Wir haben uns bereits überlegt das B die Transformationsmatrix von v1 , . . . , vn zur Standardbasis e1 , . . . , en des K n ist und nach dem Satz ist B invertierbar und B −1 ist die Transformationsmatrix von der Standardbasis e1 , . . . , en zur Basis v = (v1 , . . . , vn ). Sei jetzt w = (w1 , . . . , wn ) eine weitere Basis des K n und bezeichne A die n × n-Matrix mit den Spalten w1 , . . . , wn . Sei u ∈ K n und bezeichne x ∈ K n den Koordinatenvektor von u bezüglich der Basis v1 , . . . , vn , d.h. u = Ψv (x). Nun ist u sein eigener Koordinatenvektor bezüglich der Standardbasis, es gilt also u = Bx da B die Transformationsmatrix von v1 , . . . , vn zur Standardbasis ist. Weiter ist A−1 die Transformationsmatrix von der Standardbasis zur Basis w, d.h. der Koordinatenvektor von u bezüglich w1 , . . . , wn ist y = A−1 u = A−1 Bx. Die Transformation von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn wird also durch Multiplikation mit A−1 B bewirkt, d.h. die Transformationsmatrix von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn ist A−1 B. Will man diese Formel zur Berechnung der Transformationsmatrix verwenden, so müsste A invertiert werden und anschließend muss B an das Ergebnis heranmultipliziert werden. Man kann diese beiden Schritte kombinieren indem wir wie oben das Gaußche Eliminationsverfahren mit einer vergrößerten erweiterten Koeffizientenmatrix rechnen. Die Berechnung von T = A−1 B erfolgt dann genau wie die Berechnung von A−1 nur das wir auf der rechten Seite mit B und nicht mit der Einheitsmatrix starten. Am Ende der Elimination steht dann links die Einheitsmatrix und rechts die Matrix A−1 B. Dies gibt uns auch eine weitere Begründung der Korrektheit des Verfahrens zur Matrixinversion. Wir wollen uns dies einmal am obigen Beispiel der beiden Basen 1 3 −1 7 v1 = , v2 = und w1 = , w2 = 2 −5 3 1 des R2 anschauen. In der obigen Matrixschreibweise wird −1 7 1 3 A= und B = 3 1 2 −5 und damit rechnen wir 1 0 −1 7 1 3 1 −7 −1 −3 −→ −→ 3 1 2 −5 0 22 5 4 0 1 252 13 22 5 22 − 19 11 2 11 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 und die Transformationsmatrix von der Basis v1 , v2 zur Basis w1 , w2 ergibt sich erneut als 1 13 −38 −1 T =A B= . 5 4 22 9.5 Lineare Abbildungen Wir wollen jetzt einen der wichtigsten Begriffe der linearen Algebra behandeln, die sogenannten linearen Abbildungen. Definiert haben wir diese bereits im vorigen Abschnitt im Zusammenhang mit den Koordinatenabbildungen und zum Beginn dieses Abschnitts schauen wir uns einige weitere Beispiele an. Beachte für diese Beispiele das wir den Skalarenbereich K selbst als einen Vektorraum über K interpretieren können da die Körperaxiome aus §1.1 die Vektorraumaxiome umfassen. 1. Die Abbildung x f : R3 → R; y → 7 x+y+z z ist linear. Für alle x, y ∈ R3 , λ ∈ R gelten nämlich x1 + y1 y1 x1 f (x + y) = f x2 + y2 = f x2 + y2 x3 + y3 y3 x3 = (x1 + y1 ) + (x2 + y2 ) + (x3 + y3 ) = (x1 + x2 + x3 ) + (y1 + y2 + y3 ) = f (x) + f (y) und λx1 x1 f (λx) = f λ · x2 = f λx2 = λx1 + λx2 + λx3 λx3 x3 = λ · (x1 + x2 + x3 ) = λf (x). Im nächsten Kapitel werden wir lineare Abbildungen f : K n → K m etwas näher untersuchen. 2. Seien n, m ∈ N mit n, m ≥ 1 und betrachte den Vektorraum V = K m×n aller m × n-Matrizen über K. Weiter seien 1 ≤ i ≤ m und 1 ≤ j ≤ n gegeben. Dann ist die Abbildung a11 · · · a1n .. 7→ a ... φij : K m×n → K; ... ij . am1 · · · amn 253 Mathematik für Physiker I, WS 2016/2017 Freitag 20.1.2017 die jeder Matrix ihren Eintrag in der j-ten Spalte der i-ten Zeile zuordnet linear. Dies ist klar da wir die Addition von Matrizen und die Multiplikation von Skalaren mit Matrizen komponentenweise definiert haben. 3. Sind n ∈ N mit n ≥ 1 und 1 ≤ i ≤ n gegeben, so ist die Abbildung x1 φi : K n → K; ... 7→ xi xn die jedem Spaltenvektor seinen i-ten Eintrag zuordnet linear. Dies ist gerade der Spezialfall des vorigen Beispiels für Matrizen mit nur einer Spalte. 4. Sei M eine Menge und bezeichne V := K M den Vektorraum aller Funktionen von M nach K. Weiter sei x ∈ M ein Element von M . Dann ist die Abbildung ωx : V → K; f 7→ f (x) linear. In der Tat, sind f, g ∈ V und λ ∈ K, so gelten ωx (f + g) = (f + g)(x) = f (x) + g(x) = ωx (f ) + ωx (g) und ωx (λf ) = (λf )(x) = λf (x) = λωx (f ). 5. Ist V der Vektorraum aller konvergenten Folgen in K, so ist die Abbildung lim : V → K; (an )n∈N 7→ lim an n→∞ linear. Dies ist gerade eine Umformulierung von §4.Satz 6.(a,b). 6. Seien V, W zwei Vektorräume über K. Sind dann f, g : V → W zwei lineare Abbildungen, so behaupten wir das auch die Summe f + g : V → W ; x 7→ f (x) + g(x) wieder linear ist. Für alle x, y ∈ V und jedes λ ∈ K haben wir nämlich (f + g)(x + y) = f (x + y) + g(x + y) = f (x) + f (y) + g(x) + g(y) = f (x) + g(x) + f (y) + g(y) = (f + g)(x) + (f + g)(y) und (f + g)(λx) = f (λx) + g(λx) = λf (x) + λg(x) = λ(f (x) + g(x)) = λ(f + g)(x). Ebenso ist für jeden Skalar µ ∈ K auch das Vielfache µf : V → W ; x 7→ µf (x) 254 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 wieder eine lineare Abbildung, denn für alle x, y ∈ V gilt (µf )(x + y) = µf (x + y) = µ(f (x) + f (y)) = µf (x) + µf (y) = (µf )(x) + (µf )(y) und für alle x ∈ V und jedes λ ∈ K haben wir ebenfalls (µf )(λx) = µf (λx) = µ(λf (x)) = (µλ)f (x) = (λµ)f (x) = λ(µf (x)) = λ(µf )(x). 7. Sind U, V, W drei Vektorräume über K und f : V → W , g : W → U zwei lineare Abbildungen, so ist auch die Hintereinanderausführung g ◦f : V → U eine lineare Abbildung. Sind nämlich x, y ∈ V und λ ∈ K, so haben wir (g ◦ f )(x + y) = g(f (x + y)) = g(f (x) + f (y)) = g(f (x)) + g(f (y)) = (g ◦ f )(x) + (g ◦ f )(y) und (g ◦ f )(λx) = g(f (λx)) = g(λf (x)) = λg(f (x)) = λ · (g ◦ f )(x). Vorlesung 22, Montag 23.1.2017 In der letzten Sitzung haben wir den Begriff einer linearen Abbildung zwischen zwei Vektorräumen eingeführt und auch schon einige Beispiele zu diesem betrachtet. Im folgenden wollen wir einige wichtige Aussagen über lineare Abbildungen herleiten und starten mit der Auflistung einiger unmittelbar aus der Definition folgender Tatsachen über lineare Abbildungen. Lemma 9.9 (Grundeigenschaften linearer Abbildungen) Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung. Dann gelten: (a) Es ist f (0) = 0. (b) Das Bild Bild(f ) = {f (x)|x ∈ V } von V ist ein Untervektorraum von W . (c) Ist v1 , . . . , vn ein Erzeugendensystem von V , so ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ). (d) Ist V endlich erzeugt, so ist auch Bild(f ) endlich erzeugt mit dim Bild(f ) ≤ dim V . (e) Die Menge Kern(f ) := f −1 ({0}) = {x ∈ V |f (x) = 0} ist ein Untervektorraum von V. 255 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 (f ) Genau dann ist die Abbildung f : V → W injektiv wenn Kern(f ) = {0} ist. Beweis: (a) Es ist f (0) = f (0 + 0) = f (0) + f (0), also f (0) = 0. (b) Nach (a) ist 0 ∈ Bild(f ). Sind u, v ∈ Bild(f ) und λ ∈ K, so existieren x, y ∈ V mit f (x) = u und f (y) = v, also ist auch u + v = f (x) + f (y) = f (x + y) ∈ Bild(f ) und λu = λf (x) = f (λx) ∈ Bild(f ). Damit ist Bild(f ) ein Untervektorraum von W . (c) Sei u ∈ Bild(f ). Dann existiert ein v ∈ V mit u = f (v) und da v1 , . . . , vn ein Erzeugendensyszem von V ist, existieren weiter λ1 , . . . , λn ∈ K mit v = λ1 v1 + · · · + λn vn . Damit ist auch u = f (v) = f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ). Dies zeigt das f (v1 ), . . . , f (vn ) ein Erzeugendensystems des Bilds von f ist. (d) Klar nach (c) und Korollar 7.(a). (e) Nach (a) ist 0 ∈ Kern(f ). Sind x, y ∈ Kern(f ) und λ ∈ K, so haben wir auch f (x + y) = f (x) + f (y) = 0 und f (λx) = λf (x) = 0, also x + y ∈ Kern(f ) und λx ∈ Kern(f ). Damit ist Kern(f ) ein Untervektorraum von V . (f ) ”=⇒” Klar nach (a). ”⇐=” Seien x, y ∈ V mit f (x) = f (y). Dann ist auch f (x − y) = f (x) − f (y) = 0, also x − y ∈ Kern(f ) = {0}, und es folgt x = y. Also ist f : V → W injektiv. Als letztes Ziel in diesem Kapitel wollen wir die sogenannten Dimensionsformeln der linearen Algebra behandeln. Es gibt eine solche Formel für lineare Abbildungen und eine weitere für Untervektorräume. Die Formel für Untervektorräume werden wir dabei auf diejenige für lineare Abbildungen zurückführen. Als eine wichtige Folgerung der Dimensionsformel werden wir weiter einsehen, dass für eine lineare Abbildung f : V → W zwischen endlich erzeugten Vektorräumen gleicher Dimension die Eigenschaften injektiv und surjektiv gleichwertig sind, dass also f genau dann injektiv ist wenn f surjektiv ist. Zum Beweis der Dimensionsformel für lineare Abbildungen benötigen wir eine auch sonst oft wichtige Hilfsaussage über Untervektorräume. Lemma 9.10 (Dimension von Untervektorräumen) Seien V ein endlich erzeugter Vektorraum über K und U ≤ V ein Untervektorraum von V . Dann ist auch U endlich erzeugt mit m := dim U ≤ dim V =: n und es gibt eine Basis v1 , . . . , vn von V mit U = hv1 , . . . , vm i. Weiter ist genau dann dim U = dim V wenn U = V gilt. Beweis: Nach Korollar 7.(b) ist für jedes System v1 , . . . , vr linear unabhängiger Vektoren aus U stets r ≤ n. Damit existiert ein System v1 , . . . , vm linear unabhängiger Vektoren in U der maximal möglichen Länge m ≤ n. Insbesondere sind diese Vektoren maximal linear unabhängig in U , also ist v1 , . . . , vm nach Lemma 4 eine Basis von U . Insbesondere ist U endlich erzeugt mit dim U = m ≤ n = dim V . Nach Satz 6.(c) lassen sich die Vektoren v1 , . . . , vm zu einer Basis v1 , . . . , vn von V ergänzen, und für 256 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 diese ergänzte Basis gilt U = hv1 , . . . , vm i. Im Fall dim U = dim V , also m = n, haben wir damit sogar U = hv1 , . . . , vn i = V . Damit ist jetzt möglich die schon angekündigte Dimensionsformel zu beweisen. Satz 9.11 (Dimensionsformel für lineare Abbildungen) Seien V, W zwei endlich erzeugte Vektorräume über K und f : V → W eine lineare Abbildung. Dann gilt dim Bild(f ) + dim Kern(f ) = dim V . Beweis: Nach Lemma 9.(e) und Lemma 10 existiert eine Basis v1 , . . . , vn von V mit Kern(f ) = hv1 , . . . , vm i wobei m = dim Kern(f ) und n = dim V sind. Wir behaupten, dass die Vektoren f (vm+1 ), . . . , f (vn ) eine Basis des Bilds von f sind. Nach Lemma 9.(c) sind die Vektoren f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ), und wegen f (v1 ) = · · · = f (vm ) = 0 ist auch f (vm+1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ). Es bleibt also nur noch dieP lineare Unabhängigkeit dieser Vektoren zu zeigen. Seien hierzu λm+1 , . . . , λn ∈ K mit ni=m+1 λi f (vi ) = 0 gegeben. Dann ist auch ! n n X X λi f (vi ) = 0, f λi v i = i=m+1 also n X i=m+1 λi vi ∈ Kern(f ) = hv1 , . . . , vm i i=m+1 P Pn P und es existieren λ1 , . . . , λm ∈ K mit ni=m+1 λi vi = − m i=1 λi vi , also auch i=1 λi vi = 0. Da die Vektoren v1 , . . . , vn linear unabhängig sind, bedeutet dies λ1 = · · · = λn = 0, also insbesondere λm+1 = · · · = λn = 0. Damit sind die Vektoren f (vm+1 ), . . . , f (vn ) linear unabhängig, und bilden somit eine Basis von Bild(f ). Es folgt dim Bild(f ) = n − m = dim V − dim Kern(f ) und die Dimensionsformel ist bewiesen. Einen besonders wichtigen Spezialfall dieses Satz wollen wir gesondert hervorheben. Korollar 9.12: Seien V ein endlich erzeugter Vektorraum über K und f : V → K eine lineare Abbildung mit f 6= 0. Dann gilt dim Kern(f ) = dim V − 1. 257 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 Beweis: Wegen f 6= 0 existiert ein u ∈ V mit f (u) 6= 0. Für jedes c ∈ K ist damit auch c c c u ∈ V mit f u = · f (u) = c, f (u) f (u) f (u) d.h. es gelten Bild(f ) = K und dim Bild(f ) = 1. Mit der Dimensionsformel Satz 11 folgt dim Kern(f ) = dim V − dim Bild(f ) = dim V − 1, und das Korollar ist bewiesen. Eine weitere wichtige Konsequenz der Dimensionsformel betrifft die schon angekündigte Aussage über lineare Abbildungen zwischen zwei endlich erzeugten Vektorräumen derselben Dimension, dass bei diesen die Begriffe injektiv“ und surjektiv“ gleichwer” ” tig sind. Ist eine solche lineare Abbildung also injektiv oder surjektiv, so ist sie bereits bijektiv und man spricht von einem Isomorphismus im Sinne der folgenden Definition. Definition 9.11 (Isomorphismen von Vektorräumen) Seien V, W zwei Vektorräume über K. Ein Isomorphismus von V nach W ist eine bijektive lineare Abbildung f : V → W . Weiter nennen wir die Vektorräume V und W isomorph, geschrieben als V ' W , wenn es einen Isomorphismus von V nach W gibt. Zur Verwendung im folgenden Beweis wollen wir zunächst auf einen kleinen Randfall des Dimensionsbegriffs explizit hinweisen. Ist V ein endlich erzeugter Vektorraum über K so ist genau dann dim V = 0 wenn V eine aus n = 0 Vektoren bestehende Basis hat, wenn also V = {0} ist. Korollar 9.13: Seien V, W zwei endlich erzeugte Vektorräume über K mit dim V = dim W und sei f : V → W eine lineare Abbildung. Dann sind die folgenden Aussagen äquivalent: (a) Die Abbildung f ist ein Isomorphismus. (b) Die Abbildung f ist surjektiv. (c) Die Abbildung f ist injektiv. Beweis: Es reicht die Äquivalenz von (b) und (c) zu zeigen. Nach Satz 11 gilt dim Kern(f ) = dim V − dim Bild(f ), 258 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 also bestehen nach Lemma 9.(f) und Lemma 10 die Äquivalenzen f ist injektiv ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ Kern(f ) = {0} dim Kern(f ) = 0 dim V = dim Bild(f ) dim W = dim Bild(f ) W = Bild(f ) f ist surjektiv, und damit ist alles gezeigt. Wir kennen bereits einige Beispiele von Isomorphismen, nur dass wir diese bisher nicht so genannt haben. Ist etwa v1 , . . . , vn eine Basis von V , so ist die Koordinatenabbildung n X n Ψ : K → V ; x 7→ xi vi i=1 bijektiv und linear, also ein Isomorphismus. An diesem Beispiel kann man schön sehen, dass Isomorphismen im wesentlichen ein Übersetzungsmechanismus“ sind. Wollen wir ” irgendetwas im Vektorraum V untersuchen, so können wir dies entweder in V selbst tun, oder alles in Termen der Koordinaten bezüglich der Basis v1 , . . . , vn rechnen. Beide Sichtweisen sind völlig gleichwertig und der Isomorphismus Ψ stellt die Übersetzung zwischen ihnen her. Isomorphe Vektorräume sind also im wesentlichen gleich, und ein Isomorphismus beschreibt in welchem Sinne sie gleich sind. Wir wollen auch noch ein etwas komplizierteres Beispiel eines Isomorphismus besprechen. Bei unserer Untersuchung von Reihen in §5 hatten wir den Reihenbegriff über den Begriff der Partialsummen wieder auf Folgen zurückgeführt. Wir können uns das Bilden der Partialsummen also als eine Übersetzung zwischen Folgen und Reihen vorstellen, und dies ist in Wahrheit ein Beispiel eines Isomorphismus von Vektorräumen. Sei hierzu K ∈ {R, C} und betrachte den Vektorraum V := K N aller Folgen in K. P∞Einen eigenen ”Reihenvektorraum“ führen wir nicht ein, wir denken uns die Reihe n=0 an als die Folge (an )n∈N ihrer Summanden. Die Partialsummen sind dann die Abbildung ! n X Σ : V → V ; (an )n∈N 7→ ak , k=0 n∈N die jede Reihe auf die Folge ihrer Partialsummen abbildet. Sind (an )n∈N , (bn )n∈N zwei Folgen über K und c ∈ K eine Konstante, so sind ! n X Σ ((an )n∈N + (bn )n∈N ) = Σ ((an + bn )n∈N ) = (ak + bk ) k=0 = n X k=0 ! ak + n X k=0 n∈N 259 n∈N ! bk = Σ ((an )n∈N ) + Σ ((bn )n∈N ) n∈N Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 und Σ (c · (an )n∈N ) = Σ ((can )n∈N ) = n X k=0 ! =c· cak n∈N n X k=0 ! = c · Σ ((an )n∈N ) , ak n∈N die Abbildung Σ ist also linear. Weiter ist Σ auch bijektiv, die Umkehrfunktion ∆ : V → V von Σ ist die Differenzenabbildung, die jede Folge (an )n∈N auf die Differenzenfolge (a0n )n∈N definiert duch ( an − an−1 , n ≥ 1, a0n := a0 , n=0 für jedes n ∈ N abbildet. Um dies zu zeigen, müssen wir nach §2.Lemma 3 nur zeigen das ∆ ◦ Σ = Σ ◦ ∆ = idV gelten. Dies können wir einfach nachrechnen, ist (an )n∈N eine Folge in K und (a0n )n∈N die zugehörige Differenzenfolge, so haben wir ! n X 0 Σ (∆ ((an )n∈N )) = Σ ((an )n∈N ) = a0 + (ak − ak−1 ) = (an )n∈N , k=1 n∈N P∞ und ist andererseits (sn )n∈N die Folge der Partialsummen der Reihe n=0 an und 0 0 0 (sn )n∈N deren Differenzenfolge, so sind s0 = s0 = a0 und sn = sn − sn−1 = an für jedes n ∈ N mit n ≥ 1, also ∆ (Σ ((an )n∈N )) = ∆ ((sn )n∈N ) = (s0n )n∈N = (an )n∈N . Damit ist Σ bijektiv und somit ein Isomorphismus von Vektorräumen. Nach diesen Beispielen kommen wir nun zu einem allgemeinen Satz über das Verhalten von Basen und Dimension unter Isomorphismen. Lemma 9.14 (Grundeigenschaften von Isomorphismen) Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung. (a) Ist f ein Isomorphismus, so ist auch die Umkehrabbildung f −1 : W → V ein Isomorphismus. (b) Sei v1 , . . . , vn eine Basis von V . Dann ist f genau dann ein Isomorphismus wenn f (v1 ), . . . , f (vn ) eine Basis von W ist. Insbesondere ist dann auch W endlich erzeugt mit dim V = dim W . Beweis: (a) Es ist nur zu zeigen, dass f −1 : W → V wieder eine lineare Abbildung ist. Seien also x, y ∈ W und λ ∈ K gegeben. Dann ist f −1 (x+y) = f −1 (f (f −1 (x))+f (f −1 (y))) = f −1 (f (f −1 (x)+f −1 (y))) = f −1 (x)+f −1 (y) und f −1 (λx) = f −1 (λf (f −1 (x))) = f −1 (f (λf −1 (x))) = λf −1 (x), 260 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 und damit ist f −1 eine lineare Abbildung. (b) Die zweite Aussage ist eine unmittelbare Folgerung der ersten Aussage, es reicht also letztere zu beweisen. ”=⇒” Sei also f ein Isomorphismus. Nach Lemma 9.(c) ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ) = W , es ist also nur noch zu zeigen, Pndass diese Vektoren auch linear unabhängig sind. Hierzu seien λ1 , . . . , λn ∈ K mit i=1 λi f (vi ) = 0 gegeben. Dann ist auch ! n n X X f λi v i = λi f (vi ) = 0 = f (0) i=1 i=1 Pn nach Lemma 9.(a), also ist auch i=1 λi vi = 0. Da die Vektoren v1 , . . . , vn linear unabhängig sind, folgt λ1 = · · · = λn = 0. Damit sind auch f (v1 ), . . . , f (vn ) in W linear unabhängig. ”⇐=” Nun nehmen wir an, dass die Vektoren f (v1 ), . . . , f (vn ) eine Basis von W bilden. Nach Lemma 9.(c) ist dann Bild(f ) = hf (v1 ), . . . , f (vn )i = W, d.h. f : V → W ist zumindest surjektiv. Nun sei vP∈ Kern(f ) ein Vektor im Kern von f , also f (v) = 0. Es gibt λ1 , . . . , λn ∈ K mit v = ni=1 λi vi . Wegen ! n n X X λi f (vi ) = f λi vi = f (v) = 0, i=1 i=1 ergibt Pdie lineare Unabhängigkeit von f (v1 ), . . . , f (vn ) auch λ1 = · · · = λn = 0, also v = ni=1 λi vi = 0. Dies zeigt Kern(f ) = {0} und nach Lemma 9.(f) ist f auch injektiv. Insgesamt ist f damit bijektiv, also ein Isomorphismus. Damit ist beispielsweise auch die obige Differenzenabbildung ∆ : K N → K N als Umkehrabbildung eines Isomorphismus selbst ein Isomorphismus. Als ein wichtiges Korollar des Lemmas ergibt sich weiter das die endlich erzeugten Vektorräume über K bis auf Isomorphie genau die Spaltenvektorräume K n sind. Satz 9.15 (Klassifikation der endlich erzeugten Vektorräume) Seien V, W zwei endlich erzeugte Vektorräume über K. (a) Ist n := dim V so ist V ' K n . (b) Genau dann gilt V ' W wenn dim V = dim W ist. Beweis: (a) Nach Definition der Dimension von V gibt es eine Basis v = (v1 , . . . , vn ) von V und damit ist die Koordinatenabbildung Ψv : K n → V ein Isomorphismus, d.h. wir haben V ' K n . (b) ”=⇒” Dies gilt nach Lemma 14.(b). 261 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 ”⇐=” Setze n := dim V = dim W . Nach (a) sind dann V ' K n und W ' K n , es gibt also Isomorphismen ϕ : V → K n und ψ : W → K n . Nach Lemma 14.(a) ist dann auch ψ −1 : K n → W ein Isomorphismus, also ist ψ −1 ◦ ϕ : V → W linear und nach §2.Lemma 4 auch bijektiv und somit ein Isomorphismus. Dies zeigt V ' W . Damit kommen wir schließlich zur Dimensionsformel für Untervektorräume. Angenommen wir haben einen Vektorraum V über K und zwei Untervektorräume U, W ≤ V . Dann sind U und W selbst Vektorräume über K und wir können das direkte Produkt U × W dieser beiden Vektorräume bilden. Weiter haben wir dann eine Abbildung f : U × W → V ; (u, w) 7→ u + w und behaupten das diese linear ist. Für alle u, u0 ∈ U , w, w0 ∈ W und jedes λ ∈ K haben wir nämlich f (u, w) + (u0 , w0 ) = f (u + u0 , w + w0 ) = u + u0 + w + w0 = u + w + u0 + w0 = f (u, w) + f (u0 , w0 ) und f λ · (u, w) = f (λu, λw) = λu + λw = λ(u + w) = λ · f (u, w). Damit ist f tatsächlich eine lineare Abbildung. Wir wollen jetzt Kern und Bild von f bestimmen, wobei sich das Bild sofort als Bild(f ) = f (U × W ) = {f (u, w)|u ∈ U, w ∈ W } = {u + w|u ∈ U, w ∈ W } = U + W ergibt. Der Kern von f ist etwas komplizierter, zunächst ist Kern(f ) = {(u, w) ∈ U × W |f (u, w) = 0} = {(u, w) ∈ U × W |u + w = 0}, ist also (u, w) ∈ Kern(f ) so ist u = −w ∈ U ∩ W und (u, w) = (u, −u). Umgekehrt ist für jedes u ∈ U ∩ W auch (u, −u) ∈ Kern(f ), also insgesamt Kern(f ) = {(u, −u)|u ∈ U ∩ W }. Damit ist der Kern von f im wesentlichen der Durchschnitt U ∩ W , genauer ist Kern(f ) ' U ∩ V da die Abbildung g : Kern(f ) → U ∩ W ; (u, w) 7→ u offenbar linear und bijektiv also ein Isomorphismus ist. Mit dieser Beobachtung können wir jetzt die angekündigte Dimensionsformel beweisen. Satz 9.16 (Dimensionsformel für Untervektorräume) Seien V ein endlich erzeugter Vektorraum über K und U, W ≤ V zwei Untervektorräume von V . Dann gilt dim(U + W ) + dim(U ∩ W ) = dim U + dim W . 262 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 Beweis: Nach Lemma 10 sind auch U und W endlich erzeugt, und damit ist auch das direkte Produkt U × W endlich erzeugt. Somit ist die Dimensionsformel Satz 11 auf die lineare Abbildung f : U × W → V ; (u, w) 7→ u + w anwendbar und liefert dim U + dim W = dim(U × W ) = dim Bild(f ) + dim Kern(f ). Wir haben bereits Bild(f ) = U + W und Kern(f ) ' U ∩ W eingesehen, also ist dim Bild(f ) = dim(U +W ) und Lemma 14.(b) ergibt auch dim Kern(f ) = dim(U ∩W ). Damit haben wir dim U + dim W = dim Bild(f ) + dim Kern(f ) = dim(U + W ) + dim(U ∩ W ) eingesehen. $Id: cartesisch.tex,v 1.21 2017/01/27 14:33:38 hk Exp $ §10 Der Vektorraum K n Wir haben bereits gezeigt das je zwei endlich erzeugte Vektorräume über K ∈ {R, C} genau dann isomorph sind, wenn sie dieselbe Dimension haben und das ein beliebiger n-dimensionaler Vektorraum V über K isomorph zum Vektorraum K n der Spaltenvektoren mit n Einträgen ist. In gewissen Sinne ist der K n damit der allge” meine“ n-dimensionale Vektorraum über K. Eine besondere Bedeutung hat natürlich der R3 zur Beschreibung des gewöhnlichen“ Raums. Aber auch der Rn für andere ” Werte von n spielt oftmals eine Rolle bei der Beschreibung räumlicher Vorgänge. Will man beispielsweise den vollständigen Zustand eines sich bewegenden Massepunktes beschreiben, so brauchen wir sowohl drei Koordinaten zur Beschreibung seiner Position als auch drei Koordinaten für seinen Geschwindigkeitsvektor, insgesamt hat man dann einen Vektor im R6 . 10.1 Affine Teilräume des K n Wir beginnen mit der Definition der üblichen geometrischen Objekte, wie Geraden und Ebenen. Wie wir sehen werden könnte man diese auf exakt dieselbe Weise auch in einem allgemeinen Vektorraum definieren, wir wollen uns hier aber auf den Spezialfall des Vektorraums K n beschränken. Als Startpunkt behandeln wir Ursprungsgeraden im K n , also Geraden die durch den Nullpunkt gehen. Eine solche Gerade l ist durch 263 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 einen von Null verschiedenen Richtungsvektor v ∈ K n \{0} bestimmt, und die Gerade l besteht dann gerade aus den Vielfachen von v, also l = {tv|t ∈ K} = hvi. In anderen Worten sind die Ursprungsgeraden genau die eindimensionalen Untervektorräume des K n . Für Ebenen e durch den Ursprung erhalten wir ein ähnliches Ergebis, solche Mengen werden von zwei linear unabhängigen Richtungsvektoren u, v aufgespannt e = {tu + sv|t, s ∈ K} = hu, vi, es handelt sich also genau um die zweidimensionalen Untervektorräume des K n . Allgemeine Geraden beziehungsweise Ebenen erhalten wir durch Verschieben der Ursprungsgeraden beziehungsweise Ebenen. Die entstehenden Teilmengen des K n sind die sogenannten affinen Teilräume eines Vektorraums. Definition 10.1 (Affine Teilräume eines Vektorraums) Sei V ein Vektorraum über K. Eine Teilmenge A ⊆ V heißt ein affiner Teilraum von V , wenn A = ∅ ist oder es einen Vektor v ∈ V und einen Teilraum U ≤ V von V mit A = v + U = {v + u|u ∈ U } gibt. Ob man die leere Menge als einen affinen Teilraum betrachten will, ist weitgehend eine Geschmacksfrage und wird nicht einheitlich gehandhabt. Wir wollen die eben definierten affinen Teilräume eines Vektorraums jetzt noch etwas weitergehend untersuchen, dies wurde in der Vorlesung nicht so ausführlich vorgeführt. Einen nichtleeren affinen Teilraum A eines Vektorraums V kann man definitionsgemäß in der Form A = v + U mit einem Vektor v ∈ V und einem Untervektorraum U ≤ V schreiben. Den Vektor v nennt man in diesem Zusammenhang auch einen Aufpunkt des affinen Teilraums A. Der Teilraum U in der Definition eines nichtleeren affinen Teilraums A eines Vektorraums V ist eindeutig bestimmt. Nehme nämlich an, wir hätten zwei Teilräume U1 , U2 ≤ V und zwei Aufpunkte v1 , v2 ∈ V mit A = v1 + U1 = v2 + U2 . Wegen v2 = v2 + 0 ∈ v2 + U2 = v1 + U1 ist dann v2 − v1 ∈ U1 und für jedes u ∈ U2 gibt es wegen v2 + u ∈ v2 + U2 = v1 + U1 ein u0 ∈ U1 mit v2 + u = v1 + u0 , also auch u = u0 − (v2 − v1 ) ∈ U1 . Dies zeigt U2 ⊆ U1 . Analog folgt auch U1 ⊆ U2 , es ist also U1 = U2 . Man nennt den eindeutig bestimmten Teilraum U ≤ V die Richtung des affinen Teilraums A von V . Insbesondere können wir damit die Dimension eines affinen Teilraums A eines endlich erzeugten Vektorraums V als ( dim U, wenn A = v + U mit v ∈ V , U ≤ V , dim A := −1, wenn A = ∅ definieren. Ausgerüstet mit diesem Dimensionsbegriff kann man dann die üblichen geometrischen Grundbegriffe im K n einführen. 264 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 (a) Eine Gerade im K n ist ein eindimensionaler affiner Teilraum des K n , (b) eine Ebene im K n ist ein zweidimensionaler affiner Teilraum des K n , (c) und eine Hyperebene im K n ist ein (n − 1)-dimensionaler affiner Teilraum des K n . Im K 2 sind also Hyperebenen und Geraden dasselbe und im K 3 sind Ebenen und Hyperebenen dasselbe. Die übliche Verwendung dieser Begriffe ist leider sehr vom Kontext abhängig, die drei obigen Definitionen werden im Zusammenhang mit affinen Teilräumen verwendet, meist ist man aber nur an Untervektorräumen interessiert und dann sind in der Regel mit Geraden“ eindimensionale Untervektorräume, mit Ebenen“ zwei” ” dimensionale Untervektorräume und mit Hyperebenen“ die (n − 1)-dimensionalen ” Untervektorräume gemeint. Wir gewohnt kann man eine Gerade durch einen Aufpunkt und einen Richtungsvektor angeben, und eine Ebene durch einen Aufpunkt und zwei Richtungsvektoren. Die Richtungsvektoren sind dabei nicht eindeutig festgelegt, aber der von ihnen aufgespannte Untervektorraum ist eindeutig bestimmt, er ist ja gerade die Richtung des affinen Teilraums. Als Aufpunkt kann man dagegen einen beliebigen Punkt des affinen Teilraums nehmen, d.h. ist A 6= ∅ ein affiner Teilraum von V mit Richtung U ≤ V und v ∈ A ein beliebiger Punkt von A, so ist A = v + U . Nach Definition eines affinen Teilraums gibt es nämlich überhaupt einen Vektor w ∈ V mit A = w +U . Wegen v ∈ A gibt es weiter einen Vektor u ∈ U mit v = w + u. Da U ein Untervektorraum von V ist, gilt u + U ⊆ U und wegen −u ∈ U auch −u + U ⊆ U und somit U ⊆ u + U . Dies zeigt u + U = U , und schließlich folgt auch A = w + U = w + u + U = v + U. Wir nennen zwei affine Teilräume A, B eines Vektorraums V über K parallel, in Zeichen A k B, wenn entweder A = B = ∅ ist oder A, B 6= ∅ sind und A, B dieselbe Richtung haben. Insbesondere haben parallele affine Teilräume eines endlich erzeugten Vektorraums stets dieselbe Dimension. Weiter sollen zwei affine Teilräume A, B von V mit A ∩ B = ∅ windschief heißen wenn entweder einer der beiden Teilräume leer ist oder beide nicht leer sind und ihre Richtungen nur den Nullvektor gemeinsam haben. Im R3 ist der Schnitt einer Ebene und einer Geraden normalerweise ein Punkt und der Schnitt zweier Ebenen normalerweise eine Gerade. Es gibt natürlich auch Ausnahmefälle wie parallele Ebenen, was die allgemeine Situation etwas verkompliziert. Um dies genauer zu untersuchen, wollen wir eine Dimensionsformel für affine Teilräume herleiten, diese folgt im wesentlichen aus der Dimensionsformel für Untervektorräume nur das die affine Formel etwas komplizierter ist, da die Summe“ affiner Teilräume von ih” rer Lage zueinander abhängt. Beispielsweise können sich nicht schneidende Geraden im R3 entweder parallel oder windschief sein, also dieselbe oder verschiedene Richtungen haben, im ersten Fall erzeugen sie eine Ebene und im zweiten Fall den ganzen R3 . Im oben erwähnte Normalfall“ haben die Richtungen der beiden Teilräume eine Summe ” größtmöglicher Dimension, beziehungsweise gleichwertig einen Schnitt kleinstmöglicher Dimension. 265 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 Seien also V ein Vektorraum über K und A, B ⊆ V zwei affine Teilräume von V . Wir wollen uns überlegen das es einen kleinsten affinen Teilraum AB von V gibt der A und B umfasst. Man nennt den affinen Teilraum AB dann gelegentlich auch die Summe der affinen Teilräume A, B. Die Existenz von AB ist klar wenn A = ∅ oder B = ∅ ist, dann ist AB einfach der andere affine Teilraum, wir können also A 6= ∅ und B 6= ∅ annehmen. Seien U dann die Richtung von A, W die Richtung von B und wähle a ∈ A und b ∈ B. Sei C ⊆ V ein affiner Teilraum mit A ∪ B ⊆ C. Dann ist insbesondere a, b ∈ C also C 6= ∅ und es bezeichne S die Richtung von C. Weiter ist a + U = A ⊆ C = a + S, also auch U ⊆ S und analog ist W ⊆ S und somit U + W ⊆ S. Außerdem haben wir b ∈ C = a + S, also b − a ∈ S und somit ist insgesamt R := U + W + hb − ai ⊆ S. Weiter ergibt sich hieraus auch a + R ⊆ a + S = C. Umgekehrt ist a + R ein affiner Teilraum von V mit A = a + U ⊆ a + R und B = b + W = a + (b − a) + W ⊆ a + R, d.h. AB := a+R ist der kleinste A und B umfassende affine Teilraum von V . Ist A∩B 6= ∅, so können wir a = b wählen und die Richtung R von AB ist dann R = U + W . Ist andererseits A ∩ B = ∅ so muss b − a ∈ / U + W sein, denn andernfalls gäbe es u ∈ U , w ∈ W mit b − a = u + w und wir hätten den Schnittpunkt a + u = b − w ∈ A ∩ B, also ist in diesem Fall R 6= U + W . Damit können wir die Dimensionsformel für affine Teilräume formulieren und beweisen. Satz 10.1 (Schnitte affiner Teilräume) Sei V ein endlich erzeugter Vektorraum über K und seien A, B ⊆ V zwei affine Teilräume von V . (a) Die Menge A ∩ B ist wieder ein affiner Teilraum von V und ist A ∩ B 6= ∅ so ist die Richtung von A ∩ B gleich dem Durchschnitt der Richtungen von A und B. (b) Ist A ∩ B 6= ∅ oder sind A, B windschief, so gilt die affine Dimensionsformel dim(A ∩ B) + dim(AB) = dim A + dim B. Beweis: Ist A = ∅ oder B = ∅ so sind beide Aussagen klar, wir können also A 6= ∅ und B 6= ∅ annehmen. Sei U ≤ V die Richtung von A und W ≤ V die Richtung von B. (a) Ist A ∩ B = ∅, so ist A ∩ B trivialerweise ein affiner Teilraum von V , wir können also A ∩ B 6= ∅ annehmen. Wähle v ∈ A ∩ B und wir behaupten das dann A ∩ B = v + (U ∩ W ) gilt. Es ist v + (U ∩ W ) ⊆ v + U = A und ebenso v + (U ∩ W ) ⊆ B, also v + (U ∩ W ) ⊆ A ∩ B. Nun sei umgekehrt x ∈ A ∩ B = (v + U ) ∩ (v + W ). Dann existieren u ∈ U , w ∈ W mit x = v + u und x = v + w. Insbesondere ist u = x − v = w ∈ U ∩ W , also x = v + u ∈ v + (U ∩ W ). Damit ist diese Aussage bewiesen, und insbesondere ist A ∩ B ein affiner Teilraum von V mit Richtung U ∩ W . 266 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 (b) Wähle a ∈ A und b ∈ B und wie bereits oben gezeigt ist R = U + W + hb − ai dann die Richtung von AB. Wir unterscheiden zwei verschiedene Fälle. Fall 1. Zunächst nehmen wir A ∩ B 6= ∅ an. Dann ist R = U + W und A ∩ B hat die Richtung U ∩ W , also ergibt die Dimensionsformel §9.Satz 16 für Untervektorräume auch dim(A∩B)+dim(AB) = dim(U ∩W )+dim(U +W ) = dim U +dim W = dim A+dim B. Fall 2. Nun nehme A ∩ B = ∅ an. Nach unserer Voraussetzung sind A und B dann windschief, also U ∩ W = {0} und die Dimensionsformel für Teilräume liefert dim(U + W ) = dim U + dim W − dim(U ∩ W ) = dim U + dim W. Weiter haben wir bereits eingesehen das b−a ∈ / U +W , also auch (U +W )∩hb−ai = {0} ist, und eine erneute Anwendung der Dimensionsformel für Teilräume ergibt dim R = dim((U + W ) + hb − ai) = dim(U + W ) + dimhb − ai − dim((U + W ) ∩ hb − ai) = dim(U + W ) + 1 = dim U + dim W + 1. Insgesamt ist damit dim(A ∩ B) + dim(AB) = dim R − 1 = dim U + dim W = dim A + dim B. Damit ist die affine Dimensionsformel in beiden Fällen bewiesen. Angenommen wir wollen wissen was normalerweise der Durchschnitt zweier dreidimensionaler affiner Teilräume A, B des R5 ist. Im Regelfall ist AB = R5 und A ∩ B 6= ∅, und die Dimensionsformel besagt damit dim(A ∩ B) = 2 · 3 − 5 = 1, d.h. zwei solche Räume schneiden sich in normalerweise in einer Geraden. Dies ist natürlich kein Satz da wir hier nicht definieren was in der Regel“ und normalerweise“ bedeuten sollen. ” ” Die affine Dimensionsformel ist tatsächlich falsch wenn zwar A ∩ B = ∅ ist aber A, B nicht windschief sind. Sind beispielsweise A, B zwei verschiedene, parallele Geraden im R3 , so ist AB eine Ebene und dim(A ∩ B) + dim(AB) = 1 6= 2 = dim A + dim B. Wir können unsere bisher erzielten Ergebnisse über lineare Gleichungssysteme jetzt in der Sprache affiner Teilräume formulieren, und erhalten den folgenden Satz. Satz 10.2 (Lösungsräume linearer Gleichungssysteme) Seien K ∈ {R, C}, n, m ∈ N mit n, m ≥ 1 und betrachte ein lineares Gleichungssystem Ax = b aus m Gleichungen in n Unbekannten mit Koeffizientenmatrix A ∈ K m×n und rechter Seite b ∈ K m . Weiter sei r die Anzahl von Null verschiedener Zeilen nach Anwendung des Gaußsschen Eliminationsverfahrens auf A. Dann hat Ax = b entweder keine Lösung oder die Menge L := {x ∈ K n |Ax = b} ist ein (n − r)-dimensionaler affiner Teilraum des K n , dessen Richtung die Lösungsmenge des zugehörigen homogenen linearen Gleichungssystems Ax = 0 ist. 267 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 Beweis: Dies ist klar nach §7.Satz 3 und unseren Überlegungen zur Dimension des Lösungsraums eines homogenen linearen Gleichungssystems in §9.3. Umgekehrt ist jeder affine Teilraum des K n als Lösungsraum eines linearen Gleichungssystems mit n Unbekannten darstellbar. Für den leeren affinen Teilraum ist dies klar, wir betrachten also einen affinen Teilraum T ⊆ K n der Dimension m mit 0 ≤ m ≤ n. Sei U ≤ K n die Richtung von T und wähle einen Aufpunkt a ∈ T . Nach §9.Lemma 10 existiert eine Basis v1 , . . . , vn des K n mit U = hv1 , . . . , vm i. Sei C die Transformationsmatrix von der kanonischen Basis e1 , . . . , en des K n zur Basis v1 , . . . , vn . Ein Vektor v ∈ K n liegt genau dann in U wenn die hinteren n − m Koordinaten von v bezüglich der Basis v1 , . . . , vn gleich Null sind. Ist also A die aus den unteren m − n Zeilen von C bestehende (n−m)×n Matrix über K, so ist U genau der Lösungsraum des homogenen linearen Gleichungssystems Ax = 0. Verwenden wir dann b := Aa ∈ K n−m als rechte Seite, so ist T genau der Lösungsraum von Ax = b. Das beschriebene Verfahren ist effektiv leicht durchführbar. Wir nehmen an die Richtung U des affinen Teilraums ist gegeben. Dann bestimmt man eine Basis v1 , . . . , vm von U . Ist U beispielsweise durch ein Erzeugendensystem gegeben, so wissen wir das wir nur linear abhängige Vektoren entfernen müssen bis eine Basis übrig bleibt. Im nächsten Schritt muss v1 , . . . , vm dann zu einer Basis v1 , . . . , vn des K n ergänzt werden, und nach dem Steinitzschen Austauschsatz §9.Lemma 5 wissen wir das wir hierbei mit Ergänzen geeigneter der e1 , . . . , en auskommen. Die Übergangsmatrix von der Basis v1 , . . . , vn zur kanonischen Basis e1 , . . . , en ist dann einfach die Matrix C deren Spalten die Vektoren v1 , . . . , vn sind, und die gesuchte Übergangsmatrix von der Basis e1 , . . . , en zur Basis v1 , . . . , vn ist die inverse Matrix C −1 . Als ein konkretes Beispiel betrachten wir den zweidimensionalen affinen Teilraum 1 1 0 + * −1 + 2 , 1 T = 0 −1 2 1 1 −2 des R4 . Richtung und Aufpunkt sind hier direkt angegeben. Wegen 1 0 1 0 2 1 0 2 2 1 0 0 1 2 1 = − = −1 = 5 6= 0 −1 2 0 1 1 −2 1 −2 0 1 −2 0 0 ist v1 , v2 , e1 , e3 eine Basis des R4 wobei v1 , v2 die beiden Erzeuger der Richtung von T sind. Die gesuchte Übergangsmatrix erhalten wir durch Invertieren −1 1 0 1 0 0 2 0 1 2 1 0 0 1 0 −2 = 1 0 . −1 2 0 1 5 5 −2 0 −1 1 −2 0 0 0 0 5 5 268 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 Die Koeffizientenmatrix unseres linearen Gleichungssystems besteht aus den unteren beiden Zeilen dieser Matrix, also 1 5 −2 0 −1 A= 0 5 5 5 0 und die rechte Seite ist 1 −1 1 6 · 0 = 5 5 . 1 b= 1 5 5 −2 0 −1 0 0 5 5 Multiplizieren wir noch die erste Gleichung mit 5, so ergibt sich das lineare Gleichungssystem 5x − 2y − v=6 u + v=1 dessen Lösungsmenge genau der affine Teilraum T ist. 10.2 Lineare Abbildungen und Matrizen Wir wollen jetzt alle linearen Abbildungen f : K n → K m explizit bestimmen. Sei A ∈ K m×n eine m × n Matrix über K. Für jeden Spaltenvektor x ∈ K n können wir dann das Produkt Ax ∈ K m bilden, und erhalten auf diese Weise eine Abbildung fA : K n → K m ; x 7→ Ax. Diese Abbildung ist linear, denn sind x, y ∈ K n und λ ∈ K so haben wir nach den Rechenregeln der Matrixmultiplikation fA (x+y) = A·(x+y) = Ax+Ay = fA (x)+fA (y) und fA (λx) = A·λx = λ·Ax = λfA (x). Damit gehört zu jeder m × n Matrix A über K eine lineare Abbildung fA : K n → K m . Umgekehrt hat überhaupt jede lineare Abbildung f : K n → K m diese Form. Sei nämlich f : K n → K m eine lineare Abbildung. Für jedes 1 ≤ i ≤ n schreiben wir dann a1i f (ei ) = ... ∈ K m ami und bilden die m × n Matrix a11 · · · a1n .. , ... A := ... . am1 · · · amn 269 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 deren Spalten die Vektoren f (e1 ), . . . , f (en ) sind. Für jedes x ∈ K n rechnen wir dann f (x) = f (x1 e1 + · · · + xn en ) = x1 f (e1 ) + · · · + xn f (xn ) a11 x1 + · · · + a1n xn a1n a11 .. = x1 · ... + · · · + xn · ... = . am1 x1 + · · · + amn xn amn am1 = Ax = fA (x), d.h. wir haben f = fA . Damit kann überhaupt jede lineare Abbildung f : K n → K m durch eine m × n Matrix beschrieben werden, und zwar so, dass die Spalten der Matrix genau die Bilder der kanonischen Basisvektoren e1 , . . . , en sind. Umgekehrt ist fA (ei ) = Aei für jedes 1 ≤ i ≤ n gerade die i-te Spalte von A, wir haben also eine bijektive Entsprechung Lineare Abbildungen f : K n → K m = m × n-Matrizen über K. Wir wollen die nebenstehend gezeigten Beispiele linearer Abbildungen R2 → R2 behandeln. Dabei ist jeweils abgebildet wie die lineare Abbildung auf die links unten stehende Figur wirkt. Wir beginnen mit den Skalierungen, bei diesen werden x- und yAchse mit Faktoren a, b ∈ R gestreckt. Ist dabei a oder b negativ, so treten auch noch Spiegelungen an den Koordinatenachsen auf. Um die Matrix dieser linearen Abbildung zu sehen, müssen wir die Bilder der kanonischen Basisvektoren e1 , e2 als Spalten verwenden. Dabei liegt e1 auf der x-Achse, wird also um den Faktor a gestreckt und hat das Bild ae1 . Für e2 ergibt sich analog das Bild be2 , und wir erhalten die Matrix a Sa,b = . b Wir kommen zu den Scherungen längs der xAchse. Diese lassen jede zur x-Achse parallele Gerade fest, und bewirken auf diesen eine Verschiebung um einen zur Höhe y proportionalen Wert. Die Proportionalitätskonstante sei dabei t ∈ R. Auf der xAchse selbst ist die Höhe 0 und es liegt überhaupt keine Verschiebung vor, d.h. e1 wird auf e1 abgebildet. Dagegen liegt e2 in der Höhe 1, wird also um t in x-Richtung verschoben und somit auf te1 + e2 abgebildet. Die Scherungsmatrix ist damit 1 t St = . 1 270 Phy I Phy I Skaliert Scherung y Ph Phy I Identisch v2 I Rotiert e2 v1 e1 Mathematik für Physiker I, WS 2016/2017 Montag 23.1.2017 Der letzte zu untersuchende Abbildungstyp ist die Drehung um den Nullpunkt mit dem Winkel φ ∈ R. Dies ist eine lineare Abbildung, was klar ist wenn sie etwa an die Interpretation der Addition von Vektoren in einem Parallelogram denken. Zur Bestimmung der Drehmatrix Dφ müssen wir uns wieder die Bilder der beiden Einheitsvektoren anschauen. Für das Bild von e1 erhalten wir das oben gezeigte rechtwinklige Dreieck mit Hypothenuse 1 dessen Ankathete und Gegenkathete zum Winkel φ gerade die x- und y-Koordinaten des Bildes von e1 sind, d.h. e1 wird auf cos(φ)e1 + sin(φ)e2 abgebildet. Für das Bild von e2 liegt eine ähnliche Situation vor, nur das Ankathete und Gegenkathete diesmal die y- beziehungsweise die negative x-Koordinate des Bildes sind, das Bild von e2 ist also − sin(φ)e1 + cos(φ)e2 . Insgesamt ergibt sich die Drehmatrix cos φ − sin φ Dφ = . sin φ cos φ Kommen wir zur allgemeinen Situation der Gleichheit von Matrizen und linearen Abbildungen K n → K m zurück. Im Lichte dieser Korrespondenz ist es dann natürlich zu fragen wie sich Eigenschaften der linearen Abbildung in Eigenschaften der zugehörigen Matrix übersetzen. Wir wollen einige dieser Entsprechungen kurz durchgehen. 1. Sind A, B ∈ K m×n zwei m × n-Matrizen über K, so können wir ihre Summe A + B bilden. Die zugehörige lineare Abbildung ist für x ∈ K n gegeben als fA+B (x) = (A + B) · x = Ax + Bx = fA (x) + fB (x), also ist fA+B = fA + fB die Summe der zugehörigen linearen Abbildungen. Entsprechend ergibt sich für jeden Skalar λ ∈ K auch fλA = λfA . 2. Nun sei zusätzlich r ≥ 1 und betrachte Matrizen A ∈ K m×n und B ∈ K n×r . Dann können wir das Produkt AB dieser beiden Matrizen bilden, und erhalten eine m × r-Matrix. Für die zugehörige lineare Abbildung rechnen wir fAB (x) = (AB)x = A(Bx) = fA (fB (x)) für jedes x ∈ K n , es ist also fAB = fA ◦ fB die Hintereinanderausführung der zugehörigen linearen Abbildungen. Dies zeigt Hintereinanderausführung linearer Abbildungen = Multiplikation von Matrizen. Tatsächlich ist diese Beobachtung der Grund dafür das die Multiplikation von Matrizen überhaupt so definiert wird, wie wir sie definiert haben. 3. Zur Einheitsmatrix gehört offenbar die identische Abbildung idK n . Kombinieren wir dies mit der Kennzeichnung der Bijektivität gemäß §2.Lemma 3 so folgt für eine quadratische Matrix A ∈ K n×n fA ist Isomorphismus ⇐⇒ A ist invertierbar und in diesem Fall gilt dann fA−1 = fA−1 . 271 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 4. Sei A ∈ K m×n . Was sind dann Kern und Bild der linearen Abbildung fA ? Für das Bild erhalten wir mit §9.Lemma 9.(c) Bild(fA ) = hfA (e1 ), . . . , fA (en )i = hAe1 , . . . , Aen i, d.h. das Bild von fA ist der von den Spalten von A aufgespannte Untervektorraum des K m . Kombinieren wir dies mit der Tatsache §9.Satz 6.(b) das wir jedes Erzeugendensystem zu einer Basis ausdünnen können, so folgt dim Bild(fA ) = Dimension des Aufspanns der Spalten von A = Maximale Anzahl linear unabhängiger Spalten von A. Auch den Kern können wir mit bekannten Objekten in Zusammenhang bringen. Der Kern von fA ist die Menge aller x ∈ K n mit fA (x) = 0, also aller x ∈ K n mit Ax = 0. Dies bedeutet Kern(fA ) = Lösungsmenge des homogenen linearen Gleichungssystems Ax = 0. Auch die Dimension des Kerns können wir damit berechnen. Führen wir das Gaußsche Eliminationsverfahren mit der Matrix A durch und bezeichnen die Anzahl der am Ende übrig bleibenden, von Null verschiedenen, Zeilen wieder mit r, so wissen wir schon dass der Lösungsraum von Ax = 0 die Dimension n − r hat. Damit ist auch dim Kern(fA ) = n − r. Vorlesung 23, Freitag 27.1.2017 In der letzten Sitzung haben wir gesehen, dass lineare Abbildungen f : K n → K m im wesentlichen dasselbe wie m × n Matrizen A ∈ K m×n sind. Wir hatten auch Eigenschaften linearer Abbildungen in die Sprache der Matrizen übersetzt. Insbesondere hatten wir gesehen, dass die maximale Anzahl linear unabhängiger Spalten einer Matrix A genau gleich der Dimension des Bildes der zugehörigen linearen Abbildung ist. Dies legt die folgende Definition des Rangs einer Matrix nahe. Definition 10.2 (Der Rang einer Matrix) Sei K ∈ {R, C} und sei A ∈ K m×n eine Matrix über K. Dann heißt die Zahl rang(A) := dim Bild(fA ) der Rang der Matrix A. 272 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Es stellt sich jetzt heraus, dass wir den Rang einer Matrix bereits ausrechnen können und zwar wieder einmal mit dem Gaußschen Eliminationsverfahren. Geht es uns dabei nur um die Berechnung des Ranges, so können wir während der Elimination auch Spaltenumformungen verwenden, wenn diese die Rechnung vereinfachen. All diese Tatsachen sind Konsequenzen des folgenden Satzes über den Rang einer Matrix. Satz 10.3 (Grundeigenschaften des Rangs) Seien K ∈ {R, C}, n, m ∈ N mit n, m ≥ 1 und A ∈ K m×n eine m × n-Matrix über K. Dann gelten (a) Es ist rang(At ) = rang(A). (b) Der Rang von A ist gleich der Dimension des Aufspanns der Spalten von A und auch gleich der Dimension des Aufspanns der Zeilen von A. (c) Der Rang von A ist die maximale Anzahl linear unabhängiger Spalten von A und auch gleich der maximalen Anzahl linear unabhängiger Zeilen von A. (d) Geht A0 aus A durch eine elementare Zeilenumformung oder durch eine elementare Spaltenumformung hervor, so ist rang(A0 ) = rang(A). (e) Verbleiben nach Ausführung des Gaußschen Eliminationsverfahrens mit der Matrix A genau r von Null verschiedene Zeilen, so ist rang(A) = r. Beweis: Nach dem obigen Punkt (4) wissen wir bereits, dass der Rang von A sowohl gleich der maximalen Anzahl linear unabhängiger Spalten von A als auch gleich der Dimension des von den Spalten von A aufgespannten Teilraums des K m ist. Wir wollen nun einsehen das sich der Rang von A bei elementaren Spaltenumformungen nicht ändert. Um dies zu begründen müssen wir die drei verschiedenen Sorten von Spaltenumformungen durchgehen. 1. Die erste Spaltenoperation ist das Vertauschen zweier Spalten von A, und hierbei ändert sich der Aufspann der Spalten nicht. 2. Die zweite Spaltenoperation ist die Multiplikation einer Spalte mit einem von Null verschiedenen Skalar 0 6= c ∈ K. Auch dies ändert den Aufspann der Spalten nicht. 3. Als die letzten Spaltenoperation haben wir die Addition eines Vielfachen der iten Spalte zur j-ten Spalte. Sind v1 , . . . , vn die Spalten von A, so sind die Spalten der neuen Matrix v1 , . . . , vj−1 , vj + λvi , vj+1 , . . . , vn mit einem λ ∈ K. Wegen vj = (vj + λvi ) − λvi spannen diese Vektoren nach §9.Lemma 2.(b) denselben Teilraum des K m auf wie die Vektoren v1 , . . . , vn . Der von den Spalten der Matrix erzeugte Teilraum ändert sich also auch in diesem Fall nicht. 273 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 In allen drei Fällen hat sich der Aufspann der Spalten nicht geändert, und damit bleibt auch seine Dimension, d.h. der Rang der Matrix, erhalten. Nun bezeichne r die Anzahl der von Null verschiedenen Zeilen nach Durchführung des Gaußschen Eliminationsverfahrens. Mit der Dimensionsformel für lineare Abbildungen §9.Satz 11 erhalten wir dann n = dim K n = dim Bild(fA ) + dim Kern(fA ) = rang(A) + n − r =⇒ rang(A) = r. Damit ist Aussage (e) bewiesen, und da wir aus §9.3 bereits wissen das sich die Zahl r bei Anwendung elementarer Zeilenumformungen auf A nicht ändert, bleibt auch der Rang von A bei elementaren Zeilenumformungen erhalten, d.h. Aussage (d) ist bewiesen. Genau wie bei den Spaltenumformungen ändert sich die Dimension s des von Zeilen von A erzeugten Teilraums nicht bei Anwendung elementarer Zeilenumformungen, insbesondere ist diese Zahl gleich der maximalen Anzahl linear unabhängiger Zeilen in der aus dem Gaußschen Eliminationsverfahren aus A gewonnenen Matrix A0 in Stufenform. Die r von Null verschiedenen Zeilen in A0 sind aber linear unabhängig, also ist s = r = rang(A). Damit haben wir auch die Aussagen (b) und (c) vollständig eingesehen. Aussage (a) ist klar nach (c). Insbesondere impliziert der Satz, dass wir bei gegebenen Vektoren v1 , . . . , vn im K m mit dem Gaußschen Eliminationsverfahren entscheiden können ob die Vektoren linear unabhängig, ein Erzeugendensystem oder eine Basis sind. Für alle drei Aufgaben wird dasselbe Rechenverfahren verwendet, wir bilden die m × n Matrix A deren Spalten die Vektoren v1 , . . . , vn sind und führen mit ihr das Gaußsche Eliminationsverfahren durch. An der Zahl r = rang(A) der von Null verschiedenen Zeilen nach Abschluß der Elimination lassen sich alle Fragen entscheiden: Aufgabe Sind v1 , . . . , vn linear unabhängig? Sind v1 , . . . , vn ein Erzeugendensystem des K m ? Ist v1 , . . . , vn eine Basis des K m ? Kriterium r=n r=m m=n=r Für eine quadratische n × n Matrix A ∈ K n×n betrachten wir die zugehörige lineare Abbildung fA : K n → K n . Wir wissen bereits, dass die Matrix A genau dann invertierbar ist, wenn die lineare Abbildung fA ein Isomorphismus ist, und letzteres ist nach §9.Korollar 13 zur Surjektivität von fA äquivalent. Weiter ist nach §9.Lemma 10 auch genau dann Bild(fA ) = K n wenn rang(A) = dim Bild(fA ) = n ist, d.h. A ∈ K n×n ist invertierbar ⇐⇒ rang(A) = n. Kombinieren wir diese Beobachtung mit der Beschreibung der Invertierbarkeit einer 274 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Matrix über ihre Determinante §8.Korollar 12, so folgt weiter det A 6= 0 ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ Die Die Die Die Spalten von A sind linear unabhängig Spalten von A sind eine Basis des K n Zeilen von A sind linear unabhängig Zeilen von A sind eine Basis des K n Schließlich können wir auch den Satz 2 in Termen des Rangs einer Matrix umformulieren. Satz 10.4 (Hauptsatz über lineare Gleichungssysteme) Seien K ∈ {R, C} und Ax = b ein lineares Gleichungsystem in m Gleichungen und n Unbekannten mit Koeffizentenmatrix A ∈ K m×n und rechter Seite b ∈ K m . Dann ist Ax = b genau dann lösbar wenn der Rang von A gleich dem Rang der erweiterten Koeffizientenmatrix des linearen Gleichungssystems ist, also Ax = b lösbar ⇐⇒ rang(A|b) = rang(A). In diesem Fall ist der Lösungsraum L := {x ∈ K n |Ax = b} ein affiner Teilraum des K n mit dim L = n − rang(A). Beweis: Bezeichne B die erweiterte Koeffizientenmatrix des linearen Gleichungssystems Ax = b, also B = (A|b). Führen wir das Gaußsche Eliminationsverfahren durch, so entstehe aus B die Matrix B 0 = (A0 |b0 ). Sind r die Anzahl von Null verschiedener Zeilen in A0 und s die Anzahl von Null verschiedener Zeilen in B 0 , so ist nach Satz 3.(e) auch rang(A) = r und rang(B) = s. Das lineare Gleichungssystem Ax = b ist genau dann lösbar wenn auch die rechte Seite jeder Nullzeile in A0 gleich Null ist, wenn also b0i = 0 für jedes r < i ≤ m gilt. Letzteres bedeutet das A0 und B 0 dieselben von Null verschiedenen Zeilen haben, dass also r = s ist. Damit ist die erste Aussage des Satzes bewiesen, und die zweite folgt aus Satz 2. 10.3 Linearformen und das Skalarprodukt Unter einer Linearform auf dem K n verstehen wir eine lineare Abbildung f : K n → K. Dies ist der Fall m = 1 im vorigen Abschnitt, d.h. die Linearformen sind die 1 × nMatrizen, beziehungsweise die Zeilenvektoren. Definieren wir also für Vektoren u, v ∈ 275 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 K n das Skalarprodukt v1 hu|vi := ut v = (u1 . . . un ) · ... = u1 v1 + · · · + un vn , vn so haben alle Linearformen f : K n → K die Gestalt f = fu : K n → K; x 7→ hu|xi für ein geeignetes u ∈ K n . Es gibt eine Vielzahl alternativer Schreibweisen für das Skalarprodukt, einige häufiger anzutreffende Schreibweisen sind hu|vi = u · v = (u, v) = (u|v) = hu, vi. Nennen wir zwei Vektoren u, v ∈ K n senkrecht aufeinander, geschrieben als u ⊥ v, wenn hu|vi = 0 ist, so haben wir Kern(fu ) = u⊥ := {v ∈ K n |u ⊥ v}. Das ist alles sowohl im Fall K = R als auch im Fall K = C wahr, allerdings verhält sich das Senkrechtstehen im komplexen Fall ein wenig merkwürdig. Ist etwa u der Vektor 1 u := ∈ C2 , i so haben wir hu|ui = 12 + i2 = 0, der Vektor u 6= 0 steht also auf sich selbst senkrecht. Da wir so etwas nicht betrachten wollen, beschränken wir uns im Rest dieses Abschnitts auf den reellen Fall K = R. Tatsächlich verwendet man im komplexen Fall normalerweise ein leicht modifiziertes, sogenanntes hermitesches, Skalarprodukt, das wir in diesem Semester aber nicht behandeln wollen. Wir kommen nun zur geometrischen Bedeutung des Skalarprodukts. Die Länge eines Spaltenvektors u ∈ Rn definieren wir als die Zahl p ||u|| := |u| := hu|ui. p Die Bezeichnung Länge von u“ für ||u|| = hu|ui bedarf natürlich noch einer Be” gründung. Diese wollen wir hier für n = 2 vorführen, der allgemeine Fall folgt hieraus, da jeder Vektor im Rn in einem zweidimensionalen Teilraum, also in einem R2 , liegt. Dies ist zumindest für n ≥ 2 so, aber für den Fall n = 1 ist sowieso nichts zu zeigen. Gegeben sei ein Vektor u u= x y ∈ R2 l 0 276 x y Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 und betrachte das nebenstehende rechtwinklige Dreieck. Die Komponenten x, y, beziehungsweise eigentlich ihre Beträge, sind dann die beiden Kathetenlängen im diesem Dreieck. Nach dem Satz von Pythagoras addieren sich ihre Quadrate damit zum Quadrat l2 der Länge der Hypotenuse des Dreiecks. Aber diese wird gerade vom p Vektor u gebildet, ihre Länge ist also gerade die Länge des Vektors u, d.h. l = x2 + y 2 . p p Andererseits ist aber auch hu|ui = x2 + y 2 , d.h. hu|ui = x2 + y 2 ist tatsächlich die Länge von u. Wir wollen jetzt die übliche geometrische Interpretation des Skalarprodukts herleiten. Hierzu ist es sehr nützlich zunächst zu zeigen, daß unser oben definiertes Senkrechtstehen genau das übliche geometrische Senkrechtstehen ist. Auch dies wollen wir wieder im ebenen Fall n = 2 nachweisen, da auch je zwei Vektoren in einer Ebene liegen folgt hieraus wieder der allgemeine Fall. Gegeben seien also zwei Vektoren 0 x x u= ,v= , y y0 deren Skalarprodukt sich als hu|vi = xx0 + yy 0 ergibt. Wir können uns auf den Fall u 6= 0 beschränken. Dass u und v senkrecht aufeinander stehen, bedeutet das v ein Vielfaches des um π/2 (also 90◦ ) gedrehten Vektors u ist, der wie im vorigen Abschnitt gesehen als cos π2 − sin π2 x 0 −1 x −y 0 u = · = · = sin π2 cos π2 y 1 0 y x gegeben ist, also als Anwendung der Drehmatrix zum Winkel φ = π/2 auf u. Dass u und v senkrecht aufeinander stehen bedeutet nun also das v ein Vielfaches dieses Vektors ist, also x0 = −cy, y 0 = cx für eine reelle Zahl c, und damit xx0 + yy 0 = 0. Die Rückrichtung folgt dann ebenso. Damit ist das Senkrechtstehen wirklich genau das geometrischen Senkrechtstehen. Diese kleine geometrische Tatsache läßt sich nun leicht zur geometrischen Beschreibung des allgemeinen Skalarprodukts erweitern. Wieder können wir uns auf den ebenen Fall n = 2 beschränken. Gegeben seien also wieder zwei Vektoren u und v im R2 . Wir betrachten dann den von u und v eingev schlossenen Winkel φ. Weiter fällen wir das Lot von v auf die Gerade durch 0 und u. Der Lotfußpunkt werde mit p bezeichnet, und den Vektor von p nach w v nennen wir w, d.h. es ist v = p + w wobei u und w senkrecht aufeinander stehen. Wie bereits gezeigt u ist damit hu|wi = 0. Weiter ist p ein Vielfaches von u, wir können also p = λu mit einer reellen Zahl p λ ∈ R schreiben. Im obigen Bild ist der Winkel φ 0 kleiner als π/2, und damit liegt p auf derselben Seite wie u und wir haben λ ≥ 0. Ist φ größer als π/2, so liegt p links von 0 und es wird λ < 0, aber diesen Fall wollen wir nicht gesondert ausführen da er zu keinem anderen 277 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Ergebnis führt. Es ist v = p + w = λu + w und wir rechnen hu|vi = hu|λu + wi = λhu|ui + hu|wi = λ||u||2 . Dabei haben wir die aus der Definition des Skalarprodukts offensichtlichen Formeln hx|y+zi = hx|yi+hx|zi, hx|λyi = λhx|yi verwendet. Um nun den Winkel φ ins Geschäft zu bringen betrachten wir noch das von 0, p und v gebildete rechtwinklige Dreieck. Die Ankathete bezüglich des Winkels φ hat in diesem Dreieck die Länge ||p|| = λ||u||, und die Hypotenuse wird vom Vektor v gebildet, hat also die Länge ||v||. Also ist cos φ = λ||u||/||v||. Damit rechnen wir nun ||u|| · ||v|| · cos φ = ||u|| · ||v|| · λ||u|| = λ||u||2 = hu|vi. ||v|| Diese Formel ist die übliche geometrische Beschreibung des Skalarprodukts als hu|vi = Produkt der Längen mal Cosinus des eingeschlossenen Winkels. Streng genommen haben wir einen Winkel“ gar nicht definiert, und tatsächlich wird ” in der Mathematik die Formel hu|vi = ||u|| · ||v|| · cos φ oft als Definition des Winkels φ zwischen den Vektoren u und v interpretiert. Wir wollen noch ein weiteres Ergebnis der eben durchgeführten Überlegung festhalten. Den oben verwendeten Lotfußpunkt p nennt man auch die Projektion des Vektors v in Richtung von u, oder auf u. Unsere obige Formel besagt dann p = λu = hu|vi |hu|vi| · u und ||p|| = λ · ||u|| = . ||u||2 ||u|| Insbesondere ist damit hp|ui = hu|vi · hu|ui = hu|vi. ||u||2 Diese Beobachtungen bilden auch die Grundlage für die Bedeutung des Skalarprodukts in der Mechanik. Dort treten Vektoren beispielsweise bei der Beschreibung wirkender Kräfte auf. Denken wir uns, dass der Vektor v eine Kraft beschreibt, so interessiert man sich hier für den in Richtung von u wirkenden Teil der Kraft. Um diesen zu ermitteln zerlegt man v in einen zu u parallelen und einen zu u senkrechten Teil, und dies ist gerade unsere oben verwendet Zerlegung v = p + w. Der in Richtung u wirkende Teil der Kraft ist dann also p = λu = (hu|vi/||u||2 )u. In der Regel wird die Richtung dann durch einen Einheitsvektor beschrieben, d.h. wir haben ||u|| = 1 und somit p = hu|viu. Der Betrag der in Richtung u wirkenden Kraft ist dann ||p|| = |hu|vi|. In §8 hatten wir bemerkt, dass die Determinante, beziehungsweise ihr Betrag, das Volumen des von den Spalten der Determinante aufgespannten Parallelepipeds angibt. An dieser Stellen wollen wir dies für den ebenen Fall n = 2 auch einmal nachweisen. Hierzu betrachten wir die Fläche F des durch u und v gegebenen Parallelogramms: 278 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 v w u p 0 Dann haben wir F = ||u|| · ||w||, da wir etwa das rechts abgetrennte Teildreieck links wieder anhängen können und ein Rechteck mit den Seitenlängen ||u|| und ||w|| erhalten. Betrachten wir erneut unser rechtwinkliges Dreieck von oben, so können wir aus diesem die Länge ||w|| als ||w|| = ||v|| sin φ gewinnen, und somit wird die Fläche des von u und v aufgespannten Parallelogramms zu F = ||u|| · ||w|| = ||u|| · ||v|| · sin φ. Dabei betrachten wir hier den Fall, dass u und v sich wie im obigen Bild verhalten, der Punkt v also oberhalb von u liegt und der Winkel φ von u nach v kleiner als π ist, denn dann ist sin φ > 0. Quadrieren wir die Gleichung, so wird F 2 = (||u|| · ||w||)2 = ||u||2 ||v||2 sin2 φ = ||u||2 ||v||2 (1 − cos2 φ) = ||u||2 ||v||2 − hu|vi2 . Setzen wir hier u = (u1 , u2 ), v = (v1 , v2 ) ein, so wird dieser Ausdruck zu F 2 = (u21 + u22 ) · (v12 + v22 ) − (u1 v1 + u2 v2 )2 = u21 v12 + u21 v22 + u22 v12 + u22 v22 − u21 v12 − u22 v22 − 2u1 u2 v1 v2 = u21 v22 + u22 v12 u1 v 1 2 , − 2u1 u2 v1 v2 = (u1 v2 − u2 v1 ) = u2 v 2 2 d.h. es ist tatsächlich F = | det(u, v)|. Auch das Vorzeichen der Determinante det(u, v) hat eine geometrische Bedeutung. Um diese zu sehen betrachten wir die beiden möglichen Konstellationen von u und v v 0 u 0 Positive Basis, det(u,v) > 0 u Negative Basis, det(u,v) < 0 v 279 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Wir drehen den Vektor u, beziehungsweise genauer die von ihm erzeugte Halbgerade, gegen den Uhrzeigersinn zum Vektor v. Im linken Bild ist der dabei auftretende Drehwinkel φ kleiner als π, und wir nennen die Basis u, v positiv. Im rechten Bild ist der Winkel φ größer als π und wir haben eine negative Basis. Welcher der beiden Fälle vorliegt läßt sich an der Determinante det(u, v) ablesen, ist diese positiv, so ist die Basis positiv, und ist sie negativ, so ist die Basis negativ. Als ein Beispiel zur Verwendung des Skalarprodukts wollen wir die sogenannte Hessesche Normalform einer Hyperebene im Rn herleiten. Eine Hyperebene h im Rn ist ein m = n − 1 dimensionaler affiner Teilraum des Rn . Wir wir im ersten Abschnitt gesehen haben, können wir h als die Lösungsmenge eines linearen Gleichungssystems in n Unbekannten mit n − m = 1 Gleichungen beschreiben, d.h. es gibt einen Vektor u0 ∈ Rn und eine rechte Seite b ∈ Rn−m = R mit x 1 .. 0 n 0 h = . ∈ R u1 x1 + · · · + un xn = b = {x ∈ Rn |hu0 |xi = b}. x n Indem wir eventuell u0 durch −u0 ersetzen können wir dabei auch b ≥ 0 annehmen. Da h weder die leere Menge noch der ganze Rn ist, muss u0 6= 0 sein. Wir können also den Einheitsvektor u0 b u := 0 der Länge 1 und c := 0 ∈ R≥0 ||u || ||u || bilden und haben h = {x ∈ Rn |hu|xi = c}. Diese Beschreibung ist die sogenannte Hessesche Normalform der Hyperebene h. Der Vektor u steht dabei senkrecht auf der Richtung H ≤ Rn von h. Wähle nämlich einen Punkt p ∈ h. Für jeden Vektor v ∈ H ist dann auch p + v ∈ h und wir haben c = hu|p + vi = hu|pi + hu|vi = c + hu|vi =⇒ hu|vi = 0. Hieraus sehen wir insbesondere, dass der Vektor u bis auf ein Vorzeichen eindeutig bestimmt ist, es ist der sogenannte Normalenvektor auf der Richtung H von h. Auch die Zahl c hat eine geometrische Bedeutung, sie ist gerade gleich dem Abstand der Hyperebene h zum Nullpunkt. Dies wollen wir an dieser Stelle aber nicht mehr begründen. Ist die Hyperebene h als h = u+hv1 , . . . , vn−1 i gegeben und soll ihre Hessesche Normalform berechnet werden, so kann man sich zunächst wie in Aufgabe (38) einen Vektor u0 ∈ Rn mit H := hv1 , . . . , vn−1 i = {x ∈ Rn |hu0 |xi = 0} verschaffen. Setzt man dann b := hu0 |ui, so wird h = {x ∈ Rn |hu0 |xi = b} und wir müssen nur noch die oben beschriebene Normierung durchführen. 10.4 Das Vektorprodukt Das Vektorprodukt ist ein spezifisch dreidimensionales Phänomen, es ordnet zwei Vektoren u, v ∈ R3 einen weiteren Vektor u × v ∈ R3 zu, genannt das Vektorprodukt oder 280 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 auch das Kreuzprodukt von u und v. Wie für das bereits behandelte Skalarprodukt gibt es zwei mögliche Arten das Vektorprodukt einzuführen, eine algebraische und eine mehr geometrische Methode. Wir werden die algebraische Form als Definition verwenden, wollen aber erst mal die geometrische Beschreibung des Vektorprodukts angeben. Zunächst soll u × v senkrecht auf u und auf v stehen. Sind insbesondere u und v linear unabhängig, so wird u × v senkrecht auf der von u und v aufgespannten Ebene sein. Hierdurch ist das Vektorprodukt aber noch nicht festgelegt, die auf u und v senkrechten Vektoren bilden einen eindimensionalen Teilraum des R3 , zumindest wenn u und v linear unabhängig sind. Als nächste Einschränkung soll die Länge des Vektorprodukts gerade die Fläche des von u und v aufgespannten Parallelograms sein. Dadurch ist das Vektorprodukt fast vollständig festgelegt, es gibt gerade zwei auf u, v senkrechte Vektoren einer vorgeschriebenen Länge. Welcher dieser beiden Vektoren als Vektorprodukt verwendet wird, ist durch die dritte Eigenschaft des Vektorprodukts festgelegt, die drei Vektoren u, v und u × v sollen eine positive Basis des R3 bilden, also eine deren Determinante positiv ist. Dies beschreibt zumindest den Fall wenn u und v linear unabhängig sind, andernfalls wird einfach u × v = 0 sein. Wie im zweidimensionalen Fall läßt sich auch wieder sagen was die Positivität einer Basis geometrisch bedeutet. Eine Basis u, v, w des R3 ist positiv, wenn sie ein Rechtssystem bildet, also wie die x-, y- und z-Achse im R3 angeordnet ist. Eine populäre andere Formulierung dieser Bedingung ist die Rechte Hand Regel“. Halten Sie den Daumen ” der rechten Hand in Richtung des ersten Basisvektors u, und den Finger daneben in Richtung des zweiten Basisvektors v, so richtet sich der Mittelfinger in Richtung des dritten Basisvektors w aus. Algebraisch erkennt man dies, wie bereits bemerkt, einfach daran das det(u, v, w) > 0 ist. Wir kommen nun zur algebraischen Definition des Vektorprodukts, und werden dann im folgenden nachweisen, dass diese Definition tatsächlich die obige geometrische Beschreibung verwirklicht. Definition 10.3: Seien u, v ∈ R3 . Das Vektorprodukt von u und v ist dann der Vektor u1 v1 e1 u × v := u2 v2 e2 ∈ R3 . u3 v3 e3 Dabei stehen e1 , e2 , e3 wieder für die drei kanonischen Basisvektoren des R3 . Eine etwas direktere Beschreibung des Vektorprodukts u × v erhalten wir, indem wir die obige Determinante nach der dritten Spalte entwickeln. Das Vektorprodukt wird dann zu u1 v1 e1 u1 v 1 u1 v 1 u2 v 2 ·e − ·e + ·e u × v = u2 v2 e2 = u3 v 3 1 u3 v 3 2 u2 v 2 3 u3 v3 e3 281 Mathematik für Physiker I, WS 2016/2017 und in Komponenten ausgeschrieben u2 u3 u1 u×v = − u3 u1 u2 Freitag 27.1.2017 ergibt sich v2 v3 u2 v 3 − u3 v 2 v1 u3 v 1 − u1 v 3 . = v3 u1 v 2 − u2 v 1 v1 v2 Insbesondere ist das tatsächliche Berechnen von Kreuzprodukten einfach möglich 1 3 2 − 10 −8 −1 × 5 = −(−2 − 6) = 8 . 2 −2 5+3 8 Einige der algebraischen Grundeigenschaften des Vektorprodukts folgen sofort aus der algebraischen Definition. Da eine Determinante genau dann Null ist, wenn ihre Spalten linear abhängig sind, erhalten wir u × v = 0 ⇐⇒ u und v sind linear abhängig. Vertauschen wir in einer Determinante zwei Spalten, so ändert sich das Vorzeichen der Determinante, also u × v = −v × u. Da die Determinante in jeder ihrer Spalten linear ist, haben wir ebenfalls (u1 +u2 )×v = u1 ×v +u2 ×v, u×(v1 +v2 ) = u×v1 +u×v2 , λ·u×v = (λu)×v = u×(λv) für u, v, u1 , u2 , v1 , v2 ∈ R3 , λ ∈ R. Wir wollen nun beginnen uns die eingangs gegebene geometrische Beschreibung des Vektorprodukts herzuleiten. Es stellt sich als nützlich heraus, zunächst einmal für u, v, w ∈ R3 die folgende Kombination von Skalarprodukt und Vektorprodukt zu berechnen u1 v1 w1 u2 v 2 u1 v 1 u1 v 1 w1 − w2 + w3 = u2 v2 w2 = det(u, v, w). hu×v|wi = u3 v 3 u2 v 2 u3 v 3 u3 v3 w3 Man bezeichnet hu × v|wi = det(u, v, w) auch als das Spatprodukt der drei Vektoren u, v, w. Insbesondere haben wir nun hu × v|ui = det(u, v, u) = 0 da die Determinante det(u, v, u) zwei identische Spalten hat. Ebenso ist hu × v|vi = 0. Andererseits haben wir bereits eingesehen, dass hu × v|ui = 0 gerade bedeutet, dass 282 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 u × v senkrecht auf u steht, und ebenso steht dann u × v senkrecht auf v. Damit haben wir die erste der obigen drei Bedingungen an das Vektorprodukt eingesehen. Wir kommen nun zur Länge von u × v 2 ||u × v|| u2 v 2 2 u1 v 1 2 u1 v 1 2 + + = u2 v 2 u3 v 3 u3 v 3 = (u2 v3 − u3 v2 )2 + (u1 v3 − u3 v1 )2 + (u1 v2 − u2 v1 )2 = u22 v32 + u23 v22 + u21 v32 + u23 v12 + u21 v22 + u22 v12 −2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 ) 2 = (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u21 v12 + u22 v22 + u23 v32 +2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 )) 2 = (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u1 v1 + u2 v2 + u3 v3 )2 = ||u||2 ||v||2 − hu|vi2 . Andererseits haben wir bereits bei der Diskussion des Skalarprodukts festgehalten, dass ||u||2 ||v||2 −hu|vi2 gerade das Quadrat der Fläche des von u und v aufgespannten Parallelograms ist. Folglich ist die Länge ||u×v|| gerade die Fläche dieses Parallelograms. Es verbleibt nur noch zu zeigen, dass u, v, u×v eine positive Basis des R3 ist, wenn u und v linear unabhängig sind. Dies ist aber mit unserer obigen Formel hu×v|wi = det(u, v, w) klar det(u, v, u × v) = hu × v|u × vi = ||u × v||2 > 0. Damit haben wir auch die geometrische Beschreibung des Vektorprodukts verifiziert. Wir wollen uns nun noch über die geometrische Bedeutung des Spatprodukts klar werden. w uxv v F 0 u Wir wollen uns überlegen, dass hu × v|wi gerade das Volumen des von u, v, w aufgespannten Spats ist, wie im obigen Bild angedeutet. Beachte dazu, das sich das Volumen einer Teilmenge des R3 unter Scherungen nicht ändert, das Volumen V des Spats ergibt sich also als das Produkt F · l, wobei F die Fläche des von u und v aufgespannten 283 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Parallelograms ist, und l die Länge der Projektion von w auf eine zu diesem Parallelogram senkrechte Gerade ist. Wie bereits gesehen steht das Vektorprodukt u × v senkrecht auf u und v, also auch auf unserem Parallelogram. Wie bei der Diskussion des Skalarprodukts gezeigt, ist die Länge der Projektion von w auf u × v gegeben als l= hu × v|wi . ||u × v|| Andererseits haben wir auch bereits eingesehen, dass die Fläche F unseres Parallelograms gerade die Länge des Vektorprodukts u × v ist, d.h. wir haben V = F · l = ||u × v|| · hu × v|wi = hu × v|wi. ||u × v|| Das Spatprodukt ist also das Volumen unseres Spats versehen mit einem Vorzeichen. Insbesondere ist dieses Volumen auch gleich V = hu × v|wi = det(u, v, w). Damit haben wir die in §8 angemerkte Bedeutung der Determinante als Volumen auch für n = 3 eingesehen. Das Vorzeichen des Spatprodukts zeigt wieder an, ob u, v, w eine positive Basis bilden oder nicht, ist also positiv für ein Rechtssystem und negativ für ein Linkssystem. Die algebraischen Eigenschaften des Vektorprodukts sind ganz anders als diejenigen der gewöhnlichen Multiplikation. Wir hatten beispielsweise schon gesehen, dass für alle u, v ∈ R3 stets u × v = −v × u ist, und das u × v = 0 sein kann selbst wenn u, v 6= 0 beide nicht Null sind. Das Vektorprodukt ist auch nicht assoziativ, man kann also nicht einfach Klammern weglassen. Zum Abschluß wollen wir noch zwei Formeln über doppelte Vektorprodukte herleiten. Satz 10.5 (Graßman- und Jacobi-Identität) Seien u, v, w ∈ R3 . Dann gelten u × (v × w) = hu|wiv − hu|viw (Graßman Identität) und u × (v × w) + v × (w × u) + w × (u × v) = 0 (Jacobi Identität). Beweis: Wir zeigen zunächst, dass die Graßman Identität gilt wenn v und w linear abhängig sind. Im Fall v = 0 sind dabei beide Seiten sofort gleich Null, und im Fall v 6= 0 gibt es ein λ ∈ R mit w = λv und wir haben ebenfalls hu|wiv − hu|viw = λhu|viv − hu|viλv = 0 = u × (v × w). Zum Beweis der Graßman Identität im allgemeinen Fall beginnen wir mit dem Spezialfall u × (u × v) = hu|viu − ||u||2 v. 284 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Da der linear abhängige Fall schon erledigt ist, können wir annehmen das u und v linear unabhängig sind. Dann spannen u und v den zweidimensionalen Teilraum hu, vi auf, und u × v steht senkrecht auf diesem, also ist (u × v)⊥ = {x ∈ R3 |u × v ⊥ x} = hu, vi. Da u × (u × v) senkrecht auf u × v ist, folgt u × (u × v) ∈ hu, vi, es gibt also α, β ∈ R mit u × (u × v) = αu + βv. Wir haben 0 = hu|u × (u × v)i = α||u||2 + βhu|vi und wegen hu × (u × v)|vi = det(u, u × v, v) = − det(u, v, u × v) = −||u × v||2 = hu|vi2 − ||u||2 ||v||2 ist auch hu|vi2 − ||u||2 ||v||2 = αhu|vi + β||v||2 . Damit haben wir zwei Gleichungen für α und β. Die erste Gleichung liefert α=− hu|vi β, ||u||2 und eingesetzt in die zweite Gleichung ergibt dies hu|vi2 − ||u||2 ||v||2 = β||v||2 − hu|vi2 ||u||2 ||v||2 − hu|vi2 β = β, ||u||2 ||u||2 d.h. β = −||u||2 und α = − hu|vi β = hu|vi. ||u||2 Insgesamt haben wir damit die zu beweisende Gleichung u × (u × v) = αu + βv = hu|vi u − ||u||2 v. Wir kommen jetzt zum Beweis der Graßman Identität im allgemeinen Fall. Wie schon bemerkt können wir v und w als linear unabhängig annehmen. Dann ist v, w, v × w eine Basis des R3 , wir können also u = αv + βw + γ(v × w) mit geeigneten α, β, γ ∈ R schreiben. Es folgen hu|wi = α hv|wi + β||w||2 und hu|vi = α||v||2 + β hv|wi 285 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 und mit dem bereits bewiesenen Spezialfall der Graßman Identität ist damit u × (v × w) = α v × (v × w) + β w × (v × w) + γ (v × w) × (v × w) = α v × (v × w) − β w × (w × v) = α(hv|wiv − ||v||2 w) − β(hv|wiw − ||w||2 v) = (αhv|wi + β||w||2 )v − (α||v||2 + βhv|wi)w = hu|wiv − hu|viw. Damit ist die Graßman Identität bewiesen. Die Jacobi Identität ist eine Folgerung, wir haben u × (v × w) + v × (w × u) + w × (u × v) = hu|wiv − hu|viw + hu|viw − hv|wiu + hv|wiu − hu|wiv = 0. $Id: stetig.tex,v 1.31 2017/02/03 13:56:29 hk Exp $ §11 Stetige Funktionen In diesem Kapitel kommen wir zur Analysis zurück, und wollen den Stetigkeitsbegriff behandeln. Die Bedeutung des Wortes stetig“ hat sich in der Mathematik einige ” Male geändert, noch im neunzehnten Jahrhundert waren damit Funktionen gemeint die sich lokal als analytische Ausdrücke“ schreiben lassen, solche Funktionen nennt ” man inzwischen holomorph. In der aktuell verwendeten Definition bedeutet stetig“ in ” der Mathematik wesentlich weniger, stetige Funktionen können sich hochgradig irregulär verhalten. Beispielsweise gibt es stetige Funktionen f : R → R die in keinem einzigen Punkt eine Ableitung besitzen. In gewissen Sinne sind diese sogar der Regelfall, man kann sagen was es bedeutet zufällig eine stetige Funktion zu wählen, und dann ist die Wahrscheinlichkeit das eine zufällig gewählte stetige Funktion in auch nur einen einzigen Punkt differenzierbar ist, gleich Null. Als Vorstufe zum Stetigkeitsbegriff benötigen wir die sogenannten Funktionsgrenzwerte“ die wir erst einmal in einem ” eigenen Abschnitt behandeln wollen. 11.1 Funktionsgrenzwerte In diesem Abschnitt wollen wir die sogenannten Funktionsgrenzwerte limx→x0 f (x) einführen. Wie wir sehen werden, gibt es eine ganze Reihe verschiedener Varianten dieses Begriffs, was die folgenden Definitionen komplizierter erscheinen läßt als sie wirklich sind. Wir wollen sowohl Funktionen von R nach R, von R nach C, von C 286 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 nach R als auch von C nach C behandeln können. Dies sind für sich genommen schon vier Fälle. Weiterhin wollen wir bei einem Grenzwert limx→a f (x) für reelle Argumente auch a = ±∞ zulassen und bei reellen Werten auch ±∞ als Grenzwert erlauben. Dies ergibt neun mögliche Kombinationen von ∈ R“, +∞“ und −∞“. Um die Fallunter” ” ” scheidungen nicht allzu sehr ausufern zu lassen, erfassen wir alle möglichen Fälle von Argument–Wert Kombinationen indem wir f : K → L schreiben und K, L stehen dabei jeweils für R oder C. Im reellen Fall soll ±∞ erlaubt werden, und schon in §1 hatten wir für solche Zwecke die erweiterten reellen Zahlen R = R ∪ {−∞, +∞} eingeführt. Wenn wir nun bei f : K → L einfach K und L schreiben wollen, müssen wir sagen was dies im komplexen Fall K = C oder L = C bedeuten soll, und zu diesem Zweck setzen wir C := C. Wie schon im Kapitel §4 über Folgen angekündigt, werden wir all die Grenzwertbegriffe für Funktionen auf die Konvergenz von Folgen zurückführen, hierzu brauchen wir aber noch einen Hilfsbegriff, wenn ein Limes von f (x) für x gegen x0 irgendeinen Sinn haben soll darf der Punkt x0 nicht allzu weit weg vom Definitionsbereich der Funktion f liegen, haben wir zum Beispiel eine für x > 0 definierte Funktion f (x), so wird es sicher keinen Sinn haben einen Grenzwert für x gegen −1 definieren zu wollen. Einen Grenzwert für x gegen Null sollte es aber geben, obwohl x = 0 nicht im Definitionsbereich der Funktion liegt. Dieses nicht allzu weit weg sein“ wird durch den Hilfsbegriff der Häufungspunkte ” eine Menge exakt eingeführt. Definition 11.1 (Häufungspunkte von Teilmengen von R und C) Seien K ∈ {R, C} und M ⊆ K eine Teilmenge. Ein Punkt p ∈ K heißt ein Häufungspunkt von M , wenn es eine in K gegen p konvergente Folge in M \{p} gibt. Wir schreiben M 0 := {p ∈ K|p ist ein Häufungspunkt von M } für die Menge aller Häufungspunkte von M in K. Beachte das ±∞ zwar Häufungspunkte einer Menge M ⊆ R sein können, aber trotzdem nicht in die Menge M 0 aufgenommen werden. Machen sie sich außerdem klar des es einen Unterschied zwischen den Häufungspunkten einer Folge (xn )n∈N und den Häufungspunkten der Menge {xn |n ∈ N} gibt. Analog zu unserem Vorgehen bei Folgen folgen für eine Menge M ⊆ R +∞ ist Häufungspunkt von M ⇐⇒ M ist nach oben unbeschränkt, −∞ ist Häufungspunkt von M ⇐⇒ M ist nach unten unbeschränkt. Uns werden hauptsächlich zwei Beispieltypen interessieren: 1. Sind a, b ∈ R mit a < b und (a, b) ⊆ M ⊆ [a, b], so ist M 0 = [a, b], und entsprechendes gilt für unbeschränkte Intervalle. Um dies zu beweisen sei I ⊆ R ein Intervall mit mindestens zwei Punkten. Sei x ∈ I oder sei x ∈ R ein Randpunkt von I. Dann gibt es ein > 0 mit |x − y| > für jeden von x verschiedenen 287 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Randpunkt y von I. Da I ein Intervall mit mindestens zwei Punkten ist, ist (x, x + ) ⊆ I und wir setzen σ := 1 oder (x − , x) ⊆ I und wir setzen σ := −1. Für jedes n ∈ N haben wir dann xn := x + σ/(n + 2) ∈ I\{x} und es gilt (xn )n∈N −→ x, d.h. x ∈ I 0 ist ein Häufungspunkt von I. Nun sei x ∈ R umgekehrt ein Häufungspunkt von I. Dann gibt es eine gegen x konvergente Folge (xn )n∈N in I. Ist a ∈ R linker Randpunkt von I, so ist xn ≥ a für jedes n ∈ N, also auch x = limn→∞ xn ≥ a. Ist b ∈ R rechter Randpunkt von I so folgt analog x ≤ b. Damit ist x ∈ I oder x ist ein Randpunkt von I. 2. Im komplexen Fall betrachten wir einen sogenannten offenen Kreis M := Br (z) := {u ∈ C : |u − z| < r} ⊆ C, mit Mittelpunkt z ∈ C und Radius r > 0, und dann ist M 0 = B r (z) := {u ∈ C : |u − z| ≤ r} der entsprechende, sogenannte, abgeschlossene Kreis mit Mittelpunkt z und Radius r. Um dies einzusehen zeigen wir die beiden Inklusionen M 0 ⊆ B r (z) und B r (z) ⊆ M 0 . Sei zunächst w ∈ M 0 ein Häufungspunkt von M . Dann existiert eine gegen w konvergente Folge (wn )n∈N in M \{w}, also ist insbesondere |wn − z| < r für jedes n ∈ N und somit haben wir |w − z| = limn→∞ |wn − z| ≤ r, also w ∈ B r (z). Damit haben wir M 0 ⊆ B r (z) gezeigt. Nun nehme umgekehrt w ∈ B r (z) an. Im Fall w 6= z setzen wir dann u := (w − z)/|w − z| ∈ C und im Fall w = z sei u := 1 ∈ C. In beiden Fällen sind dann |u| = 1 und w = z+|w−z|·u. Es ist |w − z| ∈ [0, r] und wir wissen bereits das (0, r)0 = [0, r] ist, also existiert eine gegen |w − z| konvergente Folge (rn )n∈N in (0, r)\{|w − z|}. Für jedes n ∈ N haben wir dann wn := z + rn u ∈ C mit |wn − z| = rn |u| = rn 6= |w − z| also wn ∈ Br (z)\{w}, und es gilt (wn )n∈N −→ z + |w − z|u = w, d.h. w ∈ M 0 . Dies zeigt B r (z) ⊆ M 0 und insgesamt haben wir M 0 = B r (z) bewiesen. In Beweisen brauchen wir gelegentlich eine besser handhabbare Bedingung für Punkte a die keine Häufungspunkte sind. Seien also K ∈ {R, C}, eine Teilmenge D ⊆ K und ein Punkt a ∈ K gegeben. Dann behaupten wir a∈ / D0 ⇐⇒ ∃( > 0) : B (a) ∩ D ⊆ {a}, d.h. ist a kein Häufungspunkt von D, so existiert ein > 0 so das kein von a verschiedenes Element von D näher als bei a liegt. Dies ist leicht zu beweisen. Ist a nämlich ein Häufungspunkt von D, so gibt es eine gegen a konvergente Folge (xn )n∈N in D\{a}, und für jedes > 0 gibt es dann insbesondere ein Folgenglied xn ∈ D\{a} mit |xn − a| < , d.h. die rechte Seite unserer Äquivalenz ist dann nicht erfüllt. Ist umgekehrt die rechte als falsch vorausgesetzt, so existiert für jedes > 0 ein x ∈ D mit x 6= a und |x − a| < . Insbesondere gibt es für jedes n ∈ N mit n ≥ 1 ein xn ∈ D\{a} mit |xn − a| < 1/n. Nach dem Einschnürungslemma §4.Lemma 5.(b) für Folgen ist 288 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 damit (xn )n≥1 −→ a, und a ist ein Häufungspunkt von D. Damit ist diese Behauptung bewiesen. Wir kommen jetzt zur Definition der Funktionsgrenzwerte und pressen alle überhaupt möglichen Fälle in eine einzige Definition. Definition 11.2 (Funktionsgrenzwerte) Seien K, L ∈ {R, C}, D ⊆ K und f : D → L eine Funktion. Weiter sei a ∈ K ein Häufungspunkt von D. Dann ist die Funktion f an der Stelle a konvergent gegen ein b ∈ L, wenn für jede in K gegen a konvergente Folge (xn )n∈N in D\{a} stets auch (f (xn ))n∈N −→ b gilt. Wir schreiben dann b = lim f (x) x→a und nennen b den Grenzwert von f an der Stelle a. Weiter heißt f an der Stelle a konvergent, wenn es ein b ∈ L gibt so, dass f an der Stelle a gegen b konvergiert. Andernfalls nennen wir die Funktion f an der Stelle a divergent. Die Verwendung von K und L ist leider nötig um alle möglichen Konfigurationen abzudecken, wie schon gesagt will man sowohl auf R definierte Funktionen mit reellen oder komplexen Werten als auch auf C definierte Funktionen mit reellen oder komplexen Werten betrachten und wann immer man reelle Argumente oder Werte verwendet will man auch ±∞ zulassen können. Die mit ±∞ verbundene Sprechweise bei reellwertigen Funktionen ist wie bei den Folgen, man spricht von Konvergenz in R, aber wenn nur von Konvergenz“ die Rede ist, ist damit immer ein reeller Grenzwert, also nicht ±∞ ” gemeint. Oft, und vor allem wenn die Funktion f durch eine explizite Formel gegeben ist, sprechen wir auch von der Konvergenz von f (x) für x gegen a beziehungsweise vom Grenzwert von f (x) für x gegen a. Streng genommen sind diese Sprechweisen eigentlich unsinnig, da es in der Mathematik wie schon am Anfang des Semesters bemerkt, keine nicht in Quantoren gebundenen freien Variablen gibt, und x somit einen festen Wert hat und gegen nichts gehen“ kann. Da diese Formulierung aber so schön sug” gestiv ist und sich leicht in die genauere Version übersetzen läßt, wird sie trotzdem verwendet. Beachte aber das dieses x“ dann einen rein formalen Charakter hat, und ” nur im Kontext des betrachteten Funktionsgrenzwerts verwendet werden kann. Weiterhin unterstellt unsere Verwendung des bestimmten Artikels in der obigen Definition, dass der Grenzwert b eindeutig ist, dies werden wir aber erst in der nächsten Sitzung beweisen. Auf den ersten Blick sieht die Definition eines Funktionsgrenzwerts durch die Verwendung beliebiger“ Folgen recht unhandlich aus, dies stellt sich aber schnell ” als eine Täuschung heraus. Wir wollen jetzt erst einmal vier einfache Beispiele von Funktionsgrenzwerten besprechen. Zunächst sei f : R → R; x 7→ x3 + 2x2 − 7x + 1, und wir wollen den Funktionsgrenzwert limx→1 f (x) berechnen. Hierzu müssen wir Folgen (xn )n∈N in R mit xn 6= 1 für alle n ∈ N und limn→∞ xn = 1 betrachten. Erstere 289 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Bedingung wird dabei keine Rolle spielen. Die Grenzwertsätze für Folgen §4.Satz 6 ergeben lim f (xn ) = lim (x3n + 2x2n − 7xn + 1) n→∞ 3 2 = lim xn + 2 lim xn − 7 · lim xn + 1 n→∞ n→∞ n→∞ n→∞ = 1 + 2 − 7 + 1 = f (1) = −3. Für jede solche Folge hat man also immer denselben Grenzwert −3 und dies bedeutet lim f (x) = −3 = f (1). x→1 Für das zweite Beispiel wollen wir den Grenzwertbegriff noch etwas erweitern und auch links- und rechtsseitige Grenzwerte betrachten. Links- und rechtsseitige Grenzwerte lassen sich nur im Fall K = R reeller Argumente definieren. Weiterhin ist der Begriff nur sinnvoll wenn es überhaupt links und rechts gibt“, also nur wenn a ∈ R, und nicht ” etwa ±∞, ist. Sind D ⊆ R eine Teilmenge und a ∈ R, so betrachten wir die beiden Teilmengen D≥a := {x ∈ D|x ≥ a} und D≤a := {x ∈ D|x ≤ a}, und nennen a einen rechtsseitigen Häufungspunkt von D wenn a ein Häufungspunkt von D≥a ist, und einen linksseitigen Häufungspunkt von D wenn a ein Häufungspunkt von D≤a ist. Offenbar ist a genau dann ein Häufungspunkt von D, wenn a ein links- oder ein rechtsseitiger Häufungspunkt von D ist. Sei jetzt weiter eine Funktion f : D → L gegeben, wobei wieder L ∈ {R, C} ist, und sei b ∈ L. Ist dann a ein rechtsseitiger Häufungspunkt von D, so sagen wir das die Funktion f an der Stelle a von rechts gegen b konvergiert, und schreiben lim f (x) = b x↓a wenn die Einschränkung f |D≥a an der Stelle a gegen b konvergiert. Wir nennen b dann auch den rechtsseitigen Grenzwert der Funktion f an der Stelle a. Die Einschränkung einer Funktion f : M → N auf eine Teilmenge D ⊆ M hatten wir dabei in §2 als die Funktion f |D : D → N ; x 7→ f (x), definiert bei der der Definitionsbereich der Ausgangsfunktion zur Menge D verkleinert wird. Ausgeschrieben bedeutet die Aussage limx↓a f (x) = b dann dass für jede gegen a konvergente Folge (xn )n∈N in D mit xn > a für alle n ∈ N auch (f (xn ))n∈N −→ b gilt. Ist a ein linksseitiger Häufungspunkt von D, so wird die linksseitige Konvergenz von f an der Stelle a analog definiert, und man schreibt dann lim f (x). x↑a In diesem Fall nennen wir b den linksseitigen Grenzwert der Funktion f an der Stelle a. Beachte das die links- und rechtsseitigen Grenzwerte einer Funktion f spezielle 290 Mathematik für Physiker I, WS 2016/2017 Freitag 27.1.2017 Beispiele gewöhnlicher Funktionsgrenzwerte sind, und insbesondere sind alle Sätze über Funktionsgrenzwerte auch auf links- und rechtsseitige Funktionsgrenzwerte anwendbar. Als zweites Beispiel betrachten wir jetzt die schon früher einmal in §2 als Beispiel verwendete Heaviside-Funktion ( 1, x ≥ 0, H : R → R; x 7→ 0, x < 0. Um den rechtsseitigen Grenzwert der Heaviside-Funktion im Nullpunkt zu untersuchen, müssen wir uns eine beliebige Nullfolge (xn )n∈N in (0, ∞), also mit xn > 0 für jedes n ∈ N, vorgeben. Für jedes n ∈ N ist dann aber auch H(xn ) = 1, die Folge (H(xn ))n∈N ist also konstant 1 und konvergiert damit auch gegen 1. Da dieser Grenzwert unabhängig von der speziellen Folge ist, haben wir damit lim H(x) = 1 x↓0 eingesehen. Analog ergibt sich der linksseitige Grenzwert lim H(x) = 0. x↑0 Da es insbesondere sowohl Nullfolgen (xn )n∈N in R\{0} gibt bei denen (H(xn ))n∈N gegen 0 konvergiert als auch welche bei denen (H(xn ))n∈N gegen 1 konvergiert, ist die Heaviside-Funktion H in x = 0 divergent, es gibt also keinen Funktionsgrenzwert für x → 0. Analog zu unserer Rechnung für f (x) = x3 + 2x2 − 7x + 1 ergeben die Rechenregeln für Folgengrenzwerte das für jedes Polynom f : K → K über K ∈ {R, C} und jedes x0 ∈ K stets lim f (x) = f (x0 ) x→x0 ist. Kommen wir zu einem etwas komplizierteren Beispiel, der rationalen Funktion f : R\{1, −2} → R; x 7→ x3 − x2 + x + 1 x3 − 3x + 2 mit dem nebenstehend gezeigten Graphen. Betrachten wir zunächst einmal den Grenzwert x → 0. Hier können wir unsere obige Überlegung für Polynome und erneut den Grenzwertsatz für Folgen zum Einsatz bringen, und rechnen für jede Nullfolge (xn )n∈N lim (x3n − x2n + xn + 1) lim f (xn ) = n→∞ n→∞ d.h. es ist lim (x3n n→∞ − 3xn + 2) 1 lim f (x) = f (0) = . 2 x→0 291 1 = , 2 Mathematik für Physiker I, WS 2016/2017 Ebenso können wir natürlich für jede rationale Funktion f und jeden Punkt x0 ∈ R argumentieren, der nicht gerade eine Nullstelle des Nenners ist, und erhalten in diesen Fällen limx→x0 f (x) = f (x0 ). Wie sieht es nun aus, wenn x0 doch eine Nullstelle des Nenners ist? Im Beispiel haben wir Freitag 27.1.2017 10 8 6 y 4 2 –3 –2 –1 x3 − 3x + 2 = (x − 1)2 (x + 2) 0 1 2 –2 –4 mit den beiden Nullstellen −2 und 1. Betrachten wir erst einmal den Grenzwert für x → 1. Zu diesem Zweck schreiben wir 1 x3 − x2 + x + 1 f (x) = · , (x − 1)2 x+2 –6 –8 –10 und wissen bereits x3 − x2 + x + 1 1−1+1+1 2 = = . x→1 x+2 1+2 3 lim Ist nun (xn )n∈N eine Folge mit limn→∞ xn = 1 und xn 6= 1, −2 für alle n ∈ N, so ist 1 = ∞, n→∞ (xn − 1)2 2 x3 − x2n + xn + 1 = , lim n n→∞ xn − 2 3 lim wobei letzterer Grenzwert aus unseren Überlegungen in §4.2 folgt, es handelt sich um den Kehrwert einer Nullfolge mit positiven Vorzeichen, und solche Folgen konvergieren gegen +∞. Also folgt erneut mit den Rechenregeln für Folgengrenzwerte x3n − x2n + xn + 1 = ∞ d.h. lim f (x) = ∞. n→∞ (xn − 1)2 (xn + 2) x→1 lim Wie sieht es mit dem Grenzwert für x → −2 aus? Gehen wir wie bei x = 1 vor, so ist 1 x3 − x2 + x + 1 · , x+2 (x − 1)2 x3 − x2 + x + 1 (−2)3 − (−2)2 − 2 + 1 13 lim = =− . 2 2 x→−2 (x − 1) (−2 − 1) 9 f (x) = Aber der Grenzwert von 1/(x + 2) für x → −2 existiert nicht, da dieser Quotient zwar im Betrag beliebig groß wird wenn x nahe an 2 ist, aber für x < −2 negativ und für x > −2 positiv ist. Was allerdings existiert sind die links- und rechtsseitigen Grenzwerte für x → −2. Ist (xn )n∈N eine gegen −2 konvergente Folge mit xn > −2 und xn 6= 1 für alle n ∈ N, so ist (xn + 2)n∈N eine Nullfolge mit positiven Vorzeichen, also 292 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 konvergiert (1/(xn + 2))n∈N gegen +∞. Der rechte Term konvergierte gegen −13/9, und damit konvergiert (f (xn ))n∈N insgesamt gegen −∞. Dies zeigt lim f (x) = −∞ und analog ist auch x↓−2 lim f (x) = ∞. x↑−2 Wir wollen auch noch ein Beispiel behandeln in dem der Funktionsgrenzwert nicht existiert. Hierzu schauen wir uns die folgende Funktion an: 1 0.5 1 f : (0, ∞) → R; x 7→ sin x 0 0.2 0.4 0.6 0.8 1 –0.5 –1 Wenn x näher zu Null rückt wird 1/x immer größer und sin(1/x) durchläuft immer schneller seine Perioden. Dies führt dann zu dem im Graphen sichtbaren Oszillationseffekt bei Null. In diesen Beispiel gibt es überhaupt keinen Grenzwert von f (x) für x → 0. Wir haben beispielsweise die Folge xn = π 2 1 + nπ mit limn→∞ xn = 0 und f (xn ) = (−1)n für alle n ∈ N. Anschaulich ist dies die Folge, die gerade die abwechselnden Maxima und Minima von f (x) abläuft. Es gibt also eine Nullfolge (xn )n∈N in (0, ∞) bei der die Folge (f (xn ))n∈N divergiert, und damit gibt es insbesondere keinen Grenzwert der Funktion f an der Stelle 0. Vorlesung 24, Montag 30.1.2017 In der letzten Sitzung haben wir den Begriff eines Funktionsgrenzwerts eingeführt und wollen jetzt die allgemeinen Eigenschaften von Funktionsgrenzwerten herleiten. All diese sind vollkommen analog zu den entsprechenden Eigenschaften von Folgen 293 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 und werden auch mittels dieser Aussagen über Folgen bewiesen. Wir geben in diesem Skript auch die vollständigen Beweise an, in der Vorlesung wurden diese weitgehend weggelassen. Lemma 11.1 (Grundeigenschaften von Funktionsgrenzwerten) Seien K, L ∈ {R, C}, D ⊆ K, a ∈ K ein Häufungspunkt von D und f : D → L eine Funktion. Dann gelten: (a) Es gibt höchstens einen Grenzwert von f an der Stelle a. (b) Genau dann konvergiert f an der Stelle a nicht gegen b ∈ L, wenn es ein > 0 und eine Folge (xn )n∈N in D\{a} mit (xn )n∈N −→ a und |f (xn ) − b| ≥ für alle n ∈ N gibt. (c) Ist L = C, so konvergiert f genau dann an der Stelle a gegen b ∈ C wenn die reellwertige Funktion Re ◦f an der Stelle a gegen Re(b) konvergiert und die reellwertige Funktion Im ◦f an der Stelle a gegen Im(b) konvergiert. (d) Sind L = C sowie f (D) ⊆ R und konvergiert f an der Stelle a gegen b ∈ C, so ist auch b ∈ R. (e) Konvergiert f an der Stelle a gegen b ∈ L, so konvergiert auch |f | an der Stelle a gegen |b|. (f ) Sind a ∈ K und b ∈ L, so konvergiert f genau dann an der Stelle a gegen b, wenn es für jedes ∈ R mit > 0 stets ein δ ∈ R mit δ > 0 gibt so, dass für alle x ∈ D mit 0 < |x − a| < δ stets auch |f (x) − b| < ist. (g) Sei M ⊆ D so das a auch ein Häufungspunkt von M ist. Konvergiert dann f an der Stelle a gegen ein b ∈ L, so konvergiert auch die eingeschränkte Funktion f |M : M → L; x 7→ f (x) an der Stelle a gegen b. Beweis: (a) Da es überhaupt eine gegen a konvergente Folge in D\{a} gibt, folgt dies aus §4.Lemma 1.(b). (b) ”=⇒” Es gibt eine in K gegen a konvergente Folge (xn )n∈N in D\{a} so, dass die Bildfolge (f (xn ))n∈N nicht gegen b konvergiert. Nach §4.Lemma 1.(c) existieren ein > 0 und eine Teilfolge (xnk )k∈N von (xn )n∈N mit |f (xnk ) − b| ≥ für alle k ∈ N. Nach §4.Lemma 1.(a) ist auch (xnk ) eine in K gegen a konvergente Folge in D\{a} (im Fall a ∈ {−∞, +∞} werden dabei die Ergänzungen aus §4.2 verwendet). ”⇐=” Gibt es ein > 0 und eine in K gegen a konvergente Folge in D\{a} mit |f (xn ) − b| ≥ für alle n ∈ N, so kann die Folge (f (xn ))n∈N nicht in L gegen b konvergieren, und damit konvergiert auch f an der Stelle a nicht gegen b. 294 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 (c) ”=⇒” Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{a}. Dann konvergiert die Folge (f (xn ))n∈N in C gegen b, und nach §4.Lemma 1.(d) konvergiert die Folge (Re(f (xn )))n∈N in R gegen Re(b) und die Folge (Im(f (xn )))n∈N konvergiert in R gegen Im(b). Damit konvergiert die Funktion Re ◦f an der Stelle a gegen Re(b) und die Funktion Im ◦f konvergiert an der Stelle a gegen Im(b). ”⇐=” Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{x}. Nach unserer Annahme gelten dann (Re(f (xn )))n∈N −→ Re(b) und (Im(f (xn )))n∈N −→ Im(b), also ist nach §4.Lemma 1.(d) auch (f (xn ))n∈N −→ b. Damit konvergiert f an der Stelle a gegen b. (d) Wähle eine gegen a konvergente Folge (xn )n∈N in D\{a}. Dann konvergiert die Folge (f (xn ))n∈N gegen b und für alle n ∈ N gilt f (xn ) ∈ f (D) ⊆ R, also ist nach §4.Lemma 1.(e) auch b ∈ R. (e) Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{a}. Dann ist (f (xn ))n∈N −→ b und mit §4.Lemma 2.(b) folgt auch (|f (xn )|)n∈N −→ |b|. Damit konvergiert die Funktion |f | an der Stelle a gegen |b|. (f ) ”=⇒” Wir zeigen die Kontraposition, nehme also an die Aussage ∀( > 0)∃(δ > 0)∀(x ∈ D) : 0 < |x − a| < δ =⇒ |f (x) − b| < ist falsch. Dann existiert ein > 0 so, dass es für jedes δ > 0 stets ein x ∈ D mit 0 < |x − a| < δ und |f (x) − b| ≥ gibt. Insbesondere gibt es dann für jedes n ∈ N mit n ≥ 1 ein xn ∈ D mit 0 < |xn − a| < 1/n und |f (xn ) − b| ≥ . Für jedes n ∈ N\{0} ist dann insbesondere xn 6= a also xn ∈ D\{a}. Nach §4.Lemma 4.(e) ist (xn − a)n≥1 eine Nullfolge und nach §4.Lemma 4.(d) ist (xn )n≥1 −→ a. Nach (b) konvergiert f damit an der Stelle a nicht gegen b. ”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Wir müssen zeigen, dass die Folge (f (xn ))n∈N gegen b konvergiert. Sei also > 0 gegeben. Nach unserer Annahme existiert dann ein δ > 0 mit |f (x) − b| < für alle x ∈ D mit 0 < |x − a| < δ. Da (xn )n∈N gegen a konvergiert, existiert ein n0 ∈ N mit |xn − a| < δ für alle n ∈ N mit n ≥ n0 . Sei jetzt n ∈ N mit n ≥ n0 gegeben. Wegen xn 6= a ist dann xn ∈ D mit 0 < |xn − a| < δ, also ist auch |f (xn ) − b| < . Damit ist (f (xn ))n∈N −→ b bewiesen. Dies zeigt limx→a f (x) = b. (g) Dies ist klar. Die Aussagen (c) und (d) des Lemmas klären den Zusammenhang zwischen reellwertigen und komplexwertigen Funktionen, für reellwertige Funktionen spielt es keine Rolle ob wir L = R oder L = C verwenden, man kann sich dann den komplexen Fall als den allgemeinen Fall denken. In der Limes Notation kann man (c) als Re lim f (z) = lim Re(f (z)) und Im lim f (z) = lim Im(f (z)) z→a z→a z→a z→a beziehungsweise als lim f (z) = lim Re(f (z)) + i · lim Im(f (z)) z→a z→a z→a 295 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 lesen, entsprechend wird Teil (e) zu lim |f (x)| = lim f (x) . x→a x→a Die Bedingung in Teil (f), also ∀( > 0)∃(δ > 0)∀(x ∈ D) : 0 < |x − a| < δ =⇒ |f (x) − b| < wird als die –δ Definition der Funktionskonvergenz bezeichnet, ob man diese oder die bei uns verwendete Folgendefinition als Definition verwendet, ist recht beliebig und wird in der Literatur unterschiedlich gehandhabt. Wenden wir Teil (f) des Lemmas auf rechtsseitige Grenzwerte an, so ergibt sich lim f (x) = b ⇐⇒ ∀( > 0)∃(δ > 0)∀(x ∈ D) : a < x < a + δ =⇒ |f (x) − b| < , x↓a und für linksseitige Grenzwerte ergibt sich ein analoges –δ Kriterium. Auch wenn a oder b einer der Werte ±∞ ist, kann man eine zu (f) analoge Aussage zeigen, dies ist völlig analog zum Beweis von (f), aber durch die große Anzahl möglicher Fälle etwas umfangreich. Für eine reellwertige Funktion f : D → R mit D ⊆ C und einem Häufungspunkt a ∈ D0 gelten lim f (z) = +∞ ⇐⇒ ∀(t ∈ R)∃(δ > 0)∀(z ∈ D) : 0 < |z − a| < δ =⇒ f (z) > t, z→a lim f (z) = −∞ ⇐⇒ ∀(t ∈ R)∃(δ > 0)∀(z ∈ D) : 0 < |z − a| < δ =⇒ f (z) < t, z→a für eine Funktion f : D → C definiert auf einer nach oben unbeschränkten Menge D ⊆ R und jedes b ∈ C ist lim f (x) = b ⇐⇒ ∀( > 0)∃(t ∈ R)∀(x ∈ D) : x > t =⇒ |f (x) − b| < , x→∞ und ist D nach unten unbeschränkt, so haben wir analog lim f (x) = b ⇐⇒ ∀( > 0)∃(t ∈ R)∀(x ∈ D) : x < t =⇒ |f (x) − b| < . x→−∞ Sind schließlich D ⊆ R und f : D → R eine reellwertige Funktion, so ergeben sich für nach oben unbeschränktes D die Äquivalenzen lim f (x) = +∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x > s =⇒ f (x) > t, x→∞ lim f (x) = −∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x > s =⇒ f (x) < t x→∞ und für nach unten unbeschränktes D ist ebenso lim f (x) = +∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x < s =⇒ f (x) > t, x→−∞ lim f (x) = −∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x < s =⇒ f (x) < t. x→−∞ 296 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Für links- und rechtsseitige Grenzwerte erhält man analoge äquivalente Beschreibungen. In §4 hatten wir gesehen das die Anordnung der reellen Zahlen uns auch spezielle Eigenschaften reeller Folgen liefert. Diese können wir jetzt auch leicht auf Grenzwerte reellwertiger Funktionen übertragen. Dabei kommt es nur darauf an, dass die Funktionswerte reell sind, die Funktionen dürfen aber durchaus auch auf C definiert sein. Lemma 11.2 (Anordnungseigenschaften reeller Funktionsgrenzwerte) Seien K ∈ {R, C}, D ⊆ K und a ∈ K ein Häufungspunkt von D. Weiter seien f, g : D → R zwei Funktionen, die beide in R an der Stelle a konvergieren. (a) Gilt f (x) ≤ g(x) für alle x ∈ D\{a}, so ist auch lim f (x) ≤ lim g(x). x→a x→a (b) Gilt lim f (x) = lim g(x) und ist h : D → R eine weitere Funktion mit f (x) ≤ x→a x→a h(x) ≤ g(x) für alle x ∈ D\{a}, so ist auch die Funktion h in R an der Stelle a konvergent mit dem Grenzwert lim h(x) = lim f (x) = lim g(x). x→a x→a x→a Beweis: (a) Wähle eine gegen a konvergente Folge (xn )n∈N in D\{a}. Dann ist für alle n ∈ N stets f (xn ) ≤ g(xn ) und mit §4.Lemma 5.(a) folgt lim f (x) = lim f (xn ) ≤ lim g(xn ) = lim g(x). x→a n→∞ n→∞ x→a (b) Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Dann gelten auch lim f (xn ) = lim f (x) = lim g(x) = lim g(xn ) n→∞ x→a x→a n→∞ und für alle n ∈ N ist f (xn ) ≤ h(xn ) ≤ g(xn ). Nach §4.Lemma 6.(b) ist damit auch die Folge (h(xn ))n∈N in R konvergent mit dem Grenzwert lim h(xn ) = lim f (xn ) = lim f (x). n→∞ n→∞ x→a Dies beweist das die Funktion h in R an der Stelle a gegen den angegebenen Wert konvergiert. In Teil (a) dieses Lemmas muss man die Ungleichung nicht für alle x ∈ D\{a} fordern, sondern es reicht aus wenn diese für alle x ∈ D\{a} nahe bei a gelten. Man sagt das Funktionsgrenzwerte lokal sind, d.h. der Grenzwert von f (x) für x gegen a hängt nicht vom Verhalten der Funktion für weit von a entfernte Argument ab. Ändern wir zum Beispiel eine auf R definierte Funktion f für Argumente x > 1 ab, so wird sich der 297 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Grenzwert der Funktion in x = 0 nicht ändern. Das folgende Lemma gibt uns eine exakte Formulierung dieser Lokalität von Grenzwerten. Lemma 11.3 (Funktionsgrenzwerte sind lokal) Seien K, L ∈ {R, C}, D ⊆ K, a ∈ K ein Häufungspunkt von D und f : D → L eine Funktion. Im Fall a ∈ K sei > 0 und betrachte die Teilmenge e := {x ∈ D : |x − a| < } ⊆ D D von D und im Fall a ∈ {−∞, +∞} sei t ∈ R und betrachte die Teilmenge ( e := {x ∈ D|x > t}, a = +∞, D {x ∈ D|x < t}, a = −∞ e und genau dann konvergiert die von D. Dann ist a auch ein Häufungspunkt von D e an der Stelle Funktion f an der Stelle a gegen ein b ∈ L, wenn die Einschränkung f |D a gegen b konvergiert. Beweis: Da a ein Häufungspunkt von D ist, gibt es eine in K gegen a konvergente Folge (xn )n∈N in D\{a}. Im Fall a 6= ±∞ gibt es ein n0 ∈ N mit |xn − a| < für alle n ∈ N mit n ≥ n0 , im Fall a = +∞ gibt es ein n0 ∈ N mit xn > t für alle n ≥ n0 und im letzten Fall a = −∞ gibt es ein n0 ∈ N mit xn < t für alle n ≥ n0 . In allen drei e für alle n ∈ N mit n ≥ n0 und somit ist (xn )n≥n0 eine gegen Fällen ist damit xn ∈ D e e a konvergente Folge in D\{a}, d.h. a ist ein Häufungspunkt der Menge D\{a}. Damit ist die erste Aussage bewiesen. Wir kommen zur Äquivalenzaussage für die Funktionskonvergenz. ”=⇒” Dies ist klar nach Lemma 1.(g). ”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Wie oben gesehen, gibt es e für alle n ≥ n0 , d.h. (xn )n≥n0 ist eine gegen a konvergente dann ein n0 ∈ N mit xn ∈ D e e an der Stelle a gegen b konvergiert, ist auch (f (xn ))n≥n0 −→ b Folge in D\{a}. Da f |D in L. Dann ist aber auch (f (xn ))n∈N −→ b in L und damit konvergiert auch f an der Stelle a gegen b. Dieses Lemma erlaubt es uns in vielen Aussagen über Funktionsgrenzwerte Bedingungen an alle x im Definitionsbereich der betrachteten Funktion durch die entsprechenden Bedingungen nur noch an die x aus dem Definitionsbereich nahe an der betrachteten Stelle zu ersetzen. Dies werden wir oft verwenden auch ohne jedesmal explizit auf dieses Lemma hinzuweisen. Wir wollen unser Lemma über Anordnungseigenschaften von Funktionsgrenzwerten jetzt einmal dazu verwenden, die folgende Funktion zu behan298 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 deln: 1 0.5 1 f : (0, ∞) → R; x 7→ x · sin x 0 0.2 0.4 0.6 0.8 1 –0.5 –1 Diese ist rein formal ähnlich zur schon früher diskutierten Funktion g(x) = sin(1/x), und die Funktion g war in x = 0 divergent, da sie zu Null hin immer schneller oszillierte. Zwar oszilliert jetzt auch die Funktion f immer schneller zwischen positiven und negativen Werten hin und her, aber durch die Multiplikation mit x wird diese Oszillation immer kleiner, was zur Existenz des Grenzwerts führt. Zur Begründung müssen wir nicht mehr auf Folgen zurückgehen, sondern können unseren Einschnürungssatz Lemma 2.(b) verwenden. Für jedes x > 0 gilt 1 |f (x)| = x sin ≤ |x|, also − x ≤ f (x) ≤ x, x und da wir bereits wissen, dass die linke und rechte Seite dieser Ungleichung für x gegen 0 beide gegen Null konvergieren, ist damit auch limx→0 f (x) = 0. Ein oftmals vorkommender Funktionstyp sind Funktionen die sozusagen aus meh” reren Stücken“ zusammengesetzt sind, wie zum Beispiel die beiden Funktionen H(x) xH(x) x x Funktion x · H(x) Heaviside Funktion H(x) wobei H die schon zu Beginn dieser Sitzung als Beispiel verwendete Heaviside Funktion ist, also H(x) = 0 für x < 0 und H(x) = 1 für x ≥ 0. Die Heaviside Funktion hat in Null die links- und rechtsseitigen Grenzwerte lim H(x) = 1 und lim H(x) = 0, x↓0 x↑0 299 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 während die Funktion xH(x) sich als ( 0, x ≤ 0, xH(x) = x, x ≥ 0 schreiben läßt und die links- und rechtsseitigen Grenzwerte lim xH(x) = lim xH(x) = 0 x↓0 x↑0 hat. Das folgende Lemma sagt uns, dass dann auch der Grenzwert in x = 0 existiert und gleich Null ist. In diesem konkreten Fall kann man das natürlich auch leicht direkt einsehen, aber darauf kommt es uns hier nicht an. Lemma 11.4 (Grenzwerte zusammengesetzter Funktionen) Seien D ⊆ R eine Menge, a ∈ R ein Häufungspunkt von D und f : D → K mit K ∈ {R, C} eine Funktion. Dann ist die Funktion f genau dann an der Stelle a gegen ein b ∈ K konvergent wenn die folgenden beiden Bedingungen gelten: 1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt lim f (x) = b. x↓a 2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und es gilt lim f (x) = b. x↑a Beweis: ”=⇒” Dies ist klar nach Lemma 1.(g). ”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a} und betrachte I + := {n ∈ N|xn > a} und I − := {n ∈ N|xn < a}. Dann können drei verschiedene Fälle auftreten. Fall 1. Die Menge I − ist endlich. Dann gibt es ein n0 ∈ N mit xn > a, also xn ∈ D≥a \{a} für alle n ≥ n0 . Damit ist insbesondere a ein rechtsseitiger Häufungspunkt von D und es folgt lim f (xn ) = lim f (x) = b. n→∞ x↓a Fall 2. Die Menge I + ist endlich. Dann haben wir analog zu Fall 1 lim f (xn ) = lim f (x) = b. n→∞ x↑a 300 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Fall 3. Die Mengen I + und I − sind beide unendlich. Dann haben wir zwei Teilfolgen − − (xn+ )k∈N und (xn− )k∈N der Folge (xn )n∈N mit I + = {n+ k |k ∈ N} und I = {nk |k ∈ N}. k k Nach §4.Lemma 1.(a) gelten auch (xn+ )k∈N −→ a und (xn− )k∈N −→ a, also ist a ein k k links- und rechtsseitiger Häufungspunkt von D und es gelten lim f (xn+ ) = lim f (x) = b sowie lim f (xn− ) = lim f (x) = b. k→∞ k x↓a k→∞ k x↑a Nach §4.Lemma 1.(d) ist damit auch (f (xn ))n∈N −→ b. In allen drei Fällen haben wir damit (f (xn ))n∈N −→ b eingesehen, und somit ist limx→a f (x) = b bewiesen. Als ein weiteres Beispiel betrachten wir den Grenzwert der Funktion ( 0, x ≤ 0, f : R → R; x 7→ x2 , x ≥ 0, also f (x) = x2 H(x), für x → 0. Diese Funktion ist aus den beiden Stücken“ f − (x) = ” 0 für x ≤ 0 und f + (x) = x2 für x ≥ 0 zusammengesetzt. Aus unseren bisherigen Beispielen wissen wir schon limx→0 f − (x) = limx→0 f + (x) = 0, also auch lim f (x) = lim f (x) = 0, x↑0 x↓0 und das eben bewiesene Lemma ergibt limx→0 f (x) = 0. Wir kehren jetzt wieder zur Theorie zurück. Die Rechenregeln für Folgengrenzwerte übertragen sich sofort zu den folgenden Rechenregeln für Funktionsgrenzwerte. Satz 11.5 (Rechenregeln für Funktionsgrenzwerte) Seien K, L ∈ {R, C}, D ⊆ K und a ∈ K ein Häufungspunkt von D. Weiter seien f, g : D → L zwei Funktionen deren Grenzwerte an der Stelle a in L existieren. (a) Ist {limx→a f (x), limx→a g(x)} = 6 {−∞, +∞}, so existiert der Grenzwert lim (f (x) + g(x)) = lim f (x) + lim g(x) . x→a x→a x→a (b) Ist c ∈ L, so existiert der Grenzwert lim (cf (x)) = c · lim f (x), x→a x→a solange nicht c = 0 und limx→a f (x) ∈ {−∞, ∞} ist. (c) Ist {limx→a f (x), limx→a g(x)} = 6 {0, +∞}, {0, −∞}, so existiert der Grenzwert lim (f (x) · g(x)) = lim f (x) · lim g(x) . x→a x→a 301 x→a Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 (d) Gelten g(x) 6= 0 für alle x ∈ D\{a} und auch limx→a g(x) 6= 0 und ist auch nicht zugleich limx→a f (x) ∈ {−∞, ∞} und limx→∞ g(x) ∈ {−∞, ∞}, so existiert der Grenzwert lim f (x) f (x) x→a lim . = x→a g(x) lim g(x) x→a Beweis: Klar nach §4.Satz 6 sowie den Erweiterungen dieser Regeln in §4.2. Wie bei Folgengrenzwerten kann man all die Einschränkungen so zusammenfassen, dass die rechte Seite der jeweiligen Gleichung überhaupt definiert sein muss. Für Quotienten reellwertiger Funktionen können wir auch noch eine Grenzwertregel erhalten wenn der Nenner aber nicht der Zähler gegen Null geht, zumindest solange das Vorzeichen des Nenners konstant ist. Ist also unter den Voraussetzungen des Satzes und den zusätzlichen Annahmen L = R, sign(g(x)) = σ für alle x ∈ D\{a} und ein festes Vorzeichen σ ∈ {−1, 1} der Grenzwert limx→a g(x) = 0 aber limx→a f (x) 6= 0, so ist f (x) = σ · sign lim f (x) · ∞. x→a g(x) x→a lim Auch dies folgt aus den in §4.2 behandelten Rechenregeln für Grenzwerte reeller Folgen. Als ein Beispiel zur Anwendung dieser Rechenregeln können wir die Grenzwerte rationaler Funktionen vollständig behandeln. Seien hierzu K ∈ {R, C} und seien p(x) = an xn + · · · + a0 , q(x) = bm xm + · · · + b0 mit n, m ∈ N, a0 , . . . , an , b0 , . . . , bm ∈ K, an 6= 0, bm 6= 0 zwei Polynomfunktionen. Weiter nehme an, dass p und q keine gemeinsame Nullstelle in K haben, und betrachte die rationale Funktion p(x) an x n + · · · + a0 f : K\q ({0}) → K; x 7→ = . q(x) bm x m + · · · + b0 −1 Wir gehen nun alle möglichen Situationen durch die bei der Bestimmung von Funktionsgrenzwerten der rationalen Funktion f auftreten können. 1. Ist a ∈ K mit q(a) 6= 0, so wissen wir bereits das limx→a f (x) = f (a) gilt. 2. Nun sei a ∈ K eine Nullstelle von q, also q(a) = 0. Bezeichne r die Vielfachheit dieser Nullstelle, d.h. es ist q(x) = (x − a)r qe(x) mit einem Polynom qe das a nicht als Nullstelle hat, d.h. qe(a) 6= 0. Für jedes x ∈ K\q −1 ({0}) haben wir dann r p(x) 1 f (x) = x − a qe(x) und wissen bereits p(x) p(a) = 6= 0. x→a q e(x) qe(a) lim 302 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Da für alle x ∈ K\q −1 ({0}) stets |x − a| > 0 ist und nach Lemma 1.(e) auch limx→a |x − a| = 0 und limx→a |p(x)/e q (x)| = |p(a)|/|e q (a)| > 0 gelten, folgt mit den Rechenregeln für Funktionsgrenzwerte auch lim |f (x)| = +∞. x→a 3. Im komplexen Fall haben wir damit alles gesagt, nun nehmen wir speziell K = R an und wollen die eben behandelte Situation noch weiter untersuchen. Übernehmen wir die obigen Bezeichnungen, so ist für x ∈ R\q −1 ({0}) stets x − a > 0 für x > a und x − a < 0 für x < a, also ergeben die Rechenregeln für Funktionsgrenzwerte auch lim f (x) = sign(p(a)) · sign(e q (a)) · ∞ x↓a und lim f (x) = sign(p(a)) sign(e q (a)) · (−∞)r = (−1)r sign(p(a)) sign(e q (a)) · ∞. x↑a Ist die Vielfachheit r also gerade, so gilt lim f (x) = sign(p(a)) · sign(e q (a)) · ∞, x→a und ist die Vielfachheit r ungerade, so gelten lim f (x) = sign(p(a)) · sign(e q (a)) · ∞ und lim f (x) = − sign(p(a)) · sign(e q (a)) · ∞. x↓a x↑a 4. Jetzt nehmen wir K = R und m = n an und wollen die Grenzwerte von f gegen ±∞ bestimmen. Für jedes x ∈ R\(q −1 ({0}) ∪ {0}) können wir f (x) = an + bn + an−1 x bn−1 x + ··· + + ··· + a0 xn b0 xn schreiben und mit Satz 5 ergibt sich weiter lim f (x) = lim x→∞ x→∞ an + bn + an−1 x bn−1 x + ··· + + ··· + a0 xn b0 xn = an . bn Analog ist auch limx→−∞ f (x) = an /bn . 5. Nun nehmen wir K = R und m > n an. Dann ist m − n > 0 und für jedes x ∈ R\(q −1 ({0}) ∪ {0}) haben wir f (x) = 1 xm−n 303 · xm−n p(x) q(x) Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 wobei die rechts stehende rationale Funktion gleichen Zähler- und Nennergrad hat. Damit können wir den eben behandelten Fall und die Satz 5 anwenden und erhalten 1 xm−n p(x) · lim f (x) = lim =0 x→∞ x→∞ xm−n q(x) und analog ist auch limx→−∞ f (x) = 0. Dies zeigt lim f (x) = lim f (x) = 0. x→∞ x→−∞ 6. Im verbleibenden Fall ist K = R und m < n. Dann ist n − m > 0 und analog zur Argumentation im vorigen Fall folgt mit Satz 5 diesmal p(x) an n−m lim f (x) = lim x · n−m = · ∞ = sign(an ) sign(bm ) · ∞ x→∞ x→∞ x q(x) bm und eine analoge Rechnung ergibt auch lim f (x) = x→−∞ an (−∞)n−m = (−1)n+m sign(an ) sign(bm ) · ∞. bm Damit haben wir lim f (x) = sign(an )·sign(bm )·∞ und lim f (x) = (−1)n+m sign(an )·sign(bm )·∞. x→∞ x→−∞ bewiesen und die Grenzwerte rationaler Funktionen sind vollständig behandelt. 11.2 Potenzreihen Bisher haben wir noch nicht allzu viele Beispielklassen von Funktionen bei denen wir Funktionsgrenzwerte berechnen können, die rationalen Funktionen konnten wir vollständig behandeln und ansonsten kennen wir nur einige Einzelbeispiele. Wir wollen jetzt eine große Klasse von Funktionen einführen, die sich zum einen gut behandeln lassen und zum anderen erlauben alle direkt definierten Typen von Grundfunktionen exakt zu begründen, die sogenannten Potenzreihen. Eine Potenzreihe über K ∈ {R, C} ist eine Reihe der Form ∞ X f (z) = an (z − z0 )n n=0 mit Koeffizienten an ∈ K für n ∈ N. Etwas genauer spricht man von einer Potenzreihe mit dem Entwicklungspunkt z0 ∈ K. Solange diese Reihe konvergiert kann man sie als eine Funktion in z ∈ K auffassen, die manchmal ebenfalls als Potenzreihe bezeichnet wird. Beispielsweise ist die geometrische Reihe f (z) = ∞ X n=0 304 zn Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 eine für |z| < 1 definierte Funktion. Wir wissen auch schon, dass einfach f (z) = ∞ X zn = n=0 1 1−z für |z| < 1 gilt. Die Reihe konvergiert hier auf einem Kreis dessen Mittelpunkt der Entwicklungspunkt z0 = 0 der Potenzreihe ist. Es stellt sich heraus, dass dies das normale Konvergenzverhalten von Potenzreihen ist. Auch den Radius dieses Kreises kann man explizit hinschreiben. Definition 11.3 (Der Konvergenzradius einer P Potenzreihe) n Der Konvergenzradius einer Potenzreihe f (z) = ∞ n=0 an (z − z0 ) über K ∈ {R, C} ist die Zahl r := sup {q ∈ R≥0 |Die Folge (|an |q n )n∈N ist beschränkt } ∈ R≥0 ∪ {∞}. Es wird sich herausstellen, dass sich Potenzreihen in einem gewissen Sinne wie Polynome vom Grad ∞ verhalten. Diese Analogie kann man tatsächlich sehr weit treiben, aber dies werden wir in diesem Semester noch nicht tun. Wir werden jetzt nur einige Grundeigenschaften von Potenzreihen herleiten. Auf die Beweise all der folgenden Aussagen über Potenzreihen musste in der Vorlesung leider verzichtet werden, aber hier werden wir die Beweise mit aufführen. Lemma 11.6 (Konvergenzverhalten P∞ von Potenzreihen) Sei K ∈ {R, C} und sei f (z) = n=0 an (z − z0 )n eine Potenzreihe über K mit Entwicklungspunkt z0 ∈ K und Konvergenzradius r. Dann gelten: (a) Für jedes z ∈ K mit |z − z0 | > r ist die Potenzreihe f (z) divergent. (b) Sei s ∈ R mit 0 < s < r. Dann existieren Konstanten q, C ∈ R mit s < q ≤ r und C > 0 mit den folgenden Eigenschaften: 1. Für jedes n ∈ N ist |an | ≤ C . qn 2. P Für jedes z ∈ K mit |z − z0 | ≤ s ist die Reihe f (z) absolut konvergent und ∞ n n=0 (s/q) ist eine konvergente Majorante von f (z). 3. Für jedes z ∈ K mit |z − z0 | ≤ s gilt |f (z)| ≤ Cq . q−s P n Beweis: (a) Angenommen die Reihe ∞ n=0 an (z − z0 ) ist konvergent. Nach §5.Lemma 3 ist (an (z−z0 )n )n∈N eine Nullfolge, und damit ist auch (|an |·|z−z0 |n )n∈N eine Nullfolge, also nach §4.Lemma 2.(a) insbesondere beschränkt. Es folgt |z − z0 | ≤ r. (b) Wegen s < r existiert ein q ∈ R mit q > s so, dass die Folge (|an |q n )n∈N beschränkt ist, d.h. es gibt ein C ∈ R mit C > 0 und |an |q n ≤ C für alle n ∈ N. Insbesondere haben wir Eigenschaft (1). Für jedes z ∈ K mit |z − z0 | ≤ s folgt weiter n n s n n n |z − z0 | |an (z − z0 ) | = |an | · |z − z0 | = |an |q · ≤C , n q q 305 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 P n für alle n ∈ N und wegen s/q < 1 ist ∞ n=0 (s/q) eine konvergente Majorante von f (z). Nach dem Majorantenkriterium §5.Satz 15 ist damit f (z) absolut konvergent, und wir haben (2). Schließlich gilt nach §5.Lemma 10 auch ∞ ∞ ∞ n X X X s Cq n n |f (z)| = |an (z − z0 ) | ≤ C an (z − z0 ) ≤ = , n=0 n=0 q q−s n=0 und auch (3) ist bewiesen. Innerhalb des Kreises mit Mittelpunkt z0 und Radius r ist f (z) also absolut konvergent und außerhalb dieses Kreises ist f (z) divergent, man beDivergenz zeichnet den Kreis Br (z0 ) mit Radius r und Mittelr punkt z0 daher auch als den Konvergenzkreis der x0 Potenzreihe. Für r = +∞ wird der Kreis dabei als ganz K interpretiert. Im reellen Fall K = R hat (absolute) Konvergenz man natürlich eigentlich nur ein Intervall, aber der Einheitlichkeit halber spricht man weiter von einem Konvergenzkreis. Was auf dem Rand des Kreises, also im Fall |z − z0 | = r, passiert, hängt ganz von der speziellen Potenzreihe ab. Beachte weiter das der Konvergenzradius nur von den Beträgen der Koeffizienten an abhängt, d.h. die reelle Potenzreihe F (x) := ∞ X |an |xn n=0 hat denselben Konvergenzradius r, und ist nach Lemma 6 für |x| < r konvergent. Nach §5.Lemma 10 ist für jedes z ∈ K mit |z − z0 | < r auch ∞ ∞ X X n |f (z)| = an (z − z0 ) ≤ |an | · |z − z0 |n = F (|z − z0 |). n=0 n=0 Es gibt auch eine explizite Formel für den Konvergenzradius, die wir nun herleiten wollen. Satz 11.7 (Hadamardsche Formel P für den Konvergenzradius) n Sei K ∈ {R, C} und sei f (z) = ∞ n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r. Dann gilt r= 1 lim sup n→∞ 306 p n |an | , Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 wobei 1/0 als +∞ zu interpretieren ist. Gibt es ein n0 ∈ N mit an 6= 0 für alle n ≥ n0 und ist die Folge (|an |/|an+1 |)n≥n0 in R konvergent, so ist auch r = lim n→∞ |an | . |an+1 | p Beweis: Wir schreiben s := lim supn→∞ n |an | ∈ R≥0 ∪ {+∞}. Sei q ∈ R>0 so, dass die Folge (|an |q n )n∈N beschränkt ist, d.h. es gibt ein C >√ 0 mit |an |q n ≤ C für alle n ∈ N. p n n Für jedes n ∈ N mit n ≥ 1 ist damit auch |an |q ≤ C, und es folgt p p √ √ n n qs = q · lim sup n |an | = lim sup( n |an |q) ≤ lim sup C = lim C = 1. n→∞ n→∞ n→∞ n→∞ Insbesondere ist s 6= +∞ und q ≤ 1/s. Im Fall s = +∞ ist die Folge (|an |q n )n∈N also nur für q = 0 beschränkt, und somit ist r = 0 = 1/s. Wir können jetzt also s < +∞ annehmen, und haben dann q ≤ 1/s für jedes q ∈ R≥0 für das (|an |q n )n∈N beschränkt ist, wobei für s = 0 der Quotient 1/s = +∞ interpretiert wird. Dies zeigt r ≤ 1/s. Sei jetzt q ∈ R mit 0 ≤ q < 1/s, also sq < 1. Dann ist p p lim sup n |an q n | = q · lim sup n |an | = sq < 1, n→∞ n→∞ und nach dem Wurzelkriterium §5.Korollar 16 ist f (z0 + q) absolut konvergent. Mit Lemma 6.(a) folgt q ≤ r. Da dies für jedes q ∈ [0, 1/s) gilt, folgt auch 1/s ≤ r, d.h. insgesamt ist r = 1/s auch im Fall s < +∞. Damit ist die erste Aussage bewiesen, und wir kommen zur zweiten Behauptung. Nehme nun also an 6= 0 für alle n ≥ n0 sowie die Existenz des Grenzwertes t := limn→∞ |an |/|an+1 | ∈ R≥0 ∪ {+∞} an. Nach den Rechenregeln für Folgengrenzwerte zusammen mit den Ergänzungen für Grenzwerte in R folgt auch die Existenz von limn→∞ |an+1 |/|an | = 1/t in R wenn wir wieder 1/t = +∞ für t = 0 setzen. Mit §5.Lemma 17.(c) folgt auch lim sup p n |an | = lim p n n→∞ n→∞ und somit ist r= |an+1 | 1 = , n→∞ |an | t |an | = lim 1 lim sup p n |an | = t. n→∞ Damit ist auch die Quotientenformel für den Konvergenzradius bewiesen. Mit dieser Formel können jetzt beispielsweise den Konvergenzradius jeder PoPwir ∞ tenzreihe der Form f (z) = n=n0 an (z − z0 )n berechnen in der die Koeffizienten die Form br n r + · · · + b0 an = cs ns + · · · + c0 307 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 für n ≥ n0 haben. Dabei soll br , cs 6= 0 sein und der Nenner werde für n ≥ n0 nicht Null. In einem Beispiel in §4.1 hatten wir nämlich eingesehen, dass für jede Folge (an )n≥n0 p n dieser Form stets limn→∞ |an | = 1 gilt und damit hat die Potenzreihe ∞ X f (z) = an z n n=n0 den Konvergenzradius 1. Wir hatten behauptet das sich Potenzreihen gut behandeln lassen, und als eine erste Illustration dieser Tatsache wollen wir jetzt den Funktionsgrenzwert einer Potenzreihe in ihrem Entwicklungspunkt berechnen. Sei also eine Potenzreihe f (z) = ∞ X an (z − z0 )n n=0 über K ∈ {R, C} mit dem Entwicklungspunkt z0 ∈ K und einem positiven Konvergenzradius r > 0 gegeben. Für jedes z ∈ K mit 0 < |z − z0 | < r konvergiert dann ∞ X an+1 (z − z0 )n = n=0 ∞ 1 X f (z) − a0 an (z − z0 )n = , z − z0 n=1 z − z0 also hat die Potenzreihe g(z) := ∞ X an+1 (z − z0 )n n=0 nach Lemma 6.(a) einen Konvergenzradius r0 ≥ r. Außerdem zeigt unsere Rechnung auch f (z) = a0 + (z − z0 )g(z) für jedes z ∈ K mit 0 < |z − z0 | < r. Wählen wir nun ein 0 < s < r so gibt es nach Lemma 6.(b) eine Konstante C > 0 mit |g(z)| ≤ C für alle z ∈ K mit |z − z0 | ≤ s. Sei schließlich (zn )n∈N eine gegen z0 konvergente Folge in K mit 0 < |zn − z0 | < r für jedes n ∈ N. Dann gibt es ein n0 ∈ N mit 0 < |z − z0 | < s für alle n ∈ N mit n ≥ n0 , und somit auch |f (zn ) − a0 | = |zn − z0 | · |g(zn )| ≤ C|zn − z0 | für jedes n ∈ N mit n ≥ n0 . Das Einschnürungslemma §4.Lemma 5.(b) ergibt schließlich (f (zn ) − a0 )n∈N −→ 0, d.h. lim f (zn ) = a0 . n→∞ Damit haben wir den Funktionsgrenzwert lim f (z) = a0 = f (z0 ) z→z0 unserer Potenzreihe im Entwicklungspunkt berechnet. Um auch die Grenzwerte in anderen Punkten des Konvergenzkreises zu bestimmen, wollen wir uns überlegen das sich jeder Punkt im Konvergenzkreis als Entwicklungspunkt verwenden läßt. Hierzu 308 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 benötigen wir noch eine weitere kleine Konsequenz P der Formelnfür den Konvergenzradius. Angenommen wir haben eine Potenzreihe ∞ n=0 an (z −z0 ) mit Konvergenzradius r. Dann ist auch für jeden Index n0 ∈ N und jedes z ∈ K\{z0 } ∞ X an0 +n (z − z0 )n = n=0 ∞ X 1 an +n (z − z0 )n0 +n (z − z0 )n0 n=0 0 1 = (z − z0 )n0 ∞ X an (z − z0 )n − n=0 P∞ nX 0 −1 ! an (z − z0 )n , n=0 P∞ n d.h. genau dann ist n=0 an0 +n (z −z0 )n konvergent P∞ wenn n=0nan (z −z0 ) konvergiert. Mit Lemma 6 folgt das auch die Potenzreihe n=0 an0 +n (z −z0 ) den Konvergenzradius r hat, und damit folgt auch p p lim sup n |an0 +n | = lim sup n |an |. n→∞ n→∞ Dies kann man sich natürlich auch direkt überlegen, aber so ist es einfacher. Lemma 11.8 (Wechsel des Entwicklungspunktes) P n Sei K ∈ {R, C} und sei f (z) = ∞ n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r > 0. Weiter sei z1 ∈ K mit |z1 − z0 | < r. Für jedes n ∈ N ist die Reihe ∞ X n+k bn := an+k (z1 − z0 )k n k=0 P n absolut konvergent und die Potenzreihe g(z) = ∞ n=0 bn (z − z1 ) hat einen Konvergenzradius r0 ≥ r − |z1 − z0 | > 0. Für jedes z ∈ K mit |z − z1 | < r − |z1 − z0 | ist f (z) = g(z). Beweis: Sei n ∈ N. Für jedes k ∈ N ist dann (k + 1) · . . . · (k + n) n+k (n + k)! = = , n k!n! n! d.h. dieser Binomialkoeffizient ist ein Polynom von Grad n in k und wie wir schon in einem Beispiel in §4.1 gesehen haben ist damit s n+k k lim = 1. k→∞ n Mit §4.Lemma 12.(c) folgt jetzt auch s p |z1 − z0 | k n + k an+k (z1 − z0 )k = |z1 − z0 | lim sup k |an+k | = < 1, lim sup n r k→∞ k→∞ 309 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 und nach dem Wurzelkriterium §5.Korollar 16 ist bn := ∞ X n+k k=0 n an+k (z1 − z0 )k absolut konvergent. Setze s := r − |z1 − z0 | > 0 und sei z ∈ K mit |z − z1 | < s. Dann ist auch |z − Pz0 | ≤ |z − z1 | +n |z1 − z0 | < s + |z1 − z0 | = r und nach Lemma 6 ist die Reihe f (z) = ∞ n=0 an (z − z0 ) absolut konvergent. Wir zeigen, dass auch g(z) konvergent mit demselben Grenzwert ist. P Sei also > 0 gegeben. Wegen |z −z1 |+|z1 −z0 | < r ist die Reihe ∞ n=0 |an |(|z −z1 |+ n Reihen §5.Satz 9 existiert |z1 − z0 |) konvergent, und nach dem Cauchy-Kriterium fürP m ein n0 ∈ N so, dass für alle n, m ∈ N mit m ≥ n ≥ n0 stets k=n |ak | · (|z − z1 | + |z1 − P n k z0 |) < /3 gilt. Weiter existiert ein n1 ∈ N mit |f (z) − k=0 ak (z − z0 )k | < /3 für alle n ∈ N mit n ≥ n1 . Setze k0 := max{n0 , n1 }. Sei k ∈ N mit k ≥ k0 . Für jedes 0 ≤ i ≤ k ist dann i bi (z − z1 ) = ∞ X i+j j=0 i j i ai+j (z1 − z0 ) (z − z1 ) = ∞ X j j=i i aj (z1 − z0 )j−i (z − z1 )i , und somit existiert ein mi ∈ N mit mi ≥ i und m X j j−i i i aj (z1 − z0 ) (z − z1 ) < bi (z − z1 ) − i 3(k + 1) j=i für alle m ∈ N mit m ≥ mi . Setze schließlich n∗ := max{m0 , . . . , mk , k + 1} ∈ N. Dann ist k X n X n−i i i b (z − z ) − a (z − z ) (z − z ) i 1 n 1 0 1 i i=0 0≤i≤n≤n∗ i≤k ∗ n k k X X X n i n−i i = . ≤ an (z1 − z0 ) (z − z1 ) < bi (z − z1 ) − 3(k + 1) 3 i i=0 i=0 n=i 310 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Weiter haben wir nach der binomischen Formel §1.Lemma 7 n an (z1 − z0 )n−i (z − z1 )i i 0≤i≤n≤n∗ X i≤k n∗ X k X n n−i i = an (z1 − z0 ) (z − z1 ) + an (z1 − z0 )n−i (z − z1 )i i i n=0 i=0 n=k+1 i=0 ∗ k n k X X X n n = an (z1 − z0 + z − z1 ) + an (z1 − z0 )n−i (z − z1 )i i n=0 n=k+1 i=0 n∗ X k k X X n n an (z − z0 ) + an (z1 − z0 )n−i (z − z1 )i = i n=0 n=k+1 i=0 k X n X n und ebenfalls nach der binomischen Formel §1.Lemma 7 sowie der Annahme k ≥ k0 ≥ n0 ist dabei ∗ n∗ X k n k X X X n n n−i i an (z1 − z0 ) (z − z1 ) ≤ |an | · |z1 − z0 |n−i |z − z1 |i i i n=k+1 i=0 n=k+1 i=0 ∗ n n n∗ X X X n n−i i ≤ |an | |z1 − z0 | |z − z1 | = |an |(|z1 − z0 | + |z − z1 |)n < . i 3 i=0 n=k+1 n=k+1 Dies zeigt k X X n n−i i n a (z − z ) (z − z ) − a (z − z ) n 1 0 1 n 0 i 0≤i≤n≤n∗ n=0 i≤k ∗ n k X X n n−i i an (z1 − z0 ) (z − z1 ) < . = 3 i n=k+1 i=0 311 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Wegen k ≥ k0 ≥ n1 ist andererseits auch |f (z) − haben insgesamt die Abschätzung Pk n=0 an (z − z0 )n | < /3, und wir k k X X an (z − z0 )n bi (z − z1 )i ≤ f (z) − f (z) − n=0 i=0 X X k n n n−i i an (z − z0 ) − an (z1 − z0 ) (z − z1 ) + i n=0 0≤i≤n≤n∗ i≤k k X X n n−i i i an (z1 − z0 ) (z − z1 ) − bi (z − z1 ) + 0≤i≤n≤n∗ i i=0 i≤k < + + = . 3 3 3 Damit haben wir ∞ X n=0 n bn (z − z1 ) = lim k→∞ k X bn (z − z1 )n = f (z) n=0 P n eingesehen, d.h. die Potenzreihe g(z) = ∞ n=0 bn (z − z1 ) konvergiert in z mit g(z) = f (z). Nach Lemma 6 ist insbesondere r0 ≥ |z − z1 |. Da dies für jedes z ∈ K mit |z − z1 | < r − |z1 − z0 | gilt, ist damit auch r0 ≥ r − |z1 − z0 |. Wir können also tatsächlich jeden Punkt im Konvergenzkreis einer Potenzreihe als Entwicklungspunkt verwenden, und dies erlaubt es uns jetzt beliebige Funktionsgrenzwerte P n von Potenzreihen zu berechnen. Seien erneut K ∈ {R, C} und f (z) = ∞ n=0 an (z − z0 ) eine Potenzreihe über K mit einem Entwicklungspunkt z0 ∈ K und positiven Konvergenzradius r > 0. Weiter sei w ∈ K mit |w − z0 | < r im Konvergenzkreis von f . Wählen wir dann ein > 0 mit |w − z0 | + < r so gibt es nach dem eben bewiesenen Lemma eine Potenzreihe g mit Entwicklungspunkt w und Konvergenzradius r0 ≥ für die g|B (w) = f |B (w) gilt, nämlich # "∞ ∞ X X n + k g(z) = an+k (w − z0 )k · (z − w)n . k n=0 k=0 Wir wissen bereits limz→w g(z) = g(w) = f (w), also ergibt die Lokalität Lemma 3 von Funktionsgrenzwerten auch lim f (z) = lim (f |Br (w))(z) = lim (g|Br (w))(z) = lim g(z) = f (w). z→w z→w z→w 312 z→w Mathematik für Physiker I, WS 2016/2017 11.3 Montag 30.1.2017 Stetige Funktionen Im letzten Abschitt hatten wir gesehen, dass bei einer Potenzreihe f über K = R oder K = C in jedem Punkt a im Konvergenzkreis von f die Gleichung limx→a f (x) = f (a) gilt. Man bezeichnet dies als die Stetigkeit der Funktion f an der Stelle a. Dies ist natürlich nur dann sinnvoll wenn wir überhaupt von einem Grenzwert der Funktion f in x = a sprechen können, wenn also a ein Häufungspunkt des Definitionsbereich der Funktion f ist. In allen anderen Punkten wollen wir die Funktion ebenfalls als stetig bezeichnen. Dies ist kein wesentlicher Punkt, es ist ein Randfall der normalerweise gar nicht auftritt, wir müssen ihn hier nur der Vollständigkeit halber mit erfassen. Definition 11.4 (Stetigkeit in einem Punkt) Seien K, L ∈ {R, C} und D ⊆ K. Dann heißt eine Funktion f : D → L stetig in einem Punkt a ∈ D, wenn entweder a ∈ / D0 kein Häufungspunkt von D ist oder a ∈ D0 und limx→a f (x) = f (a) gelten. Beachte das wir überhaupt nur in Punkten in denen die Funktion f definiert ist, von Stetigkeit sprechen, das weicht etwas von der in der Schule manchmal verwendeten Terminologie ab. Beispielsweise ist die Frage ob eine der Funktionen f : R\{0} → R; x 7→ 1/x oder g : R\{0} → R; x 7→ sin x/x in x = 0 stetig ist, völlig sinnlos. Was man fragen kann, ist ob der Grenzwert in x = 0 existiert, aber das ist eine andere Frage. Sind K ∈ {R, C} und f : K → K ein Polynom, so haben wir bereits gesehen das für jeden Punkt a ∈ K stets limx→a f (x) = f (a) gilt, d.h. Polynome sind in jedem Punkt stetig. Entsprechendes gilt dann für rationale Funktionen außerhalb der Nullstellen ihres Nenners. Man kann die Stetigkeitsdefinition auf verschiedene Weisen umformulieren, und damit insbesondere die etwas störende Fallunterscheidung zum Verschwinden bringen. Lemma 11.9 (Charakterisierung der Stetigkeit in einem Punkt) Seien K, L ∈ {R, C}, D ⊆ K, a ∈ D und f : D → L eine Funktion. Dann sind die folgenden Aussagen äquivalent: (a) Die Funktion f ist in a stetig. (b) Für jede Folge (xn )n∈N in D mit (xn )n∈N −→ a gilt auch (f (xn ))n∈N −→ f (a). (c) Für jedes ∈ R mit > 0 existiert ein δ ∈ R mit δ > 0 so, dass für jedes x ∈ D mit |x − a| < δ stets |f (x) − f (a)| < ist. Beweis: (a)=⇒(b). Sei (xn )n∈N eine gegen a konvergente Folge in D. Wir betrachten dann die beiden Mengen I1 := {n ∈ N|xn 6= a} und I2 := {n ∈ N|xn = a}, und unterscheiden drei verschiedene Fälle. 313 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Fall 1. Sei die Menge I1 endlich, d.h. es gibt ein n0 ∈ N mit xn = a für alle n ≥ n0 . Dann ist auch f (xn ) = f (a) für alle n ≥ n0 und somit gilt (f (xn ))n∈N −→ f (a). Fall 2. Sei die Menge I2 endlich, d.h. es gibt ein n0 ∈ N mit xn 6= a für alle n ≥ n0 . Dann ist (xn )n≥n0 eine gegen a konvergente Folge in D\{a} und insbesondere ist a ∈ D0 ein Häufungspunkt von D. Da die Funktion f in a stetig ist, folgt lim f (xn ) = lim f (x) = f (a). n→∞ x→a Fall 3. Seien I1 und I2 beide unendlich. Wir definieren die Teilfolgen (xn(1) )k∈N und k (j) (xn(2) )k∈N von (xn )n∈N durch Ij = {nk |k ∈ N} für j = 1, 2. Nach §4.Lemma 1.(a) gilt k auch (xn(j) )k∈N −→ a für j = 1, 2, und analog zu den beiden bereits behandelten Fällen k haben wir auch (f (xn(j) ))k∈N −→ f (a) für j = 1, 2. Nach §4.Lemma 1.(d) ist damit k auch (f (xn ))n∈N −→ f (a). (b)=⇒(a). Ist a kein Häufungspunkt von D, so ist die Aussage klar, wir können also a ∈ D0 annehmen. Für jede gegen a konvergente Folge (xn )n∈N in D\{a} ⊆ D ist dann nach unserer Annahme auch (f (xn ))n∈N −→ f (a), d.h. wir haben limx→a f (x) = f (a), und somit ist f auch in diesem Fall stetig in a. (a)=⇒(c). Ist a ∈ / D0 kein Häufungspunkt von D, so existiert ein δ > 0 mit {x ∈ D : |x − a| < δ} = {a}, und dann ist für jedes x ∈ D mit |x − a| < δ wegen x = a auch f (x) = f (a) und |f (x) − f (a)| = 0. Wir können also annehmen das a ∈ D0 ist, und dann ist auch limx→a f (x) = f (a). Sei > 0. Nach Lemma 1.(f) existiert ein δ > 0 mit |f (x) − f (a)| < für alle x ∈ D mit 0 < |x − a| < δ. Ist also x ∈ D mit |x − a| < δ, so ist im Fall x 6= a sofort |f (x) − f (a)| < und im Fall x = a haben wir trivialerweise ebenfalls |f (x) − f (a)| = 0 < . (c)=⇒(a). Ist a ∈ / D0 so sind wir bereits fertig. Nun sei a ∈ D0 . Dann gilt nach Lemma 1.(f) auch limx→a f (x) = f (a) und f ist auch in diesem Fall in a stetig. Die Bedingung in (c) kann man als ∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − a| < δ =⇒ |f (x) − f (x)| < schreiben, und bezeichnet dies als die –δ Definition der Stetigkeit in a. Oftmals wird auch diese Bedingung als die Definition der Stetigkeit in a verwendet, wie bei den Funktionsgrenzwerten ist dies im wesentlichen eine Geschmacksfrage. Eine Interpretation der –δ Bedingung ist es sich diese als eine Bedingung an Fehlerschranken zu denken. Geben wir uns eine Fehlerschranke für die Werte der Funktion vor, so finden wir eine passende Fehlerschranke δ für die Argumente der Funktion so, dass wann immer x eine Näherung an a mit Fehler höchstens δ ist, also wenn |x − a| < δ gilt, der Wert f (x) eine Näherung an f (a) mit dem Fehler höchstens ist, also |f (x)−f (a)| < . Nachdem wir bisher nur die Stetigkeit in einem einzelnen Punkt des Definitionsbereichs betrachtet haben, kommen wir nun zur Stetigkeit der gesamten Funktion. Definition 11.5 (Stetige Funktionen) Seien K, L ∈ {R, C} und D ⊆ K eine Teilmenge. Dann heißt eine Funktion f : D → L stetig wenn sie in jedem Punkt a ∈ D stetig ist. 314 Mathematik für Physiker I, WS 2016/2017 Montag 30.1.2017 Nach den Beispielen im ersten Abschnitt dieses Kapitels sind beispielsweise Polynome p : R → R beziehungsweise p : C → C stetige Funktionen und ebenso sind rationale Funktionen stetig. Jede der im vorigen Abschnitt hergeleiteten Eigenschaften von Funktionsgrenzwerten ergibt auch eine entsprechende Eigenschaft des Stetigkeitsbegriffs in einem Punkt. Das folgende Lemma fasst einen Großteil der sich so ergebenden Eigenschaften und ihre Implikationen für die Stetigkeit der gesamten Funktion zusammen. Lemma 11.10 (Grundeigenschaften der Stetigkeit in einem Punkt) Seien K, L ∈ {R, C}, D ⊆ K und f : D → L eine Funktion. (a) Ist f stetig beziehungsweise in einem Punkt a ∈ D stetig, so ist auch die Funktion |f | stetig beziehungsweise in a stetig. (b) Ist L = C, so ist f genau dann stetig beziehungsweise in einem Punkt a ∈ D stetig, wenn die beiden Funktionen Re ◦f und Im ◦f stetig beziehungsweise in a stetig sind. (c) Ist M ⊆ D eine Teilmenge und ist f stetig beziehungsweise in einem Punkt a ∈ M stetig, so ist auch f |M stetig beziehungsweise in a stetig. e := {x ∈ D : |x − a| < }. Dann ist f genau dann (d) Seien a ∈ D, > 0 und setze D e in a stetig ist. in a stetig wenn f |D (e) Ist K = R und a ∈ D, so ist f genau dann in a stetig, wenn die folgenden beiden Aussagen gelten: 1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt lim f (x) = f (a). x↓a 2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und es gilt lim f (x) = f (a). x↑a Beweis: (a) Sei f stetig in einem Punkt a ∈ D. Ist a ∈ / D0 so ist |f | in a stetig und ist 0 a ∈ D so gilt nach Lemma 1.(e) auch lim |f (x)| = lim f (x) = |f (a)|, x→a x→a d.h. |f | ist auch in diesem Fall in a stetig. Insbesondere impliziert die Stetigkeit von f auch die von |f |. (b) Sei a ∈ D gegeben und wir wollen die Aussage über Stetigkeit in a beweisen. Ist dabei a ∈ / D0 , so sind f , Re ◦f und Im ◦f alle stetig in a und die Behauptung ist klar, wir können also a ∈ D0 annehmen. Nach Lemma 1.(c) existiert der Funktionsgrenzwert 315 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 von f in a genau dann wenn die beiden Funktionsgrenzwerte von Re ◦f und Im ◦f in a existieren und in diesem Fall ist lim f (x) = lim Re(f (x)) + i · lim Im(f (x)), x→a x→a x→a also ist weiter auch genau dann limx→a f (x) = f (a) wenn limx→a Re(f (x)) = Re(f (a)) und limx→a Im(f (x)) = Im(f (a)) gelten. Insgesamt ist f damit auch genau dann in a stetig wenn Re ◦f und Im ◦f dies sind. Dies beweist die Aussage über Stetigkeit in einem Punkt, und damit ist f auch genau dann stetig wenn Re ◦f und Im ◦f dies sind. (c) Nehme zunächst an das f in einem Punkt a ∈ M stetig ist. Ist a ∈ / M 0 , so ist auch 0 die Einschränkung f |M in a stetig und ist a ∈ M so ist zunächst auch a ∈ D0 und Lemma 1.(g) ergibt die Existenz des Funktionsgrenzwerts lim (f |M )(x) = lim f (x) = f (a) = (f |M )(a), x→a x→a d.h. f |M ist auch in diesem Fall in a stetig. Insbesondere impliziert die Stetigkeit von f auch die von f |M . (d) ”=⇒” Dies ist klar nach (c). ”⇐=” Ist a ∈ / D0 so ist f in a stetig und ist a ∈ D0 so existiert nach Lemma 3 der Funktionsgrenzwert e e lim f (x) = lim (f |D)(x) = (f |D)(a) = f (a), x→a x→a d.h. f ist auch in diesem Fall in a stetig. (e) Ist a ∈ / D0 so ist a auch kein rechts- oder linksseitiger Häufungspunkt von D und dann ist f stetig in a und die beiden Aussagen (1), (2) gelten. Ist dagegen a ∈ D0 , so ist f genau dann in a stetig wenn limx→a f (x) = f (a) gilt und nach Lemma 4 ist dies genau dann der Fall wenn die beiden Aussagen (1) und (2) zutreffen. Vorlesung 25, Freitag 3.2.2017 In der letzten Sitzung haben wir eine Funktion f in einem Punkt a ihres Definitionsbereichs stetig genannt wenn ihr Funktionsgrenzwert in a mit dem Funktionswert in a übereinstimmt, wenn also limx→a f (x) = f (a) gilt. Dies ist so nur sinnvoll wenn a überhaupt ein Häufungspunkt des Definitionsbereichs von f ist und in allen anderen Fällen wird f ebenfalls als in a stetig bezeichnet. Die Funktion heißt wenn sie in jedem Punkt ihres Definitionsbereichs stetig ist. Wir hatten auch erste Aussagen über diesen Stetigkeitsbegriff bewiesen, und wollen diese verwenden um nun einige Beispiele zu diskutieren. 316 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 1. Sei K ∈ {R, C}. Dann ist die identische Funktion idK : K → K als Polynom stetig, und nach Teil (a) des Lemmas ist damit die Betragsfunktion | | : K → R; x 7→ |x| stetig. 2. Starten wir erneut mit der stetigen Funktion idC : C → C, so sind nach Teil (b) des Lemmas auch die beiden Funktionen Re : C → R; z 7→ Re(z) und Im : C → R; z 7→ Im(z) stetig. 3. Als ein letztes Beispiel zeigen wir das die Funktion f : R → R definiert durch f (x) = xH(x) für jedes x ∈ R stetig ist. In einem früheren Beispiel hatten wir bereits eingesehen, dass zumindest lim f (x) = lim xH(x) = 0 = f (0) x→0 x→0 gilt, die Funktion f ist also im Nullpunkt stetig. Wir müssen somit nur noch die Stetigkeit in von Null verschiedenen Punkten nachweisen, sei also a ∈ R\{0} gegeben. Ist a < 0, so setzen wir := −a > 0 und haben D := {x ∈ R : |x − a| < } = (2a, 0) und für jedes x ∈ D gelten damit x < 0 und f (x) = 0, also ist die Einschränkung f |D konstant gleich Null und damit in a stetig. Nach Teil (d) des Lemmas ist auch f in a stetig. Nun sei a > 0. Dann betrachten wir := a > 0 und haben D := {x ∈ R : |x − a| < } = (0, 2a) und für jedes x ∈ D gelten x > 0 und f (x) = x, also ist die Einschränkung f |D ein Polynom und somit in a stetig. Damit ist wieder nach Teil (d) des Lemmas auch die Funktion f in a stetig. Damit haben wir die Stetigkeit von f in jedem Punkt a ∈ R eingesehen und f ist eine stetige Funktion. Einige der bisher behandelten Aussagen über die Stetigkeit in einem Punkt lassen sich für stetige Funktionen noch etwas günstiger formulieren. Lemma 11.11 (Charakterisierung der Stetigkeit) Seien K, L ∈ {R, C}, D ⊆ K und f : D → L eine Funktion. (a) Die Funktion f ist genau dann stetig wenn für jede konvergente Folge (xn )n∈N in D mit limn→∞ xn ∈ D auch die Folge (f (xn ))n∈N konvergent ist mit lim f (xn ) = f lim xn . n→∞ n→∞ (b) Sind K = R und a ∈ R, so ist f genau dann stetig wenn die beiden Einschränkungen f |D≥a und f |D≤a stetig sind. 317 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Beweis: (a) Die Funktion f ist genau dann stetig wenn sie in jedem Punkt a ∈ D stetig ist, und nach Lemma 9 ist dies genau dann der Fall wenn für jedes a ∈ D und jede Folge (xn )n∈N in D mit (xn )n∈N −→ a stets (f (xn ))n∈N −→ f (a) gilt. Dies ist gerade die angegebene Bedingung. (b) ”=⇒” Klar nach Lemma 10.(c). e := {x ∈ D : |x − p| < ”⇐=” Sei p ∈ D. Ist p > a, so setzen wir := p − a > 0 und D e = (f |D≥a )|D e in p stetig und nach Lemma 10.(d) } ⊆ D≥a . Nach Lemma 10.(c) ist f |D ist damit auch f in p stetig. Ist p < a so folgt die Stetigkeit von f in p analog. Wir müssen also nur noch im Fall a ∈ D die Stetigkeit von f in a zeigen, und diese ist klar nach Lemma 10.(e). Wir wollen uns auch zu diesem Lemma ein Beispiel anschauen und die Stetigkeit der rechts gezeigten Funktion 0, x ≤ −2, 2 + x, −2 ≤ x ≤ −1, f : R → R; x 7→ 1, −1 ≤ x ≤ 1, 2 − x, 1 ≤ x ≤ 2, 0, x≥2 f(x) −2 −1 1 2 x beweisen. Zunächst sind die konstante Funktion f |(−∞, −2] und die Funktion f |[−2, −1] als Einschränkung eines Polynoms stetig, und damit ist nach Teil (b) des obigen Lemmas auch f |(−∞, −1] stetig. Weiter ist dann die konstante Funktion f |[−1, 1] stetig, und wieder nach Teil (b) des Lemmas ist f |(−∞, 1] stetig. Fahren wir noch zweimal so fort, so erhalten wir schließlich die Stetigkeit der Funktion f : R → R. Diese Argumentation läßt sich auf alle ähnlichen Situationen übertragen so, dass man nur noch überprüfen muss das die einzelnen Stücke zusammenpassen. Die Aussage (a) des eben bewiesenen Lemmas besagt, dass die Stetigkeit einer Funktion f : D → L gleichwertig zur Gültigkeit der Formel lim f (xn ) = f lim xn n→∞ n→∞ ist, genauer das wann immer eine Folge (xn )n∈N in D gegeben ist für die die rechte Seite sinnvoll ist, die also gegen einen Punkt aus dem Definitionsbereich D von f konvergiert, auch die linke Seite der Gleichung existiert und gleich der rechten Seite ist. Diese Bedingung können wir nun von Folgengrenzwerten zu Funktionsgrenzwerten übertragen. Lemma 11.12 (Stetigkeit und Hintereinanderausführungen) e ⊆ K 0, g : D e → K 00 eine in einem Punkt b ∈ D e Seien K, K 0 , K 00 ∈ {R, C}, D ⊆ K, D e sei eine weitere Funktion. stetige Funktion und f : D → D 318 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 (a) Sei a ∈ K ein Häufungspunkt von D mit limx→a f (x) = b. Dann gilt auch lim g(f (x)) = g(b). x→a (b) Ist a ∈ D und ist f in a stetig mit f (a) = b, so ist auch g ◦ f : D → K 00 in a stetig. Beweis: (a) Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Dann ist auch (f (xn ))n∈N −→ b und nach Lemma 9 ist damit (g(f (xn )))n∈N −→ g(b). Somit konvergiert die Funktion g ◦ f an der Stelle a gegen g(b). (b) Ist a ∈ / D0 so ist dies klar und ist a ∈ D0 , so gilt limx→a f (x) = f (a) = b und nach (a) ist auch limx→a g(f (x)) = g(b) = g(f (a)), d.h. g ◦ f ist auch in diesem Fall in a stetig. Zum Abschluß dieser allgemeinen Aussagen über stetige Funktionen wollen wir auch noch die arithmetischen Rechenregeln für diese Funktionen festhalten. Satz 11.13 (Rechenregeln für die Stetigkeit) Seien K, L ∈ {R, C}, D ⊆ K und f, g : D → L zwei stetige beziehungsweise in einem Punkt a ∈ D stetige Funktionen. Dann gelten: (a) Die Funktion f + g : D → L ist stetig beziehungsweise in a stetig. (b) Für jedes c ∈ L ist die Funktion cf : D → L stetig beziehungsweise in a stetig. (c) Die Funktion f · g : D → L ist stetig beziehungsweise in a stetig. (d) Ist g(x) 6= 0 für alle x ∈ D, so ist die Funktion f /g : D → L stetig beziehungsweise in a stetig. e ∈ {R, C}, D e ⊆K e und h : D e → D stetig beziehungsweise in einem (e) Sind auch K e mit h(e Punkt e a ∈ D a) = a stetig, so ist auch die Hintereinanderausführung e → L stetig beziehungsweise in e g◦h:D a stetig. Beweis: (a,b,c,d) Die Aussagen über die Stetigkeit in einem Punkt a ∈ D sind im Fall a ∈ / D0 klar, und im Fall a ∈ D0 gelten sie nach den entsprechenden Aussagen in Satz 5. Hieraus folgen dann auch die Stetigkeitsaussagen auf ganz D. (e) Die Aussage über die Stetigkeit in einem Punkt gilt nach Lemma 12.(b) und hieraus e folgt die Aussage über die Stetigkeit auf ganz D. Können wir also eine Funktion als eine Formel in schon als stetig bekannten Funktionen hinschreiben, so ist sie ebenfalls stetig. Beispielsweise ist damit die Funktion f : R → R; x 7→ |x3 − 7x + 1| + |x| + x 1 + |x − 5| 319 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 stetig, wie wir einmal im Detail vorführen wollen. Zunächst ist g1 : R → R; x 7→ x3 − 7x + 1 als ein Polynom stetig und wir wissen auch das die Betragsfunktion g2 = | | : R → R stetig ist. Damit ist auch die Hintereinanderausführung g3 := g2 ◦ g1 stetig, und diese ist für jedes x ∈ R gegeben als g3 (x) = g2 (g1 (x)) = |x3 − 7x + 1|. Weiter ist dann auch der Zähler g4 : R → R; x 7→ |x3 − 7x + 1| + |x| + x als Summe dreier stetiger Funktionen stetig. Analog folgt die Stetigkeit des Nenners g5 : R → R; x 7→ 1 + |x − 5| und wegen g5 (x) ≥ 1 > 0 für jedes x ∈ R ist schließlich auch der Quotient f = g4 /g5 stetig. Als nächstes Beispiel betrachten wir die komplexe Konjugation : C → C; z 7→ z. Die Stetigkeit von Real- und Imaginärteil hatten wir bereits in einem früheren Beispiel eingesehen. Damit ist die Funktion Re ◦ = Re stetig und die Funktion Im ◦ = − Im ist als Vielfaches einer stetigen Funktion ebenfalls stetig. Nach Lemma 10.(b) ist damit auch die komplexe Konjugation stetig. Wir wollen uns auch noch ein weiteres Beispiel anschauen. Zunächst seien a, b ∈ R zwei reelle Zahlen und schreibe M := max{a, b} und m := min{a, b}. Dann gelten M + m = a + b und M − m = |a − b|, also ist min{a, b} = a + b + |a − b| a + b − |a − b| und max{a, b} = . 2 2 Nun seien K ∈ {R, C}, D ⊆ K und f, g : D → R zwei Funktionen. Dann definiere die Funktionen min(f, g) : D → R; x 7→ min{f (x), g(x)}, max(f, g) : D → R; x 7→ max{f (x), g(x)}. Die obige Formel besagt dann das min(f, g) und max(f, g) beide stetig sind wenn f und g stetig sind, und ebenso gilt dies für die Stetigkeit in einem Punkt. Dies gibt uns beispielsweise einen zweiten Beweis für die Stetigkeit der Funktion xH(x) = max{x, 0}. 11.4 Eigenschaften reeller stetiger Funktionen In diesem Abschnitt beschäftigen wir uns mit auf R definierten, reellwertigen stetigen Funktionen. Für derartige Funktionen werden wir zwei grundlegende Sätze herleiten, zum einen den Satz über die Beschränktheit solcher Funktionen und zum anderen den sogenannten Zwischenwertsatz. Letzterer ist dabei nur eine etwas exaktere Version der anschaulichen Beobachtung das stetige Funktionen keine Sprünge haben. Bisher haben wir nur beschränkte Mengen und Folgen definiert, aber noch keine beschränkten Funktionen, was wir nun nachholen müssen. Definition 11.6 (Beschränkte Funktionen) Seien K ∈ {R, C} und D eine Menge. Eine Funktion f : D → K heißt beschränkt wenn 320 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 ihre Bildmenge f (D) = {f (x)|x ∈ D} ⊆ K beschränkt ist, wenn es also ein C ≥ 0 mit |f (x)| ≤ C für alle x ∈ D gibt. Ist K = R, so nennen wir f entsprechend nach oben beschränkt wenn die Menge f (D) nach oben beschränkt ist und nach unten beschränkt wenn die Menge f (D) nach unten beschränkt ist. Eine reellwertige Funktion ist natürlich genau dann beschränkt wenn sie nach oben und nach unten beschränkt ist. Genau wie wir es für Mengen in §3.2 eingesehen haben, ist eine komplexwertige Funktion f : D → C genau dann beschränkt wenn die beiden reellwertigen Funktionen Re ◦f und Im ◦f beide beschränkt sind. Wir kommen nun zum angekündigten Satz über die Beschränktheit stetiger Funktionen. Für die Gültigkeit dieses Satzes ist nicht nur die Stetigkeit der Funktion wichtig, sondern auch die Form des Definitionsbereichs der Funktion. Es gibt ja offenbar unbeschränkte stetige Funktionen wie etwa f (x) = x definiert auf ganz R. Satz 11.14 (Existenz von Maximum und Minimum) Seien a, b ∈ R mit a ≤ b und sei f : [a, b] → R eine stetige Funktion. Dann ist f beschränkt und nimmt ihr Supremum und Infimum an, d.h. es gibt x1 , x2 ∈ [a, b] mit f (x1 ) ≤ f (x) ≤ f (x2 ) für alle x ∈ [a, b]. Beweis: Setze s := sup f ([a, b]) ∈ R ∪ {+∞}. Weiter wähle eine gegen s konvergente Folge (sn )n∈N in R mit sn < s für alle n ∈ N, also beispielsweise sn = s − 1/(n + 1) für jedes n ∈ N im Fall s ∈ R und sn = n für jedes n ∈ N im Fall s = ∞. Für jedes n ∈ N existiert dann wegen sn < s ein xn ∈ [a, b] mit f (xn ) > sn . Nach dem Satz von Heine-Borel §4.Satz 13 existiert eine konvergente Teilfolge (xnk )k∈N von (xn )n∈N . Wir setzen x := limk→∞ xnk und wegen a ≤ xnk ≤ b für alle k ∈ N ist auch a ≤ x ≤ b, d.h. x ∈ [a, b]. Mit §4.Lemma 5.(a) folgt s = lim sn = lim snk ≤ lim f (xnk ) = f lim xnk = f (x) ≤ s, n→∞ k→∞ k→∞ k→∞ d.h. es ist f (x) = s. Insbesondere ist s < +∞, d.h. die Funktion f ist nach oben beschränkt. Die Aussage über das Minimum folgt analog. Damit kommen wir zum Zwischenwertsatz. Das wesentliche Beweisprinzip haben wir schon einmal gesehen, nämlich beim Beweis der Existenz reeller Wurzeln in §1.Lemma 8. Die Details werden sich natürlich unterscheiden, bei der Behandlung der Wurzeln konnten wir spezifische Abschätzungen über Potenzen verwenden, bei einer allgemeinen stetigen Funktion muss man dagegen etwas abstrakter vorgehen. Tatsächlich liefert uns der Zwischenwertsatz auch einen zweiten Beweis der Existenz von Wurzeln. Satz 11.15 (Zwischenwertsatz) Seien a, b ∈ R mit a ≤ b und sei f : [a, b] → R eine stetige Funktion. Weiter sei y ∈ R zwischen f (a) und f (b), also f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a). Dann existiert ein x ∈ [a, b] mit f (x) = y. 321 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Beweis: Wir behandeln den Fall f (a) ≤ y ≤ f (b), der andere Fall ist dann analog. Ist y = f (a) oder y = f (b), so sind wir bereits fertig, d.h. wir können sogar f (a) < y < f (b) annehmen. Wir betrachten die Menge M := {x ∈ [a, b]|f (x) ≥ y} ⊆ [a, b]. Wegen b ∈ M ist M nicht leer und durch a nach unten beschränkt, also existiert x := inf M und es ist a ≤ x ≤ b, d.h. x ∈ [a, b]. Für jedes n ∈ N mit n ≥ 1 ist x + 1/n > x = inf M , also existiert ein xn ∈ M ⊆ [a, b] mit x ≤ xn < x + 1/n. Nach dem Einschnürungslemma für Folgen §4.Lemma 5.(b) ist damit limn→∞ xn = x, und wegen f (xn ) ≥ y für alle n ∈ N ist auch f (x) = f lim xn = lim f (xn ) ≥ y. n→∞ n→∞ Wegen f (a) < y ist x > a. Insbesondere existiert ein n0 ∈ N mit x − 1/n0 > a, und für jedes n ≥ n0 haben wir damit auch a<x− 1 1 ≤ x − < x = inf M, n0 n also auch x − 1/n ∈ / M aber x − 1/n ∈ [a, b], also f (x − 1/n) < y. Es folgt 1 1 f (x) = f lim x − = lim f x − ≤ y. n→∞ n→∞ n n Insgesamt ist somit f (x) = y. Als ein Beispiel wollen wir einmal die Lösbarkeit von Gleichungen f (x) = y mit stetiger linker Seite herleiten. Gegeben sei eine stetige Funktion f : R → R mit limx→−∞ f (x) = −∞ und limx→∞ f (x) = +∞ und wir wollen zeigen, dass f (x) = y immer lösbar ist, die Abbildung f also surjektiv ist. Sei nämlich ein y ∈ R gegeben. Wegen limx→−∞ f (x) = −∞ gibt es dann ein a ∈ R mit f (a) < y und wegen limx→∞ f (x) = +∞ gibt es weiter ein b ∈ R mit b > a und f (b) > y. Der Zwischenwertsatz liefert dann ein x ∈ [a, b] mit f (x) = y. Eine Verallgemeinerung dieses Arguments werden wir im folgenden Satz festhalten. Die Hauptaussage wird dabei sein, dass für auf Intervallen definierte stetige Funktionen die Begriffe injektiv und streng monoton äquivalent sind. Da wir bisher Monotonieeigenschaften nur bei Folgen definiert haben, müssen wir diese aber erst einmal auf reelle Funktionen übertragen. Definition 11.7: Seien I ⊆ R ein Intervall und f : I → R eine Funktion. Dann heißt f 1. monoton steigend wenn f (x) ≤ f (y) für alle x, y ∈ I mit x ≤ y gilt, 2. streng monoton steigend wenn f (x) < f (y) für alle x, y ∈ I mit x < y gilt, 322 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 3. monoton fallend wenn f (x) ≥ f (y) für alle x, y ∈ I mit x ≤ y gilt, 4. streng monoton fallend wenn f (x) > f (y) für alle x, y ∈ I mit x < y gilt, 5. monoton wenn f monoton steigend oder monoton fallend ist, 6. streng monoton wenn f streng monoton steigend oder streng monoton fallend ist. Beachte das eine streng monotone Funktion f : I → R immer injektiv ist, sind x, y im Definitionsbereich der Funktion mit x 6= y, so können wir nach eventuellen Vertauschen von x und y auch x < y annehmen, und haben dann f (x) < f (y) oder f (y) < f (x), also auf jeden Fall f (x) 6= f (y). Weiter ist die Umkehrfunktion f −1 : f (I) → I wieder streng monoton von derselben Sorte wie f . Sei f streng monoton steigend. Sind dann x, y ∈ f (I) mit x < y, so folgte aus f −1 (y) ≤ f −1 (x) auch der Widerspruch y = f (f −1 (y)) ≤ f (f −1 (x)) = x, es muss also f −1 (x) < f −1 (y) sein und f −1 ist wieder streng monoton steigend. Analog folgt das f −1 streng monoton fallend ist wenn f streng monoton fallend ist. Wie schon bemerkt wollen wir einsehen, dass eine injektive stetige Funktion streng monoton steigend oder streng monoton fallend ist. Der Beweis wurde in der Vorlesung y nicht vorgeführt, man kann sich aber schnell an einem Bild klarmachen warum die Funktion monoton sein muss. Wenn f irgenda wann seine Richtung ändert“, also etwa zunächst steigt und dann ” wieder fällt, so haben wir die nebenstehend abgebildete Situation. Wenden wir dann den Zwischenwertsatz in den links und rechts vom Umkehrpunkt liegenden Intervallen an, so erhalten wir das ein geeignetes y ∈ R links und rechts von a von der Funktion als Wert angenommen wird. Dies wiederspricht dann der Injektivität der Funktion f , da eine injektive Funktion jeden Wert an höchstens einer Stelle annimmt. Dies ersetzt natürlich keinen exakten Beweis, der Vollständigkeit halber werden wir auch einen solchen angeben. Satz 11.16 (Monotonie stetiger Funktionen) Seien ∅ = 6 I ⊆ R ein Intervall und f : I → R eine stetige Funktion. (a) Das Bild J := f (I) ⊆ R ist wieder ein Intervall. (b) Genau dann ist f injektiv wenn f streng monoton ist. (c) Ist f streng monoton, so ist auch die Umkehrfunktion f −1 : J → I stetig. Beweis: (a) Setze a := inf J ∈ R ∪ {−∞} und b := sup J ∈ R ∪ {+∞}. Dann ist a ≤ b. Ist sogar a = b, so haben wir J = {a} und sind bereits fertig, wir können also a < b annehmen. Sei y ∈ R mit inf J = a < x < b = sup J. Dann existieren u, v ∈ I mit f (u) < x < f (v), und nach dem Zwischenwertsatz Satz 15 existiert ein x zwischen u 323 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 und v, also auch x ∈ I, mit y = f (x) ∈ J. Dies zeigt (a, b) ⊆ J, und damit ist J eines der höchstens vier möglichen Intervalle mit Grenzen a und b. (b) Es ist nur die Implikation von links nach rechts zu zeigen, wir nehmen also an, dass die Funktion f injektiv ist. Wir teilen den Beweis in drei Schritte auf. (1) Seien a, b ∈ I mit a < b und f (a) < f (b). Dann ist für alle x ∈ (a, b) auch f (x) ∈ (f (a), f (b)). Andernfalls wäre nämlich f (x) ≤ f (a) oder f (x) ≥ f (b). Ist f (x) ≤ f (a), so hätten wir f (x) ≤ f (a) < f (b) also liegt f (a) zwischen f (x) und f (b), d.h. nach Satz 15 existiert ein x0 ∈ [x, b] mit f (x0 ) = f (a). Wegen a < x ≤ x0 ist x0 6= a, im Widerspruch zur Injektivität von f . Der zweite Fall f (x) ≥ f (b) führt analog zu einem Widerspruch. Damit ist Schritt (1) eingesehen. Analog ergibt sich das für a, b ∈ I mit a < b und f (a) > f (b) auch f (x) ∈ (f (b), f (a)) für alle x ∈ (a, b) ist. (2) Sind a, b ∈ I mit a < b und f (a) < f (b), so ist f |[a, b] streng monoton steigend. Seien nämlich x, y ∈ [a, b] mit x < y gegeben. Nach Schritt (1) ist dann f (x) < f (b) und wegen y ∈ (x, b) ergibt eine weitere Anwendung von Schritt (1) auch f (x) < f (y). Damit ist auch Schritt (2) eingesehen. Analog folgt das für a, b ∈ I mit a < b und f (a) > f (b) die Funktion f |[a, b] streng monoton fallend ist. (3) Jetzt zeigen wir, dass f streng monoton ist. Gilt für alle x, y ∈ I mit x < y stets f (y) ≤ f (x), so ist sogar f (y) < f (x) für alle x, y ∈ I mit x < y da f injektiv ist, d.h. die Funktion f ist streng monoton fallend. Andernfalls existieren a, b ∈ I mit a < b und f (a) < f (b). Seien x, y ∈ I mit x < y. Setze u := min{a, x} ∈ I und v := max{y, b} ∈ I. Dann ist u ≤ a < b ≤ v und u ≤ x < y ≤ v, also u < v und a, b, x, y ∈ [u, v]. Wäre f (v) < f (u), so wäre f |[a, b] nach Schritt (2) streng monoton fallend, im Widerspruch zu f (a) < f (b). Da f injektiv ist, kann auch nicht f (u) = f (v) sein, d.h. es ist f (u) < f (v). Erneut nach Schritt (2) ist f |[u, v] streng monoton steigend, und damit haben wir f (x) < f (y). Dies zeigt, das f streng monoton steigend ist. (c) Angenommen die Umkehrabbildung f −1 : J → R wäre nicht stetig. Dann existiert ein Punkt y ∈ J in dem f −1 nicht stetig ist, und dies bedeutet das f −1 (y) nicht der Grenzwert von f −1 an der Stelle y ist. Nach Lemma 1.(b) existieren ein > 0 und eine gegen y konvergente Folge (yn )n∈N in J mit |f −1 (yn ) − f −1 (y)| ≥ für alle n ∈ N. Da J ein Intervall ist, existieren u, v ∈ J mit u ≤ v und ein δ > 0 mit J ∩ (y − δ, y + δ) ⊆ [u, v]. Wegen u, v ∈ J = f (I) können wir {u, v} = {f (a), f (b)} mit a, b ∈ I, a ≤ b schreiben. Wegen (yn )n∈N −→ y existiert ein n0 ∈ N mit |yn − y| < δ für alle n ∈ N mit n ≥ n0 , und für diese n ist damit auch yn ∈ J ∩ (y − δ, y + δ) ⊆ [u, v], d.h. u ≤ yn ≤ v. Da auch f −1 wieder monoton ist, gilt damit auch a ≤ f −1 (yn ) ≤ b für alle n ≥ n0 , und insbesondere ist die Folge (f −1 (yn ))n∈N beschränkt. Nach dem Satz von Heine Borel §4.Satz 13 existiert eine konvergente Teilfolge (f −1 (ynk ))k∈N von (f −1 (yn ))n∈N , und es bezeichne x ∈ R ihren Grenzwert. Wegen a ≤ f −1 (ynk ) ≤ b für alle k ∈ N ist auch a ≤ x ≤ b, also x ∈ [a, b] ⊆ I. Die Stetigkeit von f impliziert nun f (x) = lim f (f −1 (ynk )) = lim ynk = y, k→∞ k→∞ 324 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 d.h. es ist x = f −1 (y), und somit haben wir |f −1 (ynk ) − x| = |f −1 (ynk ) − f −1 (y)| ≥ für alle k ∈ N, im Widerspruch zu (f −1 (ynk ))k∈N −→ x. Dieser Widerspruch beweist die Stetigkeit von f −1 . Als eine erste Anwendung können wir die Stetigkeit der Wurzelfunktionen nachweisen. Sei n ∈ N mit n ≥ 1. Dann ist die Funktion f : R≥0 → R≥0 ; x 7→ xn stetig, streng monoton steigend und nach §1.Lemma 8 auch surjektiv, und ihre Umkehrfunktion ist die Wurzelfunktion √ n : R≥0 → R≥0 . Der eben bewiesene Satz sagt dann, dass auch diese Wurzelfunktion stetig ist. Damit wissen wir dann zum √ Beispiel, das für eine konvergente Folge (xk )k∈N −→ a in R≥0 √ auch ( n xk )k∈N −→ n a ist, für konvergente Folgen (xk )k∈N in R≥0 gilt also lim k→∞ 11.5 √ n xk = q n lim xk . k→∞ Einführung der Grundfunktionen In diesem Abschnitt wollen wir exakte Begründungen der meisten der sogenannten Grundfunktionen behandeln. Als Grundfunktionen bezeichnet man dabei die folgenden Funktionen: 1. Polynome und rationale Funktionen. 2. Die Potenzfunktionen als Funktionen der Basis und als Funktionen des Exponenten. Insbesondere also die Exponentialfunktion und die Wurzelfunktionen. 3. Der natürliche Logarithmus und die anderen Logarithmen. 4. Die trigonometrischen Funktionen, also Sinus, Cosinus, Tangens und Cotangens und ihre Umkehrfunktionen, die sogenannten Arcusfunktionen. 5. Die Hyperbelfunktionen Sinus hyperbolicus, Cosinus hyperbolicus und Tangens hyperbolicus. und ihre Umkehrfunktionen, die sogenannten Areafunktionen. Die direkt“, also nicht als Umkehrfunktionen, definierten Grundfunktionen lassen sich ” alle mittels geeigneter Potenzreihen einführen und daher halten wir erst einmal die Stetigkeit von Potenzreihen innerhalb ihres Konvergenzkreises fest. Satz 11.17 (Stetigkeit von Potenzreihen) P n Sei K ∈ {R, C} und sei f (z) = ∞ n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r > 0. Dann ist die Funktion f : Br (z0 ) → K stetig. 325 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Beweis: Bereits in der letzten Sitzung hatten wir limz→a f (z) = f (a) für jedes a ∈ Br (z0 ) bewiesen, d.h. f : Br (z0 ) → K ist stetig. Die direkt definierten Grundfunktionen ergeben sich alle aus der komplexen Exponentialfunktion, und daher wollen wir mit dieser beginnen. Wir betrachten die Potenzreihe mit den Koeffizienten an = 1/n!. Zur Berechnung des Konvergenzradius wollen wir über Satz 7 vorgehen und haben (n + 1)! 1/n! = lim = lim (n + 1) = +∞, n→∞ n→∞ n→∞ 1/(n + 1)! n! lim d.h. die komplexe Potenzreihe exp(z) := ∞ X zn n=0 n! hat den Konvergenzradius r = +∞. Das folgende Lemma stellt einige Eigenschaften der hierdurch definierten Funktion exp : C → C zusammen. Satz 11.18 (Grundeigenschaften der Exponentialfunktion) Die Exponentialfunktion exp : C → C hat die folgenden Eigenschaften: (a) Die Funktion exp : C → C ist stetig. (b) Es sind exp(0) = 1 und exp(1) = e. (c) Für alle z, w ∈ C gilt die Funktionalgleichung exp(z + w) = exp(z) · exp(w). (d) Für jedes z ∈ C ist exp(z) 6= 0 und 1/ exp(z) = exp(−z). (e) Für jedes z ∈ C ist exp(z) = exp(z). (f ) Für jedes x ∈ R ist exp(x) ∈ R mit exp(x) > 0. (g) Für jedes z ∈ C gilt | exp(z)| = exp(Re(z)). Beweis: (a) Klar nach Satz 17. (b) Die Aussage exp(0) = 1 ist klar und nach einem Beispiel in §5.1 ist auch ∞ X 1 exp(1) = = e. n! n=0 (c) Seien z, w ∈ C. Nach Lemma 6.(b) sind die Reihen für exp(z) und exp(w) absolut konvergent, also ist nach §5.Satz 19 und der binomischen Formel §1.Satz 7 ! ! ! ∞ ∞ ∞ n X X X X zn wn z k wn−k exp(z) · exp(w) = · = n! n! k!(n − k)! n=0 n=0 n=0 k=0 ! ∞ n ∞ X X 1 X n k n−k (z + w)n = z w = = exp(z + w). n! k=0 k n! n=0 n=0 326 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 (d) Nach (c) und (d) gilt für z ∈ C exp(z) · exp(−z) = exp(z − z) = exp(0) = 1, also exp(z) 6= 0 und 1/ exp(z) = exp(−z). (e) Da wir bereits wissen das die komplexe Konjugation stetig ist folgt für jedes z ∈ C exp(z) = ∞ X zn n=0 = n! P∞ ∞ X zn n=0 n! = exp(z). (f ) Sei x ∈ R. Da die Reihe exp(x) = n=0 xn /n! reell ist, ist zumindest exp(x) ∈ R und nach (d) ist auch exp(x) 6= 0. Ebenso ist exp(x/2) ∈ R und mit (c) folgt exp(x) = exp(x/2)2 ≥ 0, d.h. es ist exp(x) > 0. (g) Sei z ∈ C. Nach (e) und (c) ist | exp(z)|2 = exp(z)·exp(z) = exp(z)·exp(z) = exp(z+z) = exp(2 Re(z)) = exp(Re(z))2 , und mit (f) ergibt sich schließlich | exp(z)| = exp(Re(z)). Man verwendet für die Exponentialfunktion auch die Schreibweise ez := exp(z) für jedes z ∈ C, dass es sich hierbei wirklich um Potenzen handelt werden wir auch bald einsehen können. Wir rechnen noch etwas weiter mit der Exponentialfunktion herum. Für jedes z ∈ C haben wir ∞ ∞ X (−z)n X zn −z e = = (−1)n , n! n! n=0 n=0 und mit §5.Lemma 5 folgt z −z e +e ∞ X ∞ X zn z 2n = (1 + (−1) ) = 2 . n! (2n)! n=0 n=0 n Analog ergibt sich auch z −z e −e =2 ∞ X n=0 z 2n+1 . (2n + 1)! Diese Formeln führen uns auf die Definition der sogenannten Hyperbelfuktionen. Definition 11.8 (Hyperbelfunktionen) Für jedes z ∈ C definieren wir die Hyperbelfunktionen durch ∞ ez − e−z X z 2n+1 sinh z := = (Sinus Hyperbolicus), 2 (2n + 1)! n=0 ∞ ez + e−z X z 2n cosh z := = 2 (2n)! n=0 sinh z cosh z cosh z coth z := sinh z tanh z := (Cosinus Hyperbolicus), (Tangens Hyperbolicus), (Cotangens Hyperbolicus), 327 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 wobei die letzteren beiden nur definiert werden wenn der jeweilige Nenner von Null verschieden ist. Wegen ex ∈ R für x ∈ R haben auch die vier Hyperbelfunktionen für reelle Argumente stets reelle Werte. Die reellen Graphen dieser Funktionen sowie der Exponentialfunktion sehen wie folgt aus 4 4 3 y 3 y 2 1 –3 –2 –1 0 4 3 y 2 1 1 2 3 –3 –2 –1 0 4 3 y 2 1 1 x 2 3 –3 –2 –1 0 4 3 y 2 1 1 x 2 3 –3 –2 –1 0 2 1 1 x 2 3 –3 –2 –1 0 –1 –1 –1 –2 –2 –2 –2 –2 –3 –3 –3 –3 –3 –4 –4 –4 –4 –4 sinh x cosh x tanh x 2 3 x –1 ex 1 x –1 coth x Für jedes z ∈ C gelten sinh z + cosh z = ez und sinh z − cosh z = −e−z . Die Hyperbelfunktionen erfüllen fast dieselben Formeln wie die trigonometrischen Funktionen. In der Vorlesung wurde dies nur erwähnt aber nicht weiter vorgeführt, an dieser Stelle wollen wir die Rechnungen aber ruhig einmal durchgehen. Das Analogon zum Pythagoras sin2 + cos2 = 1 ist cosh2 z − sinh2 z = (cosh z + sinh z) · (cosh z − sinh z) = ez e−z = e0 = 1 für jedes z ∈ C, und die Additionstheoreme berechnen sich für z, w ∈ C als 1 z+w (e − e−(z+w) ) 2 1 z w (e e + ez e−w − e−z ew − e−z e−w + ez ew − ez e−w + e−z ew − e−z e−w ) = 4 1 z = ((e − e−z ) · (ew + e−w ) + (ez + e−z ) · (ew − e−w )) 4 = sinh(z) cosh(w) + cosh(z) sinh(w) sinh(z + w) = und analog folgt cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w). Bis auf Vorzeichen sind das genau die vertrauten Formeln für die trigonometrischen Funktionen. Die trigonometrischen Funktionen kann man für z ∈ C jetzt durch Rück328 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 griff auf die Hyperbelfunktionen definieren: ∞ eiz − e−iz X z 2n+1 sin z := −i sinh(iz) = = (−1)n , 2i (2n + 1)! n=0 ∞ eiz + e−iz X z 2n cos z := cosh(iz) = = (−1)n , 2 (2n)! n=0 sin z tan z := −i tanh(iz) = , cos z cos z cot z := i coth(iz) = sin z letztere wieder solange dies definiert ist. Aufbauend auf diesen Definitionen können nun die Eigenschaften der trigonometrischen Funktionen begründet werden. Beispielsweise ergeben sich die grundlegenden Additionstheoreme durch sin2 z + cos2 z = cosh2 z − sinh2 z = 1, sin(z + w) = −i sinh(iz + iw) = −i sinh(iz) cosh(iz) + cosh(iz) · (−i sinh(iw)) = sin(z) cos(w) + cos(z) sin(w), cos(z + w) = cosh(iz + iw) = cosh(iz) cosh(iw) + sinh(iz) sinh(iw) = cosh(iz) cosh(iw) − (−i sinh(iz))(−i sinh(iw)) = cos(z) cos(w) − sin(z) sin(w) für z, w ∈ C. Etwas raffinierter ist dann der Nachweis der Periodizitätseigenschaften der trigonometrischen Funktionen, für diese muss man sich erst einmal eine geeignete Definition der Kreiszahl π verschaffen. Hierzu betrachten wir für x ∈ R die Reihe cos x = ∞ X (−1)n n=0 (2n)! x2n und wollen §5.Satz 7 anwenden. Die Reihe ist alternierend aber die Folge ihrer Summanden ist im allgemeinen erst ab einem geeigneten Startindex monoton fallend. Sind √ x ∈ R mit 0 < |x| ≤ 2 3 und n ∈ N mit n ≥ 1 gegeben so ist x2(n+1) /(2(n + 1))! x2 x2 x2(n+1) x2n = ≤ ≤ 1, und ≤ . x2n /(2n)! (2n + 1)(2n + 2) 12 (2(n + 1))! (2n)! √ Ist also x ∈ R mit |x| ≤ 2 3, so ist die Folge (x2n /(2n)!)n≥1 monoton fallend und §5.Satz 7 ergibt ∞ x2 x4 X (−1)n−1 2n x2 − ≤ x ≤ , 2 24 n=1 (2n)! 2 also schließlich 1− x2 x4 x2 ≤ cos x ≤ 1 − + . 2 2 24 329 Mathematik für Physiker I, WS 2016/2017 Beachten wir √ 3> p Freitag 3.2.2017 √ 289/100 = 17/10 und 2 3 > 17/5, so ist damit für 0 ≤ x ≤ 7/5 cos x ≥ 1 − x2 49 1 ≥1− = >0 2 50 50 und andererseits cos 32 512 1875 − 2400 + 512 13 8 ≤1− + = =− < 0, 5 25 1875 1875 1875 also gibt es nach dem Zwischenwertsatz Satz 15 ein x ∈ (7/5, 8/5) mit cos x = 0. Damit können wir π/2 als die kleinste positive Nullstelle des Cosinus definieren, also π := inf{x ∈ R≥0 | cos x = 0}. 2 Dies ist tatsächlich eine Nullstelle des Cosinus, denn für jedes n ∈ N mit n ≥ 1 existiert ein xn ∈ R≥0 mit π/2 ≤ xn < π/2 + 1/n und cos xn = 0, also insbesondere (xn )n∈N −→ π/2 und die Stetigkeit des Cosinus liefert cos π = lim cos xn = 0. 2 n→∞ Damit haben wir cos π 7 π 8 14 16 = 0 und < < , also <π< , 2 5 2 5 5 5 beziehungsweise 2, 8 < π < 3, 2. Das ist genau genug um einzusehen das π > e ist, im nächsten Kapitel werden dies in einem weiteren Beispiel noch etwas verbessern. Verwenden wir jetzt die aus dem Additionstheorem folgenden und für alle z ∈ C gültigen Verdopplungsformeln cos(2z) = cos(z + z) = cos2 z − sin2 z = cos2 z − (1 − cos2 z) = 2 cos2 z − 1 und sin(2z) = sin(z + z) = 2 sin z cos z, so erhalten wir π π π π sin π = sin 2 · = 2 sin cos = 0 und ebenso cos π = 2 cos2 − 1 = −1. 2 2 2 2 Eine erneute Anwendung der Additionstheoreme liefert uns dann für alle z ∈ C die Periodizitätseigenschaften sin(z + π) cos(z + π) sin(z + 2π) cos(z + 2π) = = = = sin z cos π + cos z sin π = − sin z, cos z cos π − sin z sin π = − cos z, sin((z + π) + π) = −(− sin z) = sin z und ebenso cos z. 330 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Damit haben wir ausgehend von der komplexen Exponentialfunktion die Hyperbelund die trigonometrischen Funktionen eingeführt. Umgekehrt wollen wir jetzt einsehen das sich die komplexe Exponentialfunktion auch in Termen der trigonometrischen Funktionen schreiben läßt, dies ergibt sich aus der sogenannte Eulerschen Formel. Wir starten für z ∈ C mit der Formel cos z + i · sin z = cosh(iz) + sinh(iz) = eiz , und für reelles t ∈ R wird dies zu eit = cos t + i sin t. Speziell für t = π ist eiπ = −1. Für eine allgemeine komplexe Zahl z = s + it wird ez = es+it = es eit = es cos t + ies sin t, und die komplexe Exponentialfunktion ist auf die reelle Exponentialfunktion sowie den Sinus und den Cosinus zurückgeführt. Man kann noch ein klein wenig weiter mit diesen Formeln herumspielen. Es ist e2πi = (eiπ )2 = (−1)2 = 1, also auch ez+2πi = ez e2πi = ez für alle z ∈ C, die komplexe Exponentialfunktion ist also periodisch mit der Periode 2πi. Als nächsten Schritt wollen wir die als Umkehrfunktionen definierten Grundfunktionen behandeln, also den Logarithmus, die Area- und die Arcusfunktionen. Genau wie die Hyperbel- und die trigonometrischen Funktionen sich auf die komplexe Exponentialfunktion zurückführen lassen, kann man die Area- und die Arcusfunktionen über den komplexen Logarithmus begründen, dies ist allerdings erst ein Thema des vierten Semesters. Wir beschränken uns in diesem Semester auf den reellen Logarithmus, der uns zum einen die Areafunktionen und zum anderen die endgültige Begründung der Potenzrechnung erlauben wird. Die Arcusfunktionen werden wir dagegen erst im nächsten Kapitel bequem untersuchen können, daher stellen wir diese erst einmal zurück. Wir beginnen indem wir die bekannten Eigenschaften der reellen Exponentialfunktion herleiten. Satz 11.19 (Grundeigenschaften der reellen Exponentialfunktion) Die reelle Exponentialfunktion exp : R → R>0 hat die folgenden Eigenschaften: (a) Die Funktion exp ist stetig und streng monoton steigend. (b) Es gelten lim ex = ∞ und lim ex = 0. x→∞ x→−∞ 331 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 (c) Für jede reelle, rationale Funktion f und jedes a ∈ R mit a > 0 sind lim f (x)e−ax = 0 und x→∞ lim f (x)eax = 0. x→−∞ (d) Für alle a, α ∈ R mit a > 0 gilt lim xα e−ax = 0. x→∞ Beweis: (a) Die Stetigkeit ist klar nach Satz 18.(a). Für jedes x ∈ R mit x > 0 ist x e = ∞ X xn n=0 n! > 1, und für x, y ∈ R mit x < y folgt weiter ey = ex+(y−x) = ey−x ex > ex , d.h. die reelle Exponentialfunktion ist streng monoton steigend. (b,c) Seien p(x) = an xn + · · · + a0 und q(x) = bm xm + · · · + b0 mit an , bm 6= 0 zwei reelle Polynome. Wir betrachten die rationale Funktion f (x) = p(x)/q(x). Nach §4.Lemma 7 gibt es ein x0 > 0 mit |p(x)| < 2|an |xn und |q(x)| > (|bm |/2)xm für alle x > x0 . Für jedes x ∈ R mit x > x0 ist damit auch |f (x)| = 4|an | n−m |p(x)| < x . |q(x)| |bm | Setzen wir also 4|an | , x1 := max{x0 , 1} und k := A := |bm | ( n − m, n > m, 0, n ≤ m, so ist für alle x ∈ R mit x > x1 auch |f (x)| < Axk . Weiter sei a ∈ R mit a > 0 gegeben. Für jedes x ∈ R mit x > x1 /a > 0 haben wir dann ax e = ∞ X aj x j j=0 ak+1 xk+1 > , j! (k + 1)! also auch |f (x)| A(k + 1)! 1 < · . eax ak+1 x Mit dem Einschnürungslemma Lemma 2.(b) folgt limx→∞ f (x)e−ax = 0. Weiter folgt damit lim f (x)eax = lim f (−x)e−ax = 0, |f (x)e−ax | = x→−∞ x→∞ 332 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 wobei diese Umparametrisierung“ des Limes eine kleine Übungsaufgabe ist. Wenden ” wir dies speziell auf die rationale Funktion f (x) = 1 und a = 1 an, so ergeben sich limx→∞ e−x = limx→−∞ ex = 0, also auch lim ex = lim x→∞ 1 x→∞ e−x = +∞, da das Vorzeichen konstant +1 ist. (d) Seien a, α ∈ R mit a > 0. Nach der archimedischen Eigenschaft der reellen Zahlen §1.Lemma 5 existiert eine natürliche Zahl n ∈ N mit α ≤ n. Ist dann x ∈ R mit x ≥ 1, so gilt für jedes rationale q ∈ Q mit q ≤ α ≤ n auch xq ≤ xn und somit xα = sup{xq |q ∈ Q, q ≤ α} ≤ xn . Nach dem bereits bewiesenen (c) gilt limx→∞ xn e−ax = 0 und nach dem Einschnürungslemma Lemma 2.(b) ist auch limx→∞ xα e−ax = 0. Wenden wir jetzt den Monotoniesatz Satz 16 für stetige Funktionen an, so folgt das die reelle Exponentialfunktion exp : R → R>0 bijektiv mit einer stetigen und ebenfalls streng monoton steigenden Umkehrfunktion ln : R>0 → R ist, genannt der Logarithmus, oder auch der natürliche Logarithmus. Da in der reinen Mathematik keine anderen Logarithmen vorkommen, läßt man den Zusatz natürlich“ ” meistens weg. Oft wird der Logarithmus auch als log geschrieben, dies meint dann weiterhin den natürlichen Logarithmus, andere Logarithmen kommen wie gesagt nicht vor. Die Eigenschaften der Exponentialfunktion ergeben sofort die folgenden Eigenschaften des Logarithmus x ln(1) = 0, ln(e) = 1, ln(xy) = ln(x) + ln(y), ln = ln(x) − ln(y) y jeweils für alle x, y > 0, sowie lim ln(x) = −∞ und lim ln(x) = +∞. x→0 x→∞ All diese Formeln lassen sich schnell beweisen, zunächst ist wegen exp(0) = 1 und exp(1) = e auch ln(1) = 0 und ln(e) = 1. Nun seien x, y ∈ R mit x, y > 0 gegeben. Dann haben wir zunächst eln(x)+ln(y) = eln x eln y = xy, also ln(xy) = ln x + ln y, die sogenannte Funktionalgleichung des Logarithmus, und weiter ist x x x ln x = ln · y = ln + ln y, d.h. ln = ln x − ln y. y y y Die beiden Grenzwertaussagen folgen im Wesentlichen aus der Monotonie des natürlichen Logarithmus. Ist a ∈ R so gilt für alle x ∈ R mit x > ea stets ln x > ln(ea ) = a und für alle x ∈ R mit 0 < x < ea ist ln x < ln(ea ) = a. 333 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Mit dem Logarithmus ist man schließlich auch in der Lage die in §1.5 begonnene Begründung der Potenzrechnung mit beliebigen reellen Exponenten zu vervollständigen. Zunächst drücken wir Potenzen in Termen der Exponentialfunktion und des Logarithmus aus. Lemma 11.20: Für alle reellen Zahlen a, x ∈ R mit a > 0 gilt ax = exp(x · ln a). Beweis: Sei a ∈ R mit a > 0 gegeben und betrachte die stetige Funktion f : R → R>0 ; x 7→ exp(x · ln a). Dann müssen wir ax = f (x) für jedes x ∈ R einsehen. Für alle x, y ∈ R gilt zunächst f (x + y) = exp((x + y) · ln a) = exp(x · ln a) · exp(y · ln a) = f (x) · f (y) und wir haben f (0) = exp(0) = 1 sowie f (1) = exp(ln a) = a. Für jedes n ∈ N mit n ≥ 1 und jedes x ∈ R folgt hieraus weiter f (nx) = f (x · · + x}) = f (x) · . . . · · · f (x) = f (x)n , | + ·{z | {z } n mal n mal und f (x)n · f (−nx) = f (nx) · f (−nx) = f (nx + (−nx)) = f (0) = 1, d.h. f (−nx) = 1 = f (x)−n n f (x) es ist also f (nx) = f (x)n für jedes n ∈ Z und alle x ∈ R. Insbesondere haben wir damit f (n) = an für jedes n ∈ Z. Für n ∈ N mit n ≥ 1 ist weiter n √ 1 1 1 1 f =f n· > 0 und f = f (1) = a, d.h. f = n a. n n n n Ist also x ∈ Q so schreiben wir x = p/q mit p, q ∈ Z, q ≥ 1 und haben p √ p 1 1 f (x) = f p · =f = q a = ax . q q Schließlich sei ein beliebiges x ∈ R gegeben und wir wollen zeigen, dass auch in diesem Fall f (x) = ax ist. Letztere Potenz hatten wir dabei als ax = sup M im Fall a ≥ 1 und ax = inf M im Fall a < 1 definiert wobei M die Menge M := {aq |q ∈ Q, q ≤ x} ist. Wir müssen nun die beiden Fälle a ≥ 1 und a < 1 unterscheiden. Fall 1. Zunächst nehmen wir a ≥ 1 an. Dann ist ln a ≥ ln 1 = 0, für jedes q ∈ Q mit q ≤ x ist also auch q ln a ≤ x ln a und somit aq = f (q) = exp(q ln a) ≤ exp(x ln a) = f (x), 334 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 d.h. f (x) ist eine obere Schranke von M . Nun sei b ∈ R mit b < f (x) gegeben. Da f stetig ist existiert nach §11.Lemma 9 ein δ > 0 mit |f (y) − f (x)| < f (x) − b für alle y ∈ R mit |y − x| < δ. Weiter existiert nach Aufgabe (10.g) eine rationale Zahl q ∈ Q mit x − δ < q < x, also insbesondere |q − x| = x − q < δ, und wir haben aq ∈ M mit aq = f (q) = f (x) − (f (x) − f (q)) ≥ f (x) − |f (q) − f (x)| > f (x) − (f (x) − b) = b. Damit ist f (x) die kleinste obere Schranke von M und wir haben f (x) = sup M = ax eingesehen. Fall 2. Nun nehmen wir a < 1 an. Dann ist ln a < ln 1 = 0 und für jedes q ∈ Q mit q ≤ x folgen damit auch q ln a ≥ x ln a und aq = f (q) = exp(q ln a) ≥ exp(x ln a) = f (x), also ist f (x) in diesem Fall eine untere Schranke von M . Ist nun b ∈ R mit b > f (x) gegeben, so existieren wie in Fall 1 ein δ > 0 mit |f (y) − f (x)| < b − f (x) für alle y ∈ R mit |y − x| < δ und eine rationale Zahl q ∈ Q mit x − δ < q < x, also ist aq ∈ M mit aq = f (q) = f (x) + (f (q) − f (x)) ≤ f (x) + |f (q) − f (x)| < f (x) + (b − f (x)) = b, d.h. f (x) ist die größte untere Schranke von M und somit ax = inf M = f (x). Nach diesem Lemma können wir nun az := exp(z · ln a) für alle a ∈ R>0 , z ∈ C definieren und dies stimmt für reelle Exponenten x ∈ R mit den in §1.5 definierten Potenzen überein. Wegen ln(e) = 1 wird dann exp(z) = ez für jedes z ∈ C tatsächlich zu einer Potenz von e und auch diese Notation ist damit gerechtfertigt. Die eben gegebene Definition erlaubt uns auch den Nachweis der Potenzrechenregeln, bisher haben wir diese erst für rationale Exponenten bewiesen. Wir beginnen mit den Abbildungseigenschaften. Da die Exponentialfunktion und der Logarithmus beide stetig sind, sind auch die Funktionen C → C; z 7→ az für jedes a ∈ R mit a > 0 und (0, ∞) → C; a 7→ az für jedes z ∈ C stetig. Kommen wir nun zu den Monotonieeigenschaften bezüglich der Basis, es sei also ein reelle Zahl α ∈ R gegeben. Zunächst nehmen wir α > 0 an. Sind dann x, y ∈ (0, ∞) mit x < y so ist ln x < ln y da der Logarithmus streng monoton steigend ist, also auch α ln x < α ln y und xα = exp(α ln x) < exp(α ln y) = y α da die 335 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Exponentialfunktion streng monoton steigend ist. Damit ist die Funktion (0, ∞) → R; x 7→ xα streng monoton steigend, für alle x, y ∈ (0, ∞) gelten also x < y ⇐⇒ xα < y α und x ≤ y ⇐⇒ xα ≤ y α . Ist dagegen α < 0 so folgt analog das die Funktion (0, ∞) → R; x 7→ xα streng monoton fallend ist, und damit ist in diesem Fall für alle x, y ∈ (0, ∞) x < y ⇐⇒ xα > y α und x ≤ y ⇐⇒ xα ≥ y α . Für den Exponenten α = 0 ist dagegen xα = 1 für jedes x ∈ (0, ∞). Kommen wir nun zur Monotonie im Exponenten. Sei hierzu eine Basis a ∈ R mit a > 0 gegeben. Zunächst betrachten wir den Fall a > 1, also ln a > ln 1 = 0. Sind dann x, y ∈ R mit x < y, so ist auch x ln a < y ln a und wie oben folgt ax < ay , bezüglich des Exponenten sind unsere Potenzen also streng monoton steigend. In anderen Worten ist die Funktion R → R; x 7→ ax streng monoton steigend und für alle x, y ∈ R gelten x < y ⇐⇒ ax < ay und x ≤ y ⇐⇒ ax ≤ ay . Ist dagegen 0 < a < 1 so haben wir ln a < ln 1 = 0 und analog zur obigen Überlegung ist die Funktion R → R; x 7→ ax streng monoton fallend, d.h. für alle x, y ∈ R gilt x < y ⇐⇒ ax > ay und x ≤ y ⇐⇒ ax ≥ ay . Im verbleibenden Fall der Basis a = 1 ist dagegen ax = 1 für jedes x ∈ R. Nun kommen wir zu den arithmetischen Regeln und hierzu seien reelle Zahlen a, b, x ∈ R mit a, b > 0 und komplexe Zahlen z, w ∈ C gegeben. Die Funktionalgleichung Lemma 18.(c) ergibt az · aw = ez ln a ew ln a = e(z+w) ln a = az+w und mit der Funktionalgleichung ln(ab) = ln a + ln b des Logarithmus ist auch az · bz = ez ln a ez ln b = ez(ln a+ln b) = ez ln(ab) = (ab)z . Eine Anwendung dieser Formel liefert dann a z a z a z az az = ·b = bz und somit = z, b b b b und wegen 1z = exp(z ln(1)) = exp(0) = 1 ergibt sich als Spezialfall die Formel für die Potenzen von Kehrwerten z 1 1 = z. a a Weiter haben wir die Logarithmenregel ln(ax ) = ln ex ln a = x ln a 336 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 und somit auch x (ax )z = ez ln(a ) = exz ln a = axz . Der Logarithmus ist die Umkehrfunktion der Exponentialfunktion also der Potenzfunktion zur Basis e. Gelegentlich sind auch die Umkehrfunktionen der Potenzfunktionen zu anderen Basen 1 6= a ∈ R von Interesse, diese werden dann als Logarithmus zur Basis a bezeichnet. Ist solch eine Basis 1 6= a ∈ R gegeben so haben wir ax = ex ln a für jedes x ∈ R, diese Potenzfunktion ist also die Hintereinanderausführung der wegen ln a 6= 0 bijektiven Funktion R → R; x 7→ x ln a mit der Exponentialfunktion und nach §2.Lemma 4 ist sie bijektiv mit der Umkehrfunktion loga : R>0 → R; x 7→ ln x . ln a Die letzte Klasse von Grundfunktionen die wir in diesem Kapitel noch einführen wollen sind die Areafunktionen, also die Umkehrfunktionen der reellen Hyperbelfunktionen. Wir wollen einsehen das diese uns die drei stetigen Funktionen arsinh : R → R (Area Sinus Hyperbolicus) arcosh : [1, ∞) → [0, ∞) (Area Cosinus Hyperbolicus) artanh : (−1, 1) → R (Area Tangens Hyperbolicus) geben. Um die Existenz und Stetigkeit der Areafunktionen einzusehen kann man wie bei der Konstruktion des natürlichen Logarithmus über Satz 16 vorgehen, wir wollen hier aber ein rechnerisches Vorgehen verwenden das uns die expliziten Formeln √ arsinh x = ln(x + x2 + 1), √ arcosh x = ln(x + x2 − 1), 1 1+x ln artanh x = 2 1−x für die x aus dem jeweiligen Definitionsbereich, gibt. Zum Nachweis dieser Formeln starten wir mit dem Sinus Hyperbolicus. Seien x, y ∈ R. Setzen wir dann u = ex > 0, so ist ex − e−x 1 1 sinh x = = u− , 2 2 u 2 2 also = 0. Wegen p= y gleichwertig zu 2yu = u −1 beziehungsweise u −2yu−1 p p ist sinh x 2 2 y + 1 > y = |y| ≥ y ist p dies weiter äquivalent zu u = y + y 2 + 1. Für jedes y ∈ R gibt es damit p wegen y + y 2 + 1 > y + |y| ≥ 0 genau ein x ∈ R mit sinh x = y nämlich x = ln(y + y 2 + 1). Damit ist sinh : R → R bijektiv mit der angegebenen Umkehrfunktion arsinh = sinh−1 . Insbesondere ist der Sinus Hyperbolicus nach Satz 16 streng monoton und der Area Sinus Hyperbolicus ist stetig, was sich natürlich auch aus der expliziten Formel ergibt. Da für alle x ≥ 0 stets sinh x = (ex − e−x )/2 ≥ 0 ist muss der Sinus Hyperbolicus daher streng monoton steigend sein. 337 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Kommen wir zum Cosinus Hyperbolicus. Für jedes x ∈ R ist cosh(−x) = cosh(x) und damit kann der Cosinus Hyperbolicus auf ganz R nicht injektiv sein, wir wollen einsehen das seine Einschränkung auf [0, ∞) injektiv ist. Weiter gilt für jedes x ∈ R auch cosh2 x = 1 + sinh2 x ≥ 1, also cosh x ≥ 1 und wir wollen einsehen das sogar cosh([0, ∞)) = [1, ∞) ist. Haben wir x, y ∈ R mit x ≥ 0 und y ≥ 1, so ist wegen cosh x ≥ 1 genau dann cosh x = y wenn 1 + sinh2 x = p cosh2 x = y 2 gilt und wegen y 2 − 1 ≥ 0 und sinh x ≥ 0 ist dies weiter zu sinh x = y 2 − 1 äquivalent. Wenden wir die schon bewiesene Formel für den Area Sinus Hyperbolicus an, so ist cosh x = y weiter gleichwertig zu p p p x = ln y 2 − 1 + (y 2 − 1) + 1 = ln(y + y 2 − 1), also ist cosh : [0, ∞) → [1, ∞) bijektiv mit der obigen Umkehrfunktion arcosh = (cosh |[0, ∞))−1 . Wie beim Sinus Hyperbolicus ergibt sich weiter das der Area Cosinus Hyperbolicus stetig ist und das der Cosinus Hyperbolicus auf [0, ∞) streng monoton steigend ist. Kommen wir schließlich zum Tangens Hyperbolicus. Für jedes x ∈ R gilt tanh x = sinh x e−x 2 ex − e−x = 1 − 2 =1− ∈ (−1, 1) = x −x x −x cosh x e +e e +e 1 + e2x und für y ∈ (−1, 1) ist damit genau dann tanh x = y wenn e2x = 2 1+y −1= >0 1−y 1−y gilt, wenn also x= 1 1+y ln 2 1−y ist. Damit ist tanh : R → (−1, 1) bijektiv und der Area Tangens Hyperbolicus ist durch die obige Formel gegeben. Für jedes x ∈ R mit x ≥ 0 ist tanh x ≥ 0 also folgt wie beim Sinus Hyperbolicus das artanh = tanh−1 stetig ist und der Tangens Hyperbolicus streng monoton steigend ist. $Id: diffb.tex,v 1.20 2017/02/06 15:16:09 hk Exp $ §12 Differenzierbare Funktionen Wir kommen jetzt zum letzten Thema dieses Semesters, den differenzierbaren Funktionen in einer Variablen. In diesem Semester sind wir nur am reellen Fall interessiert, nur die Definition und die ersten Eigenschaften werden wir noch allgemein halten, da es für diese keinen Unterschied macht ob wir reelle oder komplexe Zahlen verwenden. 338 Mathematik für Physiker I, WS 2016/2017 Freitag 3.2.2017 Schon bei der Besprechung der Folgenkonvergenz in §4.1 hatten wir die Interpretation der Ableitung als eine Änderungsrate besprochen. Es gibt noch mindestens zwei weitere alternative Sichtweisen der Ableitung, einmal geometrisch über den Begriff der Tangentensteigung, und zum anderen als lineare Näherung. Alle drei Möglichkeiten haben ihren Platz. Die geometrische Interpretation dient bei uns hauptsächlich zur anschaulichen Interpretation einiger Aussagen, und der Zugang als lineare Näherung wird erst im nächsten Semester wirklich wichtig werden. 12.1 Differenzierbarkeit und Differenzenquotienten Wir wollen jetzt die formale Definition der Ableitung f 0 (x) einer Funktion f in einem Punkt x ihres Definitionsbereichs angeben. Wie schon bemerkt gibt es mindestens drei verschiedene, aber natürlich gleichwertige, Methoden f 0 (x) einzuführen. Alle diese verschiedenen Definitionen involvieren einen Funktionsgrenzwert im Punkt x, und daher müssen wir fordern das x ein Häufungspunkt des Definitionsbereich der Funktion f ist. Seien K ∈ {R, C}, D ⊆ K eine Teilmenge, f : D → K eine Funktion und x ∈ D ein Häufungspunkt von D. Wir beginnen mit der geometrischen Beschreibung der Ableitung. Hier betrachten wir Punkte y ∈ D verschieden von x, also y 6= x, und bilden die Verbindungsgerade der beiden Punkte (x, f (x)) und (y, f (y)), dies ist sozusagen eine Sekante der Kurve y = f (x). Die Steigung dieser Sekante ist durch den sogenannten Differenzenquotienten f (y) − f (x) y−x gegeben. Lassen wir jetzt y gegen x konvergieren, so sollte die Steigung dieser Sekanten gegen die Steigung der Tangente an y = f (x) im Punkte x konvergieren, und diesen Grenzwert, sofern er existiert nennen wir dann die Ableitung von f in x f 0 (x) := lim y→x f (y) − f (x) . y−x Im komplexen Fall K = C hat man natürlich keine so direkte Anschauung, aber die formale Definition ist ohne Probleme auch in der komplexen Situation sinnvoll. In einer etwas exakteren Formulierung definieren wir dann nachträglich die Tangente von y = f (x) im Punkte x als die Gerade der Steigung f 0 (x) durch den Punkt (x, f (x)). Die zweite Beschreibung ist die Definition der Ableitung als Änderungsrate in einem Punkt. Da wir diese schon in §4.1 diskutiert haben, wollen wir uns hier kurz fassen, und kommen gleich zur Definition der Ableitung als f (x + h) − f (x) . h→0 h f 0 (x) := lim Der Definitionsbereich der Funktion bezüglich derer der Grenzwert gebildet wird, ist dabei die um x verschobene Menge D − x, und 0 ist wieder ein Häufungspunkt dieser Menge, der Grenzwert ist also überhaupt sinnvoll. Die Ableitung tritt in dieser Formel 339 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 als Änderungsrate auf. Mathematisch ist dies genau dasselbe wie die geometrische Interpretation, man muss ja nur y = x + h schreiben, und sich die einfache Tatsache klarmachen, dass diese Umparametrisierung auf den Grenzwert keinen Einfluss hat. Sie sollten sich dies ruhig als eine kleine Übungsaufgabe einmal hinschreiben. Die dritte Interpretation ist die Auffassung der Ableitung als eine lineare Approximation. Hier denken wir uns die Funktion f in der Nähe des Punktes x durch eine lineare Funktion angenähert, wir schreiben also f (x + h) = f (x) + mh + fehler(h) mit einem m ∈ K wobei dann üblicherweise τ (h) = fehler(h) gesetzt wird. Dabei ist die Störung h ein Element der Menge D −x. Beachte das wir diesen Ausdruck als Funktion in h auffassen, der Punkt x ist hier fest gewählt und ändert sich nicht. Damit dies eine sinnvolle Approximation ist, muss der Fehler dabei natürlich einigen Bedingungen genügen. Die Minimalbedingung ist, dass der Fehler klein wird, wenn h klein wird, es sollte also limh→0 τ (h) = 0 gelten. Für die Ableitung ist dies noch nicht genug. Der Fehler soll nicht nur klein werden, er soll dies schlimmstenfalls proportional zu h tun, es soll also eine Abschätzung |τ (h)| ≤ A|h| mit einer Proportionalitätskonstanten A > 0 gelten. Auch dies ist für die Differenzierbarkeit noch nicht gut genug. Differenzierbarkeit bedeutet, dass man auch die Proportionalitätskonstante A beliebig klein machen kann, wenn h nur klein genug ist. Es soll also für jede vorgegebene Proportionalitätskonstante > 0 stets |τ (h)| ≤ |h| für ausreichend kleine h sein, beziehungsweise etwas exakter soll es ein δ > 0 mit |τ (h)| ≤ |h| für alle h ∈ D − x mit |h| ≤ δ geben. Da wir dies zu |τ (h)/h| ≤ für 0 6= h ∈ D − x mit |h| ≤ δ umformen können, sehen wir das die Bedingung an den Fehler gemäß der –δ Definition von Funktionsgrenzwerten aus §11.Lemma 1.(f) gerade τ (h) lim =0 h→0 h ist. Auch diese Interpretation ist zu den anderen beiden Differenzierbarkeitsdefinitionen äquivalent, wobei die Steigung m der approximierenden linearen Funktion gerade m = f 0 (x) sein muss. Dies ist leicht zu sehen, wir können die Gleichung f (x + h) = f (x) + mh + τ (h) ja zu f (x + h) − f (x) τ (h) −m= h h umschreiben. Interpretieren wir die lineare Näherung als Gerade in K 2 , so wird diese gerade zur Tangente aus dem geometrischen Standpunkt. Vorlesung 26, Montag 6.2.2017 Am Ende der letzten Sitzung haben wir die drei verschiedenen Interpretationen der Ableitung einer Funktion in einem Punkt besprochen, einmal als Änderungsrate, oder 340 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 als Tangentensteigung und schließlich als lineare Näherung. Als Definition müssen wir uns für eine dieser drei Varianten entscheiden, und wählen hierfür die zweite Methode. Definition 12.1 (Differenzierbarkeit in einem Punkt) Seien K ∈ {R, C}, D ⊆ K und f : D → K eine Abbildung. Weiter sei x ∈ D ein Häufungspunkt von D. Wir nennen f in x differenzierbar, wenn der Grenzwert f 0 (x) := lim h→0 f (x + h) − f (x) h existiert, welcher dann als die Ableitung von f in x bezeichnet wird. Wie schon bemerkt kann man auch die äquivalente Form f (y) − f (x) y→x y−x f 0 (x) = lim verwenden, was wir auch gelegentlich tun werden. Aus der Interpretation der Ableitung als lineare Approximation ist klar, dass für eine lineare Funktion f : K → K; x 7→ ax+b mit a, b ∈ K auch f 0 (x) = a für alle x ∈ K ist. Insbesondere ist die Ableitung konstanter Funktionen in jedem Punkt gleich Null. Als ein weiteres Beispiel wollen wir die Funktion f (x) = x2 definiert auf D = K behandeln. Hier rechnen wir für jedes h ∈ K (x + h)2 = x2 + 2xh + h2 und haben f (x + h) = (x + h)2 geschrieben als die Summe des linearen Teils x2 + 2xh und dem Fehler τ (h) = h2 . Dann ist limh→0 τ (h)/h = limh→0 h = 0, d.h. f ist in x differenzierbar. Die Ableitung in x ist die Steigung des linearen Teils, also f 0 (x) = 2x. Als letztes Beispiel schauen wir uns die Funktion f : K\{0} → K; x 7→ 1/x an. Sei x ∈ K\{0}. Als Differenzenquotient ergibt sich für h ∈ K\{0, −x} 1 x+h − h 1 x =− 1 , x(x + h) und mit den Rechenregeln für Funktionsgrenzwerte §11.Satz 5 folgt f (x + h) − f (x) 1 = − 2. h→0 h x f 0 (x) = lim Aus der Lokalität von Funktionsgrenzwerten folgt, dass auch der Ableitungsbegriff lokal ist, also nicht von der ganzen Funktion abhängt, sondern nur von den Werten der Funktion in der Nähe des Punktes in dem abgeleitet wird. Lemma 12.1 (Ableitungen sind lokal) Seien K ∈ {R, C}, D ⊆ K eine Teilmenge, a ∈ D ein Häufungspunkt von D und f : D → K eine Funktion. 341 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 (a) Sei f in a differenzierbar. Ist dann M ⊆ D eine Teilmenge mit a ∈ M und ist a auch ein Häufungspunkt von M , so ist auch f |M in a differenzierbar mit (f |M )0 (a) = f 0 (a). e := B (a) ∩ D = {x ∈ D : |x − a| < }. Dann ist f genau (b) Sei > 0 und setze D e in a differenzierbar ist, und in diesem Fall dann in a differenzierbar wenn f |D 0 0 e (a) = f (a). gilt (f |D) Beweis: (a) Klar nach §11.Lemma 1.(g). (b) Klar nach §11.Lemma 3. 12.2 Die Ableitungsregeln Wir wollen jetzt die Rechenregeln für Ableitungen herleiten. Zusammen mit den Regeln für die Ableitungen der Grundfunktionen erhält man einen Kalkül der die Ableitung aller als Formeln in den Grundfunktionen gegebenen Funktionen erlaubt. Beweistechnisch ist es bequem zuvor eine weitere Umformulierung der Ableitungsdefinition herzuleiten. Lemma 12.2 (Ableitungsdefinition nach Caratheodory) Seien K ∈ {R, C}, D ⊆ K, f : D → K eine Funktion und x ∈ D ein Häufungspunkt von D. Dann ist die Funktion f genau dann differenzierbar in x, wenn es eine in x stetige Funktion φ : D → K mit f (t) = f (x) + (t − x)φ(t) für alle t ∈ D gibt. In diesem Fall ist f 0 (x) = φ(x). Beweis: ”=⇒” Sei ( φ : D → K; t 7→ f (t)−f (x) , t−x 0 f (x), t 6= x, t = x, und dann gilt f (x) + (t − x)φ(t) = f (t) für alle t ∈ D. Außerdem ist lim φ(t) = lim t→x t→x f (t) − f (x) f (x + h) − f (x) = lim = f 0 (x) = φ(x), h→0 t−x h d.h. φ ist stetig in x. Die hier vorgenommene Umparametrisierung des Grenzwerts ist dabei mit der –δ Beschreibung des Funktionsgrenzwerts nach §11.Lemma 1.(f) klar. ”⇐=” Es gilt f (x + h) − f (x) lim = lim φ(x + h) = φ(x) h→0 h→0 h 342 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 da φ in x stetig ist, also ist f in x differenzierbar mit f 0 (x) = φ(x). Als ein direktes Korollar sehen wir das Differenzierbarkeit in einem Punkt auch die Stetigkeit in diesem Punkt impliziert. Lemma 12.3 (Differenzierbarkeit impliziert Stetigkeit) Seien K ∈ {R, C}, D ⊆ K, x ∈ D ein Häufungspunkt von D und f : D → K eine in x differenzierbare Funktion. Dann ist f an der Stelle x auch stetig. Beweis: Klar nach Lemma 2 und §11.Satz 13.(a,c). Jetzt sind wir in der Lage die meisten der Ableitungsregeln zu beweisen. Diese Regeln sind Formeln die es erlauben die Ableitung einer Funktion aus den bereits als bekannt angenommenen Ableitungen ihrer Bestandteile zu berechnen. Im einzelnen sind dies die Summenregel für die Ableitung von Summen, die Vielfachenregel für die Ableitungen von Vielfachen, die Produktregel für die Ableitung von Produkten, Quotientenregel für die Ableitung von Brüchen und schließlich die Kettenregel für die Ableitung von Hintereinanderausführungen. Die Quotientenregel ist dabei eigentlich keine eigenständige Regel da sie aus der Kettenregel und der Produktregel folgt. Satz 12.4 (Ableitungsregeln) Seien K ∈ {R, C}, D ⊆ K, x ∈ D ein Häufungspunkt von D und f, g : D → K zwei in x differenzierbare Funktionen. (a) Die Funktion f +g : D → K ist in x differenzierbar mit (f +g)0 (x) = f 0 (x)+g 0 (x). (b) Für jedes c ∈ K ist die Funktion cf : D → K in x differenzierbar mit (cf )0 (x) = cf 0 (x). (c) Die Funktion f · g : D → K ist in x differenzierbar mit (f · g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x). (d) Ist g(t) 6= 0 für alle t ∈ D, so ist die Funktion f /g in x differenzierbar mit 0 f f 0 (x)g(x) − f (x)g 0 (x) . (x) = g g(x)2 e ⊆ K eine weitere Menge, y ∈ D e ein Häufungspunkt von D e und h : D e →D (e) Sind D e → K in y eine in y differenzierbare Funktion mit h(y) = x, so ist auch f ◦ h : D differenzierbar mit (f ◦ h)0 (y) = f 0 (x)h0 (y) = f 0 (h(y)) · h0 (y). 343 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Beweis: Nach Lemma 2 gibt es in x stetige Funktionen φ, ψ : D → K mit f (t) = f (x) + (t − x)φ(t) und g(t) = g(x) + (t − x)ψ(t) für alle t ∈ D, und es sind f 0 (x) = φ(x) und g 0 (x) = ψ(x). (a) Nach §11.Satz 13.(a) ist θ := φ + ψ in x stetig und für alle t ∈ D gilt f (t) + g(t) = f (x) + g(x) + (t − x)θ(t), d.h. nach Lemma 2 ist f + g in x differenzierbar mit (f + g)0 (x) = θ(x) = φ(x) + ψ(x) = f 0 (x) + g 0 (x). (b) Nach §11.Satz 13.(b) ist θ := cφ in x stetig und für alle t ∈ D gilt cf (t) = cf (x) + (t − x)θ(t), d.h. nach Lemma 2 ist cf in x differenzierbar mit (cf )0 (x) = θ(x) = cφ(x) = cf 0 (x). (c) Nach §11.Satz 13.(a,b,c) ist die Funktion θ : D → K; t 7→ φ(t)g(x) + f (x)ψ(t) + (t − x)φ(t)ψ(t) in x stetig, und für alle t ∈ D gilt f (t)g(t) = (f (x) + (t − x)φ(t)) · (g(x) + (t − x)ψ(t)) = f (x)g(x) + (t − x)(φ(t)g(x) + f (x)ψ(t)) + (t − x)2 φ(t)ψ(t) = f (x)g(x) + (t − x)θ(t). Nach Lemma 2 ist f g in x differenzierbar mit (f g)0 (x) = θ(x) = φ(x)g(x)+f (x)ψ(x) = f 0 (x)g(x) + f (x)g 0 (x). e → K mit h(t) = h(y) + (e) Nach Lemma 2 existiert eine in y stetige Funktion θ : D e und es ist θ(y) = h0 (y). Nach §11.Lemma 12.(b) und §11.Satz (t − y)θ(t) für alle t ∈ D 13.(c) ist die Funktion e → K; t 7→ θ(t)φ(h(t)) %:D e ist auch in y stetig und für jedes t ∈ D f (h(t)) = f (x) + (h(t) − x)φ(h(t)) = f (x) + (h(y) + (t − y)θ(t) − x)φ(h(t)) = f (h(y)) + (t − y)θ(t)φ(h(t)) = f (h(y)) + (t − y)%(t). Nach Lemma 2 ist f ◦ h in y differenzierbar mit (f ◦ h)0 (y) = %(y) = θ(y)φ(x) = f 0 (x)h0 (y). (d) Wir haben bereits eingesehen, dass die Funktion h : K\{0} → K; t 7→ 1 t für jedes t ∈ K\{0} differenzierbar mit h0 (t) = −1/t2 ist. Nach (e) ist die Funktion 1/g = h ◦ g in x differenzierbar mit 0 g 0 (x) 1 (x) = (h ◦ g)0 (x) = h0 (g(x)) · g 0 (x) = − . g g(x)2 344 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Nach (c) ist damit auch f /g = f · (1/g) in x differenzierbar mit 0 0 0 1 f 0 (x) 1 f 0 (x) f (x)g 0 (x) f (x) = f · (x) = − f (x) (x) = − g g g(x) g g(x) g(x)2 f 0 (x)g(x) − f (x)g 0 (x) . = g(x)2 Damit ist auch die Quotientenregel bewiesen. Per Induktion folgt mit der Produktregel die Formel für die Ableitung von Funktionen f : K → K; x 7→ xn für jedes n ∈ N, es gilt f 0 (x) = nxn−1 für jedes x ∈ K. Für n = 0 müssen wir die rechte Seite dabei als Null interpretieren, auch wenn x = 0 ist. An dieser Stelle ist es nützlich eine kleine symbolische Schreibweise einzuführen. Es ist gelegentlich lästig einer Funktion wie x 7→ xn extra einen Namen f geben zu müssen, nur um die Ableitung als f 0 (x) hinschreiben zu können. Etwas verkürzend schreibt man daher so etwas wie d n dxn x = = nxn−1 dx dx für diese Ableitung. Das x“ ist hier eine der in §1.1 diskutierten formalen Variablen und ” sollte außerhalb der Formel nicht auftreten. Gelegentlich wenn der Definitionsbereich des angegebenen Terms nicht ganz klar ist, kann man diesen mit einem Satz der Form für x ∈ D“ oder ähnlich, hinzufügen. Will man die Ableitung in einem konkreten ” Punkt a angeben, so schreibt man entsprechend dxn d n x = = nan−1 . dx x=a dx x=a Wenden wir noch die Quotientenregel an, so gilt diese Formel für alle n ∈ Z wenn x 6= 0 ist. Damit können wir weiter die Ableitungen von Polynomen und die Ableitungen rationaler Funktionen berechnen. Um noch mehr Ableitungen berechnen zu können, wollen wir jetzt zeigen, dass Potenzreihen im Inneren ihres Konvergenzkreises differenzierbar sind und das die Ableitung durch gliedweises Differenzieren der Potenzreihe entsteht, d.h. ∞ ∞ X d X n an (z − z0 ) = nan (z − z0 )n−1 , dz n=0 n=1 und ersetzen wir in der rechts stehenden Reihe noch n ≥ 1 durch n + 1 mit n ∈ N, so entsteht die Ableitung in der Form des folgenden Satzes. Satz 12.5 (Ableitungen von P Potenzreihen) n Seien K ∈ {R, C} und f (z) = ∞ n=0 an (z −z0 ) eine Potenzreihe mit Konvergenzradius r > 0. Dann ist f für jedes z ∈ K mit |z − z0 | < r differenzierbar mit f 0 (z) = ∞ X (n + 1)an+1 (z − z0 )n , n=0 345 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 und diese Potenzreihe hat wieder den Konvergenzradius r. √ √ √ √ √ n n n n n Beweis: Für alle n ∈ N mit n ≥ 1 gilt n ≤ n + 1 ≤ 2n = 2 n und wegen √ √ n n ( √n)n≥1 −→ 1 und ( 2)n≥1 −→ 1 ist nach §4.Lemma 6.(c) und §4.Lemma 5.(b) auch ( n n + 1)n≥1 −→ 1. Nach §4.Lemma 12.(c) gilt p p p √ lim sup n |(n + 1)an+1 | = lim n n + 1 · lim sup n |an+1 | = lim sup n |an |, n→∞ n→∞ n→∞ n→∞ P n und nach §11.Satz 7 hat auch die Potenzreihe g(z) := ∞ n=0 (n + 1)an+1 (z − z0 ) den Konvergenzradius r. Wir beweisen die Differenzierbarkeitsaussage zunächst im EntP n wicklungspunkt. Die Potenzreihe φ(z) := ∞ a (z − z ) hat wieder den Konver0 n=0 n+1 genzradius r, und ist nach §11.Satz 17 eine stetige Funktion φ : Br (z0 ) → K. Für jedes z ∈ K mit |z − z0 | < r gilt f (z) = a0 + ∞ X an (z − z0 )n = f (z0 ) + (z − z0 )φ(z), n=1 und nach Lemma 2 ist f in z0 differenzierbar mit f 0 (z0 ) = φ(z0 ) = a1 = g(z0 ). Jetzt sei z1 ∈ K mit |z1 − z0 | < r ein beliebiger Punkt im Konvergenzkreis von f , und setze s := r − |z1 − z0 | > 0. Nach §11.Lemma 8 ist bn := ∞ X n+k n k=0 an+k (z1 − z0 )k P n für jedes n ∈ N absolut konvergent, die Potenzreihe f ∗ (z) := ∞ n=0 bn (z − z1 ) hat ∗ einen Konvergenzradius r ≥ s und für jedes z ∈ K mit |z − z1 | < s gilt f (z) = f ∗ (z). Wie bereits gezeigt ist f ∗ in z1 differenzierbar mit ∞ ∞ X X n+1 ∗ 0 n (f ) (z1 ) = b1 = an+1 (z1 − z0 ) = (n + 1)an+1 (z1 − z0 )n = g(z1 ). 1 n=0 n=0 Nach Lemma 1.(b) ist damit auch f in z1 differenzierbar mit f 0 (z1 ) = (f ∗ )0 (z1 ) = g(z1 ). Dieser Satz ermöglicht uns nun die Ableitungen der Grundfunktionen zu bestimmen. Wenden wir den Satz speziell auf die Exponentialfunktion z e = ∞ X zn n=0 n! an, so ergibt sich die Ableitung ∞ ∞ X X zn dez zn = exp0 (z) = (n + 1) = = ez dz (n + 1)! n! n=0 n=0 346 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 für alle z ∈ C. Damit kann man dann weiter die Ableitungen der Hyperbelfunktionen als d d ez − e−z ez + e−z sinh z = = = cosh z, dz dz 2 2 d ez + e−z ez − e−z d cosh z = = = sinh z, dz dz 2 2 d d sinh z cosh2 z − sinh2 z 1 tanh z = = = = 1 − tanh2 z 2 dz dz cosh z cosh z cosh2 z berechnen. Für die Ableitungen der trigonometrischen Funktionen ergibt sich schließlich d d sin z = (−i sinh(iz)) = −i2 cosh(iz) = cosh(iz) = cos z, dz dz d d cos z = cosh(iz) = i sinh(iz) = − sin z, dz dz d d 1 tan z = (−i tanh(iz)) = = 1 + tan2 z. dz dz cos2 z Die Ableitung des reellen Logarithmus können wir nicht so direkt bestimmen. Dieser ist als Umkehrfunktion der reellen Exponentialfunktion definiert und um derartige Funktionen abzuleiten, brauchen wir noch eine Ableitungsregel für die Ableitung von Umkehrfunktionen. Wir formulieren und beweisen diese Formel nur im reellen Fall da wir im Beweis die Stetigkeit von Umkehrfunktionen verwenden werden. Tatsächlich ist der wörtlich auf den Fall K = C übertragene Satz falsch. Man kann einen entsprechenden Satz auch im komplexen Fall beweisen, allerdings muss man zusätzliche Voraussetzungen an den Definitionsbereich der betrachteten Funktion stellen. Dieses durchzuführen ist zum einen etwas komplizierter und zum anderen gehört es auch nicht mehr zu den Themen dieses Semesters. Wir werden im Rest dieses Kapitels nur noch reelle Funktionen betrachten. Satz 12.6 (Umkehrregel) Seien I, J ⊆ R zwei Intervalle und sei f : I → J eine bijektive stetige Funktion, die im Punkt x ∈ I differenzierbar ist mit f 0 (x) 6= 0. Dann ist auch die Umkehrfunktion f −1 : J → I im Punkt y := f (x) ∈ J differenzierbar mit (f −1 )0 (y) = 1 f 0 (x) = 1 f 0 (f −1 (y)) . Beweis: Wir müssen zeigen, dass der Grenzwert f −1 (u) − f −1 (y) u→y u−y (f −1 )0 (y) = lim existiert und gleich dem angegebenen Wert ist. Hierzu ist es am bequemsten direkt auf die Definition dieses Funktionsgrenzwerts durch Folgen zurückzugehen. Sei also (yn )n∈N 347 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 eine gegen y konvergente Folge in J\{y}. Nach §11.Satz 16.(c) ist die Umkehrfunktion f −1 : J → I stetig, und damit ist (f −1 (yn ))n∈N eine gegen f −1 (y) = x konvergente Folge in I\{x}. Mit den Rechenregeln für Folgengrenzwerte §4.Satz 6.(d) folgt −1 f −1 (yn ) − f −1 (y) f −1 (yn ) − x f (f −1 (yn )) − f (x) lim = lim = lim n→∞ n→∞ f (f −1 (yn )) − f (x) n→∞ yn − y f −1 (yn ) − x −1 −1 f (f −1 (yn )) − f (x) 1 f (u) − f (x) = lim = lim = 0 . −1 n→∞ u→x f (yn ) − x u−x f (x) Dies ergibt 1 f −1 (u) − f −1 (y) = 0 . u→y u−y f (x) (f −1 )0 (y) = lim Die Voraussetzung f 0 (x) 6= 0 ist tatsächlich nötig. Beispielsweise ist die Funktion f : R → R; x 7→ x3 √ stetig, bijektiv und überall differenzierbar, aber die Umkehrfunktion f −1 (x) = 3 x ist in x = 0 nicht differenzierbar. Der Satz ist wegen f 0 (0) = 0 hier auch nicht anwendbar. Ausgerüstet mit der Umkehrregel können wir jetzt die Ableitungen der noch ausstehenden Grundfunktionen berechnen. Wir beginnen dabei mit dem Logarithmus, und erhalten für jedes x > 0 1 1 d ln x = ln x = . dx e x Zusammen mit der Kettenregel ergibt sich hieraus die Ableitung der allgemeinen Potenzfunktion d α d α·ln x α α·ln x x = e = e = αxα−1 dx dx x für alle x, α ∈ R mit x > 0. Dagegen wird die Ableitung der Potenzfunktion nach dem Exponenten für a, x ∈ R mit a > 0 zu d x d ln(a)·x a = e = ln(a)eln(a)·x = ln(a)ax . dx dx Weiter sind wir jetzt auch in der Lage die Ableitungen der Area Funktionen arsinh : R → R (Area Sinus Hyperbolicus) arcosh : [1, ∞) → [0, ∞) (Area Cosinus Hyperbolicus) artanh : (−1, 1) → R (Area Tangens Hyperbolicus) zu berechnen. Wir wissen bereits das der Sinus Hyperbolicus eine bijektive und überall differenzierbare Funktion mit der Ableitung sinh0 x = cosh x ≥ 1 für jedes x ∈ R ist, die Umkehrregel ergibt folglich für jedes x ∈ R d 1 1 1 arsinh x = =q =√ . 2 dx cosh(arsinh x) x +1 1 + sinh2 (arsinh x) 348 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Weiter ist der Cosinus Hyperbolicus als Abbildung von [0, ∞) nach [1, ∞) bijektiv und für jedes x ∈ R mit x > 0 ist auch cosh0 x = sinh x > 0, die Umkehrregel liefert somit für jedes x ∈ R mit x > 1 auch d 1 1 1 . =√ arcosh x = =q 2−1 dx sinh(arcosh x) 2 x cosh (arcosh x) − 1 Schließlich ist der Tangens Hyperbolicus tanh : R → (−1, 1) eine bijektive differenzierbare Abbildung mit tanh0 x = 1 − tanh2 x > 0 für jedes x ∈ R und die Umkehrregel ergibt für jedes x ∈ (−1, 1) auch d 1 1 artanh x = = . 2 dx 1 − x2 1 − tanh (artanh x) Als letzte Ableitungsregel wollen wir noch kurz auf die Ableitungen von aus mehreren Stücken zusammengesetzten Funktionen eingehen. Zunächst können wir dabei die sogenannten links- und rechtsseitigen Ableitungen einer Funktion definieren. Seien also D ⊆ R eine Menge, a ∈ D und f : D → R eine Funktion. Ist dann a ein rechtsseitiger Häufungspunkt von D, so nennen wir f in a rechtsseitig differenzierbar, wenn f |D≥a in a differenzierbar ist, und die Ableitung f+0 (a) := (f |D≥a )0 (a) = lim x↓a f (x) − f (a) x−a heißt die rechtsseitige Ableitung von f in a. Analog wird die linksseitige Ableitung von f in a f (x) − f (a) f−0 (a) := (f |D≤a )0 (a) = lim x↑a x−a einer von links differenzierbaren Funktion im Punkt a definiert, wenn a ein linksseitiger Häufungspunkt von D ist. Ist beispielsweise f : R → R; x 7→ |x| die Betragsfunktion, so existieren die links- und rechtsseitigen Ableitungen von f in 0 und es gelten f−0 (0) = −1 und f+0 (0) = 1. Dagegen ist die Betragsfunktion in 0 nicht differenzierbar, wie zum Beispiel das folgende Lemma zeigt. Lemma 12.7 (Ableitungen stückweise definierter Funktionen) Seien D ⊆ R eine Menge, a ∈ D ein Häufungspunkt von D und f : D → R eine Funktion. Dann ist die Funktion f genau dann in a differenzierbar mit der Ableitung f 0 (a) = b ∈ R wenn die folgenden beiden Bedingungen erfüllt sind: 1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und f ist in a rechtsseitig differenzierbar mit f+0 (a) = b. 2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und f ist in a linksseitig differenzierbar mit f−0 (a) = b. 349 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Beweis: Klar nach §11.Lemma 4. Als ein Beispiel betrachten wir die Funktion f : R → R gegeben durch ( x2 , x ≥ 0, f (x) = x2 H(x) = 0, x ≤ 0 für jedes x ∈ R. Dabei ist H wieder die Heaviside Funktion. Für x < 0 ist f 0 (x) = 0 und für x > 0 haben wir f 0 (x) = 2x. In x = 0 ergeben sich die links- und rechtsseitigen Ableitungen f−0 (0) = 0 und f+0 (0) = 0, also ist f auch in 0 differenzierbar mit f 0 (0) = 0. Insgesamt zeigt diese Rechnung d 2 x H(x) = 2xH(x). dx 12.3 Grundeigenschaften differenzierbarer reeller Funktionen In diesem Abschnitt wollen wir einige der wichtigsten Eigenschaften von auf R definierten, differenzierbaren Funktionen zusammenstellen. Insbesondere werden wir damit die Grundlagen der sogenannten Kurvendiskussion“ legen. Wir beginnen mit einigen ” vorbereitenden Definitionen. Definition 12.2 (Differenzierbarkeit und höhere Differenzierbarkeit) Sei K ∈ {R, C} und sei D ⊆ K eine Teilmenge mit D ⊆ D0 , d.h. jeder Punkt von D ist auch ein Häufungspunkt von D. Dann nennen wir eine Funktion f : D → K differenzierbar in einer Teilmenge M ⊆ D wenn f in jedem Punkt x ∈ M differenzierbar ist. Weiter nennen wir f differenzierbar wenn f in ganz D differenzierbar ist, und in diesem Fall bezeichnen wir die Funktion f 0 : D → K; x 7→ f 0 (x) als die Ableitung von f . Alternativ sagen wir auch, dass die Funktion f einfach differenzierbar ist und schreiben f (1) := f 0 . Die höheren Ableitungen von f werden rekursiv definiert, d.h. ist n ∈ N mit n ≥ 2, so nennen wir f n-fach differenzierbar wenn f (n − 1)-fach differenzierbar ist und die (n − 1)-te Ableitung f (n−1) von f wieder differenzierbar ist. Die n-te Ableitung von f wird dann als f (n) := (f (n−1) )0 definiert. Die Funktion f selbst nennen wir die nullte Ableitung und schreiben f (0) := f . Für jedes n ∈ N nennen wir f n-fach stetig differenzierbar wenn f n-fach differenzierbar ist und die n-te Ableitung f (n) : D → K stetig ist. Schließlich heißt f unendlich oft differenzierbar, wenn f für jedes n ∈ N stets n-fach differenzierbar ist. Nach Lemma 3 ist eine n-fach differenzierbare Funktion für jedes n ≥ 1 auch (n − 1)fach stetig differenzierbar. Insbesondere ist eine unendlich oft differenzierbare Funktion für jedes n ∈ N stets n-fach stetig differenzierbar. Die Bedingung D ⊆ D0 an den Definitionsbereich der betrachteten Funktion f ist für uns unproblematisch, sie ist beispielsweise erfüllt wenn D ein Kreis D = Br (z) in C oder ein Intervall mit mindestens 350 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 zwei Punkten in R ist. Die meisten der in diesem Abschnitt behandelten Aussagen handeln von stetigen Funktionen f : [a, b] → R, die auf dem offenen Intervall (a, b) differenzierbar sind und auch in dieser Situation ist die Bedingung an den Definitionsbereich erfüllt. Dabei sind a, b ∈ R mit a < b gegeben. Für durch Formeln gegebene Funktionen verwendet man auch gelegentlich die Schreibweise dn f (n) (x) = n f (x) dx für die höheren Ableitungen einer Funktion. Eine der Aufgaben bei der sogenannten Kurvendiskussion ist die Bestimmung der lokalen Extrema einer gegebenen Funktion f : [a, b] → R. Wir beschränken uns bei der Definition lokaler Extrema auf den reellen Fall. Definition 12.3 (Lokale Extrema) Seien D ⊆ R und f : D → R eine Funktion. Ein Punkt x ∈ D heißt ein lokales Maximum der Funktion f , wenn es ein > 0 mit (x − , x + ) ⊆ D und f (x) ≥ f (t) für alle t ∈ D mit |t − x| < gibt. Analog heißt x ein lokales Minimum von f wenn es ein > 0 mit (x − , x + ) ⊆ D und f (x) ≤ f (t) für alle t ∈ D mit |t − x| < gibt. Schließlich heißt x ein lokales Extremum von f wenn x ein lokales Maximum oder ein lokales Minimum von f ist. Damit x etwa ein lokales Maximum ist, wird nur gefordert, dass der Funktionswert x maximal unter den f(x) Funktionswerten nahe bei x ist, also für alle Stellen in einem Intervall (x − , x + ) um x. Weiter von x entfernt kann die Funktion durchaus noch größere Werte annehmen. Ein globales Maximum x ∈ [a, b] von f ist x x−ε x x+ ε eine Stelle an der das Maximum der Funktionswerte angenommen wird, also f (x) ≥ f (t) für alle x ∈ [a, b]. Ist x 6= a, b, so ist x dann offenbar auch ein lokales Maximum. Analog gilt dies auch für globale Minima der Funktion. Das folgende Lemma erlaubt in vielen Fällen die Bestimmung aller potentiellen lokalen Extrema einer Funktion f . Lemma 12.8 (Notwendige Bedingung für lokale Extrema) Seien I ⊆ R ein Intervall, f : I → R eine Funktion und a ∈ I ein lokales Extremum von f in dem die Funktion f differenzierbar ist. Dann gilt f 0 (a) = 0. Beweis: Wir zeigen dies wenn a ein lokales Maximum ist, der Fall eines lokalen Minimums ist dann analog. Es gibt ein > 0 mit (a − , a + ) ⊆ I und f (a) ≥ f (x) für alle x ∈ (a − , a + ). Mit Lemma 7 und §11.Lemma 2.(a) folgen f (x) − f (a) ≤ 0, x↓a x−a f (x) − f (a) f 0 (a) = f−0 (a) = lim ≥ 0, x↑a x−a f 0 (a) = f+0 (a) = lim 351 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 es ist also f 0 (a) = 0. Dieses Lemma erlaubt es bereits das Maximum und Minimum der betrachteten Funktion zu berechnen. Angenommen wir haben eine stetige Funktion f : [a, b] → R, die in (a, b) differenzierbar ist. Dann bilden wir die Menge M := {x ∈ (a, b)|f 0 (x) = 0} ∪ {a, b} also alle Nullstellen der Ableitung im Inneren des Intervalls plus die beiden Randpunkte. In vielen Aufgabenstellungen ist die Menge M endlich und sogar recht klein. Der maximale Wert den die Funktion annimmt ist dann m := max f (x) = max f (x), x∈M x∈[a,b] man muss die Funktion also nur an den Punkten aus M auswerten und den größten auftretenden Wert heraussuchen. Weiter ist auch {x ∈ [a, b]|f (x) = m} = {x ∈ M |f (x) = m}, wir finden also auch alle Werte in denen das Maximum angenommen wird, d.h. die globalen Maxima der Funktion. Dies ist leicht zu sehen. Zunächst wissen wir nach §11.Satz 14 das f überhaupt sein Maximum annimmt, es gibt also überhaupt ein globales Maximum von f . Damit muss man nur zeigen, dass jedes globale Maximum von f in der Menge M liegt. Ist x ein globales Maximum, so ist x entweder einer der beiden Randpunkte a, b, und dann ist x ∈ M , oder x ist auch lokales Maximum, und dann ist nach dem eben bewiesenen Lemma f 0 (x) = 0, und wir haben wieder x ∈ M . Beachte das wir nicht wissen müssen welche der Nullstellen der Ableitung lokale Maxima oder überhaupt lokale Extrema sind, das spielt keinerlei Rolle. Für das Minimum der Funktion f kann man analog vorgehen. Wir wollen jetzt ein Beispiel rechnen, und betrachten die Funktion f : [0, 2] → R; x 7→ x3 − 4x2 + 4x − 5. Wir suchen den maximalen und den minimalen Wert von f . Folgen wir dem obigen Verfahren, so berechnen wir zunächst die Ableitung von f f 0 (x) = 3x2 − 8x + 4, und bestimmen ihre Nullstellen 8 4 ! 4 x − x + = 0 =⇒ x = ± 3 3 3 r 2 also x1 = 16 4 4 − = ± 9 3 3 2 und x2 = 2. 3 352 r 4 4 2 = ± , 9 3 3 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Die relevanten Funktionswerte sind also 103 135 2 =− >− = −5. f (0) = −5, f (2) = −5 und f 3 27 27 Also hat f ein globales Maximum in x = 2/3 mit Wert max = −103/27 und ein globales Minimum in x = 0 (und x = 2) mit Wert min = −5. Wir wollen noch ein zweites und etwas komplizierteres Beispiel rechnen. Bisher haben wir uns auf Funktionen beschränkt die auf Intervallen der Form [a, b] definiert sind. In diesem Fall garantiert uns §11.Satz 14 die Existenz von globalen Maximum und Minimum. Man kann natürlich auch andere Intervalle behandeln, benötigt dann aber zusätzliche Argumente. Als ein solches Beispiel wollen wir jetzt das Minimum der Funktion f : R → R; x 7→ 2x − x berechnen, und insbesondere einsehen das es ein solches überhaupt gibt. Hier schauen wir uns als ersten Schritt das Verhalten von f (x) für x gegen ±∞ an. Zunächst ist lim 2x = lim eln(2)x = 0 =⇒ lim (2x − x) = ∞ x→−∞ x→−∞ x→−∞ nach §11.Satz 19.(c) und §11.Satz 5.(a). Etwas komplizierter ist der Grenzwert gegen +∞, da hier sowohl 2x als auch x gegen +∞ konvergieren. Intuitiv ist klar das als Grenzwert +∞ herauskommt, da 2x wesentlich schneller wächst als x. Mit den uns inzwischen zur Verfügung stehenden Hilfsmitteln können wir dies auch leicht formal beweisen, nach §11.Satz 19.(c) gilt x = lim xe− ln(2)x = 0, x→∞ 2x x→∞ lim und insbesondere existiert ein a ∈ R mit x/2x < 1/2 für alle x ∈ R mit x > a. Für jedes x > a ist dann auch 2x > 2x also 2x − x > x und §11.Lemma 2.(b) ergibt lim (2x − x) = ∞. x→∞ Es ist f (0) = 1 und wegen limx→±∞ f (x) = ∞ existiert ein a > 0 mit f (x) ≥ 2 für alle x ∈ R mit |x| > a. Damit folgt inf f (x) = x∈R inf f (x), x∈[−a,a] und auf das Intervall [−a, a] ist unsere obige Überlegung anwendbar. Für jedes x ∈ R gilt jetzt f 0 (x) = ln(2) · 2x − 1, also 1 =⇒ x = log2 f (x) = 0 =⇒ 2 = ln 2 0 x 353 1 ln 2 = ln 1 ln 2 ln 2 =− ln(ln 2) , ln 2 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 und somit hat f sein globales Minimum in x0 = − ln(ln 2)/ ln(2). Der Funktionswert in diesem Punkt ist f (x0 ) = 2x0 − x0 = 1 ln(ln 2) 1 + ln(ln 2) + = . ln 2 ln 2 ln 2 Insgesamt haben wir damit min(2x − x) = x∈R 1 + ln(ln 2) . ln 2 Wir wollen jetzt die Theorie etwas fortsetzen und steuern als nächstes Ergebis den sogenannten Mittelwertsatz an. Bei diesem betrachten wir eine differenzierbare Funktion f : [a, b] → R und schauen uns die Steigung des Geradenstücks an, das die beiden Punkte (a, f (a)) und (b, f (b)) miteinander verbindet. Diese Strecke ist sozusagen eine Sekante an den Graphen der Funktion f . Der Mittelwerta ξ b satz besagt das es zwischen a und b immer einen Punkt ξ gibt so, dass die Steigung der Tangente an den Graphen im Punkt (ξ, f (ξ)) gleich der Sekantensteigung zwischen a und b ist, oder geometrisch formuliert das es zwischen a und b eine zur gegebenen Sekante parallele Tangente an den Graphen gibt. Die Steigung der Tangente bei x = ξ ist dabei die Ableitung f 0 (ξ). Der Mittelwertsatz spielt eine recht kuriose Rolle. Für rechnerische Zwecke und die meisten Anwendungen der Differentialrechnung außerhalb der Mathematik spielt der Mittelwertsatz keinerlei Rolle. Für den Aufbau der Theorie ist der Mittelwertsatz dagegen das Herzstück von allen. Alle weiteren Ergebnisse bauen direkt oder indirekt auf ihm auf, der Mittelwertsatz ist der Dreh- und Angelpunkt aller weiteren Beweise. Um den Mittelwertsatz zu beweisen, behandelt man zuvor einen Spezialfall den sogenannten Satz von Rolle. Satz 12.9 (Satz von Rolle) Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion mit f (a) = f (b) die in (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit f 0 (ξ) = 0. Beweis: Ist f konstant so ist f 0 (ξ) = 0 für jedes ξ ∈ (a, b) und die Behauptung ist klar. Wir können also annehmen, dass f nicht konstant ist. Insbesondere kann nicht gleichzeitig f (a) ≥ f (x) für alle x ∈ [a, b] und f (a) ≤ f (x) für alle x ∈ [a, b] gelten, und wir nehmen zunächst an das es x ∈ [a, b] mit f (a) = f (b) < f (x) gibt. Nach §11.Satz 14 nimmt f in [a, b] sein Maximum an, es gibt also ein ξ ∈ [a, b] mit f (ξ) ≥ f (x) für alle x ∈ [a, b]. Nach unserer Annahme ist ξ 6= a, b, also ist sogar ξ ∈ (a, b). Dann ist ξ auch ein lokales Maximum von f . Da f in ξ differenzierbar ist, ergibt Satz 8 auch f 0 (ξ) = 0. 354 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Damit ist die Aussage bewiesen wenn f in a nicht sein Maximum annimmt. Im anderen Fall nimmt f in a nicht sein Minimum an, und wir können den obigen Beweis analog mit einem globalen Minimum ξ führen. Eigentlich hatten wir den Satz von Rolle schon implizit bei unseren Überlegungen zur Berechnung des globalen Maximums beziehungsweise Minimums erhalten. Aus dem Satz von Rolle wird jetzt der allgemeine Mittelwertsatz folgen. Der Beweis erfolgt im wesentlichen durch Neigen des Kopfes“, der Satz von Rolle deckt den Fall einer waa” gerechten Sekante ab, und der allgemeine Fall wird hierauf durch eine Scherung zurückgeführt. Bei dieser Gelegenheit wollen wir auch noch gleich eine leicht verallgemeinerte Form des Mittelwertsatzes formulieren und beweisen. Satz 12.10 (Mittelwertsatz) Seien a, b ∈ R mit a < b und seien f, g : [a, b] → R zwei stetige Funktion die in (a, b) differenzierbar sind. (a) Es existiert ein ξ ∈ (a, b) mit f 0 (ξ) = f (b) − f (a) . b−a (b) Es existiert ein ξ ∈ (a, b) mit f 0 (ξ) · (g(b) − g(a)) = g 0 (ξ) · (f (b) − f (a)). Beweis: (b) Nach §11.Satz 13.(a,b) und Satz 4.(a,b) ist die Funktion h : [a, b] → R; x 7→ f (x) · (g(b) − g(a)) − g(x) · (f (b) − f (a)) stetig und in (a, b) differenzierbar. Es gelten h(a) = f (a)(g(b) − g(a)) − g(a)(f (b) − f (a)) = f (a)g(b) − g(a)f (b), h(b) = f (b)(g(b) − g(a)) − g(b)(f (b) − f (a)) = g(b)f (a) − f (b)g(a), also ist h(a) = h(b) und nach dem Satz von Rolle Satz 9 existiert ein ξ ∈ (a, b) mit h0 (ξ) = 0. Mit Satz 4.(a,b) folgt f 0 (ξ) · (g(b) − g(a)) − g 0 (ξ) · (f (b) − f (a)) = h0 (ξ) = 0, und dies ergibt die Behauptung. (a) Das Polynom h(x) = x ist auf ganz R stetig und differenzierbar mit h0 (x) = 1 für alle x ∈ R. Nach (b) existiert also ein ξ ∈ (a, b) mit f 0 (ξ) · (b − a) = f 0 (ξ) · (h(b) − h(a)) = h0 (ξ) · (f (b) − f (a)) = f (b) − f (a), 355 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 und hieraus folgt der Mittelwertsatz. Als eine erste Anwendung des Mittelwertsatzes wollen wir die Kennzeichnung monotoner Funktionen durch Ableitungen herleiten. Die vollständige Aussage ist etwas länglich da diverse Fälle zu unterscheiden sind. Da wir diesen Satz nicht nur auf Intervallen der Form [a, b] formulieren wollen, brauchen wir noch einen kleinen zusätzlichen Begriff. Ist I ⊆ R ein Intervall, so nennen wir die Menge I ◦ aller von den Randpunkten von I verschiedenen Elemente von I das Innere von I, d.h. für a, b ∈ R mit a < b sind [a, b]◦ = [a, b)◦ = (a, b]◦ = (a, b)◦ = (a, b) und [a, ∞)◦ = (a, ∞)◦ = (a, ∞), (−∞, a]◦ = (−∞, a)◦ = (−∞, a) sowie {a}◦ = ∅◦ = ∅ und R◦ = R. Korollar 12.11 (Charakterisierung differenzierbarer monotoner Funktionen) Seien I ⊆ R ein Intervall und f : I → R eine stetige, in jedem Punkt von I ◦ differenzierbare Funktion. Dann gelten: (a) Gilt f 0 (x) ≥ 0 für alle x ∈ I ◦ , so ist f monoton steigend. (b) Gilt f 0 (x) ≤ 0 für alle x ∈ I ◦ , so ist f monoton fallend. (c) Ist f monoton steigend so gilt f 0 (x) ≥ 0 für alle x ∈ I ◦ . (d) Ist f monoton fallend so gilt f 0 (x) ≤ 0 für alle x ∈ I ◦ . (e) Gilt f 0 (x) > 0 für alle x ∈ I ◦ , so ist f streng monoton steigend. (f ) Gilt f 0 (x) < 0 für alle x ∈ I ◦ , so ist f streng monoton fallend. Beweis: (a) Seien x, y ∈ I mit x < y gegeben. Dann ist f in jedem Punkt von (x, y) ⊆ I ◦ differenzierbar, also existiert nach dem Mittelwertsatz Satz 10.(a) ein ξ ∈ (x, y) mit f (y) − f (x) = f 0 (ξ)(y − x) ≥ 0, also f (x) ≤ f (y). Damit ist f monoton steigend. (e) Gehen wir wie im Beweis von (a) vor, so haben wir diesmal f (y) − f (x) = f 0 (ξ)(y − x) > 0, also f (x) < f (y). Damit ist f streng monoton steigend. (c) Sei x ∈ I ◦ . Ist y ∈ I\{x}, so gilt im Fall y > x stets f (y) ≥ f (x) also (f (y) − f (x))/(y − x) ≥ 0 und im Fall y < x ist f (y) ≤ f (x) und wir haben ebenfalls (f (y) − f (x))/(y − x) ≥ 0. Nach §11.Lemma 2.(a) ist damit f (y) − f (x) ≥ 0. y→x y−x f 0 (x) = lim 356 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 (b,d,f ) Analog zum monoton steigenden Fall. Man kann die Aussagen (e) und (f) des Korollars noch etwas verbessern, einzelne isolierte Nullstellen der Ableitung können auch noch erlaubt werden. Gibt es etwa x1 , . . . , xn ∈ I so, dass für alle x ∈ I ◦ \{x1 , . . . , xn } stets f 0 (x) > 0 ist, so ist f auch in diesem Fall streng monoton steigend. Diese Behauptung läßt sich leicht durch Betrachtung der Teilintervalle zwischen den Ausnahmepunkten auf (e) zurückführen. Noch allgemeiner reicht es f 0 (x) > 0 für alle x ∈ I ◦ \N zu fordern, wenn N ⊆ I ◦ eine Teilmenge ist, die keine Häufungspunkte in I ◦ hat. Dies nachzuweisen ist eine kleine Übungsaufgabe. In §11.5 hatten wir die analytische Begründung der Grundfunktionen begonnen und mit Hilfe des eben bewiesenen Korollars können wir jetzt die Theorie der trigonometrischen Funktionen noch etwas fortsetzen. In §11.4 hatten wir Sinus und Cosinus über die komplexe Exponentialfunktion als ∞ eix − e−ix X (−1)n 2n+1 sin x = = x , 2i (2n + 1)! n=0 ∞ eix + e−ix X (−1)n 2n cos x = = x 2 (2n)! n=0 eingeführt und auf der Basis dieser Definitionen die verschiedenen Additionstheoreme hergeleitet. Dann hatten wir π als das Doppelte der kleinsten positiven Nullstelle des Cosinus definiert und die Periodizitätseigenschaften der trigonometrischen Funktionen bewiesen. Was wir noch nicht exakt begründet haben sind die Monotonieeigenschaften dieser Funktionen und insbesondere hat unsere Einführung der Arcusfunktionen in §2 damit noch eine Lücke. Dabei bezieht Lücke“ sich nur auf die Begründung über die ” obige Definition, akzeptiert man die geometrischen Definitionen der trigonometrischen Funktionen so liegt hier kein Problem vor. Da π/2 definitionsgemäß die kleinste positive Nullstelle des Cosinus ist, haben wir cos x 6= 0 für alle 0 < x < π/2. Da auch cos 0 = 1 > 0 gilt, liefert der Zwischenwertsatz §11.Satz 15 sogar cos x > 0 für alle 0 ≤ x < π/2. Beachten wir noch cos(−x) = cos(x) für alle x ∈ R, so ist damit cos x > 0 für alle x ∈ (−π/2, π/2). Für x ∈ (−π/2, π/2) ist somit auch d sin x = cos x > 0, dx d.h. der Sinus ist auf dem Intervall [−π/2, π/2] streng monoton steigend. Insbesondere ist sin(π/2) > sin 0 = 0 und wegen 1 = sin2 (π/2) + cos2 (π/2) = sin2 (π/2) ist damit π π π sin = 1 und sin − = − sin = −1. 2 2 2 Folglich ist sin : [−π/2, π/2] → [−1, 1] bijektiv und der Arcussinus h π πi arcsin : [−1, 1] → − , 2 2 357 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 ist exakt begründet und stetig. Da für jedes x ∈ (−π/2, π/2) stets sin0 x = cos x > 0 gilt, ist der Arcussinus nach der Umkehrregel Satz 6 für alle x ∈ (−1, 1) differenzierbar mit 1 1 d 1 √ arcsin x = =p = . dx cos(arcsin x) 1 − x2 1 − sin2 (arcsin x) Den Arcuscosinus können wir auf den Arcussinus zurückführen. Für alle x ∈ R ergibt das Additionstheorem des Cosinus π π π cos x + = cos x cos − sin x sin = − sin x, 2 2 2 also auch π cos x = − sin x − . 2 Damit ist der Cosinus auf [0, π] streng monoton fallend und wegen cos π = −1 ist cos : [0, π] → [−1, 1] bijektiv und auch der Arcuscosinus arccos : [−1, 1] → [0, π] ist exakt eingeführt und stetig. Unsere Formel liefert auch arccos x = π − arcsin x 2 für alle x ∈ [−1, 1] und damit ist der Arcuscosinus für alle x ∈ (−1, 1) differenzierbar mit 1 d arccos x = − √ . dx 1 − x2 Wir hatten bereits gesehen das der Cosinus auf [0, π] streng monoton fallend ist und wegen cos(−x) = cos x für alle x ∈ R ist der Cosinus auf [−π, 0] dagegen streng monoton steigend. Für π/2 < x < π ist nun cos x < cos(π/2) = 0, also auch d sin x = cos x < 0 dx und der Sinus ist auf [π/2, π] streng monoton fallend. Wegen sin(−x) = − sin x für alle x ∈ R ist er auf [−π, −π/2] dann ebenfalls streng monoton fallend. Für π/2 ≤ x < π ist sin x > sin π = 0 und für −π < x < −π/2 haben wir sin x < 0 und cos x < 0. Damit haben wir das Monotonieverhalten von Sinus und Cosinus zwischen −π und π geklärt, und da beide Funktionen die Periode 2π haben kennen wir ihr Verhalten auf ganz R. Im nächsten Schritt lassen sich dann die Nullstellen von Sinus und Cosinus bestimmen. Für 0 ≤ x < π wissen wir bereits das genau dann sin x = 0 gilt wenn x = 0 ist. Ist jetzt x ∈ R beliebig, so schreibe x = nπ + y mit n ∈ Z und y ∈ [0, π) und erhalte sin x = sin(nπ + y) = (−1)n sin y, also ist genau dann sin x = 0 wenn sin y = 0 ist und dies ist zu y = 0 also x = nπ gleichwertig. Damit haben wir {x ∈ R| sin x = 0} = {nπ|n ∈ Z} =: Zπ. 358 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Weiter ist cos x = − sin(x − π/2), also haben wir genau dann cos x = 0 wenn x − π/2 = nπ für ein n ∈ Z ist, d.h. nπ o π {x ∈ R| cos x = 0} = + nπ n ∈ Z =: + Zπ. 2 2 Insbesondere haben wir damit die Definitionsbereiche der reellen Tangens- und Cotangensfunktionen bestimmt. Auch die Begründung des Arcustangens ist jetzt gut möglich. Zunächst gilt für alle x ∈ (−π/2, π/2) d tan x = 1 + tan2 x ≥ 1 > 0, dx der Tangens ist also auf (−π/2, π/2) streng monoton steigend. Wegen cos x > 0 für alle x ∈ (−π/2, π/2) und limπ cos x = cos x→ 2 π π = 0 und limπ sin x = sin = 1 ist limπ tan x = ∞ x→ 2 x→ 2 2 2 und analog limx→−π/2 tan x = −∞. Damit ist tan : (−π/2, π/2) → R bijektiv und wir haben den stetigen Arcustangens π π . arctan : R → − , 2 2 Die Umkehrregel Satz 6 ergibt das der Arcustanges differenzierbar mit 1 1 d arctan x = = 2 dx 1 + tan (arctan x) 1 + x2 für alle x ∈ R ist. Mit diesen Ergebnissen können wir jetzt auch die in §3.3 angegebenen speziellen Werte der trigonometrischen Funktionen exakt herleiten. Mit der Verdopplungsformel cos(2x) = 2 cos2 x − 1 erhalten wir π π π 0 = cos = cos 2 · = 2 cos2 − 1, 2 4 4 also sind π 1 π π 1 = und sin2 = 1 − cos2 = . 4 2 4 4 2 Wegen π/4 ∈ (0, π/2) wissen wir auch sin(π/4) > 0 und cos(π/4) > 0, also wird cos2 sin π π 1 = cos = √ . 4 4 2 Die Werte von Sinus und Cosinus bei x = π/3 und x = π/6 berechnen wir gemeinsam. Zunächst ergibt das Additionstheorem des Cosinus π π π π π π π π cos = cos − = cos cos + sin sin = sin , 6 2 3 2 3 2 3 3 359 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 und mit der Verdopplungsformel sin(2x) = 2 sin x cos x des Sinus folgt weiter π π π π π cos = sin = sin 2 · = 2 sin cos . 6 3 6 6 6 Andererseits ist wegen π/6 ∈ (0, π/2) auch cos(π/6) > 0, also insbesondere cos(π/6) 6= 0 und somit wird √ r π 3 1 π 2 π = . sin = und cos = 1 − sin 6 2 6 6 2 Nun ist auch π/3 ∈ (0, π/2), also cos(π/3) > 0 und es ergeben sich √ r π 3 π π 1 π und cos = 1 − sin2 = . sin = cos = 3 6 2 3 3 2 Für die Werte des Tangens ergeben sich √ π 1 π √ π 3 . tan = 3, tan = 1 und tan = √ = 3 4 6 3 3 Die Berechnung der trigonometrischen Funktionen bei x = π/5 ist etwas komplizierter. Hier ist es bequem mit t := tan(π/5) zu beginnen. Für jedes x ∈ R mit cos(x) 6= 0 und cos(2x) 6= 0 ergibt sich mit den Verdopplungsformeln für Sinus und Cosinus tan(2x) = sin(2x) 2 sin x cos x 2 tan x = = 2 cos(2x) 1 − tan2 x cos2 x − sin x und ist zusätzlich cos(4x) 6= 0 so auch tan(4x) = 2 tan(2x) 4 tan x(1 − tan2 x) . = 1 − tan2 (2x) (1 − tan2 x)2 − 4 tan2 x Wenden wir diese Formel mit x = π/5 an so haben wir π π 4t(1 − t2 ) −t = tan π − = tan 4 · = 5 5 (1 − t2 )2 − 4t2 also wegen t > 0 4(1 − t2 ) (1 − t2 )2 + 4(1 − t2 ) − 4t2 t4 − 10t2 + 5 = = , (1 − t2 )2 − 4t2 (1 − t2 )2 − 4t2 (1 − t2 )2 − 4t2 √ √ beziehungsweise t4 − 10t2 + 5 = 0. Dies liefert t2 = 5 ± 20 = 5 ± 2 5 und wegen q √ √ π 2 2 π 2 π 2 t = tan < tan = 1 sogar t = 5 − 2 5 und tan = 5 − 2 5. 5 4 5 0=1+ 360 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Für den Cosinus folgt π 1 cos2 = 5 1 + tan2 π 5 √ √ 1 3+ 5 5+2 5+1 √ = = = = 8 16 2(3 − 5) d.h. √ !2 1+ 5 4 √ π 1+ 5 . cos = 5 4 Schließlich ist √ √ q √ π 3+ 5 5− 5 π 1 2 π 2(5 − 5). sin = 1 − cos =1− = und sin = 5 5 8 8 5 4 2 Zum Abschluß dieser Überlegungen wollen wir unsere Abschätzung für π noch etwas verbessern, aus §11.5 wissen wir das 14/5 <√π < 16/5, also 2, 8 < π < 3, 2, ist. Dies hatten wir aus der für alle x ∈ R mit |x| ≤ 2 3 gültigen Abschätzung cos x ≥ 1 − x2 2 √ hergeleitet. Speziell mit x = π/6 < 8/15 < 2 3 wird √ π π2 3 = cos ≥ 1 − , 2 6 72 d.h. v u u π ≥ t72 · s √ √ ! √ q √ √ √ 3 ( 6 − 2)2 1− =6 2− 3=6 = 3( 6 − 2) ≈ 3, 1058. 2 4 Dies gibt uns also π > 3, 1, und wollen wir dies ohne Einsatz einer Näherung nachweisen, so rechnen wir etwa √ √ (50 2)2 = 5000 < 5041 = 712 und (20 6)2 = 2400 < 2401 = 492 also √ √ 71 49 sowie 6 < 50 20 und wegen 129 · 31 = 3999 < 4000 = 40 · 100 ist 129/100 < 40/31 also auch 387/100 < 120/31 und folglich √ √ 49 71 387 120 6+ 2< + = < 20 50 100 31 sowie √ √ 4 31 √ > 6− 2= √ 30 6+ 2 2< 361 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 und es folgt √ √ 31 π ≥ 3( 6 − 2) > . 10 Insgesamt haben wir damit 31/10 < π < 32/10, beziehungsweise 3, 1 < π < 3, 2 bewiesen. Wir werden das Korollar 11 nun verwenden eine weitere Grundtatsache herzuleiten, die Kennzeichnung lokaler Maxima und Minima über die zweite Ableitung. Wir wissen bereits aus Satz 8 das die Ableitung einer differenzierbaren Funktion in einem lokalen Extremum stets Null ist, aber umgekehrt muss eine Nullstelle der Ableitung nicht unbedingt ein lokales Extremum sein. Ist die Funktion sogar zweimal differenzierbar, so werden wir zeigen das aus f 0 (x) = 0 und f 00 (x) 6= 0 folgt das die Funktion im Punkt x ein lokales Extremum hat. Etwas genauer liegt ein lokales Maximum vor wenn die zweite Ableitung in x negativ ist und ein lokales Minimum wenn sie positiv ist. Korollar 12.12 (Hinreichende Bedingung für lokale Extrema) Seien a, b ∈ R mit a < b und f : [a, b] → R sei in (a, b) differenzierbar. Weiter sei x ∈ (a, b) mit f 0 (x) = 0 und f sei in x zweifach differenzierbar mit f 00 (x) 6= 0. Dann hat f in x ein lokales Extremum. Genauer hat f in x ein lokales Minimum wenn f 00 (x) > 0 ist und ein lokales Maximum wenn f 00 (x) < 0 ist. Beweis: Wir betrachten den Fall f 00 (x) > 0, der Beweis des anderen Falls ist dann analog. Nach Lemma 2 existiert eine in x stetige Funktion φ : [a, b] → R mit f 0 (y) = f 0 (x) + (y − x)φ(y) = (y − x)φ(y) für alle y ∈ [a, b], und es ist φ(x) = f 00 (x) > 0. Nach §11.Lemma 9 existiert ein > 0 mit [x − , x + ] ⊆ (a, b) und |φ(y) − f 00 (x)| < f 00 (x)/2 für alle y ∈ [a, b] mit |y − x| < . Für jedes y ∈ [a, b] mit |y − x| < ist damit φ(y) = f 00 (x) + φ(y) − f 00 (x) ≥ f 00 (x) − |φ(y) − f 00 (x)| > f 00 (x) > 0, 2 und folglich ist auch sign(f 0 (y)) = sign(y − x). Für jedes y ∈ (x − , x) ist damit f 0 (y) < 0 und für y ∈ (x, x + ) haben wir f 0 (y) > 0. Nach Korollar 11.(e,f) sind f |[x − , x] streng monoton fallend und f |[x, x + ] streng monoton steigend. Ist also y ∈ [a, b] mit |y − x| < , so ist im Fall y ≤ x stets f (y) ≥ f (x) und im Fall y ≥ x haben wir ebenfalls f (x) ≤ f (y). Dies zeigt, dass f in x ein lokales Minimum hat. Man sollte die praktische Bedeutung dieses Korollars nicht überschätzen. Welche der Nullstellen von f 0 lokale Maxima beziehungsweise lokale Minima sind, ist in den meisten Fällen sowieso klar. Ist beispielsweise x1 kleinste Nullstelle von f 0 und limx→−∞ f (x) = +∞, so kann f in x1 nur ein lokales Minimum oder gar kein lokales Extremum haben. Kennen wir dann auch die zweitkleinste Nullstelle x2 von f 0 , so müssen wir nur die Werte f (x1 ) und f (x2 ) vergleichen. Ist f (x2 ) < f (x1 ), so hatte f in x1 kein lokales 362 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Extremum, und in x2 ist entweder auch kein lokales Extremum oder ein lokales Minimum. Ist dagegen f (x2 ) > f (x1 ), so hatte f in x1 ein lokales Minimum und in x2 ist entweder ein lokales Maximum oder gar kein lokales Extremum. Mit Überlegungen dieser Art lassen sich die meisten in Aufgaben vorkommenden Funktionen behandeln, d.h. man kommt in der Regel alleine mit dem Vergleichen von Funktionswerten durch und benötigt keine zweite Ableitung. Sucht man nach den globalen Minima und Maxima, so ist es wie bereits früher bemerkt völlig egal welche der Nullstellen von f 0 lokale Extrema sind. Zusammengefasst stellt man sich meistens ungeschickt an, wenn man sich beim Berechnen der zweiten Ableitung ertappt. 12.4 Die Regel von Hospital Die sogenannten Hospitalschen Regeln sind Formeln zur Berechnung von Funktionsgrenzwerten unter Verwendung gewisser Ableitungen. Diese gehen ursprünglich auf einen Brief von Hospital an Johann Bernoulli aus dem Jahr 1693 zurück, dort fragt Hospital nach einer Berechnung des Grenzwerts √ lim x→a √ 3 2a3 x − x4 − a a2 x √ 4 a − ax3 für reelles a > 0. In seiner Antwort entwickelt Bernoulli die Hospitalschen Regeln, die dann später von Hospital in ein Lehrbuch zur Analysis aufgenommen wurden. Es handelt sich eigentlich um zwei verschiedene Regeln, einmal für Grenzwerte der Form 0/0“, und ein anderes Mal für Grenzwerte der Form ∞/∞“. Im obigen Problem ” ” können wir die Grenzwerte von Zähler und Nenner leicht berechnen lim √ x→a √ √ 3 4 2a3 x − x4 − a a2 x = a2 − a2 = 0 und lim a − a3 x = a − a = 0, x→a da wir bereits die Stetigkeit von Wurzelfunktionen bewiesen haben, und damit liegt ein 0/0“-Problem vor. ” Am häufigsten angewandt wird ein trivialer Spezialfall der Hospitalschen Regeln, mit dem wir hier auch beginnen wollen. Als ein konkretes Beispiel wollen wir den Grenzwert limn→∞ (1 + x/n)n für beliebiges x ∈ R berechnen. Für x = 1 hatten wir diesen Grenzwert in §4.1 als Definition von e verwendet, und die Fälle x = 2 und x = −1 wurden bereits in Übungsaufgaben behandelt. Für x = 0 ist die betrachtete Folge konstant gleich Eins, und auch der Grenzwert ist damit 1, wir können also x 6= 0 annehmen. Wir bestimmen zunächst den Grenzwert des Logarithmus unserer Folge als lim ln n→∞ h ln 1 + nx − ln(1) x n i x 1+ = lim n ln 1 + = lim x · x n→∞ n→∞ n n n ln(1 + h) − ln(1) = x · lim =x h→0 h 363 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 da es sich um einen Differenzenquotienten der Ableitung des Logarithmus in 1 handelt. Mit der Stetigkeit der Exponentialfunktion folgt weiter h x n x n i lim 1 + = exp lim ln 1 + = exp(x) = ex . n→∞ n→∞ n n Für x = 0 gilt diese Formel ebenfalls. Die eigentliche Grundidee der Hospitalschen Regel haben wir damit schon gesehen, der Grenzwert wurde berechnet, indem wir ihn als Grenzwert eines Differenzenquotienten interpretiert haben. Etwas allgemeiner kann man die folgende Situation betrachten. Gegeben seien zwei auf dem Intervall I definierte, differenzierbare Funktionen f, g : I → R, und wir haben einen Punkt a ∈ I mit f (a) = g(a) = 0 und g 0 (a) 6= 0. Dann berechnen wir den Grenzwert limx→a f (x)/g(x) indem wir ihn als einen Quotienten zweier Differenzenquotienten auffassen h i (a) f (x)−f (a) lim f (x)−f x−a x−a f (x) f 0 (a) x→a h i lim = 0 . = lim = x→a g(x) x→a g(x)−g(a) g (a) lim g(x)−g(a) x−a x→a x−a Wie man sieht ist dies eigentlich keine neue Aussage, sondern nur die Definition der Ableitung. Ein beliebtes, wenn auch eigentlich ziemlich unsinniges, Beispiel ist der Grenzwert sin x = 1. lim x→0 x Die Rechnung über die Hospitalsche Regel wäre sin x sin0 x = lim = cos 0 = 1. x→0 x x→0 1 lim Einfacher kann man auch sagen, dass dieser Grenzwert gerade der Grenzwert des Differenzenquotienten für sin x bei 0 ist, also gleich sin0 0 = cos 0 = 1 sein muss. Die nicht triviale Hospitalsche Regel wird erstaunlich selten wirklich benötigt, in dieser wird auch noch der Fall erfasst das die Ableitungen von Zähler und Nenner in a gar nicht existieren sowie die Situation von Grenzwerten der Form ∞/∞“. ” Satz 12.13 (Die Hospitalschen Regeln) Seien a, b ∈ R mit a < b und seien f, g : (a, b) → R zwei differenzierbare Funktionen mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ (a, b). Weiter nehme an, dass in R die beiden Grenzwerte lim f (x) und lim g(x) existieren und das x→a x→a lim f (x) = lim g(x) = 0 oder lim f (x), lim g(x) ∈ {−∞, +∞} x→a x→a x→a x→a gelten. Existiert dann der Grenzwert limx→a f 0 (x)/g 0 (x) in R, so ist auch f (x) f 0 (x) = lim 0 . x→a g(x) x→a g (x) lim 364 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Beweis: Wir schreiben c := limx→a f 0 (x)/g 0 (x) ∈ R. Zunächst sei limx→a f (x) = limx→a g(x) = 0. Durch f (a) := 0 und g(a) := 0 können wir f und g zu, der Einfachheit halber wieder mit f und g bezeichneten, stetigen Funktionen auf [a, b) fortsetzen. Sei (xn )n∈N eine Folge in (a, b) mit (xn )n∈N −→ a. Sei n ∈ N. Nach Satz 10.(b) existiert ein ξn ∈ (a, xn ) mit f 0 (ξn ) · g(xn ) = f 0 (ξn ) · (g(xn ) − g(a)) = g 0 (ξn ) · (f (xn ) − f (a)) = g 0 (ξn ) · f (xn ), also ist wegen g(xn ) 6= 0 und g 0 (ξn ) 6= 0 auch f 0 (ξn ) f (xn ) = 0 . g(xn ) g (ξn ) Wegen a < ξn < xn für alle n ∈ N gilt nach dem Einschnürungslemma §4.Lemma 5.(b) auch (ξn )n∈N −→ a. Es folgt f (xn ) f 0 (ξn ) f 0 (x) = lim 0 = lim 0 = c. n→∞ g(xn ) n→∞ g (ξn ) x→a g (x) lim Dies zeigt limx→a f (x)/g(x) = c, und die Aussage ist in diesem Fall bewiesen. Nun kommen wir zum Fall limx→a f (x), limx→a g(x) ∈ {−∞, +∞}. Durch eventuellen Übergang von f zu −f beziehungsweise von g zu −g können wir limx→∞ f (x) = limx→∞ g(x) = ∞ annehmen. Sei (xn )n∈N wieder eine gegen a konvergente Folge in (a, b). Dann ist limn→∞ f (xn ) = limn→∞ g(xn ) = ∞. Wir behaupten zunächst, dass es ein n0 ∈ N und eine gegen a konvergente Folge (bn )n≥n0 in (a, b) mit bn > xn und f (xn ) > f (bn ) > 0, g(xn ) > g(bn ) > 0 für alle n ≥ n0 und f (bn ) g(bn ) = lim =0 n→∞ f (xn ) n→∞ g(xn ) lim gibt. Zunächst wähle ein m0 ∈ N mit f (xn ), g(xn ) > 0 für alle n ≥ m0 . Nun sei k ≥ 1 und mk−1 ∈ N sei schon gewählt. Dann existiert ein mk ∈ N mit mk > mk−1 , xn < xmk−1 für alle n ≥ mk und f (xn ) > kf (xmk−1 ), g(xn ) > kg(xmk−1 ) für alle n ≥ mk . Damit haben wir induktiv eine streng monoton steigende Folge (mk )k∈N in N definiert. Setze n0 := m1 ∈ N und definiere die Folge (bn )n≥n0 wie folgt: Ist n ∈ N mit n ≥ n0 = m1 , so existiert ein k ≥ 1 mit mk ≤ n < mk+1 und wir setzen bn := xmk−1 ∈ (a, b). Wir zeigen nun, dass diese Folge alle verlangten Eigenschaften hat. Sei n ∈ N mit n ≥ n0 und sei k ≥ 1 mit mk ≤ n < mk+1 . Wegen n ≥ mk > mk−1 ≥ m0 sind f (xn ) > kf (xmk−1 ) ≥ f (xmk−1 ) = f (bn ) > 0 und g(xn ) > kg(xmk−1 ) ≥ g(xmk−1 ) = g(bn ) > 0. Außerdem ist xn < xmk−1 = bn . Wir kommen nun zu den Konvergenzbehauptungen, zunächst zeigen wir das die Folge (bn )n≥n0 gegen a konvergiert. Sei > 0. Dann existiert ein n1 ∈ N mit a < xn < a + für alle n ≥ n1 . Sei nun n ∈ N mit n ≥ mn1 +1 . Dann existiert ein k ≥ n1 + 1 mit mk ≤ n < mk+1 und wegen mk−1 ≥ mn1 ≥ n1 ist |bn − a| = |xmk−1 − a| < . Damit haben wir (bn )n≥n0 −→ a eingesehen. Es verbleiben nur noch die beiden Aussagen über die Quotientenfolgen. Sei wieder ein > 0 gegeben. Dann 365 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 existiert ein k0 ≥ 1 mit 1/k0 < . Sei n ∈ N mit n ≥ mk0 . Dann existiert ein k ≥ k0 mit mk ≤ n < mk+1 und wegen f (xn ) > kf (xmk−1 ) = kf (bn ), g(xn ) > kg(xmk−1 ) = kg(bn ) sowie f (xn ), g(xn ), f (bn ), g(bn ) > 0 folgen auch 0< 1 1 g(bn ) 1 1 f (bn ) < ≤ < und 0 < < ≤ < , f (xn ) k k0 g(xn ) k k0 und auch diese Konvergenzaussagen sind bewiesen. Damit haben wir diese Zwischenbehauptung eingesehen, und kommen zur eigentlichen Aussage. Nach Satz 10.(b) existiert für jedes n ≥ n0 ein ξn ∈ (xn , bn ) mit f 0 (ξn ) · (g(xn ) − g(bn )) = g 0 (ξn ) · (f (xn ) − f (bn )). Wegen g(xn ) − g(bn ) > 0 und g 0 (ξn ) 6= 0 ist damit f 0 (ξn ) f (xn ) − f (bn ) = 0 . g(xn ) − g(bn ) g (ξn ) Für jedes n ≥ n0 ist wegen f (xn ) > f (bn ) > 0 f (xn ) − f (bn ) f (xn ) g(xn ) − g(bn ) f (xn ) = · · g(xn ) g(xn ) − g(bn ) f (xn ) − f (bn ) g(xn ) f 0 (ξn ) g(bn ) 1 = 0 · 1− · . g (ξn ) 1 − f (bn ) g(xn ) f (xn ) Wegen xn < ξn < bn für alle n ≥ n0 gilt nach dem Einschnürungslemma §4.Lemma 5.(b) auch (ξn )n≥n0 −→ a. Mit den Grenzwertsätzen für Folgen §4.Satz 6 folgt f (xn ) f 0 (ξn ) g(bn ) f 0 (x) 1 · 1 − lim lim = lim 0 = lim = c. · n→∞ g(xn ) n→∞ g(xn ) n→∞ g (ξn ) x→a g 0 (x) 1 − lim f (bn ) n→∞ f (xn ) Dies zeigt limx→a f (x)/g(x) = c, und die Aussage ist auch in diesem Fall bewiesen. Wir haben die Regel hier nur für rechtsseitige Grenzwerte x → a von auf (a, b) definierten Funktionen formuliert, analog gilt dies dann natürlich auch für linksseitige Grenzwerte x → b, und auch für beidseitige Grenzwerte x → c mit c ∈ (a, b). Für letzteres müssen wir uns nur auf §11.Lemma 4 berufen. Im ursprünglichen Anwendungsfall haben wir √ d √ 3 a3 − 2x3 a3 3 ( 2a x − x4 − a a2 x) = √ − √ , dx 2a3 x − x4 3 3 a4 x2 √ 3ax2 d 4 (a − ax3 ) = − √ . 4 dx 4 a3 x 9 366 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Für x → a konvergieren die Ableitung des Zählers gegen −a − a/3 = −4a/3 und die Ableitung des Nenners gegen −3/4, nach der Hospitalschen Regel gilt also √ √ 3 − 43 a 16 2a3 x − x4 − a a2 x √ lim = = a. 3 4 3 x→a 9 −4 a − ax Wir wollen noch ein zweites Beispiel rechnen in dem Satz 13 gleich doppelt angewandt wird 1 1 x − sin x 1 − cos x sin x lim − = lim = lim = lim = 0. x→0 x→0 x sin x x→0 sin x + x cos x x→0 2 cos x − x sin x sin x x Streng genommen, ist diese Rechnung so falsch, da wir mit einem Grenzwert beginnen von dem wir noch nicht wissen das er überhaupt existiert. Dies ist allerdings so verbreitet das wir uns dieser Unsitte hier anschließen wollen, man muss sich immer nur dazudenken das diese Gleichungskette eigentlich von rechts nach links zu lesen ist. Wir wollen auch noch ein Beispiel für die ∞/∞“ Situation rechnen ” ln x x−1 = lim (−x) = 0. lim x ln x = lim −1 = lim x→0 −x−2 x→0 x→0 x→0 x Als nächste Aufgabe wollen wir die Hospitalsche Regel auch auf Grenzwerte x → ∞ ausdehnen. Zu diesem Zweck führen wir derartige Grenzwerte auf den schon behandelten Grenzwerttyp zurück, indem x durch 1/x ersetzt wird. Hierfür benötigen wir ein kleines Lemma, das derartige Umparametrisierungen von Grenzwerten untersucht. Dabei sind wir nicht an die Substitution von 1/x gebunden, sondern können je nach den aktuellen Erfordernissen auch andere Funktionen h(x) substituieren. Eine analoge Aussage gilt natürlich auch für Grenzwerte gegen −∞. Lemma 12.14 (Umparametrisierung von Funktionsgrenzwerten in ∞) Seien a, b, c ∈ R mit a < b und weiter sei h : (a, b] → R eine stetige Funktion mit limx→a h(x) = +∞ und h(x) > c für alle x ∈ (a, b]. Weiter seien f : (c, ∞) → R eine Funktion und m ∈ R. Dann gilt lim f (x) = m ⇐⇒ lim f (h(x)) = m. x→∞ x→a Beweis: ”=⇒” Sei (xn )n∈N eine gegen a konvergente Folge in (a, b]. Dann ist lim h(xn ) = lim h(x) = +∞, n→∞ x→a also auch lim f (h(xn )) = lim f (x) = m. n→∞ x→∞ ”⇐=” Wegen limx→a h(x) = +∞ und da das Bild h((a, b]) ⊆ R nach §11.Lemma 16.(a) ein Intervall ist, gilt [h(b), ∞) ⊆ h((a, b]). Sei jetzt (xn )n∈N eine Folge in (c, ∞) 367 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 mit (xn )n∈N −→ +∞. Dann existiert ein n0 ∈ N mit xn > h(b) für alle n ∈ N mit n ≥ n0 , d.h. für jedes n ≥ n0 existiert ein tn ∈ (a, b] mit xn = h(tn ). Wir behaupten, dass die Folge (tn )n≥n0 gegen a konvergiert. Angenommen (tn )n≥n0 konvergiert nicht gegen a. Nach §4.Lemma 1.(c) existieren ein > 0 und eine Teilfolge (tnk )k∈N von (tn )n≥n0 mit |tnk − a| ≥ für alle k ∈ N. Für alle k ∈ N ist dann a + ≤ tnk ≤ b, und nach dem Satz von Heine Borel §4.Satz 13 existiert eine konvergente Teilfolge (tnkl )l∈N von (tnk )k∈N . Für den Grenzwert t dieser Teilfolge gilt dann nach §4.Lemma 5.(a) auch a + ≤ t ≤ b, und die Stetigkeit von h liefert den Widerspruch h(t) = lim h(tnkl ) = lim xnkl = lim xn = +∞. l→∞ l→∞ n→∞ Dies zeigt (tn )n≥n0 −→ a, und somit gilt auch lim f (xn ) = lim f (h(tn )) = lim f (h(x)) = m. n→∞ n→∞ x→a Damit ist dieses Lemma bewiesen. Ausgerüstet mit diesem Lemma ist es leicht, die Hospitalsche Regel auch für Grenzwerte x → ±∞ zu beweisen. Wir formulieren und beweisen den folgenden Satz nur für Grenzwerte gegen +∞, aber für Grenzwerte gegen −∞ gilt natürlich die analoge Aussage. Satz 12.15 (Regel von Hospital für x → ∞) Sei a ∈ R und seien f, g : [a, ∞) → R zwei differenzierbare Funktionen mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ [a, ∞). Weiter nehme an, dass in R die beiden Grenzwerte lim f (x) und lim g(x) existieren und das x→∞ x→∞ lim f (x) = lim g(x) = 0 oder lim f (x), lim g(x) ∈ {−∞, +∞} x→∞ x→∞ x→∞ x→∞ gelten. Existiert dann der Grenzwert limx→∞ f 0 (x)/g 0 (x) in R, so ist auch f (x) f 0 (x) = lim 0 . x→∞ g(x) x→∞ g (x) lim Beweis: Durch eventuelles Vergrößern von a können wir a > 0 annehmen. Die Funktion 1 1 h : 0, → [a, ∞); x 7→ a x ist differenzierbar mit limx→0 h(x) = +∞, und wir betrachten die beiden differenzierbaren Funktionen F := f ◦h : (0, 1/a] → R und G := g ◦h : (0, 1/a] → R. Nach Lemma 14 gelten limx→0 F (x) = limx→∞ f (x) und limx→0 G(x) = limx→∞ g(x). Weiter ist für alle x ∈ (0, 1/a) nach der Kettenregel Satz 4.(e) auch 1 0 1 1 0 1 0 0 F (x) = − 2 f und G (x) = − 2 g x x x x 368 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 also insbesondere G(x) 6= 0 und G0 (x) 6= 0 für alle x ∈ (0, 1/a). Wieder nach Lemma 14 ist auch f 0 x1 − x12 f 0 x1 f 0 (x) F 0 (x) = lim 0 1 = lim 1 0 1 = lim 0 , m := lim 0 x→0 g x→0 − 2 g x→0 G (x) x→∞ g (x) x x x und nach Satz 13 ist damit auch lim x→0 F (x) = m. G(x) Eine erneute Anwendung von Lemma 14 liefert schließlich F (x) f (x) = lim = m. x→0 G(x) x→∞ g(x) lim Auch hierfür wollen wir ein kleines, in der Vorlesung leider weggelassenes, Beispiel besprechen. Sei a ∈ R mit a > 0. Dann haben wir 1 1 ln x x = lim = lim = 0. lim x→∞ axa−1 x→∞ axa x→∞ xa Die Voraussetzungen g(x) 6= 0, g 0 (x) 6= 0 in den Hospitalschen Regeln sind tatsächlich wichtig. Dies wurde in der Vorlesung nur mündlich erwähnt, hier wollen auch ein Beispiel angeben. Nehmen wir etwa die Funktionen f (x) = x + cos(x) sin(x), g(x) = esin x f (x), so ist limx→∞ f (x) = limx→∞ g(x) = +∞, jeweils da Sinus und Cosinus nur Werte zwischen −1 und 1 annehmen, und der Grenzwert von f (x)/g(x) = e− sin x für x → ∞ existiert nicht. Dagegen haben wir f 0 (x) = 1 + cos2 x − sin2 x = 2 cos2 x und g 0 (x) = cos(x)esin x f (x) + esin x f 0 (x) = esin x (x cos x + sin(x) cos2 x + 2 cos2 x) = esin x cos(x) · (x + sin(x) cos(x) + 2 cos x), also ist f 0 (x) 2 cos x 1 lim = lim · = 0. x→∞ g 0 (x) x→∞ esin x x + sin(x) cos(x) + 2 cos x 369 Mathematik für Physiker I, WS 2016/2017 12.5 Montag 6.2.2017 Die Taylor Entwicklung Wir kommen nun zum allerletzten Thema dieser Vorlesung, der sogenannten Taylor Entwicklung einer Funktion. Hierzu ist es sinnvoll sich zunächst an die Approximationsinterpretation der Ableitung zu erinnern. Bei dieser schrieben wir bei einem gegebenen Punkt x0 f (x0 + h) = f (x0 ) + f 0 (x0 )h + fehler(h), wobei der Fehler mit limh→0 fehler(h)/h = 0 klein wurde. Diese Formel können wir in der Form f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + fehler(x − x0 ) umschreiben. Dies ist eine Approximation von f durch eine lineare Funktion, also durch ein Polynom von Grad 1. Die Taylor Approximation ist nun die Approximation von f durch Polynome höheren Grades. Definition 12.4 (Das n-te Taylorpolynom) Seien I ⊆ R ein Intervall, n ∈ N, x0 ∈ I und f : I → R eine n-fach differenzierbare Funktion. Das n-te Taylorpolynom von f im Entwicklungspunkt x0 ist dann das Polynom n X f (k) (x0 ) Tn,x0 (x) := (x − x0 )k . k! k=0 Das Taylorpolynom Tn,x0 ist nicht so willkürlich wie es zunächst ausschaut, es handelt sich genau um dasjenige Polynom von Grad höchstens n, dessen Funktionswert und erste n Ableitungen im Punkt x0 mit denjenigen von f übereinstimmen. Zur Berechnung des Taylorpolynoms reicht es aus Ableitungen berechnen zu können, es stellt sich also kein neues rechnerisches Problem. Wir wollen uns einige einfache Beispiele von Taylorpolynomen anschauen. 1. Zunächst betrachten wir die Sinusfunktion f (x) = sin x. Dann sind f 0 (x) = cos x, f 00 (x) = − sin x, f 000 (x) = − cos x und f 0000 (x) = sin x, die ersten vier Taylorpolynome zum Entwicklungspunkt Null sind also T1 (x) = T2 (x) = x, T3 (x) = T4 (x) = x − x3 . 6 Verwenden wir dagegen x = π/2 als Entwicklungspunkt, so ergeben sich die Taylorpolynome 1 π 2 T1 (x) = 1, T2 (x) = T3 (x) = 1 − x− 2 2 und 1 π 2 1 π 4 T4 (x) = 1 − x− + x− . 2 2 24 2 370 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 2. Nun sei f (x) = ex . Dann ist auch f (k) (x) = ex für jedes k ∈ N,P also ist das n-te Taylorpolynom zum Entwicklungspunkt x0 = 0 gleich Tn (x) = nk=0 xk /k!. 3. Als drittes Beispiel behandeln wir ein etwas unangenehmeres Beispiel, die Funktion sin x f (x) = . 1 + x2 Die ersten Ableitungen dieser Funktion sind (1 + x2 ) cos x − 2x sin x , (1 + x2 )2 (x4 − 4x2 + 3) sin x + 4x(x2 + 1) cos x . f 00 (x) = − (1 + x2 )3 f 0 (x) = Damit haben wir f (0) = 0, f 0 (0) = 1 und f 00 (0) = 0, das quadratische Taylorpolynom ist also T2 (x) = x. In diesen Beispielen sieht man auch, dass es durchaus passieren kann, dass der Grad des n-ten Taylorpolynoms echt kleiner als n ist. Ist der Entwicklungspunkt beispielsweise ein Wendepunkt, also f 00 (x0 ) = 0, so stimmen lineares und quadratisches Taylorpolynom überein. Dies passiert etwa für f (x) = sin x beim Entwicklungspunkt x0 = 0. Das so entstehende quadratische Taylorpolynom T2 (x) = x ist dann die sogenannte Sinus” Approximation für kleine Auslenkungen“. Wir wollen jetzt quantitativ möglichst genau wissen, wie gut die Approximation einer Funktion durch ihr Taylorpolynom ist, also wie gross der Näherungsfehler f (x) − Tn (x) sein kann. Der nächste Satz gibt uns eine Formel für diesen Fehler, wir müssen aber noch kurz die verwendete Terminologie einführen. Sind a, b ∈ R so sagen wir das ein ξ ∈ R zwischen a und b liegt wenn a = b = ξ, a < ξ < b oder b < ξ < a gilt. Satz 12.16 (Taylorpolynom mit Lagrangeschen Fehlerterm) Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N, f : I → R eine (n + 1)-fach differenzierbare Funktion und bezeichne Tn das n-te Taylorpolynom von f zum Entwicklungspunkt x0 . Dann gibt es für jedes x ∈ I ein ξ ∈ I zwischen x0 und x mit n X f (k) (x0 ) f (n+1) (ξ) f (n+1) (ξ) f (x) = Tn (x) + (x − x0 )n+1 = (x − x0 )k + (x − x0 )n+1 . (n + 1)! k! (n + 1)! k=0 Beweis: Sei x ∈ I. Im Fall x = x0 ist die Aussage klar, wir können also x 6= x0 annehmen. Wir setzen f (x) − Tn (x) m := (n + 1)! (x − x0 )n+1 371 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 und definieren die Hilfsfunktion g : I → R; t 7→ n X f (k) (t) k=0 k! (x − t)k + m (x − t)n+1 . (n + 1)! Dann ist g differenzierbar mit g(x) = f (x) und g(x0 ) = n X f (k) (x0 ) k=0 k! (x−x0 )k +m (x − x0 )n+1 f (x) − Tn (x) = Tn (x)+ (x−x0 )n+1 = f (x), (n + 1)! (x − x0 )n+1 d.h. wir haben g(x) = g(x0 ). Nach dem Satz von Rolle Satz 9 existiert ein ξ zwischen x und x0 mit g 0 (ξ) = 0. Für jedes t ∈ I ist 0 0 n (k+1) X f (t) 0 k=1 n X g (t) = f (t) + = f (t) + k=1 k! f (k) (t) (x − t) − (x − t)k−1 (k − 1)! k −m (x − t)n n! n−1 (k+1) X f (k+1) (t) f (t) (x − t)n k (x − t) − (x − t)k − m k! k! n! k=0 f (n+1) (t) (x − t)n n = f (t) − f (t) + (x − t) − m n! n! n (x − t) f (n+1) (t) (x − t)n − m , = n! n! 0 also haben wir 0 (x − ξ)n f (n+1) (ξ) n (x − ξ) − m = g 0 (ξ) = 0, n! n! und damit ist auch m = f (n+1) (ξ). Es folgt f (x) − Tn (x) = f (n+1) (ξ) (x − x0 )n+1 , (n + 1)! und der Satz ist bewiesen. Der Approximationsfehler ist also gleich Approximationsfehler = f (n+1) (ξ) (x − x0 )n+1 (n + 1)! für eine geeignete Zwischenstelle ξ, was zunächst nicht sehr hilfreich aussieht. Glücklicherweise täuscht dieser Eindruck, man kann den Satz meistens recht explizit auswerten. Angenommen wir interessieren uns für Argumente x aus dem Intervall [x0 −a, x0 +a] mit a > 0. Ist dann M := sup |f (n+1) (x)|, x∈[x0 −a,x0 +a] 372 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 der größte Wert den die (n + 1)-Ableitung überhaupt annehmen kann, so können wir den Fehler für x ∈ R mit |x − x0 | ≤ a durch (n+1) f |f (n+1) (ξ)| (ξ) M n+1 n+1 = (x − x ) |x − x | ≤ |x − x0 |n+1 0 0 (n + 1)! (n + 1)! (n + 1)! abschätzen. Schauen wir uns beispielsweise einmal das quadratische Taylorpolynom T2 (x) = x für f (x) = sin x an. Die dritte Ableitung ist f 000 (x) = − cos x, also wird die Taylorformel zu cos ξ 3 sin x − x = − x 6 für ein ξ zwischen 0 und x. Wegen | cos ξ| ≤ 1 für überhaupt jedes ξ ∈ R folgt 1 | sin x − x| ≤ |x|3 6 für alle x ∈ R. Die Näherung ist nur in der Nähe des Entwicklungspunktes x0 = 0 sinnvoll, wir interessieren uns also für kleine x, und dann wird x3 sogar noch viel kleiner. Merkwürdigerweise gibt uns die Taylorformel auch eine untere Schranke für den Fehler. √ Beschränken wir uns auf |x| ≤ π/4, so ist auch |ξ| ≤ π/4 und somit cos ξ ≥ 2/2, für 0 < x < π/4 gilt also √ 2 3 1 x < x − sin x < x3 . 12 6 Als ein weiteres Beispiel betrachten wir f (x) = √ 1+x für |x| < 1. Es sind 1 1 3 f 0 (x) = √ , f 00 (x) = − , f 000 (x) = , 3/2 4(1 + x) 8(1 + x)5/2 2 1+x also f (0) = 1, f 0 (0) = 1/2 und f 00 (0) = −1/4. Das quadratische Taylorpolynom ist x x2 T2 (x) = 1 + − . 2 8 Dies ist eine klassische Approximation der Quadratwurzel, die bereits von Newton verwendet wurde. Die dritte Ableitung f 000 ist positiv und monoton fallend. Für x > 0 ergibt sich damit √ x3 | 1 + x − T2 (x)| ≤ 16 und für 0 < x < 0.1 ist der Approximationsfehler höchstens 0.0000625. Für −0.1 < x < 0 haben wir dagegen f 000 (−0.1)/6 = 0.0813.. < 0.0814, also √ | 1 + x − T2 (x)| < 0.0814 · |x|3 < 0.0000813... < 0.0000814. 373 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Wir wollen noch eine Anmerkung zur Wahl der Ordnung n der Taylor-Approximation machen. Auf der einen Seite wird die Approximation in der Regel besser wenn n größer wird, man will n also eher groß wählen. Auf der anderen Seite ist es der Sinn einer Approximation die gegebene Funktion f durch etwas einfacheres zu ersetzen. Ein Polynom ist umso einfacher je kleiner sein Grad ist, man möchte n also eigentlich auch möglichst klein wählen. Was der ideale Kompromiss zwischen diesen beiden Forderungen ist, hängt natürlich immer an der speziellen Situation. Sehr oft stellt sich die quadratische Taylor Approximation, also n = 2, als die geeigneteste Wahl von n heraus. 374 Index b 218 A, A−1 , 193 A−t , 194 (an )n∈N −→ a, 97 At , 190 \, 19 |x|, 27, 78, 276 |M|, 204 n , 44 k ∩, 19 ◦, 67 d , 345 dxn d , 351 dxn :=, 7 ∈, 12 >, 25 <, 24 ∅, 16 ∈, / 12 ez , 327 f | A, 63 f −1 , 64 f −1 (B), 61 ≥, 25 b, siehe Auslassungssymbol =⇒, 10 IdM , 70 ⇐⇒, 11 ∞, 36 ', 258 z, 78 ≤, 23 7→, 58 (−1)π , 204 M 0 , 287 ¬, 8 n!, 43 ||x||, 276 k, 265 ⊥, 276 π, 330, 361–362 Π, siehe Produktzeichen ∀, 21 ∃, 21 h | i, 276 h. . .i, 231 Σ, siehe Summenzeichen ⊆, 17 (, 18 ×, 55, 280 6⊆, 17 ∪, 19 ∨, 9 ∧, 8 √ n a, 50 Abbildung, siehe Funktion linear, siehe Lineare Abbildung Ableitung, 96, 339–341, 350 der Arcusfunktionen, 358, 359 der Areafunktionen, 348–349 der Exponentialfunktion, 346 der Hyperbelfunktionen, 347 der trigonometrischen Funktionen, 347 des Logarithmus, 348 höhere, 350 n-te, 350 von Potenzen, 348 von Potenzreihen, 345 Ableitungsregeln, 343–344 Absolut konvergent, siehe Reihe, absolut konvergent Addition von Matrizen, 185 von Vektoren, 185 Additionstheoreme, 86, 88, 328–329, 359 Additives Inverses, 2, 76, 225, 227, 229 375 Mathematik für Physiker I, WS 2016/2017 Adjunkte, 220, 221 Adjunkte Matrix, 218 Äquivalenz, 11 Affiner Teilraum, 264, 266–267, 275, 280 als Lösungsraum, 268–269 Allaussage, 4, 12, 21 Allquantor, 21 Anordnung, siehe Ordnung Antisymmetrie, 23 Approximation, 370, 371 linear, 340 Approximationsfehler, 372 Archimedische Eigenschaft, 34, 100, 101, 108, 116 Arcus Cosinus, 66, 84, 358 Sinus, 65, 84, 357 Tangens, 66, 85, 359 Arcusfunktionen, siehe Funktion, arcus Area Cosinus Hyperbolicus, 337, 348 Sinus Hyperbolicus, 337, 348 Tangens Hyperbolicus, 337, 348 Areafunktionen, siehe Funktion, area, siehe Funktion, area arg z, 83 Argument, 83, 85, 86 Hauptwert, 83, 84 Hauptzweig, 83 Assoziativgesetz, 5, 202 der Addition, 2, 185, 225 der Hintereinanderausführung, 68 der Multiplikation, 2, 185, 187, 225 Aufpunkt, 173, 264–265 Aufspann, 231–233, 272, 273 Auslassungssymbol, 241 Aussage, 8 Austauschlemma, 244 Axiome, 2 der reellen Zahlen, 2–3, 23–24, 26, 32 einer Anordnung, 23–24 einer Gruppe, 202 eines angeordneten Körpers, 26, 78, 100 Montag 6.2.2017 eines Körpers, 2–3, 76, 78 eines Vektorraums, 224–225 Basis, 242–243, 245, 247, 248, 251, 256, 260, 274 negativ, 280 positiv, 280–281, 283, 284 Basismatrix, 234, 240, 245 Bedingung hinreichend, 10 notwendig, 10 Bernoulli Ungleichung, 41, 46, 93 beschränkt, 30, 81–82, 91, 287, 320 nach oben, 29, 32, 91 nach unten, 30, 91 Beschränktheitssatz, 321 bestimmt divergent, 116 Betrag, 27–28, 30, 78, 80–81, 102, 317, 349 Beweis, 1 direkt, 2, 34 durch Kontraposition, 12 durch Widerspruch, 34–35 einer Implikation, 10 indirekt, siehe Beweis, durch Widerspruch von Allaussagen, 22 von Existenzaussagen, 22 von Mengengleichheiten, 19 Bijektiv, siehe Funktion, bijektiv Bild, 272 einer Funktion, 58, 60, 62 einer Teilmenge, 58 linearer Abbildungen, 255 Binomialkoeffizient, 43, 44 Binomische Formel, 45, 46, 93, 101 Blockdreiecksmatrix, 210 Br (z), 288 B r (z), 288 C, siehe Komplexe Zahlen Cm×n , 184 Cantor, 12, 54 Caratheodory, 342 Cardano Formel, 72–75 376 Mathematik für Physiker I, WS 2016/2017 Cartesisches Produkt, 55 Cauchy Kriterium für Folgen, 132 für Reihen, 149, 168 Cauchyfolge, 129–133 Cauchyprodukt, 167, 168, 170, 171 C− , 83 Cn , 184, 226 Cosinus, 66, 329 Hyperbolicus, 327 Cotangens, 329 Hyperbolicus, 327 Cramersche Regel, 221–223 Montag 6.2.2017 Division, 7 dom(f), 54, 56 Drehmatrix, 271, 277 Drehung, 271 Dreiecksmatrix, 209 Dreiecksungleichung, 28, 80, 81, 152 Durchschnitt, 19, 233, 262, 266 De Morgansche Regeln für Aussagen, 9 für Mengen, 19 Definition, siehe Mathematische Definition Definitionsbereich, 54, 56–58 Determinante, 200, 201, 206–207, 209, 210, 217, 278–280, 282, 284 Diagonalmatrix, 195 Differenzenquotient, 339, 341, 364 Differenzierbarkeit, siehe Funktion, differenzierbar Differenzmenge, 19 Dimension, 56, 245–247, 255, 256, 258, 260, 261, 263, 264, 267, 272, 273, 275 des direkten Produkts, 246 des K m×n , 246 des K n , 245 Dimensionsformel für affine Teilräume, 266 für lineare Abbildungen, 257 für Untervektorräume, 262 Direkter Beweis, siehe Beweis, direkt Direktes Produkt, 228, 234, 240, 246, 262 Disjunktion, 9 Distributivgesetz, 3, 19, 185, 188, 225 divergent, 102, 112, 135, 160, 162, 165, 171, 289, 305 gegen ±∞, 116 e, 364 Ebene, 56, 173, 264, 265 Einheitsmatrix, 188, 189, 271 Einheitswurzel, 87, 88 Eins, 2, 76, 225 Einschnürungslemma, 107–108 Einschränkung, 63, 290, 294, 298, 315, 342 einseitige Ableitung, 349 Differenzierbarkeit, 349 Grenzwerte, 290 Häufungspunkte, 290 Konvergenz, 290, 315 Element, 12 maximales, siehe Maximum minimales, siehe Minimum elementare Spaltenumformungen, siehe Spaltenumformungen Zeilenumformungen, siehe Zeilenumformungen Eliminationsverfahren, 178–183, 197, 198, 232, 239, 246, 247, 251, 267, 272– 274 zum Invertieren, 196–198 endlich erzeugt, siehe Vektorraum, endlich erzeugt Entwicklungspunkt, 304, 309, 370, 371 –δ Definition, 296–297, 314, 340 Erweiterte Koeffizientenmatrix, siehe Koeffizientenmatrix, erweitert Erzeugendensystem, 234–237, 243, 245, 247, 255, 274 Erzeugnis, siehe Aufspann Eulersche Formel, 331 377 Mathematik für Physiker I, WS 2016/2017 Eulersche Konstante, 105, 139 Existenz, 35 Existenzaussage, 21 Existenzquantor, 22 exp(z), 326 Exponentialfunktion, 326–328, 331–332, 346, 364 Extremum global, siehe globales Extremum lokales, siehe lokales Extremum Montag 6.2.2017 differenzierbar, 341–345, 347, 349, 350, 356, 362, 364, 368 einfach differenzierbar, 350 identisch, 70, 202, 271 injektiv, 62, 69, 256, 258, 323 Komposition, siehe Hintereinanderausführung konvergent, 289, 298 monoton, 322–323, 356 n-fach differenzierbar, 350 nach oben beschränkt, 321 f (A), 58 nach unten beschränkt, 321 Fakultät, 44 rational, 291, 292, 302, 332 Fallunterscheidung, 6 stückweise definierte, 54 Faser, 61 stetig, 313–315, 317–319, 321–323, 325, f | D, 290 343 Fehlstand, 204 stetig differenzierbar, 350 Folge, 90, 91, 227 streng monoton, 322, 323 beschränkt, 91–94, 102, 106, 117, 124, surjektiv, 62, 69, 258, 322 128, 131, 140 trigonometrisch, 57, 65–67, 88, 328, 331, konvergent, 97–99, 102, 104, 107, 108, 347, 357–359 114, 115, 124, 131, 132, 162, 231, zusammengesetzt, 300, 317, 349 254, 317 Funktionalgleichung, 326, 333, 336 gegen ±∞, 116 Funktionsgraph, siehe Graph mit Startwert, 90 Funktionsgrenzwert, siehe Grenzwert, von monoton, 91–93, 104, 118 Funktionen rational, 112 Funktionsraum, 226, 254 rekursiv, 94, 129, 133 Ganze Zahlen, 13 Folgenglied, 90 Folgengrenzwert, siehe Grenzwert, einer Fol- Gaußsche Zahlenebene, 75 ge Gauß Algorithmus, siehe Eliminationsverfahren Formel von Sylvester, 213 Geblockte Reihe, siehe Reihe, geblockt Fredholm Alternative, 200 Geometrische Freiheitsgrade, 56 Folge, 92, 103 f 0 (x), 341 0 Reihe, siehe Reihe, geometrisch f− (x), 349 (n) Summe, 130 f , 350 Gerade, 172, 173, 263, 265 f+0 (x), 349 Geschlitzte Ebene, 83 Funktion, 54–57, 226, 229 globales arcus, 65, 66, 84 Extremum, 351 area, 337–338, 348–349 Maximum, 351–352 beschränkt, 320–321 Minimum, 351–354 bijektiv, 62, 70, 71, 154, 258, 271 378 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Induktionsschluß, 40 Graph, 54–56 Induktionsschritt, 40 graph(f), 54 inf M , 31 Graßman Identität, 284 Infimum, 31–33, 37, 104, 321 Grenzwert, 97 Infinitesimale Grössen, 96, 97 einer Folge, 102, 118 Infinitesimalrechnung, 95–97 einer Reihe, 135 von Funktionen, 289, 294, 297, 300– Injektiv, siehe Funktion, injektiv Inneres eines Intervalls, 356 304, 319, 367 Intervalle, 25, 28, 59, 323 Grundbegriff, 16 abgeschlossen, 25, 59 Grundfunktionen, 325 beschränkt, 25 Grundrechenarten, 1, 78 halboffen, 25 Gruppe, 202 offen, 25, 59 Häufungspunkt, 114–115, 121–122, 128, 287– unbeschränkt, 59 290, 298 Inverse Matrix, 193, 195–198, 213, 221 größter, 123 Inverse Permutation, 202 kleinster, 123 isomorph, 258, 261, 263 Hadamardsche Formel, 306 Isomorphismus, 258–260, 271 Halbierungsformeln, 88–89 Harmonische Reihe, siehe Reihe, harmo- Jacobi Identität, 284 Junktoren, 8 nisch Heaviside Funktion, 55, 291, 299, 350 K M , 226 Hessesche Normalform, 173, 280 K m×n , 184, 226 Hinreichende Bedingung, 10 n Hintereinanderausführung, 67, 68, 70, 71, K , 184, 226, 263 Kanonische Basis, 245, 246 255, 271, 318, 319 Kern, 255, 256, 272 Hospitalsche Regel, 364, 366–369 Kettenregel, 343 Hyperbelfunktionen, 327–328, 347 Koeffizienten, 175, 304 Hyperebene, 265, 280 Koeffizientenmatrix, 177, 191, 195, 275 ◦ erweitert, 177, 251, 275 I , 356 Kommutativgesetz Identität, siehe Funktion, identisch der Addition, 2, 185, 225 Im z, 78 der Multiplikation, 2 imaginäre Komplement, siehe Differenzmenge Einheit, 75, 76 Komplementärmatrix, 218, 220 Zahl, 75 Imaginärteil, 78, 79, 81, 99, 139, 153, 294, Komplementärwert, 218 komplex Konjugierte, siehe Konjugierte 315, 317, 321 Komplexe Multiplikation, 85–86 Implikation, 4, 10–11 Indirekter Beweis, siehe Beweis, durch Wi- Komplexe Zahlen, 13, 75 Kondensationskriterium, 144, 145 derspruch Kondensierte Reihe, siehe Reihe, kondenInduktion, siehe Vollständige Induktion siert Induktionsanfang, 40 Konjugierte, 78–79, 320, 326 Induktionsannahme, 40 379 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 Lineare Abbildung, 249, 255–258, 260, 269– 270, 275 Lineare Approximation, siehe Approximation, linear Lineares Gleichungssystem, 173–176, 179, 191–193, 199, 200, 213, 232, 267, 268, 275 homogen, 192, 193, 229, 230, 235–237, 239, 240, 246, 247, 272 inhomogen, 192 regulär, 195, 222 Linearform, 275 Linearkombination, 193, 231, 232, 234, 238, 242, 248 linksseitige Ableitung, siehe einseitige Ableitung Differenzierbarkeit, siehe einseitige Differenzierbarkeit Grenzwerte, siehe einseitige GrenzwerLänge, 276, 283 te Lagrangescher Fehlerterm, 371 Konvergenz, siehe einseitige KonverLaplace Entwicklung, 214–216, 218 genz Leere linksseitiger Häufungspunkt, siehe einseiMenge, siehe Menge, leere tige Häufungspunkte Produkte, 43 ln, 333 Summen, 43 Lösungsmenge, 176 Leibniz log, 333 Formel, 206, 218 Logarithmus, 57, 333, 348, 363, 367 Kriterium, 145, 171 natürlich, siehe Logarithmus Reihe, 147, 150–151 zu einer Basis, 337 lim, siehe Grenzwert lokal, 298, 315, 341 Limes Inferior, 123–127, 162, 165 lokales Limes Superior, 123–127, 160, 162, 164, Extremum, 351, 362 165 Maximum, 351, 362 lim inf n→∞ an , 123 Minimum, 351, 362 lim f (x), 290 x↑a Majorante, 160 lim f (x), 290 x↓a Majorantenkriterium, 159 lim supn→∞ an , 123 Mathematische Definition, 16–17 lim , siehe Grenzwert, von Funktionen Matrix, 176, 184–190, 269 x→a linear abhängig, 238, 242 invertierbar, 193, 221, 271, 274 quadratisch, 176 linear unabhängig, 238–241, 243–245, 247, regulär, 193 273, 274 Konjungtion, 8 Kontrapositionsprinzip, 11–12 Konvergenz in R, 116, 140, 289 linksseitig, siehe einseitige Konvergenz rechtsseitig, siehe einseitige Konvergenz von Folgen, siehe Folge, konvergent von Funktionen, siehe Funktion, konvergent von Reihen, siehe Reihe, konvergent Konvergenzkreis, 306, 325 Konvergenzradius, 305–309, 346 Koordinaten, 248 Koordinatenabbildung, 248, 259 Kreuzprodukt, 281 Kronecker Symbol, 233 Kurvendiskussion, 350, 351 380 Mathematik für Physiker I, WS 2016/2017 max M , 29 Maximum, 29, 31, 321 globales, siehe globales Maximum lokales, siehe lokales Maximum zweier Funktionen, 320 Menge, 12 leere, 16 Liste der Elemente, 12 Parametrisierung, 13 min M , 30 Minimum, 30, 31, 321 globales, siehe globales Minimum lokales, siehe lokales Minimum zweier Funktionen, 320 Minorantenkriterium, 160 Mittelwertsatz, 354–355 Monoton, 91 streng, 91 Multiplikation mit Skalaren, 185 von Matrizen, 186, 271 Multiplikatives Inverses, 3, 76, 78 N, siehe Natürliche Zahlen Näherungsfehler, 371 Natürliche Zahlen, 13 Normalenvektor, 280 Notwendige Bedingung, 10 Null, 2, 76, 227, 228 Nullfolge, 105–106, 117, 119, 140 Nullfunktion, 227 Nullmatrix, 185 Nullteilerfreiheit, 6 Nullvektor, 225 Ordnung, 23–25, 29, 36 linear, 23 total, 23 Ortsvektor, 224 Pagerang, 174 parallel, 265 Parallelepiped, 201 Parallelogram, 201, 278, 283 Montag 6.2.2017 Partialsummen, 135, 136, 140, 150, 259 Partikularlösung, 193 Pascalsches Dreieck, 44 Periodizitätseigenschaften, 330, 331 Permutation, 203, 207 gerade, 204 ungerade, 204 zyklisch, 205 Polarkoordinaten, 82–86 Polynom, 111, 112, 291 Popcorn-Funktion, 59 Potenzen, 37–39, 46–48, 51–53, 106 mit ganzzahligen Exponenten, 46 mit komplexen Exponenten, 335 mit natürliche Exponenten, 37 mit rationalen Exponenten, 51 mit reellen Exponenten, 53, 334, 348 Potenzrechenregeln, 38, 46, 51–52, 335–337 Potenzreihe, 304–306, 309, 325, 345 Problem von Mensoli, 142 Produkt, 1 von Mengen, siehe Cartesisches Produkt von Vektorräumen, siehe Direktes Produkt Produktregel, 343 für Determinanten, 211 Produktzeichen, 43 Projektion, 278 Punkt, 54 Q, siehe Rationale Zahlen Quotientenkriterium, 164–165 Quotientenregel, 343 R, siehe Reelle Zahlen Rm×n , 184 R, 36 Rang, 272–275 Rationale Zahlen, 13 Re z, 78 Realteil, 78, 79, 81, 99, 139, 153, 294, 315, 317, 321 Rechenregeln 381 Mathematik für Physiker I, WS 2016/2017 Montag 6.2.2017 für Ableitungen, siehe Ableitungsregeln, Riemanscher Umordnungssatz, siehe Um347 ordnungssatz n R , 184, 226 für das Vorzeichen, 205 Russelsche Antinomie, 15 für die Inverse, 193–194 für die Transposition, 190 für Folgengrenzwerte, 108, 117–120, 133 Sandwichlemma, siehe Einschnürungslemma Sarrus Regel, 201, 214 für Funktionsgrenzwerte, 301 Satz von für Logarithmen, 333, 336 Heine–Borel, 128 für Matrizen, 185–188 Rolle, 354, 355 für Permutationen, 202 Scherung, 270, 283 für Reihen, 141 Schranke für Stetigkeit, 319 obere, 29, 31 für Wurzeln, 50–51 untere, 30, 31 rechtsseitige Sekante, 339, 354 Ableitung, siehe einseitige Ableitung senkrecht, 276–277, 280, 281 Differenzierbarkeit, siehe einseitige Difsign(x), 27 ferenzierbarkeit Sinus, 65–66, 329 Grenzwerte, siehe einseitige GrenzwerHyperbolicus, 327 te Sinusapproximation, 371, 373 Konvergenz, siehe einseitige KonverSkalar, 184, 188, 229 genz Skalarprodukt, 276–278 rechtsseitiger Häufungspunkt, siehe einseiSkalierung, 270 tige Häufungspunkte Spaltenindex, 176 Reelle Zahlen, 1, 13 Spaltenpermutation, 207 erweitert, 36, 116 Spaltenumformungen, 207, 216, 273 Reflexivitätsgesetz, 23 Spaltenunformungen, 209 Reihe, 134, 136–139 Spaltenvektor, 176, 179, 184, 191 absolut konvergent, 151–154, 157, 159, span(. . .), 231 160, 164, 168 Spat, 201, 283, 284 alternierend, 145 Spatprodukt, 282–284 geblockt, 147, 151 spezielle Lösung, 193 geometrisch, 130, 137–138, 152, 160, Standardbasis, 234, 239, 245, 246, 270 170 Startindex, 107, 108, 136 harmonisch, 143, 162 Steinitzscher Austauschsatz, siehe Austaukondensiert, 144 schlemma konvergent, 135, 139–141, 144, 145, 147, Steinitzscher Umordnungssatz, siehe Um149, 152, 168 ordnungssatz unbedingt konvergent, 151, 155, 157 Stetigkeit, siehe Funktion, stetig Rekursion, 94 Stufenform, 178–181, 208, 235, 239 rang( ), 272 Subtraktion, 7, 225 Richtung, 264–267 Summationsindex, 42 Richtungsvektor, 173, 224, 264–265 Summe, 1 382 Mathematik für Physiker I, WS 2016/2017 affiner Teilräume, 266 linearer Abbildungen, 271 von Funktionen, 226 von Untervektorräumen, 233, 262 Summenregel, 343 Summenzeichen, 42–43, 135, 136 sup M , 31 Superpositionsprinzip, 193 Supremum, 31–32, 37, 104, 321 Surjektiv, siehe Funktion, surjektiv Sylvester, 212 Symmetrische Gruppe, 203 Tangens, 66–67, 329 Hyperbolicus, 327 Tangente, 339, 340, 354 Taylorpolynom, 370–371 Teilfolge, 91, 98, 99, 114, 117, 132 induktiv, 115 Teilmenge, 17 echte, 18 Teilraum, siehe Untervektorraum Transformationsmatrix, 249–252, 268 Berechnung, 250, 252–253 Transitivitätsgesetz, 23 Transponierte, 190, 194, 207, 273 Transposition, 205 Trichotomieprinzip, 25 triviale Lösung, 192 Montag 6.2.2017 Urbild, 61 Ursprungsgerade, 263 Variable, 3–5, 24, 54, 57 abhängig, 54 formale, 4, 42, 58, 345 Vektor, 224, 229 Vektorprodukt, 280, 281, 284 Vektorraum, 224, 233, 237, 241, 242, 244, 249, 255, 260 endlich erzeugt, 243, 245, 246, 248, 249, 251, 255–258, 260–263, 266 Verdichtungskriterium, siehe Kondensationskriterium Verdopplungsformeln, 330, 359, 360 Vereinigung, 19 Verneinung, 8 von Quantoren, 22 Vielfachenregel, 343 Vollständige Induktion, 40–41 Vollständigkeitsaxiom, 29, 32, 37, 100 Vorzeichen, 27, 28, 88 einer Permutation, 204 Wahrheitstabelle, 9 Widerspruchsbeweis, siehe Beweis, durch Widerspruch windschief, 265, 266 Winkel, 278 Wurzel, 62, 65, 325 Übergangsmatrix, siehe Transformationskomplexer Zahlen, 86, 87 matrix reeller Zahlen, 49, 50 Umkehrfunktion, 60, 61, 64, 69–70, 260, Wurzelapproximation, 373 323, 347 Wurzelkriterium, 160–162, 165 Umkehrregel, 347 Z, siehe Ganze Zahlen Umordnung, 153–155, 157 Zeilenindex, 176 Umordnungssatz, 157, 159 Zeilenpermutation, 207 Umparametrisierung, 367 Unbedingt konvergent, siehe Reihe, unbe- Zeilenumformungen, 179, 207, 208, 216, 273 Zeilenvektor, 184, 275 dingt konvergent Zuordnungsvorschrift, 54, 58, 59, 67 Ungleichungskette, 24, 25 Untervektorraum, 230, 233, 255, 256, 262, Zusammengesetzte Funktion, siehe Funktion, zusammengesetzt 264, 272 zweifach differenzierbar, 362 trivial, 233 383 Mathematik für Physiker I, WS 2016/2017 Zwischenwertsatz, 321–323 384 Montag 6.2.2017