Inhaltsverzeichnis §1 §2 §3 §4 §5 §6 §7 §8 §9 §10 §11 §12 §13 §14 Mengen und Aussagen . . . . . . . Die Beweismethoden . . . . . . . . Funktionen . . . . . . . . . . . . . Die reellen Zahlen . . . . . . . . . Die komplexen Zahlen . . . . . . . Reelle und komplexe Zahlenfolgen Reihen . . . . . . . . . . . . . . . . Lineare Gleichungssysteme . . . . . Matrizen über R und C . . . . . . Determinanten . . . . . . . . . . . Vektorräume . . . . . . . . . . . . Der Vektorraum K n . . . . . . . . Stetige Funktionen . . . . . . . . . Differenzierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 16 22 36 56 71 106 134 144 158 180 208 230 272 $Id: mengen.tex,v 1.6 2011/02/08 22:30:56 hk Exp $ Vorlesung 1, Montag 25.10.2010 §1 Mengen und Aussagen Der wichtigste Grundbegriff der Mathematik ist der Begriff einer Menge, und wir wollen damit beginnen die klassische, 1878 von Cantor gegebene Definition, zu zitieren: Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten, wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens, welche die Elemente von M genannt werden, zu einem Ganzen. Eine Menge fasst also einige bereits vorhandene Objekte zu einem neuen Ganzen zusammen. Wir werden nur Mengen betrachten, deren Elemente allesamt mathematische ” Objekte“ sind, also beispielsweise Zahlen. Sind M eine Menge und x irgendein mathematisches Objekt, so schreiben wir x ∈ M für x ist ein Element von M“ und x ∈ /M ” für x ist kein Element von M“. Wir listen jetzt einige Beispiele von Mengen auf: ” 1 Mathematik für Physiker I, WS 2010/2011 Montag 25.10.2010 1. Die Menge M , die die drei Elemente 1, 2, 3 hat, kann man als M = {1, 2, 3} schreiben. Man setzt also die vorgesehenen Elemente der Menge in ein Paar geschweifter Klammern. 2. Es ist auch erlaubt in den geschweiften Klammern dasselbe Objekt mehrfach aufzulisten M = {1, 1, 2, 3} = {1, 2, 3}. Ein Objekt ist entweder Element einer Menge oder nicht, so etwas wie eine mehrfache Mitgliedschaft in einer Menge gibt es nicht. Im diesem Beispiel ist es natürlich nicht besonders sinnvoll die Eins zweimal hinzuschreiben, man ist sogar versucht so etwas ganz zu verbieten. Das wäre allerdings hochgradig unpraktisch. Nehmen wir einmal an, wir hätten drei reelle Zahlen a, b, c gegeben, von denen wir sonst nichts wissen. Es könnten also insbesondere Gleichheiten zwischen diesen Zahlen auftreten, etwa a = b 6= c. Wollen wir dann die Menge M mit den Elementen a, b, c hinschreiben und bestünden bei {. . .} auf verschiedenen Objekten in den Klammern, so bräuchten wir eine Definition wie ist a = b = c, so sei ” M = {a}, ist a = b 6= c, so sei M = {a, c}, . . .“, und so weiter bis alle Möglichkeiten für Gleichheiten zwischen a, b, c aufgelistet sind. Erlauben wir dagegen Wiederholungen bei {. . .}, wie wir es tun, so kann man einfach M = {a, b, c} schreiben. 3. Mengen können auch unendlich viele Elemente haben. Als ein Beispiel einer solchen Menge haben wir etwa die Menge aller natürlichen Zahlen. Für diese Menge gibt es ein nur für sie reserviertes Symbol N = {0, 1, 2, 3, . . .}. Man muss leider etwas aufpassen, da es auch eine alternative Definition gibt bei der die Null nicht zu den natürlichen Zahlen zählt, also N = {1, 2, 3, . . .}. Braucht man dann doch einmal die Null dabei, so verwendet man N0 für die natürlichen Zahlen mit Null. Welche der beiden Konventionen man verwendet, also mit oder ohne Null, ist eine Geschmacksfrage, in der Literatur und in Lehrbüchern ist beides anzutreffen. Wir wollen in dieser Vorlesung durchgängig die Variante mit eingeschlossener Null verwenden. 4. Auch einige andere Zahlbereiche haben wie die natürlichen Zahlen eine Standardbezeichnung, diese sind: Z Q R C − − − − die die die die ganzen Zahlen . . . , −2, −1, 0, 1, 2, . . ., rationalen Zahlen, also Brüche ganzer Zahlen, reellen Zahlen, die wir in §4 behandeln werden, und komplexen Zahlen, die in §5 eingeführt werden. 2 Mathematik für Physiker I, WS 2010/2011 Montag 25.10.2010 5. Als nächstes Beispiel wollen wir die Menge M aller geraden natürlichen Zahlen hinschreiben. Eine naheliegende Schreibweise hierfür ist M = {0, 2, 4, 6, 8, . . .}. Eine derartige Pünktchen-Schreibweise“ muss man aber sehr sparsam verwen” den, es muss wirklich unmissverständlich und ohne jeden Spielraum klar sein wofür die Auslassungspunkte stehen. Beispielsweise kann man bei der Menge N = {1, 7, 289, . . .} bestenfalls raten was damit gemeint sein soll, und so etwas geht auch nicht als sinnvolle Mengenbeschreibung durch. Eine pünktchenfreie“ ” alternative Beschreibung der Menge M der geraden Zahlen kann man durch Parametrisierung der Elemente erhalten. Eine gerade natürliche Zahl ist ja definitionsgemäß eine Zahl die man als 2 · n für eine andere natürliche Zahl n schreiben kann, und durchläuft n die natürlichen Zahlen, so durchläuft 2 · n die geraden Zahlen. Dies führt auf die Schreibweise M = {2n|n ∈ N}. 6. Die Schreibweise des vorigen Beispiels kann man jetzt auch auf kompliziertere Situationen ausdehnen. Als ein Beispiel wollen wir einmal die Menge M aller natürlichen Zahlen hinschreiben, die sich als eine Summe von zwei Quadraten schreiben lassen. Diese Zahlen haben die Form a+b wobei a, b zwei Quadratzahlen sind. Die Quadratzahlen kann man ihrerseits wieder als a2 mit a ∈ N erhalten, und es ergibt sich M = {a2 + b2 |a, b ∈ N} als eine einfache Art die Menge M anzugeben. 7. Bisher haben wir in all unseren Beispielen immer Zahlen als Elemente einer Menge verwendet. Allgemeine Mengen dürfen aber auch kompliziertere Elemente haben, etwa Punkte, Geraden, Kreise oder auch andere Mengen. Ein Beispiel hierfür ist M = {{1, 2}, {3, 4}, 5}. Dies ist eine Menge mit drei Elementen, und nicht etwa mit fünf, und diese drei Elemente sind M = {{1, 2}, {3, 4}, 5 }, | {z } | {z } |{z} 1 2 3 also die Menge {1, 2} mit den beiden Elementen 1 und 2, dann die Menge {3, 4} und schließlich die Zahl 5. 8. Ein letztes Beispiel ist die Menge M = {{1}}. Dies ist eine Menge mit einem einzelnen Element, aber dieses Element ist nicht die Zahl Eins, sonderm die Menge {1}, deren einziges Element 1 ist. 3 Mathematik für Physiker I, WS 2010/2011 Montag 25.10.2010 Nachdem wir jetzt einige Beispiele von Mengen kennen, wollen wir eine erste wichtige Definition einführen: Definition 1.1 (Teilmengen einer Menge) Eine Menge M heißt Teilmenge einer Menge N , wenn jedes Element von M auch ein Element von N ist. In diesem Fall schreiben wir M ⊆ N . Ist eine Menge M keine Teilmenge einer Menge N , so wird dies mit dem Symbol M 6⊆ N notiert. Die Schreibweise M ⊆ N für die Teilmengenbeziehung wird leider nicht einheitlich von allen Autoren verwendet, oftmals finden Sie auch M ⊂ N anstelle von M ⊆ N . Einige Beispiele von Teilmengen sind: 1. Es ist {1, 2} ⊆ {1, 2, 3} denn die beiden Elemente 1 und 2 der linken Menge sind auch Elemente der rechten Menge. 2. Es ist auch {1, 2, 3} ⊆ {1, 2, 3}. Allgemein ist jede Menge eine Teilmenge von sich selbst. Will man dies nicht haben, so spricht man von einer echten Teilmenge, d.h. eine Menge M ist eine echte Teilmenge der Menge N wenn M ⊆ N und M 6= N ist, und wir schreiben M ( N für M ist eine echte Teilmenge von N“. Oftmals wird anstelle von ” M ( N aber auch die alternative Schreibweise M ⊂ N verwendet, was etwas unglücklich ist da dies von anderen wieder als die normale Teilmengenbeziehung interpretiert wird. Die beiden Symbole ⊆“ und (“ sind unmißverständlich, ” ” während ⊂“ je nach Autor Teilmenge“ oder echte Teilmenge“ bedeuten kann. ” ” ” Das ist verwirrend, aber es ist leider so. 3. Dagegen ist {1, {2}} 6⊆ {1, 2, 3}, denn die einelementige Menge {2} ist zwar ein Element der linken aber kein Element der rechten Menge. Wir wollen auch noch eine weitere Anmerkung zu Definition 1 bringen. Dass wir diese als Definition bezeichnet und numeriert haben, die Cantorsche Definition einer Menge aber nicht, ist kein Versehen sondern gewollt. Letztere ist nämlich keine Definition im mathematischen Sinne. Im normalen Sprachgebrauch gibt es verschiedene Sorten von Definitionen, und die einfachste Art einer Definition ist die Verabredung einer Abkürzung. Dass beispielsweise LS17“ für Leipnitz Straße 17“ stehen soll ist eine ” ” rein willkürliche Abkürzung. Will man dagegen definieren was ein Auto ist, so gibt es ja nach intendierten Verwendungszweck verschiedene Definitionen. Ob man zum Beispiel ein Auto mit drei Rädern aber ohne Motor als Auto bezeichnen will hängt davon ab worum es gerade geht. Eine Definition beschreibt hier ein real vorhandenes 4 Mathematik für Physiker I, WS 2010/2011 Montag 25.10.2010 Objekt und dient nur dazu die gerade relevanten Aspekte dieses Objekts zu benennen. In der Mathematik sind alle Definitionen Verabredungen von Abkürzungen. Der Begriff einer Teilmenge ist nicht strikt nötig, anstelle von M ⊆ N“ könnte man genauso gut ” jedes Element von M ist auch ein Element von N“ sagen. Bevor das Wort Teilmenge“ ” ” definiert wurde gab es keinen Teilmengenbegriff, Autos dagegen gibt es völlig egal ob man eine Definition von Auto hat oder nicht. Mathematische Definitionen führen also immer einen neuen Begriff in Termen bereits vorhandener Begriffe ein. Die Cantorsche Mengendefinition ist nicht von dieser Art, da sie ihrerseits auf weitere noch nicht definierte Begriffe, wie Objekte unse” rer Anschauung“, Zusammenfassung“ und so weiter, verweist. So etwas ist leider auch ” nötig, mit mathematischen Definitionen alleine kommt man nicht aus. Wenn jeder neue Begriff nur in Termen bereits vorhandener Begriffe eingeführt werden kann, so braucht man irgendetwas mit dem alles anfangen kann. Hierfür verwendet man sogenannte Grundbegriffe“, diese denken wir uns als vorgegeben und nicht weiter hinterfragbar. ” Für diese Grundbegriffe gibt man dann üblicherweise eine Beschreibung an, die erklären soll was man sich unter dem Grundbegriff vorzustellen hat. Der Mengenbegriff ist solch ein Grundbegriff und die Cantorsche Mengendefinition ist seine Erklärung. Welche Begriffe als Grundbegriffe verwendet werden und welche definiert werden, ist letzten Endes eine rein willkürliche Entscheidung. Es ist beispielsweise möglich den Begriff einer Funktion als Grundbegriff zu verwenden, und Mengen dann in Termen von Funktionen zu definieren. Es hat sich aber ein üblicher Satz“ an Grundbegriffen ” durchgesetzt, zu denen unter anderem die Mengen gehören. Wir kommen jetzt zu unserem Thema zurück, und wollen einen weiteren der wichtigsten Begriffe der Mengenlehre einführen, die sogenannte leere Menge. Definition 1.2 (Die leere Menge) Die leere Menge ist die Menge die keine Elemente hat, geschrieben als ∅. Natürlich ist die leere Menge für sich genommen keine interessante Menge, ihre Wichtigkeit besteht darin das sie sehr häufig vorkommt. Während die Physik sehr großzügig mit fest vergebenen Namen ist, beispielsweise ist v fest für die Geschwindigkeit reserviert, gibt es in der Mathematik nur sehr wenige reservierte Namen, selbst ein Symbol wie π steht nicht immer für die Kreiszahl, sondern kann je nach Kontext auch was ganz anderes bedeuten. Einer dieser vergebenen Namen ist das Symbol ∅ für die leere Menge, ein anderer ist N für die Menge der natürlichen Zahlen. Beispiele für die leere Menge kann man schlecht machen, da es ja nur eine einzige solche gibt, wir wollen hier aber einmal zwei mit der leeren Menge in Zusammenhang stehende Situationen besprechen, die erfahrungsgemäß regelmäßig zu Verwirrungen führen. 1. Das erste Problem ist ob {∅} = ∅ gilt? Dies wird erstaunlich häufig von Anfängern als wahr angesehen, ist aber in Wahrheit falsch. Die Menge {∅} ist nicht die leere Menge, denn sie hat ja ein Element, nämlich ∅ selbst. 2. Die zweite Frage ist, ob etwa ∅ ⊆ {1, 2, 3} gilt? Erinnern wir uns an die Teilmengendefinition, so bedeutet ∅ ⊆ {1, 2, 3} das jedes Element der leeren Menge auch 5 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 ein Element von {1, 2, 3} ist, und so merkwürdig es einem auch vorkommt, dies ist wahr. Es gibt ja kein Element der leeren Menge für das das falsch sein könnte. Mit derselben Begründung ist auch ∅⊆M für überhaupt jede Menge M . Insbesondere ∅ ⊆ ∅. Mit Mengen kann man rechnen, es gibt eine Vielzahl von Operationen die aus zwei gegebenen Mengen eine neue Menge machen. Die drei wichtigsten dieser Rechenoperationen wollen wir zum Abschluß dieser Sitzung einführen: Definition 1.3: Seien M, N zwei Mengen. 1. Die Vereinigung von M und N , geschrieben als M ∪N , ist die Menge all derjenigen Objekte die Element von M oder von N sind. 2. Der Durchschnitt von M und N , geschrieben als M ∩ N , ist die Menge all derjenigen Objekte die Element von M und von N sind. 3. Die Differenzmenge von M und N , geschrieben als M \N , ist die Menge aller Elemente von M , die nicht zugleich Element von N sind. Zu Beispielen kommen wir in der nächsten Sitzung, jetzt wollen wir nur noch ein paar Kommentare zu dieser Definition bringen. Das Wort seien“ ist außerhab der ” Mathematik recht ungebräuchlich. Der Satz Seien M, N zwei Mengen“ bedeutet Wir ” ” geben uns zwei beliebige Mengen vor und nennen diese M und N“. Weiter bedeutet das Wort oder“ in der Mathematik immer das einschließende oder“, bei A oder B ist also ” ” auch erlaubt das A und B beide zutreffen. Schließlich wird anstelle der Schreibweise M \N für die Differenzmenge von einigen Autoren auch das Symbol M − N verwendet. Vorlesung 2, Freitag 29.10.2010 In der letzten Sitzung hatten wir den Begriff einer Menge eingeführt und einige Rechenoperationen für Mengen definiert Vereinigung M ∪N Alle x in M oder N Durchschnitt M ∩N Alle x in M und N Komplement M \N Alle x in M nicht in N 6 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 Wir wollen jetzt einige Eigenschaften unserer bisher eingeführten Begriffe festhalten, und beginnen mit einem Satz über die Teilmengenbeziehung. Wir verwenden das etwas kürzere Wort Inklusion“ als das übliche Synonym für Teilmengenbeziehung“. ” ” Lemma 1.1 (Grundeigenschaften der Inklusion) Seien A, B, C drei Mengen. Dann gelten: (a) Die Inklusion ist transitiv, d.h. sind A ⊆ B und B ⊆ C, so ist auch A ⊆ C. (b) Es ist A ∩ B ⊆ A ⊆ A ∪ B. (c) Genau dann ist A = B wenn A ⊆ B und B ⊆ A gelten. Beweis: (a) Für jedes Element x ∈ A gilt wegen A ⊆ B zunächst auch x ∈ B und wegen B ⊆ C ist schließlich x ∈ C. Dies zeigt A ⊆ C. (b) Jedes Element des Durchschnitts A ∩ B ist definitionsgemäß auch ein Element von A, es gilt also A ∩ B ⊆ A. Ebenso ist jedes Element von A auch ein Element von A ∪ B und wir haben A ⊆ A ∪ B. (c) Wir müssen zeigen das aus A = B die beiden Bedingungen A ⊆ B und B ⊆ A folgen, und dass umgekehrt aus A ⊆ B und B ⊆ A auch A = B folgt. ”=⇒” Dies ist klar. ”⇐=” Die Bedingung A ⊆ B bedeutet das jedes Element von A ein Element von B ist und B ⊆ A sagt das umgekehrt jedes Element von B auch ein Element von A ist. Damit haben A und B genau dieselben Elemente, und sind somit dieselbe Menge. Inhaltlich sind alle Aussagen des Lemmas von vornherein klar A B C A⊆B⊆C A∩B ⊆A⊆A∪B und wir wollen dieses Lemma hauptsächlich als Anlass für einige Bemerkungen verwenden. Die Aussagen der Mathematik werden als sogenannte Sätze“ formuliert und ” in einem aufgeschriebenen Text werden sie dann oftmals numeriert und in irgendeiner Form hervorgehoben dargestellt. Dabei ist der Name Satz“ hier ein Oberbegriff, je ” nach Bedeutung der Aussage werden verschiedene Namen verwendet. In der Literatur finden Sie die folgenden Bezeichnungen: Satz Aussage mit einer mitteilenswerten, eigenständigen Bedeutung. 7 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 Hauptsatz Ein besonders wichtiger Satz. Theorem Je nach Autor entweder ein Synonym für Satz“ oder für Hauptsatz“. ” ” Lemma Wie ein Satz aber mit Bedeutung hauptsächlich innerhalb der Theorie. Proposition Je nach Autor entweder ein Synonym für Satz“ oder für Lemma“. ” ” Korollar Eine unmittelbare Folgerung aus einem Satz oder Lemma, oftmals ein besonders hervorgehobener Spezialfall. Wir werden die Namen Satz“, Lemma“ und Korollar“ verwenden. Einfache Aus” ” ” sagen werden oftmals nicht extra als Satz formuliert sondern nur im laufenden Text erwähnt, die Aussagen in Lemma 1 wären ein Kandidat für solch eine Behandlung. Besonders selbstverständliche Aussagen werden sogar nirgends festgehalten, beispielsweise werden wir so etwas wie A ∪ B = B ∪ A für Mengen A, B verwenden auch ohne es irgendwo explizit zu benennen. Wir kommen jetzt zum Inhalt von Lemma 1, und wollen zunächst die Verwendung von Variablen erläutern. Im normalen Sprachgebrauch ist eine Variable eine Größe deren Wert sich im Laufe der Zeit ändert, aber in der Mathematik wird das Wort Variable“ in einem etwas anderen Sinne verwendet. Nehmen wir etwa die Variablen ” A, B, C im Lemma. Diese wurden mit Seien A, B, C drei Mengen“ eingeführt, und dies ” meint das wir uns drei Mengen nehmen und diesen die Namen A, B, C geben. Diese Mengen ändern sich dann im folgenden nicht, die Werte von A, B, C sind nicht etwas variables“ und es ist beispielsweise völlig sinnlos so etwas wie Sei A := {1, 2, 3}“ sagen ” ” zu wollen. Variablen in der Mathematik sind nur Namen für mathematische Objekte und keine sich ändernden Größen, die Namensgebung Variable“ kommt daher das ” etwa unsere Variablen A, B, C Namen für völlig beliebige Mengen sind, die Variabilität liegt in den potentiell möglichen Werten für A, B, C aber eben nicht im gewählten Wert selbst. Dagegen ist etwa die leere Menge ∅ keine Variable, da diese eine ganz spezifische Menge bezeichnet. Es gibt einige, wenige Ausnahmen zum oben gesagten. Beispielsweise ist in der Mengenbeschreibung {2x|x ∈ N} das Symbol x“ eine echte“ Variable, man spricht hier auch von einer formalen Varia” ” ” blen“. Derartige Variablen treten immer nur in gebundener Form“ auf, beispielsweise ” gibt es das x“ nur innerhalb der beiden geschweiften Klammern, Ausdrücke wie etwa ” 2x ∈ {2x|x ∈ N} haben keinerlei Sinn, da es außerhalb der Klammern eben kein x gibt. Eine andere vertraute Situation in der formale Variablen vorkommen, ist die IntegraRb tionsvariable beim bestimmten Integral a f (x) dx, das x kommt hier nur im Integral gebunden vor, Formeln wie Z 1 x2 = x dx 0 sind weder wahr noch falsch sondern nur unsinnig. 8 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 Kommen wir zum Beweis des Lemmas. Mathematik ist keine empirische Wissenschaft, mathematische Aussagen können nicht durch Beobachtungen oder Daten belegt werden. Das einzige Kriterium zur Wahrheit mathematischer Aussagen ist der Beweis. Ein Beweis ist dabei mehr als nur eine überzeugende Begründung des behaupteten Sachverhalts, sondern eine wirklich vollständige, logische Herleitung. Beweise im mathematischen Sinne sind für reale Objekte und Tatsachen nicht möglich, dass sie in der Mathematik durchgeführt werden können, liegt letztlich daran das alle Begriffe exakt definiert sind. Beweise sind für die Mathematik keine optionale Zugabe, sondern das was Mathematik ausmacht. Das heißt natürlich nicht, das wir in dieser Vorlesung alles vollständig beweisen werden, hierfür wird die zur Verfügung stehende Zeit leider nicht ausreichen. Wir schauen uns jetzt den Beweis von Teil (a) des Lemmas an. Vorausgesetzt sind einmal die für alle Teile des Lemma gültige Voraussetzung Seien A, B, C drei Mengen“ ” und weiter A ⊆ B sowie B ⊆ C. Zu zeigen ist, dass auch A ⊆ C gilt. Das einzige zur Verfügung stehende Hilfsmittel ist die Definition der Teilmengenbeziehung, und A ⊆ C bedeutet, dass jedes Element von A auch ein Element von C ist. Wir müssen uns also ein Element x von A nehmen und einsehen das dieses auch ein Element von C ist. Da A eine Teilmenge von B ist, ist zunächst x ∈ B und da B auch eine Teilmenge von C ist, ist x auch ein Element von C. Damit ist dann A ⊆ C bewiesen. Der Beweis von Teil (b) folgt denselben Prinzipien, und soll hier nicht wiederholt werden. Der letzte Teil (c) des Lemmas bietet ein neues Detail. Die Formulierung Genau ” dann ist A = B wenn A ⊆ B und B ⊆ A gelten“, bedeutet das zum einen aus A = B die Aussage A ⊆ B und B ⊆ A folgt und zum anderen, umgekehrt aus A ⊆ B und B ⊆ A auch A = B folgt. In dieser Formulierung sind also zwei Behauptungen versteckt, und diese werden dann auch beide bewiesen. In dem mit =⇒“ gekennzeichneten Teil wird ” die Implikation von links nach rechts bewiesen, d.h. das aus A = B auch A ⊆ B und B ⊆ A folgen. In diesem konkreten Beispiel ist hier nichts zu tun, da wir bereits bemerkt hatten das jede Menge eine Teilmenge von sich selbst ist. Im zweiten Beweisteil mit ⇐=“ wird dann die andere Implikation, also von rechts nach links bewiesen. ” Dies soll an allgemeinen Bemerkungen erst einmal genügen. Man kann jetzt fortfahren und diverse Lemmata über das Rechnen mit Mengen beweisen, etwa Formeln wie A ∩ B = B ∩ A, (A ∪ B) ∪ C = A ∪ (B ∪ C) und vieles mehr. Wir wollen hier nur eine solche Formel vorstellen, da diese eine der häufigeren Fehlerquellen ist. Lemma 1.2 (De Morgansche Regeln für Mengen) Seien A, B, C drei Mengen. Dann gelten die beiden Gleichungen A\(B ∪ C) = (A\B) ∩ (A\C) und A\(B ∩ C) = (A\B) ∪ (A\C). Beweis: Dies ist eine Übungsaufgabe. 9 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 Sie sollten sich dies ruhig einmal klarmachen, auch wenn es keine Aufgabe auf einem der Übungsblätter ist. Damit haben wir erst einmal genug über Mengen gesagt, und kommen jetzt zum zweiten Thema dieses Kapitels, der sogenannten Aussagenlogik. Unter einer Aussage verstehen wir einen sprachlichen Ausdruck der einen eindeutigen Wahrheitsgehalt hat, also entweder wahr oder falsch ist. Streng genommen sind wir hier eigentlich nur an mathematischen Aussagen interessiert, dies meint Aussagen die nur von mathematischen Objekten handeln. In der Logik betrachtet man auch allgemeinere Aussagen, dies führt aber schnell zu zusätzlichen Komplikationen, die für uns keine Rolle spielen. Beispiele derartiger (mathematischer) Aussagen sind: • 3 + 4 = 7. • 7 · 8 = 44 (Dies ist zwar falsch, aber trotzdem eine Aussage). • Die 5-te Nachkommastelle von π ist 9. Alle diese Ausdrücke sind definitiv, und ohne jeden Verhandlungsspielraum jeweils wahr oder falsch. In einer Hinsicht sind wir dagegen recht großzügig, es ist nicht nötig zu wissen ob eine mathematische Aussage nun wahr oder falsch ist, es kommt nur darauf an, daß sie eines von beiden ist. Beispiele solcher zweifelsfrei mathematischen Aussagen, deren Wahrheitsgehalt wir zur Zeit nicht kennen sind: • Die 1032538 -te Nachkommastelle von π ist eine 7. • Es gibt beliebig große natürliche Zahlen n so, dass unter den ersten n Nachkommastellen von π die 7 genauso oft wie die 3 vorkommt. Diese beiden Aussagen sind sicherlich entweder wahr oder falsch. Bei der ersten Aussage ist es eher unwahrscheinlich das irgendjemand diese Dezimalstelle von π einmal ausgerechnet hat. Im Prinzip kann man durchaus entscheiden ob die Aussage wahr oder falsch ist, es gibt sogar einen Algorithmus der beliebige Dezimalstellen von π berechnen kann ohne dabei die vorhergehenden Stellen berechnen zu müssen. Auch die zweite Aussage ist entweder wahr oder falsch, wir wissen nur nicht was zutrifft, wir können uns sogar ziemlich sicher sein, das man das nie wissen wird. Trotzdem handelt es sich um eine mathematische Aussage in unserem Sinn, denn entweder wahr oder falsch ist sie allemal, auch wenn wir nicht wissen welche dieser beiden Möglichkeiten nun zutrifft. Es gibt verschiedene Konstruktionen aus bereits gegebenen Aussagen A, B neue Aussagen zusammenzusetzen. Diese werden gelegentlich als aussagenlogische Junktoren bezeichnet. Der einfachste dieser Junktoren ist die Verneinung. Ist A eine Aussage, so ist die Verneinung von A die Aussage ¬A, die genau dann wahr ist wenn A falsch ist. Ebenfalls ohne Überraschungen ist die Konjuktion, oder simpler die und“, Aussage. ” Bei dieser sind zwei Aussagen A, B gegeben, und man bildet die neue Aussage A ∧ B, gesprochen als A und B, die genau dann wahr ist wenn beide Aussagen A und B wahr sind. 10 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 Diese Festlegungen sollten nicht besonders überraschend sein. Der nächste unserer Junktoren wird nun die Disjunktion, beziehungsweise oder“ Aussage, sein. Hier gibt es ” ein kleines Detail zu beachten, die Bedeutung der Disjunktion weicht gelegentlich etwas von der sonst üblichen Verwendung dieses Wortes ab. Sind A, B wieder zwei Aussagen, so ist die Disjunktion A ∨ B, gesprochen als A oder B, genau dann wahr wenn eine der beiden Aussagen A, B wahr ist. Hierbei ist immer der Fall erlaubt, dass sogar beide Aussagen A, B wahr sind. Wir hatten bereits früher bemerkt, dass diese Verwendung des Wortes oder“ etwas von der Umgangssprache abweicht. Der Deutlichkeit halber ” können wir Konjunktion und Disjunktion in Form sogenanter Wahrheitstabellen beschreiben. Die Tabellen für Konjunktion und Disjunktion haben dabei die folgende Form: @A A ∨ B: B @ 0 1 0 0 1 1 1 1 A A ∧ B: @ B @ 0 1 0 0 0 1 0 1 In diesen Tabellen schreiben wir 0 für falsch“ und 1 für wahr“. Dies soll nicht etwa ” ” bedeuten, dass die Zahlen 0 und 1 irgendetwas mit wahr“ und falsch“ zu tun haben, ” ” es handelt sich nur um Symbole für diese Begriffe. Alternativ könnten wir auch f und w anstelle von 0 und 1 schreiben. Mit den logischen Junktoren kann man rechnen. Wir wollen hier eine der Rechenregeln für logische Junktoren hervorheben, die sogenannten de Morganschen Regeln für Aussagen. Diese behandeln die Verneinung von und“ beziehungsweise von oder“ aus” ” sagen. Da es sich hier um logische Tatsachen und nicht um mathematischen Aussagen handelt, wollen wir diese Formeln nicht als mathematische Sätze bezeichnen. Die de Morganschen Regeln besagen ¬(A ∧ B) = (¬A) ∨ (¬B) und ¬(A ∨ B) = (¬A) ∧ (¬B) für alle Aussagen A und B. Wir wollen uns die de Morgansche Regel für die Disjunktion einmal klarmachen, die andere Regel kann man sich dann analog überlegen. Die einzige Möglichkeit das die Disjunktion A ∨ B falsch ist, ist wenn A und B gleichzeitig beide falsch sind, wenn also (¬A) ∧ (¬B) wahr ist. Dies bedeutet ¬(A ∨ B) = (¬A) ∧ (¬B). Als eine alternative Begründung kann man sich auch die Wahrheitstafeln anschauen ¬(A ∨ B) : 0 1 0 1 0 1 0 0 (¬A) ∧ (¬B) : 0 1 0 1 0 1 0 0 Wir kommen jetzt zu einem weiteren logischen Junktor, der auch schon komplizierter ist, der sogenannten Implikation. Sind A, B zwei Aussagen, so ist die Aussage A ⇒ B, gesprochen als aus A folgt B“ oder A impliziert B“, wahr wenn mit A auch B stets ” ” wahr ist. In Form einer Wahrheitstafel soll diese Festlegung gerade 11 Mathematik für Physiker I, WS 2010/2011 Freitag 29.10.2010 A A ⇒ B: @ B @ 0 1 0 1 0 1 1 1 bedeuten. Beachte das die Implikation A ⇒ B insbesondere immer dann wahr ist wenn die Voraussetzung A der Implikation falsch ist. Anders gesagt soll aus einer falschen Aussage jede beliebige andere Aussage folgen. Dies erscheint zunächst als eine etwas merkwürdige Festlegung, aber dieser Eindruck sollte bei näherer Betrachtung verfliegen. Umgangssprachlich würde man eine Aussage der Form Wenn morgen das ” Hörsaalgebäude einstürzt, so fällt die Vorlesung aus“, als wahr betrachten unabhängig davon ob das Gebäude morgen noch steht, selbst dann wenn die Vorlesung trotz eines in bestem Zustand befindlichen Hörsaals ausfällt. Ein weiterer Grund für die angegebene Interpretation der Implikation, der für die Mathematik auch erheblich schwerwiegender ist, sind Aussagen in denen Variablen vorkommen. Steht x beispielsweise für eine reelle Zahl, so sollte die Aussage x2 = 4 =⇒ −2 ≤ x ≤ 2 immer wahr sein, unabhängig davon welchen konkreten Wert x jetzt hat, also auch wenn etwa x = 3 oder x = 0 ist. Um eine Implikation A ⇒ B zu beweisen, kann man immer annehmen das die Aussage A wahr ist, denn andernfalls gilt die Implikation sowieso. Als ein Beispiel denken wir uns zwei reelle Zahlen x, y gegeben, und wollen die Implikation x2 = y 2 =⇒ x = y ∨ x = −y beweisen. Dann können wir wie gesagt annehmen, dass überhaupt x2 = y 2 gilt, und es folgt (x + y) · (x − y) = x2 − y 2 = 0, also x + y = 0 oder x − y = 0 da ein Produkt nur Null sein kann, wenn einer der Faktoren Null ist. Dies ergibt weiter x = −y oder x = y. Was ist jetzt die Verneinung der Implikation A ⇒ B? Diese ist genau dann wahr wenn A ⇒ B falsch ist, und hierfür gibt es nur eine einzige Möglichkeit, A muss wahr sein und B muss falsch sein. Als Formel bedeutet dies ¬(A ⇒ B) = A ∧ (¬B). Verwenden wir jetzt noch die offensichtliche Tatsache, dass für jede Aussage X stets ¬¬X = X ist, so erhalten wir mit den de Morganschen Regeln A ⇒ B = ¬¬(A ⇒ B) = ¬(A ∧ (¬B)) = (¬A) ∨ (¬¬B) = (¬A) ∨ B. Insbesondere scheint die Implikation damit auf derselben inhaltlichen Stufe wie und“ ” und oder“ zu stehen, was Sie zumindest irritieren sollte. Dieser Eindruck täuscht auch ” in gewisser Weise, denn der hier verwendete Implikationsbegriff ist rein formaler Natur. 12 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 Es kommt für die Wahrheit von A ⇒ B nur auf den Wahrheitswert der Aussagen A und B an, nicht aber auf die inhaltliche Bedeutung dieser Aussagen. Diesen Implikationsbegriff sollte man nicht mit dem inhaltlichen Folgerungsbegriff verwechseln, dass also eine Aussage B durch logisches Schließen aus einer Aussage A folgt. Bei letzterem kommt es tatsächlich auf die Bedeutung von A und B an. Um eine Implikation zu beweisen, verwendet man dagegen in aller Regel eine inhaltliche Argumentation, wie bereits bemerkt wird A als wahr angenommen und dann auf B geschlossen. Wir führen jetzt eine weitere Schreibweise für mathematische Aussagen ein. Diese haben sehr oft die Form Für alle Elemente x eine gegebenen Menge M gilt eine ” Aussage A(x)“, eine sogenannte Allaussage, oder Es gibt ein Element x der Menge M ” für das A(x) gilt“, eine sogenannte Existenzaussage. Man schreibt ∀(x ∈ M ) : A(x) für Für alle x ∈ M gilt A(x)“. ” Das Symbol ∀“ ist ein sogenannter Allquantor. Entsprechend schreibt sich eine Exi” stenzaussage als ∃(x ∈ M ) : A(x) für Es existiert ein x ∈ M mit A(x)“, ” und hier nennt man ∃“ einen Existenzquantor. Beispielsweise übersetzt sich die Aus” sage Für jede reelle Zahl x existiert eine natürliche Zahl n, die echt größer als x ist“ ” als Formel in ∀(x ∈ R)∃(n ∈ N) : n > x. Ein solcher Ausdruck mit mehreren Quantoren ist dabei immer von links nach rechts zu lesen, ein Ändern der Quantorenreihenfolge ändert auch die Bedeutung der Aussage. Beispielsweise bedeutet ∃(n ∈ N)∀(x ∈ R) : n > x, dass es eine natürliche Zahl n gibt, die echt größer als überhaupt alle reellen Zahlen ist, was natürlich falsch ist. Quantoren desselben Typs kann man vertauschen, und daher werden sie meist in zusammengefasster Form notiert, man schreibt beispielsweise ∀(x, y ∈ R) : y > x > 0 ⇒ y 2 > x2 für ∀(x ∈ R)∀(y ∈ R) : y > x > 0 ⇒ y 2 > x2 . Vorlesung 3, Montag 01.11.2010 Wir haben jetzt Allaussagen ∀(x ∈ M ) : A(x) und Existenzaussagen ∃(x ∈ M ) : A(x) eingeführt. Diese scheinen sich zwar formal recht ähnlich zu sein, inhaltlich unterscheiden sie sich jedoch grundlegend voneinander. Um eine Allaussage ∀(x ∈ M ) : A(x) zu beweisen, muss man sich ein beliebiges Element x ∈ M der zugrundeliegenden Menge 13 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 M vorgeben und für jedes solche die Aussage A(x) beweisen. Es reicht nicht dies für einzelne x ∈ M zu tun. Als ein Beispiel nehmen wir einmal M = N\{0, 1} = {2, 3, 4, . . .} und A(n) = ggT(n5 − 5, (n + 1)5 − 5) = 1 letzteres für jedes n ∈ N. Probieren wir etwa n = 2 so sind n5 −5 = 27 und (n+1)5 −5 = 238 und wir haben ggT(n5 − 5, (n + 1)5 − 5) = 1. Verwenden wir dann einen Computer, so kann man leicht etwa alle Werte 2 ≤ n ≤ 1000000 durchprobieren und die beiden Zahlen n5 − 5 und (n + 1)5 − 5 stellen sich immer als teilerfremd heraus. Als ein Beweis der Aussage ∀(n ∈ M ) : A(n) reicht das aber nicht aus, selbst eine so große Zahl von Beispielen hat keine Beweiskraft. Andererseits reicht ein einzelnes Gegenbeispiel aus die Allaussage zu widerlegen, und nehmen wir etwa n = 1435390, so ist ggT(n5 − 5, (n + 1)5 − 5) = 1968751 > 1. Ganz anders sieht dies bei einer Existenzaussage aus. Um eine Aussage ∃(x ∈ M ) : A(x) zu beweisen, muss man nur ein einziges x ∈ M finden für welches die Aussage A(x) gilt. Idealerweise geschieht dies durch möglichst direkte Angabe solch eines x, aber dies ist nicht zwingend verlangt, es gibt Beispiele bei denen man die Existenz eines x einsehen kann, ohne die geringste Idee zu haben wie man ein solches x konkret beschaffen kann. Von Bedeutung sind oftmals auch die Verneinungen von All- und Existenzaussagen. Überlegen wir uns zunächst wann eine Allaussage ∀(x ∈ M ) : A(x) falsch ist. Wie im obigen Beispiel reicht hierfür ein einzelnes x ∈ M aus so, dass A(x) falsch ist. In anderen Worten ist die Verneinung einer Allaussage eine Existenzaussage, nämlich ¬∀(x ∈ M ) : A(x) = ∃(x ∈ M ) : ¬A(x). Entsprechend ist eine Existenzaussage ∃(x ∈ M ) : A(x) falsch, wenn wir eben kein Element x von M finden können für das A(x) wahr ist, d.h. wenn die Verneinung ¬A(x) für jedes Element x von M wahr ist. Die Verneinung einer Existenzaussage wird damit eine Allaussage ¬∃(x ∈ M ) : A(x) = ∀(x ∈ M ) : ¬A(x). Bei Verneinung drehen sich also All- und Existenzquantoren um, d.h. Allquantoren werden zu Existenzquantoren und Existenzquantoren werden zu Allquantoren. Sind beispielsweise M, N zwei Mengen und A(x, y) eine Aussage über Elemente x ∈ M und y ∈ N , so wird ¬∀(x ∈ M )∃(y ∈ N ) : A(x, y) = ∃(x ∈ M ) : ¬∃(y ∈ N ) : A(x, y) = ∃(x ∈ M )∀(y ∈ N ) : ¬A(x, y). Entsprechend kann man in allen solchen Fällen vorgehen, zum Verneinen werden alle Quantoren umgedreht und die innere Aussage verneint. 14 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 Zum Abschluß wollen wir noch einen Zusammenhang zwischen Aussagen und Mengen beschreiben. Neben den bisher beschriebenen Methoden zur Bildung von Mengen gibt es noch eine weitere Konstruktionsmethode bei der aus einer gegebenen Menge durch eine Bedingung an die Elemente dieser Menge eine Teilmenge ausgewählt wird. Als ein Beispiel nehmen wir einmal die Menge P der Primzahlen. Primzahlen n sind spezielle natürliche Zahlen n ∈ N, und zwar diejenigen die nicht Eins sind und keinen von 1 und n verschiedenen Teiler besitzen. Letzteres ist eine Bedingung A(n) an die Elemente von N, und man schreibt P = {n ∈ N| n 6= 1und es gibt keinen Teiler m von n mit 1 < m < n}. | {z } A(n) Allgemein schreibt man {x ∈ M |A(x)} = Menge aller Element x ∈ M , die die Bedingung A(x) an Elemente von M erfüllen. Beachte das es hier nur erlaubt ist, eine Teilmenge aus einer bereits vorhandenen Grundmenge M auszuwählen. Man ist versucht auch freie Mengenbildungen“ also ” {x|A(x)} für die Menge überhaupt aller mathematischen Objekte x, die die Bedingung A(x) erfüllen, zuzulassen. Diese harmlos aussehende Schreibweise führt aber sofort in verheerende Widersprüche. Der bekannteste solche Widerspruch ist die sogenannte Russelsche Antinomie. Bei dieser versucht man die Menge“ ” R := {x|x ist eine Menge mit x ∈ / x} zu bilden. Es gibt dann zwei Möglichkeiten, entweder ist R ein Element von R oder nicht, und wir wollen beide Möglichkeiten einmal durchgehen. Ist R ∈ R, so ist R nach Definition von R eine Menge die sich nicht selbst als Element enthält, also haben wir R∈ / R. Dies geht natürlich nicht, und damit scheidet diese Möglichkeit aus. Daher muss wohl R ∈ / R gelten. Aber dann ist R ja eine Menge die sich nicht selbst als Element enthält, und dies bedeutet wiederum R ∈ R, und auch diese Möglichkeit scheidet aus. So etwas wie die Menge“ R darf also nicht existieren, und tatsächlich haben wir die ” obige Mengenbildung durch das Bestehen auf einer vorgegebenen Grundmenge auch ausgeschlossen. Natürlich könnte es trotzdem einen komplizierteren Widerspruch geben, der nur unsere erlaubten Mengenbildungen verwendet, aber ein solcher ist bislang nicht aufgetaucht. Auch die Operationen des Schneidens, Vereinigens und Komplementbildens von Mengen lassen sich alternativ über die Bildung von Teilmengen durch Auswahlbedingungen beschreiben. Beispielsweise ist für je zwei Mengen A, B A ∩ B = {x ∈ A|x ∈ B} = {x ∈ B|x ∈ A} = {x|x ∈ A ∧ x ∈ B}. Der letzte dieser drei Ausdrücke sieht dabei wie die eben gerade verbotene freie Mengenbildung aus. In diesem speziellen Fall kann man sie aber doch erlauben, da durch die 15 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 Bedingung A(x) = x ∈ A ∧ x ∈ B“ ja implizit eine Grundmenge gegeben ist. Ebenso ” sind A ∪ B = {x|x ∈ A ∨ x ∈ B}, A\B = {x ∈ A|x ∈ / B}. In diesem Sinne entspricht das Schneiden von Mengen der und“ Verknüpfung von ” Aussagen, und das Vereinigen entspricht der oder“ Verknüpfung. ” $Id: beweise.tex,v 1.4 2011/02/09 08:43:53 hk Exp $ §2 Die Beweismethoden Es gibt drei verschiedene Beweismethoden, der direkte Beweis, der indirekte Beweis und die sogenannte vollständige Induktion. Die ersten beiden Methoden sind sehr allgemeiner Natur während die vollständige Induktion auf Aussagen eines speziellen Typs beschränkt ist. Diese drei Methoden sind nur die prinzipiellen Grundmethoden. Beweise komplizierterer Aussagen setzen sich in der Regel aus vielen kleinen Teilbeweisen zusammen, die dann ihrerseits jeweils eine der Grundmethoden verwenden. Wir beginnen mit dem einfachsten der drei Grundtypen, dem direkten Beweis. Zu zeigen ist eine Implikation A ⇒ B, wobei A die Voraussetzungen sind und B die Behauptung ist. Bei einem direkten Beweis gibt man eine logische Folgerungskette an, die bei den Vorausetzungen A beginnt und mit der Behauptung B endet. Als ein Beispiel für einen direkten Beweis, wollen wir die folgende Behauptung verwenden: x+y √ Für alle x, y ∈ R mit x, y ≥ 0 ist xy ≤ . 2 Die Voraussetzungen A und die Behauptung B sind hier A = x, y ∈ R ∧ x, y ≥ 0, x+y √ B = xy ≤ . 2 Wir wollen an diesem Beispiel auch gleich einen der typischen Anfängerfehler vorführen, und geben daher zunächst einen fehlerhaften Beweis an: √ a+b ab ≤ =⇒ 2 =⇒ =⇒ =⇒ 2 a+b (a + b)2 a2 + 2ab + b2 ab ≤ = = 2 4 4 2 2 4ab ≤ a + 2ab + b a2 − 2ab + b2 ≥ 0 (a − b)2 ≥ 0 ist wahr. 16 (quadrieren) Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 Leider ist das kein Beweis, und zwar weder ein Beweis unserer Behauptung noch von irgend etwas. Für einen direkten Beweis müsste man von der Voraussetzung ausgehend auf die Behauptung schließen, aber hier sind wir anstelle dessen von der Behauptung ausgegangen und haben gezeigt das aus dieser eine wahre Aussage folgt. Dies besagt aber nichts, denn aus einer falschen Aussage folgt ebenso eine wahre Aussage. Die eigentliche Rechnung ist aber schon in gewissen Sinne in Ordnung, sie ist nur falsch organisiert. Was eigentlich gemeint ist, ist dass die letzte Aussage (a − b)2 ≥ 0 wahr ist, und aus dieser folgt dann a2 − 2ab − b2 ≥ 0 und aus dieser folgt weiter 2 (a + b)2 = a2 + 2ab + b2 ≥ p4ab, also (a + b) /4 ≥ ab, und das Ziehen der Wurzel ergibt schließlich (a + b)/2 ≥ (ab). Die korrekte Schlußrichtung ist hier also von unten nach oben, wir müssen den falschen Beweis nur umdrehen um den korrekten Beweis zu erhalten. Die korrigierte Version ist somit wie folgt. Es gilt a2 − 2ab + b2 = (a − b)2 ≥ 0, und Addition mit 4ab liefert (a + b)2 = a2 + 2ab + b2 = a2 − 2ab + b2 + 4ab ≥ 4ab, 2 also (a + √b) /4 ≥ 4. Die Monotonie der Wurzel liefert schließlich die Behauptung (a + b)/2 ≥ ab. Damit haben wir einen direkten Beweis unserer Behauptung angegeben. In diesem Beispiel sehen wir auch, dass die logische Reihenfolge in einem Beweis von der Reihenfolge der eigentlichen Überlegungen abweichen kann, auch wenn dies nicht immer so extrem wie in diesem Beispiel ist. Wir hatten früher schon bemerkt, dass ein Beweis nicht nur die Korrektheit einer Aussage belegen soll, sondern diese auch erklären soll. Dagegen ist es nicht die Aufgabe eines Beweises zu dokumentieren wie man auf den Beweis oder die Aussage kommt. Soviel zum direkten Beweis. Wir kommen jetzt zur zweiten Beweismethode, dem indirekten Beweis oder Widerspruchsbeweis. Auch bei diesen ist eine Aussage A ⇒ B zu beweisen. Wie immer beim Beweis einer Implikation nehmen wir an, dass die Aussage A gilt, und bei einem Widerspruchsbeweis nehmen wir weiter an, dass die Aussage B falsch ist. Dann wird aus der Aussage A ∧ (¬B) ein Widerspruch hergeleitet, d.h. wir finden eine Aussage C von der wir zeigen können das sowohl C als auch die Verneinung ¬C wahr sind. Da dies nicht möglich ist, muss die Annahme das B falsch ist selbst falsch gewesen sein, d.h. B ist wahr. √ Das Urbeispiel eines Widerspruchsbeweises ist der Beweis der Irrationalität von 2. Die zu beweisende Aussage ist hier √ B: 2∈ / Q. √ Nehmen wir also an B wäre falsch, d.h. es ist √ 2 ∈ Q. Da rationale Zahlen definitionsgemäß Brüche ganzer Zahlen √ sind, und da 2 > 0 ist, gibt es dann natürliche Zahlen p, q ∈ N mit p, q ≥ 1 und 2 = p/q. Durch Auskürzen kann man weiter annehmen das p und q keine gemeinsamen Teiler haben. Dies ist dann unsere Aussage C: p und q haben keine gemeinsamen Teiler mit der wir einen Widerspruch erhalten werden. Hierzu rechnen wir 2 √ 2 p p2 2= 2 = = 2, q q 17 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 und somit ist auch p2 = 2q 2 . Damit ist p2 ein Vielfaches von 2, also gerade. Andererseits sind Produkte ungerader Zahlen wieder ungerade, und damit muss p selbst gerade sein, da sonst p2 ungerade wäre. Damit erhalten wir die natürliche Zahl r := p ∈N 2 mit p = 2r. Setzen wir dies in unsere Gleichung ein, so folgt 2q 2 = p2 = (2r)2 = 4r2 , also auch q 2 = 2r2 . Genau wie bei p muss q damit gerade sein. Somit ist 2 aber ein gemeinsamer √ Teiler von p und q, wir haben also ¬C. Dies ist ein Widerspruch, und somit ist 2 tatsächlich irrational. Während der direkte und der indirekte Beweis auf ganz allgemeine Aussagen anwendbar sind, ist die dritte, jetzt zu diskutierende, Beweismethode nur für eine spezielle Sorte von Aussagen verwendbar. Die vollständige Induktion ist ein Beweisverfahren, um Aussagen über alle natürlichen Zahlen zu beweisen, genauer geht es um Allaussagen der Form ∀(n ∈ N) : A(n), wobei A(n) eine Aussage über natürliche Zahlen n ist. Ein Beispiel einer solchen Aussage ist n(n + 1) A(n) : 1 + 2 + 3 + · · · + n = 2 für n ∈ N. Dabei interpretieren wir die bei n = 0 auftretende leere Summe als Null. Ein Induktionsbeweis erfolgt in zwei Schritten: 1. Induktionsanfang: Zeige das die Aussage A(0) gilt. 2. Induktionsschritt: Hier ist zu zeigen, dass aus A(n) für n ∈ N auch A(n + 1) folgt, d.h es ist die Allaussage ∀(n ∈ N) : A(n) ⇒ A(n + 1) zu beweisen. Den Induktionsschritt unterteilt man meistens in zwei Teile: (a) Induktionsannahme: Sei n ∈ N mit A(n) gegeben. (b) Induktionsschritt: Zeige, dass auch A(n + 1) gilt. Haben wir Induktionsanfang und Induktionsschritt erfolgreich durchgeführt, so besagt das Prinzip der vollständigen Induktion, dass die Aussage A(n) für jedes n ∈ N wahr ist. Ein häufiges Mißverständnis besteht darin zu glauben, dass man beim Induktionsschritt bereits weiss das A(n) wahr ist. Dies ist aber nicht der Fall, alles was gezeigt wird ist die Implikation A(n) ⇒ A(n + 1) und wie immer beim Beweis einer Implikation kann man annehmen das die Voraussetzung der Implikation, also A(n), wahr ist denn andernfalls ist die Implikation sowieso wahr. Als ein Beispiel wollen wir die Formel 1 + ··· + n = 18 n(n + 1) 2 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 für alle n ∈ N per vollständiger Induktion beweisen. Dies bedeutet die Gültigkeit von ∀(n ∈ N) : A(n) mit der Aussage A(n) : 1 + 2 + 3 + ... + n = n(n + 1) 2 für n ∈ N. Induktionsanfang: Der Induktionsanfang ist A(0) : 0= 0 · (0 + 1) , 2 was sicherlich wahr ist. Induktionsannahme: Sei n ∈ N mit 1 + · · · + n = n(n+1) . 2 Induktionsschritt: Wir müssen einsehen das auch A(n + 1), also 1 + · · · + (n + 1) = (n + 1)(n + 2) 2 wahr ist. Mit der Induktionsannahme ergibt sich n(n + 1) + (n + 1) 2 n(n + 1) + 2(n + 1) (n + 1)(n + 2) = = , 2 2 1 + · · · + (n + 1) = (1 + · · · + n) + (n + 1) = und der Induktionsschritt ist durchgeführt. Per vollständiger Induktion ist damit A(n) für alle n ∈ N bewiesen. Überlegen wir uns kurz warum ein Induktionsbeweis funktioniert. Im Induktionsanfang wird A(0) nachgewiesen und im Induktionsschritt wird weiter A(n) ⇒ A(n + 1) für alle n ∈ N gezeigt. Mit n = 0 wissen wir insbesondere A(0) ⇒ A(0 + 1) = A(1), d.h. A(0) und die Implikation A(0) ⇒ A(1) sind wahr und somit ist auch A(1) wahr. Mit n = 1 haben wir dann auch A(1) ⇒ A(1 + 1) = A(2) und da wir A(1) bereits eingesehen haben, ist auch A(2) wahr. So fortfahrend sind dann auch A(3), A(4), . . ., und immer so weiter, wahr. Da wir so bei jeder natürlichen Zahl n ∈ N vorbeikommen ist A(n) für jedes n ∈ N wahr. Dies sollte Sie von der Gültigkeit der Methode der vollständigen Induktion überzeugen. Es ist allerdings kein exaktes Argument für diese, da wir das Problem in dem harmlos aussehenden und so weiter“ versteckt haben. ” Bevor wir mit der vollständigen Induktion fortfahren, wollen wir noch eine nützliche Abkürzung einführen, das sogenannte Summenzeichen. Man schreibt beispielsweise für n∈N n X k = 1 + 2 + · · · + n. k=1 19 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 Das große Sigma ist hier das P Summenzeichen und k der sogenannte Summationsindex. Das Summenzeichen nk=1 ak wird so interpretiert das k die Werte von 1 bis n durchläuft, für jedes solche k die Zahl ak gebildet wird und alle diese Zahlen aufsummiert werden. Beispielsweise sind 6 X k 2 = 32 + 42 + 52 + 62 = 9 + 16 + 25 + 36 = 86 oder 4 X 1 k=3 k=1 k = 1+ 1 1 1 25 + + = . 2 3 4 12 Oftmals läßt man den Summationsindex auch über eine kompliziertere Menge laufen, die dann in der Regel unterhalb des Summenzeichens beschrieben wird, beispielsweise X 1≤k≤10 k Primzahl 1 1 1 1 1 126 = + + + = . k 2 3 5 7 110 Der Summationsindex ist eine der letztes Mal erwähnten formalen Variablen, insbesondere gibt es ihn nur innerhalb der Summe und nicht außerhalb. Bei komplexeren Summen dürfen auch mehrere Summationsindizes gleichzeitig verwendet werden, beispielsweise 1 1 1 1 1 1 47 1 = + + = + + = . i+j 1+2 1+3 2+3 3 4 5 60 1≤i<j≤3 X Hier durchlaufen die Summationsindizes i, j die möglichen Werte (i, j) = (1, 2), (1, 3) und (2, 3). Sind a1 , . . . , an , b1 , . . . , bn und c beliebige Zahlen, so gelten offenbar n X (ak + bk ) = n X ak + k=1 k=1 n X (cak ) = c · k=1 n X n X bk und k=1 ak . k=1 Entsprechende Formeln gelten dann natürlich auch für die Summation über kompliziertere Indexbereiche. Wir wollen jetzt auch noch eine kleine Variante der vollständigen Induktion besprechen, bei der eine Aussage A(n) nicht unbedingt für alle n ∈ N bewiesen wird sondern für alle n ab einem Startwert n0 ∈ N. Zu beweisen ist also die Allaussage ∀(n ∈ N, n ≥ n0 ) : A(n), und für eine vollständige Induktion müssen die folgenden drei Bestandteile durchgeführt werden: Induktionsanfang: Die Aussage A(n0 ) ist wahr. Induktionsannahme: Sei n ∈ N mit n ≥ n0 und A(n). 20 Mathematik für Physiker I, WS 2010/2011 Montag 01.11.2010 Induktionsschritt: Zeige das dann auch A(n + 1) gilt. Beachte das wir in der Induktionsannahme zusätzlich zu A(n) auch noch annehmen das n ≥ n0 ist, dies kann durchaus wesentlich sein. Haben wir die obigen drei Schritte durchgeführt, so besagt das Prinzip der vollständigen Induktion, dass die Aussage A(n) für alle n ∈ N mit n ≥ n0 gilt. Als ein Beispiel wollen wir die Aussage 2n > n2 für n ∈ N untersuchen. Diese ist nicht für jedes n ∈ N wahr, für die kleinen Werte von n haben wir n 2n n2 0 1 0 1 2 1 2 4 4 3 8 9 4 16 16 5 32 25 und somit versuchen wir unser Glück mit dem Startwert n0 = 5. Wir wollen also 2n > n2 für alle n ∈ N mit n ≥ 5 beweisen. Unsere Aussage A(n) ist hier A(n) : 2n > n 2 . Wir führen die vollständige Induktion durch Induktionsanfang: Es ist 25 = 32 > 25 = 52 , also gilt A(5). Induktionsannahme: Sei n ∈ N mit n ≥ 5 und 2n > n2 gegeben. Induktionsschritt: Da insbesondere n ≥ 3 ist haben wir dann n2 = n · n ≥ 3n = 2n + n > 2n + 1. Es folgt 2n+1 = 2 · 2n > 2n2 = n2 + n2 > n2 + 2n + 1 = (n + 1)2 , und wir haben auch A(n + 1) eingesehen. Per vollständiger Induktion ist damit 2n > n2 für alle n ∈ N mit n ≥ 5 bewiesen. In den allermeisten Fällen ist der Induktionsanfang wie in diesen Beispielen eine recht banale Angelegenheit. Trotzdem ist er unverzichtbar, der Induktionsschluß kann auch bei falschen Aussagen funktionieren. Nehmen wir einmal die offensichtlich unsinnige Aussage n > n + 1 als unser A(n). Ist dann n ∈ N mit A(n), also n > n + 1, so folgt durch Addition mit Eins auch n + 1 > (n + 1) + 1, also A(n + 1). Der Induktionsschluß ist hier also problemlos möglich, der Anfang natürlich nicht. Dies ist kein seltenes Phänomen, nehmen Sie einmal an die Aussage A(n) ist für jedes n ∈ N falsch. Da aus falschem alles folgt, gilt dann A(n) ⇒ A(n + 1) für jedes n ∈ N, der Induktionsschluß funktioniert also immer wenn die Aussage A(n) niemals richtig ist. $Id: funktion.tex,v 1.9 2011/08/17 11:00:32 hk Exp $ 21 Mathematik für Physiker I, WS 2010/2011 §3 Freitag 05.11.2010 Funktionen Vorlesung 4, Freitag 05.11.2010 Dieses Kapitel ist das letzte der vorbereitenden, allgemeinen Kapitel und wir wollen uns mit dem Funktionsbegriff beschäftigen. Während wir bisher fast nur logische Konzepte oder mathematische Grundbegriffe besprochen haben, werden wir Funktionen wirklich exakt definieren können, wie wir sehen werden wird der Funktionsbegriff auf den Mengenbegriff zurückgeführt. Als Vorbereitung hierzu erinnern wir zunächst an die aus der Schule vertraute Definition“ einer Funktion. y ” Dort hatte man zwei Variablen x, y wobei der Wert einer y (x,y)=(x,f(x)) der beiden Variablen von der anderen abhing. Normalerweise verwendet man y als diese abhängige Variable und bezeichnet y als eine Funktion von x, symbolisch oft gex schrieben als y = f (x). Dabei muss jedem Wert von x x genau ein Wert von y entsprechen, in anderen Worten hängt y über eine eindeutige Zuordnungsvorschrift“ von x ab. Typischerweise war ” diese Zuordnungsvorschrift dabei einfach eine Formel in der x als freie Variable vorkommt. Graphisch konnte man sich die Funktion dann durch ihren Funktionsgraphen veranschaulichen, d.h. man trägt auf der horizontalen Achse die x-Werte ab und auf der vertikalen das zugehörige y = f (x). Die Menge all der Punkte auf diesem Graphen liefert dann eine Teilmenge graph(f ) = {(x, f (x))|x ∈ dom(f )} beziehungsweise graph(f ) = {(x, y)|x ∈ dom(f ), y = f (x)} der Ebene, wobei dom(f ) die Menge all derjenigen Werte von x ist für die y = f (x) definiert ist, der sogenannte Definitionsbereich der Funktion. Beachte das wir den Punkt P der Ebene mit x-Koordinate a und y-Koordinate b einfach als P = (a, b) schreiben, in der Schule populäre Schreibweisen wie P (a|b) werden in der Mathematik nicht verwendet. Durch den Graphen einer Funktion f ist die Funktion vollständig festgelegt, um den Funktionswert y = f (x) zu ermitteln bilden wir die vertikale Gerade durch (x, 0) und diese schneidet den Graphen im Punkt (x, y). Wie bereits bemerkt ist die Zuordnungsvorschrift oftmals einfach eine Formel in x, beispielsweise y = x2 +1 oder y = sin x. In der Schule wurde dann leider der Unterschied zwischen der definierenden Formel und der Funktion verwischt, eine Funktion ist keine 22 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 Formel, Formeln können nur umgekehrt zur Definition von Funktionen verwendet werden. Tatsächlich reichen derartige Funktionen nicht aus, man braucht zumindest noch solche Funktionen die in mehreren Stücken definiert sind, etwa H(x) f(x) x=1 ( x=1/2 2x, 0 ≤ x ≤ 12 , y = f (x) = 2 − 2x, 21 ≤ x ≤ 1 x x=0 ( 0, x < 0, y = H(x) = . 1, x ≥ 0 Die Funktion H(x) ist die sogenannte Heaviside-Funktion und tritt gelegentlich bei der Behandlung von Einschaltvorgängen auf. In Anwendungssituationen tauchen dann noch weitere Funktionsarten auf, beispielsweise Funktionen die nicht durch irgendeine Formel gegeben sind sondern von einigen Meßergebnissen gebildet werden. Derartige Funktionen sind dann zunächst nur in endlich vielen Punkten definiert, es können ja nur endlich viele Messungen wirklich durchgeführt werden, und will man die Funktion auch in anderen Punkten auswerten so geschieht dies durch eine für die konkrete Situation geeignete Form von Interpolation. Wieder andere Funktionen sind durch das Ein/Ausgabeverhalten irgendwelcher realer Apperaturen definiert, und manche entstehen sogar indem einfach ihr Graph hingemalt wird. Wie sie sehen, deckt dieser reale Funktionsbegriff“ eine Vielfalt verschiedenartiger ” Situationen ab. Der nun einzuführende mathematische Funktionsbegriff soll all diese verschiedenen Funktionstypen umfassen und zugleich eine exakte mathematische Definition sein. Dies wird möglich indem der eigentliche Zuordnungsvorgang völlig ignoriert wird. Man betrachtet nur noch den fertigen Funktionsgraph und verwendet diesen zur Definition einer Funktion. Wenn Sie so wollen, nimmt man die Idee, das Funktionen durch Hinmalen des Graphen definiert werden können, ernst. Es tritt zuvor nur noch eine kleine zusätzliche Schwierigkeit auf. Bisher haben wir nur Funktionen betrachtet die reelle Argumente und reelle Werte haben und der Graph war dann eine Menge von Punkten der Ebene. Mit reellwertigen Funktionen einer reellen Variable kommt man aber nicht aus, beispielsweise ordnet ein elektrisches Feld ja jedem Punkt des betrachteten Raumgebiets einen Vektor zu, die beschreibende Funktion hat also dreidimensionale Punkte als Argumente und dreidimensionale Vektoren als Werte. Auch so etwas soll mit unserem Funktionsbegriff erfasst werden, wir wollen sogar erlauben das die Argumente x aus einer völlig beliebigen Menge M kommen und die Werte y = f (x) aus einer ebenfalls völlig beliebigen Menge N sind. Als Ersatz für die Ebene nehmen wir das wie folgt definierte Produkt der Mengen M und N . Definition 3.1 (Cartesisches Produkt von Mengen) Seien M und N zwei Mengen. Das cartesische Produkt von M und N ist dann die Menge M × N := {(x, y)|x ∈ M, y ∈ N }. 23 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 Manchmal spricht man auch kürzer einfach vom Produkt der beiden Mengen M und N . Wir denken uns anschaulich M × N als eine Ebene“ deren horizontale x-Koordinaten ” aus der Menge M kommen und deren vertikale y-Koordinaten aus der Menge N kommen. Wir wollen einige Beispiele cartesischer Produkte behandeln: 1. Das Produkt R2 := R × R ist die Menge aller Paare (x, y) reeller Zahlen x, y ∈ R, also die Ebene. 2. Ebenso ist R3 := R × R × R die Menge aller Tripel (x, y, z) reeller Zahlen x, y, z ∈ R, und wir können uns den R3 als den dreidimensionalen Raum denken. Streng genommen ist dies durch die Definition des cartesischen Produkts gar nicht abgedeckt, da wir hier drei statt zwei Faktoren haben, wir denken uns etwas genauer R3 = (R × R) × R. Die Elemente sind dann eigentlich von der Form ((x, y), z) mit x, y, z ∈ R. Zur Vereinfachung der Notation entscheiden wir uns dann dazu die inneren Klammern nicht mitzuschreiben. 3. Noch allgemeiner kann man für jedes n ∈ N mit n ≥ 1 auch den n-dimensionalen Raum Rn = R · · × R} | × ·{z n mal einführen. Der Begriff Dimension“ wird hier in einem sehr prosaischen Sinne ver” wendet, man denkt nicht an irgendwelche zusätzlichen Raumdimensionen sondern einfach an Dinger zu deren Beschreibung man n reelle Zahlen braucht. Das mathematische Wort Dimension“ ist also das was sie in der Physik als die Anzahl ” der Freiheitsgrade bezeichnen. 4. Das cartesische Produkt Z × Z der Menge Z der ganzen Zahlen mit sich selbst ist die Menge aller Punkte der Ebene mit ganzzahliger x- und y-Koordinate, also ein unendlich ausgedehntes Gitter in der Ebene y=2 y=1 y=0 y=−1 y=−2 x=−2 x=−1 x=0 x=1 x=2 5. Als ein ganz konkretes Beispiel nehmen wir jetzt die beiden Mengen M = {1, 2} und N = {2, 3}. Für die beiden Komponenten der Punkte im cartesischen Produkt M × N gibt es dann jeweils zwei Möglichkeiten und das Produkt hat damit vier Punkte, nämlich M × N = {(1, 2), (1, 3), (2, 2), (2, 3)}. 24 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 Wie schon bemerkt wollen wir Funktionen von einer Menge M in eine Menge N als Graphen definieren, also als Teilmengen des cartesischen Produkts M × N . Nun ist aber nicht jede Teilmenge von M × N als Graph einer Funktion geeignet. Einen jeden Wert x ∈ M soll genau ein Wert y ∈ N zugeordnet werden, d.h. die vertikale Gerade“ {(x, y)|y ∈ N } sollte den Graphen in genau einem Punkt treffen, ” es sollte also nicht die rechts abgebildete Situation vorliegen. Dies führt uns auf die folgende Definition von Funktionen. N x M Definition 3.2: Seien M, N zwei Mengen. Eine Funktion oder Abbildung f : M → N ist eine Teilmenge f ⊆ M × N so, dass es für jedes x ∈ M genau ein y ∈ N mit (x, y) ∈ f gibt. Man nennt die Menge M dann den Definitionsbereich der Funktion f und schreibt dom(f ) = M und für jedes x ∈ M wird das eindeutige Element y ∈ N mit (x, y) ∈ f mit dem Symbol y = f (x) bezeichnet. Anstelle der Schreibweise f (x) für den Funktionswert von x ∈ M unter f finden Sie in der Literatur manchmal auch f x, also ohne die Klammern um das Argument, oder die Postfix Schreibweise xf . Die Schreibweise ohne Klammern ist beispielsweise bei einigen der Grundfunktionen, etwa beim Logarithmus ln oder bei den trigonometrischen Funktionen üblich, also etwa ln x statt ln(x). Man sollte dies aber auf einfache Argu” mente“ beschränken, also beispielsweise nicht ln xy da nicht klar ist, ob dies ln(x) · y oder ln(xy) meint. Bei den trigonometrischen Funktionen werden Klammern traditionell sehr großzügig weggelassen, so wird etwa sin 2x in den allermeisten Fällen sin(2x) bedeuten und nicht sin(2) · x. Weil diese sich in Beispielen am einfachsten behandeln lassen, werden wir sehr häufig durch explizite Zuordnungsvorschriften definierte Funktionen verwenden. Diese Funktionen notieren wir in der folgenden Form f : M → N ; x 7→ f (x), gelesen als f von M nach N , x wird abgebildet auf“. Die links und rechts vom Pfeil ” stehenden Mengen M und N geben den Definitionsbereich der Funktion f beziehungsweise ihr Ziel an. Darauf folgt die eigentliche Abbildungsvorschrift. Die Variable x ist hier eine formale Variable, taucht also nur gebunden innerhalb der Funktionsdefinition auf. Rechts vom Abbildungspfeil 7→“ steht dann die eigentliche Abbildungsvorschrift. ” Da wir noch reichlich Funktionen sehen werden, beschränken wir uns jetzt auf zwei kleine Beispiele. Zunächst eine Funktion, deren Abbildungsvorschrift eine einfache Formel ist f : R → R; x 7→ x2 + 1. Es ist also f (x) = x2 + 1 für jedes x ∈ R. Auf zwei kleine Details wollen wir noch besonders hinweisen. Zum einen sollten Sie die Formel x2 + 1“ nicht mit der Funktion ” f verwechseln, eine Formel kann zur Beschreibung einer Funktion verwendet werden, sie ist aber keine Funktion. Zum anderen gibt es einen wesentlichen Unterschied zwischen 25 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 f und f (x). Dabei ist f die Funktion selbst, aber f (x) ist, bei gegebenen x ∈ M , ein konkreter Wert der Funktion, also ein Element von N . Insbesondere ist f streng genommen etwas anderes als f (x). Gelegentlich, vor allen in informellen Kontext, ist es bequem diesen Unterschied zu verwischen, also f (x) für f zu schreiben. Wir kommen zum angekündigten zweiten Beispiel, und in diesem haben wir noch immer eine explizite Zuordnungsvorschrift, diese ist aber schon von etwas komplizierterer Natur 0, x = 0 oder x ∈ / Q, p f : R → Q; x 7→ 1 q , x ∈ Q und x = mit teilerfremden p ∈ Z, q ∈ N\{0}. q Die Zuordnungsvorschrift ist wie folgt zu lesen: Bei gegebenen x ∈ R schaue zunächst ob x = 0 ist oder ob x irrational ist. Wenn ja, ist der Funktionswert f (x) = 0. Andernfalls kann man x = p/q als Bruch mit ganzzahligen Zähler p und von Null verschiedenen, natürlichen Nenner q schreiben, und durch eventuelles Auskürzen können p und q als teilerfremd angenommen werden. Dann sind p und q durch x eindeutig festgelegt, und wir können f (x) := 1/q definieren. Beispielsweise sind √ 4 2 1 f ( 2) = 0, f (1) = 1, f (0, 4) = f =f = . 10 5 5 Das zweite Beispiel ist natürlich keine besonders nützliche Funktion, sie dient uns nur als ein Beispiel einer komplizierten Zuordnungsvorschrift und hat keine weitere Bedeutung. Mit Funktionen kann man in gewissen Umfang rechnen indem sie hintereiander ausgeführt werden. Definition 3.3 (Hintereinanderausführung von Funktionen) Seien f : A → B, g : B → C zwei Funktionen. Die Hintereinanderausführung oder Komposition von f und g ist dann die Funktion g ◦ f : A → C; x 7→ g(f (x)). Ist beispielsweise g durch eine Zuordnungsvorschrift x 7→ g(x) gegeben, so entsteht die Zuordnungsvorschrift der Hintereinanderausführung g ◦ f indem f (x) für x in die Zuordnungsvorschrift eingesetzt wird. Wir behandeln zwei Beispiele: 1. Seien f : R → R; x 7→ x3 + 1 und g : R → R; x 7→ x2 + x − 2. Dann ist für jedes x ∈ R g ◦ f (x) = g(f (x)) = f (x)2 + f (x) − 2 = (x3 + 1)2 + (x3 + 1) − 2 = x6 + 2x3 + 1 + x3 − 1 = x6 + 3x3 . 26 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 2. Im zweiten Beispiel wollen wir umgekehrt eine gegebene Funktion als Hintereinanderausführung zweier einfacherer Funktionen schreiben. Für jedes x ∈ R haben wir das Additionstheorem cos(2x) = 2 cos2 x − 1 und hier kommt auf der rechten Seite nur noch cos x aber kein isoliertes x vor. Man kann also für x ∈ R stets cos(2x) = T2 (cos x) mit dem Polynom T2 (x) = 2x2 − 1 schreiben. Ist also f : R → R; x 7→ cos(2x), so ist f = T2 ◦ cos. Ebenso ist für jedes x ∈ R auch cos(3x) = 4 cos3 x − 3 cos x = T3 (cos x) mit T3 (x) = 4x3 − 3x, d.h. die Funktion f : R → R; x 7→ cos(3x) ist eine Hintereinanderausführung f = T3 ◦ cos. Wir wollen noch ein wichtiges Lemma über die Hintereinanderausführung von Funktionen festhalten. Lemma 3.1 (Assoziativgesetz der Hintereinanderausführung) Seien f : A → B, g : B → C und h : C → D drei Funktionen. Dann gilt (h ◦ g) ◦ f = h ◦ (g ◦ f ). Beweis: Beachte das zwei Funktionen offenbar genau dann gleich sind, wenn sie denselben Definitionsbereich haben und jedes Element dieses Definitionsbereichs auf denselben Wert abbilden. Wir haben dom((h ◦ g) ◦ f ) = A = dom(g ◦ f ) = dom(h ◦ (g ◦ f )) und für jedes x ∈ A gilt (h ◦ g) ◦ f (x) = h ◦ g(f (x)) = h(g(f (x))) = h(g ◦ f (x)) = h ◦ (g ◦ f )(x). Aus dem Assoziativgesetz folgt, dass man auch beliebig lange Ketten von Hintereinanderausführungen beliebig umklammern kann ohne die Gesamtfunktion zu ändern, d.h. man kann die Klammern auch einfach weglassen, da sie sowieso keinen Einfluss auf das Ergebnis haben. Als letztes Thema in diesem Kapitel steuern wir jetzt den Begriff einer Umkehrfunktion an. Haben wir eine Funktion y = f (x), so soll die Umkehrfunktion zu f umgekehrt aus dem Wert y das Argument x ermitteln. Das ist natürlich nicht immer möglich. Was immer möglich ist, ist die Bildung der sogenannten Urbildmengen unter einer Funktion. 27 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 Definition 3.4: Seien f : M → N eine Funktion und B ⊆ N eine Teilmenge. Dann heißt die Menge f −1 (B) := {x ∈ M |f (x) ∈ B} das Urbild von B unter f . Beachte das hierdurch keine Funktion f −1 : N → M definiert wird, anstelle dessen wird jeder Teilmenge von N eine Teilmenge von M zugeordnet. Für y ∈ N schreibt man oft f −1 (y) := f −1 ({y}) = {x ∈ M |f (x) ∈ {y}} = {x ∈ M |f (x) = y}, aber dies ordnet y eben kein Element von M zu, ist also keine Umkehrfunktion. Wir besprechen zwei kleine Beispiele. Zunächst betrachte die Funktion f : R → R; x 7→ x2 , und wir wollen einige Urbildmengen berechnen. Es sind f −1 (1) = {x ∈ R|x2 = 1} = {−1, 1}, f −1 (0) = {x ∈ R|x2 = 0} = {0}, f −1 (−1) = {x ∈ R|x2 = −1} = ∅. Als Urbilder einzelner Elemente können also einelementige, zweielementige und die leere Teilmenge von R vorkommen. Als ein zweites Beispiel betrachten wir die Sinusfunktion sin : R → R. Dann ist beispielsweise sin−1 (0) = {x ∈ R| sin x = 0} = {0, ±π, ±2π, ±3π, . . .} = {nπ|n ∈ Z}, wobei wir für die Argumente der trigonometrischen Funktionen wie immer das Bogenmaß verwenden. Ein etwa komplizierteres Beispiel ist das Urbild sin−1 (R≥0 ) = {x ∈ R| sin x ≥ 0} = [0, π] ∪ [2π, 3π] ∪ [−2π, −π] ∪ · · · , für das Sie sich am besten einmal den Sinus hinmalen. Dabei steht [0, π] = {x ∈ R|0 ≤ x ≤ π} für die Menge aller reellen Zahlen zwischen Null und π, und entsprechend sind die Mengen [2π, 3π] und [−2π, −π] zu interpretieren. Wie schon bemerkt ist unser momentanes Ziel die Behandlung der Umkehrfunktionen. Die Funktion f : M → N hat eine Umkehrfunktion wenn die Urbildmengen f −1 (y) für jedes y ∈ N einelementig sind, oder äquivalent wenn jede Gleichung f (x) = y mit y ∈ N eine eindeutige Lösung x ∈ M hat. Es stellt sich als sinnvoll heraus neben dieser Eigenschaft auch noch diejenigen Funktionen zu betrachten, für die f (x) = y für jedes y ∈ N mindestens eine, beziehungsweise höchstens eine, Lösung hat. Definition 3.5 (Injektive und surjektive Funktionen) Sei f : M → N eine Funktion. Dann heißt die Funktion f 28 Mathematik für Physiker I, WS 2010/2011 Freitag 05.11.2010 (a) injektiv wenn es für jedes y ∈ N höchstens ein x ∈ M mit f (x) = y gibt. (b) surjektiv wenn es für jedes y ∈ N stets ein x ∈ M mit f (x) = y gibt. (c) bijektiv wenn f injektiv und surjektiv ist, d.h. für jedes y ∈ N gibt es genau ein x ∈ M mit f (x) = y. In (b) ist mit ein“ dabei mindestens ein“ gemeint, dies ist die in der Mathematik ” ” übliche Konvention das man sich bei solchen Zahlangaben immer implizit ein min” destens“ dazu denken muss. Andernfalls würde man von genau einem“ sprechen. Die ” Injektivitätsbedingung läßt sich noch auf verschiedene Arten umformulieren, beispielsweise f : M → N injektiv ⇐⇒ ∀(x1 , x2 ∈ M ) : f (x1 ) = f (x2 ) ⇒ x1 = x2 . In der Tat, dass f (x) = y für jedes y ∈ N höchstens eine Lösung x ∈ M hat, bedeutet das je zwei Lösungen von f (x) = y gleich sind, d.h. für jedes y ∈ N und alle x1 , x2 ∈ M mit f (x1 ) = f (x2 ) = y ist x1 = x2 . Dass dies für jedes y ∈ N so ist, ist dann gerade die Gültigkeit der obigen Aussage. Manchmal ist es bequemer die gleichwertige Formulierung f : M → N injektiv ⇐⇒ ∀(x1 , x2 ∈ M ) : x1 6= x2 ⇒ f (x1 ) 6= f (x2 ) zu verwenden. Wir kommen zu ein paar Beispielen. 1. Sei f : R → R; x 7→ x2 . Diese Funktion ist nicht surjektiv, denn für jedes x ∈ R ist f (x) = x2 ≥ 0, also insbesondere f (x) 6= −1. Damit hat die Gleichung f (x) = −1 keine Lösung x ∈ R und f ist nicht surjektiv. Außerdem ist f auch nicht injektiv, denn es ist beispielsweise f (−1) = (−1)2 = 1 = 12 = f (1). 2. Nun betrachten wir die ähnliche Situation f : R → R≥0 ; x 7→ x2 , und diesmal ist f surjektiv. Denn ist y ∈ R≥0 , also y ∈ R mit y ≥ 0, so haben wir √ eine Wurzel x := y mit f (x) = x2 = y. Allerdings ist f weiterhin nicht injektiv. 3. Nun sei f : R≥0 → R; x 7→ x2 , d.h. diesmal betrachten wir nur nichtnegative Argumente. Wie im ersten Beispiel ist f dann nicht surjektiv. Diesmal ist f aber injektiv. Seien nämlich x1 , x2 ∈ R≥0 mit f (x1 ) = f (x2 ) gegeben, also x21 = x22 . Dann ist x2 = ±x1 und wegen x1 , x2 ≥ 0 muss sogar x1 = x2 sein. 29 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 4. Schließlich sei f : R≥0 → R≥0 ; x 7→ x2 . Genau wie im zweiten und dritten Beispiel folgt dann das f surjektiv und injektiv ist, also insgesamt bijektiv ist. Diese vier Beispiele zeigen uns zum einen das es für Surjektivität und Injektivität ganz entscheidend auf den Definitionsbereich und die Zielmenge einer Funktion ankommt. Außerdem liefern sie uns Beispiele für weder injektive noch surjektive, für injektive aber nicht surjektive, für surjektive aber nicht injektive und für surjektive und injektive Funktionen. Wir behandeln noch ein allerletztes Beispiel, nämlich die Funktion f : R\{−1} → R\{1}; x 7→ x−1 . x+1 Beachte das für x ∈ R mit x 6= −1 stets x − 1 6= x + 1 also f (x) 6= 1 ist, es handelt sich also wirklich um eine Abbildung zwischen den angegebenen Mengen. Wir wollen uns überlegen ob f surjektiv, injektiv oder gar bijektiv ist. Bei solchen durch Formeln gegebene Funktionen kann man dies oft durch direkte Rechnung entscheiden. Wir müssen y ∈ R mit y 6= 1 betrachten und uns das Lösungsverhalten der Gleichung y = f (x) = x−1 x+1 für x ∈ R\{−1} anschauen. Es ist y= x−1 ⇐⇒ xy + y = x − 1 ⇐⇒ x(y − 1) = −y − 1 = −(y + 1), x+1 und wegen y 6= 1 hat diese Gleichung die eindeutige Lösung x= 1+y 1−y wobei wegen y + 1 6= y − 1 auch (1 + y)/(1 − y) 6= −1 ist. Damit hat unsere Gleichung eine eindeutige Lösung x ∈ R\{−1} und die Funktion f ist somit bijektiv. Vorlesung 5, Montag 08.11.2010 In der letzten Sitzung hatten wir injektive, surjektive und bijektive Funktionen definiert, und zwar war eine Funktion f : M → N injektiv, wenn f (x) = y für jedes y ∈ N höchstens eine Lösung x ∈ M hat, surjektiv, wenn f (x) = y für jedes y ∈ N mindestens eine Lösung x ∈ M hat, bijektiv, wenn f (x) = y für jedes y ∈ N genau eine Lösung x ∈ M hat. 30 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 Äquivalent konnte man sagen das die Funktion f genau dann bijektiv ist wenn sie surjektiv und injektiv ist. Auch die Injektivität einer Funktion f : M → N hatte verschiedene gleichwertige Umformulierungen f ist injektiv ⇐⇒ ∀(x, y ∈ M ) : x 6= y ⇒ f (x) 6= f (y) ⇐⇒ ∀(x, y ∈ M )f (x) = f (y) ⇒ x = y. Um diese Begriffe etwas einzuüben wollen wir jetzt ein grundlegendes Lemma über sie beweisen. Lemma 3.2 (Grundeigenschaften von Injektivität und Surjektivität) Seien f : A → B und g : B → C zwei Funktionen. (a) Sind f und g injektiv, so ist auch g ◦ f injektiv. (b) Ist g ◦ f injektiv, so ist auch f injektiv. (c) Sind f und g surjektiv, so ist auch g ◦ f surjektiv. (d) Ist g ◦ f surjektiv, so ist auch g surjektiv. Beweis: (a) Seien x, y ∈ A mit x 6= y. Da f injektiv ist, ist dann f (x) 6= f (y) und da auch g injektiv ist, haben wir (g ◦ f )(x) = g(f (x)) 6= g(f (y)) = (g ◦ f )(y). Somit ist auch g ◦ f injektiv. (b) Seien x, y ∈ A mit x 6= y. Dann g(f (x)) = (g ◦ f )(x) 6= (g ◦ f )(y) = g(f (y)) und insbesondere muss f (x) 6= f (y) sein. Damit ist f injektiv. (c) Sei z ∈ C. Da g surjektiv ist, existiert ein y ∈ B mit z = g(y). Da weiter auch f surjektiv ist, existiert auch ein x ∈ A mit y = f (x) und wir haben (g ◦ f )(x) = g(f (x)) = g(y) = z. Damit ist g ◦ f surjektiv. (d) Sei z ∈ C. Da g ◦f surjektiv ist, existiert ein x ∈ A mit (g ◦f )(x) = z. Damit haben wir das Element f (x) ∈ B mit g(f (x)) = (g ◦ f )(x) = z. Somit ist auch g surjektiv. Wie schon früher angekündigt wollen wir den Begriff der Umkehrfunktion einer Funktion untersuchen. Ist f : M → N eine Funktion, so soll die Umkehrfunktion von f bei gegebenen Wert y = f (x) ∈ N aus y das Argument x rekonstruieren, es ist also die Gleichung f (x) = y nach x aufzulösen. Dass dies überhaupt möglich ist, bedeutet das es für jedes y ∈ N auch genau eine Lösung x ∈ M von f (x) = y gibt, das also die Funktion f bijektiv ist. In diesem Fall können wir die Lösung x von f (x) = y als Funktion von y auffassen, und erhalten Definition 3.6 (Umkehrfunktionen) Seien M, N zwei Mengen und f : M → N eine bijektive Abbildung. Dann gibt es für jedes y ∈ N genau ein Element f −1 (y) ∈ M mit f (f −1 (y)) = y, und wir nennen f −1 : N → M ; y 7→ f −1 (y) 31 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 die Umkehrfunktion von f . Explizit ist dabei f −1 = {(y, x)|(x, y) ∈ f }. Letztere Formel kann man dann auch so interpretieren das die Umkehrfunktion f −1 aus f durch Spiegeln an der Diagonalen“ entsteht. Das Wort Spiegeln“ muss man ” ” hierzu allerdings recht großzügig auslegen, um eine wirkliche geometrische Spiegelung handelt es sich nur im Fall M, N ⊆ R, im allgemeinen Fall muss man sich halt das Vertauschen der beiden Komponenten eines Paares als Spiegelung denken. Wir wollen nun ein paar einfache Beispiele besprechen, bei denen wir keine wirklichen Rechnungen durchführen müssen. 1. Wie schon früher in einem Beispiel bemerkt ist die Funktion f : R≥0 → R≥0 ; x 7→ x2 bijektiv. Zum Bestimmen der Umkehrfunktion muss die Gleichung y = f (x) = √ x2 gelöst werden, und dies geschieht durch x = y. Die Umkehrfunktion des Quadrierens auf R≥0 ist also die Wurzelfunktion. 2 2 1.8 1.8 1.6 1.6 1.4 1.4 1.2 y 1.2 y 1 1 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 x 0 0.2 0.4 0.6 0.8 1 1.2 x √ f −1 (x) = f (x) = x2 1.4 1.6 1.8 2 x 2. Als nächtes wollen wir den Sinus betrachten, nur ist dieser leider weder injektiv noch surjektiv. Dabei können wir die Surjektivität leicht erreichen indem wir die Menge N = [−1, 1] = {x ∈ R| − 1 ≤ x ≤ 1} als Zielmenge verwenden. Um den Sinus auch injektiv zu machen schauen wir uns nur Argumente x zwischen −π/2 und π/2 an. Wie schon früher einmal bemerkt, geben wir die Argumente der trigonometrischen Funktionen immer im Bogenmaß an. Dann ist die Funktion h π πi sin : − , → [−1, 1]; x 7→ sin x 2 2 32 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 bijektiv, und ihre Umkehrfunktion h π πi arcsin : [−1, 1] → − , 2 2 wird als der Arcus Sinus bezeichnet. 1.5 1.5 1 1 y y 0.5 –1.5 –1 0.5 0 –0.5 0.5 1 1.5 –1.5 –1 0 –0.5 0.5 x 1 1.5 x –0.5 –0.5 –1 –1 –1.5 –1.5 f (x) = sin x f −1 (x) = arcsin x 3. Beim Cosinus sind die Verhältnisse weitgehend analog, nur müssen wir eine andere Menge als Definitionsbereich verwenden, zwischen −π/2 und π/2 ist der Cosinus nicht inkjektiv. Die übliche Wahl ist die Menge der Winkel zwischen 0 und π, d.h. wir betrachten die bijektive Funktion cos : [0, π] → [−1, 1]; x 7→ cos x und ihre Umkehrfunktion arccos : [−1, 1] → [0, π] wird als der Arcus Cosinus bezeichnet. 3 3 2 2 y y 1 –3 –2 –1 0 1 1 2 3 –3 –2 –1 0 x 1 2 x –1 –1 –2 –2 –3 –3 f (x) = cos x f 33 −1 (x) = arccos x 3 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 4. Als letztes nehmen wir den Tangens. Dieser als Abbildung nach R surjektiv, und betrachten wir ihn nur zwischen −π/2 und π/2 so ist er auch injektiv. Wir nehmen also die bijektive Funktion π π h π πi n π πo := − , \ − , → R; x 7→ tan x tan : − , 2 2 2 2 2 2 und ihre Umkehrfunktion π π arctan : R → − , 2 2 heißt der Arcus Tangens. 1.5 1.5 1 1 y y 0.5 –1.5 –1 –0.5 0 0.5 0.5 1 1.5 –1.5 –1 –0.5 0 0.5 x 1 1.5 x –0.5 –0.5 –1 –1 –1.5 –1.5 f (x) = tan x f −1 (x) = arctan x Wir kehren jetzt zu unseren theoretischen Überlegungen zurück. Die Umkehrfunktion einer bijektiven Funktion f : M → N ist wieder bijektiv mit (f −1 )−1 = {(x, y)|(y, x) ∈ f −1 } = {(x, y)|(x, y) ∈ f } = f. Die definierende Eigenschaft der Umkehrfunktion einer Funktion f : M → N war die Gleichung f (f −1 (y)) = y für alle y ∈ N und diese kann man auch als f ◦ f −1 = idN lesen, wobei idN die sogenannte identische Funktion auf N ist, d.h. idN : N → N ; y 7→ y. Die identische Funktion auf einer Menge ist also die Funktion, die mit den Elementen der Menge überhaupt nichts macht. Diese Funktion taucht überraschend häufig auf, und erhält daher auch ihr eigenes Symbol. Ist jetzt wieder x ∈ M , so ist f −1 (f (x)) ∈ M dasjenige Element u von M mit f (u) = f (x), also u = x und dies bedeutet f −1 (f (x)) = x. Somit haben wir auch f −1 ◦ f = idM . 34 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 Wir wollen diese Überlegungen jetzt zu einem Lemma über eine alternative Kennzeichnung der Umkehrfunktion ausbauen. Um den Nutzen des folgenden Lemmas zu rechtfertigen, machen wir uns erst einmal klar was zu tun ist, um die Umkehrfunktion f : M → N zu behandeln. Im ersten Schritt muss man sich überlegen, dass es überhaupt eine Umkehrfunktion gibt, d.h. man muss zeigen, dass die Funktion f bijektiv, also sowohl injektiv als auch surjektiv, ist. Ist dies erledigt, so gibt es überhaupt eine Umkehrfunktion und diese können wir durch Auflösen der Gleichung f (x) = y nach x ermitteln. Hier gibt es oft eine gewisse Überlappung, die Rechnungen zum Auflösen von y = f (x) sind häufig genau dieselben die schon zum Nachweis von Surjektiv und Injektiv verwendet wurden. Das folgende Lemma stellt jetzt ein alternatives Vorgehen bereit. Angenommen wir haben schon einen Kandidaten h : N → M für die Umkehrfunktion. Wie man auf solch einen Kandidaten kommt, hängt an der speziellen Situation, man kann beispielsweise f (x) = y zumindest teilweise lösen oder oft kann man auch einfach geschickt raten. Haben wir den Kandidaten h so reicht es f (h(y)) = y für alle y ∈ N und h(f (x)) = x für alle x ∈ M nachzurechnen. Ist dies getan, so folgt sowohl das f bijektiv ist als auch das h die Umkehrfunktion von f ist. Lemma 3.3 (Kennzeichnung der Umkehrfunktion) Seien M, N zwei Mengen und f : M → N eine Funktion. Dann ist f genau dann bijektiv, wenn es eine Funktion g : N → M mit g ◦ f = idM und f ◦ g = idN gibt. In diesem Fall ist g = f −1 . Beweis: ”=⇒” Dass f ◦ f −1 = idN und f −1 ◦ f = idM gelten, haben wir bereits oben eingesehen. ”⇐=” Sei g : N → M eine Funktion mit g ◦ f = idM und f ◦ g = idN . Wir zeigen zunächst das f injektiv ist. Seien also x1 , x2 ∈ M mit f (x1 ) = f (x2 ) gegeben. Dann folgt x1 = idM (x1 ) = (g ◦ f )(x1 ) = g(f (x1 )) = g(f (x2 )) = (g ◦ f )(x2 ) = idM (x2 ) = x2 . Damit ist f zumindest injektiv. Sei jetzt y ∈ N . Dann haben wir das Element g(y) ∈ M mit f (g(y)) = (f ◦ g)(y) = idN (y) = y. Dies zeigt zum einen, dass f surjektiv, und damit sogar bijektiv, ist, und zum anderen das f −1 (y) = g(y) für jedes y ∈ N gilt, es ist also g = f −1 . Wir wollen das Lemma einmal anwenden um eine Formel für die Umkehrfunktion einer Hintereinanderausführung zu beweisen. Lemma 3.4 (Hintereinanderausführungen bijektiver Funktionen) Seien f : A → B und g : B → C zwei bijektive Funktionen. Dann ist auch g◦f : A → C bijektiv und es gilt (g ◦ f )−1 = f −1 ◦ g −1 . 35 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 Beweis: Wir betrachten die Abbildung h := f −1 ◦ g −1 : C → A. Mit dem Assoziativgesetz der Hintereinanderausführung Lemma 1 ergibt sich (g ◦ f ) ◦ h = g ◦ (f ◦ h) = g ◦ (f ◦ (f −1 ◦ g −1 )) = g ◦ ((f ◦ f −1 ) ◦ g −1 ) = g ◦ (idB ◦ g −1 ) = g ◦ g −1 = idC , und analog folgt auch h ◦ (g ◦ f ) = idA . Nach Lemma 3 ist g ◦ f bijektiv mit (g ◦ f )−1 = h = f −1 ◦ g −1 . Das g ◦ f bijektiv ist, folgt natürlich auch aus Lemma 2, wir wollten hier aber einen davon unabhängigen Beweis vorführen. $Id: reell.tex,v 1.13 2011/08/17 17:16:13 hk Exp $ §4 Die reellen Zahlen In den bisherigen drei Kapiteln haben wir einige mathematische und logische Grundbegriffe eingeführt, beispielsweise Mengen, Aussagen, Quantoren und so weiter, einige mathematische Objekte definiert, beispielsweise konnten wir den Funktionsbegriff vollständig auf den Begriff der Menge zurückführen, und wir haben auch schon einige Aussagen über unsere mathematischen Begriffe festgehalten. Wie schon bemerkt sind mathematische Definitionen letztlich immer nur Abkürzungen und genau aus diesem Grund kann man Dinge über sie beweisen. Über die Grundbegriffe kann man streng genommen zunächst nichts beweisen. Daher werden einige Aussagen über die Grundbegriffe von vornherein als wahr angenommen, und derartige Aussagen deren Wahrheit als Grundannahme der Mathematik vorausgesetzt wird, sind die sogenannten Axiome. Zusätzlich benötigt man je nach gewählten Aufbau der mathematischen Theorie auch noch Axiome über definierte Begriffe. Manchmal ergeben“ sich die Axio” me für einen Grundbegriff aus seiner beschreibenden Erklärung. Wir haben beispielsweise schon mehrfach verwendet das zwei Mengen genau dann gleich sind wenn sie dieselben Elemente haben. Schauen wir uns noch einmal die Cantorsche Definition“ ” einer Menge zu Beginn von §1 an, so erscheint die Aussage über Mengengleichheit als Selbstverständlichkeit, daher haben wir sie ja auch einfach ohne weitere Skrupel benutzt. Streng genommen handelt es sich hier um eines der Axiome der Mengenlehre, das sogenannte Extensionalitätsaxiom. Wir wollen die üblichen Axiome der Mengenlehre hier nicht weiter diskutieren, da dies für Anfänger eher verwirrend als hilfreich ist. Genau wie die Wahl der Grundbegriffe letzten Endes willkürlich ist, ist es auch recht beliebig welche Axiome man verwendet. Es gibt eine übliche minimale Wahl, also ein 36 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 Axiomensystem das versucht mit möglichst wenig Axiomen und Grundbegriffen auszukommen. Dieses System werden wir aber nicht benutzen, da wir dann zum Anfang beispielsweise nicht einmal wüssten was 2 + 3 sein soll, tatsächlich wären noch nicht einmal 2 und 3 selbst definiert. Wir wählen ein reichhaltiger ausgestattetes Axiomensystem als unseren Startpunkt. Die folgenden Grundbegriffe und Axiome seien gegeben: 1. Der Mengenbegriff als einer der Grundbegriffe. Die Axiome für Mengen wollen wir wie gesagt nicht hinschreiben, wir sehen einfach alles was wir nicht beweisen können das aber plausibel klingt als Axiom an. Dieser Standpunkt wird manchmal etwas euphemistisch als naive Mengenlehre“ bezeichnet. ” 2. Weiter denken wir uns die reellen Zahlen R und ihre Arithmetik als gegeben und bekannt. Was damit genau gemeint ist, also was die Axiome für reelle Zahlen sind, werden wir in diesem Kapitel noch näher besprechen. 3. Schließlich nehmen wir noch die übliche elementare Geometrie“ als bekannt ” an, wir gehen also davon aus das wir wissen was Winkel, Flächen, Volumina, π und die trigonometrischen Funktionen sind. Dies ist eigentlich überflüssig und streng genommen auch keine besonders gute Idee, es erlaubt uns aber schon früh vernünftige Beispiele zu haben, und auch die Einführung der komplexen Zahlen läßt sich dann auch gleich etwas reichhaltiger durchführen. Hierfür werden wir später einen Preis bezahlen müssen, aber dazu kommen wir wenn es soweit ist. 4.1 Die Arithmetik der reellen Zahlen Wie gesagt denken wir uns die Menge R der reellen Zahlen als einen vorhandenen Grundbegriff. Außerdem sollen die Grundrechenarten gegeben seien. Dies meint das wir zwei Abbildungen + : R × R → R und · : R × R → R mit noch zu spezifizierenden Eigenschaften als gegeben annehmen. Dass hier Subtraktion und Division fehlen ist beabsichtigt, diese zählen wir nicht zu den vorgegebenen Grundoperationen sondern wir werden sie definieren. Die Axiome für Addition und Multiplikation werden als die sogenannten Körperaxiome bezeichnet, das Wort Körper“ hat hier aber nichts mit irgendwelchen geometrischen Objekten zu tun. Wir ” listen die Körperaxiome jetzt auf: Die Körperaxiome: (A1) Das Assoziativgesetz der Addition: Für alle x, y, z ∈ R gilt (x + y) + z = x + (y + z). (A2) Das Kommutativgesetz der Addition: Für alle x, y ∈ R gilt x + y = y + x. 37 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 (A3) Es gibt ein Element 0 ∈ R mit 0 + x = x für alle x ∈ R. (A4) Für jedes x ∈ R gibt es ein Element −x ∈ R mit (−x) + x = 0. (M1) Das Assoziativgesetz der Multiplikation: Für alle x, y, z ∈ R gilt (x · y) · z = x · (y · z). (M2) Das Kommutativgesetz der Multiplikation: Für alle x, y ∈ R gilt x · y = y · x. (M3) Es gibt ein Element 1 ∈ R mit 1 6= 0 und 1 · x = x für alle x ∈ R. (M4) Für jedes x ∈ R mit x 6= 0 existiert ein x−1 ∈ R mit x−1 · x = 1. (D) Das Distributivgesetz: Für alle x, y, z ∈ R gilt x · (y + z) = x · y + x · z. Im Distributivgesetz, und natürlich auch sonst, verwenden wir hier die übliche Konvention Punkt vor Strich“. Diese ist allerdings kein Axiom, ja nicht einmal eine mathe” matische Aussage, sondern nur eine Frage der Notation. Auch Multiplikationszeichen werden wir im Folgenden meist weglassen. Im Axiom (M3) ist es übrigens wirklich notwendig 1 6= 0 zu fordern, lassen wir diese Bedingung weg, so könnte Null die einzige reelle Zahl sein. Aus den Körperaxiomen kann man alle arithmetischen Rechenregeln folgern. Diese Tatsache wollen wir hier nicht systematisch an allen möglichen Regeln durchgehen, sondern wir werden hier nur exemplarisch einige ausgewählten Regeln vorführen. 1. Das Element 0 in Axiom (A3) ist eindeutig festgelegt. Ist nämlich auch 00 ∈ R mit 00 + x = x für alle x ∈ R, so folgt 0 = 00 + 0 = 0 + 00 = 00 . 2. Für jedes x ∈ R ist das Element −x ∈ R in Axiom (A4) eindeutig festgelegt. Ist nämlich y ∈ R ebenfalls mit y + x = 0, so folgt y = 0 + y = y + 0 = y + ((−x) + x) = y + (x + (−x)) = (y + x) + (−x) = 0 + (−x) = −x. 3. Während wir bisher jede Anwendung von Kommutativ- und Assoziativgesetz gewissenhaft mit aufgeschrieben haben, wollen wir diese Zwischenschritte ab jetzt fortlassen. Für alle x, y ∈ R ist −(x + y) = (−x) + (−y). Wir haben nämlich ((−x) + (−y)) + (x + y) = (−x) + (−y) + y + x = (−x) + 0 + x = (−x) + x = 0, und mit der in Schritt 2 bewiesenen Eindeutigkeitsaussage folgt (−x) + (−y) = −(x + y). 38 Mathematik für Physiker I, WS 2010/2011 Montag 08.11.2010 4. Für alle x ∈ R ist 0 · x = 0, denn wir haben 0 · x = (0 + 0) · x = 0 · x + 0 · x, und somit auch 0 · x = (−0 · x) + 0 · x + 0 · x = (−0 · x) + 0 · x = 0. 5. Sind x, y ∈ R mit x · y = 0, so ist x = 0 oder y = 0. Hierzu müssen wir zwei Fälle unterscheiden. Fall 1. Ist x = 0, so sind wir bereits fertig. Fall 2. Nun nehme x 6= 0 an. Mit Schritt (4) folgt dann 0 = x−1 · 0 = x−1 · (xy) = (x−1 x)y = 1 · y = y. 6. Die Regeln (1,2,3) gelten analog, und mit denselben Beweisen, auch für die Multiplikation, d.h. das Element 1 ∈ R in Axiom (M3) ist eindeutig bestimmt, für jedes 0 6= x ∈ R ist das Element x−1 ∈ R in Axiom (M4) eindeutig bestimmt und für alle x, y ∈ R\{0} ist (xy)−1 = x−1 y −1 . Beachte dabei das nach (5) überhaupt xy 6= 0 gilt. Dies soll an Beispielen erst einmal reichen. Wie schon bemerkt sind Subtraktion und Division keine eigenständigen Rechenoperationen, sondern sie können in Termen von Addition und Multiplikation definiert werden. Für x, y ∈ R definieren wir x − y := x + (−y) und für x, y ∈ R mit y 6= 0 sei x := x · y −1 . y Als eine Übungsaufgabe werden Sie zeigen, dass dann die üblichen Bruchrechenregeln gelten. Wie schon bemerkt ergeben sich aus den Körperaxiomen alle Rechenregeln für die Grundrechenarten. Hiermit sind allerdings nur die Gleichheiten“ gemeint, also ” Aussagen der Form · · · = · · · , bei Ungleichheiten sieht alles anders aus. Zum Beispiel reichen die Körperaxiome nicht aus um 1 + 1 6= 0 zu beweisen, man kann mit ihnen nicht einmal zeigen, dass es eine von Null und Eins verschiedene reelle Zahl gibt. 4.2 Die Anordnung der reellen Zahlen Wir kommen zur nächsten Gruppe von Axiomen für die reellen Zahlen, diese beschäftigen sich nicht mehr nur mit Addition und Multiplikation sondern auch mit der KleinerGleich Beziehung zwischen reellen Zahlen. Neben der Addition und der Multiplikation sei auf den reellen Zahlen noch eine Anordnung gegeben, d.h. für je zwei reelle Zahlen 39 Mathematik für Physiker I, WS 2010/2011 Freitag 12.11.10 x, y ist festgelegt ob x ≤ y gilt oder nicht. Diese Anordnung ist für uns ein Grundbegriff, der die folgenden Axiome erfüllen soll: Die Ordnungsaxiome: (R) Das Reflexivitätsgesetz: Für jedes x ∈ R ist x ≤ x. (T) Das Transitivitätsgesetz: Für alle x, y, z ∈ R gilt x ≤ y ∧ y ≤ z =⇒ x ≤ z. (S) Die Antisymmetrie: Für alle x, y ∈ R gilt x ≤ y ∧ y ≤ x =⇒ x = y. (V) Die Ordnung ist total, d.h. für alle x, y ∈ R ist stets x ≤ y oder y ≤ x. Vorlesung 6, Freitag 12.11.10 Am Ende der letzten Sitzung hatten vier die vier Axiome für die Anordnung der reellen Zahlen aufgelistet, diese waren (R) (A) (T) (V) ∀(x ∈ R) : x ≤ x ∀(x, y ∈ R) : x ≤ y ∧ y ≤ x ⇒ x = y ∀(x, y, z ∈ R) : x ≤ y ∧ y ≤ z ⇒ x ≤ z ∀(x, y ∈ R) : x ≤ y ∨ y ≤ x. Die Transitivitätseigenschaft (T) wird dabei oft in der folgenden Form verwendet: Ist a = x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn = b eine Kette von Ungleichungen, so ist auch a ≤ b. Dies folgt schnell durch eine offensichtliche Induktion über die Länge n der Ungleichungskette. Eine weitere wichtige Folgerung aus (T) und der Antisymmetrie (A) ist die folgende Aussage: Haben wir eine Kette von Ungleichungen a = x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn = a, die bei einer reellen Zahl a ∈ R startet und endet, so sind überhaupt alle Elemente der Kette gleich a, d.h. es ist x1 = · · · = xn = a. In der Tat, ist 1 ≤ i ≤ n gegeben, so folgen aus a = x1 ≤ · · · ≤ xi und xi ≤ xi+1 ≤ · · · ≤ xn = a 40 Mathematik für Physiker I, WS 2010/2011 Freitag 12.11.10 mit der obigen Transitivitätsaussage auch a ≤ xi und xi ≤ a, d.h. wir haben xi = a. Neben der Kleiner-Gleich Relation definiert man die Echt-Kleiner Relation für x, y ∈ R durch x < y :⇐⇒ x ≤ y ∧ x 6= y. Mit den vier Anordnungsaxiomen ergeben sich dann schnell entsprechende Aussagen für Echt-Kleiner. Zunächst haben wir das sogenannte Trichotomieprinzip, dieses besagt das für x, y ∈ R stets genau eine der drei Möglichkeiten x < y, y < x oder x = y gilt. Dies folgt sofort aus den beiden Anordnungsaxiomen (A) und (V). Weiter hat man auch eine erweiterte Transitivitätseigenschaft, die besagt das für alle x, y, z ∈ R mit x < y ≤ z oder x ≤ y < z stets auch x < z gilt. In der Tat, nach dem Transitivitätsaxiom (T) ist zumindest x ≤ z und wäre x = z, so hätten wir x = y = z im Widerspruch zu x 6= y oder y 6= z. Hieraus folgt weiter, das im Fall einer Ungleichungskette a = x1 ≤ · · · ≤ xi < xi+1 ≤ xi+2 ≤ · · · ≤ xn = b in der mindestens ein Echt-Kleiner vorkommt, letztlich stets auch a < b gilt. Letztlich kann man für x, y ∈ R dann auch noch die umgedrehten Ordnungssymbole einführen, also x ≥ y :⇐⇒ y ≤ x und x > y :⇐⇒ y < x. Die Anordnung kann man dann zur Definition der sogenannten beschränkten Intervalle verwenden: Definition 4.1: Seien a, b ∈ R. Dann heißt die Menge [a, b] (a, b) [a, b) (a, b] := := := := {x ∈ R|a ≤ x ≤ b} {x ∈ R|a < x < b} {x ∈ R|a ≤ x < b} {x ∈ R|a < x ≤ b} ein ein ein ein beschränktes, beschränktes, beschränktes, beschränktes, abgeschlossenes Intervall, offenes Intervall, rechts halboffenes Intervall, links halboffenes Intervall. Später in diesem Kapitel werden wir auch noch die unbeschränkten Intervalle definieren. Offene und abgeschlossene beschränkte Intervalle hatten wir dabei schon früher in einigen Beispielen verwendet. Beachte das wie formal auch zulassen das linke und rechte Grenze falsch herum sind, dann ist das entsprechende Intervall die leere Menge, zum Beispiel [2, 1] = ∅ oder (1, 1) = ∅. Weiter ist für jedes a ∈ R auch [a, a] = {a}. In der Literatur finden sie gelegentlich auch alternative Schreibweisen für die offenen beziehungsweise halboffenen Intervalle, die Übersetzungstabelle ist Standardschreibweise Alternative Schreibweise (a, b) ]a, b[ [a, b) [a, b[ (a, b] ]a, b] ob der Randpunkt zum Intervall gehören soll oder nicht wird also durch eine sich richtig herum schließende eckige Klammer beziehungsweise durch eine sich falsch herum schließende eckige Klammer angedeutet. 41 Mathematik für Physiker I, WS 2010/2011 Freitag 12.11.10 So weit haben wir nur die Anordnungsaxiome verwendet. In den reellen Zahlen sind die arithmetische Struktur, also Plus und Mal, und die Anordnungsstruktur natürlich nicht unabhängig voneinander, sondern es gibt viele Rechenregeln die den Zusammenhang zwischen den beiden beschreiben. Zum Beispiel ist genau dann x ≤ y wenn −y ≤ −x ist, das Produkt negativer Zahlen ist positiv, und vieles mehr. Genau wie bei den Rechenregeln für die Grundrechenarten, lassen sich all diese vielen Regeln auf einige wenige Axiome zurückführen. Diese Axiome sind die sogenannten Axiome eines angeordneten Körpers, sie umfassen zum einen die neun Körperaxiome dann die vier Anordnungsaxiome und zusätzlich die folgenden beiden neuen Axiome: Axiome eines angeordneten Körpers: (O1) Für alle x, y, z ∈ R gilt y ≤ z =⇒ x + y ≤ x + z. (O2) Für alle x, y, z ∈ R gilt x ≥ 0 ∧ y ≤ z =⇒ xy ≤ xz. Wir definieren hier dabei nicht was ein angeordneter Körper“ ist, für uns ist die Be” zeichnung Axiome eines angeordneten Körpers“ nur ein Name für die angegebene ” Gruppe von Axiomen, genauso wie die Körperaxiome“ ein Name für die Gruppe der ” neun arithmetischen Axiome ist. Aus den Axiomen eines angeordneten Körpers folgen alle üblichen Regeln für den Umgang mit der Kleiner-Gleich Relation. Wie für die arithmetischen Regeln im letzten Abschnitt wollen wir dies nicht systematisch für alle denkbaren Regeln vorführen, sondern es nur examplarisch an einigen Beispielen demonstrieren. 1. Sind x, y, x0 , y 0 ∈ R mit x ≤ x0 und y ≤ y 0 , so ist auch x + y ≤ x0 + y 0 . Dies ergibt sich durch zweimaliges Anwendung des Axioms (O1) x + y ≤ x + y 0 = y 0 + x ≤ y 0 + x0 = x0 + y 0 , und anschließende Anwendung der Transitivität (T). Außerdem ist hier natürlich noch die Kommutativität der Addition, also das Axiom (A2), verwendet worden, aber die benutzten Körperaxiome wollen wir jetzt nicht mehr einzeln auflisten. 2. Sind x, y, z ∈ R mit y < z, so ist auch x + y < x + z. Denn nach Axiom (O1) ist zumindest x + y ≤ x + z und wegen y 6= z ist auch x + y 6= x + z, also x + y < x + z. Analog zum Beweis der obigen Aussage folgt weiter, dass für alle x, y, x0 , y 0 ∈ R mit x < x0 und y ≤ y 0 beziehungsweise x ≤ x0 und y < y 0 stets auch x + y < x0 + y 0 gilt. 42 Mathematik für Physiker I, WS 2010/2011 Freitag 12.11.10 3. Sind x, y ∈ R mit x ≤ y, so ist −y ≤ −x. Dies ergibt sich direkt aus Axiom (O1). Addieren wir beide Seiten von x ≤ y mit −x, so wird 0 = (−x) + x ≤ (−x) + y, und addieren wir dann auch noch −y, so ergibt sich −y ≤ (−x) + y + (−y) = −x. Weiter können wir auch auf −y ≤ −x die schon bewiesene Aussage anwenden und erhalten x = −(−x) ≤ −(−y) = y, d.h. wir haben ∀(x, y ∈ R) : x ≤ y ⇐⇒ −y ≤ −x. Ebenso ergibt sich auch ∀(x, y ∈ R) : x < y ⇐⇒ −y < −x. 4. Sind x, y, z ∈ R mit x < y und z > 0, so ist auch xz < yz. Denn nach Axiom (O2) ist zumindest xz ≤ yz und wäre xz = yz, so hätten wir auch (x − y)z = 0 also x = y oder z = 0 im Widerspruch zu x 6= y und z 6= 0. 5. Sind x, y, z ∈ R mit x ≤ y und z ≤ 0, so ist yz ≤ xz. Denn zunächst ist nach Schritt (3) auch −z ≥ 0 und Axiom (O2) ergibt −xz ≤ −yz, also yz ≤ xz wieder nach (3). Ebenso folgt aus x < y und z < 0 dann auch yz < xz. 6. Für jedes x ∈ R ist x2 ≥ 0. Denn ist x ≥ 0, so folgt mit Axiom (O2) sofort x2 = x · x ≥ 0 · x = 0 und ist x ≤ 0, so ergibt (5) auch x2 = x · x ≥ 0 · x = 0. Insbesondere ist somit 1 = 12 > 0 und mit (3) auch −1 < 0. Das soll an Beispielen für derartige Überlegungen wieder reichen. Wir führen in diesem Abschnitt noch einen letzten wichtigen Begriff ein, den sogenannten Betrag einer reellen Zahl. Dieser hat eine rein praktische Funktion, wir möchten eine bequeme Möglichkeit haben davon zu sprechen, dass eine reelle Zahl x klein ist. Wir könnten beispielsweise versuchen die Zahl x klein zu nennen wenn x ≤ 10−4 gilt. Dies erfüllt aber nicht ganz den intendierten Zweck, den es ist ja zum Beispiel auch −400 ≤ 10−4 , aber −400 wollen wir meist nicht als klein betrachten. Wir müssten unsere Bedingung also beispielsweise in x ≤ 10−4 und x ≥ −10−4 umschreiben. Um diese zwei Bedingungen durch eine einzige zu ersetzen, wird nun der erwähnte Betrag der reellen Zahl x eingeführt. Definition 4.2 (Betrag und Vorzeichen reeller Zahlen) Ist x ∈ R eine reelle Zahl, so heissen ( x > 0, 1, x, x ≥ 0, sign(x) := 0, x = 0, das Vorzeichen und |x| := sign(x) · x = −x, x ≤ 0 −1, x < 0 der Betrag von x. 43 Mathematik für Physiker I, WS 2010/2011 Beispielsweise sind |4| = 4, | − 2| = 2 und |0| = 0. Als Funktion von x hat der Betrag die nebenstehende Gestalt. In anderen Worten ist |x| der nichtnegative Wert unter den beiden Zahlen x und −x. In unserem obigen Beispiel können wir die beiden Bedingungen x ≤ 10−4 und x ≥ −10−4 dann durch die eine Bedingung |x| ≤ 10−4 ersetzen, und allgemein ist für jedes a ∈ R mit a ≥ 0 Freitag 12.11.10 y |x| x [−a, a] = {x ∈ R : |x| ≤ a} und (−a, a) = {x ∈ R : |x| < a}. Der Betrag erfüllt eine ganze Reihe von Grundeigenschaften, die im folgenden Lemma zusammengestellt sind. Lemma 4.1 (Grundeigenschaften des reellen Betrags) Für alle x, y, z ∈ R gelten: (a) Es ist |x| = | − x| ≥ 0 und x2 = |x|2 . (b) Es gilt x ≤ |x|. (c) Es sind sign(xy) = sign(x) · sign(y) und |xy| = |x| · |y|. (d) Es gilt die Dreiecksungleichung |x + y| ≤ |x| + |y|. (e) Es ist |x − y| ≥ |x| − |y|. (f ) Es ist |x| − |y| ≤ |x − y|. Beweis: (a,b,c) Diese Aussagen sind direkt aus der Definition des Betrages klar. (d) Es sind x ≤ |x|, y ≤ |y|, −x ≤ |x| und −y ≤ |y|, also auch x + y ≤ |x| + |y| und − (x + y) = (−x) + (−y) ≤ |x| + |y|, und da |x + y| eine der beiden Zahlen x + y oder −(x + y) ist, folgt |x + y| ≤ |x| + |y|. (e) Mit Teil (d) rechnen wir |x| = |(x − y) + y| ≤ |x − y| + |y|, also |x − y| ≥ |x| − |y|. (f ) Mit Teil (e) haben wir |x| − |y| ≤ |x − y| und (e), (a) zusammen ergeben auch |y| − |x| ≤ |y − x| = | − (x − y)| = |x − y|. Da |x| − |y| aber eine der beiden Zahlen |x| − |y| oder −(|x| − |y|) = |y| − |x| ist, folgt auch |x| − |y| ≤ |x − y|. Warum Aussage (d) hier als Dreiecksungleichung bezeichnet wird, ist an dieser Stelle nicht gut zu sehen. Wir werden dies aber bei der Betrachtung des Betrags einer komplexen Zahl später noch klären. 44 Mathematik für Physiker I, WS 2010/2011 4.3 Freitag 12.11.10 Das Vollständigkeitsaxiom In den letzten beiden Abschnitten haben wir jetzt insgesamt 15 Axiome an die reellen Zahlen zusammengestellt. Aber auch all diese Axiome reichen noch nicht aus die reellen Zahlen vollständig zu beschreiben, es fehlt noch ein weiteres Axiom. Dies ist das sogenannte Vollständigkeitsaxiom, und es bezieht sich ausschließlich auf die Ordnungsstruktur der reellen Zahlen und nicht auf die arithmetische Struktur. Wir benötigen leider noch zwei vorbereitende Definitionen um das Vollständigkeitsaxiom überhaupt aussprechen zu können. Definition 4.3: Sei M ⊆ R eine Teilmenge. (a) Eine reelle Zahl a ∈ R heißt obere Schranke von M wenn x ≤ a für alle x ∈ M gilt. (b) Die Menge M heißt nach oben beschränkt wenn es eine obere Schranke a ∈ R von M gibt. (c) Ein Element a ∈ M heißt maximales Element von M , oder ein Maximum von M , wenn x ≤ a für alle x ∈ M ist, wenn a also eine obere Schranke von M ist. Beachte das es nur ein einziges maximales Element von M geben kann, denn ist b ∈ M ein weiteres so haben wir b ≤ a und a ≤ b, also a = b. Gibt es ein maximales Element a ∈ M von M , so können wir damit max M := a schreiben. (d) Eine reelle Zahl a ∈ R heißt untere Schranke von M wenn x ≥ a für alle x ∈ M gilt. (e) Die Menge M heißt nach unten beschränkt wenn es eine untere Schranke a ∈ R von M gibt. (f ) Ein Element a ∈ M heißt minimales Element von M , oder ein Minimum von M wenn x ≥ a für alle x ∈ M ist, wenn a also eine untere Schranke von M ist. Genau wie für maximale Elemente kann es höchstens ein minimales Element a von M geben, und in diesem Fall schreiben wir min M := a. (g) Die Menge M heißt beschränkt, wenn sie nach oben und nach unten beschränkt ist. Die Terminologie dieser Definition wird am klarsten wenn wir uns die reellen Zahlen wie unten gezeigt als eine vertikal hingemalte Linie denken, wobei es unten nach −∞ und oben nach ∞ geht. Eine obere Schranke einer Teilmenge M ⊆ R ist dann tatsächlich eine reelle Zahl, die eben oberhalb von M liegt. Beachte das obere Schranken bei weitem nicht eindeutig festgelegt sind, ist a eine obere Schranke von M , so ist auch jede andere reelle Zahl b ∈ R mit b ≥ a ebenfalls eine obere Schranke von M . 45 Mathematik für Physiker I, WS 2010/2011 Eine nach oben beschränkte Menge muss im allgemeinen kein Maximum besitzen, anschaulich haben wir zwar immer ein Element unmittelbar oberhalb M“, aber die” se Zahl gehört eventuell nicht zu M . Beispielsweise sind max[0, 1] = 1 und min[0, 1] = 0 aber das offene Intervall M = (0, 1) hat weder ein Maximum noch ein Minimum, da eben 0 und 1 hier nicht zu M gehören. Für die Beschränktheit einer Menge M ⊆ R gibt es eine oftmals nützliche Umformulierung in Termen des Betrags reeller Zahlen Freitag 12.11.10 +∞ a (obere Schranke) sup M M −∞ M ⊆ R ist beschränkt ⇐⇒ Es gibt c ∈ R mit c ≥ 0 und |x| ≤ c für alle x ∈ M . Gibt es nämlich ein c ∈ R mit c ≥ 0 und |x| ≤ c für alle x ∈ M , so ist auch −c ≤ x ≤ c für alle x ∈ M , d.h. −c ist eine untere und c ist eine obere Schranke von M . Damit ist M nach oben und unten beschränkt, also insgesamt beschränkt. Nun sei M umgekehrt beschränkt. Dann gibt es sowohl eine untere Schranke a von M als auch eine obere Schranke b von M , und wir setzen c := max{|a|, |b|} ≥ 0. Für jedes x ∈ M haben wir dann x ≤ b ≤ |b| ≤ c und x ≥ a, also auch −x ≤ −a ≤ |a| ≤ c, und dies bedeutet |x| ≤ c. Wie schon bemerkt muss eine nach oben beschränkte Menge keinesfalls ein Maximum haben. Aber selbst wenn eine nach oben beschränkte Menge M ⊆ R kein Maximum besitzt. so gibt es trotzdem ein Zahl gerade oberhalb von M“, diese ist so” zusagen die bestmögliche obere Schranke von M . Explizit gesagt handelt es sich gerade um die kleinstmögliche obere Schranke von M , und diese wird auch als das Supremum der Menge M bezeichnet. Definition 4.4 (Supremum und Infimum) Sei M ⊆ R eine Teilmenge. Dann heißt eine reelle Zahl a ∈ R ein Supremum von M wenn a eine kleinste obere Schranke von M ist, d.h. a ist eine obere Schranke von M und für jede andere obere Schranke b ∈ R von M gilt stets a ≤ b. Analog heißt eine reelle Zahl a ∈ R ein Infimum von M wenn a eine größte untere Schranke von M ist, d.h. a ist eine untere Schranke von M und für jede andere untere Schranke b ∈ R von M gilt stets b ≤ a. In dieser Definition reden wir noch vorsichtig von einem Supremum einer Menge M ⊆ R, da es zunächst ja auch mehrere Suprema geben könnte. Dies ist aber nicht der Fall, es kann höchstens ein Supremum von M geben. Seien nämlich a, b ∈ R zwei Suprema der Menge M ⊆ R. Dann ist b eine obere Schranke von M und da a andererseits eine kleinste obere Schranke von M ist, folgt a ≤ b. Ebenso ist auch b ≤ a und wir haben insgesamt a = b. Analog kann es auch höchstens ein Infimum einer Menge M ⊆ R geben. Da Supremum und Infimum somit eindeutig festgelegt sind, können wir sie 46 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 auch mit einem Symbol bezeichnen. Man schreibt für M ⊆ R sup M := Das Supremum von M , inf M := Das Infimum von M , natürlich nur falls das fragliche Supremum oder Infimum existiert. Vorlesung 7, Montag 15.11.2010 Wir hatten das Supremum einer Menge M ⊆ R als die kleinste obere Schranke von M definiert, sofern eine solche überhaupt existiert. Dieser Begriff ist mit dem Begriff des Maximums der Menge M verwandt, aber er ist nicht dasselbe. Wir wollen uns den Zusammenhang der beiden Begriffe kurz einmal klar machen. Zunächst nehme an, dass M ein Maximum a = max M besitzt. Dann ist a insbesondere eine obere Schranke von M und ist b ∈ R eine beliebige obere Schranke von M , so gilt wegen a ∈ M auch a ≤ b. Damit ist a die kleinste untere Schranke von M , d.h. das Supremum von M . Gibt es also ein Maxiumum von M , so ist dieses auch gleich dem Supremum. Umgekehrt muss ein Supremum aber kein Maximum sein, ist zum Beispiel M = (0, 1), so ist sup M = 1 aber wegen 1 ∈ / M ist 1 kein Maximum von M . Haben wir allerdings eine Menge M ⊆ R mit a = sup M ∈ M , so ist a ∈ M insbesondere eine in M liegende obere Schranke von M , also ein Maximum von M . Entsprechendes gilt dann auch für das Minimum und das Infimum einer Menge M ⊆ R. Zusammenfassend haben wir für M ⊆ R also die folgenden Implikationen: a = max M a = sup M ∧ a ∈ M a = min M a = inf M ∧ a ∈ M =⇒ =⇒ =⇒ =⇒ a = sup M, a = max M, a = inf M, a = min M. Sei M ⊆ R gegeben. Gibt es dann ein Supremum a ∈ R von M , so ist a insbesondere eine obere Schranke von M , d.h. M ist nach oben beschränkt. Ist b ∈ R eine reelle Zahl mit b < a, so kann b keine obere Schranke von M mehr sein, da sonst ja a ≤ b gelten müsste, und dies bedeutet das es ein x ∈ M mit x > b gibt. Insbesondere muss M 6= ∅ sein. Diese Beobachtung können wir jetzt zu einer äquivalenten Definition des Supremums umformulieren. Lemma 4.2 (Charakterisierung von Supremum und Infimum) Seien M ⊆ R eine Teilmenge und a ∈ R. (a) Genau dann ist a ein Supremum von M wenn a eine obere Schranke von M ist und es für jedes b ∈ R mit b < a stets ein Element x ∈ M mit x > b gibt. 47 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 (b) Genau dann ist a ein Infimum von M wenn a eine untere Schranke von M ist und es für jedes b ∈ R mit b > a stets ein Element x ∈ M mit b > x gibt. Beweis: (a) ”=⇒” Dies haben wir bereits oben eingesehen. ”⇐=” Keine reelle Zahl b ∈ R mit b < a ist eine obere Schranke von M , und damit muss für jede obere Schranke b von M stets b ≥ a gelten. Damit ist a ein Supremum von M . (b) Analog zu (a). Die Existenz von Supremum oder Infimum kann über die Axiome eines angeordneten Körpers nicht bewiesen werden, und das noch ausstehende Vollständigkeitsaxiom der reellen Zahlen fordert diese Existenz einfach. Vollständigkeitsaxiom: Jede nach oben beschränkte, nicht leere Teilmenge ∅ 6= M ⊆ R der reellen Zahlen besitzt ein Supremum. Dieses ist das letzte noch fehlende Axiom für die reellen Zahlen, man sagt auch das R ein vollständig angeordneter Körper ist. Hierdurch sind die reellen Zahlen in gewissen Sinne auch eindeutig festgelegt, aber dies wollen wir hier nicht näher ausführen. Am Vollständigkeitsaxiom fällt auf das hier das Supremum vor dem Infimum ausgezeichnet wird, während wir die beiden bisher als völlig analoge Spiegelbilder zueinander behandelt haben. Diese Auszeichnung des Supremums ist auch nur eine optische Täuschung, die Existenz des Infimums werden wir gleich beweisen. Umgekehrt hätte man genauso gut fordern können, dass jede nicht leere, nach unten beschränkte Menge reeller Zahlen ein Infimum hat, und könnte dann die Existenz des Supremums beweisen. Lemma 4.3 (Existenz des Infimums) Jede nicht leere, nach unten beschränkte Menge ∅ 6= M ⊆ R reeller Zahlen hat ein Infimum. Beweis: Sei ∅ 6= M ⊆ R nach unten beschränkt, d.h. M hat eine untere Schranke. Dann ist die Menge N := {a ∈ R|a ist eine untere Schranke von M } ⊆ R aller unteren Schranken von M nicht leer N 6= ∅. Ist a ∈ M , so gilt für jedes x ∈ N stets x ≤ a, da x ja eine untere Schranke von M ist, d.h. a ist eine obere Schranke von N . Damit ist jedes Element von M eine obere Schranke von N . Wegen M 6= ∅ gibt es insbesondere überhaupt eine obere Schranke von N , d.h. die Menge N ist nach oben beschränkt. Nach dem Vollständigkeitsaxiom existiert das Supremum a := sup N ∈ R, 48 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 und wir behaupten das a auch das Infimum von M ist. Ist x ∈ M so ist x eine obere Schranke von N , also a ≤ x. Damit ist a überhaupt eine untere Schranke von M . Ist jetzt b ∈ R eine beliebige untere Schranke von M , so ist b ∈ N und damit auch b ≤ a. Folglich ist a die größte untere Schranke von M , d.h. a = inf M . Wir werden im Laufe des Semesters sehr viele Anwendungen von Supremum und Infimum sehen, tatsächlich handelt es sich bei diesen beiden Begriffen um zwei der mit Abstand wichtigsten technischen Hilfsmittel der gesamten Analysis. Hier wollen wir jetzt nur noch eine allererste kleine Anwendung vorführen, und die sogenannte archimedische Eigenschaft der reellen Zahlen beweisen. Lemma 4.4 (Die archimedische Eigenschaft von R) Sind a, b ∈ R mit a > 0 so existiert eine natürliche Zahl n ∈ N mit na > b. Beweis: Wir beweisen dies per Widerspruchsbeweis. Gäbe es kein solches n ∈ N mit na > b, so wäre na ≤ b für alle n ∈ N, d.h. b ist eine obere Schranke der Menge M := {na|n ∈ N} ⊆ R. Damit ist M nach oben beschränkt und wegen 0 ∈ M ist auch M 6= ∅. Nach dem Vollständigkeitsaxiom existiert das Supremum s := sup M von M . Wegen s − a < s gibt es nach Lemma 2.(a) ein x ∈ M mit x > s − a, und nach Definition von M gibt es weiter ein n ∈ N mit na = x > s − a. Damit ist auch (n + 1)a ∈ M mit (n + 1)a = na + a > s − a + a = s, aber andererseits ist auch (n + 1)a ≤ s da s eine obere Schranke von M ist. Dies ist ein Widerspruch und das Lemma ist bewiesen. Beachte das wir in diesem Beweis die Existenz der natürlichen Zahl n durch einen Widerspruchsbeweis eingesehen haben. Das Wort Existenz“ bedeutet in der Mathe” matik nicht das man das existierende Gebilde in irgendeiner Weise konkret angeben können muss oder eine Methode hat es zu berechnen. Daher ist es auch möglich die Existenz von etwas durch einen Widerspruchsbeweis zu beweisen. Manchmal ist es bequem für überhaupt jede Teilmenge M ⊆ R Supremum und Infimum bilden zu können, unabhängig davon ob sie nach oben beschränkt ist oder nicht. Hierzu gehen wir zu den sogenannten erweiterten reellen Zahlen R := R ∪ {−∞, ∞} über, indem zwei neue Elemente ±∞ zu R hinzugefügt werden. Wir setzen die Ordnung von R durch −∞ < x < ∞ 49 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 für alle x ∈ R fort, also insbesondere −∞ < ∞. Addition und Multiplikation sind auf R nicht vollständig definiert, man setzt nur ∞ + ∞ = x + ∞ = ∞ + x := ∞ und (−∞) + (−∞) = (−∞) + x = x + (−∞) := −∞ für alle x ∈ R und (∞) · (∞) = (−∞) · (−∞) := ∞, (∞) · (−∞) = (−∞) · (∞) := −∞ sowie ( ( ∞, x > 0, −∞, x > 0 x · ∞ = ∞ · x := x · (−∞) = (−∞) · x := −∞, x < 0, ∞, x<0 für alle x ∈ R\{0}. Andere Summen oder Produkte werden nicht definiert. Ist dann M ⊆ R eine beliebige Teilmenge, so existieren in R sowohl Supremum als auch Infimum. Ist nämlich M 6= ∅ und nach oben beschränkt, so gibt es sup M ∈ R nach dem Vollständigkeitsaxiom. Ist M nicht nach oben beschränkt, so ist ∞ die einzige obere Schranke von M in R, also auch sup M = ∞. Ist schließlich M = ∅, so ist jedes a ∈ R obere Schranke von M , also sup M = −∞. Insbesondere haben wir sup M ∈ R ⇐⇒ M 6= ∅ ist nach oben beschränkt. Entsprechendes gilt dann fürs Infimum, also insbesondere inf ∅ = ∞ in R. Wenn wir ±∞ als Supremum und Infimum zulassen wollen, so sprechen wir auch davon das Supremum und Infimum in R gebildet werden. Man könnte sogar sup M und inf M für Teilmengen M ⊆ R betrachten, aber in aller Regel sind für uns nur Teilmengen von R von Interesse. Beachte das ±∞ keine reellen Zahlen sind, der Übergang zu den erweiterten reellen Zahlen ist nur ein formaler Trick gelegentlich Fallunterscheidungen zu vermeiden. Ein Beispiel ist etwa die Übungsaufgabe (12.b). Wir haben zwei Mengen M, N ⊆ R und wollen sagen, dass M ∪ N genau dann nach oben beschränkt ist, wenn M und N beide nach oben beschränkt sind und das in diesem Fall sup(M ∪ N ) = max{sup M, sup N } gilt. Interpretieren wir dies in R, so können wir uns das Gerede über nach oben beschränkt“ sparen und müssen nur noch die Gleichung sup(M ∪N ) = ” max{sup M, sup N } hinschreiben. Da M ⊆ R genau dann nach oben beschränkt ist, wenn in R die Bedingung sup M 6= ∞ gilt, ist die Aussage über nach oben beschränkte Mengen in der Gleichung für die Suprema enthalten. Auch der Fall das eine oder beide der Mengen leer sind, wird automatisch mit behandelt. Schließlich können die Symbole ±∞ auch noch verwendet werden um unbeschränkte Intervalle zu definieren. Definition 4.5: Sei a ∈ R. Dann heissen die Mengen [a, ∞) := {x ∈ R|x ≥ a} und (−∞, a] := {x ∈ R|x ≤ a} 50 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 unbeschränkte, abgeschlossene Intervalle und die Mengen (a, ∞) := {x ∈ R|x > a} und (−∞, a) := {x ∈ R|x < a} heissen unbeschränkte, offene Intervalle. Außerdem setzen wir noch (−∞, ∞) := R. Wie bei den beschränkten Intervallen ist die Terminologie so gewählt, dass abgeschlos” sen“ bedeutet das die reellen Randpunkte zum Intervall gehören und offen“ bedeutet ” das sie nicht zum Intervall gehören. 4.4 Potenzen mit rationalen Exponenten Reelle Potenzen xa werden in mehreren Stufen, geordnet nach immer allgemeineren Exponenten a definiert. In der ersten Stufe werden natürliche Exponenten a = n ∈ N mit n ≥ 1 behandelt, und bei diesen ist für die Basis x jede reelle Zahl zugelassen. Für x ∈ R und n ∈ N mit n ≥ 1 definieren wir die Potenz xn als xn := x . . · x} . | · .{z n mal Nullte Potenzen werden dagegen durch x0 := 1 für alle x ∈ R eingeführt, also insbesondere 00 = 1. Interpretieren wir ein Produkt mit Null Faktoren per Konvention als 1, so deckt sich diese Definition mit derjenigen von xn für n ≥ 1. Aus den Körperaxiomen folgen die Potenzrechenregeln, dies wollen wir hier einfach glauben und es nicht alles vorführen: (xy)n = xn y n , xn · xm = xn+m und (xn )m = xnm m) jeweils für alle x, y ∈ R, n, m ∈ N. Beachte das x(n (23 )4 = 212 = 4096 während 6= (xn )m ist, zum Beispiel ist 4 2(3 ) = 281 = 2417851639229258349412352 sehr viel größer ist. Es gibt auch eine Rechenregel für Potenzen von Summen, dies ist die sogenannte allgemeine binomische Formel. Bevor wie sie aussprechen können, müssen wir an eine kleine Bezeichnung erinnern. Sind n, k ∈ N mit k ≤ n, so definiert man den Binomialkoeffizienten n über k als n n! = . k k!(n − k)! Ähnlich zu Aufgabe (3) kann man per Induktion zeigen, dass nk genau die Anzahl der k-elementigen Teilmengen einer n-elementigen Menge ist. Lemma 4.5 (Allgemeine binomische Formel) Für alle x, y ∈ R, n ∈ N gilt n X n k n−k n (x + y) = x y . k k=0 51 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 Beweis: Dies kann man etwa durch eine Induktion über die natürliche Zahl n beweisen, die exakte Durchführung dieses Beweises ist eine Übungsaufgabe. Beispielsweise sind damit n n X X n n n k n = (1 + 1) = 2 und (−1) = (1 − 1)n = 0. k k k=0 k=0 Konkret haben wir für einige kleine Werte des Exponenten n die Gleichungen (x + y)2 (x + y)3 (x + y)4 (x + y)5 (x + y)6 = = = = = x2 + 2xy + y 2 , x3 + 3x2 y + 3xy 2 + y 3 , x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4 , x5 + 5x4 y + 10x3 y 2 + 10x2 y 3 + 5xy 4 + y 5 , x6 + 6x5 y + 15x4 y 2 + 20x3 y 3 + 15x2 y 4 + 6xy 5 + y 6 . Wie Sie wahrscheinlich aus der Schule kennen, kann man die Binomialkoeffizienten bequem über das sogenannte Pascalsche Dreieck berechnen. Denken wir uns die Bino mialkoeffizienten nk zu festen n zeilenweise angeordnet 0 0 . & 1 1 0 1 . & . & 2 2 2 0 1 2 . & . & . & 3 3 3 3 0 1 2 3 so ergibt sich der k-te Binomialkoeffizient in Zeile n als die Summe des (k − 1)-ten und des k-ten Binomialkoeffizienten in Zeile n − 1, d.h. als die Summe der links und rechts über ihm stehenden Einträge. Beispielsweise erhalten wir für n = 1, 2, 3, 4, 5, 6 die Werte 1 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 1 6 15 20 15 6 1 52 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 wie in den obigen binomischen Formeln gesehen. Ebenfalls leicht zu sehen ist das Zusammenspiel zwischen Potenzen und Anordnung ∀(x, y ∈ R, x, y ≥ 0)∀(n ∈ N, n ≥ 1) : x < y ⇐⇒ xn < y n . Andere Abschätzungen für Potenzen kann man jetzt durch Verwendung der allgemeinen binomischen Formel erhalten. Sind beispielsweise n ∈ N und 1 ≤ k ≤ n gegeben, so folgt für jedes x ∈ R mit x ≥ 0 auch n (1 + x) = n X n l=0 n k x ≥1+ x . l k l Hier haben wir einfach alle Terme bis auf zwei in der binomischen Formel weggelassen, was den Ausdruck wegen x ≥ 0 kleiner macht. Speziell für k = 1 wird dies zu (1+x)n ≥ 1+nx für alle n ∈ N mit n ≥ 1 und alle x ∈ R mit x ≥ 0. Tatsächlich gilt diese Aussage noch etwas allgemeiner: Lemma 4.6 (Die Bernoulli-Ungleichung) Für alle x ∈ R mit x ≥ −1 und alle n ∈ N gilt die Ungleichung (1 + x)n ≥ 1 + nx. Beweis: Dies ist Aufgabe (11). Als nächsten Schritt definiert man dann Potenzen mit negativen, ganzzahligen Exponenten. Diese kann man aber nur noch für eine von Null verschiedene Basis einführen. Bereits im Axiom (M4) haben wir für 0 6= x ∈ R die Schreibweise x−1 eingeführt, und nach unserer Bruchdefinition ist x−1 = 1 · x−1 = 1 . x Für n ∈ N mit n ≥ 1 und 0 6= x ∈ R setzen wir allgemein n 1 1 −n x := n = . x x Auch für diesen allgemeineren Potenzbegriff gelten dann die Potenzrechenregeln n x xn n n n (xy) = x y , = n , xn · xm = xn+m und (xn )m = xnm y y für alle x, y ∈ R\{0}, n, m ∈ Z. Auch dies müsste man eigentlich beweisen, aber wir wollen uns dies an dieser Stelle ersparen. Eine vernünftige Formel für Potenzen von 53 Mathematik für Physiker I, WS 2010/2011 Montag 15.11.2010 Summen bei negativen Exponenten gibt es leider nicht. Ordnungsbeziehungen drehen sich bei negativen Exponenten um, für x, y ∈ R mit x, y > 0 haben wir zunächst x < y ⇐⇒ 1 1 < y x und für jedes n ∈ N mit n ≥ 1 folgt weiter n n 1 1 1 1 < ⇐⇒ < , y x y x also haben wir insgesamt ∀(x, y ∈ R, x, y > 0)∀(n ∈ Z, n < 0) : x < y ⇐⇒ y n < xn . Die nächste Ausdehnung des Potenzbegriffs erfolgt auf rationale Exponenten, d.h. wir wollen Potenzen xa für reelles x ∈ R mit x > 0 und rationales a ∈ Q definieren. Dies erfolgt durch Rückgriff auf reelle Wurzeln, aber leider sagen unsere Axiome für die reellen Zahlen nicht direkt das es solche Wurzeln überhaupt gibt. Wie schon bemerkt legen die angegebenen Axiome die reellen Zahlen vollständig fest, wir sollten die Existenz von Wurzeln also beweisen können. Lemma 4.7 (Existenz von Wurzeln) Sei n ∈ N mit n ≥ 1. Dann existiert für jede reelle Zahl a ∈ R mit a ≥ 0 genau eine reelle Zahl s ∈ R mit s ≥ 0 und sn = a. Beweis: Da für x, y ∈ R mit 0 ≤ x < y stets xn < y n also insbesondere xn 6= y n gilt, ist die Eindeutigkeit der Wurzel s klar. Es ist also nur noch die Existenz zu beweisen. Da diese im Fall a = 0 klar ist, können wir a > 0 annehmen. In diesem Fall setzen wir s := sup{x ∈ R|x ≥ 0 ∧ xn ≤ a}, und das dies tatsächlich die gesuchte Wurzel ist, ist der Inhalt von Aufgabe (15). √ n Die Zahl s des Lemmas wird dann natürlich als die n-te Wurzel a := s von a √ n definiert, d.h. a ist diejenige, nicht negative, reelle Zahl deren n-te Potenz gleich a ist. Sind jetzt x ∈ R mit x > 0 und a ∈ Q gegeben, so schreiben wir a = p/q mit p, q ∈ Z, q ≥ 1 und definieren p √ p xa = x q := q x > 0. Diese Zahl hängt tatsächlich nur von a und nicht von den speziell gewählten p und q ab, denn sind auch t, s ∈ Z mit s ≥ 1 und a= t p = , so ist auch qt = sp, s q 54 Mathematik für Physiker I, WS 2010/2011 also haben wir p qs √ pqs √ q x = qx = und somit ist auch q ps √ q x = xps = xqt = Freitag 19.11.2010 s qt t qs √ √ sqt √ s s x = sx = x , p √ √ t q x = sx . Damit ist xa tatsächlich sinnvoll definiert. Auch für diese allgemeineren Potenzen ergeben sich jetzt wieder die Potenzrechenregeln a x xa a a a (xy) = x y , = a , (xa )b = xab und xa xb = xa+b y y für alle x, y ∈ R, a, b ∈ Q mit x, y > 0. Auf den Nachweis dieser Formeln wollen wir hier verzichten. Auch die Regeln für Ungleichungen gelten für die Potenzen mit rationalen Exponenten. Sind zunächst x, y ∈ R mit x, y ≥ 0 und n ∈ N mit n ≥ 1, so haben wir √ √ n √ √ n x < n y ⇐⇒ n x < ( n y)n ⇐⇒ x < y. Sind dann weiter x, y ∈ R und a ∈ Q mit x, y, a > 0, so können wir a = p/q mit p, q ∈ N, p, q ≥ 1 schreiben, und es ergibt sich √ √ p √ √ x < y ⇐⇒ q x < q y ⇐⇒ q x < ( q y)p ⇐⇒ xa < y a . Vorlesung 8, Freitag 19.11.2010 In der letzten Sitzung hatten wir reelle Potenzen xa mit positiver Basis x > 0 und rationalen Exponenten a ∈ Q definiert. Zu diesem Zweck wurde a als Bruch geschrieben a = p/q mit p, q ∈ Z, q ≥ 1 und die Potenz xa wurde durch die Formel √ xa = ( q x)p auf den Wurzelbegriff zurückgeführt. Noch nicht definiert haben wir Potenzen xa mit beliebigen reellen Exponenten a ∈ R und positiver Basis x ∈ (0, ∞). Eine Möglichkeit diese Potenzen zu definieren ist zunächst für x > 1 xa := sup{xq |q ∈ Q, q ≤ a} zu setzen und für 0 < x < 1 setzt man dann xa := ((x−1 )a )−1 oder gleichwertig xa := inf{xq |q ∈ Q, q ≤ a}. 55 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 Der Fall x = 1 ist dann ein Sonderfall und man setzt 1a := 1 für alle a ∈ R. Das könnte man zwar alles so tun, und es ergibt auch den korrekten Potenzbegriff, der Nachweis der Potenzrechenregeln ist dann aber unnötig aufwendig. Später in diesem Semester wird sich noch eine bessere Methode zur Definition allgemeiner Potenzen ergeben, und wir verschieben dieses Thema daher auf diesen späteren Zeitpunkt. $Id: komplex.tex,v 1.8 2011/08/17 17:23:36 hk Exp $ §5 Die komplexen Zahlen Die komplexen Zahlen wurden ursprünglich zur Lösung der Gleichung dritten Grades eingeführt. Man kann die allgemeine Gleichung dritten Grades x3 + ax2 + bx + c = 0 zunächt analog zur quadratischen Ergänzung auf die Normalform x3 + px + q = 0 bringen, und für diese Gleichung gibt es eine Lösungsformel, die sogenannte Formel von Cardano. Die volle Cardano-Formel beschreibt alle drei Lösungen der Gleichung x3 + px + q = 0, aber für unsere Zwecke reicht es die erste, und auch einfachste, dieser drei Lösungen hinzuschreiben. Diese Lösung ist gegeben als √ 3 p D 2p x= mit D := −108q + 12 −√ 12p3 + 81q 2 . 3 6 D Wir wollen als ein konkretes Beispiel einmal beginnen die Gleichung x3 − 3 1 x− =0 50 250 durchrechnen. Hier ist p = −3/50 und q = −1/250. Damit wird 81 34 =− 2 6 62500 2 ·5 p p und wir sehen das es überhaupt keine reelle Wurzel 12p3 + 81q 2 = −81/62500 gibt. Die komplexen Zahlen entstanden jetzt, indem dieses Problem einfach ignoriert wird, d.h. wir rechnen einfach weiter und erhalten r p 34 32 √ 9 √ 3 2 12p + 81q = − 2 6 = −1 = −1 2 ·5 2 · 53 250 12p3 + 81q 2 = − und schließlich p √ 54 54 √ 54 D = −108q + 12 12p3 + 81q 2 = + −1 = (1 + −1). 125 125 125 Um√die Cardano-Formel anzuwenden, muss jetzt als nächster Schritt die dritte Wurzel 3 D berechnet werden. Das werden wir auch tun, aber erst später wenn wir eine 56 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 Methode zum Berechnen solcher Wurzeln haben. Das Ende dieses Beispiels vertagen wir daher auf etwas später in diesem Kapitel, was wir bisher gesehen haben ist, dass die Cardano Formel auf Wurzeln negativer Zahlen führt und man mit diesen einfach weiterrechnet. Wir wollen also so tun als würde es Wurzeln aus negativen Zahlen geben, und die komplexen Zahlen sind dann das was herauskommt wenn wir zu den reellen Zahlen die Wurzeln negativer Zahlen hinzunehmen und normal rechnen“. Das ist natürlich keine ” mathematische Definition, zu dieser kommen wir erst etwas später. Wir können die Situation gleich ein wenig vereinfachen. Wir √brauchen gar keine Wurzeln aus beliebigen negativen Zahlen, eine einzige Wurzel i := √ √ √ √ −1 reicht bereits aus und dann ist für jedes positive x ∈ R auch −x = x −1 = x · i. Zum Beispiel ist damit D= √ 54 54 (1 + −1) = (1 + i). 125 125 √ Die Schreibweise i = −1 wird in der Mathematik durchgängig verwendet, in einigen anderen Gebieten finden Sie gelegentlich auch andere Schreibweisen, etwa j“ statt i“ ” ” in der Elektrotechnik. Was brauchen wir neben i jetzt an weiteren neuen Zahlen“? ” Wenn wir normal rechnen wollen müssen wir insbesondere die Potenzen von i bilden können, und diese ergeben sich als i2 = −1, i3 = i2 · i = −i, i4 = (i2 )2 = (−1)2 = 1, i5 = i4 · i = i, . . . und so weiter. Wir brauchen also nur erste Potenzen von i und betrachten daher Zahlen der Form a + ib mit a, b ∈ R. Derartige Zahlen addieren und multiplizieren sich gemäß der Formeln (a1 + ib1 ) + (a2 + ib2 ) = a1 + a2 + i(b1 + b2 ), (a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + i(a1 b2 + a2 b1 ) + i2 b1 b2 = a1 a2 − b1 b2 + i(a1 b2 + a2 b1 ). Insbesondere haben Summen und Produkte von Zahlen der Form a + ib (a, b ∈ R) stets wieder diese Form. Dies läßt die Hoffnung zu, dass es für die komplexen Zahlen ausreichen könnte überhaupt nur Zahlen z = a + ib mit a, b ∈ R zuzulassen. Das einzige Problem ist, dass es dann nicht unmittelbar klar ist, ob wir die Division immer durchführen können, ob also 1/(a + ib) auch wieder von der Form a0 + ib0 ist. Um diese Frage zu klären behandeln wir zunächst ein Beispiel 1 2−i 2−i 2 1 2−i = = 2 = = − i. 2 2+i (2 + i) · (2 − i) 2 −i 5 5 5 Hier haben wir mit 2−i erweitert um im Nenner die dritte binomische Formel anwenden zu können. Eine analoge Rechnung kann man auch allgemein durchführen, für alle a, b ∈ R mit (a, b) 6= (0, 0) ist 1 a − ib a − ib a b = = 2 = 2 +i· 2 . 2 2 a + ib (a + ib) · (a − ib) a +b a +b a + b2 57 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 Mit diesen Formeln ist festgelegt wie man mit komplexen Zahlen a + ib zu rechnen hat. Es ist nur nicht klar ob das überhaupt funktioniert. Es ist denkbar das man durch konsequente Anwendung der Rechenregeln für die komplexen Zahlen letztlich zu einem Widerspruch gelangt. Für die Anwendung auf die Cardano Formel ist dies völlig belanglos, wie wir noch sehen werden verschwinden in der Cardano Formel am Ende der Rechnung alle komplexen Größen und es bleibt ein reelles Ergebnis übrig. Dass dieses Ergebnis dann tatsächlich eine Lösung der gegebenen Gleichung dritten Grades ist, kann man einfach durch Einsetzen überprüfen, die logische Konsistenz der Rechnung spielt da keine Rolle. Da die komplexen Größen in der der Cardano Formel nur zwischendurch als Zwischenergebnisse auftauchen und am Ende wieder alle weg sind, haben sie in diesem √ Zusammenhang etwas Geisterhaftes“ und dies führt zu der Sprechweise von i = −1 ” als der imaginären Einheit“. Die Zahlen iy mit y ∈ R werden dann entsprechend ” imaginär“ genannt. Wie wir im nächsten Abschnitt sehen werden, gibt es eine ganz ” konkrete und explizite Konstruktion der komplexen Zahlen, und an ihnen ist damit nichts mehr imaginär“. Die Sprechweise von i als der imaginären Einheit hat damit ” eigentlich ihre Berechtigung verloren, sie wird aber traditionell weiter verwendet. 5.1 Die Gaußsche Zahlenebene Wir wollen jetzt eine exakte mathematische DefiniIm tion der komplexen Zahlen angeben. Diese Defini−2+3i tion wird uns zugleich auch ein besseres Verständnis der komplexen Zahlen geben so, dass wir beii spielsweise auch leicht sehen können wie man drit2+ 1 i te Wurzeln komplexer Zahlen berechnet, was bei2 Re spielsweise für die Cardano Formel von Interesse ist. Die Grundidee ist dabei sehr einfach, wir denken uns die komplexe Zahl a + ib mit a, b ∈ R als den Punkt (a, b) ∈ R2 der Ebene. Wir führen die komplexen Zahlen dann ein, indem eine Addition und eine Multiplikation von Punkten der Ebene definiert wird. Wir wissen auch bereits wie wir dies tun müssen, Summen und Produkte von Zahlen der Form a + ib haben wir ja bereits oben berechnet, und wir stellen diese Rechnung nun auf den Kopf und verwenden ihr Ergebnis als Definition von Addition und Multiplikation. 3 2 1 −3 −2 −1 1 2 3 −1 −2 −3 Satz 5.1 (Konstruktion der komplexen Zahlen) Die komplexen Zahlen sind die Menge C := R × R versehen mit der durch die Formeln (a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ), (a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + a2 b1 ) definierten Addition und Multiplikation. Diese erfüllen die in §4 aufgelisteten Körpe58 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 raxiome, wobei additives und multiplikatives Inverses für a, b ∈ R durch die Formeln b a −1 ,− für (a, b) 6= (0, 0) −(a, b) := (−a, −b) und (a, b) := a2 + b2 a2 + b2 gegeben sind. Fassen wir R als die x-Achse auf, schreiben also x = (x, 0) für x ∈ R, so stimmen reelle und komplexe Addition und Multiplikation auf R überein. Schließlich erfüllt die imaginäre Einheit i := (0, 1) ∈ C die Gleichungen i2 = −1 und a + ib = (a, b) für alle a, b ∈ R. Beweis: Wir wollen diesen Beweis hier nur teilweise führen, und auf das etwas langwierige Nachrechnen der neun Körperaxiome verzichten. Dass die reelle Addition und Multiplikation fortgesetzt werden, läßt sich ebenfalls leicht nachrechnen. Die Aussagen über die imaginäre Einheit ergeben sich durch i2 = (0, 1) · (0, 1) = (−1, 0) = −1 und a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0, b) = (a, b) für alle a, b ∈ R. Wie schon in §4 erwähnt bedeutet die Gültigkeit der neun Körperaxiome das wir mit den komplexen Zahlen bezüglich der Grundrechenarten normal rechnen können, insbesondere haben wir wie bei den reellen Zahlen auch wieder Subtraktion und Division und die Bruchrechenregeln gelten. Es gibt allerdings keine Methode die komplexen Zahlen so anzuordnen, dass die Axiome eines angeordneten Körpers gelten. In der Tat hatten wir in §4 eingesehen, dass diese Axiome implizieren das Quadrate positiv oder Null sind und das −1 negativ ist, da in C aber −1 = i2 ein Quadrat ist, kann es keine Anordnung geben. Die Addition komplexer Zahlen ist die vertraute Addition von Vektoren in der Ebene, die geometrische Interpretation der Multiplikation ist etwas komplizierter, und wird erst im nächsten Abschnitt behandelt. Wir starten die weitergehende Untersuchung der komplexen Zahlen mit der Formel a − ib 1 = 2 a + ib a + b2 für die multiplikative Inverse einer komplexen Zahl. Sowohl der Zähler als auch der Nenner der rechten Seite dieser Gleichung haben eine geometrische Bedeutung. Definition 5.1: Sei z = x + iy mit x, y ∈ R eine komplexe Zahl. (a) Die reelle Zahl Re z := x heißt der Realteil von x, er ist die Orthogonalprojektion von z auf die x-Achse. 59 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 (b) Die reelle Zahl Im z := y heißt der Imaginärteil von x, er ist die Orthogonalprojektion von z auf die y-Achse. (c) Die komplexe Zahl z := x − iy heißt die komplex Konjugierte zu z. Diese ist die Spiegelung von z an der x-Achse. p (d) Die reelle Zahl |z| := x2 + y 2 heißt der Betrag von z. Nach dem Satz des Pythagoras ist |z| der Abstand des Punktes z der Ebene zum Nullpunkt 0 = (0, 0). b1 + b 2 z1 + z 2 z=a+ib z=(x,y) r b2 z2 y x b1 z1 z=a−ib a2 a1 a1 + a 2 Addition Konjugation Betrag Gelegentlich wird die komplex Konjugierte einer Zahl z ∈ C auch mit dem Symbol z ∗ anstelle von z bezeichnet, diese Schreibweise werden wir in diesem Skript aber nicht verwenden. Mit diesen Bezeichnungen gilt für jedes z ∈ C\{0} die Gleichung 1 z = 2 z |z| also auch zz = |z|2 . Trivialerweise gilt diese Gleichung auch für z = 0. Die Grundeigenschaften der komplexen Konjugation werden im folgenden Lemma zusammengestellt: Lemma 5.2 (Grundeigenschaften der komplexen Konjugation) Seien z, w ∈ C. Dann gelten: (a) Es ist z + w = z + w. (b) Es ist z · w = z · w. (c) Im Fall z 6= 0 sind 1 z = 2 und z |z| 1 1 = . z z (d) Es sind z = z, |z| = |z| und zz = |z|2 . (e) Es gelten Re(z) = z+z z−z und Im(z) = . 2 2i 60 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 (f ) Genau dann ist z ∈ R wenn z = z gilt. Beweis: Wir schreiben z = x + iy und w = u + iv mit x, y, u, v ∈ R. (a) Es ist z + w = (x + u) + i(y + v) = (x + u) − i(y + v) = x − iy + u − iv = z + w. (b) Es ist zw = xu − yv + i(xv + yu) = xu − yv − i(xv + yu) = xu + (−y)(−v) + i(x(−v) + (−y)u) = (x − iy) · (u − iv) = z · w. (c) Die erste Gleichung haben wir bereits oben festgehalten, und für die andere Gleichung ergibt sich mit (b) 1 1=1=z· =z· z 1 1 1 =⇒ = . z z z (d) Diese Aussagen sind klar, beziehungsweise bereits oben bewiesen. (e) Es gelten z + z = 2x und z − z = 2iy. (f ) Klar. Als nächsten Schritt können wir dann die Eigenschaften des komplexen Betrags herleiten. Lemma 5.3 (Grundeigenschaften des komplexen Betrags) Seien z, w ∈ C. Dann gelten: √ (a) Es ist max{| Re z|, | Im z|} ≤ |z| ≤ 2 max{| Re z|, | Im z|}. (b) Es gilt |zw| = |z| · |w|. (c) Es gilt die Dreiecksungleichung |z + w| ≤ |z| + |w|. (d) Es gilt |z − w| ≥ |z| − |w|. (e) Es gilt |z| − |w| ≤ |z − w|. Beweis: (a) Schreibe z = x + iy mit x, y ∈ R und setze M := max{| Re z|, | Im z|} = max{|x|, |y|}. Wegen p p p √ |x| = x2 ≤ x2 + y 2 = |z| und |y| = y 2 ≤ x2 + y 2 = |z| 61 Mathematik für Physiker I, WS 2010/2011 Freitag 19.11.2010 ist dann M ≤ |z|. Weiter haben wir p p √ √ |z| = x2 + y 2 = |x|2 + |y|2 ≤ M 2 + M 2 = 2M. (b) Nach Lemma 2.(b) gilt √ √ √ √ |zw| = zwzw = zzww = zz · ww = |z| · |w|. (c) Es gilt nach Lemma 2.(a,b,d,e) und Teil (a,b) |z + w|2 = (z + w) · (z + w) = (z + w) · (z + w) = zz + zw + zw + ww = |z|2 + zw + zw + |w|2 = |z|2 + 2 Re(zw) + |w|2 ≤ |z|2 + 2| Re(zw)| + |w|2 ≤ |z|2 + 2|zw| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = (|z| + |w|)2 , also auch |z + w| ≤ |z| + |w|. (d,e) Analog zu §4.Lemma 1. Sind z, w ∈ C, so zeigt die Interpretation der komplexen Addition als Vektoraddition, dass es ein Dreieck mit den Seitenlängen |z|, |w| und |z + w| gibt. Die Dreiecksungleichung für den Betrag wird dann zur geometrischen Dreiecksungleichung das in einem Dreieck jede Seite höchstens so lang wie die Summe der beiden anderen Seitenlängen ist. 5.2 Die komplexe Multiplikation Zum besseren Verständnis der Multiplikation betrachten wir für jedes φ ∈ R den Punkt e(φ) ∈ C auf dem Einheitskreis, also dem Kreis mit Radius 1 und Mittelpunkt 0, der mit der x-Achse den Winkel φ bildet. Betrachten wir das nebenstehende Bild, so ergibt sich der Punkt e(φ) explizit als e( ) 1 y x e(φ) = (cos φ, sin φ) = cos φ + i sin φ. Für alle φ, ψ ∈ R ergeben die Additionstheoreme von Sinus und Cosinus dann e(φ) · e(ψ) = = = = (cos φ + i sin φ) · (cos ψ + i sin ψ) cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ) cos(φ + ψ) + i sin(φ + ψ) e(φ + ψ), d.h. bei Multiplikation komplexer Zahlen auf dem Einheitskreis müssen nur die beiden Winkel φ, ψ miteinander addiert werden. 62 Mathematik für Physiker I, WS 2010/2011 Für Punkte auf dem Einheitskreis ist die komplexe Multiplikation also dasselbe wie die Addition von Winkeln. Um diese Beobachtung auf alle komplexen Zahlen auszudehnen, führen wir jetzt die sogenannten Polarkoordinaten ein. Gegeben sei eine komplexe Zahl z ∈ C und wir nehmen erst einmal z 6= 0 an. Die erste Polarkoordinate von z ist dann der Abstand r von z zum Nullpunkt, und wir wissen bereits das dies gerade der Betrag von z ist, also r = |z|. Freitag 19.11.2010 y r z=reφ eφ φ x Nun betrachten wir den Schnittpunkt der von Null ausgehenden Halbgeraden in Richtung z mit dem Einheitskreis, als Formel ist dieser einfach gegeben als z/r = z/|z|. Die zweite Polarkoordinate von z ist der Winkel φ den diese Halbgerade mit der x-Achse hat, also z = e(φ) =⇒ z = re(φ). r Haben wir umgekehrt eine Zahl r ≥ 0 und einen Winkel φ ∈ R gegeben, so können wir die komplexe Zahl z := re(φ) mit den Polarkoordinaten r, φ bilden. Beachte das die erste Polarkoordinate r immer als der Betrag von z eindeutig festgelegt ist, der Winkel φ aber nicht. Man kann zu φ noch beliebige Vielfache von 2π, also von 360◦ im Gradmaß, hinzuaddieren ohne das sich z ändert. Um ein eindeutiges φ zu kriegen muss man die erlaubten Winkel auf ein Intervall der Länge 2π einschränken. Für z = 0 ist φ sogar völlig willkürlich. Schauen wir uns einmal drei kleine Beispiele an. 1. Sei z = i. Der Abstand zu 0 ist r = |i| = 1, und da i im oberen Teil der yAchse liegt, ist der Winkel zur x-Achse gleich 90◦ , beziehungsweise φ = π/2. Also i = 1 · e(π/2) in Polarkoordinaten. 2. Die komplexe Zahl z = 1 + i hat als Abstand zum Nullpunkt √ √ r = |1 + i| = 12 + 12 = 2. Außerdem liegt z auf der Winkelhalbierenden im ersten Quadranten, unser Win√ kel ist also φ = π/4. Polarkoordinaten sind damit 1 + i = 2 e(π/4). 3. Nehme jetzt z = −i. Es ist r = | − i| = 1. Was als Winkel genommen wird, ist nicht mehr so eindeutig. Laufen wir im Gegenuhrzeigersinn um den Einheitskreis, so durchqueren wir drei volle Quadranten, also φ = 3π/2. Laufen wir dagegen im Uhrzeigersinn um den Kreis, so wird φ = −π/2. Diese beiden Winkel unterscheiden sich gerade um 2π. Welchen Winkel man als die Polarkoordinate“ ansieht ” hängt von der gewählten Normierung ab und ist damit letztlich willkürlich. Verwenden wir Polarkoordinaten, so können wir uns jede komplexe Zahl als aus Länge und Winkel zusammengesetzt denken. Wie wir in der nächsten Sitzung sehen werden, nimmt die Multiplikation in dieser Beschreibung der komplexen Zahlen eine sehr einfache Form an. 63 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 Vorlesung 9, Montag 22.11.2010 Wir hatten am Ende der letzten Sitzung die Polarkoordinaten z = r · e(φ) mit e(φ) = cos φ + i sin φ, r = |z| einer komplexen Zahl z eingeführt. Die komplexe Multiplikation sieht in Polarkoordinaten nun sehr einfach aus, für alle r, s ≥ 0 und alle Winkel φ, ψ ∈ R gelten re(φ) · se(ψ) = rs · e(φ)e(ψ) = rs · e(φ + ψ). Bei der Multiplikation werden also die beiden Längen miteinander multipliziert, und die beiden Winkel werden addiert. Die zweite Polarkoordinate φ wird oft auch als das Argument der komplexen Zahl z bezeichnet, und mit dem Symbol φ = arg z notiert. Wie schon bemerkt ist das Argument nur bis auf Vielfache von 2π festgelegt und für z = 0 ist es sogar völlig beliebig. Um eine gewisse Eindeutigkeit zu erhalten schränken wir uns auf Winkel φ mit |φ| < π ein, also −π < φ < π. Wegen e(π) = cos π + i sin π = −1 werden dann die positiven Vielfachen von −1 ausgeschlossen. Definition 5.2 (Hauptwert des Arguments) Die geschlitzte komplexe Ebene ist die Menge C− := C\R≤0 und für z ∈ C− bezeichnen wir das Argument φ von z mit |φ| < π als den Hauptwert von arg z. Die hierdurch definierte Funktion arg : C− → (−π, π) heißt der Hauptzweig des Arguments. Für z ∈ C− haben wir also eindeutig festgelegte Polarkoordinaten r = |z|, φ = arg z wenn wir immer den Hauptwert des Arguments verwenden. Diese Wahl ist natürlich nicht die einzig mögliche, in vielen Zusammenhängen, wie beispielsweise im nächsten Abschnitt, ist die Normierung 0 ≤ φ < 2π passender. Für den Moment wollen wir aber den Hauptwert verwenden. Haben wir die komplexe Zahl z = x + iy mit x, y ∈ R in cartesischen Koordinaten gegeben, so ist die Berechnung der Polarkoordinaten r, φ im Prinzip nicht schwer, es gilt aber einige p Fälle zu unterscheiden. Die erste Polarkoordinate ist unproblematisch r = |z| = x2 + y 2 . Zur Berechnung von φ haben wir verschiedene Gleichungen zur Auswahl cos φ = x y sin φ y , sin φ = und im Fall x 6= 0 auch tan φ = = . r r cos φ x 64 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 Wir nehmen z ∈ C− an und wollen für φ den Hauptwert des Arguments verwenden, also |φ| < π. Das Problem ist das wir nicht einfach irgendeine der trigonometrischen Arcus Funktionen verwenden können, da diese diese die zugehörige trigonometrische Funktion immer nur auf einem bestimmten Intervall der Länge π umkehren. Wir gehen der Reihe nach alle möglichen Berechnungsmethoden durch. 1. Der Weg über x/r = cos φ. Der Arcus Cosinus kehrt den Cosinus zwischen 0 und π um, er kann also unverändert für z in einem der ersten beiden Quadranten, d.h. für y ≥ 0 verwendet werden. Dort ist dann φ = arccos(x/r). In den anderen beiden Quadranten ist y < 0 also −π < φ < 0. Damit ist 0 < −φ < π und cos(−φ) = cos φ = x/r also −φ = arccos(x/r) und somit φ = − arccos(x/r). Insgesamt ist damit ( x arccos(x/r), y ≥ 0, φ = sign(y) · arccos = r − arccos(x/r), y < 0. Beachte das diese Formel auch für y = 0 funktioniert da wegen z ∈ C− dann x > 0 und φ = 0 ist. 2. Der Weg über y/r = sin φ. Der Arcus Sinus kehrt den Sinus zwischen −π/2 und π/2 um, er kann also unverändert für z im ersten und im vierten Quadranten verwendet werden, d.h. für x ≥ 0. Dort ist dann φ = arcsin(y/r). Nun sei z im zweiten Quadranten, also π/2 < φ < π. Dann ist π − φ ∈ (0, π/2) mit y y y sin(π − φ) = sin φ = =⇒ π − φ = arcsin =⇒ φ = π − arcsin . r r r Ist z im verbleibenden dritten Quadranten, so haben wir −π < φ < −π/2 also ist −(φ + π) ∈ (−π/2, 0) mit y y sin(−(φ + π)) = − sin(φ + π) = sin φ = =⇒ −(φ + π) = arcsin r r y . =⇒ φ = − π + arcsin r Insgesamt ist damit x ≥ 0, arcsin(y/r), φ = π − arcsin(y/r), x < 0, y > 0, −(π + arcsin(y/r)), x, y < 0. 3. Der Weg über tan φ = y/x. Der Arcus Tangens kehrt den Tangens zwischen −π/2 und π/2 unter Ausschluß der Grenzen um, also für x > 0. Dort ist dann φ = arctan(y/x). Im zweiten Quadranten unter Ausschluß der y-Achse ist π/2 < φ < π und somit φ − π ∈ (−π/2, 0) mit y y y tan(φ − π) = tan φ = =⇒ φ − π = arctan =⇒ φ = π + arctan . x x x 65 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 Im dritten Quadranten haben wir schließlich −π < φ < −π/2 also 0 < φ + π < π/2 und y y y tan(φ + π) = tan φ = =⇒ φ + π = arctan =⇒ φ = arctan − π. x x x Insgesamt ist damit arctan(y/x), x > 0, x = 0, y > 0, π/2, φ = π + arctan(y/x), x < 0, y > 0, −π/2, x = 0, y < 0, arctan(y/x) − π, x, y < 0. Für Punkte auf der negativen x-Achse, also x < 0, y = 0, ist kein Hauptwert des Arguments festgelegt, wenn man will kann man für diese φ = π setzen. Dies ist auch das Ergebnis das sich mit der ersten Formel ergibt, denn dann ist arccos(x/r) = arccos(−1) = π. Wählen wir eine andere Normierung des Arguments so ergeben sich auch andere Formeln. Eine oft verwendete alternative Normierung für die Werte φ des Arguments ist wie schon erwähnt 0 ≤ φ < 2π. In dieser Normierung unterscheidet sich das Argument φ vom Hauptwert nur im dritten und vierten Quadranten also für y < 0. Dort muss 2π zum Hauptwert addiert werden. In der Arcus Cosinus Formulierung ist damit beispielsweise ( arccos(x/r), y ≥ 0, φ= 2π − arccos(x/r), y < 0. Entsprechend ergeben sich auch Formeln über den Arcus Sinus beziehungsweise über den Arcus Tangens. Mit Hilfe der Polarkoordinaten beziehungsweise des komplexen Betrages können wir auch definieren wann eine Menge komplexer Zahlen beschränkt sein soll. In §4 hatten wir eine Menge M ⊆ R beschränkt genannt, wenn sie nach oben und nach unten beschränkt ist und wir hatten eingesehen, dass dies genau dann der Fall ist, wenn es eine Zahl c ≥ 0 mit |x| ≤ c für alle x ∈ M gibt. Letztere Beschreibung kann man leicht auf C erweitern. Definition 5.3: Eine Menge M ⊆ C heißt beschränkt wenn es eine reelle Zahl c ∈ R mit c ≥ 0 und |z| ≤ c für alle z ∈ M gibt. Insbesondere ist eine M ⊆ R genau dann als Teilmenge von R beschränkt wenn sie als Teilmenge von C beschränkt ist. Da der komplexe Betrag der Abstand zum Nullpunkt ist, kann man alternativ auch sagen, dass eine Teilmenge M ⊆ C genau dann beschränkt ist, wenn sie Teilmenge eines ausreichend grossen Kreises ist, wenn also die erste der beiden Polarkoordinaten auf M beschränkt ist. Weiter behaupten wir das eine komplexe Menge M ⊆ C genau dann beschränkt ist, wenn die reellen Mengen Re(M ) := {Re z|z ∈ M } und Im(M ) := {Im z|z ∈ M } 66 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 beschränkt sind. Ist nämlich M ⊆ C beschränkt, so gibt es ein c ≥ 0 mit |z| ≤ c für alle z ∈ M und mit Lemma 3.(a) folgt auch | Re z| ≤ |z| ≤ c und | Im z| ≤ |z| ≤ c für alle z ∈ M . Sind umgekehrt Re(M ) und Im(M ) beschränkt, so gibt es Konstanten c1 , c2 ≥ 0 mit | Re z| ≤ c1 und | Im z| ≤ c2 für alle z ∈ M . Ist also c := √ 2 max{c1 , c2 } ≥ 0, so ist nach Lemma 3.(a) auch √ √ |z| ≤ 2 max{| Re z|, | Im z|} ≤ 2 max{c1 , c2 } = c für alle z ∈ M . 5.3 Komplexe Wurzeln Zur Behandlung von Wurzeln ist es am bequemsten die eben eingeführten Polarkoordinaten zu verwenden. Angenommen wir haben eine√komplexe Zahl a ∈ C und einen Exponenten n ∈ N mit n ≥ 1 gegeben, und wollen n a berechnen, etwas genauer formuliert wollen wir also die Gleichung z n = a nach z ∈ C auflösen. Da es für a = 0 nur die eindeutige Lösung z = 0 gibt, können wir uns auf den Fall a 6= 0 beschränken. Wir schreiben a in Polarkoordinaten a = re(φ), die wir hier auf 0 ≤ φ < 2π normieren. Machen wir für z in Polarkoordinaten den Ansatz z = se(ψ) mit s > 0, 0 ≤ ψ < 2π, so wird unsere Gleichung zu ! z n = (se(ψ))n = sn e(nψ) = re(φ). √ Dies gibt zum einen die Bedingung sn = r, der Betrag von z ist also als s = n r eindeutig festgelegt. Es verbleibt e(nψ) = e(φ). Hier führt die Mehrdeutigkeit des Arguments zu einer kleinen Komplikation, wir wissen nur das sich nψ und φ um ein ganzzahliges Vielfaches von 2π unterscheiden müssen, und wegen 0 ≤ nψ < 2nπ führt dies auf φ 2π mit k ∈ N, 0 ≤ k < n. nψ = φ + 2πk =⇒ ψ = + k · n n Damit haben wir genau n verschiedene komplexe Wurzeln von z = re(φ) nämlich √ φ 2π n n {w ∈ C|w = z} = re +k· k ∈ N, 0 ≤ k < n . n n Ein besonders wichtiger Spezialfall liegt vor wenn a = 1 ist, wenn wir also die n-ten Wurzeln der Eins bestimmen wollen. Definition 5.4 (Einheitswurzeln) Sei n ∈ N mit n ≥ 1. Eine komplexe Zahl z ∈ C heißt eine n-te Einheitswurzel wenn z n = 1 ist. 67 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 Ist in unserer Rechnung a = 1, so sind die Polarkoordinaten gegeben als r = 1 und φ = 0, also ergibt sich die Menge En der n-ten Einheitswurzeln als 2πk k ∈ N, 0 ≤ k < n , En = e n also liegen die n-ten Einheitswurzeln alle auf dem Einheitskreis und bilden die Ecken eines regulären n-Ecks, dies ist ein n-Eck in dem alle Seitenlängen und alle Innenwinkel gleich sind. Wir fassen diese Überlegungen und einige unmittelbare Folgerungen jetzt in einem Satz zusammen. Satz 5.4 (Komplexe Wurzeln) Sei n ∈ N mit n ≥ 1 und setze ζ := e 2π n = cos 2π 2π + i sin . n n Dann bildet die Menge En der n-ten Einheitswurzeln ein in den Einheitskreis eingeschriebenes reguläres n-Eck und es gilt En = {ζ k |k ∈ N, 0 ≤ k < n}. Ist 0 6= a ∈ C eine beliebige komplexe Zahl, so hat a in C genau n verschiedene n-te p n und die Ecken eines regulären Wurzeln, die alle den Abstand |a| vom Nullpunkt haben √ n n-Ecks bilden. Ist a = re(φ) mit r, φ ∈ R, r > 0 so ist re(φ/n) eine n-te Wurzel von a. Ist w eine beliebige n-te Wurzel von a, so ist {z ∈ C|z n = a} = {ζ k w|k ∈ N, 0 ≤ k < n}. Beweis: Für jedes k ∈ N mit 0 ≤ k < n haben wir k 2πk 2π 2π e =e k· =e = ζk, n n n und damit ist die Aussage über die Einheitswurzeln bewiesen. Sei jetzte a ∈ C\{0}. Wir haben oben bereits alles bis auf die letzte Aussage über die n-ten Wurzeln von a eingesehen. Ist w ∈ C mit wn = a, so ist insbesondere w 6= 0 und für jedes z ∈ C bestehen damit die Äquivalenzen z n z z z n = a ⇐⇒ z n = wn ⇐⇒ = 1 ⇐⇒ ∈ En ⇐⇒ ∃(k ∈ N, 0 ≤ k < n) : = ζ k . w w w Die restlichen Aussagen haben wir bereits oben eingesehen. Die Einheitswurzeln spielen also √ so in etwa die Rolle von ”Vorzeichen“ n-ter Wurzeln. Hat man eine Quadratwurzel a, so sind die beiden möglichen Quadratwurzeln die 68 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 √ √ beiden Werte ± a. Hat man dagegen eine n-te Wurzel n a, so ergeben sich die anderen n-ten Wurzeln durch Multiplikation mit den n-ten Einheitswurzeln. Zur exakten, also nicht numerischen, Auswertung komplexer Wurzeln ist es hilfreich möglichst viele Werte der trigomometrischen Funktionen zu kennen, beispielsweise φ 0 π/6 π/5 π/4 π/3 π/2 π cos φ √1 3/2 √ (1 + 5)/4 √ 1/ 2 1/2 0 -1 sin φ 0 q 1/2√ 2(5 − 5)/4 √ 1/ √ 2 3/2 1 0 tan φ 0√ 1/ 3 p √ 5−2 5 √1 3 0 Diese Werte dürften Sie auch in Ihrer Formelsammlung finden. Man kann sie alle geometrisch über die Definition der trigonometrischen Funktionen über rechtwinklige Dreiecke begründen, der Winkel π/5 ist aber schon etwas trickreicher und hängt mit der Konstruktion des regulären Fünfecks mit Zirkel und Lineal zusammen. Wir wollen dies hier nicht vorführen, und akzeptieren die Tabelle an dieser Stelle einfach. Weitere Werte kann man dann über Periodizitätseigenschaften und die Additionstheoreme berechnen. Oft nützlich sind insbesondere die Halbierungsformeln, an die wir uns jetzt kurz erinnern wollen. Wir starten mit dem Additionstheorem cos(2x) = cos2 x − sin2 x = 2 cos2 x − 1 = 1 − 2 sin2 x. Setzen wir hier x/2 statt x ein, so wird diese Formel zu x x cos x = 2 cos2 − 1 = 1 − 2 sin2 . 2 2 Für −π ≤ x ≤ π ist −π/2 ≤ x/2 ≤ π/2 also cos(x/2) ≥ 0 und somit x r x r 1 + cos x cos = cos2 = (−π ≤ x ≤ π). 2 2 2 Mit dem Sinus können wir ähnlich rechnen. Für 0 ≤ x ≤ 2π ist 0 ≤ x/2 ≤ π also sin(x/2) ≥ 0. Damit ist x r 1 − cos x = . sin 2 2 Ist schließlich 0 ≤ x < π, so ist s s x sin x r 1 − cos x (1 − cos x) · (1 + cos x) 1 − cos2 x 2 tan = = = = 2 1 + cos x (1 + cos x)2 (1 + cos x)2 cos x2 s sin2 x sin x = = . 2 (1 + cos x) 1 + cos x 69 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 Erweitert man mit 1 − cos x statt mit 1 + cos x, so ergibt sich für 0 < x < π die alternative Formel x 1 − cos x tan = . 2 sin x Zum Beispiel sind √ √ √ 2− 3 6− 2 sin = = , 12 4 4 s r √ √ √ π 1 + cos(π/6) 2+ 3 6+ 2 cos = = = , 12 2 4 4 π √ 1 − cos(π/6) tan = = 2 − 3. 12 sin(π/6) π r 1 − cos(π/6) = 2 s Mit all diesen Formeln ausgestattet kehren wir jetzt zu unserem Eingangsbeispiel x3 − 3 1 x− =0 50 250 zurück. Mit p = −3/50, q = −1/250 und p 54 2 · 33 D = −108q + 12 12p3 + 81q 2 = (1 + i) = 3 (1 + i) 125 5 erhalten wir mit der Cardano-Formel eine Lösung √ 3 x= D 2p . −√ 3 6 D Wir müssen also die dritte Wurzel von D berechnen √ 3 √ 3√ 3 2 3 1 + i. 5 √ Die Polarkoordinaten von 1 + i sind r = 2 und φ = π/4, also √ 3 1+i= und somit √ 6 2e D= π π π = 21/6 cos + i sin 12 12 12 ! √ √ √ √ √ √ 6+ 2 6− 2 1/6 +i = 2−4/3 ( 3 + 1 + i( 3 − 1)), =2 4 4 √ 3 √ √ 3 3 √ D = 21/3 3 1 + i = ( 3 + 1 + i( 3 − 1)). 5 10 70 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 Als Lösung der Gleichung dritten Grades erhalten wir √ 3 2p D −√ x = 3 6 D √ 3 10 1 1 √ √ ( 3 + 1 + i( 3 − 1)) + · ·√ = 20 25 3 3 + 1 + i( 3 − 1) √ √ √ 1 √ 3 + 1 − i( 3 − 1) 2 = ( 3 + 1 + i( 3 − 1)) + · 20 8 √ 5 √ 1 1+ 3 = · 2( 3 + 1)) = . 20 10 $Id: folgen.tex,v 1.15 2011/08/17 17:28:59 hk Exp $ §6 Reelle und komplexe Zahlenfolgen Definition 6.1: Eine Folge in einer Menge M ist eine Abbildung a : N → M . Dabei nennen wir an := a(n) für n ∈ N das n-te Folgenglied. Wir schreiben eine Folge meist nicht in Funktionsschreibweise sondern verwenden Namen wie (an )n∈N oder alternativ (an )n≥0 . Etwas allgemeiner betrachten wir auch Folgen mit anderen Startwerten als Null, d.h. ist n0 ∈ N so ist eine Folge mit dem Startwert n0 eine Abbildung a : {n ∈ N|n ≥ n0 } → M , üblicherweise geschrieben als (an )n≥n0 . Um die Notation nicht zu überladen sprechen wir meist einfach von Folgen (an )n∈N , implizit sind damit aber auch immer Folgen mit beliebigen Startwert gemeint auch wenn wir dies nicht extra hinschreiben. Wir werden im Laufe dieses Kapitels noch viele Beispiele von Folgen sehen, daher geben wir hier nur zwei einfache Beispiele an. Für n ∈ N mit n ≥ 1 sei 1 an := , n 1 wir betrachten also die Folge n n≥1 . Dies ist eine Folge mit dem Startwert n0 = 1. Solche reelle Zahlenfolgen kann man sich graphisch durch Hinmalen ihres Graphen“ ” veranschaulichen, dieser besteht dann nur aus diskreten Punkten. Manchmal werden diese aus optischen Gründen noch miteinander verbunden, diese Verbindungen haben dann aber keine inhaltliche Bedeutung und dienen nur zur Illustration. Als ein Beispiel einer komplexen Folge nehmen wir ((1 + i)n )n∈N . Da 1 + i in Po√ larkoordinaten gleich 1 + i = 2 · e(π/4) verteilen sich die Glieder der Folge auf acht vom Nullpunkt ausgehende Achsen. Da die Werte recht groß werden, ist diese Folge im untenstehenden Bild logarithmisch skaliert dargestellt. Eine komplexe Folge kann man 71 Mathematik für Physiker I, WS 2010/2011 Montag 22.11.2010 sich veranschaulichen indem die Glieder a0 , a1 , a2 , . . . in die Gaußsche Zahlenebene eingezeichnet werden, die Information über den jeweiligen Folgenindex n geht dabei aber verloren. 1 0.8 4 0.6 0.8 2 0.4 0.6 –4 –2 2 4 6 0.2 0.4 –2 –0.6 –0.4 –4 –0.2 0 0.2 0.4 0.6 –0.2 0.2 –6 2 4 6 8 10 12 14 an = 1/n 16 18 –0.4 20 an = (1 + i)n Andere komplexe Folge Zu Beginn unserer Untersuchungen stellen wir einige der immer wieder verwendeten Grunddefinitionen zusammen. Definition 6.2: Sei (an )n∈N eine Folge in einer Menge M . Eine Teilfolge von (an )n∈N ist eine Folge der Form (ank )k∈N wobei n0 , n1 , n2 , . . . ∈ N mit n0 < n1 < n2 < · · · sind. Eine Teilfolge durchläuft also einige, aber nicht unbedingt alle, der Folgenglieder der Originalfolge in genau derselben Reihenfolge. Beispielsweise ist 1 1 eine Teilfolge von . n2 n≥1 n n≥1 Die nächste Definition ist nur noch auf reelle beziehungsweise komplexe Folgen anwendbar. Definition 6.3: Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt beschränkt, wenn die Menge {an |n ∈ N} beschränkt ist, wenn es also eine Konstante c ≥ 0 mit |an | ≤ c für alle n ∈ N gibt. Die dritte und letzte dieser Definitionen ist sogar nur noch auf reelle Folgen anwendbar. Definition 6.4: Sei (an )n∈N eine reelle Folge, d.h. eine Folge in der Menge R. Dann heißt die Folge (an )n∈N (a) monoton steigend, wenn an ≤ an+1 für alle n ∈ N gilt. (a) streng monoton steigend wenn an < an+1 für alle n ∈ N gilt. (c) monoton fallend, wenn an+1 ≤ an für alle n ∈ N gilt. (d) streng monoton fallend, wenn an+1 < an für alle n ∈ N gilt. 72 Mathematik für Physiker I, WS 2010/2011 Freitag 26.11.2010 (e) nach oben beschränkt, wenn die Menge {an |n ∈ N} nach oben beschränkt ist, wenn es also ein c ∈ R mit an ≤ c für alle n ∈ N gibt. (f ) nach unten beschränkt, wenn die Menge {an |n ∈ N} nach unten beschränkt ist, wenn es also ein c ∈ R mit an ≥ c für alle n ∈ N gibt. Vorlesung 10, Freitag 26.11.2010 Wir hatten am Ende der letzten Sitzung eine ganze Liste von Grundeigenschaften reeller und komplexer Folgen definiert, und nun wollen wir ein paar Beispiele für all diese Begriffe durchgehen. 1. Sei q ∈ R mit q > 1. Dann ist die Folge (q n )n∈N streng monoton steigend, denn für jedes n ∈ N ist q n+1 = q n · q > q n . Wegen q n ≥ 1 für alle n ∈ N ist die Folge (q n )n∈N auch nach unten beschränkt. Nach Aufgabe (18) ist die Folge aber nicht nach oben beschränkt. 2. Sei q ∈ R mit 0 < q < 1. Für jedes n ∈ N ist dann q n+1 = q n · q < q n , die Folge (q n )n∈N ist also streng monoton fallend. Nach Aufgabe (18) ist sie auch beschränkt. 3. Die Folge ((−1)n )n∈N ist weder monoton steigend noch monoton fallend. 4. Die durch an := n X k=2 1 k(k − 1) für n ≥ 2 gegebene Folge ist offenbar streng monoton steigend. Sie ist auch nach oben beschränkt, denn für jedes n ∈ N mit n ≥ 2 gilt n n X X 1 1 1 1 an = = − = 1 − < 1. k(k − 1) k=1 k − 1 k n k=2 5. Die durch n X 1 an := k! k=0 gegebene Folge ist offennbar wieder streng monoton steigend. Sie ist auch nach oben beschränkt. Für jedes n ∈ N mit n ≥ 2 gilt nämlich n n n X X X 1 1 1 1 an = =2+ ≤2+ = 3 − < 3. k! k! k(k − 1) n k=0 k=2 k=2 73 Mathematik für Physiker I, WS 2010/2011 6. Die durch Freitag 26.11.2010 an := 1 1+ n n für n ≥ 1 gegebene Folge ist streng monoton steigend. Hierzu benötigen wir eine kleine Erweiterung der Bernoulli Ungleichung §4.Lemma 6, für alle x ∈ R mit 0 6= x ≥ −1 und alle n ∈ N mit n ≥ 2 gilt (1 + x)n > 1 + nx. Zum Beweis müssen Sie sich nur klar machen, dass der Induktionsbeweis in Aufgabe (11) nahezu unverändert auch diese Aussage beweist. Hiermit rechnen wir jetzt 1+ 1 n+1 1 n+1 n + n1 = = n+2 n+1 n+1 n n+1 n = n · (n + 2) (n + 1)2 n+1 n+1 n n+1 n+1 n+1 n+1 (n + 1)2 − 1 1 = 1− 2 2 (n + 1) n (n + 1) n 1 n n+1 n+1 > 1 − (n + 1) · = · = 1, (n + 1)2 n n+1 n d.h. es ist an+1 = 1 1+ n+1 n+1 > 1 1+ n n = an . Die Folge (an )n∈N ist auch wieder nach oben beschränkt. Mit der allgemeinen binomischen Formel §4.Lemma 5 erhalten wir 1 1+ n n n n X X (n − k + 1) · . . . · n 1 n 1 = = · k k k n k! n k=0 k=0 X n n X n−k+1 n 1 1 1 · · ... · ≤ 3 − < 3. = ≤ k! n n k! n k=0 k=0 √ 7. Als ein letztes Beispiel wollen wir einsehen, dass die Folge ( n n)n≥3 streng monoton fallend ist. Ist nämlich n ∈ N mit n ≥ 3 gegeben, so haben wir n n (n + 1)n n+1 1 = = 1+ < 3 ≤ n, nn n n also auch (n + 1)n < n · nn = nn+1 . Folglich ist √ n+1 1 n 1 n + 1 = (n + 1) n+1 = (n + 1) n(n+1) = ((n + 1)n ) n(n+1) < nn+1 1 n(n+1) 1 = nn = Für alle n ∈ N mit n ≥ 3 ist damit auch 1 < beschränkt. 74 √ n n≤ √ 3 √ n n. 3, die Folge ist also auch Mathematik für Physiker I, WS 2010/2011 6.1 Freitag 26.11.2010 Folgenkonvergenz Der Begriff einer Folge ist weitgehend ein Hilfsbegriff, und wir wollen jetzt ein wenig erläutern wobei Folgen eigentlich helfen sollen. Hierfür müssen wir ein klein wenig vorgreifen und schon einmal Ableitungen besprechen. Wir bleiben dabei recht vage, die genaue Behandlung folgt später in diesem Semester. Wir denken uns irgendeine sich mit der Zeit t ändernde Größe x = x(t). Die Ableitung von x nach t ist dann die zeitliche Änderungsrate“ der Größe x. Das Urbeispiel einer Ableitung ist der Begriff ” der Geschwindigkeit. Wir denken uns einen sich bewegenden, physikalischen Körper. Um keine Vektoren verwenden zu müssen, gehen wir davon aus, dass sich diese Bewegung in einer festen Richtung abspielt. Dann können wir die Position unseres Körpers zum Zeitpunkt t durch eine einzelne Zahl x(t) beschreiben, die etwa den Abstand des Körpers zum Koordinatenursprung angibt. Gehen wir erst einmal vom einfachsten Fall aus, und nehmen an das auf unseren Körper keine Kräfte wirken. Dann gilt das sogenannte Trägheitsprinzip, d.h. der Körper legt in einem Zeitabschnitt der Dauer ∆t eine zur Dauer des Zeitabschnitts proportionale Strecke ∆x zurück. Die hierbei auftretende Proportionalitätskonstante, d.h. die Zahl v mit ∆x = v · ∆t, nennt man dann die Geschwindigkeit des Körpers. Maßeinheiten ignorieren wir dabei, und denken uns alles als Zahlen. Die kräftefreie Bewegung ist damit recht einfach. Kommen wir zum allgemeinen Fall der beschleunigten Bewegung, bei der auf den Körper irgendwelche Kräfte wirken. Betrachte wieder ein Zeitintervall der Länge ∆t, und in diesem Zeitintervall lege unser Körper die Strecke ∆x zurück. Als die mittlere Geschwindigkeit in diesem Zeitintervall bezeichnen wir die Geschwindigkeit v die ein unbeschleunigter Körper hätte, der im Zeitintervall ∆t die Strecke ∆x zurücklegte, also ∆x v= . ∆t Nun führt man eine Idealisierung durch. Geben wir uns einen Zeitpunkt t vor, und betrachten immer kleinere mit t startende Zeitabschnitte ∆t, so gehen wir davon aus, dass sich die mittlere Geschwindigkeit bezüglich der Zeitintervalle t bis t + ∆t auf einen Wert v = v(t) einpendelt“. Diese Zahl bezeichnen wir dann als die Geschwindigkeit des ” Körpers zum Zeitpunkt t. Die Existenz dieser Zahl kann man nicht logisch herleiten, es handelt sich nur um eine idealisierende Annahme, die sich aber als sehr erfolgreich herausgestellt hat. Die mittlere Geschwindigkeit ist ein realer Wert, in dem Sinne das wir sie direkt messen können, die Geschwindigkeit kann man dagegen nur näherungsweise durch Messung über ausreichend kleine Zeitabschnitte bestimmen. Für praktische Zwecke macht das keinen effektiven Unterschied da Messungen ja naturgemäß näherungsweise sind, inhaltlich gibt es aber schon einen gewissen Unterschied. Wir denken uns die Geschwindigkeit als einen Quotienten dx v= dt wobei man sich dt als einen unendlich kleinen Zeitabschnitt“ und dx als die in die” sem Zeitabschnitt unendlich kleine zurückgelegte Strecke“ denkt. Ist allgemein x(t) ” 75 Mathematik für Physiker I, WS 2010/2011 Freitag 26.11.2010 eine Funktion von t so definiert“ der Quotient die Ableitung x0 (t) von x in t. Dies ” ist natürlich keine mathematische Definition im heutigen Sinne, da diese unendlich ” kleinen“ Größen nicht wirklich definiert sind. Trotzdem ist die Mathematik sehr lange Zeit mit einer derartig vagen Definition ausgekommen. Tatsächlich waren zu dieser Zeit noch nicht einmal die reellen Zahlen wirklich streng definiert. Geändert hat sich das alles erst im letzten Viertel des neunzehnten Jahrhunderts. Untersucht wurden sogenannte Fourierreihen. Diese traten erstmals beim Studium der sogenannten Wärmeleitungsgleichung auf, diese beschreibt die zeitliche Entwicklung der Temperaturverteilung in einem Draht. Eine Fourierreihe soll eine periodische Funktion f mit Periode 2π als Überlagerung sogenannter Grundschwingungen darstellen. Diese Grundschwingungen sind einfach die Funktionen 1, sin x, cos x, sin(2x), cos(2x) und so weiter. Man will also a0 f (x) = + a1 cos(x) + b1 sin(x) + a2 cos(2x) + b2 sin(2x) + · · · 2 schreiben, wobei das Gleichheitszeichen in einem geeigneten Sinne zu interpretieren ist. Die genaue Untersuchung derartiger Fourierreihen führte auf derartig diffizile Probleme, das die vagen auf infinitesimalen Größen basierenden Konzepte nicht mehr ausreichten, also auf gar keine oder widersprüchliche Ergebnisse führten. Viele der Grundbegriffe die gerade Studienanfängern oft als unnötig kompliziert vorkommen, wurden zur Behandlung von Fourierreihen entwickelt. So wurde der Mengenbegriff erfunden um den Konvergenzbereich von Fourierreihen zu beschreiben, die Interpretation von Funktionen als Relationen wurde in diesem Rahmen eingeführt, und vieles mehr. Auch die unendlich kleinen Zahlen“ standen dabei auf dem Prüfstand. Alle Ver” suche diesen eine wirklich brauchbare, exakte Bedeutung zu geben, sind letztlich gescheitert. Die schließlich gewählte Lösung war es infinitesimale Größen vollständig aus der Mathematik zu entfernen. Im mathematischen Sinn gibt es keine unendlich kleinen oder unendlich großen Zahlen. So etwas wie Ableitungen wollte man aber natürlich trotzdem weiter verwenden, und daher mussten diese auf eine neue Grundlage gestellt werden. Als Ersatz für infinitesimale Werte wurde der Begriff des Grenzwerts eingeführt. Es gibt viele verschiedene Arten von Grenzwerten, von denen wir einige noch kennenlernen werden. Damit sind wir jetzt soweit die Bedeutung von Folgen einsehen zu können. Viele der erwähnten Grenzwertbegriffe lassen sich auf Grenzwerte von Folgen zurückführen. Folgen sind in diesem Rahmen dann ein reines Hilfsmittel, sie erfassen gerade den gemeinsamen Kern einer Vielfalt von Grenzwertbegriffen. Viele der Grundaussagen über Grenzwerte überlegt man sich zunächst für Folgen und kann sie dann auf all die anderen, uns wirklich interessierenden, Grenzwerttypen anwenden. Folgen sind also die Maschinerie die den ganzen Kalkül am Laufen hält, haben aber für sich selbst eher selten eine Bedeutung. Das hat leider zur Folge, dass die Theorie der Folgen zunächst recht unmotiviert und wenig sinnvoll wirkt. Wir definieren die Konvergenz einer Folge in R oder C wie folgt: Definition 6.5 (Folgenkonvergenz) Seien K ∈ {R, C} und (an )n∈N eine Folge in K. Dann konvergiert die Folge (an )n∈N 76 Mathematik für Physiker I, WS 2010/2011 Freitag 26.11.2010 gegen eine Zahl a ∈ K wenn es für jedes > 0 eine natürliche Zahl n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 gibt. In diesem Fall schreiben wir (an )n∈N −→ a. Gelegentlich verwenden wir auch die verkürzte und eigentlich inkorrekte Schreibweise an −→ a anstelle von (an )n∈N −→ a. Als Formel schreibt sich die Konvergenzbedingung als ∀( ∈ R, > 0)∃(n0 ∈ N)∀(n ∈ N, n ≥ n0 ) : |an − a| < und meistens verkürzen wir dies zu ∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| < gehen also implizit davon aus das eine reelle Zahl und n eine natürliche Zahl sind. Beachte das wir statt <“ in der Konvergenzbedingung genausogut ≤“ verwenden ” ” können, also (an )n∈N −→ a ⇐⇒ ∀( > 0)∃(n0 ∈ N)∀(n ≥ n0 ) : |an − a| ≤ . Die Implikation von links nach rechts ist hier trivial. Setzen wir umgekehrt die rechte Seite voraus, und haben eine reelle Zahl > 0 gegeben, so ist auch /2 > 0 und somit existiert ein n0 ∈ N mit |an − a| ≤ /2 für alle n ≥ n0 , also wegen /2 < auch |an − a| < für alle n ≥ n0 . Wir wollen uns jetzt noch die anschauliche Bedeutung der Konvergenzdefinition klarmachen, dies geht n0 am schönsten für komplexe Folgen. Sei also (an )n∈N eine komplexe Zahlenfolge im nebenstehenden Bild ε durch Pünktchen angedeutet. Weiter haben wir einen a vorgeschlagenen Grenzwert a ∈ C. Was bedeutet nun |an − a| < ? Der Betrag einer komplexen Zahl ist ihr Abstand zum Nullpunkt, an − a ist der Vektor von a nach an , seine Länge |an − a| ist also der Abstand von an zu a. Dass |an − a| < gilt, bedeutet also das an höchstens den Abstand zu a hat, dass also an im Kreis mit Mittelpunkt a und Radius liegt. Insgesamt bedeutet an −→ a also, dass es für jeden noch so kleinen Kreis mit Mittelpunkt a immer einen Index n0 gibt, ab dem die Folge ganz im Kreis liegt. Der Index n0 = n0 () hängt dabei in der Regel von ab, je kleiner der Radius unseres Kreises ist, um so später liegt die Folge ganz im Kreis, d.h. n0 wird größer wenn kleiner wird. Beachte das die Konvergenz an −→ a nichts über konkrete Folgenglieder aussagt, konvergiert etwa an −→ 1, so kann trotzdem a1000 = −100 sein, man weiss nur das die Folgenglieder irgendwann einmal nahe bei 1 sein werden. Eine andere Interpretation ist es, sich eine gegen a konvergente Folge (an )n∈N als eine Folge von Näherungen an a zu denken. Die Konvergenzbedingung besagt dann, dass es zu beliebig vorgegebener Fehlerschranke immer eine Stelle n0 gibt ab der die Näherungen an höchstens den Fehler haben. Wir wollen jetzt einige erste Eigenschaften des Konvergenzbegriffs nachweisen. 77 Mathematik für Physiker I, WS 2010/2011 Freitag 26.11.2010 Lemma 6.1 (Grundeigenschaften der Konvergenz) Seien K ∈ {R, C}, (an )n∈N eine Folge in K und a ∈ K. (a) Ist (an )n∈N −→ a, so gilt auch (ank )k∈N −→ a für jedes Teilfolge (ank )k∈N von (an )n∈N . (b) Es gibt höchstens ein b ∈ K mit (an )n∈N −→ b. (c) Genau dann konvergiert die Folge (an )n∈N nicht gegen a, wenn es eine reelle Zahl > 0 und eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N gibt. (d) Ist K = C, so gilt genau dann (an )n∈N −→ a, wenn (Re an )n∈N −→ Re a und (Im an )n∈N −→ Im a gelten. (e) Ist K = C und an ∈ R für alle n ∈ N sowie (an )n∈N −→ a, so gilt auch a ∈ R und die Folge konvergiert auch in R gegen a. Beweis: (a) Sei (ank )k∈N eine Teilfolge von (an )n∈N . Sei > 0 gegeben. Dann existiert ein m ∈ N mit |an − a| < für alle n ∈ N mit n ≥ m. Wegen n0 < n1 < n2 < . . . ist nk ≥ k für jedes k ∈ N. Ist also k ∈ N mit k ≥ m, so gilt auch nk ≥ k ≥ m und somit |ank − a| < . Dies zeigt (ank )k∈N −→ a. (b) Sei also b ∈ K und nehme an das (an )n∈N sowohl gegen a als auch gegen b konvergiert. Angenommen es wäre a 6= b, also auch |a − b| > 0. Dann ist := |a − b|/2 > 0, also existieren n1 , n2 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n1 und |an − b| < für alle n ∈ N mit n ≥ n2 . Wir erhalten n := max{n1 , n2 } ∈ N mit n ≥ n1 und n ≥ n2 , also |a − b| = |a − an + an − b| ≤ |an − a| + |an − b| < 2 = |a − b|, ein Widerspruch. Dieser Widerspruch zeigt a = b. (c) ”=⇒” Die Verneinung von (an )n∈N −→ a ist ∃( > 0)∀(n0 ∈ N)∃(n ≥ n0 ) : |an − a| ≥ , es gibt also ein > 0 so, dass es für jedes n0 ∈ N stets ein n ∈ N mit n ≥ n0 und |an − a| ≥ gibt. Nach Wahl von existiert ein n0 ∈ N mit |an0 − a| ≥ . Ist k ∈ N und ist nk ∈ N bereits definiert, so existiert wieder nach Wahl von ein nk+1 ∈ N mit nk+1 ≥ nk + 1 > nk und |ank+1 − a| ≥ . Damit wird induktiv eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N definiert. ”⇐=” Wähle ein > 0 und eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| ≥ für alle k ∈ N. Angenommen (an )n∈N würde gegen a konvergieren. Nach (a) konvergiert dann auch (ank )k∈N gegen a, und somit existiert ein k0 ∈ N mit |ank − a| < für alle k ∈ N mit k ≥ k0 , also insbesondere |ank0 − a| < , ein Widerspruch. Also konvergiert (an )n∈N nicht gegen a. 78 Mathematik für Physiker I, WS 2010/2011 Freitag 26.11.2010 (d) ”=⇒” Sei > 0. Wegen (an )n∈N −→ a existiert ein n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist dann nach §5.Lemma 3.(a) auch | Re(an ) − Re(a)| = | Re(an − a)| ≤ |an − a| < und ebenso | Im(an ) − Im(a)| = | Im(an − a)| ≤ |an − a| < . Damit ist (Re(an ))n∈N −→ Re(a) und (Im(an ))n∈N −→ Im(a). ”⇐=” Sei > 0. Wegen (Re(an ))n∈N −→ √ Re(a) und (Im(an ))n∈N −→ Im(a) existieren n1 , n2 ∈ N mit √ | Re(an ) − Re(a)| < / 2 für alle n ∈ N mit n ≥ n1 und | Im(an ) − Im(a)| < / 2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 } ∈ N. Für jedes n ∈ N mit n ≥ n0 gilt dann n ≥ n1 und n ≥ n2 , also nach §5.Lemma 3.(a) auch |an − a| ≤ √ 2 max{| Re(an − a)|, | Im(an − a)|} √ √ = 2 max{| Re(an ) − Re(a)|, | Im(an ) − Im(a)|} < 2 · √ = . 2 Dies beweist (an )n∈N −→ a. (e) Nach (d) gilt (an )n∈N = (Re(an ))n∈N −→ Re(a), und mit (b) folgt a = Re(a) ∈ R. Die Aussage (e) des Lemmas besagt, dass es für eine reelle Zahlenfolge (an )n∈N egal ist, ob wir sie als reelle Folge oder als komplexe Folge betrachten, an der Konvergenz der Folge ändert sich dabei nichts. Insbesondere kann man den komplexen Fall K = C meist als den allgemeinen Fall behandeln, und sich K = R dann als Spezialfall denken. Zum Abschluß wollen wir jetzt noch ein erstes Beispiel einer konvergenten Folge behandeln. Das Grundbeispiel einer konvergenten Folge ist die Folge (1/n)n≥1 . Wir behaupten das diese Folge gegen Null konvergiert 1 −→ 0. n n≥1 Um dies zu beweisen, folgen wir der Konvergenzdefinition. Sei > 0. Nach der archimedischen Eigenschaft §4.Lemma 4 der reellen Zahlen existiert eine natürliche Zahl n0 ∈ N mit n0 > 1, also insbesondere n0 ≥ 1. Für jedes n ∈ N mit n ≥ n0 ist damit auch 1 1 = ≤ 1 < . n n n0 Damit ist diese Behauptung gezeigt. Diese Folge ist natürlich vergleichsweise einfach, die Bedeutung dieses Grenzwerts sollte man aber nicht unterschätzen. Wir wir sehen werden, werden viele andere Grenzwerte letztlich genau auf 1/n −→ 0 zurückgeführt. Wie sie am Beweis sehen, ist die Konvergenz von (1/n)n∈N gegen Null äquivalent zur archimedischen Eigenschaft der reellen Zahlen. Diese beruhte letztlich auf dem Vollständigkeitsaxiom, und tatsächlich sind die Axiome eines angeordneten Körpers alleine nicht stark genug zu beweisen das (1/n)n∈N gegen Null konvergiert. Dies wirklich 79 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 einzusehen, bedarf allerdings der Konstruktion eines schon vergleichsweise komplizierten Gegenbeispiels und soll hier nicht vorgeführt werden. Vorlesung 11, Montag 29.11.2010 In der letzten Sitzung hatten wir den Begriff der Konvergenz einer reellen oder komplexen Folge gegen eine Zahl eingeführt und unter anderem bewiesen, dass eine solche Folge gegen höchstens eine Zahl konvergieren kann. Damit können wir nun auch den Grenzwert einer Folge definieren. Definition 6.6 (Folgengrenzwerte) SeiK ∈ {R, C}. Dann heißt eine Folge (an )n∈N in K konvergent wenn es ein a ∈ K mit (an )n∈N −→ a gibt. Nach Lemma 1.(b) ist a ∈ K dann eindeutig bestimmt und heißt der Grenzwert der Folge (an )n∈N , geschrieben als a = lim an . n→∞ Eine nicht konvergente Folge heißt divergent. Nach Lemma 1.(a) ist jede Teilfolge einer konvergenten Folge wieder konvergent und hat denselben Grenzwert wie die Originalfolge. Weiter ist eine komplexe Folge (zn )n∈N nach Lemma 1.(d) genau dann konvergent wenn die Folgen der Real- und der Imaginärteile beide konvergent sind, und in diesem Fall gelten Re lim zn = lim Re(zn ) und Im lim zn = lim Im(zn ). n→∞ n→∞ n→∞ n→∞ Schließlich besagt Lemma 1.(e) das es für eine reelle Folge keine Rolle spielt, ob wir sie in K = R oder in K = C betrachten, sowohl die Konvergenz als auch der notwendig reelle Grenzwert stimmen in beiden Fällen überein. Daher kann man, wie schon letztes Mal erwähnt, den komplexen Fall K = C als den allgemeinen Fall“ behandeln. ” Lemma 6.2 (Grundeigenschaften konvergenter Folgen) Seien K ∈ {R, C} und (an )n∈N eine konvergente Folge in K. Dann gelten: (a) Die Folge (an )n∈N ist beschränkt. (b) Die Folge der Beträge (|an |)n∈N ist wieder konvergent und es gilt lim |an | = lim an . n→∞ n→∞ Beweis: Sei a ∈ K der Grenzwert der Folge (an )n∈N . 80 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 (a) Wegen (an )n∈N −→ a existiert ein n0 ∈ N mit |an − a| < 1 für alle n ∈ N mit n ≥ n0 . Weiter setzen wir c := max{|a| + 1, |a0 |, . . . , |an0 −1 |} ≥ 0. Dann gilt |an | ≤ c für alle n ∈ N. Sei nämlich n ∈ N gegeben. Ist dann n < n0 , so haben wir sofort |an | ≤ c nach Definition von c, und ist n ≥ n0 , so ist ebenfalls |an | = |a + (an − a)| ≤ |a| + |an − a| < |a| + 1 ≤ c. Damit ist die Folge (an )n∈N beschränkt. (b) Sei > 0. Dann existiert ein n0 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist dann nach §5.Lemma 3.(e) auch |an | − |a| ≤ |an − a| < . Dies zeigt (|an |)n∈N −→ |a|. In der letzten Sitzung hatten wir als Beispiel eines Grenzwerts bereits 1 =0 n→∞ n eingesehen. Einige weitere Grenzwerte sind eine unmittelbare Folgerung. Beispielsweise ist 1 lim 2 = 0, n→∞ n + 1 einfach da (1/(n2 + 1))n∈N eine Teilfolge von (1/n)n∈N ist. Zwei weitere Beispiele wollen wir jetzt einfach angeben, der Beweis ist eine Übungsaufgabe. Sei q ∈ C. Dann gilt lim (q n )n∈N ist konvergent ⇐⇒ |q| < 1 oder q = 1 und im Konvergenzfall ist ( 0, |q| < 1, lim q n = n→∞ 1, q = 1. Für jedes q ∈ C ist dagegen qn = 0. n→∞ n! Wir kommen jetzt zu einem schon recht komplizierten Beispiel, wir wollen die Folge n 1 an = 1 + n lim auf Konvergenz untersuchen. Wir wissen bereits, dass diese Folge streng monoton steigend und nach oben beschränkt ist, genauer ist an < 3 für jedes n ∈ N. Der folgende Satz zeigt, dass diese beiden Eigenschaften bereits die Konvergenz der Folge implizieren. Satz 6.3 (Konvergenz monotoner Folgen) Sei (an )n∈N eine reelle Folge. 81 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 (a) Ist (an )n∈N monoton steigend und nach oben beschränkt, so ist (an )n∈N auch konvergent mit lim an = sup{an |n ∈ N}. n→∞ (b) Ist (an )n∈N monoton fallend und nach unten beschränkt, so ist (an )n∈N auch konvergent mit lim an = inf{an |n ∈ N}. n→∞ Beweis: (a) Schreibe s := sup{an |n ∈ N}. Sei > 0. Nach §4.Lemma 2.(a) existiert ein n0 ∈ N mit an0 > s − . Sei n ∈ N mit n ≥ n0 . Dann ist s − < an0 ≤ an ≤ s, also |an − s| = s − an < . Dies zeigt (an )n∈N −→ s. (b) Analog. Dieser Satz ergibt insbesondere die Existenz des Grenzwerts n n 1 1 = sup 1 + . α := lim 1 + n→∞ n n n∈N Tatsächlich wird sich später herausstellen das α = e die Euler-Napiere Konstante e = 2, 71828 . . . ist. Die ersten Folgenglieder von an = (1 + 1/n)n sind 9 64 625 7776 117649 5 a1 = 2, a2 = , a3 = , a4 = , a5 = , a6 = > , 4 27 256 3125 46656 2 und da außerdem 3 eine obere Schranke unserer Folge ist, folgt 5 < α ≤ 3. 2 Für die meisten Zwecke innerhalb der reinen Mathematik ist das schon genau genug. √ n Als nächstes Beispiel wollen wir die Folge ( n)n≥1 behandeln. Wir wissen bereits das diese für n ≥ 3 streng monoton fallend ist und außerdem trivialerweise durch 1 nach unten beschränkt ist, also existiert ihr Grenzwert. Wir behaupten das lim n→∞ √ n n=1 gilt. Sei nämlich > 0 gegeben. Mit der archimedischen Eigenschaft der reellen Zahlen §4.Lemma 4 erhalten wir ein n0 ∈ N mit n0 > 1 + 82 2 . 2 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 Sei nun n ∈ N mit n ≥ n0 gegeben, also insbesondere n ≥ 2. Mit der allgemeinen binomischen Formel §4.Lemma 5 erhalten wir n X n √ n √ k n ( n − 1) ≥ ( n n − 1)2 n = ( n) = (1 + ( n − 1)) = k 2 k=0 √ n √ n n n = n(n − 1) √ ( n n − 1)2 . 2 Hieraus folgen weiter r r √ √ 2 2 2 n ( n − 1) ≤ und 0 < n − 1 ≤ ≤ < 2 = , n−1 n−1 n0 − 1 √ √ √ also schließlich | n n − 1| = n n − 1 < . Dies beweist ( n n)n≥1 −→ 1 wie behauptet. Wir werden zeigen, dass auch für jede positive reelle Zahl c ∈ R mit c > 0 stets die √ n Aussage ( c)√n≥1 −→ 1 gilt. Dies kann man analog zur eben vorgeführten Berechnung von limn→∞ n n durchführen, es ist sogar etwas einfacher, aber wir wollen hier einen alternativen Zugang wählen, der ohne Rechnung√auskommt. In der Tat folgt die Konvergenzaussage direkt aus dem eben bewiesenen n n −→ 1. Hierzu ist es hilfreich zuvor einige allgemeine Aussagen zu beweisen. Wir beginnen mit dem Begriff einer Nullfolge, der es uns erlauben wird viele Grenzwerte ohne die –n0 Überlegungen behandeln zu können. √ n 2 Definition 6.7 (Nullfolgen) Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt eine Nullfolge wenn (an )n∈N −→ 0 gilt. Offenbar ist eine reelle oder komplexe Folge (an )n∈N genau dann eine Nullfolge wenn die reelle Folge (|an |)n∈N eine Nullfolge ist. Lemma 6.4 (Grundeigenschaften von Nullfolgen) Sei K ∈ {R, C}. Dann gelten: (a) Sind (an )n∈N und (bn )n∈N zwei Nullfolgen in K, so ist auch (an + bn )n∈N eine Nullfolge in K. (b) Sind (an )n∈N eine Nullfolge in K und c ∈ K, so ist auch (can )n∈N eine Nullfolge in K. (c) Sind (an )n∈N eine beschränkte Folge in K und (bn )n∈N eine Nullfolge in K, so ist auch (an bn )n∈N eine Nullfolge in K. (d) Sind (an )n∈N eine Folge in K und a ∈ K, so gilt genau dann (an )n∈N −→ a wenn (an − a)n∈N eine Nullfolge ist. (e) Sind (an )n∈N eine Folge in K und (bn )n∈N eine Nullfolge in R mit |an | ≤ bn für alle n ∈ N, so ist auch (an )n∈N eine Nullfolge in K. 83 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 (f ) Sind (an )n∈N eine Nullfolge in R mit an > 0 für alle n ∈ N und α ∈ Q mit α > 0, so ist auch (aαn )n∈N eine Nullfolge. Beweis: (a) Sei > 0. Dann existieren n1 , n2 ∈ N mit |an | < /2 für alle n ∈ N mit n ≥ n1 und |bn | < /2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Für alle n ∈ N mit n ≥ n0 ist dann auch |an + bn | ≤ |an | + |bn | < + = . 2 2 Damit ist (an + bn )n∈N eine Nullfolge in K. (c) Es gibt eine Konstante c ≥ 0 mit |an | ≤ c für alle n ∈ N. Sei > 0. Dann existiert ein n0 ∈ N mit |bn | < /(c + 1) für alle n ∈ N mit n ≥ n0 . Ist n ∈ N mit n ≥ n0 , so ist damit auch c < . |an bn | = |an | · |bn | ≤ c|bn | ≤ c+1 Damit ist (an bn )n∈N eine Nullfolge in K. (b) Klar nach (c). (d,e) Klar. √ (f ) Seien p, q ∈ Z mit p, q ≥ 1 und α = p/q. Wir zeigen zunächst, dass ( q an )n∈N eine Nullfolge ist. Sei also > 0 gegeben. Dann existiert ein n0 ∈ N mit an√< q für alle √ n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 folgt damit auch q an < q q = . Also √ ist ( q an )n∈N eine Nullfolge. Da konvergente Folgen nach Lemma 2.(a) auch beschränkt √ sind, ist somit auch (aαn )n∈N = (( q an )p )n∈N nach (c) eine Nullfolge. Wir wollen noch ein paar Anmerkungen zum eben bewiesenen Lemma festhalten. Zunächst beachte das konvergente Folgen nach Lemma 2.(a) auch beschränkt sind, Aussage (c) des Lemmas ergibt also insbesondere, dass das Produkt einer konvergenten Folge und einer Nullfolge wieder eine Nullfolge ist. Weiter ist es in Aussage (e) des Lemmas nicht wirklich nötig das |an | ≤ bn für alle n ∈ N gilt, es reicht aus das es einen Startindex n0 ∈ N mit |an | ≤ bn für alle n ∈ N mit n ≥ n0 gibt. Dies ist implizit bereits im Lemma enthalten. Erinnern Sie sich daran, dass wir eingehends gesagt hatten, dass implizit immer auch Folgen mit gemeint sind, die erst ab einem Startindex definiert sind. Weiter ist es für die Konvergenz und den Grenzwert einer Folge offenbar egal ob wir die Folge selbst oder dieselbe Folge ab einem anderen Startindex betrachten. Wenden wir also Aussage (e) des Lemmas auf die Folgen (an )n≥n0 und (bn )n≥n0 an, so ergibt sich genau die genannte stärkere Aussage. Letztendlich haben wir uns in Teil (f) auf den Fall rationaler Exponenten α beschränkt, da wir Potenzrechnung mit beliebigen reellen Exponenten noch gar nicht eingeführt haben. Die Aussage (f) wird auch für allgemeine positive Exponenten wahr sein, bedarf dann allerdings eines anderen Beweises, aber dazu werden wir dann später im Semester kommen. √ Unser Ziel ist noch immer einen –n0 freien“ Beweis der Aussage n c −→ 1 für ” jedes c ∈ R mit c > 0 anzugeben. Das eben bewiesene Lemma über Nullfolgen ist ein 84 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 erster Schritt hierzu, und der zweite Schritt ist das folgende Lemma über reelle Folgen. Lemma 6.5 (Anordnungseigenschaften reeller Grenzwerte) Seien (an )n∈N und (bn )n∈N zwei konvergente, reelle Folgen. (a) Gilt an ≤ bn für alle n ∈ N, so ist auch lim an ≤ lim bn . n→∞ n→∞ (b) Gilt lim an = lim bn und ist (un )n∈N eine weitere reelle Folge mit an ≤ un ≤ bn n→∞ n→∞ für alle n ∈ N, so ist auch die Folge (un )n∈N konvergent mit lim un = lim an = lim bn . n→∞ n→∞ n→∞ Beweis: (a) Seien a der Grenzwert von (an )n∈N und b der Grenzwert von (bn )n∈N . Angenommen es wäre a > b. Dann ist := (a − b)/2 > 0 und es gibt n1 , n2 ∈ N mit |an − a| < für alle n ∈ N mit n ≥ n1 und |bn − b| < für alle n ∈ N mit n ≥ n2 . Setze n := max{n1 , n2 }. Dann ist an = b − (a − an ) ≥ a − |an − a| > b − = a − a+b a−b a−b = =b+ =b+ 2 2 2 > b + |bn − b| ≥ b + bn − b = bn , im Widerspruch zu unserer Annahme an ≤ bn . Dies beweist die Behauptung a ≤ b. (b) Sei a der gemeinsame Grenzwert der Folgen (an )n∈N und (bn )n∈N . Für jedes n ∈ N gelten un − a ≤ bn − a ≤ |bn − a| und − (un − a) = a − un ≤ a − an ≤ |an − a|, also auch |un − a| ≤ max{|an − a|, |bn − a|} ≤ |an − a| + |bn − a|. Nach Lemma 4.(a,d,e) ist (un − a)n∈N eine Nullfolge, d.h. auch die Folge (un )n∈N konvergiert gegen a. Die Aussage (b) des Lemmas wird manchmal auch als das Einschnürungslemma“ ” bezeichnet. Beachte das es auch für dieses Lemma reicht die Ungleichungen an ≤ bn beziehungsweise an ≤ un ≤ bn nur für alle n ∈ N mit n ≥ n0 für einen Startindex n0 ∈ N zu fordern. Auch dies liegt daran, dass immer auch Folgen mit gemeint sind, 85 Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 die erst ab einem gewissen Startindex definiert sind. Zur Illustration der √ jetzt bewiesenen Lemmata wollen wir uns noch einmal den Beweis der Aussage ( n n)n∈N −→ 1 anschauen. Wir hatten gezeigt, dass für jedes n ∈ N mit n ≥ 2 die Ungleichung r √ 2 0< nn−1≤ n−1 gilt. Weiter ist die Folge (1/(n − 1))n∈N alspTeilfolge einer Nullfolge wieder eine Nullfolge √ und nach Lemma 4.(b,f) ist auch ( 2/(n − 1))n∈N eine Nullfolge. Damit ist ( n n − 1) n∈N nach dem Einschnürungslemma Lemma 5.(b) eine Nullfolge, d.h. wir √ n haben ( n)n∈N −→ 1. Beachte das wir die Konvergenzaussage diesmal direkt aus der obigen Ungleichung gefolgert haben, ein Argumentieren über die Konvergenzdefinition mit und n0 war gar nicht mehr nötig. Diesen Effekt werden wir noch häufiger sehen, der Nullfolgenbegriff und das unterstützende Lemma 4 erlauben es viele, aber nicht alle, -Überlegungen“ durch einfacheres Schließen zu ersetzen. ” Als eine weitere Anwendung des Einschnürungslemmas wollen wir jetzt, wie schon angekündigt, √ lim n c = 1 n→∞ für alle c ∈ R mit c ≥ 1 beweisen. Nach der archimedischen Eigenschaft der reellen Zahlen §4.Lemma 4 gibt es ein n0 ∈ N mit n0 ≥ c. Für alle n ∈ N mit n ≥ n0 ≥ c ist damit auch √ √ 1 ≤ n c ≤ n n, √ und da wir bereits ( n n)n∈N −→ 1 wissen, folgt mit dem Einschnürungslemma Lemma √ 5.(b) auch ( n c)n∈N −→ 1. Der andere Fall für c, also 0 < c < 1, muss etwas anders behandelt werden, wir werden ihn mit Hilfe der Rechenregeln für Grenzwerte auf den Fall c > 1 zurückführen. Satz 6.6 (Rechenregeln für Folgengrenzwerte) Sei K ∈ {R, C} und seien (an )n∈N und (bn )n∈N zwei konvergente Folgen in K. (a) Die Folge (an + bn )n∈N ist konvergent mit lim (an + bn ) = lim an + lim bn . n→∞ n→∞ n→∞ (b) Für jedes c ∈ K ist die Folge (can )n∈N konvergent mit lim (can ) = c · lim an . n→∞ n→∞ (c) Die Folge (an bn )n∈N ist konvergent mit lim (an bn ) = lim an · lim bn . n→∞ n→∞ 86 n→∞ Mathematik für Physiker I, WS 2010/2011 Montag 29.11.2010 (d) Ist limn→∞ bn 6= 0 und gilt bn 6= 0 für alle n ∈ N, so ist die Folge (an /bn )n∈N konvergent mit lim an an lim = n→∞ . n→∞ bn lim bn n→∞ Beweis: Seien a der Grenzwert von (an )n∈N und b der Grenzwert von (bn )n∈N . (a) Die Folge ((an + bn ) − (a + b))n∈N = ((an − a) + (bn − b))n∈N ist nach Lemma 4.(a,d) eine Nullfolge. (b) Die Folge (can − ca)n∈N = (c(an − a))n∈N ist nach Lemma 4.(b,d) eine Nullfolge. (c) Nach Lemma 2.(a) ist die Folge (an )n∈N beschränkt, und damit ist die Folge (an bn − ab)n∈N = (an bn − an b + an b − ab)n∈N = (an (bn − b) + b(an − a))n∈N nach Lemma 4.(a,b,c,d) eine Nullfolge. (d) Es gibt ein n0 ∈ N mit |bn | < |b|/2 für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 folgen damit auch 1 |b| |b| 2 1 |bn | = |b − (b − bn )| ≥ |b| − |bn − b| > |b| − = und = < , 2 2 bn |bn | |b| d.h. die Folge (1/bn )n∈N ist beschränkt. Damit ist die Folge an a an b − abn an b − ab + ab − abn − = = bn b n∈N bb b bb b n∈N n∈N a 1 · (an − a) − · (bn − b) = bn bn b n∈N nach Lemma 4.(a,b,c,d) eine Nullfolge. Die Forderung bn 6= 0 für alle n ∈ N in Aussage (d) ist eigentlich nicht nötig. Im Beweis von (d) haben wir ja gesehen, dass es ein n0 ∈ N mit |bn | > |b|/2 für alle n ∈ N mit n ≥ n0 gibt, und damit ist insbesondere auch bn 6= 0 für alle n ∈ N mit n ≥ n0 . Betrachten wir also wieder die Folge ab dem Startindex n0 , so ergibt sich (d) auch in diesem Fall, solange wir uns die Folge (an /bn )n≥n0 als ab dem Startindex n0 definiert denken. Die Voraussetzung b 6= 0 ist dagegen wirklich nötig. Wir wollen jetzt ein paar Beispiele zur Anwendung der Grenzwertregeln behandeln. 1. Sei eine reelle Zahl c ∈ (0, 1) gegeben. Dann ist 1/c > 1 und somit folgt lim n→∞ √ n 1 c = lim q = n→∞ n 1 c 1 lim n→∞ q = 1, n 1 c da wir den √ Grenzwert im Nenner bereits früher zu 1 berechnet hatten. Insgesamt ist damit ( n c)n∈N −→ 1 für überhaupt jedes c ∈ R mit c > 0 gezeigt. 87 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 2. Wir wollen jetzt den schon recht kompliziert aussehenden Grenzwert 2n3 − 2n + 7 n→∞ n3 + 3n + 1 lim behandeln. Erweitern wir Zähler und Nenner mit 1/n3 und erinnern uns an den schon bekannten Grenzwert 1/n −→ 0, so rechnen wir mit den Grenzwertregeln 2− 2n3 − 2n + 7 = lim lim 3 n→∞ 1 + n→∞ n + 3n + 1 2 n2 3 n2 + + 7 n3 1 n3 = lim 2 − 2 n2 + 7 n3 lim 1 + 3 n2 + 1 n3 n→∞ n→∞ = 2. Außerdem haben wir dabei die triviale Tatsache verwendet, dass konstante Folgen (c)n∈N gegen die entsprechende Konstante c konvergieren. 3. Ein ähnliches, scheinbar noch komplizierteres, Beispiel ist der Grenzwert 2n2 − n cos(n) + 3 sin(n4 + 1) . n→∞ 3n2 + n + (−1)n lim Wir erweitern mit 1/n2 , und erhalten sin(n4 +1) 2 − cosn n + 3 n2 2n2 − n cos(n) + 3 sin(n4 + 1) lim = lim n n→∞ n→∞ 3n2 + n + (−1)n 3 + 1 + (−1)2 n . n Nun ist (1/n)n≥1 eine Nullfolge und (cos n)n∈N eine beschränkte Folge, da der Cosinus ja nur Werte zwischen −1 und 1 annimmt, also ist (cos(n)/n)n≥1 nach Lemma 4.(c) eine Nullfolge. Ebenso sind (3 sin(n4 + 1)/n2 )n≥1 und ((−1)n /n2 )n≥1 Nullfolgen, es gilt also sin(n4 +1) 2 − cosn n + 3 n2 2n2 − n cos(n) + 3 sin(n4 + 1) = lim lim n n→∞ n→∞ 3n2 + n + (−1)n 3 + 1 + (−1)2 n n 2 = . 3 Als ein weiteres Beispiel zur Anwendung der Grenzwertregeln wollen wir die letzten beiden Beispiele noch etwas ausweiten, und allgemein den Grenzwert von Folgen berechenen die als rationale Ausdrücke in n gegeben sind, also als Quotient von Polynomen in n. Zur Vorbereitung beweisen wir ein kleines Lemma über das Wachstumsverhalten von Polynomen. Vorlesung 12, Montag 06.12.2010 Da die Vorlesung am letzten Freitag ausgefallen ist, musste ich in dieser Vorlesung etwas aufholen und habe einige Details weggelassen. In diesem Skript ist alles vollständig, die in der Vorlesung fortgelassenen Stellen sind meistens als solche angegeben. 88 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 Am Ende der letzten Sitzung hatten wir das folgende Lemma angeschrieben, müssen seinen Beweis aber noch nachholen, worauf aber verzichtet wurde. Lemma 6.7 (Wachstumsverhalten von Polynomen) Seien K ∈ {R, C}, n ∈ N, > 0 und a0 , . . . , an ∈ K mit an 6= 0 gegeben. Dann existiert eine reelle Zahl r > 0 so, dass für jedes x ∈ K mit |x| ≥ r stets n X ak xk < (|an | + )|x|n (|an | − )|x|n < k=0 gilt. Beweis: Für n = 0 ist dies klar, wir können also n ≥ 1 annehmen. Setze M := max{|a0 |, |a1 |, . . . , |an−1 |} und r := 1 + nM ≥ 1. Sei x ∈ K mit |x| ≥ r gegeben. Wegen r ≥ 1 ist dann auch |x| ≥ 1 und für jedes 0 ≤ k < n ist damit |xk | = |x|k ≤ |x|n−1 . Damit folgt weiter n−1 n−1 n−1 n−1 X X X X nM n k k k M |x|n−1 = nM |x|n−1 = |ak | · |x | ≤ |ak x | = ak x ≤ |x| |x| k=0 k=0 k=0 k=0 ≤ nM n |x| < |x|n . r Dies ergibt weiter n n−1 X X k n k ak x ≤ |an | · |x| + ak x < |an | · |x|n + |x|n = (|an | + )|x|n , k=0 k=0 n n−1 X X k n k ak x ≥ |an | · |x| − ak x > |an | · |x|n − |x|n = (|an | − )|x|n . k=0 k=0 Damit ist das Lemma vollständig bewiesen. Wählen wir insbesondere = |an |/2 > 0, so wird das Lemma zu n X 3 |an | · |x|n < ak xk < |an | · |x|n ≤ 2|an | · |x|n 2 2 k=0 für alle x ∈ K mit |x| ≥ r. Insbesondere gilt für x ∈ K mit |x| ≥ r > 0 damit an xn + · · ·+a0 6= 0, die Nullstellen des Polynoms haben also alle einen Betrag kleiner als r. Mit diesem Lemma können wir jetzt allgemein die Konvergenz von Folgen behandeln deren n-tes Folgenglied eine rationale Funktion in n ist, also ein Quotient zweier Polynome in n. 89 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 Satz 6.8 (Rationale Folgen in n) Seien K ∈ {R, C}, r, s ∈ N und a0 , . . . , ar , b0 , . . . , bs ∈ K mit ar 6= 0 und bs 6= 0. Dann gelten: (a) Ist r < s, so ist ar nr + ar−1 nr−1 + · · · + a0 = 0. n→∞ bs ns + bs−1 ns−1 + · · · + b0 lim (b) Ist r = s, so ist ar nr + ar−1 nr−1 + · · · + a0 ar = . n→∞ br nr + br−1 nr−1 + · · · + b0 br lim (c) Ist r > s, so ist die Folge ar nr + ar−1 nr−1 + · · · + a0 bs ns + bs−1 ns−1 + · · · + b0 n divergent. Beweis: Nach Lemma 7 gibt es reelle Konstanten t1 , t2 > 0 mit r X |ar | ∀(x ∈ K, |x| ≥ t1 ) : · |x|r < ak xk < 2|ar | · |x|r und 2 k=0 s X |bs | bk xk < 2|bs | · |x|s . · |x|s < ∀(x ∈ K, |x| ≥ t2 ) : 2 k=0 Nach §4.Lemma 4 existiert weiter ein n0 ∈ N mit n0 ≥ max{t1 , t2 }. Insbesondere ist |bs ns + · · · + b0 | > 0 für alle n ∈ N mit n ≥ n0 , die Folge ist also ab dem Startwert n0 überhaupt definiert. (a) Für jedes n ∈ N mit n ≥ n0 gilt ar nr + ar−1 nr−1 + · · · + a0 |ar nr + ar−1 nr−1 + · · · + a0 | 4|ar | 1 bs ns + bs−1 ns−1 + · · · + b0 = |bs ns + bs−1 ns−1 + · · · + b0 | < |bs | ns−r , und die Behauptung folgt mit Lemma 4.(b,e). (b) Nach Satz 6.(a,b) gelten lim n→∞ r X ak k=0 1 nr−k = ar und lim n→∞ r X k=0 bk 1 nr−k = br , also ist nach Satz 6.(d) auch ar + ar−1 n1 + · · · + a0 n1r ar nr + ar−1 nr−1 + · · · + a0 ar = lim = . 1 1 r r−1 n→∞ br n + br−1 n n→∞ br + br−1 + · · · + b0 r + · · · + b0 br n n lim 90 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 (c) Für jedes n ∈ N mit n ≥ n0 gilt ar nr + ar−1 nr−1 + · · · + a0 |ar nr + ar−1 nr−1 + · · · + a0 | |ar | r−s |ar | ≥ n, bs ns + bs−1 ns−1 + · · · + b0 = |bs ns + bs−1 ns−1 + · · · + b0 | > 4|bs | n 4|bs | und nach §4.Lemma 4 ist dies nicht nach oben beschränkt. Die Behauptung folgt nun mit Lemma 2.(a). Zum Ende dieses Abschnitts wollen wir noch einen letzten wichtigen Begriff einführen, der den Grenzwertbegriff etwas verallgemeinert. Wir schauen uns zunächst einmal das Beispiel der Folge 1 0.5 an = (−1)n 0 5 10 15 20 wie nebenstehend gezeigt an. Diese Folge ist natürlich nicht konvergent, sie besitzt ja beispielsweise konvergente Teilfolgen, die gegen verschiedene Grenzwerte konvergieren. Man ist trotzdem versucht zu sagen, dass +1 und −1 zwar keine Grenzwerte aber etwas Grenzwertarti” ges“ sind. Man spricht hier von Häufungspunkten der Folge (an )n∈N . Es gibt im wesentlichen zwei verschiedene, aber äquivalente, Arten einen Häufungspunkt zu definieren, einmal über Teilfolgen und einmal über eine –n0 Defi” nition“. Wir wählen hier die erste Möglichkeit und beweisen anschließend, dass sie zur zweiten Version äquivalent ist. –0.5 –1 Definition 6.8: Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. Eine Element a ∈ K heißt ein Häufungspunkt von (an )n∈N wenn es eine gegen a konvergente Teilfolge (ank )k∈N von (an )n∈N gibt. Einige Beispiele von Häufungspunkten sind wie folgt: 1. Ist (an )n∈N −→ a ∈ K, so konvergiert nach Lemma 1.(a) auch jede Teilfolge von (an )n∈N gegen a, d.h. a ist der einzige Häufungspunkt von (an )n∈N . 2. Die Folge ((−1)n )n∈N hat genau zwei Häufungspunkte nämlich −1 und 1. 3. Die Folge (sin(n))n∈N hat jede reelle Zahl a ∈ [−1, 1] als Häufungspunkt. Das ist nicht mehr so offensichtlich, auf einen Beweis wollen wir aber verzichten. Lemma 6.9 (Charakterisierung von Häufungspunkten) Sei K ∈ {R, C} und seien (an )n∈N eine Folge in K und a ∈ K. Dann ist a genau dann ein Häufungspunkt der Folge (an )n∈N wenn es für jedes > 0 und jedes n0 ∈ N stets ein n ∈ N mit n ≥ n0 und |an − a| < gibt. 91 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 Beweis: ”=⇒” Es gibt eine Teilfolge (ank )k∈N von (an )n∈N mit (ank )k∈N −→ a. Seien > 0 und m ∈ N gegeben. Dann existiert ein k0 ∈ N mit |ank − a| < für alle k ∈ N mit k ≥ k0 . Setze k := max{k0 , m} ∈ N. Dann ist nk ∈ N mit nk ≥ k ≥ m und |ank − a| < . ”⇐=” Zunächst existiert ein n1 ∈ N mit |an1 − a| < 1. Ist k ∈ N mit k ≥ 1 und ist nk schon definiert, so wähle ein nk+1 ∈ N mit nk+1 ≥ nk +1 > nk und |ank+1 −a| < 1/(k+1). Induktiv wird so eine Teilfolge (ank )k∈N von (an )n∈N mit |ank − a| < 1/k für alle k ∈ N definiert. Nach Lemma 4.(d,e) gilt auch (ank )k∈N −→ a. Damit ist a ein Häufungspunkt der Folge (an )n∈N . In logischen Quantoren geschrieben, wird die Bedingung des Lemmas zu ∀( > 0)∀(n0 ∈ N)∃(n ≥ n0 ) : |an − a| < . Während die Konvergenzdefinition fordert, dass die Folge ab einem geeigneten Index ganz in einem beliebig kleinen vorgegebenen Kreis mit Mittelpunkt a liegt, wird hier nur gefordert, dass die Folge immer wieder in einen solchen Kreis zurückkehrt. 6.2 Reelle Zahlenfolgen In diesem Abschnitt wollen wir auf einige spezielle Eigenschaften diskutieren, die nur den reellen aber nicht den komplexen Fall betreffen. Die Folgen ((−1)n )n∈N und (n)n∈N sind beide divergent, aber auf sehr verschiedene Weise. Man ist versucht zu sagen, dass letztere Folge gegen +∞ konvergiert, und eine derartige Verallgemeinerung des Konvergenzbegriffs stellt sich tatsächlich als sinnvoll heraus. Zur exakten Definition müssen wir uns nur an die in §4.3 eingeführten erweiterten reellen Zahlen R = R ∪ {−∞, +∞} erinnern. Konvergenz gegen ±∞ kann in R wie folgt definiert werden: Definition 6.9 (Konvergenz in R) Sei (an )n∈N eine reelle Zahlenfolge. (a) Die Folge (an )n∈N konvergiert in R gegen +∞ wenn es für jedes c ∈ R ein n0 ∈ N mit an > c für alle n ∈ N mit n ≥ n0 gibt. (b) Die Folge (an )n∈N konvergiert in R gegen −∞ wenn es für jedes c ∈ R ein n0 ∈ N mit an < c für alle n ∈ N mit n ≥ n0 gibt. Nach der archimedischen Eigenschaft der reellen Zahlen §4.Lemma 4 ist beispielsweise (n)n∈N −→ +∞. In Formeln ausgedrückt ist (an )n∈N −→ +∞ ⇐⇒ ∀(c ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an > c, (an )n∈N −→ −∞ ⇐⇒ ∀(c ∈ R)∃(n0 ∈ N)∀(n ≥ n0 ) : an < c. Weiter sagen wir das eine reelle Zahlenfolge (an )n∈N in R konvergiert, wenn sie entweder in R konvergiert oder in R gegen ±∞ konvergiert. Der Zusatz in R“ ist hier wichtig, ” 92 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 wenn nur von Konvergenz die Rede ist, so ist dies im Sinne der Definition des vorigen Abschnitts gemeint, also ohne ±∞ als Grenzwerte zuzulassen. In der Literatur finden Sie oft auch die alternative Bezeichnung bestimmt divergent gegen +∞ beziehungs” weise −∞“ oder auch divergent gegen ±∞“. Wir sprechen hier von Konvergenz in ” ” R“ da die formalen Eigenschaften der Konvergenz in R beinahe identisch mit denen der gewöhnlichen Konvergenz sind. Auf zwei Mißverständnisse wollen wir hier gesondert hinweisen. Eine divergente Folge muss keinesfalls gegen +∞ oder −∞ konvergieren, beispielsweise sind die Folgen an = (−1)n oder an = (−1)n n beide divergent und auch nicht in R konvergent. Weiter muss eine gegen +∞ konvergente Folge keinesfalls monoton steigend sein, sie muss nur schließlich über jeder vorgegebenen Grenze liegen, darf aber ruhig immer mal wieder kleiner werden. Ein Beispiel hierfür ist etwa die Folge an = n + 2(−1)n . Die Aussagen des vorigen Abschnitts übertragen sich, soweit sinnvoll, auch auf die Konvergenz in R. Insbesondere gelten die Rechenregeln für Grenzwerte solange die rechte Seite überhaupt definiert ist, also beispielsweise nicht von der Form ∞ − ∞ oder 0 · ∞ ist. Für den Quotienten konvergenter Folgen kann man dabei zusätzlich zu den Regeln aus §4.3 noch x x = := 0 +∞ −∞ für alle x ∈ R und +∞ −∞ := sign(x) · ∞ sowie := − sign(x) · ∞ x x für alle x ∈ R\{0} vereinbaren. Auch einen Zusammenhang mit Nullfolgen kann man leicht herstellen, für eine reelle oder komplexe Zahlenfolge (an )n∈N mit an 6= 0 für alle n ∈ N ist genau dann |an | −→ +∞ wenn (1/an )n∈N eine Nullfolge ist. Schließlich kann man im reellen Fall die Divergenzaussage in Satz 8.(c) noch zu ar n r + · · · + a0 = sign(ar ) · sign(bs ) · ∞ n→∞ bs ns + · · · + b0 lim für r > s verschärfen. Da wie schon eingangs bemerkt eine Vorlesung ausgefallen ist, haben wir in der Vorlesung auf den Beweis all dieser Dinge verzichtet, im Folgenden finden Sie die ausgelassenen Beweisteile. Seien (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen. 1. Ist (an )n∈N −→ +∞, so ist (an )n∈N offenbar nach oben unbeschränkt aber nach unten beschränkt. Letzteres gilt da es ein n0 ∈ N mit an > 0 für alle n ≥ n0 gibt und setzen wir c := min{0, a0 , . . . , an0 −1 }, so ist an ≥ c für alle n ∈ N. Ist (an )n∈N −→ −∞, so ist (an )n∈N analog nach unten unbeschränkt und nach oben beschränkt. 2. Konvergiert (an )n∈N in R gegen ein a ∈ R, so konvergiert auch jede Teilfolge von (an )n∈N gegen a. Dies ist analog zu Lemma 1.(a). 93 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 3. Die Folge (an )n∈N kann auch in R höchstens gegen ein a ∈ R konvergieren. In der Tat, nach Lemma 1.(b) gibt es höchstens einen reellen Grenzwert. Nach Aussage (1) und Lemma 2.(a) kann die Folge auch nicht gleichzeitig gegen eine reelle Zahl und ±∞ konvergieren. Schließlich kann sie nach (1) auch nicht gleichzeitig gegen +∞ und −∞ konvergieren. Für eine in R konvergente Folge schreiben wir auch wieder lim an ∈ R n→∞ für den eindeutig bestimmten Grenzwert in R. 4. Setzen wir | + ∞| := | − ∞| := ∞, so überträgt sich auch Lemma 2.(b) auf in R konvergente Folgen. Für den Fall eines reellen Grenzwerts ist dies das Lemma 2.(b) und für den Grenzwert ±∞ ist die Aussage klar. 5. Der Satz 3 erweitert sich zu der Aussage das überhaupt jede monoton steigende reelle Zahlenfolge in R gegen ihr Supremum konvergiert und jede monoton fallende reelle Zahlenfolge gegen ihr Infimum konvergiert. Auch beide Aussagen von Lemma 5 übertragen sich offenbar auf die Konvergenz in R. Etwas genauer können wir sagen: Sind (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen mit an ≤ bn für alle n ∈ N und (an )n∈N −→ +∞, so ist auch (bn )n∈N −→ +∞. Ist nämlich c ∈ R, so existiert ein n0 ∈ N mit an > c für alle n ∈ N mit n ≥ n0 , und für jedes n ∈ N mit n ≥ n0 ist damit auch bn ≥ an > c. Analog folgt aus an ≤ bn für alle n ∈ N und (bn )n∈N −→ −∞ auch (an )n∈N −→ −∞. 6. Auch die Rechenregeln für Folgengrenzwerte Satz 6 gelten für in R konvergente Folgen (an )n∈N , (bn )n∈N soweit die rechte Seite überhaupt definiert ist. Seien nämlich a, b die jeweiligen Grenzwerte der beiden Folgen. Sind a, b ∈ R so wissen wir bereits alles nach Satz 6, es sind also nur noch die Fälle zu betrachten in denen ±∞ als Grenzwerte vorkommen. Wir gehen dies der Reihe nach für Summen, Produkte und Quotienten durch. (a) Wir beginnen mit der Summenfolge. Damit a + b definiert ist, muss {a, b} = 6 {+∞, −∞} gelten. Sei etwa a = ∞. Dann ist b ∈ R ∪ {∞} und auf jeden Fall ist (bn )n∈N damit nach unten beschränkt, es gibt also ein d ∈ R mit bn ≥ d für alle n ∈ N. Sei c ∈ R. Dann existiert ein n0 ∈ N mit an > c − d für alle n ∈ N mit n ≥ n0 und für n ∈ N mit n ≥ n0 folgt damit auch an + bn ≥ an + d > c − d + d = d. Folglich ist (an + bn )n∈N −→ +∞ = a + b. Die anderen Fälle sind analog. (b) Nun kommen wir zu den Produkten, dies ist etwas komplizierter da wir diesmal auch die Vorzeichen von a und b berücksichtigen müssen. Damit a · b definiert ist muss a, b 6= 0 sein, da wir ja a ∈ {+∞, −∞} oder b ∈ {+∞, −∞} annehmen. Wir betrachten zunächst den Fall a = +∞. Wir behaupten das es ein n1 ∈ N und eine Konstante β > 0 gibt so, dass für alle n ∈ N mit n ≥ n1 im Fall b > 0 stets bn > β ist und im Fall b < 0 stets 94 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 bn < −β ist. Hierzu unterscheiden wir drei verschiedene Fälle. Zunächst sei b ∈ R und setze β := |b|/2 > 0. Es gibt ein n1 ∈ N mit |bn − b| < |b|/2 für alle n ∈ N mit n ≥ n1 . Ist weiter b > 0, so folgt für alle n ∈ N mit n ≥ n1 auch bn = b − (b − bn ) ≥ b − |bn − b| > b − |b|/2 = |b|/2 = β, und ist b < 0 so ist für alle n ∈ N mit n ≥ n1 analog auch bn < −|b|/2 = −β. Ist dagegen b ∈ {+∞, −∞}, so setze β := 1 > 0. Im Fall b = +∞ existiert ein n1 ∈ N mit bn > 1 = β für alle n ∈ N mit n ≥ n1 und im Fall b = −∞ gibt es ebenso ein n1 ∈ N mit bn < −1 = −β für alle n ∈ N mit n ≥ n1 . Damit ist diese Zwischenbehauptung bewiesen. Nun sei ein c ∈ R gegeben. Dann existiert ein n2 ∈ N mit an > |c|/β für alle n ∈ N mit n ≥ n2 . Setze nun n0 := max{n1 , n2 }. Sei n ∈ N mit n ≥ n0 gegebem. Im Fall b > 0 haben wir dann bn > β > 0 und somit an bn > |c| |c| bn ≥ · β = |c| ≥ c, β β und im Fall b < 0 haben wir wegen bn < −β < 0 analog an bn < |c| |c| bn ≤ − · β = −|c| ≤ c. β β Dies zeigt (an bn )n∈N −→ +∞ wenn b > 0 ist und (an bn )n∈N −→ −∞ wenn b < 0 ist, wir haben also lim (an bn ) = sign(b) · ∞ = (∞) · b = lim an · lim bn . n→∞ n→∞ n→∞ Dabei interpretieren wir sign(+∞) := 1 und sign(−∞) := −1. Damit ist alles gezeigt wenn a = +∞ ist. Die anderen drei Fälle, also a = −∞ oder b = ±∞ folgen analog. (c) Schließlich kommen wir zu den Quotienten. Wir schicken eine kleine Hilfsbehauptung voraus: Ist K ∈ {R, C} und ist (cn )n∈N eine Folge in K mit cn 6= 0 für alle n ∈ N so gilt 1 ist eine Nullfolge. lim |cn | = +∞ ⇐⇒ n→∞ cn n∈N Dies ist im wesentlichen nur eine Umformulierung. ”=⇒” Nehme also (|cn |)n∈N −→ +∞ an. Sei > 0 gegeben. Dann existiert ein n0 ∈ N mit |cn | > 1/ für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist damit auch 1 = 1 < . cn |cn | Dies zeigt (1/cn )n∈N −→ 0. 95 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 ”⇐=” Sei c ∈ R. Dann existiert ein n0 ∈ N mit 1 1 1 = < |cn | cn |c| + 1 für alle n ∈ N mit n ≥ n0 . Für jedes n ∈ N mit n ≥ n0 ist damit auch |cn | > |c| + 1 > |c| ≥ c, und wir haben (cn )n∈N −→ +∞ eingesehen. Damit ist diese erste Behauptung bewiesen. Im reellen Fall K = R kann man die Aussage noch etwas verfeinern. Ist (cn )n∈N eine Nullfolge und haben alle Folgenglieder dasselbe Vorzeichen σ ∈ {−1, 1}, so ist |cn | = σcn für alle n ∈ N und es folgt (cn )n→∞ −→ σ·∞. Wir kommen jetzt zur Behandlung der Quotientenfolge (an /bn )n∈N wobei wieder bn 6= 0 für alle n ∈ N vorausgesetzt sei. Ist a ∈ R und b ∈ R\{0}, so sind wir in der Situation von Satz 6.(d). Nun sei a ∈ R und b ∈ {−∞, +∞}. Dann ist insbesondere (|bn |)n∈N −→ +∞, also ist (1/bn )n∈N eine Nullfolge und da (an )n∈N nach Lemma 2.(a) beschränkt ist, ist nach Lemma 4.(c) auch der Quotient (an /bn )n∈N eine Nullfolge. Definieren wir also x x := := 0 +∞ −∞ für jedes x ∈ R, so gilt die Grenzwertformel für Quotienten auch in dieser Situation. Im nächsten Fall ist a ∈ R\{0}, b = 0 und alle Folgenglieder bn für n ∈ N haben dasselbe Vorzeichen, d.h. es existiert ein σ ∈ {−1, 1} mit sign(bn ) = σ für alle n ∈ N. Wie oben bemerkt ist dann (1/bn )n∈N −→ σ · ∞ und mit der schon behandelten Produktformel folgt an 1 = an · −→ (σa) · ∞. bn n∈N bn n∈N Im letzten Fall ist b ∈ R\{0} und a ∈ {−∞, +∞}. Dann ist nach Satz 6.(d) auch (1/bn )n∈N −→ 1/b. Mit dem schon behandelten Produktfall folgt 1 a an = an · −→ , bn n∈N bn n∈N b wenn wir +∞ −∞ := sign(x) · ∞ und := − sign(x) · ∞ x x für jedes x ∈ R\{0} definieren. Mit den hier gegebenen Interpretationen von Quotienten mit ±∞ im Zähler oder im Nenner gilt also auch die Quotientenformel für Grenzwerte in R solange die rechte Seite definiert ist. 7. Als letzte Aussage wollen wir uns noch um Satz 8.(c) kümmern. Es seien also K ∈ {R, C} und r, s ∈ N mit r > s sowie a0 , . . . , ar , b0 , . . . , bs ∈ K mit ar 6= 0 96 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 und bs 6= 0 gegeben. Im Beweis von Satz 8.(c) haben wir bereits gesehen, dass es ein n0 ∈ N mit ar nr + · · · + a0 |ar | bs ns + · · · + b0 ≥ 4|bs | · n für alle n ∈ N mit n ≥ n0 gibt, und dies liefert ar nr + · · · + a0 = ∞. lim n→∞ bs ns + · · · + b0 Im reellen Fall K = R können wir noch etwas mehr sagen. Nach Satz 8.(b) wissen wir 1 ar nr + · · · + a0 ar lim · = 6= 0, r−s s n→∞ n bs n + · · · + b0 bs und wegen (nr−s )n∈N −→ +∞ ist damit ar n r + · · · + a0 ar lim = sign · ∞ = sign(ar ) · sign(bs ) · ∞. s n→∞ bs n + · · · + b0 bs Nun kommen wir wieder zu Dingen, die tatsächlich in der Vorlesung behandelt wurden. Die Definition der Häufungspunkte einer reellen Folge läßt sich wörtlich auf Häufungspunkte in R übertragen. Die neu hinzukommenden Häufungspunkte lassen sich dabei leicht beschreiben, für jede reelle Zahlenfolge (an )n∈N gelten +∞ ist Häufungspunkt von (an )n∈N ⇐⇒ (an )n∈N ist nach oben unbeschränkt, −∞ ist Häufungspunkt von (an )n∈N ⇐⇒ (an )n∈N ist nach unten unbeschränkt. Ist nämlich +∞ ein Häufungspunkt von (an )n∈N in R, so existiert eine Teilfolge (ank )k∈N von (an )n∈N mit (ank )k∈N −→ +∞, und damit ist (ank )k∈N und somit auch (an )n∈N nach oben unbeschränkt. Nun nehme umgekehrt an, dass (an )n∈N nach oben unbeschränkt ist. Dann existiert insbesondere ein n0 ∈ N mit an0 > 0. Ist jetzt k ∈ N und ist nk bereits definiert, so existiert auch ein nk+1 ∈ N mit ank+1 > max{a0 , a1 , . . . , ank , k + 1}, also insbesondere ank+1 > k + 1 und nk+1 > nk . Damit wird induktiv eine Teilfolge (ank )k∈N von (an )n∈N mit ank > k für alle k ∈ N definiert. Damit ist auch limk→∞ ank = +∞ und wir haben eine gegen +∞ konvergente Teilfolge der Folge (an )n∈N gefunden, d.h. +∞ ist ein Häufungspunkt dieser Folge. Die Aussage über den Häufungspunkt −∞ folgt analog. Wir werden zeigen, dass in den erweiterten reellen Zahlen R jede reelle Zahlenfolge einen Häufungspunkt besitzt. Wir werden sogar noch mehr einsehen, es gibt immer einen kleinsten und einen größten Häufungspunkt der Folge, und diese beiden können wir sogar recht explizit angeben. Sei also (an )n∈N eine völlig beliebige reelle Zahlenfolge. Für jedes n ∈ N betrachten wir An := sup ak = sup{ak |k ∈ N, k ≥ n} ∈ R ∪ {∞}. k≥n 97 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 Wegen {ak |k ∈ N, k ≥ n + 1} ⊆ {ak |k ∈ N, k ≥ n} gilt, etwa nach Aufgabe 12.(a), die Ungleichung An+1 ≤ An . Damit ist (An )n∈N eine monoton fallende Folge in R und nach der Erweiterung von Satz 3 auf die erweiterten reellen Zahlen konvergiert diese Folge gegen ihr Infimum, also existiert der sogenannte Limes Superior s := lim An = inf An ∈ R. n→∞ n∈N Wir wollen zunächst klären wann s eine reelle Zahl ist. Hierzu sind verschiedene Fälle zu unterscheiden. Ist die Folge (an )n∈N nach oben unbeschränkt, so ist für jedes n ∈ N auch die Menge {ak |k ∈ N, k ≥ n} nach oben unbeschränkt, also An = +∞. Somit ist auch der Grenzwert s = +∞. Nun nehme an, dass (an )n∈N nach oben beschränkt ist, d.h. es gibt ein c ∈ R mit an ≤ c für alle n ∈ N. Für jedes n ∈ N ist c dann auch eine obere Schranke der Menge {ak |k ∈ N, k ≥ n}, und wir haben An ≤ c. Als nicht reeller Wert von s kommt also nur noch −∞ in Frage. Hierzu behaupten wir: s = −∞ ⇐⇒ lim an = −∞. n→∞ Ist nämlich s = −∞ so folgt wegen an ≤ An für alle n ∈ N auch limn→∞ an = −∞. Nun nehme umgekehrt (an )n∈N −→ −∞ an. Sei a ∈ R. Dann existiert ein n0 ∈ N mit an < a − 1 für alle n ∈ N mit n ≥ n0 . Sei jetzt n ∈ N mit n ≥ n0 gegeben. Für jedes k ∈ N mit k ≥ n ≥ n0 ist dann ak < a − 1, d.h. a − 1 ist eine obere Schranke der Menge {ak |k ∈ N, k ≥ n}, und somit ist An ≤ a − 1 < a. Dies beweist (An )n∈N −→ −∞, also s = −∞. Damit ist diese Zwischenbehauptung bewiesen. Insgesamt ist s also genau dann eine reelle Zahl wenn die Folge (an )n∈N nach oben beschränkt ist und nicht in R gegen −∞ konvergiert. Der Limes Superior s ist keine obere Schranke der Folge, ist beispielsweise an = 1/n für n ≥ 1, so ist auch An = 1/n für n ≥ 1 und es folgt s = limn→∞ An = 0, die gesamte Folge ist hier also größer als ihr Limes Superior. Selbst wenn wir etwas über den Limes Superior hinausgehen, also ein a mit a > s betrachten, so muss a keine obere Schranke sein, es ist aber zumindest eine obere Schranke für so gut wie alle Folgenglieder, nämlich für alle Folgenglieder bis auf höchstens endlich viele Ausnahmen. Dies ist der Inhalt der folgenden kleinen Hilfsaussage: Für jedes a ∈ R besteht die folgende Äquivalenz: a > s ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b < a ∧ ∀(n ∈ N, n ≥ n0 ) : an < b] . In der Vorlesung hatten wir diesen Beweis und alles bis zum nächsten Satz, wieder aus Zeitgründen, weggelassen, an dieser Stelle wollen wir aber alles vollständig durchführen. Sei also ein a ∈ R gegeben. Zunächst nehme a > s an, also insbesondere s 6= +∞ und a 6= −∞. Da a > s = inf{An |n ∈ N} keine untere Schranke der Menge {An |n ∈ N} ist, existiert ein n0 ∈ N mit An0 < s. Weiter existiert ein b ∈ R mit An0 < b < a, nämlich b = An0 + 1 falls a = +∞ ist und b := (s + An0 )/2 wenn a ∈ R ist. Für jedes n ∈ N mit n ≥ n0 ist auch an ≤ An0 < b. Nun nehme umgekehrt an, dass es ein b ∈ R und eine natürliche Zahl n0 ∈ N mit b < a und an < b für alle n ∈ N mit n ≥ n0 gibt. Dann gilt auch s ≤ An0 = sup{an |n ∈ N, n ≥ n0 } ≤ b < a, 98 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 also ist s < a. Damit ist diese Zwischenbehauptung bewiesen. Als nächste Aussage wollen wir zeigen, dass s ein Häufungspunkt von (an )n∈N in R ist. Ist dabei s = +∞, so ist (an )n∈N nach oben unbeschränkt und wir wissen bereits das s = +∞ ein Häufungspunkt von (an )n∈N ist. Ist s = −∞, so ist (an )n∈N −→ −∞ und s = −∞ ist sogar der Grenzwert von (an )n∈N , also erst recht ein Häufungspunkt. Nun nehme s ∈ R an und wir wollen Lemma 9 anwenden. Seien also ein > 0 und ein n1 ∈ N gegeben. Wegen s + > s existieren eine reelle Zahl b ∈ R und ein Index n2 ∈ N mit b < s + und an < b für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Dann gilt s − < s = inf{An |n ∈ N} ≤ An0 = sup{an |n ∈ N, n ≥ n0 }, und nach §4.Lemma 2 existiert ein n ∈ N mit n ≥ n0 und an > s − . Insbesondere ist also n ≥ n1 . Wegen n ≥ n2 ist auch an < b < s + , also haben wir s − < an < s + und dies bedeutet |an − s| < . Nach Lemma 9 ist s damit auch in diesem Fall ein Häufungspunkt von (an )n∈N . Tatsächlich ist s nicht nur irgendein Häufungspunkt von (an )n∈N sondern der größte solche Häufungspunkt. Dies ist nicht mehr schwer zu beweisen. Sei a ∈ R ein beliebiger Häufungspunkt von (an )n∈N . Wir müssen zeigen, dass dann a ≤ s gilt. Andernfalls wäre a > s und wie oben gezeigt gibt es b ∈ R und n0 ∈ N mit b < a und an < b für alle n ∈ N mit n ≥ n0 . Insbesondere ist die Folge (an )n∈N nach oben beschränkt, also ist +∞ kein Häufungspunkt von (an )n∈N und wir haben a 6= +∞. Folglich ist a ∈ R und nach Lemma 9 existiert ein n ∈ N mit n ≥ n0 und |an − a| < a − b. Dies ergibt aber den Widerspruch an < b = a − (a − b) < a − |an − a| ≤ a − (a − an ) = an , und somit muss a ≤ s sein. Wir fassen diese Überlegungen und einige Ergänzungen in einem Satz zusammen. Satz 6.10 (Limes Superior und Limes Inferior) Sei (an )n∈N eine reelle Zahlenfolge. (a) Der Limes Superior lim sup an := lim sup ak ∈ R n→∞ k≥n n→∞ ist der größte Häufungspunkt der Folge (an )n∈N in R und der Limes Inferior lim inf an := lim inf ak ∈ R n→∞ n→∞ k≥n ist der kleinste Häufungspunkt der Folge (an )n∈N in R. (b) Ist (an )n∈N in R konvergent mit (an )n∈N −→ a, so ist auch lim sup an = lim inf an = a = lim an . n→∞ n→∞ 99 n→∞ Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 (c) Es gilt lim inf an ≤ lim sup an n→∞ n→∞ und genau dann ist lim sup an = lim inf an wenn die Folge (an )n∈N in R konvern→∞ n→∞ giert. (d) Es gelten lim sup an = +∞ ⇐⇒ (an )n∈N ist nach oben unbeschränkt, n→∞ lim sup an = −∞ ⇐⇒ n→∞ lim an = −∞, n→∞ lim inf an = −∞ ⇐⇒ (an )n∈N ist nach unten unbeschränkt, n→∞ lim inf an = +∞ ⇐⇒ n→∞ lim an = +∞. n→∞ (e) Für jedes a ∈ R gelten a > lim sup an ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b < a ∧ ∀(n ∈ N, n ≥ n0 ) : an < b] n→∞ und a < lim inf an ⇐⇒ ∃(b ∈ R)∃(n0 ∈ N) : [b > a ∧ ∀(n ∈ N, n ≥ n0 ) : an > b] . n→∞ Beweis: Die Aussagen (a,d,e) über den Limes Superior haben wir bereits oben bewiesen und die über den Limes Inferior folgen analog. Es ist also nur noch (b) und (c) zu zeigen. Da der Grenzwert einer in R konvergenten Folge ihr einziger Häufungspunkt ist, ist (b) dabei eine unmittelbare Folgerung aus (a). Weiter ist die Ungleichung lim inf n→∞ an ≤ lim supn→∞ an ebenfalls nach (a) klar und ist (an )n∈N in R konvergent, so stimmen der Limes Superior und der Limes Inferior nach (b) überein. Wir nehmen nun a := lim supn→∞ an = lim inf n→∞ an an, und wollen (an )n∈N −→ a in R zeigen. Ist a ∈ {+∞, −∞}, so ist dies klar nach Teil (d), wir müssen also nur noch den Fall a ∈ R betrachten. Sei > 0 gegeben. Wegen a − < a < a + existieren nach (e) zwei reelle Zahlen b1 , b2 ∈ R mit b1 > a − und b2 < a + sowie zwei natürliche Zahlen n1 , n2 ∈ N mit an > b1 für alle n ∈ N mit n ≥ n1 und an < b2 für alle n ∈ N mit n ≥ n2 . Setze n0 := max{n1 , n2 }. Ist dann n ∈ N mit n ≥ n0 , so haben wir a − < b1 < an < b2 < a + , also |an − a| < . Dies zeigt (an )n∈N −→ a und auch (c) ist vollständig bewiesen. Wir gehen jetzt einige Beispiele durch. 100 Mathematik für Physiker I, WS 2010/2011 Montag 06.12.2010 1. Es ist lim inf (−1)n = −1 und lim sup(−1)n = 1 n→∞ n→∞ da −1 und 1 die beiden Häufungspunkte der Folge sind. 2. Die Folge an = (−1)n n ist nach oben und unten unbeschränkt, hat also +∞ und −∞ als Häufungspunkte. Da dies die größten und kleinsten Elemente in R sind, ist damit lim inf (−1)n = −∞ und lim sup(−1)n = +∞. n→∞ n→∞ 3. Diesmal sei ( n, n ist gerade, an := 0, n ist ungerade. Offenbar sind 0 und +∞ dann zwei Häufungspunkte von (an )n∈N . Wegen an ≥ 0 für alle n ∈ N kann keine Teilfolge von (an )n∈N gegen eine negative Zahl oder gegen −∞ konvergieren, also ist 0 der kleinste Häufungspunkt der Folge. Es folgen lim inf an = 0 und lim sup an = +∞. n→∞ n→∞ 4. Schließlich sei an = sin(n). Wir hatten bereits bemerkt, dass die Menge der Häufungspunkte von (sin n)n∈N genau das Intervall [−1, 1] ist, und damit folgen lim inf sin(n) = −1 und lim sup sin(n) = +1. n→∞ n→∞ Der Satz 10 besagt insbesondere das jede reelle Zahlenfolge einen Häufungspunkt in R hat. Eine direkte Konsequenz dieser Beobachtung ist der sogenannte Satz von HeineBorel: Satz 6.11 (Satz von Heine-Borel) Sei K ∈ {R, C}. Dann hat jede beschränkte Folge in K einen Häufungspunkt. Beweis: Zunächst sei K = R. Ist dann (an )n∈N eine beschränkte reelle Zahlenfolge, so ist nach Satz 10.(d) auch s := lim supn→∞ an ∈ R und nach Satz 10.(a) ist s ein Häufungspunkt von (an )n∈N . Damit ist die Aussage im reellen Fall bewiesen. Nun sei K = C und es sei (zn )n∈N eine beschränkte komplexe Zahlenfolge. Wie am Ende von §5.2 festgehalten sind dann auch die reellen Zahlenfolgen (Re(zn ))n∈N und (Im(zn ))n∈N beschränkt. Wie bereits gezeigt hat (Re(zn ))n∈N einen Häufungspunkt a ∈ R, und somit gibt es eine gegen a konvergente Teilfolge (Re(znk ))k∈N von (Re(zn ))n∈N . Ebenso gibt es dann auch eine gegen ein b ∈ R konvergente Teilfolge (Im(znkl ))l∈N von (Im(znk ))k∈N . Nach Lemma 1.(a) ist auch (Re(znkl ))l∈N −→ a und Lemma 1.(d) ergibt damit (znkl )l∈N −→ a + ib ∈ C. 101 Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 Damit ist a + ib ein Häufungspunkt von (zn )n∈N und der Satz ist auch im komplexen Fall bewiesen. Man kann den Satz von Heine-Borel auch direkter, und ohne den Limes Superior zu verwenden, beweisen. Wie im Beweis gesehen reicht es den reellen Fall einzusehen, und hierzu kann man zeigen das jede reelle Zahlenfolge immer eine monoton steigende oder eine monoton fallende Teilfolge enthält. Mit Satz 3 folgt dann die Existenz eines reellen Häufungspunkts einer jeden beschränkten reellen Zahlenfolge. 6.3 Cauchyfolgen Vorlesung 13, Freitag 10.12.2010 Wir kommen nun zum letzten Thema dieses Kapitels. Ein Problem unserer Konvergenzdefinition ist, dass man zum Nachweis einer Konvergenzaussage (an )n∈N −→ a immer bereits einen Kandidaten a für den Grenzwert der Folge kennen muss. Nur für monotone reelle Zahlenfolgen konnten wir mit Satz 3 die Konvergenz der Folge einsehen ohne den Grenzwert kennen zu müssen. In diesem Abschnitt werden wir mit dem Begriff einer Cauchyfolge eine weitere Möglichkeit kennenlernen, die Konvergenz einer Folge ohne Kenntnis ihres Grenzwerts zu beweisen. Formal ist die Definition einer Cauchyfolge recht ähnlich zur Konvergenzdefinition, man fordert nicht mehr das die Folgenglieder einem Grenzwert a nahekommen, sondern das sich alle Folgenglieder mit ausreichend großen Index einander nahekommen. Definition 6.10 (Cauchyfolgen) Sei K ∈ {R, C}. Eine Folge (an )n∈N in K heißt eine Cauchyfolge wenn es für jedes > 0 ein n0 ∈ N mit |an − am | < für alle n, m ∈ N mit n, m ≥ n0 gibt. In logischen Quantoren geschrieben wird diese Definition zu ∀( > 0)∃(n0 ∈ N)∀(n, m ∈ N, n, m ≥ n0 ) : |an − am | < . Ganz genauso wie bei der Definition der Konvergenz, kann man das <“ hier auch ” gegen ein ≤“ ersetzen, die Folge ist also auch genau dann eine Cauchyfolge wenn ” ∀( > 0)∃(n0 ∈ N)∀(n, m ∈ N, n, m ≥ n0 ) : |an − am | ≤ gilt. Wir werden gleich sehen, dass jede konvergente Folge auch eine Cauchyfolge ist und damit kennen wir dann bereits recht viele Beispiele von Cauchyfolgen. Zuvor wollen wir aber ein explizites Beispiel einer Cauchyfolge diskutieren. Wir definieren rekursiv eine reelle Zahlenfolge (an )n∈N indem wir a0 := 0 und an+1 := 1 − a2n für alle n ∈ N 3 102 Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 setzen. Beispielsweise sind a1 = 1/3, a2 = 8/27 und a3 = 665/2187. Die Folge ist weder monoton steigend noch monoton fallend, auch nicht ab irgendeinem noch so großen Startindex. Es ist auch nicht sofort zu sehen, ob die Folge (an )n∈N konvergent ist. Wir werden im Folgenden einsehen, dass (an )n∈N eine Cauchyfolge ist. Wir beginnen mit einer einfachen Beobachtung. Ist x ∈ R mit 0 < x < 1/3, so gelten auch 0 < x2 < 1/9 und 8/9 < 1 − x2 < 1, also insgesamt 8/27 < (1 − x2 )/3 < 1/3, also haben wir 1 8 1 − x2 1 =⇒ 0 < < < . 3 27 3 3 Insbesondere bedeutet dies das für jedes n ∈ N aus an ∈ (0, 1/3) auch an+1 = (1 − a2n )/3 ∈ (0, 1/3) folgt. Da a2 = 8/27 ∈ (0, 1/3) gilt, folgt per vollständiger Induktion auch 0 < an < 1/3 für alle n ∈ N mit n ≥ 2. Für jedes n ∈ N mit n ≥ 3 ergibt sich weiter 1 − a2n 1 − a2n−1 1 2 = |an − a2n−1 | = 1 |an + an−1 | · |an − an−1 | |an+1 − an | = − 3 3 3 3 |an | + |an−1 | 2 ≤ |an − an−1 | < |an − an−1 |. 3 9 Ist wieder n ∈ N mit n ≥ 3, so sind damit auch 2 2 2 |an+2 − an+1 | < |an+1 − an | < |an − an−1 |, 9 9 3 2 2 |an+3 − an+2 | < |an+2 − an+1 | < |an − an−1 |, 9 9 ∀(x ∈ R) : 0 < x < und so fortfahrend folgt auch k 2 |an − an−1 |, |an+k − an+k−1 | ≤ 9 für alle k ∈ N. Streng genommen ist dies ein Beweis durch vollständige Induktion auf deren exakte Durchführung wir hier verzichten. Um zu sehen, dass hieraus die CauchyBedingung folgt, brauchen wir ein allgemeines Lemma, das mit der konkreten Situation nichts zu tun hat. Lemma 6.12 (Die geometrische Summe) Seien q ∈ C und n ∈ N. Dann gilt n X k=0 qk = n X 1 − q n+1 für q 6= 1, und q k = n + 1 für q = 1. 1−q k=0 Beweis: Die Aussage für q = 1 ist klar, wir nehmen also q 6= 1 an. Schreibe s := Pn k k=0 q . Dann ist q·s= n X k=0 q k+1 = q n+1 + n X k=0 103 q k − 1 = q n+1 − 1 + s, Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 also (1 − q)s = s − qs = 1 − q n+1 , und dies ergibt die Behauptung. Kommen wir mit diesem Lemma ausgerüstet zu unserem Beispiel zurück. Sei wieder n ∈ N mit n ≥ 2 gegeben. Für jedes k ∈ N erhalten wir dann mit Lemma 12 k−1 k−1 i k−1 X X X 2 |an+i+1 − an+i | ≤ |an+k − an | = (an+1+i − an+i ) ≤ |an+1 − an | 9 i=0 i=0 i=0 k ! n−2 9 2 9 2 9 = 1− |an+1 − an | < |an+1 − an | ≤ |a3 − a2 | 7 9 7 7 9 n−2 2 17 =: An . = 1701 9 Damit können wir leicht einsehen, dass (an )n∈N eine Cauchyfolge ist. Nach Aufgabe (22) sowie den Rechenregeln für Grenzwerten wissen wir nämlich 17 lim n→∞ 1701 n−2 2 = 0, 9 ist also > 0 gegeben, so existiert ein n0 ∈ N mit n0 ≥ 2 und An < für alle n ∈ N mit n ≥ n0 . Sind dann n, m ∈ N mit n, m ≥ n0 , so können wir durch eventuelles Vertauschen von n und m auch m ≥ n annehmen, und haben m = n + k für ein k ∈ N. Damit ist dann |am − an | = |an+k − an | < An < . Somit ist (an )n∈N tatsächlich eine Cauchyfolge. Die Grundeigenschaften von Cauchyfolgen sind schnell eingesehen. Lemma 6.13 (Grundeigenschaften von Cauchyfolgen) Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. (a) Ist (an )n∈N konvergent, so ist (an )n∈N auch eine Cauchyfolge. (b) Ist (an )n∈N eine Cauchyfolge, so ist (an )n∈N auch beschränkt. (c) Sind (an )n∈N eine Cauchyfolge und (ank )k∈N eine konvergente Teilfolge von (an )n∈N mit dem Grenzwert a ∈ K, so ist auch (an )n∈N −→ a. Beweis: (a) Bezeichne a ∈ K den Grenzwert von (an )n∈N . Sei > 0 gegeben. Dann existiert ein n0 ∈ N mit |an − a| < /2 für alle n ∈ N mit n ≥ n0 . Sind dann n, m ∈ N mit n, m ≥ n0 so folgt auch |an − am | = |an − a + a − am | ≤ |an − a| + |am − a| < 104 + = . 2 2 Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 Damit ist (an )n∈N eine Cauchyfolge. (b) Es gibt ein n0 ∈ N mit |an − am | < 1 für alle n, m ∈ N mit n, m ≥ n0 . Setze c := max{|a0 |, |a1 |, . . . , |an0 −1 |, |an0 | + 1} > 0. Ist dann n ∈ N, so gilt im Fall n < n0 sofort |an | ≤ c und im Fall n ≥ n0 haben wir ebenfalls |an | = |an − an0 + an0 | ≤ |an − an0 | + |an0 | < |an0 | + 1 ≤ c. Damit ist |an | ≤ c für alle n ∈ N und (an )n∈N ist beschränkt. (c) Sei > 0 gegeben. Dann existieren ein n0 ∈ N mit |an − am | < /2 für alle n, m ∈ N mit n, m ≥ n0 und ein k0 ∈ N mit |ank − a| < /2 für alle k ∈ N mit k ≥ k0 . Sei n ∈ N mit n ≥ n0 . Setzen wir k := max{k0 , n0 }, so ist |ank − a| < und wegen nk ≥ k ≥ n0 ist auch |an − ank | < /2. Insgesamt ist damit |an − a| = |an − ank + ank − a| ≤ |an − ank | + |ank − a| < + = , 2 2 und wir haben (an )n∈N −→ a bewiesen. Damit eine Folge (an )n∈N eine Cauchyfolge ist, reicht es nicht aus, das sich aufeinanderfolgende Folgenglieder immer näher kommen, die Cauchybedingung ist wesentlich √ stärker. Beispielsweise ist Zahlenfolge nicht nach oben √ die durch an = n gegebene √ beschränkt, es ist sogar ( n)n∈N −→ +∞, also ist ( n)n∈N insbesondere keine Cauchyfolge. Andererseits gilt für jedes n ∈ N stets an+1 − an = √ n+1− √ √ √ √ √ ( n + 1 − n) · ( n + 1 + n) 1 √ n= =√ √ √ n+1+ n n+1+ n 1 ≤√ , n+1 und nach Lemma 4.(e,f) ist (an+1 − an )n∈N eine Nullfolge. Satz 6.14 (Cauchy-Kriterium) Sei K ∈ {R, C}. Eine Folge (an )n∈N in K ist genau dann konvergent wenn (an )n∈N eine Cauchyfolge ist. Beweis: ”=⇒” Dies ist Lemma 13.(a). ”⇐=” Nach Lemma 13.(b) ist (an )n∈N beschränkt, hat also nach dem Satz von HeineBorel Satz 11 einen Häufungspunkt beziehungsweise eine konvergente Teilfolge. Nach Lemma 13.(c) ist (an )n∈N selbst konvergent. Wir kommen schließlich wieder zum Beispiel der rekursiv definierten Folge a0 := 0 und an+1 := 1 − a2n für alle n ∈ N 3 105 Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 zurück. Wir haben bereits eingesehen, dass (an )n∈N eine Cauchyfolge mit 0 < an < 1/3 für alle n ∈ N mit n ≥ 2 ist. Nach dem eben bewiesenen Satz ist (an )n∈N damit konvergent, und nach Lemma 5.(a) gilt 1 . a := lim an ∈ 0, n→∞ 3 Wenden wir die Rechenregeln für Grenzwerte an, so folgt weiter 2 1 − lim a n 1 − a2n 1 − a2 n→∞ = = , a = lim an+1 = lim n→∞ n→∞ 3 3 3 also ist a2 + 3a − 1 = 0. Fassen wir dies als eine quadratische Gleichung für a auf, so ergibt sich r √ √ −3 ± 13 9 13 − 3 3 a=− ± +1= =⇒ a = 2 4 2 2 da a ≥ 0 ist. $Id: reihen.tex,v 1.11 2011/03/25 06:26:33 hk Exp $ §7 Reihen Eine Reihe ist eine unendliche Summe“ ” a0 + a1 + a2 + · · · . Die Summanden ai können dabei reell oder komplex sein. Historisch sind Reihen sehr viel älter als Folgen, und im Gegensatz zu den Folgen sind sie auch von eigenständigen Interesse. Wir hatten gesagt das Folgen und ihr Konvergenzbegriff ein Hilfsbegriff sind, auf den viele andere Grenzwertbegriffe zurückgeführt werden und dementsprechend werden wir unendliche Summen in Termen von Folgengrenzwerten definieren. Angenommen die Folge (an )n∈N ist gegeben. Dann betrachten wir die sogenannten Partialsummen s0 := a0 , s1 := a0 + a1 , s2 := a0 + a1 + a2 , und allgemein sn := n X ak , k=0 also die endlichen Summen die jeweils durch Summation der ersten n + 1 Summanden unserer unendlichen Summe gebildet werden. Damit können wir definieren: 106 Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 Definition 7.1: Sei K ∈ {R, C} und sei (an )n∈N eine Folge in K. Bezeichne ! n X (sn )n∈N := ak k=0 n∈N P die Folge der zugehörigen Partialsummen. Wir nennen die Reihe ∞ n=0 an konvergent wenn die Folge (sn )n∈N der Partialsummen konvergent ist und schreiben in diesem Fall ∞ X an := lim sn = lim n→∞ n=0 n→∞ n X ak . k=0 Andernfalls heißt die Reihe divergent. P∞ Oftmals bezeichnen wir mit dem Symbol n=0 an auch die P∞Folge der Partialsummen, selbst wenn die Reihe divergent ist. Dass das Symbol n=0 an sowohl die Folge der Partialsummen als auch den eventuellen Grenzwert bezeichnet, ist normalerweise unproblematisch. Die jeweilige Bedeutung ist immer aus dem Kontext heraus klar. Außerdem schreiben wir mit einem weiteren Bezeichnungsmißbrauch auch einfach Sei ” ∞ X an eine Reihe“, n=0 dies soll dann bedeuten, dass (an )n∈N eine Folge ist und wir beabsichtigen die zugehörige Folge der Partialsummen zu untersuchen. Genau wie bei Folgen betrachtet man auch Reihen mitPeinem beliebigen Startindex n0 ∈ N anstelle des Startindex 0, zum Beispiel 2 die Reihe P∞ n=1 1/n mit dem Startindex n0 = 1. Die Partialsummen sind in diesem 0 +n Fall sn = nk=n ak für n ∈ N. Oft ist es in diesem Zusammenhang dann etwas be0 quemer auch für die P Folge der Partialsummen einen anderen Startindex zu verwenden, beispielsweise sn = nk=n0 ak für n ∈ N mit n ≥ n0 . Die hiermit verbundene Willkür ist dabei unproblematisch, da die Wahl des Startindex auf Konvergenz und eventuelle Summe der Reihe keinen Einfluß hat. Genau wie im vorigen Abschnitt formulieren wir die meisten Aussagem mit dem Startindex 0 oder 1, es sind aber implizit auch immer alle Reihen mit einem anderen Startindex mit gemeint. Lassen wir endlich viele Summanden am Beginn der Reihe einfach weg, so ändert sich nichts der P∞am Konvergenzverhalten der Reihe aber sehr wohl am Grenzwert.PIn n Tat, ist n=0 an eine ReihePund n0 ∈ N, so hängen die Partialsummen sn = k=0 ak 0 +n der Originalreihe und tn = nk=n ak der verkürzten Reihe über die Beziehung 0 sn = n X ak = nX 0 −1 ak + k=0 k=0 n X ak = nX 0 −1 k=n0 ak + tn−n0 k=0 für alle n ∈ N mit n ≥ n0 zusammen, und somit konvergiert die Folge (sn )n∈N genau dann wenn die Folge (tn )n∈N konvergiert und in diesem Fall ist ∞ X n=0 an = nX 0 −1 an + n=0 107 ∞ X n=n0 an . Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 Wir wollen jetzt zwei einfache Beispiele von Reihen besprechen, und beginnen mit der Reihe ∞ X 1 . n(n − 1) n=2 In diesem Beispiel können wir die Partialsummen sn explizit berechnen, dies haben wir bereits am Anfang von §6 getan. Im einleitenden Beispiel (4) von §6 hatten wir sn = n X k=2 1 1 =1− k(k − 1) n für alle n ∈ N mit n ≥ 2 nachgerechnet. Damit ist die Reihe konvergent und ihr Grenzwert ist ∞ X 1 1 = lim 1 − = 1. n→∞ n(n − 1) n n=2 Das zweite Beispiel ist die sogenannte geometrische Reihe, dies ist die aus den Potenzen einer festen Zahl q ∈ C gebildete Reihe. Dieses Beispiel wird sich als derart wichtig herausstellen, dass wir es in einem Satz festhalten wollen. Satz 7.1 (Die geometrische Reihe) P n Sei q ∈ C. Dann ist die geometrische Reihe ∞ n=0 q genau dann konvergent wenn |q| < 1 ist, und in diesem Fall gilt ∞ X n=0 qn = 1 . 1−q Beweis: Nach §6.Lemma 12 ist die n-te Partialsumme für jedes n ∈ N als ( n+1 n 1−q X , q 6= 1, k 1−q q = sn := n + 1, q = 1 k=0 gegeben. Für q = 1 ist die Folge der Partialsummen (sn )n∈N = (n + 1)n∈N divergent. Nun sei q 6= 1. Dann ist die Folge (sn )n∈N nach §6.Satz 6.(a,b) genau dann konvergent wenn die Folge (q n+1 )n∈N konvergent ist und nach Aufgabe (22) ist dies genau dann der Fall wenn |q| < 1 gilt. Ist |q| < 1, so ist nach Aufgabe (22) und §6.Satz 6.(a,b) auch 1 − lim q n+1 1 − q n+1 1 n→∞ q = lim = = . n→∞ 1 − q 1−q 1−q n=0 ∞ X n Wir wollen kurz einige konkrete Beispiele geometrischer Reihen durchgehen. 108 Mathematik für Physiker I, WS 2010/2011 1. Die Reihe Freitag 10.12.2010 ∞ X 1 1 1 1 = 1 + + + + ··· n 2 2 4 8 n=0 ist eine geometrische Reihe mit q = 1/2, nach dem Satz ist sie also konvergent mit der Summe ∞ X 1 1 = = 2. n 2 1 − 12 n=0 2. Wir berechnen die Zahl 0, 9. Nach der Definition der Dezimalschreibweise, die wir zwar streng genommen in dieser Vorlesung nie definiert haben aber trotzdem benutzen wollen, ist 1 1 1 1 1 1 0, 9 = 9 · +9· +9· + ··· = 9 · + + + ··· . 10 100 1000 10 100 1000 In der Klammer steht im wesentlichen eine geometrische Reihe mit q = 1/10, und der Satz über die geometrische Reihe ergibt ! n n ∞ ∞ X X 1 1 1 1 0, 9 = 9 · =9· −1 =9· = 9 · = 1. 1 −1 10 10 9 1 − 10 n=0 n=1 3. Als drittes und letztes Beispiel behandeln wir die Reihe ∞ X (−1)n 2n n=0 =1− 1 1 1 + − + ··· 2 4 8 Dies ist eine geometrische Reihe mit q = −1/2, also ergibt sich ∞ X (−1)n n=0 7.1 2n = 1 2 = . 1 3 1 − −2 Grundeigenschaften von Reihen Über die Partialsummen sind Reihen vollständig auf den Folgenbegriff zurückgeführt, und wir können jetzt den ganzen in §6 entwickelten Apperat auf Reihen loslassen. Dies führt zu einer ganzen Sequenz von grundlegenden Sätzen, Lemmata und Beobachtungen über Reihen und ihre Konvergenz. Wir beginnen mit einer einfachen Beobachtung über den Zusammenhang von reellen und komplexen Reihen. Lemma 7.2 (Real- und P∞Imaginärteil komplexer Reihen) Eine P∞ n=0 zn ist genau dann konvergenz wenn die beiden reellen Reihen P∞ komplexe Reihe Re(z ) und n n=0 n=0 Im(zn ) konvergent sind, und in diesem Fall gilt ∞ X n=0 zn = ∞ X Re(zn ) + i · n=0 ∞ X n=0 109 Im(zn ). Mathematik für Physiker I, WS 2010/2011 Freitag 10.12.2010 Weiter ist eine reelle Reihe genau dann in R konvergent wenn sie in C konvergent ist. Beweis: Klar nach §6.Lemma 1.(d,e). Wie bei Folgen ist der komplexe Fall damit auch bei Reihen der allgemeine Fall. Nun wollen wir einsehen, dass die Summanden einer konvergenten Reihe eine Nullfolge bilden müssen. Leider stellt sich heraus, dass die Umkehrung dieser Tatsache nicht gilt, eine Reihe deren Summanden gegen Null konvergieren ist im allgemeinen nicht selbst konvergent. Ein Beispiel hierfür werden wir bald sehen. P Lemma 7.3: Sei K ∈ {R, C} und sei ∞ n=0 an eine konvergente Reihe. Dann ist (an )n∈N eine Nullfolge und die Folge (sn )n∈N der Partialsummen der Reihe ist beschränkt. Beweis: Nach §6.Lemma 2.(a) ist die Folge (sn )n∈N beschränkt, und nach §6.Satz 6.(a,b) ist die Folge (an )n≥1 = (sn − sn−1 )n∈N eine Nullfolge, also ist auch die Folge (an )n∈N selbst eine Nullfolge. Im allgemeinen muss eine Reihe mit beschränkten Partialsummen nicht konvergent sein, es gibt aber einen wichtigen Spezialfall in dem dies doch zutrifft, nämlich wenn alle Summanden der Reihe reell und nicht negativ sind. Wir können für reelle Reihen sogar noch etwas weiter gehen und wie in §6.2 zusätzlich noch den Begriff der Konvergenz in den erweiterten reellen Zahlen R einführen, und dann können auch ±∞ als Summen von Reihen auftauchen. Für Reihen mit konstanten Vorzeichen ergibt sich dann der folgende Satz: Satz 7.4: Es gelten: P P∞ (a) Sind ∞ a und n n=0 n=0 bn zwei in R konvergente reelle Reihen mit an ≤ bn für alle n ∈ N, so gilt auch ∞ ∞ X X an ≤ bn . n=0 n=0 P (b) Eine reelle Reihe ∞ n=0 an mit an ≥ 0 für P∞alle n ∈ N ist in R konvergent, und sie ist genau dann in R konvergent wenn n=0 an < ∞ ist, wenn also die Folge der Partialsummen der Reihe beschränkt ist. Beweis: (a) P Für jedes nP ∈ N gilt auch für die Partialsummen der beiden Reihen die Ungleichung nk=0 ak ≤ nk=0 bk und mit §6.Lemma 5.(a) folgt die Behauptung. (b) Die Folge der Partialsummen der Reihe ist monoton steigend, also folgt dies mit §6.Satz 3.(a). Eine (b) entsprechende Aussage gilt natürlich auch für Reihen mit negativen Summanden. Wir können Satz 4 sofort zur Behandlung einiger weiterer Beispiele verwenden, wir 110 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 P 2 wollen zeigen, dass die Reihe ∞ zein=1 1/n konvergiert. Nach dem Satz ist P hierzu zu 2 gen, dass ihre Partialsummen beschränkt bleiben, beziehungsweise das ∞ 1/n < ∞ n=1 2 gilt. Nun haben wir für jedes n ∈ N mit n ≥ 2 die Abschätzung 1/n ≤ 1/n(n − 1) und damit folgt ∞ ∞ ∞ X X X 1 1 1 =1+ ≤1+ = 2 < ∞. 2 2 n n n(n − 1) n=1 n=2 n=2 Dies beweist die Konvergenz der Reihe. Die Berechnung der Summe ist schwerer, und für uns an dieser Stelle noch nicht direkt möglich. Bereits Euler hat gezeigt, dass die Formel ∞ X 1 1 1 1 π2 = 1 + + + + · · · = n2 4 9 16 6 n=1 gilt. Etwas allgemeiner ist jetzt auch für jeden Exponenten k ∈ N mit k ≥ 2 ∞ ∞ X X 1 1 ≤ ≤ 2 < ∞, k 2 n n n=1 n=1 P k d.h. auch ∞ n=1 1/n konvergiert. Eine explizite Formel für diese Summe ist nur bei geraden k bekannt, und auch diese wurde bereits von Euler angegeben. Vorlesung 14, Montag 13.12.2010 Aus der letzten Sitzung kennen wir bereits einige Beispiele konvergenter Reihen. Wie bei Folgen gibt es auch für Reihen Rechenregeln für die Grenzwerte. Die beiden einfachsten dieser Regeln betreffen Summen und Vielfache von Reihen und sollen jetzt schon bewiesen werden. P P∞ Lemma 7.5: Sei K ∈ {R, C} und seien ∞ n=0 an und n=0 bn zwei konvergente Reihen in K. P (a) Die Reihe ∞ n=0 (an + bn ) ist konvergent mit ∞ X (an + bn ) = n=0 (b) Für jedes c ∈ K ist die Reihe ∞ X an + n=0 P∞ n=0 ∞ X ∞ X bn . n=0 can konvergent mit (can ) = c · n=0 ∞ X n=0 111 an . Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Beweis: Die jeweiligen Partialsummen sind die Summen beziehungsweise Vielfachen der Partialsummen der gegebenen Reihen, und die Behauptung folgt damit mit §6.Satz 6.(a,b). P 2 Als ein Beispiel wollen wir die Reihe ∞ n=2 1/n (n − 1) behandeln. Für jedes n ∈ N mit n ≥ 2 gilt 1 1 n − (n − 1) 1 − 2 = 2 = 2 , n(n − 1) n n (n − 1) n (n − 1) und mit unseren eben bewiesenen Rechenregeln folgt ∞ X n=2 X ∞ ∞ ∞ X X 1 1 1 1 1 = − 2 = − 2 n (n − 1) n=2 n(n − 1) n n(n − 1) n=2 n2 n=2 = ∞ X n=2 ∞ X 1 1 π2 − + 1 = 2 − . n(n − 1) n=1 n2 6 P k In der letzten Sitzung hatten wir gesehen, dass die Reihe ∞ n=1 1/n für jedes k ∈ N mit k ≥ 2 konvergiert. Es verbleibt der Fall k = 1. Man nennt die Reihe ∞ X 1 1 1 1 = 1 + + + + ··· n 2 3 4 n=1 (Harmonische Reihe) die harmonische Reihe. Die Summanden der Reihe bilden eine Nullfolge, es P wird sich aber herausstellen, dass die Reihe trotzdem divergiert. Es bezeichne sn := nk=1 1/k für n ∈ N mit n ≥ 1 die Partialsummen der harmonischen Reihe. Es gelten s20 = 1, 1 1 =1+1· , 2 2 1 1 1 1 + >1+2· , = 1+ + 2 |{z} 3 4 2 s21 = 1 + s22 >1/4 s23 = s22 + 1 1 1 1 1 + + + >1+3· , 6 7} 8 2 |5 {z jeweils > 1/8 und allgemein ergibt sich s2n > 1 + n · 1 für alle n ∈ N mit n ≥ 2. 2 Insbesondere ist die Folge der Partialsummen der harmonischen Reihe nicht nach oben beschränkt, d.h. ∞ X 1 = ∞. n n=1 112 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 In der Abschätzung wird die harmonische Reihe nur sehr langsam größer, um beispielsweise über 10 = 1+18·(1/2) zu kommen, braucht es bereits 218 = 262144 Summanden. Man kann zeigen, dass die Partialsummen in Abhängigkeit von n die Größenordnung sn ≈ γ + ln(n) haben, wobei γ eine Konstante etwas größer als 1/2 ist. Die bei der harmonischen Reihe verwendete Argumentation des Zusammenfassens von Summanden in Blöcken von Zweierpotenzgröße, kann man noch auf allgemeinere Situationen ausdehnen, dies führt dann zum folgenden sogenannten Kondensationskriterium“ oder ” Verdichtungskriterium“. ” Satz 7.6 (Cauchys Kondensationskriterium) Sei (an )n≥1 eine monoton fallende, reelle Zahlenfolge mit an ≥ 0 für alle n ∈ N. Dann ist die Reihe ∞ X an genau dann konvergent wenn die Reihe n=1 ∞ X 2n a2n n=0 konvergent ist. Beweis: Dies ist Aufgabe (35). Wir wollen das Kriterium einmal dazu verwenden, die Konvergenz der Reihe ∞ X 1 nα n=1 für ein allgemeines α ∈ Q zu entscheiden. Ist α ≤ 0, so ist (1/nα )n≥1 nicht einmal eine Nullfolge, wir können uns also auf den Fall α > 0 beschränken. Dann ist die Folge (1/nα )n≥1 eine streng monoton fallende Nullfolge. Nach dem Kondensationskriterium müssen wir also die Reihe ∞ X n=0 ∞ 2n ∞ X X 1 (1−α)n = 2 = (21−α )n (2n )α n=0 n=0 untersuchen. Dies ist eine geometrische Reihe und nach Satz 1 genau dann konvergent wenn 21−α < 1 ist, also genau dann wenn 1 − α < 0, beziehungsweise α > 1 ist. Dies zeigt ∞ X 1 < ∞ ⇐⇒ α > 1. nα n=1 Wir haben dieses Resultat erst einmal nur für α ∈ Q, da Potenzen mit beliebigen reellen Exponenten noch gar nicht definiert sind. Da wir nur die Potenzrechenregeln verwendet haben, gilt das Ergebnis aber auch für allgemeines α ∈ R sobald die entsprechenden Potenzen definiert sind. Ein Phänomen das die Behandlung der Konvergenz von Reihen deutlich erschwert, ist das diese nicht nur vom Betrag der Summanden sondern auch von deren Vorzeichen, 113 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 beziehungsweise ihrem Argument im komplexen Fall, abhängt. Beispielsweise ist die harmonische Reihe ∞ X 1 1 1 1 = 1 + + + + ··· n 2 3 4 n=1 wie gesehen divergent, aber die Reihe ∞ X (−1)n−1 n n=1 =1− 1 1 1 + − + ··· 2 3 4 wird sich gleich als konvergent herausstellen. Derartige Reihen bei denen das Vorzeichen ständig hin und her wechselt werden als alternierende Reihen bezeichnet, und das folgende sogenannte Leipnitz-Kriterium wird zeigen, dass eine große Zahl dieser Reihen konvergent ist. Satz 7.7 (Leipnitz-Kriterium) Sei (an )n∈N eine monoton P fallende, reelle Nullfolge mit an ≥ 0 für alle n ∈ N. Dann n ist die alternierende Reihe ∞ n=0 (−1) an konvergent. Ist (sn )n∈N die Folge der Partialsummen dieser Reihe, so gilt s2n ≥ ∞ X (−1)k ak ≥ s2n+1 k=0 für alle n ∈ N. Beweis: Für jedes n ∈ N gelten s2(n+1) = s2n+2 = s2n − a2n+1 + a2n+2 ≤ s2n da a2n+2 ≤ a2n+1 ist und s2(n+1)+1 = s2n+3 = s2n+1 + a2n+2 − a2n+3 ≥ s2n+1 da a2n+2 ≥ a2n+3 ist. Damit ist die Folge (s2n )n∈N monoton fallend und die Folge (s2n+1 )n∈N ist monoton steigend. Für jedes n ∈ N gilt außerdem s1 ≤ s2n+1 = s2n − a2n+1 ≤ s2n ≤ s0 , d.h. (s2n )n∈N ist nach unten und (s2n+1 )n∈N ist nach oben beschränkt. Nach §6.Satz 3 existieren die beiden Grenzwerte s := lim s2n und t := lim s2n+1 . n→∞ n→∞ Nach §6.Satz 6.(a,b) ist dabei t − s = lim s2n+1 − lim s2n = lim (s2n+1 − s2n ) = − lim a2n+1 = 0, n→∞ n→∞ n→∞ 114 n→∞ Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 also haben wir s = t. Nach Aufgabe (21) ist auch die Folge P (sn )n∈N nkonvergent mit dem Grenzwert s = t. Dies zeigt die Konvergenz der Reihe ∞ n=0 (−1) an sowie s2n ≥ s = ∞ X (−1)n an = t ≥ s2n+1 n=0 für jedes n ∈ N. Beispielsweise konvergieren damit die beiden Reihen ∞ X (−1)n−1 n=1 ∞ X n=0 n 1 1 1 + − + · · · = ln(2), 2 3 4 = 1− (−1)n 1 1 1 π = 1 − + − + ··· = , 2n + 1 3 5 7 4 wobei letztere Reihe oft als die Leipnitz-Reihe bezeichnet wird. Die Grenzwerte sind hier nur zur Information angegeben, mit den uns hier zur Verfügung stehenden Hilfsmitteln können wir diese noch nicht weiter begründen. Schließlich überträgt sich auch das Cauchy-Kriterium für Folgen zu einem Cauchy-Kriterium für Reihen. Satz 7.8 (Cauchy Kriterium für Reihen) P Sei K ∈ {R, C}. Dann ist eine Reihe ∞ n=0 an in K genau dann konvergent wenn es für jedes > 0 ein n0 ∈ N mit m X ak < k=n für alle n, m ∈ N mit m ≥ n ≥ n0 gibt. Beweis: Ist (sn )n∈N die Folge der Partialsummen der Reihe, so gilt m X ak = |sm − sn−1 | k=n für alle n, m ∈ N mit m ≥ n. Die Behauptung folgt also aus dem Cauchy Kriterium §6.Satz 14 für Folgen. Das Cauchy-Kriterium ist eher für theoretische Überlegungen von Bedeutung, bei der Behandlung konkret gegebener Reihen kommt es nur selten zum Einsatz. 7.2 Absolute Konvergenz Wir betrachten noch einmal die Leipnitz-Reihe ∞ X (−1)n 1 1 1 = 1 − + − + ··· 2n + 1 3 5 7 n=0 115 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Es ist beispielsweise ∞ 1 X (−1)n 1 1 13 2 0, 6 = = 1 − < <1− + = = 0, 86, 3 3 n=0 2n + 1 3 5 15 und um eine bessere Abschätzung zu erhalten, berechnen wir einige weitere Partialsummen sn n=0 1 n=1 0, 666666 n=2 0, 866666 n = 3 0, 723809 n=4 0, 834920 n = 5 0, 744011 n=6 0, 820934 n = 7 0, 754267 n=8 0, 813091 n = 9 0, 760459 n = 18 0, 798546 n = 19 0, 772905 n = 28 0, 794016 n = 29 0, 777067 n = 98 0, 787923 n = 99 0, 782898 n = 198 0, 786654 n = 199 0, 784148 n = 998 0, 785648 n = 999 0, 785148 P∞ es ist also 0, 785148 < n=0 (−1)n /(2n + 1) < 0, 785648. Die Konvergenz der Leipnitz Reihe ist sehr langsam, wir brauchen bereits 1000 Summanden um nur drei Nachkommastellen der Summe sicher zu kennen. Wir summieren die Leipnitz Reihe jetzt in einer anderen Reihenfolge auf 1+ 1 1 1 1 1 − + + − + ··· 5 3 9 11 7 d.h. es werden je zwei positive gefolgt von nur einem negativen Term genommen. Zur besseren Übersicht schreiben wir dies als ∞ X 1 1 1 1 1 1+ − + + − + ··· = ak , 5 3 9 11 7 k=1 wobei a1 , a2 , . . . die eingeklammerten Dreiersummen sind. Diese können wir leicht ausrechnen, die k-te Dreisumme ak addiert den (2k − 1)-ten und den (2k)-ten positiven Term der Leipnitz Reihe und subtrahiert den k-ten negativen Term dieser Summe. Der k-te negative Term ist der (2k)-te Term insgesamt, also −1/(2(2k) − 1) = −1/(4k − 1). Ebenso ist der k-te positive Term gerade der (2k − 1)-te Term insgesamt, also 1/(2(2k − 1) − 1) = 1/(4k − 3) und somit ak = 1 1 1 1 1 1 + − = + − 4(2k − 1) − 3 4(2k) − 3 4k − 1 8k − 7 8k − 3 4k − 1 (8k − 3)(4k − 1) + (8k − 7)(4k − 1) − (8k − 3)(8k − 7) = (8k − 7)(8k − 3)(4k − 1) 24k − 11 = > 0. (8k − 7)(8k − 3)(4k − 1) 116 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Alle Summanden sind damit positiv, und somit ist ∞ X ∞ X (−1)k 1 1 1 1 1 3734 ak > 1 + − + + − = = 0, 911843 . . . > . 5 3 9 11 7 4095 2k + 1 k=1 k=0 In dieser Reihenfolge aufsummiert erhalten wir also eine andere Summe. Tatsächlich läßt sich zeigen, dass 1+ 1 1 1 1 1 π + ln(2) − + + − + ··· = 5 3 9 11 7 4 gilt. Die Summation unendlicher Summen ist also nicht kommutativ“ sondern kann ” wie in diesem Beispiel von der Reihenfolge der Summanden abhängen. Das ist natürlich ein eher unerfreuliches Phänomen. Von besonderen Interesse sind jetzt die guten Rei” hen“, die unabhängig von der Summationsreihenfolge immer gegen denselben Wert konvergieren. Derartige Reihen nennt man manchmal unbedingt konvergent, es wird sich aber gleich herausstellen, dass es eine einfache äquivalente Beschreibung gibt, die sogenannte absolute Konvergenz. Definition 7.2 (Absolute Konvergenz) P∞ Sei K ∈ {R, C}. Eine Reihe n heißt absolut konvergent, wenn die reelle Reihe n=0 aP P∞ ∞ n=0 |an | konvergent ist, wenn also n=0 |an | < ∞ ist. Beispielsweise ist jede konvergente reelle Reihe mit nur nicht negativen Summanden trivialerweise auch absolut konvergent, was schon einen großen Teil unserer bisher behandelten Beispiele Nach Satz 1 ist für jedes q ∈ C mit |q| < 1 die geoP∞ abdeckt. n metrische Reihe n=0 q absolut konvergent, dies wird sich als eines der wichtigsten Beispiele einer absolut Reihe herausstellen. Nicht absolut konvergent ist P∞konvergenten n dagegen die Reihe n=1 (−1) /n. Genau wie die Konvergenz komplexer Reihen läßt sich auch die absolute Konvergenz dieser Reihen an Real- und Imaginärteil ablesen. Lemma 7.9 (Absolute P Konvergenz komplexer Reihen) ∞ Eine komplexePReihe ist genau dann absolut konvergent wenn die beiden n=0 an P ∞ reellen Reihen n=0 Re(an ) und ∞ n=0 Im(an ) absolut konvergent sind. Beweis: Dies ist Aufgabe (32). Wir zeigen zunächst, dass absolute Konvergenz stärker als die gewöhnliche Konvergenz ist, dass also eine absolut konvergente Reihe immer auch konvergent ist. P∞ Lemma 7.10: P∞ Sei K ∈ {R, C} und sei n=0 an eine absolut konvergente Reihe in K. Dann ist n=0 an auch konvergent und es gilt ∞ ∞ X X an ≤ |an |. n=0 n=0 117 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Beweis: Für alle n, m ∈ N mit m ≥ n gilt m m X X |ak | ak ≤ k=n k=n P und die Konvergenz von ∞ n=0 an folgt mit dem Cauchy-Kriterium Satz 8 für Reihen. Mit §6.Lemma 2.(b) und §6.Lemma 5.(a) folgt auch n ∞ n n ∞ X X X X X |ak | = |an |. ak ≤ lim ak = lim an = lim n→∞ n→∞ n→∞ n=0 n=0 k=0 k=0 k=0 Wie schon bemerkt sind die absolut konvergenten Reihen genau diejenigen, deren Wert sich bei beliebiger Umsortierung der Summanden nicht ändert. Wir werden jetzt gleich beweisen, dass die absolut konvergenten Reihen tatsächlich diese Eigenschaft haben. Zuvor müssen wir aber den Begriff des Umsortierens“ formal noch etwas genauer ” fassen. Eine umsortierte Version einer Reihe a0 + a1 + a2 + · · · ist eine Reihe in der dieselben Summanden nur in einer anderen Reihenfolge auftreten, also eine Reihe der Form aπ(0) + aπ(1) + aπ(2) + · · · wobei π(0), π(1), π(2), . . . die entsprechenden Indizes der Originalreihe sind. Dass jeder Index n ∈ N unter den π(0), π(1), π(2), . . . an genau einer Stelle auftaucht, bedeutet das es für jedes n ∈ N genau einen umsortierten Index k ∈ N mit π(k) = n gibt. In anderen Worten soll die Abbildung π : N → N bijektiv sein. Damit können wir unseren Umordnungssatz für absolut konvergente Reihen formulieren. Der Beweis wurde in der Vorlesung nur sehr grob skizziert, hier wollen wir den vollständigen, exakten Beweis vorführen. Lemma 7.11 (Umordnungen P absolut konvergenter Reihen) Sei K ∈ {R, C} und seien ∞ in K und π : N → n=0 an eine absolut konvergente Reihe P N eine bijektive Abbildung. Dann ist auch die umgeordnete Reihe ∞ n=0 aπ(n) absolut konvergent und es gilt ∞ ∞ X X aπ(n) = an . n=0 n=0 Beweis: Ist n ∈ N, so setzen wir n∗ := max{π(0), π(1), . . . , π(n)}, und haben die Inklusion {π(0), π(1), . . . , π(n)} ⊆ {0, . . . , n∗ }, also auch n X k=0 Nach Satz 4.(b) ist gent. P∞ n=0 ∗ |aπ(k) | ≤ n X |ak | ≤ k=0 ∞ X |ak | < ∞. k=0 |aπ(n) | konvergent, d.h. auch 118 P∞ n=0 aπ(n) ist absolut konver- Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Damit ist die erste Aussage bewiesen. Insbesondere sind nach Lemma 10 beide konvergent. Bezeichne sn := n X ak und s0n := n X P∞ n=0 aπ(n) und P∞ n=0 an aπ(k) k=0 k=0 für jedes n ∈ N die jeweiligen Partialsummen. Wir wollen zeigen, dass die Differenzen (sn − s0n )n∈N eine Nullfolge bilden. Sei > 0. Nach dem Cauchy Kriterium Satz 8 für Reihen existiert n1 ∈ N mit m X |ak | < k=n für alle n, m ∈ N mit m ≥ n ≥ n1 . Wir setzen n0 := max{n1 , π −1 (0), . . . , π −1 (n1 )}. Sei jetzt n ∈ N mit n ≥ n0 gegeben. Dann sind 0, 1, . . . , n1 − 1, π −1 (0), π −1 (1), . . . , π −1 (n1 − 1) ∈ {0, . . . , n}, also auch 0, 1, . . . , n1 − 1 ∈ {π(0), π(1), . . . , π(n)}. Bilden wir also die Differenz sn − s0n = n X ak − n X aπ(k) , k=0 k=0 so kommt jeder der Summanden a0 , . . . , an1 −1 sowohl in sn als auch in s0n vor, und verschwindet in der Differenz. Von sn und s0n verbleiben dann nur noch Summanden der Form ak mit k ≥ n1 und k ∈ {0, . . . , n, π(0), . . . , π(n)}. Diejenigen davon die in sn und s0n vorkommen verschwinden in der Differenz, und die anderen bleiben mit eventuellen Vorzeichen stehen. Setzen wir also m := max{n, π(0), . . . , π(n)}, so ist m ≥ n1 und es gibt eine Menge M ⊆ {n1 , n1 + 1, . . . , m} und Vorzeichen σk ∈ {−1, 1} für k ∈ M mit X sn − s0n = σk ak . k∈M Mit der Dreiecksungleichung folgt m X X X 0 |sn − sn | = σk ak ≤ |ak | ≤ |ak | < . k∈M k∈M 119 k=n1 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Damit ist (sn − s0n )n∈N eine Nullfolge. Mit den Grenzwertsätzen §6.Lemma 6.(a,b) folgt schließlich ∞ X an − n=0 ∞ X aπ(n) = lim sn − lim s0n = lim (sn − s0n ) = 0. n→∞ n=0 n→∞ n→∞ Damit sind absolut konvergente Reihen tatsächlich im obigen Sinne unbedingt konvergent, ihr Wert ändert sich nicht bei beliebiger Umordnung der Summanden. Tatsächlich handelt es sich bei den absolut konvergenten Reihen auch genau um die unbedingt konvergenten Reihen. Wir wollen uns jetzt kurz überlegen, dass man eine konvergente, aber nicht absolut konvergente, Reihe stets so umordnen P∞kann, dass sie divergiert. Zunächst betrachten wir hierzu den reellen Fall, es sei also n=0 an eine konvergente reelle Reihe die nicht absolut konvergent ist. Nach Satz 4.(b) müssen dann sowohl unendlich viele positive als auch unendlich viele negative Summanden vorkommen. Damit können wir die Folge (an )n∈N in eine positive Teilfolge (an+ )k∈N und eine negative Teilfolge (an− )k∈N k k einteilen, es soll also {n+ k |k ∈ N} = {n ∈ N|an ≥ 0} und {n− k |k ∈ N} = {n ∈ N|an < 0} gelten. Da P∞ n=0 |an | = ∞ ist, müssen ∞ X an+ = +∞ und ∞ X an− = −∞ k k k=0 k=0 gelten. Dies bedarf einer kleinen Begründung, nehme also einmal an, dass etwa der P positive Teil ∞ a k=0 n+ < ∞ ist. Wir betrachten dann die durch k ( an , an ≥ 0, b+ n := 0, an < 0 P∞ + für n ∈ N definierte Folge. Die Partialsummen der Reihe n=0 bn sind dann im wesentP∞ lichen dieselben wie diejenigen der Reihe k=0 an+ nur das jedes Folgenglied eventuell k P + endlich oft wiederholt wird. Also ist auch ∞ b n=0 n konvergent. Damit ist aber auch ∞ X n=0 |an | = 2 ∞ X n=0 b+ n − ∞ X an n=0 P konvergent, im Widerspruch dazu das ∞ n=0 an als nicht absolut P konvergent vorausgeP∞ = −∞. Wegen setzt ist. Also ist k=0 an+ = +∞ und analog folgt auch ∞ k=0 an− k k limk→∞ an− = limn→∞ an = 0 gibt es ein p ∈ N mit −1 < an− < 0 für alle k ∈ N mit k k k > p. 120 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 P∞Setze q0 := −1. Ist kP∈∞ N und ist qk ∈ N ∪ {−1} bereits definiert, so ist wegen = +∞ auch = +∞, und somit existiert ein qk+1 ∈ N mit l=0 an+ l=qk +1 an+ l l Pqk+1 qk+1 > qk und l=qk +1 an+ > 2. Weiter definieren wir die Zahlen l mk := p + 1 + k−1 X (ql+1 − ql + 1) = k + qk + p + 2 l=0 für alle k ∈ N, also p + 1 = m0 < m1 < m2 < m3 < . . .. Definiere jetzt die Umordnung − 0 ≤ l ≤ p, nl , + π : N → N; l 7→ nqk +l−mk +1 , mk ≤ l < mk+1 − 1 für ein k ∈ N, − np+k+1 , l = mk+1 − 1 für ein k ∈ N. P Setze M := pk=0 an− . Für jedes k ∈ N gelten k mk+1 −2 qk+1 mk+1 −1 X X X l=mk aπ(l) = an+ > 2 und l l=qk +1 mk+1 −2 aπ(l) = l=mk X aπ(l) + an− p+k+1 > 1, l=mk also ist für alle k ∈ N und alle m ∈ N mit m ≥ mk+1 auch m X aπ(l) ≥ M + k. l=0 P Dies zeigt ∞ n=0 aπ(n) = +∞ und insbesondere ist die umgeordnete Reihe divergent. Damit haben wir bewiesen, dass man eine konvergente, aber nicht absolut konvergente, reelle Reihe immer so umordnen kann, dass die entstehende Reihe P divergent ist. Dies kann man jetzt leicht auf den komplexen Fall ausdehnen. Ist ∞ n=0 zn eine konvergente, aber nicht absolut konvergente, komplexe Reihe, so sind nach Lemma 2 auch P∞ P∞ die beiden reellen Reihen n=0 Re(zn ) und n=0 Im(zn ) konvergent und nach Lemma 9 ist eine der beiden Reihen nicht absolut konvergent. P∞ gibt es daP∞ Wie bereits gezeigt mit eine bijektive Abbildung π : N → N so, dass n=0 PRe(zπ(n) ) oder n=0 Im(zπ(n) ) divergiert, und wieder nach Lemma 2 ist damit auch ∞ n=0 zπ(n) divergent. Insgesamt haben wir damit den folgenden Satz bewiesen: Satz 7.12 (Absolute Konvergenz ist unbedingte Konvergenz) P∞ Sei K ∈ {R, C}. Dann ist eine Reihe n=0 an in K genau dann absolut P konvergent wenn für jede bijektive Abbildung π : N → N auch die umgeordnete Reihe ∞ n=0 aπ(n) konvergent ist. Unsere Argumentation im reellen Fall des obigen Satzes kann man noch etwas verfeinern, und erhält dann den sogenannten Riemannschen Umordnungssatz: SatzP 7.13 (Riemannscher Umordnungssatz) Sei ∞ n=0 an eine konvergente, aber nicht absolut konvergente, reelle P∞ Reihe. Dann gibt es für jedes a ∈ R stets eine bijektive Abbildung π : N → N mit n=0 aπ(n) = a. 121 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 Beweis: Der Beweis wurde in der Vorlesung nur angedeutet, er soll hier aber vollständig angegeben werden. Wir übernehmen die Bezeichungen der obigen Überlegung. Ist a = +∞ so haben wir bereits alles bewiesen und für a = −∞ kann man alles analog zu oben beweisen. Wir müssen also nur noch den Fall a ∈ R betrachten. Wir setzen p+ 0 := 0. Wegen P∞ Pp−0 −1 − − = −∞ existiert ein p0 ∈ N mit p0 > 0 und k=0 an− < a. k=0 an− k k Pp−k −1 Pp+k −1 + − Sei jetzt k ∈ N und pk , pk mit j=0 an+j + j=0 an−j < a seien schon definiert. P + + Wegen ∞ an+j = +∞ existiert dann ein minimales p+ k+1 ∈ N mit pk+1 > pk und j=p+ k Pp+k+1 −1 Pp−k −1 an+j + j=0 an−j > a. Die Minimalität von p+ j=0 k+1 ergibt dann p+ k+1 −2 X p− k −1 an+j + X j=0 j=0 also ist p+ k+1 −1 X a< p− k −1 an+j + Da auch j=p− k X an−j ≤ a + an++ p j=0 j=0 P∞ an−j ≤ a, k+1 . −1 − an−j = −∞ gilt, gibt es analog ein minimales p− k+1 > pk mit p− k+1 −1 p+ k+1 −1 a + an−− p k+1 ≤ −1 X an+j + X an−j < a j=0 j=0 − Damit werden induktiv zwei Folgen (p+ k )k∈N , (pk )k∈N in N definiert, und mit diesen definieren wir die bijektive Abbildung π : N → N durch − − n−− , wenn n = p+ k + j mit pk−1 ≤ j < pk , k ∈ N, pk−1 +j π : N → N; n 7→ + + n++ , wenn n = p− k + j mit pk ≤ j < pk+1 , k ∈ N, p +j k wobei p− −1 := 0 gesetzt ist. In anderen Worten sortiert π die natürlichen Zahlen als + − − + + − + n− 0 , . . . , np− −1 , n0 , . . . , np+ −1 , np− , . . . , np− −1 , np+ , . . . , np+ −1 , . . . 0 1 0 1 P∞ 1 2 um. Wir behaupten das für diese Umordnung n=0 aπ(n) = a gilt. Bezeichne hierzu (sn )n∈N die Folge der Partialsummen dieser Reihe. Sei > 0 gegeben. Da (an )n∈N nach Lemma 3 eine Nullfolge ist, existiert ein n1 ∈ N mit |an | < für alle n ∈ N mit n ≥ n1 . + − − Wähle k + , k − ∈ N mit n− k− ≥ n1 und nk+ ≥ n1 . Weiter gibt es k1 , k2 ∈ N mit pk1 ≥ k + − + und p+ k2 ≥ k . Setze schließlich k0 := 1 + max{k1 , k2 } und n0 := pk0 + pk0 ∈ N. Sei n ∈ N mit n ≥ n0 . Dann können zwei verschiedene Fälle auftreten. − + + − Fall 1. Es gebe k, j ∈ N mit p− k−1 ≤ j < pk und n = pk + j. Wegen n ≥ n0 = pk0 + pk0 − − ist dann k − 1 ≥ k0 also k ≥ k0 + 1 und insbesondere k ≥ 1. Weiter sind pk > pk0 ≥ 122 Mathematik für Physiker I, WS 2010/2011 Montag 13.12.2010 + + + − − + + − + p− k1 ≥ k und pk > pk0 ≥ pk2 ≥ k also auch np− −1 ≥ nk− ≥ n1 und np+ −1 ≥ nk+ ≥ n1 , k d.h. |an−− | < und |an++ | < . Weiter ist p k −1 p sn = n X k −1 p+ k −1 aπ(i) = X an+i + i=0 i=0 j X an−i ≥ X sn = an+i + i=0 X an−i ≤ an−i ≥ a + an−− p i=0 an+i + X k −1 an−i ≤ a + an++ , p i=0 i=0 i=0 X p− k−1 −1 p+ k −1 j X an+i + i=0 i=0 p+ k −1 p− k −1 p+ k −1 und X k k −1 also insgesamt a + an−− p k −1 ≤ sn ≤ a + an++ , also |sn − a| ≤ max{|an−− |, |an++ |} < . p k −1 p k −1 p k −1 + − + − Fall 2. Es gebe k, j ∈ N mit p+ k ≤ j < pk+1 und n = pk + j. Wegen n ≥ n0 = pk0 + pk0 − − − + + − ist k ≥ k0 und insbesondere k ≥ 1. Weiter sind pk ≥ pk0 > pk1 ≥ k und pk+1 > pk0 ≥ − − + + + p+ k2 ≥ k also auch np− −1 ≥ nk− ≥ n1 und np+ −1 ≥ nk+ ≥ n1 , d.h. |an−− | < und k |an++ p k+1 k+1 p | < . Weiter ergibt sich k −1 −1 sn = j X an+i + p− k −1 p+ k+1 −1 X X i=0 und sn = j X an+i + i=0 an−i ≤ p− k −1 an+i + X i=0 i=0 i=0 p− k −1 p+ k −1 p− k −1 X X i=0 an−i ≥ an+i + i=0 X an−i ≤ a + an++ p k+1 −1 an−i ≥ a + an−− , p i=0 k −1 also ist dies diesmal insgesamt a + an−− p k −1 ≤ sn ≤ a + an++ p k+1 −1 , also erneut |sn − a| ≤ max{|an−− |, |an++ p k −1 Damit ist in beiden Fällen |sn −a| < gezeigt. Insgesamt haben wir damit limn→∞ sn = a eingesehen. p |} < . k+1 −1 P∞ n=0 aπ(n) = Es verbleibt die Frage wieweit ein analoger Satz auch für komplexe Reihen gilt? Diese P∞Frage wird durch einen Satz von Steinitz vollständig beantwortet. Angenommen n=0 an ist eine konvergente, aber nicht absolut konvergente, komplexe Reihe. Dann betrachten wir die Menge ( ) ∞ X L := a ∈ C Es existiert eine bijektive Abbildung π : N → N mit aπ(n) = a n=0 123 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 aller komplexen Zahlen, die als Summe einer umgeordneten Version der Reihe auftreten können. Der Satz von Steinitz sagt dann, dass entweder L = C ist oder L ist eine Gerade. Dies ist schon ein etwas komplizierteres Ergebnis, dessen Beweis wir hier nicht einmal andeuten wollen. Wir kommen jetzt zum rechnerischen Problem einer vorgelegten Reihe anzusehen, ob sie absolut konvergent ist oder nicht. Es gibt hierfür zwar kein allgemein anwendbares immer funktionierendes Verfahren, aber doch einige Kriterien die oft schon ausreichen. In gewissen Sinne ist die absolute Konvergenz einer Reihe besser zu behandeln als die Konvergenz, da erstere nur von der Größenordnung der Summanden aber nicht von Vorzeichen oder Argument abhängt. Das Grundkriterium zum Erkennen absoluter Konvergenz ist das nun zu formulierende Majorantenkriterium. Satz 7.14 (Majorantenkriterium für die absolute Konvergenz) P∞ P Sei K ∈ {R, C} und sei n=0 anP eine Reihe in K. Es gebe eine reelle Reihe ∞ n=0 Mn mit Mn ≥ 0 für alle n ∈ N und ∞ M < ∞. Weiter gebe es eine Konstante c≥0 n n=0 in R und einen P Startindex n0 ∈ N mit |an | ≤ cMn für alle n ∈ N mit n ≥ n0 . Dann ist die Reihe ∞ n=0 an absolut konvergent. Beweis: Es ist ∞ X n=0 |an | ≤ nX 0 −1 |an | + c · ∞ X Mn < ∞. n=n0 n=0 P∞ In diesen P∞ Zusammenhang nennt man die Reihe n=0 Mn auch eine Majorante der Reihe n=0 an . Spezialisieren wir das Majorantenkriterium auf eine geometrische Reihe als Majorante, so ergibt sich in der nächsten Sitzung das sogenannte Wurzelkriterium, und als einen weiteren Spezialfall werden wir das Quotientenkriterium kennen lernen. Vorlesung 15, Freitag 17.12.2010 P∞ n Wir wissen das die geometrische Reihe n=0 q für q ∈ C mit |q| < 1 absolut konvergent ist, und insbesondere trifft dies auf reelle q mit 0 ≤ q < 1 zu. Diese Tatsache führt uns auf das sogenannte Wurzelkriterium. Korollar 7.15 (Wurzelkriterium P∞ für die absolute Konvergenz) Sei K ∈ {R, C} und sei eine Reihe in K. Dann gibt es n=1 an P P∞genau dann ein ∞ n q ∈ R mit p 0 ≤ q < 1 so, dass q eine Majorante von n=1 n=1 an ist, wenn n lim supn→∞ |an | < 1 ist. Insbesondere gilt damit die Implikation lim sup n→∞ ∞ X p n |an | < 1 =⇒ an ist absolut konvergent. n=1 124 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 Beweis: Die erste Aussage ist Aufgabe (27) und die zweite Aussage folgt aus Satz 14. Man kann das Wurzelkriterium auch ohne Verwendung des Limes Superior formulieren. Nach §6.Satz 10.(e) ist die Bedingung an den Limes Superior äquivalent zu p ∃(c ∈ R, 0 ≤ c < 1)∃(n0 ∈ N)∀(n ∈ N, n ≥ n0 ) : n |an | < c. Oftmals wird auch diese äquivalente Formulierung als das Wurzelkriterium bezeichnet. In den allermeisten Fällen, zumindest solange man bei den typischen Rechenaufgaben p n bleibt, ist die Folge ( |an |)n≥1 sogar konvergent, und dann stimmt ihr Grenzwert nach §6.Satz 10.(b) mit dem Limes Superior überein, also ergibt sich in diesem Fall die Implikation ∞ X p n lim |an | < 1 =⇒ an ist absolut konvergent. n→∞ n=1 Als ein einfaches Beispiel wollen wir die Reihe ∞ X n 2n n=1 auf absolute Konvergenz untersuchen. Wollen wir das Wurzelkriterium anwenden, so haben wir r n 1√ 1 n = n n −→ < 1, n 2 2 2 d.h. die Reihe ist nach dem Wurzelkriterium absolut konvergent. Bald werden wir auch in der Lage sein, ihren Grenzwert zu berechnen. Das Wurzelkriterium ist nicht dazu in der Lage die absolute Konvergenz oder ihre Verneinung sicher zu entscheiden, das ist auch von vornherein nicht zu erwarten, wir hatten ja gesehen das das Wurzelkriterium nur testet ob sich die Reihe durch eine konvergente geometrische Reihe majorisieren läßt. Man kann dem Wurzelkriterium aber zumindest noch einen recht primitiven Divergenztest hinzufügen, nämlich lim sup n→∞ p n |an | > 1 =⇒ ∞ X an ist divergent. n=1 p n |an |)n≥1 ist ein Häufungspunkt dieser Folge, In der Tat, der Limes Superior von ( p p n nk es gibt also eine Teilfolge ( |ank |)k∈N , die in R gegen p s = lim supn→∞ |an | > 1 nk konvergiert. Folglich gibt es auch ein k0 ∈ N mit |ank | > 1 für alle k ≥ k0 und damit ist auch |ank | > 1 für alle k ≥ k0 , die Folge (ank )k∈N ist also sicher keine Nullfolge. Damit ist aber (anP )n∈N nach §6.Lemma 1.(a) ebenfalls keine Nullfolge und nach Lemma 3 ist die Reihe ∞ n=1 an divergent. 125 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 p Im verbleibenden Fall lim supn→∞ n |an | = 1 kann man dagegen nichts sagen, die Reihe kann konvergieren oder auch divergieren. Ist beispielsweise k ∈ N mit k ≥ 1, so gilt r 1 1 n lim = k = 1, k √ n→∞ n n lim n n→∞ aber für k = 1 haben wir die divergente harmonische Reihe während die Reihe für k ≥ 2 konvergiert. Aufgrund des Auftauchens der n-ten Wurzel ist das Wurzelkriterium gelegentlich rechnerisch nur schwer zu überprüfen. Es gibt ein weiteres Kriterium, das sogenannte Quotientenkriterium, das oftmals zu leichteren Rechnungen führt. Dieses ist ein gewisser Spezialfall des Wurzelkriteriums, und beruht auf dem gleich folgenden Lemma 16. Direkt für das Quotientenkriterium wichtig ist nur Teil (a) des Lemmas, und auch nur diesen Teil werden wir hier beweisen, die anderen beiden Aussagen werden erst später einmal wichtig und sind Übungsaufgaben. Zuvor wollen wir eine kleine Tatsache über Limes Superior und Limes Inferior festhalten, sind (an )n∈N und (bn )n∈N zwei reelle Zahlenfolgen mit an ≤ bn für alle n ∈ N, so folgt für jedes n ∈ N auch sup ak ≤ sup bk und inf ak ≤ inf bk , k≥n k≥n k≥n k≥n und damit sind lim sup an = inf sup ak ≤ inf sup bk = lim sup bn n∈N k≥n n→∞ n∈N k≥n n→∞ und analog lim inf an ≤ lim inf bn . n→∞ n→∞ Da endlich viele Folgenglieder auf den Limes Superior und Limes Inferior keinen Einfluss haben, reicht es auch wenn an ≤ bn für alle n ≥ n0 mit einem Startindex n0 ∈ N gilt. Damit kommen wir zu unserem angekündigten Lemma. Lemma 7.16: Sei (an )n≥1 eine Folge in R>0 . Dann gelten (a) Es ist lim sup √ n n→∞ (b) Es ist lim inf n→∞ an ≤ lim sup n→∞ √ n an ≥ lim inf n→∞ an+1 . an an+1 . an √ (c) Ist die Folge (an+1 /an )n≥1 konvergent, so ist auch die Folge ( n an )n≥1 konvergent und es gilt √ an+1 lim n an = lim . n→∞ n→∞ an 126 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 Beweis: (a) Ist s := lim supn→∞ an+1 /an = ∞, so ist die Aussage klar. Wir können also s 6= ∞ annehmen und wegen an+1 /an > 0 für alle n ∈ N ist dann s ∈ R mit s ≥ 0. Sei α ∈ R mit s < α. Nach §6.Satz 10.(e) existieren ein q ∈ R mit q < α und ein n0 ∈ N mit an+1 /an < q für alle n ∈ N mit n ≥ n0 , also insbesondere q > 0. Für jedes n ∈ N mit n ≥ n0 ist dann an+1 < qan , und somit auch an0 +n < qan0 +n−1 < q 2 an0 +n−2 < · · · < q n an0 für alle n ∈ N mit n ≥ 1. Für jedes n ∈ N mit n ≥ n0 folgt damit r p √ an n n n−n 0 an ≤ q an0 = q · n n00 , q und somit ergibt sich lim sup n→∞ √ n r r an0 an0 n n an ≤ lim sup q = lim q = q < α. n→∞ q n0 q n0 n→∞ Dies ergibt die Behauptung. (b,c) Dies ist wie schon bemerkt eine Übungsaufgabe. Damit ergibt sich jetzt das angekündigte Quotientenkriterium. Korollar 7.17 (Quotientenkriterium für die absolute Konvergenz) P∞ Sei K ∈ {R, C} und sei n=1 an eine Reihe in K mit an 6= 0 für alle n ∈ N. Dann besteht die Implikation ∞ X |an+1 | lim sup < 1 =⇒ an ist absolut konvergent. |an | n→∞ n=1 Beweis: Klar nach dem Wurzelkriterium Korollar 15 und Lemma 16.(a). Genau wie beim Wurzelkriterium wird das Quotientenkriterium oft auch in der Form ∃(c ∈ R, 0 ≤ c < 1)∃(n0 ∈ N)∀(n ≥ n0 ) : |an+1 | <c |an | formuliert. In Aufgaben ist (|an+1 |/|an |)n≥1 oft sogar konvergent, und die Bedingung des Quotientenkriteriums wird dann zu limn→∞ |an+1 |/|an | < 1. Die oben behandelte Reihe P ∞ n n=1 n/2 kann man auch mit dem Quotientenkriterium rechnen, für jedes n ∈ N gilt (n + 1)/2n+1 1 n+1 1 = · −→ < 1. n n/2 2 n 2 127 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 Das Lemma 16 zeigt, dass das Wurzelkriterium stärker als das Quotientenkriterium ist, wann immer man die absolute Konvergenz einer Reihe mit dem Quotientenkriterium einsehen kann, so würde auch das Wurzelkriterium funktionieren. Es gibt Reihen bei denen das Wurzelkriterium anwendbar ist, das Quotientenkriterium aber nicht. Wir wollen auch hierfür ein Beispiel angeben, die Reihe 1 1 1 1 1 1 1 1 + + 2 + 2 + 3 + 3 + 4 + 4 + ··· , 2 3 2 3 2 3 2 3 also P∞ n=1 an mit ( an = 1 , 2(n+1)/2 1 , 3n/2 n ist ungerade, n gerade. Versuchen wir zuerst einmal das Quotientenkriterium. Für jedes n ∈ N mit n ≥ 1 ist ( (n+1)/2 2 , n ist ungerade, an+1 = 1 3 3 n/2 an , n ist gerade, 2 2 und diese Folge hat die beiden Häufungspunkte 0 und +∞, also ist lim sup n→∞ an+1 = +∞. an Das Quotientenkriterium läßt sich hier also nicht anwenden. Für das Wurzelkriterium rechnen wir dagegen für jedes n ∈ N mit n ≥ 1 ( √ 12n √ , n ist ungerade, √ n an = 12 2 √ , n ist gerade, 3 √ √ also haben wir diesmal die beiden Häufungspunkte 1/ 2 und 1/ 3 und es folgt lim sup √ n an = n→∞ 1√ 2 < 1. 2 Das Wurzelkriterium ist also anwendbar, und liefert die absolute Konvergenz der Reihe. Beachte das dieses Beispiel insbesondere zeigt, dass aus lim supn→∞ |an+1 |/|an | > 1 nicht die Divergenz der untersuchten Reihe folgt. Die Divergenz folgt dagegen aus lim inf n→∞ |an+1 |/|an | > 1, aber dies impliziert sogar die viel stärkere Konvergenzaussage limn→∞ |an | = ∞, ist als Divergenzkriterium also schlecht geeignet. Ist die Folge (|an+1 |/|a ist nach Lemma 16.(c) auch n |)n∈N konvergent mit limn→∞ |an+1 |/|an | > 1, so p P∞ n limn→∞ |an | = limn→∞ |an+1 |/|an | > 1, und die Reihe n=0 an ist divergent. 7.3 Das Cauchy Produkt von Reihen Im letzten Abschnitt haben wir unter anderem gesehen, dass die Summation von Reihen sich mit Addition und Bilden der Vielfachen verträgt, dies war Lemma 5. Nun 128 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 wollen wir uns der Frage der Multiplikation von Reihen zuwenden. Diese ist leider wesentlich komplizierter als die Multiplikation von Folgen. Das Produkt der Summen zweier Reihen ist natürlich nicht die Summe der Einzelprodukte, dies ist ja nicht einmal bei endlichen Summen so (a1 + a2 + a3 ) · (b1 + b2 + b3 ) = a1 b1 + a1 b2 + a1 b3 + a2 b1 + a2 b2 + a2 b3 + a3 b1 + a3 b2 + a3 b3 . Als eine etwas optimistische Erwartung könnten wir schauen ob eine entsprechende Rechnung auch für unendliche Summen wahr ist, ob also so etwas wie ∞ ∞ P P an · bn = a0 b0 + a0 b1 + a0 b2 + · · · n=0 n=0 + a1 b0 + a1 b1 + a1 b2 + · · · + a2 b0 + a2 b1 + a2 b2 + · · · .. .. .. . . . gilt? Hierzu müssten wir uns zunächst einmal überlegen was die rechte Seite denn überhaupt bedeuten soll, so eine doppelt unendliche“ Summe haben wir bisher nicht be” handelt und wollen es in diesem Semester auch nicht tun. Eine naheliegende Möglichkeit dieses Problem zu umgehen ist es, die Summanden einfach in irgendeiner Reihenfolge nacheinander hinzuschreiben, etwa nach Diagonalen geordnet als a0 b0 + a0 b1 + a1 b0 + a0 b2 + a1 b1 + a2 b0 + · · · Dass dies möglich ist klingt zunächst nicht sehr glaubhaft, wir hatten doch gesehen, dass unendliche Summen von der Reihenfolge der Summanden abhängen können, und nun soll es auf einmal keine Rolle spielen in welcher Reihenfolge wir unsere Summanden durchlaufen. Dies ist aber kein hoffnungsloses Problem, wir haben ja bereits in Lemma 11 festgehalten, dass wir absolut konvergente Reihen in beliebiger Reihenfolge aufsummieren können. P P∞ Sind beide Summen ∞ a und n n=0 n=0 bn absolut konvergent, so kann man sehen, dass sich die Produkte ak bl in jeder beliebigen Reihenfolge summieren lassen, und sich stets das Produkt der Summen der beiden einzelnen Reihen ergibt. Aus Gründen die erst im nächsten Semester bei der Behandlung von Potenzreihen klar werden, ist es nützlich jetzt noch eine kleine Variante dieser Summationstechnik einzuführen. Wir fassen die Summanden entlang der Diagonalen zusammen, schreiben also a0 b0 +a0 b1 +a1 b0 +a0 b2 +a1 b1 +a2 b0 +· · · = a0 b0 +(a0 b1 + a1 b0 )+(a0 b2 + a1 b1 + a2 b0 )+· · · Die endlichen Summen in den Klammern fassen wir als eine neue Folge (cn )n∈N auf, und diese Folge, beziehungsweise die zugehörige Reihe, ist das sogenannte Cauchyprodukt der beiden Reihen. Der erste Summand a0 b0 hat 0 = 0 + 0 als Summe der auftauchenden Indizes, die beiden Terme a0 b1 , a1 b0 im zweiten Summanden haben beide die 129 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 Indexsumme 0 + 1 = 1 + 0 = 1, die drei Terme a0 b2 , a1 b1 , a2 b0 im dritten Summanden haben alle die Indexsumme 0 + 2 = 1 + 1 = 2 + 0 = 2, und dies geht immer so weiter. Numerieren wir die Diagonalen mit n = 0, 1, 2, 3, . . . durch, so sind die Produkte ak bl auf der n-ten Diagonalen gerade durch k + l = n beschrieben. Dies führt auf die folgende Definition. Definition 7.3: Sei K ∈ {R, C} und seien (an )n∈N , (bn )n∈N zwei Zahlenfolgen in K. Das Cauchyprodukt dieser beiden Folgen ist dann die Folge (cn )n∈N definiert durch cn := n X ak bn−k = k=0 X ak b l k+l=n für jedes n ∈ N. Die ersten vier Glieder des Cauchyprodukts sind also die Summen der unten jeweils eingekästelten Produkte: a0 b0 a1 b0 a2 b0 a3 b0 a0 b1 a0 b2 a0 b3 a1 b1 a1 b2 a1 b3 a2 b1 a2 b2 a2 b3 a3 b1 a3 b2 a3 b3 c0 a0 b 0 a1 b0 a2 b0 a3 b0 a0 b0 a1 b0 a2 b0 a3 b 0 a0 b1 a0 b2 a0 b3 a1 b1 a1 b2 a1 b3 a2 b1 a2 b2 a2 b3 a3 b1 a3 b2 a3 b3 c1 a0 b1 a0 b2 a1 b1 a1 b2 a2 b1 a2 b2 a3 b1 a3 b2 c2 a0 b 3 a1 b3 a2 b3 a3 b 3 a0 b0 a1 b0 a2 b 0 a3 b0 a0 b1 a0 b2 a1 b1 a1 b2 a2 b1 a2 b2 a3 b1 a3 b2 c3 a0 b3 a1 b3 a2 b3 a3 b3 Wir wollen jetzt den Satz über Produkte von Reihen ansteuern. Überraschenderweise stellt sich heraus, dass es für die Konvergenz des Cauchyprodukts bereits ausreicht, das eine der beiden Reihen absolut konvergent ist. Aus Zeitgründen hatten wir in der Vorlesung auf den Beweis des folgenden Satzes verzichtet, in diesem Skript ist er aber mit aufgeführt. WirPgehen zunächst P∞ die Beweisstrategie durch. Gegeben seien zwei konvergente Reihen ∞ a und n=0 n n=0 bn , deren Partialsummen wir mit (An )n∈N und (Bn )n∈N bezeichnen. Mit den Rechenregeln für Folgengrenzwerte §6.Satz 6.(c) haben wir zunächst ! ! ∞ ∞ X X bn = lim An · lim Bn = lim (An Bn ). an · n=0 n→∞ n=0 n→∞ n→∞ Denken wir uns die Produkte ak bl wie oben quadratisch angeordnet, so ist das Produkt An Bn diePSumme aller Einträge im n × n Quadrat links oben in diesem Schema. Bezeichnet ∞ n=0 cn das Cauchyprodukt der beiden Reihen und (Cn )n∈N die Folge seiner Partialsummen, so ist Cn die Summe aller Einträge im unten eingezeichneten Dreieck: ak ak ak Cn An Bn An Bn − Cn bl Das Quadrat An Bn n0 bl bl Das Dreieck Cn 130 Differenz der beiden Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 Da die Folge (An Bn )n∈N gegen das Produkt der beiden Summen konvergiert, ist die Konvergenz von (Cn )n∈N gegen dieses Produkt gleichwertig dazu das (An Bn − Cn )n∈N eine Nullfolge ist. Diese Differenz ist die Summe über das Dreieck ganz rechts. In diesem Dreieck hat man sowohl Summanden ak bl mit kleinem k als auch solche mit kleinem l. Wegen k + l > n können k und l aber nicht beide gleichzeitig klein sein und zur Abschätzung teilt man die Summe über das Dreieck in zwei Teile auf, einmal Summanden mit l ≥ n0 für einen Startindex n0 , und zum anderen die restlichen mit l < n0 . Satz 7.18 (Cauchyprodukte P∞ P von Reihen) Sei K ∈ {R, C} und seien ∞ n=0 an , n=0 bn zwei konvergente Reihen P∞ von denen eine sogar absolut konvergent ist. Dann ist auch das Cauchyprodukt n=0 cn dieser beiden Reihen konvergent, und es gilt ∞ X n=0 cn = " n ∞ X X n=0 # ∞ X ak bn−k = ! an · n=0 k=0 ∞ X ! bn . n=0 P∞ P∞ P∞ Sind sogar beide Reihen n=0 an , n=0 bn absolut konvergent, so ist auch n=0 cn absolut konvergent, und istP weiter d0 , d1 , d2 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N), so ist auch die Reihe ∞ n=0 dn absolut konvergent mit ∞ X n=0 dn = ∞ X ! an n=0 · ∞ X ! bn . n=0 Beweis: Seien An , Bn , Cn wie oben. Da das Cauchyprodukt sich bei Vertauschen der P beiden Reihen nicht ändert, können wir annehmen das ∞ a n=0 n absolut konvergent ist, also ∞ X A := |an | < ∞. n=0 Wie bemerkt müssen wir zeigen, dass (An Bn − Cn )n∈N eine Nullfolge ist. Sei P also > 0 gegeben. Nach dem Cauchy Kriterium für Reihen Satz 8 angewandt auf ∞ n=0 bn existiert ein n1 ∈ N mit m X bl < 2A + 1 l=n Pn1 −1 für alle n, m ∈ N mit m ≥ n ≥ n1 . Setze M := l=0 |bl |. Erneut P∞ nach dem Cauchy Kriterium für Reihen Satz 8, diesmal angewandt auf die Reihe n=0 |an |, existiert ein n2 ∈ N mit m X |ak | < 2M + 1 k=n 131 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 für alle n, m ∈ N mit m ≥ n ≥ n2 . Setze n0 := n1 + n2 . Sei n ∈ N mit n ≥ n0 . Dann ist nX n 1 −1 X X X X bl + a · b ak · ak bl = |An Bn − Cn | = k l l=1 1≤k≤n n1 ≤l≤n k=1 0≤k,l≤n k+l>n k+l>n k+l>n # n1 −1 " n n n X X X X ≤ |ak | · |ak | · |bl | bl + l=1 k=n−l+1 k=1 l=max{n1 ,n−k+1} ≤ A M + < 2A + 1 2M + 1 da für jedes 1 ≤ l ≤ n1 −1 stets n−l+1 ≥ n0 −n1 +2 > n2 ist. Damit ist (An Bn −Cn )n∈N eine Nullfolge, und die erste Aussage des Satzes ist bewiesen. P∞ Nun nehmen wir an, dass auch n=0 bn absolut konvergent ist und setzen B := ∞ X |bn | < ∞. n=0 Für jedes n ∈ N gilt dann n X |cn | ≤ k=0 X |ak | · |bl | ≤ 0≤k,l≤n k+l≤n n X ! |ak | · k=0 n X ! |bl | ≤ AB, l=0 P∞ P∞ also ist n=0 |cn | ≤ AB < ∞ und auch n=0 cn ist absolut konvergent. Sei jetzt d0 , d1 , d2 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N), also dn = aα(n) bβ(n) für alle n ∈ N wobei γ : N → N × N; n 7→ (α(n), β(n)) eine bijektive Abbildung ist. Sei n ∈ N. Dann setzen wir m := max{α(k) + β(k)|k ∈ N, 0 ≤ k ≤ n} und haben n X |dk | = k=0 n X |aα(k) | · |bβ(k) | ≤ X |ak | · |bl | ≤ AB. 0≤k,l≤m k+l≤m k=0 P P∞ 0 Also ist ∞ n=0 |dn | ≤ AB < ∞ und n=0 dn ist absolut konvergent. Sei jetzt (dn )n∈N die Aufzählung der Produkte ak bl geordnet Diagonalen. Dann ist das CauchyproP∞nach P 0 dukt ∞ c eine geblockte Form von d im Sinne von Aufgabe (33), und nach n=0 n n=0 n Aufgabe (33.a) sowie der schon bewiesenen Teilaussage ist damit ! ! ∞ ∞ ∞ ∞ X X X X d0n = cn = an · bn . n=0 n=0 n=0 132 n=0 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 Schreiben wir wie oben d0n = aα0 (n) bβ 0 (n) für alle n ∈ N mit einer bijektiven Abbildung γ 0 : N → N × N; n 7→ (α0 (n), β 0 (n)), so ist auch π := γ −1 ◦ γ 0 bijektiv mit γ ◦ π = γ 0 , also α0 = α ◦ π und β 0 = β ◦ π. Für jedes n ∈ N ist damit d0n = aα0 (n) bβ 0 (n) = aα(π(n)) bβ(π(n)) = dπ(n) , und mit Lemma 11 folgt schließlich ∞ X dn = n=0 ∞ X dπ(n) = ∞ X d0n = n=0 n=0 ∞ X ! an n=0 · ∞ X ! bn . n=0 Wir wollen hierzu ein kleines Beispiel rechnen. Sei q ∈ C mit |q| < 1 gegeben. Dann wissen wir bereits nach Satz 1 das die geometrische Reihe ∞ X qn = n=0 1 1−q absolut konvergiert. Wir bilden jetzt das Cauchyprodukt (cn )n∈N dieser Reihe mit sich selbst, und erhalten für jedes n ∈ N cn = m X k n−k q q = n X q n = (n + 1)q n . k=0 k=0 Der Satz über das Cauchyprodukt Satz 18 ergibt damit !2 ∞ ∞ X X 1 . (n + 1)q n = qn = (1 − q)2 n=0 n=0 Damit folgt weiter ∞ X n=1 n nq = ∞ X n=0 n (n + 1)q − ∞ X qn = n=0 1 q 1 − = . 2 (1 − q) 1−q (1 − q)2 Setzen wir also beispielsweise q = 1/2 ein, so ergibt sich ∞ 1 X n 1 2 3 4 5 2 = + + + + + · · · = = 2. n 1 2 2 2 4 8 16 32 1 − n=1 2 P∞ P∞ Falls beide Reihen n=0 an und n=0 bn nur konvergent aber nicht absolut konvergent sind, so kann das Cauchyprodukt der beiden Reihen tatsächlich divergent sein. Beispielsweise ist die Reihe ∞ X (−1)n √ n+1 n=0 133 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 nach dem Leipnitz Kriterium Satz 7 konvergent. Das Cauchyprodukt dieser Reihe mit sich selbst ist für n ∈ N gegeben durch n n X X (−1)k (−1)n−k 1 n √ p cn := ·√ . = (−1) n−k+1 k+1 (k + 1)(n − k + 1) k=0 k=0 Sind n, k ∈ N mit 0 ≤ k ≤ n, so haben wir (k + 1)(n − k + 1) = d.h. |cn | = n 2 +1− n X 2 −k n n · +1+ −k 2 2 n 2 n 2 n 2 = +1 − −k ≤ +1 , 2 2 2 1 p k=0 n (k + 1)(n − k + 1) ≥ n X n k=0 2 2(n + 1) 1 = n+2 +1 und somit ist (cn )n∈N nicht einmal eine Nullfolge. Eine letzte überraschende Tatsache wollen wir hier noch festhalten, aber nicht beweisen. Wie gesehen kann das Cauchyprodukt zweier konvergenter Reihen divergent sein, wenn es aber konvergent ist, so muss es immer gegen den richtigen Wert, also das Produkt der beiden Ausgangsreihen, konvergieren. $Id: lgs.tex,v 1.8 2011/07/14 18:23:18 hk Exp $ §8 Lineare Gleichungssysteme Definition 8.1: Ein lineares Gleichungssystem besteht aus m linearen Gleichungen a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm für die gesuchten n Unbekannten x1 , . . . , xn . Dabei sind die sogenannten Koeffizienten aij und die rechten Seiten bj reelle oder komplexe Zahlen, und auch die Variablen x1 , . . . , xn können reell oder komplex sein. Je nachdem ob reelle oder komplexe Zahlen vorliegen, sprechen wir von einem linearen Gleichunssystem über R oder über C. Lineare Gleichungssysteme kommen in vielen verschiedenen Kontexten vor, und wir wollen jetzt beispielhaft einige dieser Situationen vorstellen. 134 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 1. Angenommen wir haben eine Ebene e und eine Gerade l im dreidimensionalen Raum. Die Ebene sei durch einen Aufpunkt p und zwei Richtungsvektoren u, v gegeben, also e = {p + tu + sv|t, s ∈ R}. Entsprechend sei die Gerade durch einen Aufpunkt q und einen Richtungsvektor w gegeben, also l = {q + tw|t ∈ R}. Wir wollen den Durchschnitt e ∩ l berechnen. Ein Punkt x liegt genau dann in e und l wenn es reelle Zahlen t, s, r ∈ R mit x = p + tu + sv und x = q + rw gibt. zur Bestimmung dieser Punkte x müssen wir also alle Lösungen der Gleichung p + tu + sv = q + rw in den Variablen t, s, r ∈ R finden. Schreiben wir die obige Gleichung für die einzelnen Komponenten hin, und machen eine kleine Umstellung, so ergibt sich das lineare Gleichungssystem u1 t + v1 s − w1 r = q1 − p1 u2 t + v2 s − w2 r = q2 − p2 u3 t + v3 s − w3 r = q3 − p3 aus drei Gleichungen in drei Unbekannten. Es gibt natürlich besere Rechenwege zur Bestimmung von e ∩ l, etwa durch Umformung von e in die Hessesche Normalform, aber uns geht es hier um das lineare Gleichungssystem und nicht um die konkrete Aufgabe. 2. Als ein ähnliches Problem denken wir uns diesmal gleich zwei Ebenen e1 , e2 im dreidimensionalen Raum gegeben, und für i = 1, 2 sei die Ebene ei durch einen Aufpunkt pi und zwei Richtungsvektoren ui , vi gegeben. Zur Berechnung des Schnitts e1 ∩ e2 müssen wir diesmal die Gleichung p1 + au1 + bv1 = p2 + cu2 + dv2 in den vier Variablen a, b, c, d ∈ R lösen. Ausgeschrieben und etwas umgestellt ergibt sich das lineare Gleichungssystem u11 a + v11 b − u21 c − v21 d = p21 − p11 u12 a + v12 b − u22 c − v22 d = p22 − p12 u13 a + v13 b − u23 c − v23 d = p23 − p13 aus drei Gleichungen in vier Unbekannten. Auch hier gibt es bessere Rechenwege. 3. Lineare Gleichungssysteme entstehen auch bei der numerischen Lösung von Differentialgleichungen. Angenommen wir haben ein zu berechnendes Skalarfeld u auf dem Würfel [0, 10]3 , also anders gesagt eine Funktion u : [0, 10]3 → R. Dabei 135 Mathematik für Physiker I, WS 2010/2011 Freitag 17.12.2010 sei u durch eine Differentialgleichung, also durch eine Gleichung in den Ableitungen der Funktion u, und zusätzliche Randbedingungen gegeben. Ein Ansatz zum numerischen Rechnen ist es den Würfel durch ein diskretes Gitter zu ersetzen, etwa indem das Intervall [0, 10] in jeder der drei Dimensionen mit einer festen Schrittweite unterteilt wird. Um die Funktion u auf den Gitterpunkten zu berechnen, nähert man alle Ableitungen durch gewissen Differenzenquotienten in der gewählten Schrittweite an und ersetzt die Differentialgleichung näherungsweise durch ein lineares Gleichungssystem. Dieses Gleichungssystem hat dann eine Gleichung und eine Unbekannte für jeden Gitterpunkt. Hierbei kommt man sehr schnell auf recht große lineare Gleichungssysteme, haben wir etwa die Schrittweite h = 0, 1, so wird das Intervall [0, 10] in 100 Teile zerlegt und wir haben 1003 = 1000000 Gleichungen in ebensovielen Unbekannten. 4. Als ein letztes Beispiel eines linearen Gleichungssystems wollen wir den sogenannten Pagerang einer Seite im WWW besprechen. Der Pagerang ist eine positive Zahl die die Relevanz der fraglichen Seite messen soll. Wir denken uns alle Seiten im Netz als S1 , . . . , Sn durchnumeriert, dabei ist n eine recht grosse Zahl. Jeder Seite Si soll ein Pagerang P (Si ) > 0 zugeordnet werden. Dabei soll sich die Relevanz der Seite daraus ergeben wieviele andere Seiten einen Link auf sie haben. Schreiben wir für jedes 1 ≤ i ≤ n Bi := {1 ≤ j ≤ n|j 6= i und es gibt einen Link von Seite Sj nach Seite Si } für die Menge aller Seiten die einen Link nach Si haben, so soll sich P (Si ) also aus Bi ergeben. Wir wollen aber nicht einfach die Anzahl aller Links nach Si zählen, Links die von wichtigen Seiten kommen sollten mehr zählen als solche die von unwichtigen Seiten kommen. Welche Seite dabei wichtig ist, wird wiederum durch deren Pagerang beschrieben. Man könnte also daran denken als Pagerang von Si die Summe alle Ränge der nach Si linkenden Seiten zu nehmen. Das ist aber auch problematisch, haben wir etwa eine wichtige Seite Sj in Bi die nur auf wenige andere Seiten verlinkt, so sollte dieser Link mehr zählen als ein Link von einer ebenso wichtigen Seite Sk ∈ Bi die auf sehr viele andere Seiten verweist. Hierzu betrachtet man die Bedeutung eines von der Seite Sj ausgehenden Links relativ zur Gesamtzahl Lj := Anzahl aller von Sj ausgehenden Links aller Links von Sj . Dabei werden mehrfache Links auf dieselbe Seite nur einmal gezählt und Links von Sj auf sich selbst werden ignoriert. Hat Seite Sj dann den Pagerang P (Sj ), so soll jeder von Sj ausgehende Link die Wichtigkeit“ P (Sj )/Lj ” auf sein Ziel übertragen. Um dann den Pagerang von Si zu ermitteln summieren wir diese Wichtigkeiten alle auf, also P (Si ) = X P (Sj ) . Lj j∈B i 136 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 So weit so gut, nur ist das leider keine Definition. Haben wir etwa kreisförmig angeordnete Links S1 → S2 → S3 → S4 → S1 , so hängt P (S1 ) von P (S4 ) ab, was wiederum von P (S3 ) abhängt, dieses hängt von P (S2 ) ab, und P (S2 ) hängt schließlich wieder von P (S1 ) ab. Trotzdem funktioniert alles, man muss sich die obige Formel nur nicht als eine Definition sondern als eine Gleichung denken. Schreiben wir die Formel zu X 1 P (Si ) − P (Sj ) = 0 L j j∈B i um, so haben wir damit ein lineares Gleichungssystem in den n Unbekannten P (S1 ), . . . , P (Sn ) und ebenso vielen Gleichungen. Das ist noch nicht ganz das Gleichungssystem das wirklich verwendet wird, aber es kommt nur noch eine kleine Modifikation hinzu. Das dann entstehende lineare Gleichungssystem hat eine bis auf eine willkürliche Normierung eindeutige Lösung und in dieser sind alle P (Si ) tatsächlich positiv. Vorlesung 16, Montag 20.12.2010 In der letzten Sitzung hatten wir mit der Besprechung linearer Gleichungssysteme a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm begonnen, und hatten beispielhaft einige Situationen vorgestellt, in denen diese vorkommen. Bevor wir an die Lösung linearer Gleichungssysteme gehen, ist es hilfreich eine kompakte Schreibweise für diese einzuführen. Definition 8.2: Eine m × n Matrix A über K ∈ {R, C} ist ein rechteckiges Schema a11 · · · a1n .. A = ... . am1 · · · amn bestehend aus m Zeilen von je n Elementen von K. Ist dabei m = n, so spricht man auch von einer quadratischen Matrix. Wir können jetzt ein lineares Gleichungssystem wie unser obiges (∗) als eine Matrix schreiben, indem nur noch die Koeffizienten und die rechte Seite des Systems hingeschrieben werden. Hierbei gehen die Bezeichungen der Unbekannten verloren, aber diese spielen innerhalb der Rechnungen sowieso keine Rolle. 137 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 Definition 8.3: Sei (∗) das lineare Gleichungssystem aus Definition 1. Dann nennt man die Matrix a11 · · · a1n .. A = ... . am1 · · · amn die Koeffizientenmatrix des linearen Gleichungssystems (∗). Weiter heißt die Matrix a11 · · · a1n b1 .. .. A0 = ... . . am1 · · · amn bm die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (∗). Gelegentlich wird die rechte Seite des Gleichungssystems in der erweiterten Koeffizientenmatrix durch einen senkrechten Strich von den Koeffizienten getrennt, also a11 · · · a1n b1 .. .. .. , . . . am1 · · · amn bm dies hat dann aber keine inhaltliche Bedeutung, sondern dient nur der Optik. Wir wollen uns jetzt auch noch ein erstes konkretes Beispiel eines linearen Gleichungssystems anschauen, nämlich das folgende System von vier Gleichungen in vier Unbekannten: x + 2y − u + v = 1 x + 2y + u − v = −3 −x + 2y + 3u − v = 1 3x − u = 0 Koeffizientenmatrix A und erweiterte Koeffizientenmatrix A0 dieses Gleichungssystems entstehen dann indem wir alle redundanten Symbole, also Plus/Minus-Zeichen, Gleichheitszeichen und Unbekannte weglassen, sie sind also die 4 × 4 beziehungsweise 4 × 5 Matrix 1 2 −1 1 1 2 −1 1 1 1 2 1 −1 1 −1 −3 , A0 = 1 2 . A= −1 2 −1 2 3 −1 3 −1 1 3 0 −1 0 3 0 −1 0 0 Auf einige Randfälle wollen wir besonders hinweisen: 1. Einzeln stehende Variablen werden in der Koeffizientenmatrix zu 1“, da bei” spielsweise das x“ in der ersten Gleichung als 1 · x gelesen werden kann. ” 2. Subtraktionen im Gleichungssystem werden als Addition mit dem entsprechenden negativen Vielfachen aufgefasst, so wird beispielsweise das −u“ in der ersten ” Gleichung zu −1“ in der Koeffizientenmatrix. ” 138 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 3. Nicht vorkommende Variablen in einer der Gleichungen denken wir uns als Null mal die entsprechende Variable dazu, beispielsweise führt das fehlende y in der vierten Gleichung in der Koeffizientenmatrix zu einer 0“ in der zweiten Spalte ” der vierten Zeile. Wie in diesem Beispiel zu sehen, müssen die Unbekannten nicht x1 , . . . , xn heißen, für höchstens drei Unbekannte nennen wir diese meist x, y, z und für vier Unbekannte werden wir meistens x, y, u, v als Variablennamen verwenden. Sehr kleine lineare Gleichungssysteme mit n = 2 oder n = 3 Unbekannten kann man einfach durch schrittweises Eliminieren der Unbekannten lösen, sind die Unbekannten etwa x, y und haben wir zwei Gleichungen, so nehmen wir eine der beiden Gleichungen um y durch x auszudrücken, setzen das Ergebnis für y in die andere Gleichung ein, lösen diese nach x auf, und berechnen hieraus schließlich y. Dieses Verfahren wird aber schon ab n = 4 Unbekannten unpraktisch. Das Gleichungssystem im obigen Beispiel wäre noch gerade ausreichend klein um direkt durch schrittweises Eliminieren der Unbekannten gelöst zu werden, wir wollen aber lieber ein systematisches, allgemein verwendbares, Lösungsverfahren haben. Als ein solches werden wir das sogenannte Gaußsche Elimi” nationsverfahren“ verwenden. Dieses Verfahren beruht darauf ein gegebenes lineares Gleichungssystem von allgemeiner Form in ein äquivalentes System von sehr spezieller Gestalt umzuformen. Diese speziellen linearen Gleichungssysteme sind die linearen Gleichungssysteme die in der sogenannten Stufenform“ vorliegen: ” a11 x1 + · · · + a1i xi + · · · + a1j xj + · · · = b1 a2i xi + · · · + a2j xj + · · · = b2 a3j xj + · · · = b3 .. . . = .. mit a11 6= 0, a2i 6= 0, a3j 6= 0 und so weiter. In jeder Gleichung kommen also von links gesehen immer weniger der Unbekannten vor. Ein konkretes Beispiel für ein solches Gleichungssystem mit m = 2 Gleichungen und n = 4 Unbekannten ist x+y + u−v = 1 u + v = 2, hier haben wir die beiden unterstrichenen Stufen der Länge 2. Wir lösen ein System in Stufenform indem wir von unten nach oben gehend jeweils eine Gleichung benutzen, die in dieser Gleichung am weitesten links stehende Variable mit von Null verschiedenen Koeffizienten festzulegen. In anderen Worten benutzen wir für die Systeme in Stufenform eine einfache, schrittweise Elimination von Variablen, bei Systemen in Stufenform ist diese aber wesentlich einfacher als für ein allgemeines lineares Gleichungssystem, da von jedem Einsetzungsschritt immer nur Variablen weiter rechts betroffen sind. Im Beispiel ergibt die zweite Gleichung u = 2 − v und die Variable u ist festgelegt. An die andere Variable sind keine Bedingungen gestellt. Setzen wir u = 2 − v in die erste Gleichung ein, so wird diese zu x + y + 2 − v − v = 1, also x = −1 − y + 2v, 139 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 d.h. durch diese Gleichung wird x festgelegt und an y gibt es keine Bedingungen. Für die Lösungsmenge ist es nun praktisch, die frei gebliebenen Variablen y und v in t und s umzutaufen. Die Lösungsmenge ist dann 1 − s + 2t s s, t ∈ R . 2 − t t Der Einfachheit halber schreiben wir die Lösungen dabei als einen Spaltenvektor, also als eine 4 × 1 Matrix, dessen vier Einträge von oben nach unten für x, y, u, v stehen. Weiter haben wir das lineare Gleichungssystem über K = R interpretiert, wollen wir es als ein komplexes Gleichungssystem auffassen, so muss t, s ∈ R“ durch t, s ∈ C“ ” ” ersetzt werden. In einem linearen Gleichungssystem aus r Gleichungen in n Variablen das in Stufenform vorliegt, wird die Lösungsmenge durch n−r freie Variablen beschrieben, die die restlichen r Variablen festlegen. Wenn n = m = r ist, es also keine langen Stufen im System gibt, so ist die Lösung eindeutig. Lange Stufen sind dabei solche, die zwei oder mehr Unbekannte umfassen. Nehmen wir beispielsweise x + 2y − u + v 4y + 2u 2u − 2v 2v = 1 = 2 = −4 = 10 so liefert die vierte Gleichung v = 5, damit wird die dritte zu 2u − 10 = −4, also u = 3, die zweite Gleichung ergibt 4y + 6 = 2, also y = −1 und schließlich mit der ersten Gleichung auch x − 2 − 3 + 5 = 1, also x = 1. Die Lösung von Systemen in Stufenform ist also völlig unproblematisch und zwar sowohl wenn die Lösung eindeutig ist als auch wenn es mehrere Lösungen gibt. Ein allgemeines lineares Gleichungssystem wollen wir lösen, indem wir es in ein äquivalentes System in Stufenform umwandeln. Hierzu verwenden wir die folgenden drei elementaren Transformationen eines linearen Gleichungssystems: 1. Vertauschen zweier Gleichungen. 2. Multiplikation einer der Gleichungen mit einer Zahl c 6= 0. 3. Addition eines Vielfachen einer Gleichung zu einer anderen Gleichung. Offenbar verändert keine dieser drei Transformationen die Lösungsmenge des linearen Gleichungssystems. Die Operation (2) wird dabei nicht wirklich benötigt, wir können sie beispielsweise dazu benutzen in der Stufenform zusätzlich a11 = a2i = a3j = · · · = 1 anzunehmen, was gelegentlich bequem ist. In Termen der erweiterten Koeffizientenmatrix werden diese drei Operationen zu 1. Vertauschen zweier Zeilen. 140 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 2. Multiplikation einer Zeile mit einer Zahl c 6= 0. 3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile. Diese drei Transformationen einer Matrix werden auch als elementare Zeilenumformungen bezeichnet. Das schon angekündigte Gaußsche Eliminationsverfahren, oft auch als Gauß-Algorithmus bezeichnet, wendet diese drei elementaren Umformungen systematisch auf ein gegebenes lineares Gleichungssystem an, um es in ein System in Stufenform zu überführen. Wir wollen das Eliminationsverfahren zunächst am obigen Beispiel des linearen Gleichungssystems mit der erweiterten Koeffizientenmatrix 1 1 −1 3 2 −1 1 1 2 1 −1 −3 2 3 −1 1 0 −1 0 0 durchführen. Das Verfahren startet hier indem wir Vielfache der ersten Zeile zu den anderen drei Zeilen addieren, und zwar so, dass der neue Eintrag in der ersten Spalte dieser drei Gleichungen zu Null wird. Ziehen wir die erste Zeile von der zweiten ab, so erhalten wir ganz links in der zweiten Zeile tatsächlich eine Null. Beachte dabei das ein Abziehen der ersten Zeile von der zweiten auch als Addition des (−1)-fachen der ersten Zeile zur zweiten gedeutet werden kann. Entsprechend müssen wir die erste Zeile zur dritten Zeile addieren, und das dreifache der ersten Zeile von der vierten Zeile abziehen. Mit diesen drei elementaren Zeilenumformungen wird unsere erweiterte Koeffizientenmatrix zu 1 2 −1 1 1 1 2 −1 1 1 1 2 1 −1 −3 0 2 −2 −4 −→ 0 . −1 2 0 3 −1 1 4 2 0 2 3 0 −1 0 0 0 −6 2 −3 −3 Damit sind wir der Stufenform ein Stück näher gekommen. Nun würden wir gerne mit der zweiten Zeile so fortfahren, also Vielfache der zweiten Zeile zur dritten und vierten addieren so, dass wir in der dritten und vierten Zeile zwei führende Nullen bekommen. Leider geht dies nicht sofort, da der zweite Eintrag der zweiten Zeile ja selbst eine Null ist. Dies können wir aber leicht beheben, wir benutzen die erste unserer elementaren Zeilenumformungen um die zweite und die dritte Zeile der Matrix miteinander zu vertauschen 1 2 −1 1 1 1 2 −1 1 1 0 0 2 −2 −4 4 2 0 2 −→ 0 . 0 0 4 2 0 2 0 2 −2 −4 0 −6 2 −3 −3 0 −6 2 −3 −3 141 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 Danach kann es weitergehen, um auch der vierten Zeile eine zweite Null zu geben, muss nur noch das 3/2-fache der zweiten Zeile zur vierten addiert werden 1 2 −1 1 1 1 2 −1 1 1 0 2 0 2 4 2 0 2 . −→ 0 4 0 0 0 2 −2 −4 0 2 −2 −4 0 0 5 −3 0 0 −6 2 −3 −3 Damit ist die Stufenform schon beinahe erreicht. Wir müssen nur noch als letzten Schritt das 5/2-fache der dritten Zeile von der vierten abziehen und erhalten 1 2 −1 1 1 1 2 −1 1 1 0 4 2 0 2 2 0 2 . −→ 0 4 0 0 0 0 2 −2 −4 2 −2 −4 0 0 0 2 10 0 0 5 −3 0 Damit haben wir unser lineares Gleichungssystem in Stufenform gebracht. Tatsächlich ist das erhaltene System in Stufenform gerade x + 2y − u + v 4y + 2u 2u − 2v 2v = 1 = 2 = −4 = 10 und dies war unser zweites Beispiel eines linearen Gleichungssystems in Stufenform. Die eindeutige Lösung dieses Gleichungssystems hatten wir bereits als x = 1, y = −1, u = 3, v = 5 berechnet. Wir wollen nun noch ein zweites Beispiel durchrechnen. Wir betrachten das folgende lineare Gleichungssystem x + y + z=1 2x − y + 3z = 0 5x − y + 7z = b. wobei b ∈ R eine Konstante ist. Hier beginnt das Eliminationsverfahren, indem wir das doppelte der ersten Zeile von der zweiten Zeile abziehen und anschließend das fünffache der ersten Zeile von der dritten Zeile abziehen 1 1 1 1 1 1 1 1 2 −1 3 0 −→ 0 −3 1 −2 . 5 −1 7 1 0 −6 2 b − 5 Jetzt wird das doppelte der zweiten Zeile von der dritten Zeile abgezogen, und es entsteht 1 1 1 1 1 1 1 1 0 −3 1 −2 −→ 0 −3 1 −2 . 0 −6 2 b − 5 0 0 0 b−1 142 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 Die unterste Zeile der Koeffizientenmatrix besteht jetzt nur noch aus Nullen, und die Elimination ist beendet. Was jetzt passiert hängt von der Konstanten b ab. Ist b − 1 6= 0, also b 6= 1, so ist die unterste Gleichung nicht erfüllbar, denn diese bedeutet ausgeschrieben ja 0 · x + 0 · y + 0 · z = b − 1 6= 0. Das lineare Gleichungssystem hat in diesem Fall also keine Lösung. Dass ein lineares Gleichungssystem nicht lösbar sein muss, sollte keine Überraschung sein, wir hatten als ein Beispiel zu Beginn dieses Kapitels den Schnitt einer Ebene mit einer Gerade als lineares Gleichungssystem ausgedrückt, und ist die Gerade zufällig parallel zur Ebene, so hat dieses System halt keine Lösung. Ist im Beispiel dagegen b = 1, so können wir die unterste Zeile ignorieren, diese besagt ja nur noch 0 = 0, und haben ein System in Stufenform. Die untere Zeile des verkleinerten Systems gibt dann 1 2 −3y + z = −2 =⇒ y = z + 3 3 also eingesetzt in die erste Gleichung 1 4 − z. 3 3 In der Beschreibung der Lösungsmenge verwenden wir diesmal z = 3t mit t ∈ R und haben 1 3 − 4t 2 + t t ∈ R 3 3t x=1−y−z = als die Lösungsmenge des linearen Gleichungssystems. Das Gaußsche Eliminationsverfahren für ein lineares Gleichungssystem aus m Gleichungen in n Variablen läuft damit prinzipiell in drei Phasen ab: 1. Bringe das gegebene lineare Gleichungssystem von oben beginnend in Stufenform indem die Einträge der weiter unten liegenden Zeilen in der gerade betrachteten Spalte durch Addition geeigneter Vielfacher der oberen Zeile auf Null gebracht werden. 2. In der Koeffizientenmatrix des so entstandenen linearen Gleichungssystems seien die ersten r ≤ m Zeilen von Null verschieden. Es gibt zwei verschiedene Möglichkeiten: (a) Ist r < m, sind also unten in der Koeffizientenmatrix nur aus Nullen bestehende Zeilen entstanden, und ist die rechte Seite einer dieser Nullzeilen von Null verschieden, so hat das lineare Gleichungssystem keine Lösung. In diesem Fall sind wir an dieser Stelle fertig. (b) Andernfalls ist entweder r = m oder in jeder Nullzeile ist auch die rechte Seite Null. Dann ignorieren wir die unteren m − r Zeilen und erhalten ein lineares Gleichungssystem aus r Gleichungen in n Unbekannten das in Stufenform ist. In diesem Fall ist unser Gleichungssystem auf jeden Fall lösbar. 143 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 3. Löse das entstandene lineare Gleichungssystem in Stufenform von unter her, indem jede der verbliebenen Gleichungen eine der Unbekannten festlegt, und eventuell verbleibende Unbekannte als freie Parameter behandelt werden. Für r = n haben wir eine eindeutige Lösung und für r < n eine Lösungsmenge, die durch n − r Parameter beschrieben wird. In dieser Form ist das Eliminationsverfahren für die manuelle Bearbeitung linearer Gleichungssysteme moderater Größe geeignet. Außerdem wird es sich für die theoretische Untersuchung linearer Gleichungssysteme völlig beliebiger Größe als günstig erweisen. Zur Implementation auf einem Rechner ist die hier angegebene Form noch etwas ungünstig, da Rundungsfehler sich noch unnötig stark auswirken können. Wie man dies vermeiden kann, ist ein Thema der Numerik und soll hier nicht behandelt werden. Ebenfalls nicht geeignet ist das Verfahren für große“ Systeme, wie etwa diejenigen ” die durch Diskretisierung von Differentialgleichungen entstehen, oder die PagerangGleichung. $Id: matrix.tex,v 1.8 2011/07/14 18:23:35 hk Exp $ §9 Matrizen über R und C In §8 hatten wir Matrizen nur als eine kompakte Schreibweise für lineare Gleichungssysteme eingeführt. In diesem Kapitel wollen wir die Matrizen in ihren Status etwas aufwerten, und diverse Möglichkeiten einführen mit ihnen zu rechnen. Zunächst brauchen wir eine Bezeichnung für die Menge aller Matrizen einer gegebenen Größe. Definition 9.1: Seien K ∈ {R, C} und n, m ∈ N mit n, m ≥ 1. Dann bezeichne K m×n die Menge aller m × n Matrizen über K, also aller Matrizen bestehend aus m Zeilen und n Spalten mit Einträgen aus K. Jede reelle Matrix ist natürlich insbesondere eine komplexe Matrix, also Rm×n ⊆ Cm×n und man kann komplexe Matrizen als den allgemeinen Fall auffassen. Manchmal ist es technisch bequem auch m = 0 oder n = 0 zuzulassen, dann wird die Menge K m×n als {0} interpretiert. Weiter nennt man 1 × n Matrizen auch Zeilenvektoren und m × 1 Matrizen werden Spaltenvektoren genannt. Wir werden zwischen diesen beiden meistens keinen Unterschied machen. Sowohl für die Menge K n := K 1×n aller Zeilenvektoren der Länge n als auch für die Menge K m := K m×1 aller Spaltenvektoren der Länge m verwenden wir dasselbe Symbol. Dies ist normalerweise unproblematisch. 9.1 Addition und Multiplikation von Matrizen Die beiden einfachsten Operationen sind die Addition von Matrizen derselben Größe und die Multiplikation mit reellen beziehungsweise komplexen Zahlen. In diesem Zu144 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 sammenhang nennt man letztere oft auch Skalare“. ” Definition 9.2: Sei K ∈ {R, C} und seien n, m ∈ N\{0}. Sind dann A, B zwei m × n Matrizen b11 · · · b1n a11 · · · a1n .. .. , B = .. A = ... . . . bm1 · · · bmn am1 · · · amn so definieren wir die Summe A + B von A und B als a11 + b11 · · · a1n + b1n .. .. A + B := . . . am1 + bm1 · · · amn + bmn Sind weiter c ∈ K ein Skalar und A ∈ K m×n wieder die obige Matrix, so definieren wir das Vielfache c · A durch ca11 · · · ca1n a11 · · · a1n .. := .. .. . c · A = c · ... . . . am1 · · · amn cam1 · · · camn Insbesondere sind die Summen von Zeilen- beziehungsweise Spaltenvektoren gleicher Größe und Produkte von Skalaren mit Zeilen- beziehungsweise Spaltenvektoren definiert. Mit dieser Addition beziehungsweise Multiplikation mit Skalaren haben wir dann die folgenden Rechenregeln: 1. Assoziativgesetz der Addition Für alle m×n Matrizen A, B, C gilt (A+B)+ C = A + (B + C). 2. Kommutativgesetz der Addition Für alle m × n Matrizen A, B gilt A + B = B + A. 3. Existenz des neutralen Elements der Addition Ist 0 ∈ K m×n die Nullmatrix, deren Einträge alle Null sind, so gilt 0 + A = A für jede m × n Matrix A. 4. Existenz additiver Inverser Sind A eine m × n Matrix so gilt (−A) + A = 0 wobei −A := (−1) · A ist. Beachte das wir die Nullmatrix unabhängig von ihrer Größe einfach als 0“ schreiben. ” Diese vier Rechenregeln entsprechen den sich auf die Addition beziehenden ersten vier Körperaxiomen (A1) bis (A4) aus §4.1. Es gibt jetzt einige weitere Rechenregeln über die Multiplikation mit Skalaren und deren Zusammenhang mit der Addition. 1. Assoziativgesetz für die Multiplikation mit Skalaren Für alle Zahlen t, s ∈ K und alle m × n Matrizen A über K gilt (ts) · A = t · (s · A). 145 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 2. Eins Für jede m × n Matrix A über K ist 1 · A = A. 3. Distributivgesetze Für alle m × n Matrizen A, B ∈ K m×n und alle Zahlen t, s ∈ K gelten (t + s) · A = t · A + s · A und t · (A + B) = t · A + t · B. Beachte das wir all diese Regeln insbesondere auch auf Zeilen- und Spaltenvektoren anwenden können. Auf explizite Beweise dieser Regeln wollen wir hier verzichten, sie sind allesamt trivial da einfach in jeder Komponente das jeweilige Körperaxiom für R oder C angewandt wird. Man kann Matrizen passender Größe auch miteinander multiplizieren, allerdings wird hierzu nicht die zunächst naheliegende komponentenweise Multiplikation verwendet. Warum die Matrixmultiplikation genau wie folgt definiert ist, und auch genau so definiert werden muss, werden wir erst später im Zusammenhang mit den sogenannten linearen Abbildungen sehen. Definition 9.3: Seien n, m, l ∈ N\{0}. Sind dann A eine m × l Matrix und B eine l × n Matrix jeweils über K ∈ {R, C} b11 · · · b1n a11 · · · a1l .. , B = .. .. , A = ... . . . am1 · · · aml bl1 · · · bln so ist das Produkt c11 · · · c1n .. C := A · B = ... . cm1 · · · cmn die m×n Matrix C, deren Eintrag cij in der i-ten Zeile und der j-ten Spalte (1 ≤ i ≤ m, 1 ≤ j ≤ n) durch l X cij := aik bkj = ai1 b1j + · · · + ail blj k=1 definiert ist. Zwei Matrizen A, B können also nur dann multipliziert werden, wenn die linke Matrix A genausoviele Spalten hat wie die rechte Matrix B Zeilen hat. Die Formel zur Multiplikation zweier Matrizen sieht zunächst etwas bedrohlich aus, ist in Wahrheit aber sehr einfach. Wir wollen einmal ein kleines Beispiel anschauen, betrachte etwa die beiden Matrizen 1 1 0 1 1 −1 1 0 . A= , B= 0 0 1 −2 3 1 1 2 0 −1 Hier sind A eine 2 × 3 und B eine 3 × 4 Matrix, d.h. A und B können multipliziert werden und ihr Produkt ist eine 2 × 4 Matrix. Wie sieht die erste Zeile des Produktes A · B aus? Die Formel für den allerersten Eintrag dieser Zeile lautet c11 = a11 b11 + a12 b21 + a13 b31 = 1 · 1 + (−1) · 0 + 1 · 1 = 2. 146 Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 Übersichtlicher wird dies wenn wir uns die erste Zeile von A zu einer Spalte gedreht denken und diese der ersten Spalte von B gegenüberstellen 1 −1 1 1 0 1. Gegenüberliegende Zahlen werden dann miteinander multipliziert, und anschließend wird alles aufaddiert. Der zweite Eintrag der ersten Zeile ergibt sich dann ebenso, nur taucht diesmal auf der rechten Seite die zweite Spalte von B auf, also 1 −1 1 1 0 2, und wir erhalten c12 = 1 + 0 + 2 = 3. Die restlichen Einträge der ersten Zeile von A · B ergeben sich analog. Gehen wir dann zur zweiten Zeile des Produkts über, so müssen wir uns die zweite Zeile der linken Matrix A gedreht denken und stellen diese den Spalten von B gegenüber, also etwa für den Eintrag in der ersten Spalte der zweiten Zeile von A · B −2 1 0 3 1 1. So fortfahrend haben wir dann insgesamt 1 1 0 1 2 3 −1 0 1 −1 1 0 = . · 0 0 1 −1 0 3 −3 −2 3 1 1 2 0 −1 Wir wollen nun einige der Rechenregeln für die Matrixmultiplikation festhalten. Dabei sollen alle vorkommenden Matrizen über den reellen oder den komplexen Zahlen definiert sein. Lemma 9.1 (Rechenregeln für Matrizen) Seien n, m, p, q ∈ N\{0}. (a) Assoziativgesetz Sind A eine m × p, B eine p × q und C eine q × n Matrix, so gilt (A · B) · C = A · (B · C). (b) Einheitsmatrizen Ist 0 ··· 1 1 ··· .. . . . .. En := = . . 1 0 0 ··· 0 0 ··· {z | 1 0 .. . n Spalten 147 n Zeilen 1 0 0 1 } 0 0 .. . 0 0 .. . Mathematik für Physiker I, WS 2010/2011 Montag 20.12.2010 die sogenannte n × n Einheitsmatrix, so gelten für jede m × n Matrix A die Gleichungen A · En = A und Em · A = A. (c) Distributivgesetze Sind A eine m × p Matrix und B, C zwei p × n Matrizen, so gilt A · (B + C) = A · B + A · C. Sind ebenso A, B zwei m × p Matrizen und C eine p × n Matrix, so gilt (A + B) · C = A · C + B · C. (d) Multiplikation mit Skalaren Sind A eine m × p Matrix, B eine p × n Matrix und c ∈ K ein Zahl, so gilt (cA) · B = A · (cB) = c · (A · B). Beweis: Wir wollen hier nur das Assoziativgesetz exemplarisch vorrechnen, die anderen drei Regeln können Sie sich selbst einmal als zusätzliche Übungsaufgaben vornehmen. Seien also A, B, C wie in (a) gegeben. Die beiden Produkte (AB)C und A(BC) sind dann zwei m × n Matrizen. Für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n ergibt sich der Eintrag von (AB)C in der i-ten Zeile und der j-ten Spalte als ! q p q X X X X Ail Blk Ckj . Ail Blk Ckj = (AB)ik Ckj = ((AB)C)ij = k=1 k=1 1≤l≤p 1≤k≤q l=1 Auf der anderen Seite haben wir ebenfalls (A(BC))ij = p X l=1 Ail (BC)lj = p X Ail q X ! Blk Ckj k=1 l=1 = X Ail Blk Ckj . 1≤l≤p 1≤k≤q Dies zeigt ((AB)C)ij = (A(BC))ij , und (a) ist bewiesen. Genauso wie wir für die Nullmatrix in jeder Größe einfach Null schreiben, werden wir auch die Einheitsmatrizen En unabhängig von ihrer Größe n einfach als 1“ schreiben. ” Wichtiger noch als die im Lemma aufgeführten Rechenregeln für die Multiplikation von Matrizen, ist es welche Rechenregeln hier nicht stehen. Zum einen ist die Multiplikation von Matrizen nicht kommutativ. Wir haben zum Beispiel 1 1 1 0 2 1 1 1 1 0 1 1 · = 6= = · . 0 1 1 1 1 1 1 2 1 1 0 1 Die Multiplikation verhält sich auch in einer anderen Hinsicht ungewöhnlich. Für reelle oder komplexe Zahlen x, y wissen wir das aus x · y = 0 stets x = 0 oder y = 0 folgt. Für Matrizen ist dies falsch, es gibt sogar von Null verschiedene Matrizen, deren Quadrat gleich Null ist. Beispielsweise gilt 2 0 1 0 1 0 1 = · = 0. 0 0 0 0 0 0 148 Mathematik für Physiker I, WS 2010/2011 9.2 Montag 10.1.2011 Transposition von Matrizen Vorlesung 17, Montag 10.1.2011 Im letzten Abschnitt hatten wir Addition und Multiplikation von Matrizen passender Größe, sowie die Multiplikation von Matrizen mit Skalaren, also mit reellen oder komplexen Zahlen, eingeführt. Es gibt noch eine weitere, etwas weniger wichtige, Grundrechenoperation für Matrizen, die sogenannte Transposition. Definition 9.4: Sei a11 · · · a1n .. .. A = ... . . am1 · · · amn eine m × n Matrix über K ∈ {R, C}. Die Transponierte At von A ist dann die n × m Matrix a11 · · · am1 .. , At := ... . . . . a1n · · · amn über K deren Zeilen gerade die Spalten von A sind. Beispielsweise ist 1 1 −1 0 2 −1 2 4 7 1 = 0 −3 −5 7 11 2 t 2 −3 4 −5 . 7 7 1 11 Auch die Matrixtransposition erfüllt einige einfache Rechenregeln: Lemma 9.2 (Rechenregeln für die Transposition) Seien K ∈ {R, C} und n, m, l ∈ N\{0} drei natürliche Zahlen. (a) Für jede m × n Matrix A über K gilt (At )t = A. (b) Sind A, B zwei m × n Matrizen über K, so gilt (A + B)t = At + B t . (c) Sind A eine m × n Matrix über K und c ∈ K eine Zahl, so gilt (cA)t = cAt . (d) Sind A eine m × l und B eine l × n Matrix über K, so gilt (AB)t = B t At . 149 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 Beweis: (a,b,c) Diese Aussagen sind klar. (d) Da B t eine n × l und At eine l × m Matrix sind, sind (AB)t und B t At beides n × m Matrizen. Für alle 1 ≤ i ≤ n, 1 ≤ j ≤ m ergibt sich der Eintrag in der i-ten Zeile und der j-ten Spalte zu t t (B A )ij = l X t Bik Atkj k=1 = l X Ajk Bki = (AB)ji = (AB)tij , k=1 d.h. es gilt tatsächlich (AB)t = B t At . 9.3 Lineare Gleichungssysteme als Matrixgleichung Was hat die Matrixmultiplikation nun mit linearen Gleichungssystemen zu tun? Um dies zu sehen, betrachten wir ein lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm und schreiben A für seine Koeffizientenmatrix sowie b1 b := ... bm für seine rechte Seite. Ist weiter x1 x := ... xn der Vektor der n Unbekannten, so können wir x auch als eine n×1 Matrix, also als einen Spaltenvektor, auffassen. Da A eine m × n Matrix ist, ist damit das Matrixprodukt Ax definiert und ergibt eine m × 1 Matrix, also einen Spaltenvektor mit m Einträgen. Diesen Vektor können wir auch leicht ausrechnen a11 x1 + · · · + a1n xn a11 · · · a1n x1 .. .. · .. = Ax = ... , . . . am1 x1 + · · · + amn xn am1 · · · amn xn die m Komponenten des Produkts Ax sind also gerade die linken Seiten unseres linearen Gleichungssystems. Damit kann das gesamte lineare Gleichungssystem (∗) als eine einzelne Matrixgleichung Ax = b 150 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 interpretiert werden. Wir wollen diese Interpretation nun verwenden, um einige einfache Beobachtungen über die Menge der Lösungen unseres linearen Gleichungssystems zu machen. Um diese auszusprechen ist eine weitere kleine Definition hilfreich. Definition 9.5: Das lineare Gleichungssystem (∗) heißt homogen, wenn b = 0 ist, d.h. wenn es die Form + · · · + a1n xn + · · · + a2n xn .. . = 0 = 0 .. . am1 x1 + am2 x2 + · · · + amn xn = 0 a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . hat. Ein homogenes lineares Gleichungssystem hat offenbar immer die Lösung x = 0, also x1 = . . . = xn = 0, die man als die triviale Lösung des linearen Gleichungssystems bezeichnet. Als das zum allgemeinen Gleichungssystem (∗), also Ax = b, gehörige homogene Gleichungssystem bezeichnet man das homogene lineare Gleichungssystem Ax = 0. Ein allgemeines lineares Gleichungssystem Ax = b bezeichnet man dann auch als inhomogen. Beachte das inhomogen“ nur für nicht notwendig homogen“ steht und ” ” nicht die Verneinung von homogen“ bedeutet. ” Satz 9.3 (Homogene und inhomogene Lösungen) Seien n, m ∈ N\{0} und A eine m × n Matrix. (a) Sind u, v ∈ K n zwei Lösungen des homogenen linearen Gleichungssystems Ax = 0 und c ∈ K eine Zahl, so sind auch u + v und cu Lösungen von Ax = 0. (b) Sei weiter b ∈ K m gegeben. Gibt es dann überhaupt eine Lösung x0 ∈ K n des linearen Gleichungssystems Ax = b, so ist {x0 + u|u ∈ K n , Au = 0} die volle Lösungsmenge von Ax = b, d.h. die Lösungen von Ax = b sind genau die Vektoren der Form x = x0 + u wobei u die Lösungen des zugehörigen homogenen linearen Gleichungssystems durchläuft. Beweis: (a) Aus Au = Av = 0 folgen nach Lemma 1.(c,d) auch A·(u+v) = Au+Av = 0 und A · (cu) = cAu = 0, d.h. auch u + v und cu sind Lösungen von Ax = 0. (b) Ist u eine Lösung des homogenen Systems, gilt also Au = 0, so haben wir nach Lemma 1.(c) auch A · (x0 + u) = Ax0 + Au = Ax0 = b, d.h. x = x0 + u ist eine Lösung von Ax = b. Nun sei umgekehrt x ∈ K n mit Ax = b gegeben. Dann setzen wir u := x − x0 ∈ K n und haben wieder nach Lemma 1.(c,d) auch Au = A · (x − x0 ) = Ax−Ax0 = b−b = 0. Also ist u eine Lösung des homogenen linearen Gleichungssystems und es gilt x = x0 + (x − x0 ) = x0 + u. 151 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 Hat also insbesondere das zugehörige homogene lineare Gleichungssystem nur die triviale Lösung, so ist das allgemeine lineare Gleichungssystem Ax = b für jede rechte Seite b ∈ K m entweder gar nicht lösbar oder eindeutig lösbar. Oft wird die Aussage (a) des Lemmas noch zum Superpositionsprinzip“ verallgemeinert: Sind x1 , . . . , xr ∈ K n ” Lösungen des homogenen linearen Gleichungssystem Ax = 0, und λ1 , . . . , λr ∈ K beliebige Skalare, so ist auch x = λ1 x 1 + · · · + λr x r ein Lösung von Ax = 0. Diese Lösung wird dann oft als eine Linearkombination“, ” beziehungsweise als Superposition“ oder Überlagerung“, der gegebenen Lösungen ” ” x1 , . . . , xr bezeichnet. Auch für Teil (b) gibt es eine oft zu findende Sprechweise. Die vorgegebene Lösung x0 von Ax = b bezeichnet man als eine spezielle Lösung, oder auch als eine Partikularlösung“, des linearen Gleichungssystems Ax = b und damit kann ” (b) als Allgemeine Lösung Spezielle Lösung Allgemeine Lösung = + von Ax = b von Ax = b von Ax = 0 ausgesprochen werden. 9.4 Inverse Matrizen und reguläre lineare Gleichungssysteme Schreiben wir ein lineares Gleichungssystem in der Form Ax = b, so ist es naheliegend dieses durch A auf die andere Seite bringen“ zu lösen, also mit so etwas wie 1/A zu ” multiplizieren, nur gibt es leider keine Quotienten von Matrizen im üblichen Sinne. So etwas läßt sich nur für eine spezielle Sorte von Matrizen einführen, die wir nun definieren wollen. Definition 9.6: Sei n ∈ N mit n ≥ 1. Eine n × n Matrix A über K ∈ {R, C} heißt invertierbar, oder auch regulär, wenn es eine n × n Matrix A−1 über K, genannt die Inverse von A, gibt so, dass A · A−1 = A−1 · A = 1 gelten. Beachte das wir hier A−1 statt 1/A schreiben. Die Bruchschreibweise ist für Matrizen in der Tat nicht sinnvoll. Wollten wir A/B definieren, so könnte dies A · B −1 oder B −1 · A bedeuten, und diese beiden Ausdrücke können durchaus verschieden sein, wir hatten ja bereits bemerkt das die Multiplikation von Matrizen nicht kommutativ ist. Können wir also A/B keine Bedeutung geben, so erscheint auch die Schreibweise 1/A als nicht sinnvoll. Für die Invertierbarkeit einer Matrix A ∈ K n×n reicht es bereits aus, dass es eine Matrix B ∈ K n×n mit AB = 1 oder BA = 1 gibt, eine der beiden Bedingungen in der Definition der inversen Matrix ist also redundant. Diese Tatsache ist etwas diffiziler als sie zunächst erscheint, man kann sie nicht einfach aus den Rechenregeln für Matrizen herleiten. Wir werden dies erst im nächsten Kapitel beweisen können. Beachte weiter, dass es zunächst sein könnte, das es zu einer invertierbaren Matrix A mehrere Matrizen A−1 gibt. Dies wollen wir nun ausschließen. 152 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 Lemma 9.4 (Grundeigenschaften des Invertierens) Seien n ∈ N mit n ≥ 1 und K ∈ {R, C}. (a) Ist A ∈ K n×n invertierbar, so gibt es genau eine Matrix A−1 ∈ K n×n mit AA−1 = A−1 A = 1. (b) Ist A ∈ K n×n invertierbar, so ist auch A−1 invertierbar mit (A−1 )−1 = A. (c) Sind A, B ∈ K n×n invertierbar, so ist auch A · B invertierbar mit (A · B)−1 = B −1 · A−1 . (d) Sind A ∈ K n×n invertierbar und c ∈ K\{0}, so ist auch cA invertierbar mit (cA)−1 = 1 · A−1 . c (e) Ist A ∈ K n×n invertierbar, so ist auch At invertierbar mit (At )−1 = (A−1 )t . (f ) Sind A ∈ K n×n eine beliebige n × n Matrix und B ∈ K n×n invertierbar, so ist A genau dann invertierbar wenn AB invertierbar ist und auch genau dann invertierbar wenn BA invertierbar ist. Beweis: (a) Sei B ∈ K n×n eine weitere Matrix mit AB = BA = 1. Dann haben wir B = 1 · B = (A−1 A)B = A−1 (AB) = A−1 · 1 = A−1 . (b) Klar. (c) Es gilt (AB) · (B −1 A−1 ) = A · (BB −1 )A−1 = AA−1 = 1, und analog folgt auch (B −1 A−1 )(AB) = 1. Damit ist AB invertierbar mit (AB)−1 = B −1 A−1 . (d) Mit Lemma 1.(d) rechnen wir (cA) · (c−1 A−1 ) = (c−1 cA) · A−1 = AA−1 = 1, und analog ist auch (c−1 A−1 ) · (cA) = 1. Damit ist cA invertierbar mit (cA)−1 = c−1 A−1 . (e) Mit Lemma 2.(d) erhalten wir At ((A−1 )t ) = (A−1 A)t = 1t = 1 und analog folgt auch ((A−1 )t )At = 1. Damit ist At invertierbar mit (At )−1 = (A−1 )t . (f ) Ist A invertierbar so ist nach (c) auch AB invertierbar. Ist umgekehrt AB invertierbar, so ist nach (c) und (b) auch A = (AB)B −1 invertierbar. Analog ist A auch genau dann invertierbar wenn BA invertierbar ist. Die Aussage (e) des Lemmas erlaubt es uns die Kombination aus Transponieren und Invertieren in einem Symbol A−t := (At )−1 = (A−1 )t zusammenzufassen, zumindest wenn A invertierbar ist. Wir wollen schon hier auf eine weitere kleine Tatsache hinweisen, in Aussage (f) muss die Invertierbarkeit von B gar 153 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 nicht vorausgesetzt werden, d.h. ist ein Produkt AB zweier n×n Matrizen invertierbar, so sind bereits beide Faktoren A, B einzeln invertierbar. Dies können wir an dieser Stelle aber noch nicht beweisen, und kommen erst im nächsten Kapitel hierauf zurück. Nun wenden wir den Begriff einer invertierbaren Matrix auf lineare Gleichungssysteme an. Definition 9.7: Ein quadratisches lineares Gleichungssystem + · · · + a1n xn + · · · + a2n xn .. . = b1 = b2 .. . am1 x1 + am2 x2 + · · · + amn xn = bm a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . heißt regulär, wenn seine Koeffizientenmatrix regulär, also invertierbar, ist. Die regulären linearen Gleichungssystem lassen sich immer eindeutig lösen, und zwar durch Multiplikation mit der inversen Matrix. Satz 9.5 (Reguläre lineare Gleichungssysteme) Ein reguläres lineares Gleichungssystem mit Koeffizientenmatrix A und rechter Seite b hat genau eine Lösung, nämlich x = A−1 b. Beweis: Wegen A · (A−1 b) = (AA−1 )b = 1 · b = b ist A−1 b eine Lösung des linearen Gleichungssystems Ax = b. Ist umgekehrt x ∈ K n mit Ax = b, so gilt auch x = 1 · x = (A−1 A)x = A−1 · (Ax) = A−1 b. Um diesen Satz zur Lösung linearer Gleichungssysteme zu verwenden, benötigen wir noch eine Methode die Inverse einer gegebenen Matrix tatsächlich zu berechnen, sofern sie überhaupt existiert. Wir wollen mit zwei häufig auftretenden Spezialfällen beginnen. Zunächst betrachten wir sogenannte Diagonalmatrizen, das sind quadratische Matrizen, die außerhalb der Hauptdiagonale keine von Null verschiedenen Einträge haben, also beispielsweise die Einheitsmatrizen En . Diese Diagonalmatrizen multiplizieren sich auf sehr einfache Weise λ1 µ1 λ 1 µ1 ... ... ... · = . λn µn λ n µn Sind also insbesondere λ1 , . . . , λn ∈ K\{0} alle von Null verschieden, so ist die zugehörige Diagonalmatrix invertierbar mit −1 λ1 ... = λn 154 1 λ1 ... 1 λn . Mathematik für Physiker I, WS 2010/2011 Ein weiterer gut folgende einfache a c Montag 10.1.2011 überschaubarer Fall sind 2 × 2 Matrizen. Wir haben nämlich die Rechnung b d −b ad − bc 0 · = = ad − bc, d −c a 0 ad − bc und ebenso ergibt sich dieses Ergebnis, wenn wir die beiden Matrizen in der anderen Reihenfolge multiplizieren. Damit haben wir die Äquivalenz a b ist invertierbar ⇐⇒ ad − bc 6= 0, c d und in diesem Fall ist a b c d −1 1 = ad − bc d −b −c a . Wir besprechen nun den Algorithmus zur Berechnung der Inversen einer allgemeinen n × n Matrix, und wollen diesen zugleich am Beispiel der Matrix 1 2 −1 1 1 2 1 −1 A= −1 2 3 −1 3 0 −1 0 durchführen. Dies ist gerade die Koeffizientenmatrix unseres Beispiels zum Gaußschen Eliminationsverfahren in §8. Das Verfahren zum Invertieren dieser Matrix läuft in zwei Schritten ab. 1. Zunächst schreibe A und die 4×4 Einheitsmatrix nebeneinander, also im Beispiel 1 1 −1 3 2 −1 1 2 1 −1 2 3 −1 0 −1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 Dann führe das Gaußsche Eliminationsverfahren für die linke Matrix (also für A) durch. Dabei verwende zusätzlich Zeilenumformungen vom Typ 2, also Multiplikation von Zeilen mit Konstanten 6= 0, um den am weitesten links stehenden von Null verschiedenen Eintrag einer jeder Zeile auf Eins zu bringen. Wende dabei simultan genau dieselben Zeilenumformungen auf die rechte Matrix an. Tritt während der Elimination eine lange Stufe auf, so ist die Ausgangsmatrix A nicht invertierbar, und wir können das Verfahren abbrechen. Andernfalls ist die Matrix invertierbar. Wir führen diesen Schritt jetzt im Beispiel durch. Wir beginnen also wieder mit der ersten Zeile. In dieser steht ganz links bereits eine Eins, und wir bringen alle Einträge unterhalb dieser Eins auf Null 1 1 −1 3 2 −1 1 2 1 −1 2 3 −1 0 −1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 2 −1 1 0 0 0 2 −2 −→ 0 0 4 2 0 1 0 −6 2 −3 155 1 −1 1 −3 0 1 0 0 0 0 1 0 0 0 0 1 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 Dann müssen wir die zweite und die dritte Zeile vertauschen und die neue zweite Zeile anschließend durch 4 teilen 1 2 −1 1 0 0 2 −2 0 4 2 0 0 −6 2 −3 1 −1 1 −3 0 1 0 0 0 0 1 0 0 1 2 −1 1 1 0 0 1 0 2 −→ 0 0 2 −2 0 1 0 −6 2 −3 1 0 0 0 1 0 14 0 4 −1 1 0 0 −3 0 0 1 Jetzt bringen wir die untenstehenden Einträge der zweiten Spalte auf Null. 1 2 −1 1 1 0 0 0 1 1 1 0 1 0 0 0 4 4 2 −→ 0 0 2 −2 −1 1 0 0 −3 0 0 1 0 0 5 −3 1 2 −1 1 1 0 1 0 2 0 0 2 −2 0 −6 2 −3 1 0 0 0 1 0 41 0 4 −1 1 0 0 − 32 0 23 1 Jetzt bringe die führende Zwei der dritten Zeile auf Eins 1 0 0 0 2 −1 1 1 1 0 2 0 2 −2 0 5 −3 1 2 −1 1 1 0 0 0 1 1 1 0 4 0 0 1 0 4 2 −→ −1 1 0 0 0 0 1 −1 3 3 0 0 5 −3 −2 0 2 1 1 0 0 0 1 0 14 0 4 − 12 21 0 0 − 32 0 32 1 Schließlich bringe die linke Seite endgültig auf Stufenform 1 0 0 0 2 −1 1 1 1 0 2 0 1 −1 0 5 −3 1 2 −1 1 1 0 0 0 1 1 1 0 4 0 0 1 0 4 2 −→ − 12 21 0 0 0 0 1 −1 3 3 −2 0 2 1 0 0 0 2 1 0 0 0 0 14 0 1 0 0 2 5 1 − 2 32 1 1 4 − 12 und teile die unterste Zeile anschließend durch Zwei 1 0 0 0 2 −1 1 1 1 0 2 0 1 −1 0 0 2 0 0 0 1 2 −1 1 1 1 0 1 0 4 0 0 2 −→ 1 0 0 0 0 1 −1 2 3 5 1 −2 2 1 0 0 0 1 1 1 1 4 − 12 1 4 1 −2 1 2 0 0 0 0 14 0 1 0 0 2 − 54 3 4 1 2 Damit ist Schritt Eins für dieses Beispiel beendet. Insbesondere hat sich herausgestellt, dass unsere Koeffizientenmatrix überhaupt invertierbar ist, da keine lange Stufe aufgetreten ist. Damit kommen wir zum zweiten Schritt. 2. Jetzt bringen wir analog zum Vorgehen bei der Gauß-Elimination, nur diesmal von unten nach oben und von rechts nach links gehend, in der linken Matrix alle Einträge außerhalb der Hauptdiagonale auf Null, und führen wieder simultan in der rechten Matrix dieselben Zeilenoperationen durch. Nachdem dies getan ist, 156 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 steht auf der rechten Seite die gesuchte inverse Matrix. Schauen wir uns auch diesen Schritt im Beispiel an. Wir müssen also zuerst die Spalte ganz rechts betrachten 2 −1 1 1 1 0 2 0 1 −1 0 0 1 1 0 0 0 1 0 0 0 1 1 0 0 4 0 −→ 1 0 0 0 2 0 − 54 34 21 1 4 − 12 1 2 5 4 − 34 − 12 1 0 0 4 1 2 1 4 2 −1 0 1 1 0 2 0 1 0 0 0 1 0 − 34 1 − 54 2 3 4 3 4 1 2 1 2 Nun wird auch die dritte Spalte oben auf Null gebracht 1 0 0 0 2 −1 0 1 0 1 2 0 1 0 0 0 1 1 2 1 4 5 4 − 34 − 21 1 0 0 4 0 − 34 1 − 54 2 3 4 3 4 1 0 −→ 0 0 1 2 1 2 2 1 0 0 0 0 1 0 0 0 0 1 1 2 1 4 0 1 2 1 2 3 8 − 34 − 54 0 0 − 18 − 14 3 4 3 4 1 2 1 2 Als letzter Schritt wird nun die zweite Spalte bearbeitet 1 0 0 0 2 1 0 0 0 0 1 0 0 0 0 1 1 2 1 4 0 1 2 1 2 3 8 3 −4 − 54 0 0 − 18 − 14 3 4 3 4 1 2 1 2 1 0 −→ 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 − 14 1 4 0 1 2 3 8 − 34 − 54 1 4 − 18 3 4 3 4 1 2 − 14 1 2 1 2 Als inverse Matrix haben wir in diesem Beispiel damit −1 0 − 1 1 1 1 2 −1 1 0 −2 2 4 4 4 2 1 3 1 2 − 18 − 41 1 −1 2 3 −1 −2 1 4 8 = . = 3 3 1 −1 2 3 −1 0 −6 6 4 8 0 −4 4 2 3 0 −1 0 4 −10 6 4 1 5 3 1 − 2 4 4 2 Wollen wir beispielsweise erneut das lineare Gleichungssystem x + 2y − u + v = 1 x + 2y + u − v = −3 −x + 2y + 3u − v = 1 3x − u = 0 aus §8 lösen, so können wir die eben berechnete inverse Matrix verwenden, um direkt die Lösung des Gleichungssystem zu erhalten 0 −2 2 4 1 8 1 1 2 3 −1 −2 · −3 = 1 −8 = −1 , x= 6 4 1 8 24 3 8 0 −6 4 −10 6 4 0 40 5 157 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 und dies ist wieder die Lösung, die wir schon damals berechnet hatten. Man sollte allerdings die praktische Bedeutung inverser Matrizen für das Lösen linearer Gleichungssysteme nicht überschätzen. Unser Verfahren zur Berechnung von A−1 erfordert ungefähr den drei- bis vierfachen Aufwand im Vergleich zum Gaußschen Eliminationsverfahren. Selbst wenn mehrere Gleichungssysteme mit derselben Koeffizientenmatrix zu lösen sind, ist das Eliminationsverfahren effektiver, da der Hauptteil des Algorithmus sich nur auf die Koeffizientenmatrix bezieht, und wir die Wirkung auf die rechte Seite einmal bestimmen und dann immer wieder anwenden können. $Id: det.tex,v 1.11 2011/08/17 20:25:48 hk Exp $ §10 Determinanten Wir kommen jetzt zum Begriff der Determinante. Determinanten sind merkwürdigerweise über hundert Jahre älter als Matrizen, und sie wurden auch ursprünglich nicht im Zusammenhang mit linearen Gleichungssystemen eingeführt, sondern bei der Behandlung von Polynomgleichungen n-ten Grades. Aus zeitlichen Gründen können wir auf die Entwicklung des Determinantenbegriffs leider nicht eingehen, und werden die Definition einer Determinante in diesem Kapitel recht unmotiviert einfach hinschreiben. Die Determinante einer n × n Matrix A über K = R oder K = C ist eine Zahl det A ∈ K. Alternativ wird oft auch |A| anstelle von det A geschrieben. Wird dabei A direkt in Matrixform (...) hingeschrieben, so läßt man die Klammern um die Matrix in der Schreibweise |A| üblicherweise fort, schreibt also etwa 1 2 1 3 für die Determinante det A der Matrix A= 1 2 1 3 . Beachte das die Determinante nur für quadratische Matrizen definiert wird. Bevor wir zur Definition der allgemeinen Determinante kommen, wollen wir sie zunächst in den drei kleinen Fällen n = 1, 2, 3 explizit hinschreiben. Für 1 × 1 Matrizen ist die Determinante einfach der eine Eintrag der Matrix, also det(a) = a für a ∈ K. Die Determinante einer 2 × 2 Matrix wird durch die Formel a b c d := ad − bc definiert. Beachte das uns der Ausdruck ad − bc bereits in §9 in der Formel −1 1 a b d −b = c d a ad − bc −c 158 Mathematik für Physiker I, WS 2010/2011 Montag 10.1.2011 für die Inverse eine 2 × 2 Matrix begegnet ist. Dies ist kein Zufall, wie wir sehen werden gibt es auch für n × n Matrizen eine direkte Formel für die Einträge der inversen Matrix A−1 in Termen gewisser Determinanten. Für n > 2 ist diese Formel allerdings für praktische Zwecke nur selten hilfreich. Wir kommen nun zur Determinante einer 3 × 3 Matrix, und diese Formel ist bereits merklich komplizierter. a11 a12 a13 a21 a22 a23 a31 a32 a33 := a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 . Es ist populär sich diese Formel mit Hilfe der sogenannten Regel von Sarrus zu merken. Hierzu schreibt man sich die ersten beiden Spalten der 3 × 3 Matrix noch einmal rechts neben die Matrix. Dann bildet man die drei Dreierprodukte entlang der drei Diagonalen von links nach rechts und addiert diese. Anschließend bildet man die Dreierprodukte auf den drei Gegendiagonalen von rechts nach links und zieht diese von der zuvor gebildeten Summe ab. Die so erhaltene Zahl ist die Determinante der Matrix. − a11 a12 a13 a11 a12 a21 a22 a23 a21 a22 a31 a32 a33 a31 a32 − − + + + Natürlich sind Sie nicht verpflichtet die Regel von Sarrus zu verwenden, mit etwas Konzentration und ein wenig Übung ist es leicht sich die beiden verdoppelten Spalten im Kopf zu denken, ohne sie extra hinzuschreiben. Allerdings ist es am besten die Regel von Sarrus gleich wieder zu vergessen, sie stellt sich als die mit Abstand umständlichste Methode zur Berechnung der Determinante einer 3 × 3 Matrix heraus. Für n = 2 und n = 3 hat die Determinante auch eine direkte geometrische Bedeutung. Die Determinante einer 2 × 2 Matrix, beziehungsweise genauer ihr Betrag, ist die Fläche des von den beiden Spalten, oder Zeilen, aufgespannten Parallelograms. Entsprechend ist der Betrag der Determinante für n = 3 gleich dem Volumen des von den drei Spalten aufgespannten Parallelepipeds, dies ist das dreidimensionale Analogon zum Parallelogram und wird oft auch als ein Spat“ bezeichnet. Wir werden ” diese geometrischen Interpretationen aber erst etwas später in diesem Semester begründen. Entsprechend kann dann auch die Determinante in höheren Dimensionen als ein n-dimensionales Volumen aufgefasst werden. Die exakte Definition dieser höherdimensionalen Determinanten werden wir nächstes Mal behandeln, hier wollen wir nur erwähnen das die Sarrus-Regel sich nicht auf die Determinante von quadratischen Matrizen mit n ≥ 4 Zeilen und Spalten fortsetzt, beispielsweise ist die Determinante einer 4 × 4 Matrix eine Summe aus 24 Summanden und nicht nur von 8 wie es die Sarrus Regel erwarten ließe. 159 Mathematik für Physiker I, WS 2010/2011 10.1 Freitag 14.1.2011 Die symmetrische Gruppe Vorlesung 18, Freitag 14.1.2011 Um die Determinante für größere Matrizen zu definieren, brauchen wir eine kleine Vorbemerkung. Eine Permutation einer Menge M ist eine bijektive Abbildung π : M → M . Haben wir zwei solche Permutationen π, η : M → M , so ist nach §3.Lemma 2 auch die Hintereinanderausführung η ◦ π : M → M wieder eine Permutation von M . Betrachten wir also die Menge G := {π : M → M |π ist bijektiv} aller Permutationen der Menge M , so können wir uns die Hintereinanderausführung als eine Produktbildung in der Menge G vorstellen, wir schreiben also π · η := π ◦ η für π, η ∈ G. Diese Multiplikation erfüllt dann einige Rechenregeln: (G1) Das Assoziativgesetz π · (η · τ ) = (π · η) · τ für alle π, η, τ ∈ G. Dies ist nur ein Spezialfall des allgemeinen Assoziativgesetzes der Hintereinanderausführung aus §3.Lemma 1. (G2) Es gibt ein neutrales Element der Multiplikation, nämlich die identische Abbildung 1 := idM . Diese erfüllt 1 · π = π · 1 = π für alle π ∈ G. (G3) Jedes π ∈ G hat ein multiplikatives Inverses π −1 ∈ G mit π −1 · π = π · π −1 = 1. Nach §3.Lemma 3 ist π −1 nämlich gerade die Umkehrabbildung zu π. Man bezeichnet diese drei Eigenschaften als die Gruppenaxiome und nennt G eine Gruppe. Uns interessiert hier nur ein sehr spezielles Beispiel, nämlich die Gruppe der Permutationen der Menge M := {1, . . . , n}. Definition 10.1: Für jedes n ∈ N mit n ≥ 1 ist die n-te symmetrische Gruppe Sn die Gruppe der Permutationen der Menge {1, . . . , n}. Wir sind hier nicht abstrakt an den Gruppenaxiomen interessiert, aber drei Folgerungen aus diesen werden für uns sehr wichtig sein. 1. Ist η ∈ Sn und durchläuft π die Elemente von Sn , so durchläuft das Produkt η · π ebenfalls genau alle Elemente von Sn . Etwas formaler gesagt, ist die Abbildung f : Sn → Sn ; π 7→ η · π bijektiv. In der Tat, um einzusehen das f bijektiv ist, ist einzusehen das es für jedes τ ∈ Sn genau ein π ∈ Sn mit τ = η · π gibt, und die Gruppenaxiome sagen uns das π = η −1 · τ dieses eindeutige Element von Sn ist. 160 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 2. Analog ist für jedes η ∈ Sn auch die Abbildung g : Sn → Sn ; π 7→ π · η bijektiv. 3. Auch die Abbildung h : Sn → Sn ; π 7→ π −1 ist bijektiv und wegen (π −1 )−1 = π für alle π ∈ Sn gleich ihrer eigenen Umkehrabbildung. Man kann sich die symmetrische Gruppe Sn alternativ auch als die Menge aller möglichen Anordnungen der Zahlen 1, . . . , n vorstellen. Ist nämlich π ∈ Sn eine Permutation, so kommt in der Liste π(1), π(2), . . . , π(n) jede Zahl zwischen 1 und n genau einmal vor, die Liste ist also eine Anordnung der Zahlen 1, . . . , n. Haben wir umgekehrt eine solche Liste k1 , . . . , kn in der jede Zahl zwischen 1 und n genau einmal vorkommt, so können wir durch π(i) := ki für i = 1, . . . , n eine zugehörige Permutation definieren. Schauen wir uns dies einmal an einem Beispiel mit n = 4 an. Die Anordnung π: 4, 3, 2, 1 enstprich der durch π(1) = 4, π(2) = 3, π(3) = 2 und π(4) = 1 gegebenen Permutation, denn 4 ist das erste Element in unserer Aufzählung, 3 ist das zweite Element in der Aufzählung, und so weiter. Ebenso entspricht η: 3, 1, 4, 2 der Permutation η(1) = 3, η(2) = 1, η(3) = 4 und η(4) = 2. Für das Produkt τ := π · η = π ◦ η ist also τ (1) τ (2) τ (3) τ (4) = = = = π(η(1)) = π(3) = 2, π(η(2)) = π(1) = 4, π(η(3)) = π(4) = 1, π(η(4)) = π(2) = 3, und als Aufzählung geschrieben ist damit τ =π·η : 2, 4, 1, 3. Mit der Interpretation von Permutationen als Auflistungen der Zahlen von 1 bist n ist es auch leicht die Elemente der symmetrischen Gruppe zu zählen. 161 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Lemma 10.1 (Elementeanzahl der Sn ) Für jedes n ∈ N mit n ≥ 1 hat die symmetrische Gruppe Sn genau n! viele Elemente. Beweis: Für das erste Element der Aufzählung haben wir n Möglichkeiten, für das zweite dann nur noch n − 1 Möglichkeiten, für das dritte n − 2 Möglichkeiten, und so weiter, bis für das letzte Element nur noch eine Möglichkeit verbleibt. Als Anzahl aller möglichen Permutationen ergibt sich damit n · (n − 1) · (n − 2) · . . . 1 = 1 · 2 · . . . · n = n!. Schreiben wir |M | für die Anzahl aller Elemente einer endlichen Menge M , so sind also |S1 | = 1, |S2 | = 2, |S3 | = 6, |S4 | = 24, |S5 | = 120, . . . Die Elemente der symmetrischen Gruppe Sn können in zwei verschiedene Sorten eingeteilt werden, die geraden und die ungeraden Permutationen. Nehmen wir einmal an, wir haben eine Permutation π ∈ Sn gegeben. Dann sind π(1), π(2), . . . , π(n) genau die Zahlen zwischen 1 und n nur in einer anderen Reihenfolge. Dies übeträgt sich dann auch auf Paare von verschiedenen Zahlen zwischen 1 und n, d.h. (π(1), π(2)), . . . , (π(1), π(n)), (π(2), π(1)), (π(1), π(3)), . . . , (π(2), π(n)), . . . , (π(n − 1), π(1)), . . . , (π(n − 1), π(n)) sind wieder genau diese Paare, nur erneut in einer anderen Reihenfolge. Dies modifizieren wir noch etwas und betrachten nur noch die nach Größe geordneten Paare (i, j) mit 1 ≤ i < j ≤ n. Wenden wir unsere Permutation auf diese an, so erhalten wir (π(1), π(2)), . . . , (π(1), π(n)), (π(2), π(3)), . . . , (π(2), π(n)), . . . , (π(n − 1), π(n)) nur noch die Hälfte aller Paare. Diese umgeordneten Paare müssen aber nicht mehr nach Größe geordnet sein, die Permutation kann ja auch richtig geordnete Paare auf falsch geordnete Paare abbilden. Jedes Paar bei dem dies vorkommt nennen wir einen Fehlstand von π, d.h. (i, j) mit 1 ≤ i < j ≤ n ist Fehlstand von π :⇐⇒ π(i) > π(j). Bilden wir nun das Produkt der Differenzen aller unserer obigen Paare, so erhalten wir fast genau das Produkt aller Differenzen nach Größe geordneten Paare, es kommt nur für jeden Fehlstand ein Minus Zeichen hinzu. Schreiben wir also F (π) für die Menge aller Fehlstände von π, so ist Y Y Y (π(j) − π(i)) = (−1)|F (π)| (j − i) = ± (j − i). 1≤i<j≤n 1≤i<j≤n 162 1≤i<j≤n Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Dabei ist das große Π das sogenannte Produktzeichen“ das analog zum Summenzei” chen Σ verwendet wird. Tritt in der obigen Formel das Pluszeichen auf, ist also |F (π)| gerade, so nennen wir π eine gerade Permutation, und andernfalls heißt π eine ungerade Permutation. Zur Verwendung in Rechnungen führen wir noch ein Symbol für das auftretende Vorzeichen ein. Definition 10.2 (Vorzeichen einer Permutation) Seien n ∈ N mit n ≥ 1 und π ∈ Sn . Dann heißt (−1)π := (−1)|F (π)| = π(j) − π(i) j−i 1≤i<j≤n Y das Vorzeichen von π. Wir wollen drei Beispiele behandeln. 1. Wir fangen mit dem konkreten Beispiel n = 4 und der durch 3, 4, 1, 2 gegebenen Permutation π an. Listen wir die nach Größe geordneten Paare und ihre Bilder unter π auf, so ergibt sich (π(i), π(j)) 3, 4 3, 1 F 3, 2 F 4, 1 F 4, 2 F 1, 2, (i, j) 1, 2 1, 3 1, 4 2, 3 2, 4 3, 4 wobei die Fehlstände mit dem Symbol F“ markiert sind. Wir haben in diesem ” Beispiel also |F (π)| = 4 Fehlstände und somit (−1)π = 1, d.h. π ist eine gerade Permutation. 2. Sei n ∈ N mit n ≥ 2 und bezeichne τ ∈ Sn die Permutation die zwei verschiedene Zahlen 1 ≤ i < j ≤ n miteinander vertauscht, man bezeichnet τ auch als eine Transposition. Fehlstände von τ müssen i oder j involvieren. Gehen wir die Möglichkeiten durch, so ergeben sich genau die folgenden Fehlstände von τ F (τ ) = {(i, k)|i < k ≤ j} ∪ {(k, j)|i < k < j} also |F (τ )| = (j − i) + (j − i − 1) = 2(j − i) − 1 und insbesondere (−1)τ = −1, d.h. Transpositionen sind immer ungerade. 3. Nun sei π eine Permutation die r ≥ 2 aufeinanderfolgende Ziffern zyklisch nach rechts schiebt, beispielsweise die Ziffern von i bis i + r − 1 mit 1 ≤ i ≤ n − r + 1. Es soll also π(k) = k für 1 ≤ k < i und für i + r ≤ k ≤ n, π(k) = k + 1 für i ≤ k < i + r − 1 und π(i + r − 1) = i sein. Fehlstände von π müssen offenbar zwei 163 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Ziffern zwischen i und i + r − 1 involvieren und i + r − 1 als rechte Komponente haben, also F (π) = {(k, i + r − 1)|i ≤ k < i + r − 1}, und somit |F (π)| = r − 1, und folglich ist auch (−1)π = (−1)r−1 , ist also r gerade so ist π ungerade und ist r ungerade so ist π gerade. Lemma 10.2 (Rechenregeln für das Vorzeichen einer Permutation) Sei n ∈ N mit n ≥ 1. Dann gelten: (a) Ist 1 ∈ Sn die identische Permutation, so ist (−1)1 = 1. (b) Für alle π, η ∈ Sn ist (−1)πη = (−1)π (−1)η . (c) Für jedes π ∈ Sn ist (−1)π −1 = (−1)π . Beweis: (a) Klar da die Identität keine Fehlstände hat. (b) Es gilt Y Y (π(η(j)) − π(η(i))) = (−1)|F (η)| (π(j) − π(i)) = (−1)π (−1)η . 1≤i<j≤n 1≤i<j≤n (c) Nach (a) und (b) gilt 1 = (−1)ππ 10.2 −1 = (−1)π (−1)π −1 =⇒ (−)π −1 = 1 = (−1)π . (−1)π Definition und Grundeigenschaften der Determinante Wir definieren die allgemeine Determinante durch die sogenannte Leipnitz-Formel. Definition 10.3 (Definition der Determinante) Sei n ∈ N mit n ≥ 1 und sei K ∈ {R, C}. Die Determinante einer n × n Matrix über K wird durch die Formel a11 · · · a1n .. . . .. := X (−1)π a . . . 1π(1) · . . . · anπ(n) π∈Sn an1 · · · ann definiert. 164 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Die Determinante einer n×n Matrix ist also eine Summe mit |Sn | = n! vielen Summanden und jeder Summand ist ein Produkt aus n Matrixeinträgen und einem Vorzeichen. Für n = 1, 2, 3 stimmt dies mit der schon eingeführten Determinante überein. Schon für n = 4 ist die Definition aber nicht direkt zum Berechnen der Determinante geeignet, man hat |S4 | = 24 viele Summanden in der Summe. Es gibt im wesentlichen zwei Methoden Determinanten zu berechnen, zum einen über die sogenannte LaplaceEntwicklung, die wir im nächsten Abschnitt behandeln, und zum anderen über die Umformung einer Determinante mittels elementarer Zeilen- und Spaltenoperationen. Um den letzteren Weg zu begründen, müssen wir uns überlegen wie sich die Determinante bei Anwendung von Zeilenoperationen verhält, und hierfür wollen wir das folgende Lemma formulieren und beweisen. Lemma 10.3 (Grundeigenschaften der Determinante) Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und a11 · · · a1n A = ... . . . ... ∈ K n×n an1 · · · ann eine n × n Matrix über K. Dann gelten: (a) Es ist det At = det A. (b) Geht A0 aus A durch Multiplikation einer Zeile oder einer Spalte mit einer Konstanten c ∈ K hervor, so ist det A0 = c · det A. (c) Sei α ∈ Sn eine Permutation und bezeichne A0 die Matrix, die aus A durch Permutation der Zeilen gemäß α hervorgeht, d.h. für 1 ≤ k ≤ n ist die k-te Zeile von A0 gleich der α(k)-ten Zeile von A. Dann ist det A0 = (−1)α det A. Die analoge Aussage gilt für Permutationen der Spalten von A. (d) Geht A0 aus A durch Vertauschen zweier Zeilen oder Spalten hervor, so ist det A0 = − det A. (e) Geht A0 aus A durch Addition eines Vielfachen einer Zeile zu einer anderen Zeile hervor, so ist det A0 = det A. Die analoge Aussage gilt auch für Spalten statt Zeilen. (f ) Besteht eine Zeile oder eine Spalte von A nur aus Nullen, so ist det A = 0. (g) Ist eine Zeile von A ein Vielfaches einer anderen Zeile von A, oder eine Spalte von A ein Vielfaches einer anderen Spalte von A, so ist det A = 0. 165 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Beweis: (a) Es gilt det At = X (−1)π aπ(1)1 · . . . · aπ(n)n = π∈Sn = X X (−1)π aπ(1),π−1 (π(1)) · . . . · aπ(n),π−1 (π(n)) π∈Sn (−1)π a1,π−1 (1) · . . . · an,π−1 (n) = π∈Sn X (−1)π a1π(1) · . . . · anπ(n) = det A. π∈Sn (b) Sei 1 ≤ i ≤ n und die i-te Zeile von A0 sei das c-fache der i-ten Zeile von A. Dann ist det A0 = X (−1)π a1π(1) · . . . · (caiπ(i) ) · . . . · anπ(n) π∈Sn =c X (−1)π a1π(1) · . . . · anπ(n) = c · det A. π∈Sn Mit (a) folgt hieraus auch die Aussage über Spalten. (c) Es gilt det A0 = X (−1)π aα(1),π(1) · . . . · aα(n),π(n) π∈Sn = (−1)α X −1 (−1)πα a1,π(α−1 (1)) · . . . · an,π(α−1 (n)) = (−1)α det A. π∈Sn Mit (a) folgt hieraus auch die Aussage über Spaltenpermutationen. (d) Dies ist ein Spezialfall von (c). (f ) Ist 1 ≤ i ≤ n und besteht die i-te Zeile von A nur aus Nullen, so ist für jedes π ∈ Sn stets aiπ(i) = 0, also auch ai1 · . . . · anπ(n) = 0. Damit ist det A = 0. Mit (a) folgt auch die Aussage über Spalten. (g) Nach (a) reicht es die Aussage für Zeilen einzusehen, und nach (b) können wir annehmen, dass A sogar zwei identische Zeilen hat. Dann ändert sich die Matrix bei Vertauschen dieser beiden Zeilen nicht, und (d) ergibt det A = − det A, also det A = 0. (e) Seien c ∈ K, 1 ≤ i, j ≤ n mit i 6= j und A0 gehe aus A durch Addition des c-fachen der j-ten Zeile zur i-ten Zeile hervor. Dann ist det A0 = X (−1)π a1π(1) · . . . · (aiπ(i) + cajπ(i) ) · . . . · anπ(n) π∈Sn = det A + c X (−1)π a1π(1) · . . . · ajπ(i) · . . . · anπ(n) . π∈Sn Die hintere Summe ist gerade die Determinante der Matrix A00 , die aus A durch Ersetzen der i-ten Zeile durch die j-te Zeile entsteht. Da A00 zwei identische Zeilen hat, ist nach (g) aber det A00 = 0, und dies zeigt det A0 = det A. 166 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Wie schon bemerkt soll uns das Lemma eine Methode zur Berechnung von Determinanten liefern. Wir wissen das wir jede Matrix durch Anwendung der drei elementaren Zeilenumformungen auf Stufenform bringen können, und das Lemma sagt uns wie sich die Determinante bei Anwendung dieser Zeilenumformungen verhält. Damit kann die Berechnung einer allgemeinen Determinante auf die Berechung der Determinante einer Matrix in Stufenform zurückgeführt werden. Etwas allgemeiner behandeln wir gleich sogenannte Dreiecksmatrizen, dies sind Matrizen bei denen ober- oder unterhalb der Diagonale nur Nullen stehen. Ist a11 · · · a1n A = ... . . . ... ∈ K n×n an1 · · · ann eine obere Dreiecksmatrix, so sollen unterhalb der Diagonale nur Nullen stehen. Die Einträge unterhalb der Diagonalen haben größeren Zeilenindex als Spaltenindex, es soll also aij = 0 für alle 1 ≤ j < i ≤ n gelten. Entsprechend sind untere Dreicksmatrizen durch die Bedingung aij = 0 für 1 ≤ i < j ≤ n definiert. Lemma 10.4 (Determinante von Dreiecksmatrizen) Seien n ∈ N mit n ≥ 1, K ∈ {R, C} und a11 ∗ a11 .. .. A= oder A = . . ann ∗ ann eine obere oder eine untere Dreiecksmatrix. Dann ist det A = a11 · . . . · ann . Beweis: Schreibe wieder a11 · · · a1n A = ... . . . ... . an1 · · · ann Zunächst sei A eine obere Dreiecksmatrix, also aij = 0 für 1 ≤ j < i ≤ n. Sei π ∈ Sn . Gibt es dann ein 1 ≤ i ≤ n mit π(i) < i, so ist ai,π(i) = 0 und somit auch a1,π(1) · . . . · an,π(n) = 0. Ist dagegen π(i) ≥ i für jedes 1 ≤ i ≤ n, so ist π(n) ≥ n, also π(n) = n, und weiter π(n − 1) ≥ n − 1 also π(n − 1) = n − 1 oder π(n − 1) = n, und wegen π(n − 1) 6= π(n) = n sogar π(n − 1) = n − 1. So fortfahrend folgt dann π(i) = i für alle 1 ≤ i ≤ n. Es gibt in det A also höchstens einen von Null verschiedenen Summanden, nämlich derjenige zur identischen Permutation und da diese Permutation gerade ist, folgt det A = a11 · . . . · ann . 167 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Ist A eine untere Dreiecksmatrix, so ist At eine obere Dreiecksmatrix und mit Lemma 3.(a) folgt die Behauptung auch in diesem Fall. Wir rechnen ein Beispiel. 1 1 1 2 −1 2 −1 2 −1 1 1 0 0 1 2 4 2 0 2 −2 1 −1 = − = −1 2 0 2 4 2 0 3 −1 0 0 3 0 −1 0 −6 2 0 −6 2 −3 0 1 1 2 −1 1 0 4 2 0 = − 0 = − 0 2 −2 0 0 0 0 0 5 −3 1 0 −2 −3 2 −1 1 4 2 0 = −16. 0 2 −2 0 0 2 Man ist allerdings nicht gezwungen so stur den Gaußschen Algorithmus abzuarbeiten, oft kann man sich die Arbeit durch Mischen von Zeilen- und Spaltenoperationen erleichtern. Dies geschieht etwa im folgenden Beispiel wo wir zuerst Vielfache der ersten Zeile von der dritten und vierten Zeile abziehen und anschließend die zweite und dritte Spalte von der ersten Spalte subtrahieren 1 4 2 4 1 0 1 2 0 1 1 −1 3 1 0 1 −1 3 0 0 1 −1 3 3 7 −5 4 1 3 7 −5 0 1 3 7 −5 0 1 0 = 0 2 −2 3 −6 = 0 2 −2 3 −6 = 0 4 −3 6 0 0 0 1 −6 0 0 0 1 −6 0 8 1 1 1 0 8 1 0 1 0 8 1 nach Lemma 3.(f). Dies ist schon eine durchaus effektive Methode zur Berechnung von Determinanten. Wir wollen jetzt einen weiteren wichtigen Satz herleiten, der den Zusammenhang von Determinanten und der Matrixmultiplikation herstellt. Satz 10.5 (Multiplikationssatz für Determinanten) Sind A, B zwei n × n Matrizen über K ∈ {R, C} so gilt det(A · B) = det(A) · det(B). Beweis: Wir schreiben a11 · · · a1n A = ... . . . ... , B = an1 · · · ann b11 · · · b1n .. . . . . .. und AB = . bn1 · · · bnn 168 c11 · · · c1n .. . . . . .. . . cn1 · · · cnn Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Nach Definition der Matrizenmultiplikation gilt dann cij = i, j ≤ n. Hiermit rechnen wir nun X det(AB) = (−1)π c1,π(1) · . . . · cn,π(n) Pn k=1 aik bkj für alle 1 ≤ π∈Sn X = (−1)π X ! a1,j1 bj1 ,π(1) (−1)π n X · ... · j1 =1 π∈Sn = n X ! an,jn bjn ,π(n) jn =1 X a1,j1 · . . . · an,jn · bj1 ,π(1) · . . . · bjn ,π(n) 1≤j1 ,...,jn ≤n π∈Sn " = X a1,j1 · . . . · an,jn · 1≤j1 ,...,jn ≤n # X (−1)π bj1 ,π(1) · . . . bjn ,π(n) . π∈Sn Nun kümmern wir uns um den Faktor in den eckigen Klammern. Die dort stehende Summe sieht fast wie eine Determinante aus, nur das dort überall ji statt i steht. Dies ist aber kein echtes Problem, schreiben wir B(j1 , . . . , jn ) für die n × n Matrix, deren i-te Zeile gerade die ji -te Zeile von B ist, so ist der Ausdruck in eckigen Klammern gerade die Determinante von B(j1 , . . . , jn ), also ist X det(AB) = a1,j1 · . . . · an,jn · det B(j1 , . . . , jn ). 1≤j1 ,...,jn ≤n Wir betrachten nun einen einzelnen Summanden in dieser Summe, seien also 1 ≤ j1 , . . . , jn ≤ n gegeben. Gibt es dann zwei Indizes 1 ≤ i, i0 ≤ n mit i 6= i0 und ji = ji0 , so hat die Matrix B(j1 , . . . , jn ) zwei identische Zeilen, und somit ist dann det B(j1 , . . . , jn ) = 0 nach Lemma 3.(g). Also müssen wir in der obigen Summe nur die Summanden (j1 , . . . , jn ) betrachten in denen j1 , . . . , jn paarweise verschieden sind. Aber Tupel aus n verschiedenen Zahlen aus {1, . . . , n} sind ja gerade die Ordnungen von {1, . . . , n}, also folgt mit Lemma 3.(c) X det(AB) = a1,π(1) · . . . · an,π(n) · det B(π(1), . . . , π(n)) π∈Sn ! = X (−1)π a1,π(1) · . . . · an,π(n) · det(B) = det(A) · det(B). π∈Sn Insbesondere erhalten wir eine Formel für die Determinante der Inversen einer Matrix. Korollar 10.6 (Determinante der inversen Matrix) Sei A eine invertierbare n × n Matrix über K ∈ {R, C}. Dann gilt det A 6= 0 und es ist 1 det(A−1 ) = . det A 169 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 Beweis: Nach dem Multiplikationssatz ist det(A) · det(A−1 ) = det(A · A−1 ) = det En = 1. 10.3 Laplace Entwicklung Die Laplace Entwicklung einer Determinante ist ein weiteres Rechenverfahren zur Bestimmung von Determinanten. Bei diesem Verfahren wird die Determinante einer n × n Matrix als eine Summe von n Termen berechnet die ihrerseits im wesentlichen aus einer (n−1)×(n−1) Determinante bestehen. Wir wollen dies zunächst an einigen Beispielen vorführen, bevor wir es als abstrakten Satz formulieren. Wir beginnen dabei mit der Berechnung einer 3 × 3 Determinante 1 −1 3 2 1 −1 . 5 1 0 Als Entwicklung dieser Determinante nach der ersten Zeile bezeichnet man die folgende Rechnung 1 −1 3 1 −1 2 −1 2 1 2 − (−1) · +3· 1 −1 = 1 · 5 5 1 = 1 + 5 − 9 = −3. 1 0 0 5 1 0 Diese Summe beginnt mit dem Eintrag 1 in der ersten Zeile und Spalte multipliziert mit der Determinante, die aus der ursprünglichen Determinante durch Streichen der ersten Zeile und der ersten Spalte entsteht. Hiervon wird dann der Eintrag −1 in der zweiten Spalte der ersten Zeile mal die durch Streichen der ersten Zeile und der zweiten Spalte gebildete Determinante abgezogen. Schließlich wird der Eintrag 3 in der dritten Spalte der ersten Zeile mit der durch Streichen der ersten Zeile und dritten Spalte erhaltenen Determinante multipliziert und zur Gesamtsumme addiert: 1 −1 1 −1 1 −1 1 −1 3 3 3 3 2 1 −1 = 1 · 2 1 −1 − (−1) · 2 1 −1 + 3 · 2 1 −1 . 5 5 5 5 1 0 1 0 1 0 1 0 Diese Rechenverfahren ist etwas effizienter als die Rechnung über die Regel von Sarrus. Bei der Sarrusschen Regel hat man die Summe von sechs Dreierprodukten zu bilden, benötigt also 12 Multiplikationen und 5 Additionen, wobei wir Subtraktion und Addition nicht unterscheiden. Bei der Entwicklung nach der ersten Zeile bilden wir dagegen 170 Mathematik für Physiker I, WS 2010/2011 Freitag 14.1.2011 drei 2 × 2 Determinanten, und jede von diesen erfordert zwei Multiplikationen und eine Addition, also insgesamt 6 Multiplikationen und drei Additionen. Dann werden diese 2 × 2 Determinanten jeweils mit einer Zahl multipliziert und dann addiert, dies sind 3 weiter Multiplikationen und zwei Additionen. Insgesamt erfordert die Entwicklung nach der ersten Zeile also 9 Multiplikationen und 5 Additionen, wir haben also 3 Multiplikationen eingespart, dies sind immerhin 25% des Aufwands der Regel nach Sarrus. Ebenso kann die Determinante auch nach der ersten Spalte entwickelt werden, hier gehen wir entsprechend die Einträge in der ersten Spalte der Matrix durch 1 −1 1 −1 1 −1 1 −1 3 3 3 3 2 1 −1 = 1 · 2 1 −1 + 5 · 2 1 −1 . 1 −1 − 2 · 2 5 5 5 1 5 1 1 0 1 0 0 0 Noch allgemeiner kann die Determinante auch nach einer beliebigen Zeile oder einer beliebigen Spalte entwickelt werden. Das einzige kleine Detail auf das man dabei achten muss ist die Verteilung der Vorzeichen. Entwickeln wir nach der ersten Zeile oder Spalte, so beginnt die Entwicklung mit +“ und dann wechseln die Vorzeichen sich ab. ” Entwickeln wir dagegen nach der zweiten Zeile oder Spalte, so beginnen die Vorzeichen mit −“ und wechseln sich dann ab. In der dritten Zeile oder Spalte starten wir dann ” wieder mit +“ und so weiter. Allgemein gehört zum Eintrag (i, j) der Determinan” te, also dem Eintrag in der i-ten Zeile und in der j-ten Spalte, die Determinante die durch Entfernen der i-ten Zeile und der j-ten Spalte entsteht und mit dem Vorzeichen (−1)i+j versehen ist. Diese Vorzeichen beginnen links oben mit (−1)2 = 1 und breiten sich dann schachbrettartig aus + − + − .. . − + − + .. . + − + − .. . − + − + .. . ··· ··· ··· ··· ... Wir haben das Vorzeichenschema hier gleich allgemein für quadratische Matrizen beliebiger Größe angegeben und nicht nur für 3 × 3 Matrizen. Es bietet sich an nach einer Zeile oder Spalte zu entwickeln die möglichst viele Nullen enthält, denn bei jeder Null können wir den entsprechenden Summanden in der Entwicklung ignorieren. In unserem obigen Beispiel ist es daher naheliegend etwa nach der dritten Zeile zu entwickeln 1 −1 1 −1 1 −1 3 3 3 2 1 −1 = 5 · 2 1 −1 − 1 · 2 1 −1 = 5 · (−2) − (−7) = −3 5 5 5 1 0 1 0 1 0 erneut mit demselben Ergebnis. Dass man eine Determinante nach jeder Zeile und nach jeder Spalte entwickeln kann, bedarf natürlich einer Begründung, aber diese werden wir erst in der nächsten Sitzung behandeln. 171 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Vorlesung 19, Montag 17.1.2011 Am Ende der letzten Sitzung hatten wir die Laplace Entwicklung einer 3 × 3 Determinante auf verschiedenste Weisen vorgeführt. Die Entwicklung einer Determinante nach Zeilen oder Spalten ist aber nicht auf 3 × 3 Determinanten beschränkt, sondern ist für jede natürlich Zahl n ≥ 1 möglich. Wir wollen als ein Beispiel einmal eine 4 × 4 Determinante nach der zweiten Zeile entwickeln: 1 −1 0 2 3 1 −1 0 = 0 2 5 −3 1 2 −1 1 1 −1 0 2 3 1 −1 0 − 3 · 2 5 −3 0 1 2 −1 1 +1· 1 −1 0 2 3 1 −1 0 − (−1) · 0 2 5 −3 1 2 −1 1 1 −1 0 2 3 1 −1 0 0 2 5 −3 1 2 −1 1 = (−3) · (−26) + 1 · (−8) + 1 · 7 = 77, wobei wir die mit Null zu multiplizierende vierte Determinante gleich weggelassen haben und die Werte der verbleibenden drei 3 × 3 Determinanten −1 0 2 5 −3 2 5 2 + 2 = −2 − 24 = −26, 5 −3 = − −1 1 2 −1 2 −1 1 1 0 2 5 −3 0 5 0 5 −3 = + 2 = 2 − 10 = −8, −1 1 1 −1 1 −1 1 1 −1 2 1 2 1 −1 0 = −2 + 9 = 7 2 −3 = 2 + 3 1 1 1 2 1 2 1 gleich eingesetzt haben. Man kann dieses Rechenverfahren durch Entwicklung nach einer Zeile oder Spalte natürlich auch mit den elementaren Zeilen- und Spaltenumformungen kombinieren. In unserem eben gerechneten Beispiel einer 4 × 4 Determinante können wir auch zunächst die erste Spalte zur zweiten Spalte addieren. Dann haben wir auf einmal zwei Nullen in der ersten Zeile, und bei der Entwicklung nach der ersten 172 Mathematik für Physiker I, WS 2010/2011 Zeile treten nur 1 −1 0 3 1 −1 0 2 5 1 2 −1 4 −1 0 2 5 −3 3 −1 1 noch zwei Summanden auf. 0 2 2 1 0 0 0 3 4 −1 = = 5 −3 −3 0 2 1 1 1 3 −1 3 4 −1 4 −1 − 2 0 2 2 5 = 11 1 3 −1 3 −1 4 = 11 Montag 17.1.2011 − 2 · 2 3 −1 − 5 3 4 1 3 1 −1 −1 − 2 · (−4 − 25) = 19 + 59 = 77. 2 0 0 1 Wir wollen im folgenden die theoretische Begründung für dieses Rechenverfahren angeben. Die Grundlage für all diese Dinge ist die sogenannte Linearität der Determinante in Zeilen und Spalten. Satz 10.7 (Zeilen- und spaltenweise Linearität der Determinante) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und 1 ≤ k ≤ n. Dann gilt für alle Zahlen t, s ∈ K und alle aij , ai , bi ∈ K (1 ≤ i, j ≤ n) die Gleichung a11 · · · a1n a11 · · · a1n a · · · a 11 1n . . .. .. .. .. . . . . . . . . ta1 + sb1 · · · tan + sbn = t · a1 · · · an + s · b1 · · · bn , . . .. .. .. .. .. .. . . . . a ··· a a ··· a a ··· a n1 nn n1 nn n1 nn wobei die Summen in der k-ten Zeile dieser Determinante stehen. Die entsprechende Aussage gilt auch für Summen von Spalten. Beweis: Nach Lemma 3.(a) reicht es wieder die Aussage über Zeilen zu beweisen. Die linke Determinante ist dann X (−1)π a1,π(1) · . . . · (taπ(k) + sbπ(k) ) · . . . · an,π(n) π∈Sn =t· X (−1)π a1,π(1) · . . . · an,π(n) + s · π∈Sn X (−1)π a1,π(1) · . . . · an,π(n) π∈Sn und dies ist gerade die rechts stehende Summe von Determinanten. Ein direktes Beispiel für die obige Formel ist etwa 1 −1 1 −1 1 1 −1 1 1 2 1 3 + 2 · 0 −1 −1 = 2 −1 1 . −1 −1 0 2 0 2 −1 0 2 173 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Die erste und die dritte Zeile dieser Matrizen stimmen jeweils überein, Addition und Multiplikation werden nur in einer Zeile, in diesem Beispiel in der zweiten Zeile, durchgeführt. Nach dieser Vorbemerkung kommen wir zur Entwicklung von Determinanten zurück. Die Entwicklung einer Determinante nach einer Zeile oder Spalte nennt man auch den Laplaceschen Entwicklungssatz, und um diesen, und später auch die Cramersche Regel für die Matrixinversion bequem formulieren zu können, führen wir noch eine kleine Definition ein. Definition 10.4: Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und sei A eine n × n Matrix über K. Sind 1 ≤ i, j ≤ n, so bezeichnet Aij die (n − 1) × (n − 1) Matrix, die aus A durch Streichen der i-ten Zeile und der j-ten Spalte entsteht. Die Zahl b aij := (−1)i+j det Aji wird dann als (i, j)-ter Komplementärwert bezeichnet (das i und j hier vertauscht werden ist kein Schreibfehler, sondern tatsächlich so gemeint), und die n × n Matrix b a11 · · · b a1n . . b := A .. . . . .. b an1 · · · b ann heißt die Komplementärmatrix oder Adjunkte zu A. Für n = 2, 3 können wir die Komplementärmatrix noch direkt a b b d −b = , c d −c a a22 a33 − a23 a32 a13 a32 − a12 a33 a11 a12 a13 b a21 a22 a23 = a23 a31 − a21 a33 a11 a33 − a13 a31 a21 a32 − a22 a31 a12 a31 − a11 a32 a31 a32 a33 hinschreiben a12 a23 − a13 a22 a13 a21 − a11 a23 , a11 a22 − a12 a21 aber schon für n ≥ 4 sind die entstehenden Formeln zu gross. Ganz konkret ist beispielsweise die Komplementärmatrix zu 1 −1 2 8 5 −1 0 2 −3 gleich −3 −1 3 . 1 2 1 −2 −3 2 Wir wollen jetzt den Laplaceschen Entwicklungssatz explizit formulieren. Die Grundidee zur Herleitung des Entwicklungssatzes ist einfach zu beschreiben. Wir wollen die Determinante A nach der i-ten Zeile entwickeln. In der Leipnitz-Summe P einer Matrix π det(A) = π∈Sn (−1) a1,π(1) · . . . · an,π(n) fasse für 1 ≤ j ≤ n alle Terme π ∈ Sn mit π(i) = j zusammen. Dann wird det A = n X j=1 X π aij · (−1) a · . . . a · a · . . . a 1,π(1) i−1,π(i−1) i+1,π(i+1) n,π(n) π∈Sn π(i)=j 174 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 und die Summe in eckigen Klammern stellt sich als (−1)i+j det Aij heraus, sie ist ja beinahe bereits eine Leipnitz-Summe. Für die exakte Durchführung des Beweises ist es technisch etwas bequemer zunächst den Sonderfall i = n zu behandeln, und den allgemeinen Fall darauf zurückzuführen. In der Vorlesung wurde der folgende Beweis nicht mehr vorgeführt, hier soll er aber vollständig wiedergegeben werden. Satz 10.8 (Entwicklung nach Zeilen und Spalten) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und sei A eine n × n Matrix über K. Dann gelten für jedes 1 ≤ i ≤ n die Gleichungen det A = n X (−1)i+1 aij det Aij (Entwicklung nach einer Zeile) j=1 und det A = n X (−1)i+j aji det Aji (Entwicklung nach einer Spalte). j=1 Beweis: Wir beginnen mit der Entwicklung der Determinante nach der letzten Zeile. Schreiben wir die letzte Zeile als (an1 , . . . , ann ) = a11 · (1, 0, . . . , 0) + · · · + ann · (0, . . . , 0, 1), so ergibt sich mit der Linearität der Determinante in der letzten Zeile Satz 7 die Formel a11 · · · a1,j−1 a1j a1,j+1 · · · a1n n n X .. .. .. X . . . det A = anj · = anj det Bj , an−1,1 · · · an−1,j−1 an−1j an−1,j+1 · · · an−1,n j=0 j=1 0 ··· 0 1 0 ··· 0 wenn wir Bj für die Matrix im j-ten Summanden schreiben. Wir müssen also die Determinante der Matrix Bj berechnen, und beginnen mit j = n. Wegen (Bn )ni = 0 für alle 1 ≤ i < n gilt (Bn )1π(1) · · · . . . · (Bn )nπ(n) = 0 für jede Permutation π ∈ Sn mit π(n) 6= n, also ist X X det Bn = (−1)π (Bn )1π(1) · · · . . . · (Bn )nπ(n) = (−1)π a1π(1) · . . . · an−1,π(n−1) · 1. π∈Sn π(n)=n π∈Sn π(n)=n Die Permutationen π ∈ Sn mit π(n) = n können wir als die Permutationen von {1, . . . , n − 1} auffassen, und da n in keinem Fehlstand von π vorkommen kann, bleiben auch Fehlstände und Vorzeichen bei dieser Interpretation erhalten. Die obige Formel besagt also det Bn = det Ann . 175 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Wir wollen jetzt zeigen, dass für alle 1 ≤ j < n stets det Bj = (−1)n+j det Anj gilt, für j = n wissen wir dies wegen (−1)2n = 1 bereits. Sei also ein 1 ≤ j < n gegeben. Bezeichne τ ∈ Sn die Transposition die n und j vertauscht und sei B 0 die Matrix die aus Bj durch Permutation der Spalten gemäß τ , also durch Vertauschen der j-ten mit der n-ten Spalte entsteht. Sei weiter α ∈ Sn−1 die Permutation, die die Ziffern j, . . . , n − 1 zyklisch nach rechts verschiebt und sei A0 die (n − 1) × (n − 1) Matrix, die aus Anj durch Permutation der Spalten gemäß α entsteht. Dann ist a1j .. 0 A . 0 B = , an−1,j 0 ··· 0 1 und mit Lemma 3.(c) und der schon bewiesenen Aussage folgt det Bj = − det B 0 = − det A0 = −(−1)n−j−1 det Anj = (−1)n+j det Anj . Insgesamt ist damit det A = n X anj det Bj = n X (−1)n+j anj det Anj , j=1 j=1 und wir haben die Entwicklung nach der letzten Zeile bewiesen. Die Entwicklung nach anderen Zeilen können wir hierauf zurückführen. Sei 1 ≤ i < n und bezeichne A0 die Matrix die aus A durch Vertauschen der i-ten und der n-ten Spalte entsteht. Mit Lemma 3.(c) und der schon bewiesenen Teilaussage folgt det A = − det A0 = − n X nj (−1)n+j aij det A0 . j=1 Ist α ∈ Sn−1 die Permutation die die Ziffern i, . . . , n − 1 zyklisch um eine Stelle nach rechts verschiebt, so geht A0 nj für jedes 1 ≤ j ≤ n aus Aij durch Permutation der Zeilenn gemäß α hervor, also det A0 nj = (−1)α det Aij = (−1)n−i−1 det Aij . Insgesamt ist damit det A = n X n+j+1−n−i−1 (−1) ij aij det A = j=1 n X (−1)i+j aij det Aij . j=1 Damit haben wir auch die Entwicklung nach einer beliebigen Zeile bewiesen. Die Entwicklung nach Spalten folgt dann schließlich durch Übergang zur transponierten Matrix mit Lemma 3.(a). 176 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Eine der Folgerungen der Laplace-Entwicklung sind die sogenannten Cramerschen Regeln. Es gibt zwei derartige Regeln, eine für die Berechnung der Inversen einer n × n Matrix und eine für das Lösen regulärer linearer Gleichungssysteme. Die Cramersche Regel für die inverse Matrix wird sich dabei aus dem folgenden Satz über die komplementäre Matrix ergeben. Satz 10.9 (Satz über die Komplementärmatrix) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A sei eine n × n Matrix über K. Dann gilt det A ... b=A b·A = A·A = det(A). det A b in der i-ten Zeile Beweis: Seien 1 ≤ i, j ≤ n gegeben. Der Eintrag des Produkts A · A und j-ten Spalte ist dann gleich n X k=1 bkj = Aik A n X (−1)j+k Aik det Ajk , k=1 Im Fall eines Diagonaleintrags, d.h. wenn i = j ist, so steht hier gerade die Entwicklung von det A nach der i-ten Zeile, und die Summe ist nach dem Entwicklungssatz Satz 8, in seiner Version für Zeilen, gleich der Determinante det A von A. Nun betrachten wir den Fall i 6= j. Dann ist die Summe ebenfalls nach dem Entwicklungssatz für Zeilen gleich einer Determinante det A0 , wobei A0 die n × n Matrix über K ist, die wir aus A erhalten indem die j-te Zeile von A durch eine Kopie der i-ten Zeile von A ersetzt wird. Insbesondere hat A0 zwei identische Zeilen, und damit ist det A0 = 0 nach Lemma b = det(A). Die andere Gleichung A b · A = det(A) 3.(g). Dies beweist die Formel A · A folgt ebenso mit dem Entwicklungssatz nach Spalten. Damit können wir nun die beiden Cramerschen Regeln einsehen. Korollar 10.10 (Cramersche Regel für die Matrixinversion) Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A sei eine n × n Matrix über K. Dann ist A genau dann invertierbar wenn det A 6= 0 ist, und in diesem Fall gilt A−1 = 1 b A. det A Beweis: ”=⇒” Dies gilt nach Korollar 6. ”⇐=” Dies ist klar nach Satz 9. 177 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Wegen 1 −1 2 1 2 0 2 −3 = 2 · 1 1 1 2 1 + 3 · 1 −1 = 2 · (−1) + 3 · 3 = 7 1 2 haben wir in unserem obigen Beispiel damit −1 8 5 −1 1 −1 2 1 0 3 . 2 −3 = −3 −1 7 −2 −3 2 1 2 1 Etwas trickreicher könnten wir auch den ersten Eintrag der ersten Zeile des Produkts b ausrechnen, und wir wissen dann nach Satz 9 das die so erhaltene Zahl die DeA·A terminante von A ist. Mit Hilfe der Cramerschen Regel für die Matrixinversion können wir jetzt auch die schon in §9.4 angesprochene Tatsache beweisen, dass ein Produkt zweier n × n Matrizen genau dann invertierbar ist wenn beide Faktoren invertierbar sind. Korollar 10.11: Seien K ∈ {R, C}, n ∈ N mit n ≥ 1 und A, B zwei n×n Matrizen über K. Dann ist das Produkt AB genau dann invertierbar wenn A und B beide invertierbar sind. Beweis: Nach dem Multiplikationssatz für Determinanten Satz 5 gilt det(AB) = det(A) · det(B). Damit ist genau dann det(AB) 6= 0 wenn det A 6= 0 und det B 6= 0 gelten. Nach Korollar 10 folgt daraus die Behauptung. Kombinieren wir die Cramersche Regel für inverse Matrizen mit dem Lösungssatz §9.Satz 5 für reguläre lineare Gleichungssysteme, so ergibt sich die Cramersche Regel für lineare Gleichungssysteme. Korollar 10.12 (Cramersche Regel für reguläre lineare Gleichungssysteme) Gegeben sei ein reguläres lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 .. .. .. .. . . . . an1 x1 + an2 x2 + · · · + ann xn = bn über K ∈ {R, C}, d.h. Ax = b mit einer invertierbaren Koeffizientenmatrix A ∈ K n×n . Für 1 ≤ i ≤ n sei Ai die n × n Matrix, die aus A durch Ersetzen der i-ten Spalte von A durch die rechte Seite b entsteht. Dann ist die Lösung von Ax = b durch xi = det Ai det A (1 ≤ i ≤ n) gegeben. 178 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Beweis: Nach §9.Satz 5 und Korollar 10 ist die Lösung von Ax = b durch x = A−1 b = 1 b Ab det A b gleich gegeben. Für 1 ≤ i ≤ n ist der i-te Eintrag von Ab n X b aij bj = j=1 n X (−1)i+j bj det Aji , j=1 und letztere Summe ist nach dem Entwicklungssatz Satz 8 gerade gleich der Determinante det Ai . Als ein Beispiel zur Cramerschen Regel wollen wir einmal das lineare Gleichungssystem x − y + 2z = 1 2y − 3z = 0 x + 2y + z = −1 lösen. Die Koeffizientenmatrix A dieses linearen Gleichungssystem ist gerade die bereits oben als Beispiel verwendete Matrix 1 −1 2 2 −3 A= 0 1 2 1 von der wir bereits det A = 7 nachgerechnet haben. Die rechte Seite ist 1 b = 0 , −1 und dies müssen wir der Reihe nach als erste, zweite, dritte Spalte von A einsetzen, um die Lösung mit der Cramerschen Regel zu erhalten. Es ergibt sich damit die Lösung 1 −1 2 2 −3 −1 1 1 2 = − = 1 (8 + 1) = 9 , 0 2 −3 x = 2 1 2 −3 7 7 7 7 −1 2 1 1 1 2 1 1 3 1 = = −6, 0 0 −3 y = 1 −1 7 7 7 1 −1 1 1 −1 1 1 1 2 1 = −4. 0 2 0 = z = 7 7 1 −1 7 1 2 −1 179 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Obwohl die Cramerschen Regeln sowohl für die inverse Matrix als auch für reguläre lineare Gleichungssysteme zunächst nach einer guten Rechenmethode aussehen, da sie eben so schön direkte und explizite Formeln sind, sind sie fürs praktische Rechnen meist eher ungeeignet. Es ist eine relativ große Zahl von Determinanten zu berechnen, und da ist es fast immer schneller unseren Gauß-Algorithmus sowohl zum Lösen linearer Gleichungssysteme als auch zur Berechnung der inversen Matrix heranzuziehen. Der einzige Fall in dem die Cramerschen Regeln manchmal brauchbar sind ist n = 3, aber selbst hier fährt man mit der Gaußschen Elimination fast immer besser. $Id: vektor.tex,v 1.9 2011/07/14 18:35:15 hk Exp $ §11 Vektorräume Wir kommen jetzt zum wohl abstraktesten Kapitel dieses ganzen Semesters, der Theorie der sogenannten Vektorräume. Normalerweise ist ein Vektor etwas das eine Länge und eine Richtung hat, und man unterscheidet zwischen Dingen wie Orts- und Richtungsvektoren. Im mathematischen Sprachgebrauch wird das Wort Vektor“ al” lerdings in einem etwas anderen Sinne verwendet. Konzepte wie Orts-“ und Rich” ” tungsvektoren“ kommen überhaupt nicht explizit vor und unter einem Vektor versteht man ein Element eines sogenannten Vektorraums. Ein Vektor kann dann alles mögliche sein, etwa ein Vektor im üblichen Sinne, eine Folge, eine Funktion oder etwas noch ganz anderes. Was Vektor“ gerade konkret bedeutet hängt immer am Kontext des ” behandelten Vektorraums. Wir werden Vektorräume sowohl mit reellen als auch mit komplexen Skalaren betrachten, und in diesem ganzen Kapitel bezeichne K ∈ {R, C} entweder die reellen oder die komplexen Zahlen. Ein allgemeiner Vektorraum ist ein recht abstrakter Begriff, der nun eingeführt werden soll. 11.1 Der Vektorraumbegriff Definition 11.1 (Die Vektorraumaxiome) Ein Vektorraum über K besteht aus einer Menge V , deren Elemente Vektoren genannt werden, und zwei Abbildungen + : V × V → V ; (x, y) 7→ x + y und · : K × V → V ; (λ, x) 7→ λx, die die folgenden Vektorraumaxiome erfüllen: (A1) Das Assoziativgesetz der Addition: Für alle x, y, z ∈ V gilt (x + y) + z = x + (y + z). 180 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 (A2) Das Kommutativgesetz der Addition: Für alle x, y ∈ V gilt x + y = y + x. (A3) Existenz des Nullvektors: Es gibt ein Element 0 ∈ V mit 0 + x = x für alle x∈V. (A4) Existenz additiver Inverser: Für jedes x ∈ V existiert ein Vektor −x ∈ V mit (−x) + x = 0. (S1) Assoziativgesetz der Multiplikation: Für alle λ, µ ∈ K und alle x ∈ V gilt λ · (µ · x) = (λµ) · x. (S2) Multiplikation mit Eins: Für jedes x ∈ V gilt 1 · x = x. (S3) Distributivgesetz für Vektoren: Für alle λ ∈ K und alle x, y ∈ V gilt λ · (x + y) = λ · x + λ · y. (S4) Distributivgesetz für Skalare: Für alle λ, µ ∈ K, x ∈ V gilt (λ + µ) · x = λ · x + µ · x. Beachte das die vier additiven Axiome (A1), (A2), (A3), (A4) mit den vier additiven Körperaxiomen aus §4.1 übereinstimmen. Daher gelten auch die Folgerungen aus diesen, wir wissen also das die Null 0 des Vektorraums eindeutig festgelegt ist, das die additive Inverse −x jedes Vektors x ∈ V eindeutig bestimmt ist und das −(x + y) = (−x) + (−y) für alle x, y ∈ V gilt. Außerdem können wir damit auch wieder die Subtraktion x − y := x + (−y) für Vektoren x, y ∈ V definieren. Schließlich folgen mit den multiplikativen Axiomen (S1) bis (S4) auch −x = (−1) · x und λ · x = 0 ⇐⇒ (λ = 0 ∨ x = 0) für alle x ∈ V , λ ∈ K. Dies kann man ähnlich wie die entsprechenden Aussagen für die multiplikativen Körperaxiome zeigen, und soll hier nicht vorgeführt werden. Es ist übrigens tatsächlich nötig 1 · x = x zu fordern, andernfalls wäre es möglich das λ · x = 0 für alle Vektoren x ∈ V und alle λ ∈ K gilt. In allgemeinen Vektorräumen läßt sich also wie gewohnt rechnen. Wir wollen jetzt einige Beispiele von Vektorräumen durchgehen. 1. Das Urbeispiel eines Vektorraums ist der Vektorraum K n der n-Tupel von Zahlen aus K, also Rn oder Cn . Die Addition derartiger n-Tupel und die Multiplikation mit Skalaren hatten wir in §9.1 eingeführt, und dort hatten wir auch bereits die Gültigkeit der verschiedenen Vektorraumaxiome festhehalten. 181 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 2. Ein sehr ähnliches Beispiel eines Vektorraums ist die Menge a11 · · · a1n .. . m×n . . . K := . . . a11 , . . . , amn ∈ K a m1 · · · amn aller m × n Matrizen über K, erneut mit der in §9.1 eingeführten Addition und Multiplikation mit Skalaren. In Wahrheit kann man diesen Vektorraum natürlich auch als den K nm auffassen, indem wir einfach die m · n Matrixeinträge hintereinander in einer Zeile hinschreiben. 3. Ein anderer wichtiger Typ von Vektorräumen sind Funktionsräume, also Mengen deren Elemente Funktionen sind. Ist M eine beliebige Menge, so betrachten wir die Menge K M := {f |f : M → K ist eine Abbildung} aller Abbildungen von M nach K. Die Elemente von K M können wir addieren, sind f, g ∈ K M , so sind f und g Abbildungen von M nach K, und wir definieren die Summe f + g dieser Abbildungen durch f + g : M → K; x 7→ f (x) + g(x). Ebenso können wir für eine Funktion f ∈ K M und eine Zahl c ∈ K eine neue Funktion c · f : M → K durch c · f : M → K; x 7→ cf (x) definieren. Es ist leicht, aber etwas ermüdend, hier die Gültigkeit der Vektorraumaxiome vorzuführen, daher wollen wir uns dies hier ersparen, beziehungsweise es uns als eine Übungsaufgabe stellen. 4. Ist im vorigen Beispeil M = N, so wird K N = {(an )n∈N | an ∈ K für alle n ∈ N} beispielsweise zum Vektorraum aller Folgen in K. Betrachten wir etwa ganz konkret den Fall K = M = R, so ist V := RR die Menge aller reellen Funktionen f : R → R. Zum Beispiel sind dann die Sinusfunktion sin, der Cosinus cos, die Exponentialfunktion exp Elemente des Vektorraums V , und wir können Ausdrücke wie √ f := sin + 2 · cos − 2 · exp hinschreiben. Dies ist dann die Funktion f : R → R; x 7→ sin x + 2 cos x − 182 √ 2ex . Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Hieran sieht man insbesondere, dass das Wort Vektor“ hier wirklich nur eine Rollen” beschreibung der Elemente x ∈ V und keine intrinsische Eigenschaft dieser Elemente ist. In unserem Vektorraum V = RR ist die Sinusfunktion sin selbst ein Vektor. Ebenso sprechen wir im Zusammenhang mit Vektorräumen oft von Skalaren statt von Zahlen, auch dies ist nur eine Rollenbezeichnung, Skalare sind einfach Zahlen, das andere Wort wird nur verwendet um anzudeuten, dass wir sie an Vektoren heranzumultiplizieren gedenken. Ein weiteres Beispiel eines Vektorraums ergibt sich aus den linearen Gleichungssystemen. Angenommen wir haben ein homogenes lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = 0 a21 x1 + a22 x2 + · · · + a2n xn = 0 (∗) .. .. .. .. . . . . am1 x1 + am2 x2 + · · · + amn xn = 0 über K. Dann können wir die Menge x 1 .. n V := . ∈ K x1 , . . . , xn ist eine Lösung von (∗) x n aller Lösungen des Gleichungssystems betrachten. Nach §9.Satz 3.(a) sind Summen und Vielfache von Elementen aus V wieder Elemente aus V und somit haben wir eine auf V definierte Addition und eine auf V definierte Multiplikation mit Skalaren. Dass diese die Vektorraumaxiome erfüllen, V also ein Vektorraum ist, folgt im wesentlichen daraus das der umgebende K n ein Vektorraum ist. Die Axiome (A1), (A2), (S1), (S2), (S3) und (S4) fordern die Gültigkeit gewisser Formeln für alle Elemente von V , und sind damit automatisch wahr da sie sogar für alle Elemente der größeren Menge K n gelten. Die verbleibenden Axiome (A3) und (A4) sind ein klein wenig komplizierter, da sie eine Existenzforderung enthalten. Für Axiom (A3) brauchen wir eine Null in V . Wir haben eine Null im K n , wir müssen also nur noch wissen das diese in V liegt. Dies ist glücklicherweise klar da die Null des K n gerade die triviale Lösung des homogenen linearen Gleichungssystems (∗) ist. Das letzte Axiom (A4) ist die Existenz additiver Inverser, und genau wie für die Null reicht es zu sehen, dass für jedes x ∈ V auch das in K n gebildete −x in V liegt. Dies ist wegen −x = (−1) · x klar. Damit ist auch die Lösungsmenge V ein Beispiel eines Vektorraums. 11.2 Untervektorräume und Erzeugendensysteme Wir hatten gesehen, dass die Lösungsmenge eines homogenen linearen Gleichungssystems in n Unbekannten einen Vektorraum bildet. Der Nachweis der acht Vektorraumaxiome ergab sich dabei im wesentlichen daraus, das diese alle im größeren Vektorraum K n gelten. Die verwendeten Eigenschaften homogener linearer Gleichungssysteme 183 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 waren zum einen das Summen und Vielfache von Lösungen wieder Lösungen sind und zum anderen das der Nullvektor des K n eine Lösung ist. Diese Eigenschaften führen uns auf den Begriff eines sogenannten Untervektorraums. Definition 11.2 (Untervektorräume eines Vektorraums) Sei V ein Vektorraum. Eine Teilmenge U ⊆ V heißt ein Untervektorraum von V , geschrieben als U ≤ V , wenn sie die folgenden drei Bedingungen erfüllt: (U1) Es ist 0 ∈ U . (U2) Für alle x, y ∈ U ist auch x + y ∈ U . (U3) Für alle x ∈ U und alle λ ∈ K ist auch λx ∈ U . Anstelle von Untervektorraum“ werden wir oft auch das kürzere Synonym Teil” ” raum“ verwenden. Manchmal werden für die beiden Bedingungen (U2) und (U3) auch die Sprechweisen U ist abgeschlossen unter der Addition“ beziehungsweise U ist ab” ” geschlossen unter der Multiplikation mit Skalaren“ verwendet. Anstelle von (U1) kann man auch die bei Gültigkeit von (U3) äquivalente Bedingung U 6= ∅ verwenden, gibt es nämlich überhaupt ein x ∈ U so ist nach (U3) auch 0 = 0 · x ∈ U . Da U 6= ∅ aber eigentlich so gut wie immer bewiesen wird indem 0 ∈ U gezeigt wird, kann man dies auch gleich als die Bedingung verwenden. Genau wie wir eingesehen haben, dass die Lösungsmenge eines homogenen linearen Gleichungssystems einen Vektorraum bildet, kann man auch zeigen das jeder Untervektorraum eines Vektorraums selbst ein Vektorraum ist. Ein Beispiel eines Untervektorraums sind natürlich die Lösungsmengen eines homogenen linearen Gleichungssystems in n Variablen als Untervektorräume des K n . Als ein etwas komplizierteres Beispiel betrachten wir den Vektorraum K N aller Folgen in K. Dieser enthält die Menge C := (an )n∈N ∈ K N (an )n∈N ist konvergent , und wir behaupten, dass C ein Untervektorraum von K N ist. Dass 0 ∈ C gilt, ist dabei klar, konstante Folgen sind ja insbesondere konvergent. Die beiden anderen Bedingungen (U2), (U3) besagen, dass Summen und Vielfache von konvergenten Folgen wieder konvergent sind, und dies ist gerade §6.Satz 6.(a,b). Also ist C ein Untervektorraum von K N , und somit selbst ein Vektorraum. Die für uns wichtigste Klasse von Untervektorräumen wird durch das Bilden des sogenannten Aufspanns gegebener Vektoren in einem Vektorraum V definiert. Um dieses Konzept einzuführen benötigen wir die sogenannten Linearkombinationen von Vektoren in einem Vektorraum. Definition 11.3 (Linearkombinationen) Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißt ein weiterer Vektor v ∈ V eine Linearkombination von v1 , . . . , vn , wenn es Skalare λ1 , . . . , λn ∈ K mit n X v = λ1 v 1 + . . . + λn v n = λk v k k=1 184 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 gibt. Die Menge aller Linearkombinationen von v1 , . . . , vn heißt das Erzeugnis, oder auch der Aufspann, von v1 , . . . , vn , geschrieben als ) ( n X hv1 , . . . , vn i = span(v1 , . . . , vn ) := λk v k λ1 , . . . , λ n ∈ K . k=1 Für Vektoren v1 , . . . , vn im Spaltenvektorraum K m ist es uns leicht möglich zu entscheiden, ob ein weiterer Vektor v eine Linearkombination der v1 , . . . , vn ist. Schreiben wir hierzu a1n a12 a11 v1 := ... , v2 := ... , . . . , vn := ... , amn am2 am1 so ist für alle x1 , . . . , xn stets a11 a12 a1n a11 x1 + · · · + a1n xn .. x1 · ... + x2 · ... + · · · + xn · ... = . am1 am2 amn am1 x1 + · · · + amn xn also wobei x1 x1 v1 + · · · + xn vn = A · ... , xn a11 · · · a1n .. , .. A := ... . . am1 · · · amn die Matrix ist, deren Spalten gerade die Vektoren v1 , . . . , vn sind. Damit ist ein Vektor v ∈ K m genau dann eine Linearkombination der Vektoren v1 , . . . , vn wenn das lineare Gleichungssystem Ax = v eine Lösung hat. Insbesondere können wir dies mit dem Gaußschen Eliminationsverfahren effektiv entscheiden. Nehmer wir beispielsweise Aufgabe (40) in der gefragt wird für welche b1 , b2 , b3 , b4 ∈ R das lineare Gleichungssystem x 2x x 3x + 2y − z = − y + z = + 3y + 2z = + y + z = lösbar ist, so können wir diese Aufgabe auch drei Vektoren 1 2 2 −1 v1 = 1 , v2 = 3 3 1 185 b1 b2 b3 b4 als die Berechnung des Aufspanns der −1 , v3 = 1 2 1 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 im R4 interpretieren. Die rechnerische Bestimmung des Aufspanns von Vektoren im K m stellt uns also vor keine neuen Probleme. Wir stellen jetzt die Grundeigenschaften von Untervektorräumen zusammen. Lemma 11.1 (Grundeigenschaften von Untervektorräumen) Sei V ein Vektorraum. Dann gelten: (a) Die Mengen V und {0} sind Untervektorräume von V , genannt die beiden trivialen Untervektorräume. (b) Sind U ein Untervektorraum von V und W ein Untervektorraum von U , so ist W auch ein Untervektorraum von V . (c) Sind U, W zwei Untervektorräume von V , so ist auch U ∩ V ein Untervektorraum von V . (d) Sind U, W zwei Untervektorräume von V , so ist auch die Summe U + W := {x + y|x ∈ U, y ∈ W } ⊆ V ein Untervektorraum von V . (e) Sind v1 , . . . , vn ∈ V , so ist der Aufspann hv1 , . . . , vn i der kleinste Untervektorraum von V , der v1 , . . . , vn enthält. Beweis: Die ersten drei Aussagen (a,b,c) sind alle klar. (d) Wir kommen daher zum Beweis von (d). Zunächst ist 0 = 0 + 0 ∈ U + W . Sind u, u0 ∈ U + W , so gibt es x, x0 ∈ U und y, y 0 ∈ W mit u = x + y und u0 = x0 + y 0 , also ist auch u + u0 = (x + x0 ) + (y + y 0 ) ∈ U + W . Weiter haben wir für jedes λ ∈ K dann auch λ · u = λ · (x + x0 ) = λ · x + λ · x0 ∈ U + W . Damit ist auch U + W ein Untervektorraum von V und (d) ist bewiesen. P (e) Schreibe U := hv1 , . . . , vn i. Zunächst ist 0P= ni=1 0 · vi ∈ UP . Sind x, y ∈ U , so existieren λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit x = ni=1 λi vi und y = ni=1 µi vi . Damit ist auch n n n X X X x+y = λi v i + µi v i = (λi + µi )vi ∈ U. i=1 i=1 i=1 Außerdem ist für jedes λ ∈ K auch λ·x= n X (λλi )vi ∈ U. i=1 P Damit ist U ein Unterraum von K. Für jedes 1 ≤ i ≤ n gilt auch vi = nj=1 δij vj ∈ U , es ist also v1 , . . . , vn ∈ U . Ist umgekehrt P W ≤ V ein Teilraum von V mit v1 , . . . , vn ∈ W , so gilt für alle λ1 , . . . , λn ∈ K auch ni=1 λi vi ∈ W , d.h. jede Linearkombination von v1 , . . . , vn liegt wieder in W . Damit ist U ⊆ W . 186 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 Das im letzten Beweisteil verwendete Kronecker-Symbol“ ” ( 1, α = β, δαβ := 0, α 6= β wurde dabei in Aufgabe (36) eingeführt. Der Begriff des Aufspanns von Vektoren, führt uns im nächsten Schritt zu den sogenannten Erzeugendensystemen eines Vektorraums. Definition 11.4 (Erzeugendensysteme eines Vektorraums) Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißen v1 , . . . , vn ein Erzeugendensystem von V , wenn V = hv1 , . . . , vn i ist, wenn also jeder Vektor v ∈ V Linearkombination von v1 , . . . , vn ist. Wir wollen nun noch drei wichtige Grundbeispiele von Erzeugendensystemen besprechen. 1. Das erste Beispiel ist dabei besonders trivial, aber wichtig. Für beliebige Vektoren v1 , . . . , vn ∈ V in einem Vektorraum V ist v1 , . . . , vn ein Erzeugendensystem des Aufspanns hv1 , . . . , vn i. 2. Der K n besitzt ein besonders einfaches Erzeugendensystem bestehend aus den Vektoren 1 0 0 0 1 0 e1 := .. , e2 := .. , . . . , en := .. , . . . 0 0 1 denn jeder Vektor x ∈ K n x1 x2 x = .. = x1 · . xn ist ja eine Linearkombination 1 0 1 0 .. + x2 · .. + · · · + xn · . . 0 0 0 0 .. . n X xk ek . = k=1 1 Im dreidimensionalen reellen Fall V = R3 , schreibt man gelegentlich i, j, k für die drei Vektoren e1 , e2 , e3 . 3. Analog bilden die in Aufgabe (36) eingeführten Matrizen Eij (1 ≤ i ≤ m, 1 ≤ j ≤ n) mit einer Eins in der j-ten Spalte der i-ten Zeile und Nullen sonst ein Erzeugendensystem des Matrixraums K m×n . 4. Ein weiteres Beispiel von Erzeugendensystemen kennen wir auch bereits aus unserer Diskussion linearer Gleichungssysteme aus §8. Angenommen wir haben ein 187 Mathematik für Physiker I, WS 2010/2011 Montag 17.1.2011 homogenes lineares Gleichungssystem a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . + · · · + a1n xn + · · · + a2n xn .. . am1 x1 + am2 x2 + · · · + amn xn = 0 = 0 (∗) .. . = 0 und betrachten die Menge V seiner Lösungen. Wie bereits bemerkt ist V ein Teilraum des K n , also selbst ein Vektorraum. Wenden wir nun das Gaußsche Eliminationsverfahren auf das lineare Gleichungssystem (∗) an, so erhalten wir ein äquivalentes lineares Gleichungssystem xi1 + c1,i1 +1 xi1 +1 + · · · + c1i2 xi2 + · · · + c1ir xir + · · · = 0 xi2 + · · · + c2ir xir + · · · = 0 .. .. . . xir + · · · = 0, in Stufenform, dessen untere m − r nur aus Nullen bestehende Zeilen hier fortgelassen werden, d.h. r ist die Anzahl der nach Anwendung des Gaußschen Eliminationsverfahrens verbleibenden nicht trivialen Zeilen. Wir haben hier die Variante des Eliminationsverfahrens verwendet, die den führenden Eintrag jeder verbleibenden Zeile durch Multiplikation mit einer Konstanten auf Eins bringt. Jede dieser r Zeilen legt eine der Unbekannten fest, d.h. die Werte von xi1 , . . . , xir werden festgelegt während die anderen Unbekannten frei bleiben. Dabei haben wir xir = −cr,ir +1 xir +1 − · · · − crn xn , xir−1 = −cr−1,ir−1 +1 xir−1 +1 − · · · − cr−1,ir xir − cr−1,ir +1 xir +1 − · · · − cr1 ,n xn = −cr−1,ir−1 +1 xir−1 +1 − · · · − (cr−1,ir +1 + cr−1,ir cr,ir +1 )xir +1 − · · · − (cr−1,n + cr−1,ir crn )xn und so weiter. Benennen wir die frei bleibenden Unbekannten in t1 , . . . , tn−r um, so können wir die allgemeine Lösung des homogenen linearen Gleichungssystems (∗) damit in der Form ∗ ∗ ∗ . .. .. .. . . . . . ∗ .. . 1 x = t1 · + t2 · ∗ + · · · + tn−r · ... ... 1 .. . . . .. .. ∗ 0 0 1 188 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 schreiben. Damit wird der Lösungsraum des homogenen linearen Gleichungssystems (∗) von diesen n − r Vektoren erzeugt. Der Lösungsraum V hat also ein aus n − r Vektoren bestehendes Erzeugendensystem. Vorlesung 20, Freitag 21.1.2011 Am Ende der letzten Sitzung hatten wir wieder einmal den Lösungsraum eines homogenen linearen Gleichungssystems aus m Gleichungen in n Unbekannten besprochen. Blieben nach Durchführung des Gaußschen Eliminationsverfahrens r von Null verschiedene Zeilen übrig, so hatte der Lösungsraum ein Erzeugendensystem aus n − r Vektoren. Dies sollte an einem kleinen Beispiel klarer werden. Wir betrachten das folgende homogene lineare Gleichungssystem in den Unbekannten x1 , . . . , x6 x1 + 2x4 − x5 =0 3x4 + x6 = 0 Die Unbekannten x2 , x3 kommen hier gar nicht vor, aber das ist gewollt. Dieses Gleichungssystem ist bereits in Stufenform, wobei die Unbekannten x1 und x4 festgelegt sind, während x2 , x3 , x5 und x6 frei bleiben. Wir haben 1 2 x4 = − x6 und x1 = x5 − 2x4 = x5 + x6 , 3 3 benennen wir also die freien Unbekannten x2 , x3 , x5 , x6 in t1 , t2 , t3 , t4 um, so wird der Lösungsraum dieses homogenen linearen Gleichungssystems zu 2 t t + 4 3 3 t 1 t 2 − 1 t4 t1 , t2 , t3 , t4 ∈ R 3 t3 t4 0 0 0 1 1 0 + t2 · + t3 · = t1 · 0 0 0 0 0 0 189 1 0 0 0 1 0 2 3 0 + t4 · 01 − 3 0 1 t1 , t2 , t3 , t4 ∈ R . Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 Ein Erzeugendensystem des Lösungsraums besteht hier also aus den vier Vektoren 2 1 0 0 3 0 0 0 1 0 0 1 0 u1 = , u 2 = , u 3 = , u 4 = 1 . −3 0 0 0 0 1 0 0 0 0 0 1 Die spezielle Gestalt dieses Erzeugendensystems wird später noch einmal wichtig werden, jeder der Vektoren hat oben einige weitgehend beliebige Einträge, dann folgt eine 1 und der untere Teil des Vektors besteht nur aus Nullen. Gehen wir die Vektoren dabei von links nach rechts durch, so wird der untere aus Nullen bestehende Teil immer kleiner. Zum Abschluss dieses Abschnitts wollen wir noch die Grundeigenschaften von Erzeugendensystemen festhalten. Lemma 11.2 (Grundeigenschaften von Erzeugendensystemen) Sei V ein Vektorraum über K. (a) Sind v1 , . . . , vn , w1 , . . . , wm ∈ V , so ist hv1 , . . . , vn , w1 , . . . , wm i = hv1 , . . . , vm i + hw1 , . . . , wm i. (b) Sind v1 , . . . , vn ein Erzeugendensystem von V und w1 , . . . , wm ∈ V mit vi ∈ hw1 , . . . , wm i für alle 1 ≤ i ≤ n, so ist auch w1 , . . . , wm ein Erzeugendensystem von V . Beweis: (a) Es ist hv1 , . . . , vn i + hw1 , . . . , wm i ( n ) ( m ) X X λi v i λ1 , . . . , λ n ∈ K + µi wi µ1 , . . . , µm ∈ K = i=1 (i=1 ) n m X X λ , . . . , λn ∈ K, = λi v i + µj wj 1 = hv1 , . . . , vn , w1 , . . . , wm i. µ1 , . . . , µ m ∈ K i=1 j=1 (b) Nach Lemma 1.(e) gilt V = hv1 , . . . , vn i ⊆ hw1 , . . . , wm i ⊆ V, also ist auch V = hw1 , . . . , wm i, d.h. w1 , . . . , wm ist ein Erzeugendensystem von V . Aussage (b) des Lemmas ist oft nützlich um bei gegebenen Vektoren nachzuweisen, dass sie ein Erzeugendensystem bilden. Anstatt einzusehen, dass man jeden anderen Vektor als Linearkombination dieser Vektoren schreiben kann, reicht es dies für die Vektoren eines bereits bekannten Erzeugendensystems zu tun. 190 Mathematik für Physiker I, WS 2010/2011 11.3 Freitag 21.1.2011 Lineare Unabhängigkeit, Basen und Dimension Haben wir ein Erzeugendensystem v1 , . . . , vn des Vektorraums V , so können wir jeden Vektor v ∈ V als eine Linearkombination v = λ1 v 1 + · · · + λn v n schreiben, aber leider ist diese Darstellung im Allgemeinen nicht eindeutig. Betrachten wir zum Beispiel einmal im R2 die drei Vektoren 1 1 1 v1 = , v2 = und v3 = . 1 −1 2 Wegen e1 = (1/2)(v1 + v2 ) und e2 = v3 − v1 sind v1 , v2 , v3 nach Lemma 2.(d) ein Erzeugendensystem des R2 . In diesem Erzeugendensystem können wir andere Vektoren auf mehrere verschiedene Arten als Linearkombinationen schreiben, zum Beispiel ist 1 1 e2 = v3 − v1 = v1 − v2 . 2 2 Von besonderem Interesse sind nun natürlich diejenigen Erzeugendensysteme für die die Darstellung anderer Vektoren als Linearkombination eindeutig ist. Die hierfür zuständige Bedingung ist die sogenannte lineare Unabhängigkeit. Definition 11.5: Sei V ein Vektorraum. Dann heißen die Vektoren v1 , . . . , vn linear unabhängig, wenn für alle Skalare λ1 , . . . , λn ∈ K aus λ1 v1 + · · · + λn vn = 0 bereits λ1 = · · · = λn = 0 folgt. Die Vektoren v1 , v2 , v3 des obigen Beispiels sind dann nicht linear unabhängig, da ja etwa 3 1 v1 − v2 − v3 = 0 2 2 gilt. Beachte das die lineare Unabhängigkeit auch die Eindeutigkeit der Koeffizienten in einer Linearkombination bedeutet, sind nämlich λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit λ 1 v 1 + · · · + λ n v n = µ1 v 1 + · · · + µn v n so folgt auch (λ1 − µ1 )v1 + · · · + (λn − µn )vn = 0, und damit ist λk − µk = 0, also λk = µk , für alle k = 1, . . . , n. Wir wollen uns jetzt kurz klarmachen, wie man die lineare Unabhängigkeit von Vektoren in einem Spaltenvektorraum K m rechnerisch nachweist. Seien also v1 , . . . , vn Vektoren im K m , und schreibe a12 a1n a11 v1 = ... , v2 = ... , . . . , vn = ... . am1 am2 amn 191 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 Die Linearkombinationen dieser Vektoren sind dann a11 λ1 + · · · + a1n λn ! .. λ1 v 1 + · · · + λn v n = = . am1 λ1 + · · · + amn λn 0 .. , . 0 und da die Vektoren v1 , . . . , vn nach Definition genau dann linear unabhängig sind, wenn diese Gleichung nur durch λ1 = · · · = λn = 0 lösbar ist, sind sie auch genau dann linear unabhängig wenn das homogene lineare Gleichungssystem + · · · + a1n xn .. . = 0 .. . am1 x1 + · · · + amn xn = 0 a11 x1 .. . nur die triviale Lösung hat. Diese Bedingung können wir rechnerisch noch etwas weiter auswerten. Nehme hierzu wieder an, dass wir das Gaußsche Eliminationsverfahren mit dem obigen homogenen linearen Gleichungssystem laufen lassen, und das dieses mit einen System in Stufenform, das aus r Gleichungen 6= 0 besteht, endet. Dann sind r der n Unbekannten durch das Gleichungssystem festgelegt, es hat also genau dann nur die triviale Lösung wenn r = n ist. Damit gilt auch Das Gaußssche Eliminationsverfahren angewandt auf die Matrix deren Spalten v1 , . . . , vn sind linear unabhängig ⇐⇒ die Vektoren v1 , . . . , vn sind endet mit n von Null verschiedenen Zeilen. Insbesondere stellt der Nachweis der linearen Unabhängigkeit im K m uns vor keine neuen rechnerischen Probleme. Wir wollen jetzt unsere Beispiele von Erzeugendensystemen aus dem vorigen Abschnitt auf lineare Unabhängigkeit überprüfen. Starten wir mit den Vektoren e1 , . . . , en ∈ K n . Für alle λ1 , . . . , λn ∈ K haben wir dann n X λk ek = λ1 k=1 1 0 .. . 0 + λ 2 0 1 .. . + · · · + λ n 0 0 0 .. . 1 = λ1 λ2 .. . , λn und damit folgt aus λ1 e1 + · · · + λn en = 0 sofort λ1 = · · · = λn = 0. Damit sind e1 , . . . , en linear unabhängig. Kommen wir nun zu den n − r Vektoren u1 , . . . , un−r , die den Lösungsraum des homogenen linearen Gleichungssystems Ax = 0 aufspannen. 192 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 Diese Vektoren hatten die spezielle Form ∗ ∗ ∗ . .. .. .. . . . . . .. ∗ . 1 u1 = , u2 = ∗ , . . . , un−r = ... , 1 ... .. . . . .. .. ∗ 0 0 1 und wir behaupten, dass sie linear unabhängig sind. Seien nämlich λ1 , . . . , λn−r ∈ K mit λ1 u1 + · · · + λn−r un−r = 0 gegeben. Beachten wir nun, dass nur der letzte Vektor un−r in der untersten Zeile eine Eins hat, während die restlichen Vektoren u1 , . . . , un−r−1 an dieser Stelle eine Null haben, so haben wir ∗ n−r .. X λk u k = . , 0= ∗ k=1 λn−r also ist zumindest λn−r = 0. Damit ist aber auch λ1 u1 +· · ·+λn−r−1 un−r−1 = 0. Schauen wir uns dann beim jetzt letzten Vektor un−r−1 die unterste von Null verschiedene Zeile an, so haben alle anderen Vektoren u1 , . . . , un−r−2 dort eine Null, und es folgt wieder λn−r−1 = 0. So fortfahrend erhalten wir schließlich λn−r = λn−r−1 = · · · = λ1 = 0. Damit sind u1 , . . . , un−r tatsächlich linear unabhängig, und somit wird der Lösungsraum eines homogenen linearen Gleichungssystems von n − r linear unabhängigen Vektoren erzeugt, wobei r wieder die Anzahl der nach dem Gaußschen Eliminationsverfahren verbleibenden von Null verschiedenen Zeilen bezeichnet. Wir kommen jetzt zu einer ganzen Sequenz eher theoretischer Aussagen über lineare Unabhängigkeit und Erzeugendensysteme in einem abstrakten Vektorraum. In der Vorlesung wurden diese Tatsachen nur übersichtsweise vorgestellt und nicht weitergehend begründet. In diesem Skript wollen wir die vollständigen Beweise mit angeben. Lemma 11.3 (Grundeigenschaften der linearen Unabhängigkeit) Seien V ein Vektorraum über K und v1 , . . . , vn ∈ V . (a) Ist v ∈ V , so sind v1 , . . . , vn , v genau dann linear unabhängig wenn v1 , . . . , vn linear unabhängig sind und v ∈ / hv1 , . . . , vn i gilt. (b) Die folgenden Aussagen sind äquivalent: 1. Die Vektoren v1 , . . . , vn sind linear unabhängig. 193 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 2. Kein vi ist eine Linearkombination der anderen, d.h. für jedes 1 ≤ i ≤ n ist vi ∈ / hv1 , . . . , vbi , . . . , vn i (dabei ist b das sogenannte Auslassungssymbol, d.h. die so bezeichneten Terme sollen weggelassen werden). 3. Für jedes 1 ≤ i ≤ n ist vi ∈ / hv1 , . . . , vi−1 i. Beweis: (a) ”=⇒” Dass die Vektoren v1 , . . . , vn linear Pnunabhängig sind ist klar. Wäre v ∈ hv1 , . . . , vn i, so gäbe es λ1 , . . . , λn ∈ K mit v = i=1 λi vi , und dann ist auch 1·v+ n X (−λi )vi = v − i=1 n X λi vi = 0, i=1 im Widerspruch zur linearen Unabhängigkeit Pn von v1 , . . . , vn , v. ”⇐=” Seien λ, λ1 , . . . , λn ∈ K mit λv + i=1 λi vi = 0. Wäre λ 6= 0, so hätten wir n n X 1X λi v=− λi v i = − vi ∈ hv1 , . . . , vn i, λ i=1 λ i=1 P also muss λ = 0 sein. Wegen ni=1 λi vi = 0 ist damit auch λ1 = · · · = λn = 0. Damit sind v1 , . . . , vn , v linear unabhängig. (b) (1)=⇒(2). Klar nach (a). (2)=⇒(3). Klar. (3)=⇒(1). Dies ergibt sich durch vollständige Induktion aus (a). Nennen wir die Vektoren v1 , . . . , vn linear abhängig, wenn sie nicht linear unabhängig sind, so besagt der Satz, dass v1 , . . . , vn genau dann linear abhängig sind, wenn für einen der Vektoren vi die Bedingung vi ∈ hv1 , . . . , vbi , . . . , vn i erfüllt ist, d.h. wenn sich ein vi als Linearkombination der anderen vj schreiben läßt. Entsprechend sagt man häufig auch anstelle von v ist eine Linearkombination von v1 , . . . , vn“ das v von v1 , . . . , vn ” ” linear abhängt“. Ist v1 , . . . , vn ein Erzeugendensystem des Vektorraums V , so läßt sich jedes v ∈ V als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, und sind die v1 , . . . , vn zusätzlich linear unabhängig, so sind die Koeffizienten λ1 , . . . , λn in dieser Linearkombination eindeutig bestimmt. In dieser Situation sprechen wir dann von einer Basis des Vektorraums V . Definition 11.6: Sei V ein Vektorraum über K. Eine Basis von V ist ein linear unabhängiges Erzeugendensystem v1 , . . . , vn von V . Wir wollen einsehen, dass jeder nicht zu große“ Vektorraum eine Basis hat. Was dabei ” nicht zu groß“ bedeutet werden wir bald genau sagen. Es gibt durchaus Vektorräume ” die überhaupt kein (endliches) Erzeugendensystem, und damit auch keines Basis, haben, beispielsweise der reelle Vektorraum aller Funktionen f : R → R. Die Existenz 194 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 von Basen in den anderen Fällen ergibt sich leicht durch eine kleine Umformulierung des Begriffs einer Basis, die wir in unserem nächsten Lemma beweisen werden. Lemma 11.4 (Charakterisierung der Basen eines Vektorraums) Seien V ein Vektorraum über K und v1 , . . . , vn ∈ V . Dann sind die folgenden Aussagen äquivalent: (a) Die Vektoren v1 , . . . , vn sind eine Basis von V . (b) Die Vektoren v1 , . . . , vn sind maximal linear unabhängig, also linear unabhängig und es kann kein weiterer Vektor zu ihnen hinzugefügt werden so, dass das vergrößerte System linear unabhängig bleibt. (c) Die Vektoren v1 , . . . , vn sind ein minimales Erzeugendensystem von V , d.h. sie bilden ein Erzeugendensystem von V und läßt man auch nur einen Vektor weg, so bilden die restlichen Vektoren kein Erzeugendensystem. Beweis: (a)=⇒(b). Jedes v ∈ V ist eine Linearkombination von v1 , . . . , vn , also sind v1 , . . . , vn , v nach Lemma 3.(a) nicht linear unabhängig. (b)=⇒(a). Ist v ∈ V , so sind v1 , . . . , vn , v nicht linear unabhängig, also ist nach Lemma 3.(a) auch v ∈ hv1 , . . . , vn i. Damit ist v1 , . . . , vn auch ein Erzeugendensystem von V , also eine Basis von V . (a)=⇒(c). Für 1 ≤ i ≤ n ist nach Lemma 3.(b) stets vi ∈ / hv1 , . . . , vbi , . . . , vn i und insbesondere sind v1 , . . . , vbi , . . . , vn kein Erzeugendensystem von V . (c)=⇒(a). Wäre vi ∈ hv1 , . . . , vbi , . . . , vn i für ein 1 ≤ i ≤ n, so wären auch die Vektoren v1 , . . . , vbi , . . . , vn nach Lemma 2.(b) ein Erzeugendensystem von V , im Widerspruch zur vorausgesetzten Minimalität von v1 , . . . , vn . Also ist vi ∈ / hv1 , . . . , vbi , . . . , vn i für jedes 1 ≤ i ≤ n, und nach Lemma 3.(b) sind v1 , . . . , vn linear unabhängig, also eine Basis von V . Gibt es also überhaupt ein Erzeugendensystem v1 , . . . , vn von V , so können wir aus diesem solange Vektoren rauswerfen bis wir zu einem minimalen Erzeugendensystem kommen, und dieses ist dann eine Basis von V . Man kann also jedes Erzeugendensystem eines Vektorraums zu einer Basis ausdünnen. Das eben bewiesene Lemma scheint auch zu zeigen, dass man linear unabhängige Vektoren immer zu einer Basis ergänzen kann. Angenommen wir starten mit linear unabhängigen Vektoren v1 , . . . , vn in V . Sind diese maximal, so sind sie bereits eine Basis von V . Andernfalls kann man sie durch einen Vektor vn+1 ∈ V zu einem linear unabhängigen System v1 , . . . , vn , vn+1 ergänzen. Ist dieses System maximal, so haben wir wieder eine Basis von V . Andernfalls können wir einen weiteren Vektor vn+2 ∈ V hinzufügen. Führen wir dies immer so weiter, so sollten wir schließlich auf eine Basis von V stossen. Leider muss das nicht so sein, es kann passieren das wir immer wieder einen neuen Vektor hinzufügen können, ohne je zu einem Ende zu kommen. Wir werden zeigen, dass dies nur passieren kann wenn der Vektorraum V zu groß“ ist. Sobald sich V von Vektoren w1 , . . . , wm erzeugen läßt, ” 195 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 muss das Verfahren zu einem Ende kommen. Zunächst führen wir einen Namen für solche Vektorräume ein. Definition 11.7: Ein Vektorraum V heißt endlich erzeugt wenn er ein Erzeugendensystem v1 , . . . , vn ∈ V besitzt. Wie bereits gezeigt muss jedes solche eine Basis enthalten, und insbesondere hat jeder endlich erzeugte Vektorraum eine Basis. Es wäre aber immer noch denkbar das es unendlich lange Ketten linear unabhängiger Vektoren gibt, selbst wenn der Vektorraum endlich erzeugt ist. Um einzusehen, dass dies nicht passieren kann beweisen wir gleich den sogenannten Steinitzschen Austauchsatz. Die Hauptaussage dieses Satz ist ihnen wohlbekannt, in den R2 passen nur zwei linear unabhängige Vektoren rein, in den R3 nur drei Stück und der Steinitzsche Austauschsatz verallgemeinert diese Tatsachen und sagt unter anderem, dass in einem Vektorraum mit einer Basis aus n Vektoren auch höchstens n linear unabhängige Vektoren hineinpassen. Lemma 11.5 (Steinitzsches Austauschlemma für Vektorräume) Seien V ein Vektorraum über K, w1 , . . . , wm ∈ V linear unabhängig und weiter seien auch v1 , . . . , vn ∈ hw1 , . . . , wm i linear unabhängig. Dann ist n ≤ m und wir können n der m Vektoren w1 , . . . , wm durch v1 , . . . , vn ersetzen so, dass das entstehende System 0 0 w10 , . . . , wm linear unabhängig mit hw1 , . . . , wm i = hw10 , . . . , wm i ist. Beweis: Wir beweisen dies durch Induktion nach n. Für n = 0 ist die Behauptung dabei klar. Nun sei n ∈ N und die Behauptung gelte für n linear unabhängige Vektoren v1 , . . . , vn ∈ hw1 , . . . , wm i. Wir kommen zum Induktionsschluß, seien also n + 1 linear unabhängige Vektoren v1 , . . . , vn+1 ∈ hw1 , . . . , wm i gegeben. Nach der Induktionsannahme ist n ≤ m und nach eventuellen Umnumerieren der w1 , . . . , wm können wir annehmen, dass v1 , . . . , vn , wn+1 , . . . , wm linear unabhängig mit hv1 , . . . , vn , wn+1 , . . . , wm i = hw1 , . . . , wm i sind. Insbesondere ist vn+1 ∈ hw1 , . . . , wm i = hv1 , . . . , vn , wn+1 , . . . , wm i, also existieren Skalare λ1 , . . . , λm ∈ K mit vn+1 = n X λi v i + i=1 m X λi wi . i=n+1 Da v1 , . . . , vn+1 linear unabhängig sind, ist nach Lemma 3.(b) aber vn+1 ∈ / hv1 , . . . , vn i und damit kann nicht λn+1 = · · · = λm = 0 sein, d.h. es ist n + 1 ≤ m und es gibt ein n < i ≤ m mit λi 6= 0. Durch ein weiteres eventuelles Umnumerieren der Vektoren wn+1 , . . . , wm können wir i = n + 1, also λn+1 6= 0 annehmen. Da die Vektoren v1 , . . . , vn , wn+1 , . . . , wm linear unabhängig sind, ergibt die Eindeutigkeit der Darstellung von vn+1 als Linearkombination auch vn+1 ∈ / hv1 , . . . , vn , wn+2 , . . . , wm i, also sind 196 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 v1 , . . . , vn , vn+1 , wn+2 , . . . , wm nach Lemma 3.(a) linear unabhängig. Wegen wn+1 = 1 λn+1 − n X λi vi + vn+1 − i=1 m X ! λi wi ∈ hv1 , . . . , vn+1 , wn+2 , . . . , wm i i=n+2 ist nach Lemma 2.(b) auch hv1 , . . . , vn+1 , wn+2 , . . . , wm i = hv1 , . . . , vn , wn+1 , . . . , wm i = hw1 , . . . , wm i. Damit ist die Behauptung auch für n + 1 bewiesen, und per vollständiger Induktion ist damit alles gezeigt. In einem endlichen erzeugten Vektorraum V hatten wir bereits gesehen, dass es stets eine Basis gibt, und nach dem Steinitzschen Austauschlemma kann es in V keine beliebig großen Systeme linear unabhängiger Vektoren geben. Damit liefert die weiter oben beschriebene Konstruktion, dass sich linear unabhängige Vektoren in V stets zu einer Basis von V ergänzen lassen. Damit ist bereits der Hauptteil des nun folgenden Satzes bewiesen. Satz 11.6 (Existenz von Basen und Dimension) Sei V ein endlich erzeugter Vektorraum über K. (a) Es gibt eine Basis v1 , . . . , vn von V . (b) Jedes Erzeugendensystem von V enthält eine Basis von V . (c) Sind v1 , . . . , vn ∈ V linear unabhängig, so lassen sich diese Vektoren zu einer Basis v1 , . . . , vm von V ergänzen. (d) Sind v1 , . . . , vn und w1 , . . . , wm zwei Basen von V , so ist n = m. Beweis: (b,c) Dies haben wir bereits eingesehen. (a) Klar nach (b). (d) Nach Lemma 5 sind n ≤ m und m ≤ n, also n = m. Die nach dem Satz eindeutig bestimmte Länge einer Basis von V wird als die Dimension des Vektorraums V bezeichnet. Definition 11.8: Sei V ein endlich erzeugter Vektorraum. Die Dimension dim V von V ist dann die nach Satz 6 eindeutig bestimmte Länge einer Basis von V . Die oben eingeführten Vektoren e1 , . . . , en ∈ K n sind ein linear unabhängiges Erzeugendensystem des K n , also eine Basis. Diese Basis wird auch als die kanonische Basis 197 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 oder die Standardbasis des K n bezeichnet. Da die kanonische Basis aus n Elementen besteht ist insbesondere dim K n = n. Ist + · · · + a1n xn + · · · + a2n xn .. . = 0 = 0 .. . am1 x1 + am2 x2 + · · · + amn xn = 0 a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . ein homogenes lineares Gleichungssystem, und verbleiben nach Ablauf des Gaußschen Eliminationsverfahrens r von Null verschiedene Zeilen, so haben wir oben eingesehen, dass das Eliminationsverfahren uns dann ein Erzeugendensystem des Lösungsraums U des Gleichungssystems liefert, das aus n − r linear unabhängigen Vektoren besteht. Dieses Erzeugendensystem ist dann eine Basis von U , und insbesondere ist dim U = n−r. Hieraus folgt insbesondere, dass das Gaußsche Eliminationsverfahren unabhängig von den konkret gewählten Zeilenoperationen am Ende immer auf dieselbe Anzahl von Null verschiedener Zeilen führt. Ist die Dimension des endlich erzeugten Vektorraums V bereits bekannt, so läßt sich die explizite Bestimmung von Basen rechnerisch noch etwas vereinfachen. Wollen wir n Vektoren v1 , . . . , vn aus V ansehen ob sie eine Basis bilden, so muss man eigentlich zeigen, dass sie zugleich linear unabhängig und ein Erzeugendensystem sind. Wenn allerdings die Zahl n bereits die Dimension von V ist, also n = dim V , so reicht es eine der beiden Bedingungen zu überprüfen, d.h. ein aus n = dim V Vektoren bestehendes Erzeugendensystem ist automatisch auch linear unabhängig und n = dim V viele linear unabhängige Vektoren bilden automatisch ein Erzeugendensystem. Diese Tatsachen lassen sich leicht beweisen. Korollar 11.7: Sei V ein endlich erzeugter Vektorraum und seien v1 , . . . , vn ∈ V . (a) Sind v1 , . . . , vn ein Erzeugendensystem von V , so ist n ≥ dim V und v1 , . . . , vn ist genau dann eine Basis von V wenn n = dim V ist. (b) Sind v1 , . . . , vn linear unabhängig so ist n ≤ dim V und genau dann ist v1 , . . . , vn eine Basis von V wenn n = dim V gilt. Beweis: (a) Nach Satz 6.(b) bilden m ≤ n viele der Vektoren v1 , . . . , vn eine Basis von V . Insbesondere ist n ≥ m = dim V und gilt n = dim V , so ist n = m und unsere Vektoren bilden selbst eine Basis von V . Sind umgekehrt v1 , . . . , vn eine Basis von V , so ist n = dim V . (b) Nach Satz 6.(c) lassen sich v1 , . . . , vn zu einer Basis v1 , . . . , vm von V ergänzen, und insbesondere ist n ≤ m = dim V . Ist dabei n = dim V = m, so sind v1 , . . . , vn selbst eine Basis von V . Ist umgekehrt v1 , . . . , vn als Basis von V vorausgesetzt, so ist auch n = dim V . 198 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 Sind also insbesondere a1n a12 a11 v1 = ... , v2 = ... , . . . , vn = ... , ann an2 an1 n Vektoren im K n , so ist v1 , . . . , vn genau dann eine Basis des K n , wenn das homogene lineare Gleichungssystem + · · · + a1n xn .. . = 0 .. . am1 x1 + · · · + amn xn = 0 a11 x1 .. . nur die triviale Lösung hat, und wie bereits gezeigt ist dies weiter genau dann der Fall wenn das Gaußsche Eliminationsverfahren angewendet auf die n × n Matrix mit den Spalten v1 , . . . , vn bis zur untersten Zeile durchläuft, also n von Null verschiedene Zeilen liefert. Wir wollen dies an einem kleinen Beispiel im R3 illustrieren. Betrachte etwa die drei Vektoren 1 −1 0 v1 := −1 , v2 := −1 , v3 := 3 . 0 1 −1 Um zu überprüfen, ob diese eine Basis sind können wir also die Matrix A mit Spalten v1 , v2 , v3 hinschreiben, und lassen dann das Gaußsche Eliminationsverfahren auf A laufen. Kommt dieses bei der untersten Zeile an, tritt also vorher keine nur aus Nullen bestehende Zeile auf, so sind die drei Vektoren eine Basis des R3 und sonst nicht. Führen wir dies einmal durch 1 −1 0 1 −1 0 1 −1 0 −1 −1 3 → 0 −2 3 → 0 −2 3 0 1 −1 0 1 −1 0 0 12 . Die Stufenform hat also drei von Null verschiedene Zeilen, und somit bilden v1 , v2 , v3 eine Basis des R3 . 11.4 Koordinatentransformationen Sei V ein endlich erzeugter Vektorraum und bezeichne n = dim V seine Dimension. Weiter sei v1 , . . . , vn eine Basis von V . Dann können wir jeden Vektor v ∈ V in eindeutiger Weise als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, man nennt λ1 , . . . , λn ∈ K dann die Koordinaten des Vektors v bezüglich der Basis v1 , . . . , vn . Diese Koordinaten hängen natürlich von der gewählten Basis ab, verwenden wir eine andere Basis, so ergeben sich auch andere Koordinaten. Wir wollen uns überlegen wie die Koordinaten eines Vektors bezüglich verschiedener Basen miteinander zusammenhängen. Zu diesem Zweck ist es hilfreich die sogenannten Koordinatenabbildungen 199 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 einzuführen, diese ordnen den Koordinaten λ1 , . . . , λn ihren zugehörigen Vektor zu. In anderen Worten ist die Koordinatenabbildung Ψ bezüglich der Basis v = (v1 , . . . , vn ) die bijektive Abbildung n Ψ : K → V ; (λ1 , . . . , λn ) 7→ n X λi v i . i=1 Wir schreiben Ψ = Ψv für die Koordinatenabbildung von V bezüglich der Basis v = (v1 , . . . , vn ) wenn wir die betrachtete Basis in der Notation hervorheben wollen. Ist beispielsweise V = K n und e := (e1 , . . . , en ) die kanonische Basis des K n , so ist die zugehörige Koordinatenabbildung durch x1 Ψ(x) = x1 e1 + · · · + xn en = ... xn gegeben, d.h. Ψe = idK n ist die identische Abbildung. Ist dagegen 1 −1 0 v1 := −1 , v2 := −1 , v3 := 3 0 1 −1 die schon oben als Beispiel verwendete Basis des R3 , so ist die zugehörige Koordinatenabbildung gegeben als 1 −1 0 x−y Ψ(x, y, z) = x · −1 + y · −1 + z · 3 = 3z − x − y . 0 1 −1 y−z Zu verschiedenen Basen eines Vektorraums gehören auch verschiedene Koordinatenabbildungen, und wir wollen uns jetzt überlegen wie genau sich diese Koordinatenabbildungen unterscheiden. Definition 11.9 (Transformationsmatrizen) Sei V ein endlich erzeugter Vektorraum und seien v1 , . . . , vn sowie w1 , . . . , wn zwei Basen von . Für jedes 1 ≤ i ≤ n können wir dann vi bezüglich der Basis w1 , . . . , wn PV n als vi = j=1 aji wj mit a1i , . . . , ani ∈ K schreiben, und mit diesen Zahlen bilden wir die Matrix a11 · · · a1n A := ... . . . ... . an1 · · · ann Diese Matrix ist dann die Transformationsmatrix oder Übergangsmatrix von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn von V . Die Transformationsmatrix A überführt die Koordinaten bezüglich der ersten Basis v = (v1 , . . . , vn ) in diejenigen bezüglich der anderen Basis w = (w1 , . . . , wn ). Damit 200 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 ist die folgende Beobachtung gemeint. Angenommen wir haben einen Vektor u ∈ V , der bezüglich der Basis v1 , . . . , vn die Koordinaten x1 , . . . , xn hat, also u = Ψv (x), beziehungsweise u = x1 v1 + · · · + xn vn . Setzen wir hier die Darstellung von vi für i = 1, . . . , n bezüglich der Basis w ein, so ergibt sich ! n n X n n n n X X X X X u= xi vi = aji xi wj = aji xi wj = (Ax)j wj , i=1 i=1 j=1 j=1 i=1 j=1 d.h. der Koordinatenvektor y ∈ K n von u bezüglich der Basis w ist gerade y = Ax. In anderen Worten haben wir Ψv (x) = Ψw (Ax) für jedes x ∈ K n . Die Transformation von v- auf w-Koordinaten erfolgt also durch Multiplikation mit der Transformationsmatrix zwischen v und w. Die Transformationsmatrix A ist immer invertierbar und ihre Inverse A−1 ist gerade die Transformationsmatrix in der anderen Richtung, also von der Basis w1 , . . . , wn von V zur Basis v1 , . . . , vn von V . Satz 11.8 (Invertierbarkeit der Transformationsmatrix) Seien V ein endlich erzeugter Vektorraum, v1 , . . . , vn sowie w1 , . . . , wn zwei Basen von V und bezeichne A ∈ K n×n die Transformationsmatrix von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn . Dann ist A invertierbar und die Inverse A−1 ist die Transformationsmatrix von der Basis w1 , . . . , wn zur Basis v1 , . . . , vn . Beweis: Sei B die Transformationsmatrix von der Basis w = (w1 , . . . , wn ) zur Basis v = (v1 , . . . , vn ). Für jedes x ∈ K n gilt Ψv (x) = Ψw (Ax) = Ψv (BAx), also BAx = x da Ψv bijektiv ist. Für jedes 1 ≤ i ≤ n ist die i-te Spakte von BA gleich dem Vektor BAei = ei , also haben wir BA = 1. Analog folgt AB = 1 und damit ist A invertierbar mit A−1 = B. 11.5 Lineare Abbildungen Wir wollen jetzt einen der wichtigsten Begriffe der linearen Algebra einführen, die sogenannten linearen Abbildungen. Dies sind Abbildungen zwischen Vektorräumen die die additive und multiplikative Struktur des Vektorraums erhalten. Definition 11.10: Seien V, W zwei Vektorräume über K. Eine Abbildung f : V → W heißt linear, wenn sie die folgenden beiden Bedingungen erfüllt: (L1) Für alle x, y ∈ V ist f (x + y) = f (x) + f (y). 201 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 (L2) Für alle x ∈ V , λ ∈ K ist f (λx) = λf (x). Wir wollen kurz einige Beispiele linearer Abbildungen angeben. 1. Die Abbildung x f : R3 → R; y 7→ x + y + z z ist linear. Für alle x, y ∈ R3 , λ ∈ R gelten nämlich x1 y1 x1 + y1 f (x + y) = f x2 + y2 = f x2 + y2 x3 y3 x3 + y3 = (x1 + y1 ) + (x2 + y2 ) + (x3 + y3 ) = (x1 + x2 + x3 ) + (y1 + y2 + y3 ) = f (x) + f (y) und λx1 x1 f (λx) = f λ · x2 = f λx2 = λx1 + λx2 + λx3 λx3 x3 = λ · (x1 + x2 + x3 ) = λf (x). Im nächsten Kapitel werden wir lineare Abbildungen f : K n → K m etwas näher untersuchen. 2. Sei M eine Menge und bezeichne V := K M den Vektorraum aller Funktionen von M nach K. Weiter sei x ∈ M ein Element von M . Dann ist die Abbildung ωx : V → K; f 7→ f (x) linear. In der Tat, sind f, g ∈ V und λ ∈ K, so gelten ωx (f + g) = (f + g)(x) = f (x) + g(x) = ωx (f ) + ωx (g) und ωx (λf ) = (λf )(x) = λf (x) = λωx (f ). 3. Ist V der Vektorraum aller konvergenten Folgen in K, so ist die Abbildung lim : V → K; (an )n∈N 7→ lim an n→∞ linear. Dies ist gerade eine Umformulierung von §6.Satz 6.(a,b). 202 Mathematik für Physiker I, WS 2010/2011 Freitag 21.1.2011 4. Sind U, V, W drei Vektorräume über K und f : V → W , g : W → U zwei lineare Abbildungen, so ist auch die Hintereinanderausführung g ◦f : V → U eine lineare Abbildung. Sind nämlich x, y ∈ V und λ ∈ K, so haben wir (g ◦ f )(x + y) = g(f (x + y)) = g(f (x) + f (y)) = g(f (x)) + g(f (y)) = (g ◦ f )(x) + (g ◦ f )(y) und (g ◦ f )(λx) = g(f (λx)) = g(λf (x)) = λg(f (x)) = λ · (g ◦ f )(x). 5. Sind V ein endlich erzeugter Vektorraum und v1 , . . . , vn eine Basis von V , so ist die Koordinatenabbildung Ψ : K n → V bezüglich der Basis v1 , . . . , vn eine lineare Abbildung. Für x, y ∈ K n , λ ∈ K rechnen wir Ψ(x + y) = n X (xi + yi )vi = i=1 und Ψ(λx) = n X xi vi + i=1 n X λxi vi = λ · n X yi vi = Ψ(x) + Ψ(y) i=1 n X xi vi = λΨ(x). i=1 i=1 Wir starten jetzt mit der Auflistung einiger unmittelbar aus der Definition folgender Tatsachen über lineare Abbildungen. Lemma 11.9 (Grundeigenschaften linearer Abbildungen) Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung. Dann gelten: (a) Es ist f (0) = 0. (b) Das Bild Bild(f ) := f (V ) = {f (x)|x ∈ V } von V ist ein Untervektorraum von W . (c) Ist v1 , . . . , vn ein Erzeugendensystem von V , so ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ). (d) Ist V endlich erzeugt, so ist auch Bild(f ) endlich erzeugt mit dim Bild(f ) ≤ dim V . (e) Die Menge Kern(f ) := f −1 ({0}) = {x ∈ V |f (x) = 0} ist ein Untervektorraum von V. (f ) Genau dann ist die Abbildung f : V → W injektiv wenn Kern(f ) = {0} ist. Beweis: (a) Es ist f (0) = f (0 + 0) = f (0) + f (0), also f (0) = 0. (b) Nach (a) ist 0 ∈ Bild(f ). Sind u, v ∈ Bild(f ) und λ ∈ K, so existieren x, y ∈ V mit f (x) = u und f (y) = v, also ist auch u + v = f (x) + f (y) = f (x + y) ∈ Bild(f ) und 203 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 λu = λf (x) = f (λx) ∈ Bild(f ). Damit ist das Bild Bild(f ) von f ein Untervektorraum von W . (c) Sei u ∈ Bild(f ). Dann existiert ein v ∈ V mit u = f (v) und da v1 , . . . , vn ein Erzeugendensyszem von V ist, existieren weiter λ1 , . . . , λn ∈ K mit v = λ1 v1 + · · · + λn vn . Damit ist auch u = f (v) = f (λ1 v1 + · · · + λn vn ) = λ1 f (v1 ) + · · · + λn f (vn ). Dies zeigt, dass f (v1 ), . . . , f (vn ) ein Erzeugendensystems des Bilds von f ist. (d) Klar nach (c) und Korollar 7.(a). (e) Nach (a) ist 0 ∈ Kern(f ). Sind x, y ∈ Kern(f ) und λ ∈ K, so haben wir auch f (x + y) = f (x) + f (y) = 0 und f (λx) = λf (x) = 0, also x + y ∈ Kern(f ) und λx ∈ Kern(f ). Damit ist der Kern Kern(f ) von f ein Untervektorraum von V . (g) ”=⇒” Klar nach (a). ”⇐=” Seien x, y ∈ V mit f (x) = f (y). Dann ist auch f (x − y) = f (x) − f (y) = 0, also x − y ∈ Kern(f ) = {0}, und es folgt x = y. Also ist f : V → W injektiv. Vorlesung 21, Montag 24.1.2011 Am Ende der letzten Sitzung hatten wir die sogenannten linearen Abbildungen f : V → W zwischen zwei Vektorräumen eingeführt, und einige ihrer direkt aus der Definition ersichtlichen Eigenschaften aufgelistet. Insbesondere hatten wir das Bild Bild(f ) := f (V ) = {f (x)|x ∈ V } und den Kern Kern(f ) := {x ∈ V |f (x) = 0} einer solcgen linearen Abbildung definiert. Das Bild mißt sozusagen die Surjektivität einer linearen Abbildung, denn f ist genau dann surjektiv wenn Bild(f ) = W ist. Auf der anderen Seite mißt der Kern die Injektivität, in Lemma 9.(g) wurde festgehalten das f genau dann injektiv ist wenn Kern(f ) = {0} ist. Im verbleibenden Teil dieses Abschnitts wollen wir die grundlegende Dimensionsformel herleiten, die einen Zusammenhang zwischen der Größe von Kern und Bild einer linearen Abbildung herstellt. Von besonderen Interesse werden die sogenannten Isomorphismen sein, dies sind lineare Abbildungen die zugleich surjektiv und injektiv, also bijektiv sind. Definition 11.11 (Isomorphismen von Vektorräumen) Seien V, W zwei Vektorräume über K. Ein Isomorphismus von V nach W ist eine bijektive lineare Abbildung f : V → W . Weiter nennen wir die Vektorräume V und W isomorph, geschrieben als V ' W , wenn es einen Isomorphismus von V nach W gibt. 204 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 Wir kennen bereits einige Beispiele von Isomorphismen, nur dass wir diese bisher nicht so genannt haben. Ist etwa v1 , . . . , vn eine Basis von V , so ist die Koordinatenabbildung n Ψ : K → V ; x 7→ n X xi vi i=1 bijektiv und linear, also ein Isomorphismus. An diesem Beispiel kann man schön sehen, dass Isomorphismen im wesentlichen ein Übersetzungsmechanismus“ sind. Wollen wir ” irgendetwas im Vektorraum V untersuchen, so können wir dies entweder in V selbst tun, oder alles in Termen der Koordinaten bezüglich der Basis v1 , . . . , vn rechnen. Beide Sichtweisen sind völlig gleichwertig und der Isomorphismus Ψ stellt die Übersetzung zwischen ihnen her. Isomorphe Vektorräume sind also im wesentlichen gleich, und ein Isomorphismus beschreibt in welchem Sinne sie gleich sind. Wir wollen auch noch ein etwas komplizierteres Beispiel eines Isomorphismus besprechen. Bei unserer Untersuchung von Reihen in §7 hatten wir den Reihenbegriff über den Begriff der Partialsummen wieder auf Folgen zurückgeführt. Wir können uns das Bilden der Partialsummen also als eine Übersetzung zwischen Folgen und Reihen vorstellen, und dies ist in Wahrheit ein Beispiel eines Isomorphismus von Vektorräumen. Sei hierzu K ∈ {R, C} und betrachte den Vektorraum V := K N aller Folgen in K. P∞Einen eigenen ”Reihenvektorraum“ führen wir nicht ein, wir denken uns die Reihe n=0 an als die Folge (an )n∈N ihrer Summanden. Die Partialsummen sind dann die Abbildung ! n X Σ : V → V ; (an )n∈N 7→ ak . k=0 n∈N Die Abbildung Σ ist linear und auch bijektiv, also ein Isomorphismus. Zum Nachweis der Bijektivität können wir gemäß §3.Lemma 3 die Umkehrabbildung hinschreiben, und diese ist durch die Differenzenabbildung ∆ : V → V gegeben, die eine Folge (an )n∈N auf die durch ( an − an−1 , n ≥ 1, 0 an := a0 , n=0 gegebene Folge (a0n )n∈N abbildet. Den expliziten Nachweis dieser Behauptungen können Sie als eine Übungsaufgabe betrachten. Nach diesen Beispielen kommen wir nun zu einem allgemeinen Satz über das Verhalten von Basen und Dimension unter Isomorphismen. Lemma 11.10 (Grundeigenschaften von Isomorphismen) Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung. (a) Ist f ein Isomorphismus, so ist auch die Umkehrabbildung f −1 : W → V ein Isomorphismus. (b) Sei v1 , . . . , vn eine Basis von V . Dann ist f genau dann ein Isomorphismus wenn f (v1 ), . . . , f (vn ) eine Basis von W ist. Insbesondere ist dann auch W endlich erzeugt mit dim V = dim W . 205 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 Beweis: (a) Es ist nur zu zeigen, dass f −1 : W → V wieder eine lineare Abbildung ist. Seien also x, y ∈ W und λ ∈ K gegeben. Dann ist f −1 (x+y) = f −1 (f (f −1 (x))+f (f −1 (y))) = f −1 (f (f −1 (x)+f −1 (y))) = f −1 (x)+f −1 (y) und f −1 (λx) = f −1 (λf (f −1 (x))) = f −1 (f (λf −1 (x))) = λf −1 (x), und damit ist f −1 eine lineare Abbildung. (b) Die zweite Aussage ist eine unmittelbare Folgerung der ersten Aussage, es reicht also letztere zu beweisen. ”=⇒” Sei also f ein Isomorphismus. Nach Lemma 9.(c) ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ) = W , es ist also nur noch zu zeigen, P dass diese Vektoren auch linear unabhängig sind. Hierzu seien λ1 , . . . , λn ∈ K mit ni=1 λi f (vi ) = 0 gegeben. Dann ist auch ! n n X X λi f (vi ) = 0 = f (0) f λi v i = i=1 i=1 Pn nach Lemma 9.(a), also ist auch i=1 λi vi = 0. Da die Vektoren v1 , . . . , vn linear unabhängig sind, folgt λ1 = · · · = λn = 0. Damit sind auch f (v1 ), . . . , f (vn ) in W linear unabhängig. ”⇐=” Nun nehmen wir an, dass die Vektoren f (v1 ), . . . , f (vn ) eine Basis von W bilden. Nach Lemma 9.(c) ist dann Bild(f ) = hf (v1 ), . . . , f (vn )i = W, d.h. f : V → W ist zumindest surjektiv. Nun sei vP∈ Kern(f ) ein Vektor im Kern von f , also f (v) = 0. Es gibt λ1 , . . . , λn ∈ K mit v = ni=1 λi vi . Wegen ! n n X X λi f (vi ) = f λi vi = f (v) = 0, i=1 i=1 ergibt Pndie lineare Unabhängigkeit von f (v1 ), . . . , f (vn ) auch λ1 = · · · = λn = 0, also v = i=1 λi vi = 0. Dies zeigt Kern(f ) = {0} und nach Lemma 9.(f) ist f auch injektiv. Insgesamt ist f damit bijektiv, also ein Isomorphismus. Als nächstes Ziel wollen wir die schon erwähnte Dimensionsformel ansteuern. Diese wird insbesondere implizieren, dass es für eine lineare Abbildung f : V → W zwischen Vektorräumen gleicher Dimension, zum Test auf Isomorphie ausreicht zu zeigen, dass f injektiv oder surjektiv ist, die andere Bedingung folgt dann automatisch. Zum Beweis der Dimensionsformel benötigen wir eine Hilfsaussage über Untervektorräume, die wir jetzt festhalten wollen. Lemma 11.11: Seien V ein endlich erzeugter Vektorraum über K und U ≤ V ein Untervektorraum von V . Dann ist auch U endlich erzeugt mit m := dim U ≤ dim V =: 206 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 n und es gibt eine Basis v1 , . . . , vn von V mit U = hv1 , . . . , vm i. Es ist genau dann dim U = dim V wenn U = V gilt. Beweis: Nach Korollar 7.(b) ist für jedes System v1 , . . . , vr linear unabhängiger Vektoren aus U stets r ≤ n. Damit existiert ein System v1 , . . . , vm linear unabhängiger Vektoren in U der maximal möglichen Länge m ≤ n. Insbesondere sind diese Vektoren maximal linear unabhängig in U , also ist v1 , . . . , vm nach Lemma 4 eine Basis von U . Insbesondere ist U endlich erzeugt mit dim U = m ≤ n = dim V . Nach Satz 6.(c) lassen sich die Vektoren v1 , . . . , vm zu einer Basis v1 , . . . , vn von V ergänzen. Es ist U = hv1 , . . . , vm i und im Fall m = n haben wir damit sogar U = hv1 , . . . , vn i = V . Damit ist jetzt möglich die Dimensionsformel zu beweisen. Satz 11.12 (Dimensionsformel für lineare Abbildungen) Seien V, W zwei endlich erzeugte Vektorräume über K und f : V → W eine lineare Abbildung. Dann gilt dim Bild(f ) + dim Kern(f ) = dim V . Beweis: Nach Lemma 9.(e) und Lemma 11 existiert eine Basis v1 , . . . , vn von V mit Kern(f ) = hv1 , . . . , vm i wobei m = dim Kern(f ) ist. Wir behaupten, dass die Vektoren f (vm+1 ), . . . , f (vn ) eine Basis des Bilds von f sind. Nach Lemma 9.(c) sind die Vektoren f (v1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ), und wegen f (v1 ) = · · · = f (vm ) = 0 ist auch f (vm+1 ), . . . , f (vn ) ein Erzeugendensystem von Bild(f ). Es bleibt also nur noch diePlineare Unabhängigkeit dieser Vektoren zu zeigen. Seien hierzu λm+1 , . . . , λn ∈ K mit ni=m+1 λi f (vi ) = 0 gegeben. Dann ist auch ! n n X X λi f (vi ) = 0, f λi v i = i=m+1 also n X i=m+1 λi vi ∈ Kern(f ) = hv1 , . . . , vm i. i=m+1 Pn P P Also existieren λ1 , . . . , λm ∈ K mit ni=m+1 λi vi = − m i=1 λi vi , also auch i=1 λi vi = 0. Da die Vektoren v1 , . . . , vn linear unabhängig sind, bedeutet dies λ1 = · · · = λn = 0, also insbesondere λm+1 = · · · = λn = 0. Damit sind die Vektoren f (vm+1 ), . . . , f (vn ) linear unabhängig, und bilden somit eine Basis von Bild(f ). Es folgt dim Bild(f ) = n − m = dim V − dim Kern(f ). 207 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 Eine wichtige Konsequenz der Dimensionsformel betrifft lineare Abbildungen zwischen zwei endlich erzeugten Vektorräumen derselben Dimension. Es stellt sich heraus das für eine solche Abbildung die Begriffe injektiv“ und surjektiv“ gleichwertig sind, eine ” ” surjektive oder injektive lineare Abbildung ist dann also schon ein Isomorphismus. Korollar 11.13: Seien V, W zwei endlich erzeugte Vektorräume über K mit dim V = dim W und sei f : V → W eine lineare Abbildung. Dann sind die folgenden Aussagen äquivalent: (a) Die Abbildung f ist ein Isomorphismus. (b) Die Abbildung f ist surjektiv. (c) Die Abbildung f ist injektiv. Beweis: Es reicht die Äquivalenz von (b) und (c) zu zeigen. Nach Lemma 9.(f) und Lemma 11 bestehen die Äquivalenzen: f ist injektiv ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ Kern(f ) = {0} dim Kern(f ) = 0 dim V = dim Bild(f ) dim W = dim Bild(f ) W = Bild(f ) f ist surjektiv. $Id: cartesisch.tex,v 1.7 2011/08/17 20:39:28 hk Exp $ §12 Der Vektorraum K n In Aufgabe (46) wird gezeigt, dass zwei endlich erzeugte Vektorräume über K ∈ {R, C} genau dann isomorph sind, wenn sie dieselbe Dimension haben. Insbesondere ist damit ein beliebiger n-dimensionaler Vektorraum V über K isomorph zum Vektorraum K n der Spaltenvektoren mit n Einträgen. In gewissen Sinne ist der K n damit der allge” meine“ n-dimensionale Vektorraum über K. Eine besondere Bedeutung hat natürlich der R3 zur Beschreibung des gewöhnlichen“ Raums. Aber auch der Rn für andere ” Werte von n spielt oftmals eine Rolle bei der Beschreibung räumlicher Vorgänge. Will 208 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 man beispielsweise den vollständigen Zustand eines sich bewegenden Massepunktes beschreiben, so brauchen wir sowohl drei Koordinaten zur Beschreibung seiner Position als auch drei Koordinaten für seinen Geschwindigkeitsvektor, insgesamt hat man dann einen Vektor im R6 . 12.1 Affine Teilräume des K n Wir beginnen mit der Definition der üblichen geometrischen Objekte, wie Geraden und Ebenen. Wie wir sehen werden könnte man diese auf exakt dieselbe Weise auch in einem allgemeinen Vektorraum definieren, wir wollen uns hier aber auf den Spezialfall des Vektorraums K n beschränken. Als Startpunkt behandeln wir Ursprungsgeraden im K n , also Geraden die durch den Nullpunkt gehen. Eine solche Gerade l ist durch einen von Null verschiedenen Richtungsvektor v ∈ K n \{0} bestimmt, und die Gerade l besteht dann gerade aus den Vielfachen von v, also l = {tv|t ∈ K} = hvi. In anderen Worten sind die Ursprungsgeraden genau die eindimensionalen Untervektorräume des K n . Für Ebenen e durch den Ursprung erhalten wir ein ähnliches Ergebis, solche Mengen werden von zwei linear unabhängigen Richtungsvektoren u, v aufgespannt e = {tu + sv|t, s ∈ K} = hu, vi, es handelt sich also genau um die zweidimensionalen Untervektorräume des K n . Allgemeine Geraden beziehungsweise Ebenen erhalten wir durch Verschieben der Ursprungsgeraden. Die entstehenden Teilmengen des K n sind die sogenannten affinen Teilräume eines Vektorraums. Definition 12.1 (Affine Teilräume eines Vektorraums) Sei V ein Vektorraum über K. Eine Teilmenge A ⊆ V heißt ein affiner Teilraum von V , wenn A = ∅ ist oder es einen Vektor v ∈ V und einen Teilraum U ≤ V von V mit A = v + U = {v + u|u ∈ U } gibt. Ob man die leere Menge als einen affinen Teilraum betrachten will, ist weitgehend eine Geschmacksfrage und wird nicht einheitlich gehandhabt. Den Vektor v nennt man in diesem Zusammenhang auch einen Aufpunkt des affinen Teilraums A. Der Teilraum U in der Definition eines nichtleeren affinen Teilraums A eines Vektorraums V ist eindeutig bestimmt. Nehme nämlich an, wir hätten zwei Teilräume U1 , U2 ≤ V und zwei Aufpunkte v1 , v2 ∈ V mit A = v1 + U1 = v2 + U2 . Wegen v2 = v2 + 0 ∈ v2 + U2 = v1 + U1 ist dann v2 − v1 ∈ U1 und für jedes u ∈ U2 gibt es wegen v2 + u ∈ v2 + U2 = v1 + U1 ein u0 ∈ U1 mit v2 + u = v1 + u0 , also auch u = u0 − (v2 − v1 ) ∈ U1 . Dies zeigt U2 ⊆ U1 . 209 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 Analog folgt auch U1 ⊆ U2 , es ist also U1 = U2 . Man nennt den eindeutig bestimmten Teilraum U ≤ V die Richtung des affinen Teilraums A von V . Insbesondere können wir damit die Dimension eines affinen Teilraums A eines Vektorraums V als ( dim U, wenn A = v + U mit v ∈ V , U ≤ V , dim A := −1, wenn A = ∅ definieren. Hiermit definieren wir jetzt: (a) Eine Gerade im K n ist ein eindimensionaler affiner Teilraum des K n , (b) Eine Ebene im K n ist ein zweidimensionaler affiner Teilraum des K n , (c) und eine Hyperebene im K n ist ein (n − 1)-dimensionaler affiner Teilraum des K n . Im K 2 sind also Hyperebenen und Geraden dasselbe und im K 3 sind Ebenen und Hyperebenen dasselbe. Wir gewohnt kann man eine Gerade durch einen Aufpunkt und einen Richtungsvektor angeben, und eine Ebene durch einen Aufpunkt und zwei Richtungsvektoren. Die Richtungsvektoren sind dabei nicht eindeutig festgelegt, aber der von ihnen aufgespannte Untervektorraum ist eindeutig bestimmt, er ist ja gerade die Richtung des affinen Teilraums. Als Aufpunkt kann man dagegen einen beliebigen Punkt des affinen Teilraums nehmen, d.h. ist A 6= ∅ ein affiner Teilraum von V mit Richtung U ≤ V und v ∈ A ein beliebiger Punkt von A, so ist A = v + U . Nach Definition eines affinen Teilraums gibt es nämlich überhaupt einen Vektor w ∈ V mit A = w + U . Wegen v ∈ A gibt es weiter einen Vektor u ∈ U mit v = w + u. Da U ein Untervektorraum von V ist, gilt u + U ⊆ U und wegen −u ∈ U auch −u ∈ U also −u + U ⊆ U und somit U ⊆ u + U . Dies zeigt u + U = U , und somit folgt auch A = w + U = w + u + U = v + U. Im R3 ist der Schnitt einer Ebene und einer Geraden normalerweise ein Punkt und der Schnitt zweier Ebenen normalerweise eine Gerade. Es gibt natürlich auch Ausnahmefälle wie parallele Ebenen, was die allgemeine Situation etwas verkompliziert. Wir wollen einen Satz über das Schnittverhalten affiner Teilräume herleiten. Der Hauptteil hiervon ist in Aufgabe (47) enthalten, dort ist zu zeigen das für zwei Teilräume U, W eines endlich erzeugten Vektorraums V die Dimensionsformel dim(U ∩ V ) + dim(U + W ) = dim U + dim W gilt. Die affine Schnittdimensionsformel ist etwas komplizierter, da die Summe“ affiner ” Teilräume von ihrer Lage zueinander abhängt. Beispielsweise können sich nicht schneidende Geraden im R3 entweder parallel oder windschief sein, im ersten Fall erzeugen sie eine Ebene und im zweiten Fall den ganzen R3 . Im oben erwähnte Normalfall“ ” haben die Richtungen der beiden Teilräume eine Summe größtmöglicher Dimension, beziehungsweise gleichwertig einen Schnitt kleinstmöglicher Dimension. Satz 12.1 (Schnitte affiner Teilräume) Sei V ein endlich erzeugter Vektorraum über K und seien A, B ⊆ V zwei affine Teilräume von V . 210 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 (a) Die Menge A ∩ B ist wieder ein affiner Teilraum von V . (b) Ist v ∈ A ∩ B und bezeichnet U die Richtung von A und W die Richtung von B, so ist AB := v + (U + W ) der kleinste A und B enthaltende affine Teilraum von V . Insbesondere ist AB unabhängig vom speziell gewählten v ∈ A ∩ B. (c) Ist A ∩ B 6= ∅, so gilt die Dimensionsformel dim(A ∩ B) + dim(AB) = dim A + dim B. Beweis: Ist A ∩ B = ∅, so ist A ∩ B trivialerweise ein affiner Teilraum von V , wir können also A ∩ B 6= ∅ annehmen. Wähle v ∈ A ∩ B. Zunächst behaupten wir, dass A ∩ B = v + (U ∩ W ) gilt. Es ist v + (U ∩ W ) ⊆ v + U = A und ebenso v + (U ∩ W ) ⊆ B, also v + (U ∩ W ) ⊆ A ∩ B. Nun sei umgekehrt x ∈ A ∩ B = (v + U ) ∩ (v + W ). Dann existieren u ∈ U , w ∈ W mit x = v + u und x = v + w. Insbesondere ist u = x − v = w ∈ U ∩ W , also x = v + u ∈ v + (U ∩ W ). Damit ist diese Aussage bewiesen, und insbesondere ist A ∩ B ein affiner Teilraum von V mit Richtung U ∩ W . Wir kommen jetzt zu Aussage (b). Zunächst ist v+(U +W ) ⊆ V ein affiner Teilraum von A = v +U ⊆ v +(U +W ) und B = v +W ⊆ v +(U +W ). Ist andererseits C ⊆ V ein beliebiger affiner Teilraum von V mit A, B ⊆ C, so ist insbesondere v ∈ A∩B ⊆ A ⊆ C, also C = v + T mit einem Teilraum T ≤ V , und wegen v + U = A ⊆ C = v + T und v + W = B ⊆ C = v + T , sind auch U, W ⊆ T , also U + W ⊆ T und v + (U + W ) ⊆ v + T = C. Damit ist (b) bewiesen, und die Dimensionsformel ergibt sich jetzt mit der Dimensionsformel für Untervektorräume dim(A∩B)+dim(AB) = dim(U ∩W )+dim(U +W ) = dim U +dim W = dim A+dim B. Angenommen wir wollen wissen was normalerweise der Durchschnitt zweier dreidimensionaler affiner Teilräume A, B des R5 ist. Im Regelfall ist AB = R5 und A ∩ B 6= ∅, und die Dimensionsformel besagt damit dim(A ∩ B) = 2 · 3 − 5 = 1, d.h. zwei solche Räume schneiden sich in der Regel in einer Geraden. Wir können unsere bisher erzielten Ergebnisse über lineare Gleichungssysteme jetzt in der Sprache affiner Teilräume formulieren, und erhalten den folgenden Satz. Satz 12.2 (Lösungsräume linearer Gleichungssysteme) Seien K ∈ {R, C}, n, m ∈ N mit n, m ≥ 1 und betrachte ein lineares Gleichungssystem Ax = b mit aus m Gleichungen in n Unbekannten mit Koeffizientenmatrix A ∈ K m×n und rechter Seite b ∈ K m . Weiter sei r die Anzahl von Null verschiedener Zeilen nach Anwendung des Gaußsschen Eliminationsverfahrens auf A. Dann hat Ax = b entweder 211 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 keine Lösung oder die Menge L := {x ∈ K n |Ax = b} ist ein (n − r)-dimensionaler affiner Teilraum des K n , dessen Richtung die Lösungsmenge des zugehörigen homogenen linearen Gleichungssystems Ax = 0 ist. Beweis: Dies ist klar nach §9.Satz 3 und unseren Überlegungen zur Dimension des Lösungsraums eines homogenen linearen Gleichungssystems in §11.3. Umgekehrt ist jeder affine Teilraum des K n als Lösungsraum eines linearen Gleichungssystems mit n Unbekannten darstellbar. Für den leeren affinen Teilraum ist dies klar, wir betrachten also einen affinen Teilraum T ⊆ K n der Dimension m mit 0 ≤ m ≤ n. Sei U ≤ K n die Richtung von T und wähle einen Aufpunkt a ∈ T . Nach §11.Lemma 11 existiert eine Basis v1 , . . . , vn des K n mit U = hv1 , . . . , vm i. Sei C die Transformationsmatrix von der kanonischen Basis e1 , . . . , en des K n zur Basis v1 , . . . , vn . Ein Vektor v ∈ K n liegt genau dann in U wenn die hinteren n − m Koordinaten von v bezüglich der Basis v1 , . . . , vn gleich Null sind. Ist also A die aus den unteren m − n Zeilen von C bestehende (n−m)×n Matrix über K, so ist U genau der Lösungsraum des homogenen linearen Gleichungssystems Ax = 0. Verwenden wir dann b := Aa ∈ K n−m als rechte Seite, so ist T genau der Lösungsraum von Ax = b. Das beschriebene Verfahren ist effektiv leicht durchführbar. Wir nehmen an die Richtung U des affinen Teilraums ist gegeben. Dann bestimmt man eine Basis v1 , . . . , vm von U . Ist U beispielsweise durch ein Erzeugendensystem gegeben, so wissen wir das wir nur linear abhängige Vektoren entfernen müssen bis eine Basis übrig bleibt. Im nächsten Schritt muss v1 , . . . , vm dann zu einer Basis v1 , . . . , vn des K n ergänzt werden, und nach dem Steinitzschen Austauschsatz §11.Lemma 5 wissen wir das wir hierbei mit Ergänzen geeigneter der e1 , . . . , en auskommen. Die Übergangsmatrix von der Basis v1 , . . . , vn zur kanonischen Basis e1 , . . . , en ist dann einfach die Matrix C deren Spalten die Vektoren v1 , . . . , vn sind, und die gesuchte Übergangsmatrix von der Basis e1 , . . . , en zur Basis v1 , . . . , vn ist die inverse Matrix C −1 . Als ein konkretes Beispiel betrachten wir den zweidimensionalen affinen Teilraum 1 1 * −1 2 T = 0 + −1 1 1 0 + 1 , 2 −2 des R4 . Richtung und Aufpunkt sind hier direkt angegeben. Wegen 1 0 2 1 −1 2 1 −2 1 0 0 0 0 0 1 0 2 1 0 1 = −1 = − 2 2 1 1 −2 1 −2 0 212 = 5 6= 0 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 ist v1 , v2 , e1 , e3 eine Basis des R4 wobei v1 , v2 die beiden Erzeuger der Richtung von T sind. Die gesuchte Übergangsmatrix erhalten wir durch Invertieren −1 0 2 0 1 1 0 1 0 2 1 0 −2 1 0 0 . = 1 0 −1 2 0 1 5 5 −2 0 −1 0 0 5 5 1 −2 0 0 Die Koeffizientenmatrix unseres linearen Gleichungssystems besteht aus den unteren beiden Zeilen dieser Matrix, also 1 5 −2 0 −1 A= 0 5 5 5 0 und die rechte Seite ist b= 1 5 5 −2 0 −1 0 0 5 5 1 −1 1 6 · 0 = 5 5 . 1 Multiplizieren wir noch die erste Gleichung mit 5, so ergibt sich das lineare Gleichungssystem 5x − 2y − v=6 u + v=1 dessen Lösungsmenge genau der affine Teilraum T ist. 12.2 Lineare Abbildungen und Matrizen Wir wollen jetzt alle linearen Abbildungen f : K n → K m explizit bestimmen. Sei A ∈ K m×n eine m × n Matrix über K. Für jeden Spaltenvektor x ∈ K n können wir dann das Produkt Ax ∈ K m bilden, und erhalten auf diese Weise eine Abbildung fA : K n → K m ; x 7→ Ax. Diese Abbildung ist linear, denn sind x, y ∈ K n und λ ∈ K so haben wir nach den Rechenregeln der Matrixmultiplikation fA (x+y) = A·(x+y) = Ax+Ay = fA (x)+fA (y) und fA (λx) = A·λx = λ·Ax = λfA (x). Damit gehört zu jeder m × n Matrix A über K eine lineare Abbildung fA ∈ K m×n . Umgekehrt hat überhaupt jede lineare Abbildung f : K n → K m diese Form. Sei nämlich f : K n → K m eine lineare Abbildung. Für jedes 1 ≤ i ≤ n schreiben wir dann a1i f (ei ) = ... ∈ K m ami 213 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 und bilden die m × n Matrix a11 · · · a1n .. , ... A := ... . am1 · · · amn deren Spalten die Vektoren f (e1 ), . . . , f (en ) sind. Für jedes x ∈ K n rechnen wir dann f (x) = f (x1 e1 + · · · + xn en ) = x1 f (e1 ) + · · · + xn f (xn ) a11 x1 + · · · + a1n xn a1n a11 .. = x1 · ... + · · · + xn · ... = . am1 x1 + · · · + amn xn amn am1 = Ax = fA (x), d.h. wir haben f = fA . Damit kann überhaupt jede lineare Abbildung f : K n → K m durch eine m × n Matrix beschrieben werden, und zwar so, dass die Spalten der Matrix genau die Bilder der kanonischen Basisvektoren e1 , . . . , en sind. Umgekehrt ist fA (ei ) = Aei für jedes 1 ≤ i ≤ n gerade die i-te Spalte von A, wir haben also eine bijektive Entsprechung Lineare Abbildungen f : K n → K m = m × n-Matrizen über K. Wir wollen die nebenstehend gezeigten Beispiele linearer Abbildungen R2 → R2 behandeln. Dabei ist jeweils abgebildet wie die lineare Abbildung auf die links unten stehende Figur wirkt. Wir beginnen mit den Skalierungen, bei diesen werden x- und yAchse mit Faktoren a, b ∈ R gestreckt. Ist dabei a oder b negativ, so treten auch noch Spiegelungen an den Koordinatenachsen auf. Um die Matrix dieser linearen Abbildung zu sehen, müssen wir die Bilder der kanonischen Basisvektoren e1 , e2 als Spalten verwenden. Dabei liegt e1 auf der x-Achse, wird also um den Faktor a gestreckt und hat das Bild ae1 . Für e2 ergibt sich analog das Bild be2 , und wir erhalten die Matrix a Sa,b = . b Phy I Skaliert Phy I Identisch Phy I Scherung y Ph I Rotiert Wir kommen zu den Scherungen längs der x-Achse. Diese lassen jede zur x-Achse parallele Gerade fest, und bewirken auf diesen eine Verschiebung um einen zur Höhe y proportionalen Wert. Die Proportionalitätskonstante sei dabei t ∈ R. Auf der x-Achse selbst ist die Höhe 0 und es liegt überhaupt keine Verschiebung vor, d.h. e1 wird auf e1 214 Mathematik für Physiker I, WS 2010/2011 Montag 24.1.2011 abgebildet. Dagegen liegt e2 in der Höhe 1, wird also um t in x-Richtung verschoben und somit auf te1 + e2 abgebildet. Die Scherungsmatrix ist damit 1 t St = . 1 Der letzte zu untersuche Abbildungstyp ist die e2 Drehung um den Nullpunkt mit dem Winkel φ ∈ R. v2 Dies ist eine lineare Abbildung, was klar ist wenn sie etwa an die Interpretation der Addition von Vekv1 toren in einem Parallelogram denken. Zur Bestimmung der Drehmatrix Dφ müssen wir uns wieder die Bilder der beiden Einheitsvektoren anschauen. e1 Für das Bild von e1 erhalten wir das rechts gezeigte rechtwinklige Dreieck mit Hypothenuse 1 dessen Ankathete und Gegenkathete zum Winkel φ gerade die x- und y-Koordinaten des Bildes von e1 sind, d.h. e1 wird auf cos(φ)e1 + sin(φ)e2 abgebildet. Für das Bild von e2 liegt eine ähnliche Situation vor, nur das Ankathete und Gegenkathete diesmal die y- beziehungsweise die negative xKoordinate des Bildes sind, das Bild von e2 ist also − sin(φ)e1 + cos(φ)e2 . Insgesamt ergibt sich die Drehmatrix cos φ − sin φ Dφ = . sin φ cos φ Kommen wir zur allgemeinen Situation der Gleichheit von Matrizen und linearen Abbildungen K n → K m zurück. Im Lichte dieser Korrespondenz ist es dann natürlich zu fragen wie sich Eigenschaften der linearen Abbildung in Eigenschaften der zugehörigen Matrix übersetzen. Wir wollen einige dieser Entsprechungen kurz durchgehen. 1. Sind A, B ∈ K m×n zwei m × n-Matrizen über K, so können wir ihre Summe A + B bilden. Die zugehörige lineare Abbildung ist gegeben als fA+B (x) = (A + B) · x = Ax + Bx = fA (x) + fB (x), also ist fA+B = fA + fB die Summe der zugehörigen linearen Abbildungen. Entsprechend ergibt sich für jeden Skalar λ ∈ K auch fλA = λfA . 2. Nun sei zusätzlich r ≥ 1 und betrachte Matrizen A ∈ K m×n und B ∈ K n×r . Dann können wir das Produkt AB dieser beiden Matrizen bilden, und erhalten eine m × r-Matrix. Für die zugehörige lineare Abbildung rechnen wir fAB (x) = (AB)x = A(Bx) = fA (fB (x)) 215 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 für jedes x ∈ K n , es ist also fAB = fA ◦ fB die Hintereinanderausführung der zugehörigen linearen Abbildungen. Dies zeigt Hintereinanderausführung linearer Abbildungen = Multiplikation von Matrizen. Tatsächlich ist diese Beobachtung der Grund dafür das die Multiplikation von Matrizen überhaupt so definiert wird, wie wir sie definiert haben. 3. Zur Einheitsmatrix gehört offenbar die identische Abbildung idK n . Kombinieren wir dies mit der Kennzeichnung der Bijektivität gemäß §3.Lemma 3 so folgt für eine quadratische Matrix A ∈ K n×n fA ist Isomorphismus ⇐⇒ A ist invertierbar und in diesem Fall gilt dann fA−1 = fA−1 . 4. Sei A ∈ K m×n . Was sind dann Kern und Bild der linearen Abbildung fA ? Für das Bild erhalten wir mit §11.Lemma 9.(c) Bild(fA ) = hfA (e1 ), . . . , fA (en )i = hAe1 , . . . , Aen i, d.h. das Bild von fA ist der von den Spalten von A aufgespannte Untervektorraum des K m . Kombinieren wir dies mit der Tatsache §11.Satz 6.(b) das wir jedes Erzeugendensystem zu einer Basis ausdünnen können, so folgt dim Bild(fA ) = Dimension des Aufspanns der Spalten von A = Maximale Anzahl linear unabhängiger Spalten von A. Auch den Kern können wir mit bekannten Objekten in Zusammenhang bringen. Der Kern von fA ist die Menge aller x ∈ K n mit fA (x) = 0, also aller x ∈ K n mit Ax = 0. Dies bedeutet Kern(fA ) = Lösungsmenge des homogenen linearen Gleichungssystems Ax = 0. Auch die Dimension des Kerns können wir damit berechnen. Führen wir das Gaußsche Eliminationsverfahren mit der Matrix A durch und bezeichnen die Anzahl der am Ende übrig bleibenden, von Null verschiedenen, Zeilen wieder mit r, so wissen wir schon dass der Lösungsraum von Ax = 0 die Dimension n − r hat. Damit ist auch dim Kern(fA ) = n − r. Die Zahl r der von Null verschiedenen Zeilen nach Durchführung des Gaußschen Eliminationsverfahrens hat nun schon mehrfach eine wichtige Rolle gespielt, und in der nächsten Sitzung wollen wir dieser Zahl auch endlich einen Namen geben. 216 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Vorlesung 22, Freitag 28.1.2011 In der letzten Sitzung haben wir gesehen, dass lineare Abbildungen f : K n → K m im wesentlichen dasselbe wie m × n Matrizen A ∈ K m×n sind. Wir hatten auch Eigenschaften linearer Abbildungen in die Sprache der Matrizen übersetzt. Insbesondere hatten wir gesehen, dass die maximale Anzahl linear unabhängiger Spalten einer Matrix A genau gleich der Dimension des Bildes der zugehörigen linearen Abbildung ist. Dies legt die folgende Definition des Rangs einer Matrix nahe. Definition 12.2 (Der Rang einer Matrix) Sei K ∈ {R, C} und sei A ∈ K m×n eine Matrix über K. Dann heißt die Zahl rang(A) := dim Bild(fA ) der Rang der Matrix A. Es stellt sich jetzt heraus, dass wir den Rang einer Matrix bereits ausrechnen können und zwar wieder einmal mit dem Gaußschen Eliminationsverfahren. Schon mehrfach hat die Zahl r der von Null verschiedenen Zeilen nach Ausführung des Gaußschen Eliminationsverfahrens eine Rolle gespielt, und diese Zahl r stellt sich jetzt als der Rang der Matrix A heraus. Geht es uns nur um die Berechnung des Ranges, so können wir während der Elimination auch Spaltenumformungen verwenden, wenn diese die Rechnung vereinfachen. All diese Tatsachen sind Konsequenzen des folgenden Satzes über den Rang einer Matrix. Satz 12.3 (Grundeigenschaften des Rangs) Seien K ∈ {R, C}, n, m ∈ N mit n, m ≥ 1 und A ∈ K m×n eine m × n-Matrix über K. Dann gelten (a) Es ist rang(At ) = rang(A). (b) Der Rang von A ist gleich der Dimension des Aufspanns der Spalten von A und auch gleich der Dimension des Aufspanns der Zeilen von A. (c) Der Rang von A ist die maximale Anzahl linear unabhängiger Spalten von A und auch gleich der maximalen Anzahl linear unabhängiger Zeilen von A. (d) Geht A0 aus A durch eine elementare Zeilenumformung oder durch eine elementare Spaltenumformung hervor, so ist rang(A0 ) = rang(A). (e) Verbleiben nach Ausführung des Gaußschen Eliminationsverfahrens mit der Matrix A genau r von Null verschiedene Zeilen, so ist rang(A) = r. 217 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Beweis: Nach dem obigen Punkt (4) wissen wir bereits, dass der Rang von A sowohl gleich der maximalen Anzahl linear unabhängiger Spalten von A ist, also auch gleich der Dimension des von den Spalten von A aufgespannten Teilraums des K m ist. Hieraus folgt, dass sich der Rang von A bei elementaren Spaltenumformungen nicht ändert. Um dies zu begründen müssen wir die drei verschiedenen Sorten von Spaltenumformungen durchgehen. 1. Die erste Spaltenoperation ist das Vertauschen zweier Spalten von A, und hierbei ändert sich der Aufspann der Spalten nicht. 2. Die zweite Spaltenoperation ist die Multiplikation einer Spalte mit einem von Null verschiedenen Skalar 0 ≤ c ∈ K. Auch dies ändert den Aufspann der Spalten nicht. 3. Als die letzten Spaltenoperation haben wir die Addition eines Vielfachen der iten Zeile zur j-ten Zeile. Sind v1 , . . . , vn die Spalten von A, so sind die Spalten der neuen Matrix v1 , . . . , vj−1 , vj + λvi , vj+1 , . . . , vn mit einem λ ∈ K. Wegen vj = (vj + λvi ) − λvi spannen diese Vektoren nach §11.Lemma 2.(b) denselben Teilraum des K m auf wie die Vektoren v1 , . . . , vn . Der von den Spalten der Matrix aufgespannt Teilraum ändert sich also auch in diesem Fall nicht. In allen drei Fällen hat sich der Aufspann der Spalten nicht geändert, und damit bleibt auch seine Dimension, d.h. der Rang der Matrix erhalten. Nun bezeichne r die Anzahl der von Null verschiedenen Zeilen nach Durchführung des Gaußschen Eliminationsverfahrens. Mit der Dimensionsformel für lineare Abbildungen §11.Satz 12 erhalten wir dann n = dim K n = dim Bild(fA ) + dim Kern(fA ) = rang(A) + n − r =⇒ rang(A) = r. Damit ist Aussage (e) bewiesen, und da sich die Zahl r bei Anwendung elementarer Zeilenumformungen auf A nicht ändert, bleibt auch der Rang von A bei elementaren Zeilenumformungen erhalten, d.h. Aussage (d) ist bewiesen. Genau wie bei Spaltenumformungen ändert sich die Dimension s des von Zeilen von A erzeugten Teilraums nicht bei Anwendung elementarer Zeilenumformungen, insbesondere ist diese Zahl gleich der maximalen Anzahl linear unabhängiger Zeilen in der aus dem Gaußschen Eliminationsverfahren aus A gewonnenen Matrix A0 in Stufenform. Die r von Null verschiedenen Zeilen in A0 sind aber linear unabhängig, also ist s = r = rang(A). Damit haben wir auch die Aussagen (b) und (c) vollständig eingesehen. Aussage (a) ist klar nach (b) und (c). Insbesondere impliziert der Satz, dass wir bei gegebenen Vektoren v1 , . . . , vn im K m mit dem Gaußschen Eliminationsverfahren entscheiden können ob die Vektoren linear 218 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 unabhängig, ein Erzeugendensystem oder eine Basis sind. Für alle drei Aufgaben wird dasselbe Rechenverfahren verwendet, wir bilden die m × n Matrix A deren Spalten die Vektoren v1 , . . . , vn sind und führen mit ihr das Gaußsche Eliminationsverfahren durch. An der Zahl r = rang(A) der von Null verschiedenen Zeilen nach Abschluß der Elimination lassen sich alle Fragen entscheiden: Aufgabe Sind v1 , . . . , vn linear unabhängig? Sind v1 , . . . , vn ein Erzeugendensystem des K m ? Ist v1 , . . . , vn eine Basis des K m ? Kriterium r=n r=m m=n=r Für eine quadratische n × n Matrix A ∈ K n×n betrachten wir die zugehörige lineare Abbildung fA : K n → K n . Wir wissen bereits, dass die Matrix A genau dann invertierbar ist, wenn die lineare Abbildung fA ein Isomorphismus ist, und letzteres ist nach §11.Korollar 13 zur Surjektivität von fA äquivalent. Weiter ist nach §11.Lemma 11 auch genau dann Bild(fA ) = K n wenn rang(A) = dim Bild(fA ) = n ist, d.h. A ∈ K n×n ist invertierbar ⇐⇒ rang(A) = n. Kombinieren wir diese Beobachtung mit der Beschreibung der Invertierbarkeit einer Matrix über ihre Determinante §10.Korollar 10, so folgt weiter det A 6= 0 ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ Die Die Die Die Spalten von A sind linear unabhängig Spalten von A sind eine Basis des K n Zeilen von A sind linear unabhängig Zeilen von A sind eine Basis des K n Schließlich können wir auch den Satz 2 in Termen des Rang einer Matrix umformulieren. In der Vorlesung wurde dieser Satz weggelassen da er inhaltlich nichts neues bringt. In diesem Skript bleibt er trotzdem stehen um in nächsten Semester auf ihn verweisen zu können. Satz 12.4 (Hauptsatz über lineare Gleichungssysteme) Seien K ∈ {R, C} und Ax = b ein lineares Gleichungsystem in m Gleichungen und n Unbekannten mit Koeffizentenmatrix A ∈ K m×n und rechter Seite b ∈ K m . Dann ist Ax = b genau dann lösbar wenn der Rang von A gleich dem Rang der erweiterten Koeffizientenmatrix des linearen Gleichungssystems ist, also Ax = b lösbar ⇐⇒ rang(A|b) = rang(A). In diesem Fall ist der Lösungsraum L := {x ∈ K n |Ax = b} ein affiner Teilraum des K n mit dim L = n − rang(A). 219 Mathematik für Physiker I, WS 2010/2011 12.3 Freitag 28.1.2011 Linearformen und das Skalarprodukt Unter einer Linearform verstehen wir eine lineare Abbildung f : K n → K. Dies ist der Fall m = 1 im vorigen Abschnitt, d.h. die Linearformen sind die 1 × nMatrizen, beziehungsweise die Zeilenvektoren. Definieren wir also für Vektoren u, v ∈ K n das Skalarprodukt v1 u · v := ut v = (u1 . . . un ) · ... = u1 v1 + · · · + un vn , vn so haben alle Linearformen f : K n → K die Gestalt f = fu : K n → K; x 7→ u · x für ein geeignetes u ∈ K n . Es gibt eine Vielzahl alternativer Schreibweisen für das Skalarprodukt, einige häufiger anzutreffende Schreibweisen sind u · v = (u, v) = (u|v) = hu, vi = hu|vi. Nennen wir zwei Vektoren u, v ∈ K n senkrecht aufeinander, geschrieben als u ⊥ v, wenn u · v = 0 ist, so haben wir Kern(fu ) = u⊥ := {v ∈ K n |u ⊥ v}. Das ist alles sowohl im Fall K = R als auch im Fall K = C wahr, allerdings verhält sich das Senkrechtstehen im komplexen Fall ein wenig merkwürdig. Ist etwa u der Vektor 1 u := ∈ C2 , i so haben wir u·u = 12 +i2 = 0, der Vektor u 6= 0 steht also auf sich selbst senkrecht. Da wir so etwas nicht betrachten wollen, beschränken wir uns im Rest dieses Abschnitts auf den reellen Fall K = R. Tatsächlich verwendet man im komplexen Fall normalerweise ein leicht modifiziertes, sogenanntes hermitesches, Skalarprodukt, das wir in diesem Semester aber nicht behandeln wollen. Wir kommen nun zur geometrischen Bedeutung des Skalarprodukts. Da Ihnen diese Dinge aus der Elementare mathematische Methoden der Physik“ Vorlesung wohlbe” kannt sind, wurde dieses Thema in der Vorlesung nur kurz skizziert. Um im nächsten Semester darauf verweisen zu können, wollen wir in diesem Skript alles im einzelnen durchgehen. Die Länge eines Spaltenvektors u ∈ Rn definieren wir als die Zahl √ ||u|| := |u| := u · u. √ Die Bezeichnung Länge von u“ für |u| = u · u bedarf natürlich noch einer Be” gründung. Diese wollen wir hier für n = 2 vorführen, der allgemeine Fall folgt hieraus, da jeder Vektor im Rn in einem zweidimensionalen Teilraum, also in einem R2 liegt. Dies ist zumindest für n ≥ 2 so, aber für den Fall n = 1 ist sowieso nichts zu zeigen. 220 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 u Betrachte nun einen Vektor u= x y l ∈ R2 . y Dann betrachten wir das nebenstehende rechtwinklige x Dreieck. Die Komponenten x, y, beziehungsweise eigent- 0 lich ihre Beträge, sind dann die beiden Kathetenlängen im diesem Dreieck. Nach dem Satz von Pythagoras addieren sich ihre Quadrate damit zum Quadrat l2 der Länge der Hypotenuse des Dreiecks. Aber diese wird gerade p vom Vektor u gebildet, ihre Länge ist also gerade die Länge des Vektors u, d.h. l = x2 + y 2 . Andererseits ist aber auch p √ u · u = x2 + y 2 , d.h. u · u = x2 + y 2 ist tatsächlich die Länge von u. Wir wollen jetzt die übliche geometrische Interpretation des Skalarprodukts herleiten. Hierzu ist es sehr nützlich zunächst zu zeigen, daß unser oben definiertes Senkrechtstehen genau das übliche geometrischen Senkrechtstehen ist. Auch dies wollen wir wieder im ebenen Fall n = 2 nachweisen, da auch je zwei Vektoren in einer Ebene liegen folgt hieraus wieder der allgemeine Fall. Gegeben seien also zwei Vektoren u= x y ,v= x0 y0 , deren Skalarprodukt sich als u · v = xx0 + yy 0 ergibt. Wir können uns auf den Fall u 6= 0 beschränken. Dass u und v senkrecht aufeinander stehen, bedeutet das v ein Vielfaches des um π/2 (also 90◦ ) gedrehten Vektors u ist, der als 0 u = −y x gegeben ist. Dies können Sie beispielsweise als die Anwendung der Drehmatrix zum Winkel φ = π/2 auffassen. Dass u und v senkrecht aufeinander stehen bedeutet nun also das v ein Vielfaches dieses Vektors ist, also x0 = −cy, y 0 = cx für eine reelle Zahl c, und damit xx0 + yy 0 = 0. Die Rückrichtung folgt dann ebenso. Damit ist das Senkrechtstehen wirklich genau das geometrischen Senkrechtstehen. Diese kleine geometrische Tatsache läßt sich nun leicht zur geometrischen Beschreibung des allgemeinen Skalarprodukts erweitern. Wieder können wir uns auf den ebenen Fall n = 2 beschränken. Gegeben seien also wieder zwei Vektoren u und v im R2 221 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 v w u p 0 Wir betrachten dann den von u und v eingeschlossenen Winkel φ. Weiter fällen wir das Lot von v auf die Gerade durch 0 und u. Der Lotfußpunkt werde mit p bezeichnet, und den Vektor von p nach v nennen wir w, d.h. es ist v = p + w wobei u und w senkrecht aufeinander stehen. Wie bereits gezeigt ist damit u · w = 0. Weiter ist p ein Vielfaches von u, wir können also p = λu mit einer reellen Zahl λ ∈ R schreiben. Im obigen Bild ist der Winkel φ kleiner als π/2, und damit liegt p auf derselben Seite wie u und wir haben λ ≥ 0. Ist φ größer als π/2, so liegt p links von 0 und es wird λ < 0, aber diesen Fall wollen wir nicht gesondert ausführen da er zu keinem anderen Ergebnis führt. Damit ist v = p + w = λu + w und wir rechnen u · v = u · (λu + w) = λ u · u + u · w = λ|u|2 . Dabei haben wir die aus der Definition des Skalarprodukts offensichtlichen Formeln x · (y + z) = x · y + x · z, x · (λy) = λ x · y verwendet. Um nun den Winkel φ ins Geschäft zu bringen betrachten wir noch das von 0, p und v gebildete rechtwinklige Dreieck. Die Ankathete bezüglich des Winkels φ hat in diesem Dreieck die Länge |p| = λ|u|, und die Hypotenuse wird vom Vektor v gebildet, hat also die Länge |v|. Also ist cos φ = λ|u|/|v|. Damit rechnen wir nun |u| · |v| · cos φ = |u| · |v| · λ|u| = λ|u|2 = u · v. |v| Diese Formel ist die übliche geometrische Beschreibung des Skalarprodukts als u · v = Produkt der Längen mal Cosinus des eingeschlossenen Winkels. Streng genommen haben wir einen Winkel“ gar nicht definiert, und tatsächlich wird ” in der Mathematik die Formel u · v = |u| · |v| · cos φ oft als Definition des Winkels φ zwischen den Vektoren u und v interpretiert. Wir wollen noch ein weiteres Ergebnis der eben durchgeführten Überlegung festhalten. Den oben verwendeten Lotfußpunkt p 222 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 nennt man auch die Projektion des Vektors v in Richtung von u, oder auf u. Unsere obige Formel besagt dann p = λu = u·v |u · v| · u und |p| = λ · |u| = . 2 |u| |u| Insbesondere ist damit p·u= u·v · (u · u) = u · v. |u|2 Diese Beobachtungen bilden auch die Grundlage für die Bedeutung des Skalarprodukts in der Mechanik. Dort treten Vektoren zumeist bei der Beschreibung wirkender Kräfte auf. Denken wir uns, dass der Vektor v eine Kraft beschreibt, so interessiert man sich hier für den in Richtung von u wirkenden Teil der Kraft. Um diesen zu ermitteln zerlegt man v in einen zu u parallelen und einen zu u senkrechten Teil, und dies ist gerade unsere oben verwendet Zerlegung v = p + w. Der in Richtung u wirkende Teil der Kraft ist dann also p = λu = ((u · v)/|u|2 )u. In der Regel wird die Richtung dann durch einen Einheitsvektor beschrieben, d.h. wir haben |u| = 1 und somit p = (u · v)u. Der Betrag der in Richtung u wirkenden Kraft ist dann |p| = |u · v|. In §10 hatten wir bemerkt, dass die Determinante, beziehungsweise ihr Betrag, das Volumen des von den Spalten der Determinante aufgespannten Parallelepipeds angibt. An dieser Stellen wollen wir dies für den ebenen Fall n = 2 auch einmal nachweisen. Hierzu betrachten wir die Fläche F des durch u und v gegebenen Parallelogramms: v w u p 0 Dann haben wir F = |u| · |w|, da wir etwa das rechts abgetrennte Teildreieck links wieder anhängen können und ein Rechteck mit den Seitenlängen |u| und |w| erhalten. Betrachten wir erneut unser rechtwinkliges Dreieck von oben, so können wir aus diesem die Länge |w| als |w| = |v| sin φ gewinnen, und somit wird die Fläche des von u und v aufgespannten Parallelogramms zu F = |u| · |w| = |u| · |v| · sin φ. 223 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Dabei betrachten wir hier den Fall, dass u und v sich wie im obigen Bild verhalten, der Punkt v also oberhalb von u liegt und der Winkel φ von u nach v kleiner als π ist, denn dann ist sin φ > 0. Quadrieren wir die Gleichung, so wird F 2 = (|u| · |w|)2 = |u|2 |v|2 sin2 φ = |u|2 |v|2 (1 − cos2 φ) = |u|2 |v|2 − (u · v)2 . Setzen wir hier u = (u1 , u2 ), v = (v1 , v2 ) ein, so wird dieser Ausdruck zu F 2 = (u21 + u22 ) · (v12 + v22 ) − (u1 v1 + u2 v2 )2 = u21 v12 + u21 v22 + u22 v12 + u22 v22 − u21 v12 − u22 v22 − 2u1 u2 v1 v2 2 u v 1 1 , = u21 v22 + u22 v12 − 2u1 u2 v1 v2 = (u1 v2 − u2 v1 )2 = u2 v 2 d.h. es ist tatsächlich F = | det(u, v)|. Auch das Vorzeichen der Determinante det(u, v) hat eine geometrische Bedeutung. Um diese zu sehen betrachten wir die beiden möglichen Konstellationen von u und v v 0 u 0 Positive Basis, det(u,v) > 0 u Negative Basis, det(u,v) < 0 v Wir drehen den Vektor u, beziehungsweise genauer die von ihm erzeugte Halbgerade, gegen den Uhrzeigersinn zum Vektor v. Im linken Bild ist der dabei auftretende Drehwinken φ kleiner als π, und wir nennen die Basis u, v positiv. Im rechten Bild ist der Winkel φ größer als π und wir haben eine negative Basis. Welcher der beiden Fälle vorliegt läßt sich an der Determinante det(u, v) ablesen, ist diese positiv, so ist die Basis positiv, und ist sie negativ, so ist die Basis negativ. Als ein Beispiel zur Verwendung des Skalarprodukts wollen wir die sogenannte Hessesche Normalform einer Hyperebene im Rn herleiten. Eine Hyperebene h im Rn ist ein m = n − 1 dimensionaler affiner Teilraum des Rn . Wir wir im ersten Abschnitt gesehen haben, können wir h als die Lösungsmenge eines linearen Gleichungssystems in n Unbekannten mit n − m = 1 Gleichungen beschreiben, d.h. es gibt einen Vektor u0 ∈ Rn und eine rechte Seite b ∈ Rn−m = R mit x1 .. n 0 0 h = . ∈ R u1 x1 + · · · + un xn = b = {x ∈ Rn |u0 · x = b}. x n 224 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Da h weder die leere Menge noch der ganze Rn ist, muss u0 6= 0 sein. Wir können also den Vektor u0 b u := 0 der Länge 1 und c := 0 ∈ R |u | |u | bilden und haben h = {x ∈ Rn |u · x = c}. Diese Beschreibung ist die sogenannte Hessesche Normalform der Hyperebene h. Der Vektor u steht dabei senkrecht auf der Richtung H ≤ Rn von h. Wähle nämlich einen Punkt p ∈ h. Für jeden Vektor v ∈ H ist dann auch p + v ∈ h und wir haben c = u · (p + v) = u · p + u · v = c + u · v =⇒ u · v = 0. Hieraus sehen wir insbesondere, dass der Vektor u bis auf ein Vorzeichen eindeutig bestimmt ist, es ist der sogenannte Normalenvektor auf der Richtung H von h. Auch die Zahl c hat eine geometrische Bedeutung, sie ist gerade gleich dem Abstand der Hyperebene h zum Nullpunkt. Dies wollen wir an dieser Stelle aber nicht mehr begründen. 12.4 Das Vektorprodukt Auch dieses Thema wurde in der Vorlesung nur kurz skizziert und soll hier vollständig ausgeführt werden. Das Vektorprodukt ist ein spezifisch dreidimensionales Phänomen, es ordnet zwei Vektoren u, v ∈ R3 einen weiteren Vektor u × v ∈ R3 zu, genannt das Vektorprodukt oder auch das Kreuzprodukt von u und v. Wie für das bereits behandelte Skalarprodukt gibt es zwei mögliche Arten das Vektorprodukt einzuführen, eine algebraische und eine mehr geometrische Methode. Wir werden die algebraische Form als Definition verwenden, wollen aber erst mal die geometrische Beschreibung des Vektorprodukts angeben. Zunächst soll u × v senkrecht auf u und auf v stehen. Sind insbesondere u und v linear unabhängig, so wird u × v senkrecht auf der von u und v aufgespannten Ebene sein. Hierdurch ist das Vektorprodukt aber noch nicht festgelegt, die auf u und v senkrechten Vektoren bilden einen eindimensionalen Teilraum des R3 , zumindest wenn u und v linear unabhängig sind. Als nächste Einschränkung soll die Länge des Vektorprodukts gerade die Fläche des von u und v aufgespannten Parallelograms sein. Dadurch ist das Vektorprodukt fast vollständig festgelegt, es gibt gerade zwei auf u, v senkrechte Vektoren einer vorgeschriebenen Länge. Welcher dieser beiden Vektoren als Vektorprodukt verwendet wird, ist durch die dritte Eigenschaft des Vektorprodukts festgelegt, die drei Vektoren u, v und u × v sollen eine positive Basis des R3 bilden, also eine deren Determinante positiv ist. Dies beschreibt zumindest den Fall wenn u und v linear unabhängig sind, andernfalls wird einfach u × v = 0 sein. Wie im zweidimensionalen Fall läßt sich auch wieder sagen was die Positivität einer Basis geometrisch bedeutet. Eine Basis u, v, w des R3 ist positiv, wenn sie ein Rechtssystem bildet, also wie die x-, y- und z-Achse im R3 angeordnet ist. Eine populäre andere Formulierung dieser Bedingung ist die Rechte Hand Regel“. Halten Sie den Daumen ” 225 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 der rechten Hand in Richtung des ersten Basisvektors u, und den Finger daneben in Richtung des zweiten Basisvektors v, so richtet sich der Mittelfinger in Richtung des dritten Basisvektors w aus. Algebraisch erkennt man dies, wie bereits bemerkt, einfach daran das det(u, v, w) > 0 ist. Wir kommen nun zur algebraischen Definition des Vektorprodukts, und werden dann im folgenden nachweisen, dass diese Definition tatsächlich die obige geometrische Beschreibung verwirklicht. Definition 12.3: Seien u, v ∈ R3 . Das Vektorprodukt von u und v ist dann der Vektor u1 v1 e1 u × v := u2 v2 e2 ∈ R3 . u3 v3 e3 Dabei stehen e1 , e2 , e3 wieder für die drei kanonischen Basisvektoren des R3 . Eine etwas direktere Beschreibung des Vektorprodukts u × v erhalten wir, indem wir die obige Determinante nach der dritten Spalte entwickeln. Das Vektorprodukt wird dann zu u1 v1 e1 u1 v 1 u1 v 1 u2 v 2 u × v = u2 v2 e2 = · e1 − u3 v3 · e2 + u2 v2 · e3 u v 3 3 u3 v3 e3 u2 v 2 u3 v 3 u v − u v 2 3 3 2 u1 v 1 u3 v 1 − u1 v 3 . = − u3 v 3 = u1 v 2 − u2 v 1 u1 v 1 u2 v 2 Insbesondere ist das tatsächliche Berechnen von Kreuzprodukten einfach möglich 1 3 2 − 10 −8 −1 × 5 = −(−2 − 6) = 8 . 2 −2 5+3 8 Einige der algebraischen Grundeigenschaften des Vektorprodukts folgen sofort aus der algebraischen Definition. Da eine Determinante genau dann Null ist, wenn ihre Spalten linear abhängig sind, erhalten wir u × v = 0 ⇐⇒ u und v sind linear abhängig. Vertauschen wir in einer Determinante zwei Spalten, so ändert sich das Vorzeichen der Determinante, also u × v = −v × u. 226 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Da die Determinante in jeder ihrer Spalten linear ist, haben wir ebenfalls (u1 +u2 )×v = u1 ×v +u2 ×v, u×(v1 +v2 ) = u×v1 +u×v2 , λ·u×v = (λu)×v = u×(λv) für u, v, u1 , u2 , v1 , v2 ∈ R3 , λ ∈ R. Wir wollen nun beginnen uns die eingangs gegebene geometrische Beschreibung des Vektorprodukts herzuleiten. Es stellt sich als nützlich heraus, zunächst einmal für u, v, w ∈ R3 die folgende Kombination von Skalarprodukt und Vektorprodukt zu berechnen u1 v1 w1 u1 v 1 u1 v 1 u2 v 2 w3 = u2 v2 w2 = det(u, v, w). w2 + w1 − (u×v)·w = u2 v 2 u3 v 3 u3 v3 u3 v3 w3 Man bezeichnet (u × v) · w = det(u, v, w) auch als das Spatprodukt der drei Vektoren u, v, w. Insbesondere haben wir nun (u × v) · u = det(u, v, u) = 0 da die Determinante det(u, v, u) zwei identische, also insbesondere linear abhängige, Spalten hat. Ebenso ist (u × v) · v = 0. Andererseits haben wir bereits eingesehen, dass (u × v) · u = 0 gerade bedeutet, dass u × v senkrecht auf u steht, und ebenso steht dann u × v senkrecht auf v. Damit haben wir die erste der obigen drei Bedingungen an das Vektorprodukt eingesehen. Wir kommen nun zur Länge von u × v 2 2 2 u v u v u v 1 1 1 1 2 2 + + |u × v|2 = u2 v 2 u3 v 3 u3 v 3 = (u2 v3 − u3 v2 )2 + (u1 v3 − u3 v1 )2 + (u1 v2 − u2 v1 )2 = u22 v32 + u23 v22 + u21 v32 + u23 v12 + u21 v22 + u22 v12 −2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 ) 2 = (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u21 v12 + u22 v22 + u23 v32 +2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 )) 2 = (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u1 v1 + u2 v2 + u3 v3 )2 = |u|2 |v|2 − (u · v)2 . Andererseits haben wir bereits bei der Diskussion des Skalarprodukts festgehalten, dass |u|2 |v|2 − (u · v)2 gerade das Quadrat der Fläche des von u und v aufgespannten Parallelograms ist. Folglich ist die Länge |u×v| gerade die Fläche dieses Parallelograms. Es verbleibt nur noch zu zeigen, dass u, v, u × v eine positive Basis des R3 ist, wenn u und v linear unabhängig sind. Dies ist aber mit unserer obigen Formel (u × v) · w = det(u, v, w) klar det(u, v, u × v) = (u × v) · (u × v) = |u × v|2 > 0. 227 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Damit haben wir auch die geometrische Beschreibung des Vektorprodukts verifiziert. Wir wollen uns nun noch über die geometrische Bedeutung des Spatprodukts klar werden. w uxv v F 0 u Wir wollen uns überlegen, dass (u × v) · w gerade das Volumen des von u, v, w aufgespannten Spats ist, wie im obigen Bild angedeutet. Beachte dazu, das sich das Volumen einer Teilmenge des R3 unter Scherungen nicht ändert, das Volumen V des Spats ergibt sich also als das Produkt F · l, wobei F die Fläche des von u und v aufgespannten Parallelograms ist, und l die Länge der Projektion von w auf eine zu diesem Parallelogram senkrechte Gerade ist. Wie bereits gesehen steht das Vektorprodukt u × v senkrecht auf u und v, also auch auf unserem Parallelogram. Wie bei der Diskussion des Skalarprodukts gezeigt, ist die Länge der Projektion von w auf u × v gegeben als l= (u × v) · w . |u × v| Andererseits haben wir auch bereits eingesehen, dass die Fläche F unseres Parallelograms gerade die Länge des Vektorprodukts u × v ist, d.h. wir haben V = F · l = |u × v| · (u × v) · w = (u × v) · w. |u × v| Das Spatprodukt ist also das Volumen unseres Spats versehen mit einem Vorzeichen. Insbesondere ist dieses Volumen auch gleich V = (u × v) · w = det(u, v, w). Damit haben wir die in §10 angemerkte Bedeutung der Determinante als Volumen auch für n = 3 eingesehen. Das Vorzeichen des Spatprodukts zeigt wieder an, ob u, v, w eine positive Basis bilden oder nicht, ist also positiv für ein Rechtssystem und negativ für ein Linkssystem. Die algebraischen Eigenschaften des Vektorprodukts sind ganz anders als diejenigen der gewöhnlichen Multiplikation. Wir hatten beispielsweise schon gesehen, dass für alle u, v ∈ R3 stets u × v = −v × u ist, und das u × v = 0 sein kann selbst wenn u, v 6= 0 beide nicht Null sind. Das Vektorprodukt ist auch nicht assoziativ, man kann also 228 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 nicht einfach Klammern weglassen. Zum Abschluß wollen wir noch zwei Formeln über doppelte Vektorprodukte herleiten. Satz 12.5: Seien u, v, w ∈ R3 . Dann gelten u × (v × w) = (u · w)v − (u · v)w (Graßman Identität) und u × (v × w) + v × (w × u) + w × (u × v) = 0 (Jacobi Identität). Beweis: Wir zeigen zunächst, dass die Graßman Identität gilt wenn v und w linear abhängig sind. Im Fall v = 0 sind dabei beide Seiten sofort gleich Null, und im Fall v 6= 0 gibt es ein λ ∈ R mit w = λv und wir haben ebenfalls (u · w)v − (u · v)w = λ(u · v)v − (u · v)λv = 0 = u × (v × w). Zum Beweis der Graßman Identität im allgemeinen Fall beginnen wir mit dem Spezialfall u × (u × v) = (u · v)u − |u|2 v. Da der linear abhängige Fall schon erledigt ist, können wir annehmen das u und v linear unabhängig sind. Dann spannen u und v den zweidimensionalen Teilraum hu, vi auf, und u × v steht senkrecht auf diesem, also ist (u × v)⊥ = {x ∈ R3 |u × v ⊥ x} = hu, vi. Da u × (u × v) senkrecht auf u × v ist, folgt u × (u × v) ∈ hu, vi, es gibt also α, β ∈ R mit u × (u × v) = αu + βv. Wir haben 0 = u · (u × (u × v)) = α|u|2 + β u · v und wegen (u × (u × v)) · v = det(u, u × v, v) = − det(u, v, u × v) = −|u × v|2 = (u · v)2 − |u|2 |v|2 ist auch (u · v)2 − |u|2 |v|2 = α u · v + β|v|2 . Damit haben wir zwei Gleichungen für α und β. Die erste Gleichung liefert α=− u·v β, |u|2 und eingesetzt in die zweite Gleichung ergibt dies (u · v)2 − |u|2 |v|2 = β|v|2 − (u · v)2 |u|2 |v|2 − (u · v)2 β = β, |u|2 |u|2 229 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 d.h. u·v β = u · v. |u|2 Insgesamt haben wir damit die zu beweisende Gleichung β = −|u|2 und α = − u × (u × v) = αu + βv = (u · v) u − |u|2 v. Wir kommen jetzt zum Beweis der Graßman Identität im allgemeinen Fall. Wie schon bemerkt können wir v und w also linear unabhängig annehmen. Dann ist v, w, v × w eine Basis des R3 , wir können also u = αv + βw + γ(v × w) mit geeigneten α, β, γ ∈ R schreiben. Es folgen u · w = α v · w + β|w|2 und u · v = α|v|2 + β v · w und mit dem bereits bewiesenen Spezialfall der Graßman Identität ist damit u × (v × w) = α v × (v × w) + β w × (v × w) + γ (v × w) × (v × w) = α v × (v × w) − β w × (w × v) = α((v · w) v − |v|2 w) − β((v · w) w − |w|2 v) = (α v · w + β|w|2 )v − (α|v|2 + β v · w)w = (u · w)v − (u · v)w. Damit ist die Graßman Identität bewiesen. Die Jacobi Identität ist eine Folgerung, wir haben u × (v × w) + v × (w × u) + w × (u × v) = (u · w)v − (u · v)w + (u · v)w − (v · w)u + (v · w)u − (u · w)v = 0. $Id: stetig.tex,v 1.9 2011/08/18 05:30:49 hk Exp $ §13 Stetige Funktionen In diesem Kapitel kommen wir zur Analysis zurück, und wollen den Stetigkeitsbegriff behandeln. Das Wort stetig“ bedeutet in der Mathematik wesentlich weniger ” als im normalen Sprachgebrauch, stetige Funktionen können sich hochgradig irregulär verhalten. Beispielsweise gibt es stetige Funktionen f : R → R die in keinem einzigen Punkt eine Ableitung besitzen. In gewissen Sinne sind diese sogar der Regelfall, man kann sagen was es bedeutet zufällig eine stetige Funktion zu wählen, und dann ist die Wahrscheinlichkeit das eine zufällig gewählte stetige Funktion in auch nur einen einzigen Punkt differenzierbar ist, gleich Null. 230 Mathematik für Physiker I, WS 2010/2011 13.1 Freitag 28.1.2011 Funktionsgrenzwerte In diesem Abschnitt wollen wir die sogenannten Funktionsgrenzwerte limx→x0 f (x) einführen. Wie wir sehen werden, gibt es eine ganze Reihe verschiedener Varianten dieses Begriffs, was die folgenden Definitionen komplizierter erscheinen läßt als sie wirklich sind. Wir wollen sowohl Funktionen von R nach R, von R nach C, von C nach R als auch von C nach C behandeln können. Dies sind für sich genommen schon vier Fälle. Weiterhin wollen wir bei einem Grenzwert limx→a f (x) für reelle Argumente auch a = ±∞ zulassen und bei reellen Werten auch ±∞ als Grenzwert erlauben. Dies ergibt neun mögliche Kombinationen von ∈ R“, +∞“ und −∞“. Um die Fallunter” ” ” scheidungen nicht allzu sehr ausufern zu lassen, erfassen wir alle möglichen Fälle von Argument–Wert Kombinationen indem wir f : K → L schreiben und K, L stehen dabei jeweils für R oder C. Im reellen Fall soll ±∞ erlaubt werden, und schon in §4 hatten wir für solche Zwecke die erweiterten reellen Zahlen R = R ∪ {−∞, +∞} einngeführt. Wenn wir nun bei f : K → L einfach K und L schreiben wollen, müssen wir sagen was dies im komplexen Fall K = C oder L = C bedeuten soll, und zu diesem Zweck setzen wir C := C. Wie schon im Kapitel §6 über Folgen angekündigt, werden wir all die Grenzwertbegriffe für Funktionen auf die Konvergenz von Folgen zurückführen. Bevor wir zu den Folgengrenzwerten kommen brauchen wir noch einen Hilfsbegriff, wenn ein Limes von f (x) für x gegen x0 irgendeinen Sinn haben soll, darf der Punkt x0 nicht allzu weit weg vom Definitionsbereich der Funktion f liegen, haben wir zum Beispiel eine für x > 0 definierte Funktion f (x), so wird es sicher keinen Sinn haben einen Grenzwert für x gegen −1 definieren zu wollen. Einen Grenzwert für x gegen Null sollte es aber geben, obwohl x = 0 nicht im Definitionsbereich der Funktion liegt. Dieses nicht allzu weit ” weg sein“ wird durch den Hilfsbegriff der Häufungspunkte eine Menge exakt eingeführt. Definition 13.1: Seien K ∈ {R, C} und M ⊆ K eine Teilmenge. Ein Punkt p ∈ K heißt ein Häufungspunkt von M , wenn es eine in K gegen p konvergente Folge in M \{p} gibt. Wir schreiben M 0 := {p ∈ K|p ist ein Häufungspunkt von M } für die Menge aller Häufungspunkte von M in K. Beachte das ±∞ zwar Häufungspunkte einer Menge M ⊆ R sein können, aber trotzdem nicht in die Menge M 0 aufgenommen werden. Machen sie sich außerdem klar des es einen Unterschied zwischen den Häufungspunkten einer Folge (xn )n∈N und den Häufungspunkten der Menge {xn |n ∈ N} gibt. Analog zu unserem Vorgehen bei Folgen folgen für eine Menge M ⊆ R +∞ ist Häufungspunkt von M ⇐⇒ M ist nach oben unbeschränkt, −∞ ist Häufungspunkt von M ⇐⇒ M ist nach unten unbeschränkt. 231 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Uns werden hauptsächlich zwei Beispieltypen interessieren. Sind a, b ∈ R mit a < b und (a, b) ⊆ M ⊆ [a, b], so ist M 0 = [a, b], und entsprechendes gilt für unbeschränkte Intervalle. Im komplexen Fall betrachten wir einen sogenannten offenen Kreis M := Br (z) := {u ∈ C : |u − z| < r} ⊆ C, mit Mittelpunkt z ∈ C und Radius r > 0, und dann ist M 0 = B r (z) := {u ∈ C : |u − z| ≤ r} der entsprechende, sogenannte, abgeschlossene Kreis mit Mittelpunkt z und Radius r. In Beweisen brauchen wir gelegentlich eine besser handhabbare Bedingung für Punkte a die keine Häufungspunkte sind. Seien also K ∈ {R, C}, eine Teilmenge D ⊆ K und ein Punkt a ∈ K gegeben. Dann behaupten wir a∈ / D0 ⇐⇒ ∃( > 0) : B (a) ∩ D ⊆ {a}, d.h. ist a kein Häufungspunkt von D, so existiert ein > 0 so das kein von a verschiedenes Element von D näher als bei a liegt. Dies ist leicht zu beweisen. Ist a nämlich ein Häufungspunkt von D, so gibt es eine gegen a konvergente Folge (xn )n∈N in D\{a}, und für jedes > 0 gibt es dann insbesondere ein Folgenglied xn ∈ D\{a} mit |xn − a| < , d.h. die rechte Seite unserer Äquivalenz ist dann nicht erfüllt. Ist umgekehrt die rechte als falsch vorausgesetzt, so existiert für jedes > 0 ein x ∈ D mit x 6= a und |x − a| < . Insbesondere gibt es für jedes n ∈ N mit n ≥ 1 ein xn ∈ D\{a} mit |xn − a| < 1/n. Nach dem Einschnürungslemma §6.Lemma 5.(b) für Folgen ist damit (xn )n≥1 −→ a, und a ist ein Häufungspunkt von D. Damit ist diese Behauptung bewiesen. Wir kommen jetzt zur Definition der Funktionsgrenzwerte und pressen alle überhaupt möglichen Fälle in eine einzige Definition. Definition 13.2 (Funktionsgrenzwerte) Seien K, L ∈ {R, C}, D ⊆ K und f : D → L eine Funktion. Weiter sei a ∈ K ein Häufungspunkt von D. Dann ist die Funktion f an der Stelle a konvergent gegen ein b ∈ L, wenn für jede in K gegen a konvergente Folge (xn )n∈N in D\{a} stets auch (f (xn ))n∈N −→ b gilt. Wir schreiben dann b = lim f (x) x→a und nennen b den Grenzwert von f an der Stelle a. Weiter heißt f an der Stelle a konvergent, wenn es ein b ∈ L gibt so, dass f an der Stelle a gegen b konvergiert. Andernfalls nennen wir die Funktion f an der Stelle a divergent. Die Verwendung von K und L ist leider nötig um alle möglichen Konfigurationen abzudecken, man will sowohl auf R definierte Funktionen mit reellen oder komplexen Werten als auch auf C definierte Funktionen mit reellen oder komplexen Werten betrachten und wann immer man reelle Argumente oder Werte verwendet will man auch ±∞ zulassen können. Die mit ±∞ verbundene Sprechweise bei reellwertigen Funktionen ist 232 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 wie bei den Folgen, man spricht von Konvergenz in R, aber wenn nur von Konvergenz“ ” die Rede ist, ist damit immer ein reeller Grenzwert, also nicht ±∞ gemeint. Oft, und vor allem wenn die Funktion f durch eine explizite Formel gegeben ist, sprechen wir auch von der Konvergenz von f (x) für x gegen a beziehungsweise vom Grenzwert von f (x) für x gegen a. Streng genommen sind diese Sprechweisen eigentlich unsinnig, da es in der Mathematik wie schon am Anfang des Semesters bemerkt, keine nicht in Quantoren gebundenen freien Variablen gibt, und x somit einen festen Wert hat und gegen nichts gehen“ kann. Da diese Formulierung aber so schön suggestiv ” ist und sich leicht in die genauere Version übersetzen läßt, wird sie trotzdem verwendet. Beachte aber das dieses x“ dann einen rein formalen Charakter hat, und nur ” im Kontext des betrachteten Funktionsgrenzwerts verwendet werden kann. Weiterhin unterstellt unsere Verwendung des bestimmten Artikels in der obigen Definition, dass der Grenzwert b eindeutig ist, dies muss natürlich noch bewiesen werden. Dies werden wir aber erst in der nächsten Sitzung durchführen, an dieser Stelle wollen wir lieber zwei einfache Beispiele von Funktionsgrenzwerten besprechen. Zunächst sei f : R → R; x 7→ x3 + 2x2 − 7x + 1, und wir wollen den Funktionsgrenzwert limx→1 f (x) berechnen. Hierzu müssen wir Folgen (xn )n∈N in R mit xn 6= 1 für alle n ∈ N und limn→∞ xn = 1 betrachten. Erstere Bedingung wird dabei keine Rolle spielen. Die Grenzwertsätze für Folgen §6.Satz 6 ergeben lim f (xn ) = lim (x3n + 2x2n − 7xn + 1) n→∞ 3 2 = lim xn + 2 lim xn − 7 · lim xn + 1 n→∞ n→∞ n→∞ n→∞ = 1 + 2 − 7 + 1 = f (1) = −3. Der gesuchte Funktionsgrenzwert ist also f (1) = −3. Eine ähnliche Rechnung funktioniert offenbar für jeden Punkt x0 ∈ R und jedes Polynom f , d.h. sind f : R → R ein Polynom und x0 ∈ R, so gilt immer 10 8 6 y lim f (x) = f (x0 ), 4 x→x0 2 und analog gilt dies auch für komplexe Polynome. Kommen wir zu einem etwas komplizierteren Beispiel, der rationalen Funktion f : R\{1, −2} → R; x 7→ x3 − x2 + x + 1 x3 − 3x + 2 –3 –2 –1 0 –2 –4 –6 –8 –10 mit dem nebenstehend gezeigten Graphen. Betrachten wir zunächst einmal den Grenzwert x → 0. Hier können 233 1 2 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 wir unsere obige Überlegung für Polynome und erneut den Grenzwertsatz für Folgen zum Einsatz bringen, und rechnen für jede Nullfolge (xn )n∈N lim (x3n − x2n + xn + 1) lim f (xn ) = n→∞ lim (x3n − 3xn + 2) n→∞ n→∞ 1 = , 2 d.h. es ist 1 lim f (x) = f (0) = . 2 Ebenso können wir natürlich für jede rationale Funktion f und jeden Punkt x0 ∈ R argumentieren, der nicht gerade eine Nullstelle des Nenners ist, und erhalten in diesen Fällen limx→∞ f (x) = f (x0 ). Wie sieht es nun aus, wenn x0 doch eine Nullstelle des Nenners ist? Im Beispiel haben wir x→0 x3 − 3x + 2 = (x − 1)2 (x + 2) mit den beiden Nullstellen −2 und 1. Betrachten wir erst einmal den Grenzwert für x → 1. Zu diesem Zweck schreiben wir f (x) = 1 x3 − x2 + x + 1 · , (x − 1)2 x+2 und wissen bereits x3 − x2 + x + 1 1−1+1+1 2 = = . x→1 x+2 1+2 3 lim Ist nun (xn )n∈N eine Folge mit limx→∞ xn = 1 und xn 6= 1, −2 für alle n ∈ N, so ist 2 1 x3n − x2n + xn + 1 = ∞, = , lim n→∞ xn − 2 3 n→∞ (xn − 1)2 lim wobei letzterer Grenzwert aus unseren Überlegungen in §6.2 folgt, es handelt sich um den Kehrwert einer Nullfolge mit positiven Vorzeichen, und solche Folgen konvergieren gegen +∞. Also folgt erneut mit den Rechenregeln für Folgengrenzwerte x3n − x2n + xn + 1 = ∞. n→∞ (xn − 1)2 (xn + 2) lim Damit ist lim f (x) = ∞. x→1 Wie sieht es mit dem Grenzwert für x → −2 aus? Gehen wir wie bei x = 1 vor, so ist x3 − x2 + x + 1 1 · , x+2 (x − 1)2 x3 − x2 + x + 1 (−2)3 − (−2)2 − 2 + 1 13 lim = =− . 2 2 x→−2 (x − 1) (−2 − 1) 9 f (x) = 234 Mathematik für Physiker I, WS 2010/2011 Freitag 28.1.2011 Aber der Grenzwert von 1/(x + 2) für x → −2 existiert nicht, da dieser Quotient zwar im Betrag beliebig groß wird wenn x nahe an 2 ist, aber für x < −2 negativ und für x > −2 positiv ist. Was existiert sind die sogenannten links- und rechtsseitigen Grenzwerte für x → −2, die wir aber erst einmal definieren müssen. Links- und rechtsseitige Grenzwerte lassen sich nur im Fall K = R reeller Argumente definieren. Weiterhin ist der Begriff nur sinnvoll wenn es überhaupt links und rechts ” gibt“, also nur wenn a ∈ R, und nicht etwa ±∞, ist. Sind D ⊆ R eine Teilmenge und a ∈ R, so betrachten wir die beiden Teilmengen D≥a := {x ∈ D|x ≥ a} und D≤a := {x ∈ D|x ≤ a}, und nennen a einen rechtsseitigen Häufungspunkt von D wenn a ein Häufungspunkt von D≥a ist, und einen linksseitigen Häufungspunkt von D wenn a ein Häufungspunkt von D≤a ist. Offenbar ist a genau dann ein Häufungspunkt von D, wenn a ein links- oder ein rechtsseitiger Häufungspunkt von D ist. Sei jetzt weiter eine Funktion f : D → L gegeben, wobei wieder L ∈ {R, C} ist, und sei b ∈ L. Ist dann a ein rechtsseitiger Häufungspunkt von D, so sagen wir das die Funktion f an der Stelle a von rechts gegen b konvergiert, und schreiben lim f (x) = b x↓a wenn die Einschränkung f |D≥a an der Stelle a gegen b konvergiert. Wir nennen b dann auch den rechtsseitigen Grenzwert der Funktion f an der Stelle a. Als die Einschränkung einer Funktion f : M → N auf eine Teilmenge D ⊆ M bezeichnet man die Funktion f |D : D → N ; x 7→ f (x), bei der der Definitionsbereich der Funktion zur Menge D verkleinert wird. Ausgeschrieben bedeutet die Aussage limx↓a f (x) = b dann dass für jede gegen a konvergente Folge (xn )n∈N in D mit xn > a für alle n ∈ N auch (f (xn ))n∈N −→ b gilt. Ist a ein linksseitiger Häufungspunkt von D, so wird die linksseitige Konvergenz von f an der Stelle a analog definiert, und man schreibt dann lim f (x). x↑a In diesem Fall nennen wir b den linksseitigen Grenzwert der Funktion f an der Stelle a. Beachte das die links- und rechtsseitigen Grenzwerte einer Funktion f spezielle Beispiele gewöhnlicher Funktionsgrenzwerte sind, und insbesondere sind alle Sätze über Funktionsgrenzwerte auch auf links- und rechtsseitige Funktionsgrenzwerte anwendbar. Ausgerüstet mit diesem Begriff, kommen wir jetzt zu unserem Beispiel der rationalen Funktion f : R\{1, −2} → R; x 7→ x3 − x2 + x + 1 x3 − x2 + x + 1 1 = · x3 − 3x + 2 x+2 (x − 2)2 zurück. Ist (xn )n∈N eine gegen −2 konvergente Folge mit xn > −2 und xn 6= 1 für alle n ∈ N, so ist (xn + 2)n∈N eine Nullfolge mit positiven Vorzeichen, also konvergiert 235 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 (1/(xn + 2))n∈N gegen +∞. Der rechte Term konvergierte gegen −13/9, und damit konvergiert (f (xn ))n∈N insgesamt gegen −∞. Dies zeigt lim f (x) = −∞ und analog ist auch x↓−2 lim f (x) = ∞. x↑−2 Vorlesung 23, Montag 31.1.2011 In der letzten Sitzung hatten wir die verschiedensten Arten von Funktionsgrenzwerten eingeführt, und auch bereits zwei kleine Beispiele für diese Grenzwerte gerechnet. Die Rechnungen in diesen beiden Beispielen können offensichtlich verallgemeinert werden um auch limx→a f (x) = f (a) für jedes reelle oder komplexe Polynom f und sogar jede reelle oder komplexe rationale Funktion f zu zeigen, solange a keine Nullstelle des Nenners der ratonalen Funktion ist. Wir wollen auch noch ein Beispiel behandeln in dem der Funktionsgrenzwert nicht existiert. Hierzu schauen wir uns die folgende Funktion an: 1 0.5 1 f : (0, ∞) → R; x 7→ sin x 0 0.2 0.4 0.6 0.8 1 –0.5 –1 Wenn x näher zu Null rückt wird 1/x immer größer und sin(1/x) durchläuft immer schneller seine Perioden. Dies führt dann zu dem im Graphen sichtbaren Oszillationseffekt bei Null. In diesen Beispiel gibt es überhaupt keinen Grenzwert von f (x) für x → 0. Wir haben beispielsweise die Folge xn = π 2 1 + nπ mit limn→∞ xn = 0 und f (xn ) = (−1)n für alle n ∈ N. Anschaulich ist dies die Folge, die gerade die abwechselnden Maxima und Minima von f (x) abläuft. Es gibt also eine 236 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 Nullfolge (xn )n∈N in (0, ∞) bei der die Folge (f (xn ))n∈N divergiert, und damit gibt es insbesondere keinen Grenzwert der Funktion f an der Stelle 0. Wir wollen jetzt die allgemeinen Eigenschaften von Funktionsgrenzwerten herleiten. All diese sind vollkommen analog zu den entsprechenden Eigenschaften von Folgen und werden auch mittels dieser Aussagen über Folgen bewiesen. Wir geben in diesem Skript auch die vollständigen Beweise an, in der Vorlesung wurden diese weitgehend weggelassen. Lemma 13.1 (Grundeigenschaften von Funktionsgrenzwerten) Seien K, L ∈ {R, C}, D ⊆ K, a ∈ K ein Häufungspunkt von D und f : D → L eine Funktion. Dann gelten: (a) Es gibt höchstens einen Grenzwert von f an der Stelle a. (b) Genau dann konvergiert f an der Stelle a nicht gegen b ∈ L, wenn es ein > 0 und eine Folge (xn )n∈N in D\{a} mit (xn )n∈N −→ a und |f (xn ) − b| ≥ für alle n ∈ N gibt. (c) Ist L = C, so konvergiert f genau dann an der Stelle a gegen b ∈ C wenn die reellwertige Funktion Re ◦f an der Stelle a gegen Re(b) konvergiert und die reellwertige Funktion Im ◦f an der Stelle a gegen Im(b) konvergiert. (d) Sind L = C sowie f (D) ⊆ R und konvergiert f an der Stelle a gegen b ∈ C, so ist auch b ∈ R. (e) Konvergiert f an der Stelle a gegen b ∈ L, so konvergiert auch |f | an der Stelle a gegen |b|. (f ) Sind a ∈ K und b ∈ L, so konvergiert f genau dann an der Stelle a gegen b, wenn es für jedes ∈ R mit > 0 stets ein δ ∈ R mit δ > 0 gibt so, dass für alle x ∈ D mit 0 < |x − a| < δ stets auch |f (x) − b| < ist. (g) Sei M ⊆ D so das a auch ein Häufungspunkt von M ist. Konvergiert dann f an der Stelle a gegen ein b ∈ L, so konvergiert auch die eingeschränkte Funktion f |M : M → L; x 7→ f (x) an der Stelle a gegen b. Beweis: (a) Da es überhaupt eine gegen a konvergente Folge in D\{a} gibt, folgt dies aus §6.Lemma 1.(b). (b) ”=⇒” Es gibt eine in K gegen a konvergente Folge (xn )n∈N in D\{a} so, dass die Bildfolge (f (xn ))n∈N nicht gegen b konvergiert. Nach §6.Lemma 1.(c) existieren ein > 0 und eine Teilfolge (xnk )k∈N von (xn )n∈N mit |f (xnk ) − b| ≥ für alle k ∈ N. Nach §6.Lemma 1.(a) ist auch (xnk ) eine in K gegen a konvergente Folge in D\{a} (im Fall a ∈ {−∞, +∞} werden dabei die Ergänzungen aus §6.2 verwendet). 237 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 ”⇐=” Gibt es ein > 0 und eine in K gegen a konvergente Folge in D\{a} mit |f (xn ) − b| ≥ für alle n ∈ N, so kann die Folge (f (xn ))n∈N nicht in L gegen b konvergieren, und damit konvergiert auch f an der Stelle a nicht gegen b. (c) ”=⇒” Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{a}. Dann konvergiert die Folge (f (xn ))n∈N in C gegen b, und nach §6.Lemma 1.(d) konvergiert die Folge (Re(f (xn )))n∈N in R gegen Re(b) und die Folge (Im(f (xn )))n∈N konvergiert in R gegen Im(b). Damit konvergiert die Funktion Re ◦f an der Stelle a gegen Re(b) und die Funktion Im ◦f konvergiert an der Stelle a gegen Im(b). ”⇐=” Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{x}. Nach unserer Annahme gelten dann (Re(f (xn )))n∈N −→ Re(b) und (Im(f (xn )))n∈N −→ Im(b), also ist nach §6.Lemma 1.(d) auch (f (xn ))n∈N −→ b. Damit konvergiert f an der Stelle a gegen b. (d) Wähle eine gegen a konvergente Folge (xn )n∈N in D\{a}. Dann konvergiert die Folge (f (xn ))n∈N gegen b und für alle n ∈ N gilt f (xn ) ∈ f (D) ⊆ R, also ist nach §6.Lemma 1.(e) auch b ∈ R. (e) Sei (xn )n∈N eine in K gegen a konvergente Folge in D\{a}. Dann ist (f (xn ))n∈N −→ b und mit §6.Lemma 2.(b) folgt auch (|f (xn )|)n∈N −→ |b|. Damit konvergiert die Funktion |f | an der Stelle a gegen |b|. (f ) ”=⇒” Angenommen die Aussage ∀( > 0)∃(δ > 0)∀(x ∈ D) : 0 < |x − a| < δ =⇒ |f (x) − b| < wäre falsch. Dann existiert ein > 0 so, dass es für jedes δ > 0 stets ein x ∈ D mit 0 < |x − a| < δ und |f (x) − b| ≥ gibt. Insbesondere gibt es dann für jedes n ∈ N ein xn ∈ D mit 0 < |xn − a| < 1/n und |f (xn ) − b| ≥ . Für jedes n ∈ N ist dann insbesondere xn 6= a also xn ∈ D\{a}. Nach §6.Lemma 4.(e) ist (xn − a)n∈N eine Nullfolge und nach §6.Lemma 4.(d) ist (xn )n∈N −→ a. Dies ist ein Widerspruch zu (b). ”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Wir müssen zeigen, dass die Folge (f (xn ))n∈N gegen b konvergiert. Sei also > 0 gegeben. Nach unserer Annahme existiert dann ein δ > 0 mit |f (x) − b| < für alle x ∈ D mit 0 < |x − a| < δ. Da (xn )n∈N gegen a konvergiert, existiert ein n0 ∈ N mit |xn − a| < δ für alle n ∈ N mit n ≥ n0 . Sei jetzt n ∈ N mit n ≥ n0 gegeben. Wegen xn 6= a ist dann xn ∈ D mit 0 < |xn − a| < δ, also ist auch |f (xn ) − b| < . Damit ist (f (xn ))n∈N −→ b bewiesen. Damit ist limx→a f (x) = b gezeigt. (g) Dies ist klar. Die Aussagen (c) und (d) des Lemmas klären den Zusammenhang zwischen reellwertigen und komplexwertigen Funktionen, für reellwertige Funktionen spielt es keine Rolle ob wir L = R oder L = C verwenden, man kann sich dann den komplexen Fall als den allgemeinen Fall denken. In der Limes Notation kann man (c) als Re lim f (z) = lim Re(f (z)) und Im lim f (z) = lim Im(f (z)) z→a z→a z→a 238 z→a Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 beziehungsweise als lim f (z) = lim Re(f (z)) + i · lim Im(f (z)) z→a z→a z→a lesen, entsprechend wird Teil (e) zu lim |f (x)| = lim f (x) . x→a x→a Die Bedingung in Teil (f), also ∀( > 0)∃(δ > 0)∀(x ∈ D) : 0 < |x − a| < δ =⇒ |f (x) − b| < wird als die –δ Definition der Funktionskonvergenz bezeichnet, ob man diese oder die bei uns verwendete Folgendefinition als Definition verwendet, ist recht beliebig und wird in der Literatur unterschiedlich gehandhabt. Wenden wir Teil (f) des Lemmas auf rechtsseitige Grenzwerte an, so ergibt sich lim f (x) = b ⇐⇒ ∀( > 0)∃(δ > 0)∀(x ∈ D) : a < x < a + δ =⇒ |f (x) − b| < , x↓a und für linksseitige Grenzwerte ergibt sich ein analoges –δ Kriterium. Auch wenn a oder b einer der Werte ±∞ ist, kann man eine zu (f) analoge Aussage zeigen, dies ist völlig analog zum Beweis von (f), aber durch die große Anzahl möglicher Fälle etwas umfangreich. Für eine reellwertige Funktion f : D → R mit D ⊆ C und einem Häufungspunkt a ∈ D0 gelten lim f (z) = +∞ ⇐⇒ ∀(t ∈ R)∃(δ > 0)∀(z ∈ D) : 0 < |z − a| < δ =⇒ f (z) > t, z→a lim f (z) = −∞ ⇐⇒ ∀(t ∈ R)∃(δ > 0)∀(z ∈ D) : 0 < |z − a| < δ =⇒ f (z) < t, z→a für eine Funktion f : D → C definiert auf einer nach oben unbeschränkten Menge D ⊆ R und jedes b ∈ C ist lim f (x) = b ⇐⇒ ∀( > 0)∃(t ∈ R)∀(x ∈ D) : x > t =⇒ |f (x) − b| < , x→∞ und ist D nach unten unbeschränkt, so haben wir analog lim f (x) = b ⇐⇒ ∀( > 0)∃(t ∈ R)∀(x ∈ D) : x < t =⇒ |f (x) − b| < . x→−∞ Sind schließlich D ⊆ R und f : D → R eine reellwertige Funktion, so ergeben sich für nach oben unbeschränktes D die Äquivalenzen lim f (x) = +∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x > s =⇒ f (x) > t, x→∞ lim f (x) = −∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x > s =⇒ f (x) < t x→∞ 239 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 und für nach unten unbeschränktes D ist ebenso lim f (x) = +∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x < s =⇒ f (x) > t, x→−∞ lim f (x) = −∞ ⇐⇒ ∀(t ∈ R)∃(s ∈ R)∀(x ∈ D) : x < s =⇒ f (x) < t. x→−∞ Für links- und rechtsseitige Grenzwerte erhält man analoge äquivalente Beschreibungen. In §6 hatten wir gesehen das die Anordnung der reellen Zahlen uns auch spezielle Eigenschaften reeller Folgen liefert. Diese können wir jetzt auch leicht auf Grenzwerte reellwertiger Funktionen übertragen. Dabei kommt es nur darauf an, dass die Funktionswerte reell sind, die Funktionen dürfen aber durchaus auch auf C definiert sein. Lemma 13.2 (Anordnungseigenschaften reelller Funktionsgrenzwerte) Seien K ∈ {R, C}, D ⊆ K und a ∈ K ein Häufungspunkt von D. Weiter seien f, g : D → R zwei Funktionen, die beide in R an der Stelle a konvergieren. (a) Gilt f (x) ≤ g(x) für alle x ∈ D\{a}, so ist auch lim f (x) ≤ lim g(x). x→a x→a (b) Gilt lim f (x) = lim g(x) und ist h : D → R eine weitere Funktion mit f (x) ≤ x→a x→a h(x) ≤ g(x) für alle x ∈ D\{a}, so ist auch die Funktion h in R an der Stelle a konvergent mit dem Grenzwert lim h(x) = lim f (x) = lim g(x). x→a x→a x→a Beweis: (a) Wähle eine gegen a konvergente Folge (xn )n∈N in D\{a}. Dann ist für alle n ∈ N stets f (xn ) ≤ g(xn ) und mit §6.Lemma 5.(a) folgt lim f (x) = lim f (xn ) ≤ lim g(xn ) = lim g(x). x→a n→∞ n→∞ x→a (b) Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Dann gelten auch lim f (xn ) = lim f (x) = lim g(x) = lim g(xn ) n→∞ x→a x→a n→∞ und für alle n ∈ N ist f (xn ) ≤ h(xn ) ≤ g(xn ). Nach §6.Lemma 6.(b) ist damit auch die Folge (h(xn ))n∈N in K konvergent mit dem Grenzwert lim h(xn ) = lim f (xn ) = lim f (x). n→∞ n→∞ x→a Dies beweist das die Funktion h in R an der Stelle a gegen den angegebenen Wert konvergiert. 240 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 In Teil (a) dieses Lemmas muss man die Ungleichung nicht für alle x ∈ D\{a} fordern, sondern es reicht aus wenn diese für alle x ∈ D\{a} nahe bei a gelten. Man sagt das Funktionsgrenzwerte lokal sind, d.h. der Grenzwert von f (x) für x gegen a hängt nicht vom Verhalten der Funktion für weit von a entfernte Argument ab. Ändern wir zum Beispiel eine auf R definierte Funktion f für Argumente x > 1 ab, so wird sich der Grenzwert der Funktion in x = 0 nicht ändern. Das folgende Lemma gibt uns eine exakte Formulierung dieser Lokalität von Grenzwerten. Lemma 13.3 (Funktionsgrenzwerte sind lokal) Seien K, L ∈ {R, C}, D ⊆ K, a ∈ K ein Häufungspunkt von D und f : D → L eine Funktion. Im Fall a ∈ K sei > 0 und betrachte die Teilmenge e := {x ∈ D : |x − a| < } ⊆ D D von D und im Fall a ∈ {−∞, +∞} sei t ∈ R und betrachte die Teilmenge ( e := {x ∈ D|x > t}, a = +∞, D {x ∈ D|x < t}, a = −∞ e und genau dann konvergiert die von D. Dann ist a auch ein Häufungspunkt von D e an der Stelle Funktion f an der Stelle a gegen ein b ∈ L, wenn die Einschränkung f |D a gegen b konvergiert. Beweis: Da a ein Häufungspunkt von D ist, gibt es eine in K gegen a konvergente Folge (xn )n∈N in D\{a}. Im Fall a 6= ±∞ gibt es ein n0 ∈ N mit |xn − a| < für alle n ∈ N mit n ≥ n0 , im Fall a = +∞ gibt es ein n0 ∈ N mit xn > t für alle n ≥ n0 und im letzten Fall a = −∞ gibt es ein n0 ∈ N mit xn < t für alle n ≥ n0 . In allen drei e für alle n ∈ N mit n ≥ n0 und somit ist (xn )n≥n0 eine gegen Fällen ist damit xn ∈ D e e a konvergente Folge in D\{a}, d.h. a ist ein Häufungspunkt der Menge D\{a}. Damit ist die erste Aussage bewiesen. Wir kommen zur Äquivalenzaussage für die Funktionskonvergenz. ”=⇒” Dies ist klar nach Lemma 1.(g). ”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Wie oben gesehen, gibt es e für alle n ≥ n0 , d.h. (xn )n≥n0 ist eine gegen a konvergente dann ein n0 ∈ N mit xn ∈ D e e an der Stelle a gegen b konvergiert, ist auch (f (xn ))n≥n0 −→ b Folge in D\{a}. Da f |D in L. Dann ist aber auch (f (xn ))n∈N −→ b in L und damit konvergiert auch f an der Stelle a gegen b. Dieses Lemma erlaubt es uns in vielen Aussagen über Funktionsgrenzwerte Bedingungen an alle x im Definitionsbereich der betrachteten Funktion durch die entsprechenden Bedingungen nur noch an die x aus dem Definitionsbereich nahe an der betrachteten Stelle zu ersetzen. Dies werden wir oft verwenden auch ohne jedesmal explizit auf dieses Lemma hinzuweisen. Wir wollen unser Lemma über Anordnungseigenschaften von 241 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 Funktionsgrenzwerten jetzt einmal dazu verwenden, die folgende Funktion zu behandeln: 1 0.5 1 f : (0, ∞) → R; x 7→ x · sin x 0 0.2 0.4 0.6 0.8 1 –0.5 –1 Diese ist rein formal ähnlich zur schon früher diskutierten Funktion g(x) = sin(1/x), und die Funktion g war in x = 0 divergent, da sie zu Null hin immer schneller oszillierte. Zwar oszilliert jetzt auch die Funktion f immer schneller zwischen positiven und negativen Werten hin und her, aber durch die Multiplikation mit x wird diese Oszillation immer kleiner, was zur Existenz des Grenzwerts führt. Zur Begründung müssen wir nicht mehr auf Folgen zurückgehen, sondern können unseren Einschnürungssatz Lemma 2.(b) verwenden. Für jedes x > 0 gilt 1 ≤ |x|, also − x ≤ f (x) ≤ x, |f (x)| = x sin x und da wir bereits wissen, dass die linke und rechte Seite dieser Ungleichung für x gegen 0 beide gegen Null konvergieren, ist damit auch limx→0 f (x) = 0. Ein oftmals vorkommender Funktionstyp sind Funktionen die sozusagen aus meh” reren Stücken“ zusammengesetzt sind, wie zum Beispiel die beiden Funktionen H(x) xH(x) x x Funktion x · H(x) Heaviside Funktion H(x) wobei H die schon in §3 als Beispiel verwendete Heaviside Funktion ist, also H(x) = 0 für x < 0 und H(x) = 1 für x ≥ 0. Die Heaviside Funktion hat in Null die links- und rechtsseitigen Grenzwerte lim H(x) = 1 und lim H(x) = 0, x↓0 x↑0 242 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 während die Funktion xH(x) sich als ( 0, x ≤ 0, xH(x) = x, x ≥ 0 schreiben läßt und die links- und rechtsseitigen Grenzwerte lim xH(x) = lim xH(x) = 0 x↓0 x↑0 hat. Das folgende Lemma sagt uns, dass dann auch der Grenzwert in x = 0 existiert und gleich Null ist. In diesem konkreten Fall kann man das natürlich auch leicht direkt einsehen, aber darauf kommt es uns hier nicht an. Lemma 13.4 (Grenzwerte zusammengesetzter Funktionen) Seien D ⊆ R eine Menge, a ∈ R ein Häufungspunkt von D und f : D → K mit K ∈ {R, C} eine Funktion. Dann ist die Funktion f genau dann an der Stelle a gegen ein b ∈ K konvergent wenn die folgenden beiden Bedingungen gelten: 1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt lim f (x) = b. x↓a 2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und es gilt lim f (x) = b. x↑a Beweis: ”=⇒” Dies ist klar nach Lemma 1.(g). ”⇐=” Sei (xn )n∈N eine gegen a konvergente Folge in D\{a} und betrachte I + := {n ∈ N|xn > a} und I − := {n ∈ N|xn < a}. Dann können drei verschiedene Fälle auftreten. Fall 1. Die Menge I − ist endlich. Dann gibt es ein n0 ∈ N mit xn > a, also xn ∈ D≥a \{a} für alle n ≥ 0. Damit ist insbesondere a ein rechtsseitiger Häufungspunkt von D und es folgt lim f (xn ) = lim f (x) = b. n→∞ x↓a Fall 2. Die Menge I + ist endlich. Dann haben wir analog zu Fall 1 lim f (xn ) = lim f (x) = b. n→∞ x↑a 243 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 Fall 3. Die Mengen I + und I − sind beide unendlich. Dann haben wir zwei Teilfolgen − − (xn+ )k∈N und (xn− )k∈N der Folge (xn )n∈N mit I + = {n+ k |k ∈ N} und I = {nk |k ∈ N}. k k Nach §6.Lemma 1.(a) gelten auch (xn+ )k∈N −→ a und (xn− )k∈N −→ a, also ist a ein k k links- und rechtsseitiger Häufungspunkt von D und es gelten lim f (xn+ ) = lim f (x) = b sowie lim f (xn− ) = lim f (x) = b. k→∞ k x↓a k→∞ k x↑a Nach Aufgabe (21) ist damit auch (f (xn ))n∈N −→ b. In allen drei Fällen haben wir damit (f (xn ))n∈N −→ b eingesehen, und somit ist limx→a f (x) = b bewiesen. Als ein weiteres Beispiel betrachten wir den Grenzwert der Funktion ( 0, x ≤ 0, f : R → R; x 7→ x2 , x ≥ 0 für x → 0. Diese Funktion ist aus den beiden Stücken“ f − (x) = 0 für x ≤ 0 und ” f + (x) = x2 für x ≥ 0 zusammengesetzt. Aus unseren bisherigen Beispielen wissen wir schon limx→0 f − (x) = limx→0 f + (x) = 0, also auch lim f (x) = lim f (x) = 0, x↑0 x↓0 und das eben bewiesene Lemma ergibt limx→0 f (x) = 0. Wir kehren jetzt wieder zur Theorie zurück. Die Rechenregeln für Folgengrenzwerte übertragen sich sofort zu den folgenden Rechenregeln für Funktionsgrenzwerte. Satz 13.5 (Rechenregeln für Funktionsgrenzwerte) Seien K, L ∈ {R, C}, D ⊆ K und a ∈ K ein Häufungspunkt von D. Weiter seien f, g : D → L zwei Funktionen deren Grenzwerte an der Stelle a in L existieren. (a) Ist {limx→a f (x), limx→a g(x)} = 6 {−∞, +∞}, so existiert der Grenzwert lim (f (x) + g(x)) = lim f (x) + lim g(x) . x→a x→a x→a (b) Ist c ∈ L, so existiert der Grenzwert lim (cf (x)) = c · lim f (x), x→a x→a solange nicht c = 0 und limx→a f (x) ∈ {−∞, ∞} ist. (c) Ist {limx→a f (x), limx→a g(x)} = 6 {0, +∞}, {0, −∞}, so existiert der Grenzwert lim (f (x) · g(x)) = lim f (x) · lim g(x) . x→a x→a 244 x→a Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 (d) Gelten g(x) 6= 0 für alle x ∈ D\{a} und auch limx→a g(x) 6= 0 und ist auch nicht zugleich limx→a f (x) ∈ {−∞, ∞} und limx→∞ g(x) ∈ {−∞, ∞}, so existiert der Grenzwert lim f (x) f (x) x→a lim = . x→a g(x) lim g(x) x→a Beweis: Klar nach §6.Satz 6 sowie den Erweiterungen dieser Regeln in §6.2. Wie bei Folgengrenzwerten kann man all die Einschränkungen so zusammenfassen, dass die rechte Seite der jeweiligen Gleichung überhaupt definiert sein muss. Für Quotienten reellwertiger Funktionen können wir auch noch eine Grenzwertregel erhalten wenn der Nenner aber nicht der Zähler gegen Null geht, zumindest solange das Vorzeichen des Nenners konstant ist. Ist also unter den Voraussetzungen des Satzes und den zusätzlichen Annahmen L = R, sign(g(x)) = σ für alle x ∈ D\{a} und ein festes Vorzeichen σ ∈ {−1, 1} der Grenzwert limx→a g(x) = 0 aber limx→a f (x) 6= 0, so ist f (x) lim = σ · sign lim f (x) · ∞. x→a g(x) x→a Auch dies folgt aus den in §6.2 behandelten Rechenregeln für Grenzwerte reeller Folgen. Als ein Beispiel zur Anwendung dieser Rechenregeln können wir die Grenzwerte rationaler Funktionen vollständig behandeln. Satz 13.6 (Grenzwerte rationaler Funktionen) Sei K ∈ {R, C} und seien p(x) = an xn + · · · + a0 , q(x) = bm xm + · · · + b0 mit n, m ∈ N, a0 , . . . , an , b0 , . . . , bm ∈ K, an 6= 0, bm 6= 0 zwei Polynomfunktionen. Weiter nehme an, dass p und q keine gemeinsame Nullstelle in K haben, und betrachte die rationale Funktion p(x) an x n + · · · + a0 = . f : K\q −1 ({0}) → K; x 7→ q(x) bm x m + · · · + b0 Dann gelten: (a) Ist a ∈ K mit q(a) 6= 0, so ist limx→a f (x) = f (a). (b) Ist a ∈ K mit q(a) = 0, so ist limx→a |f (x)| = +∞. (c) Sei a ∈ K = R mit q(a) = 0. Bezeichne r ≥ 1 die Vielfachheit der Nullstelle a von q, d.h. es ist q(x) = (x − a)r qe(x) wobei qe eine Polynomfunktion von Grad m − r mit qe(a) 6= 0 ist. Ist die Vielfachheit r gerade, so gilt lim f (x) = sign(p(a)) · sign(e q (a)) · ∞, x→a und ist die Vielfachheit r ungerade, so gelten lim f (x) = sign(p(a)) · sign(e q (a)) · ∞ und lim f (x) = − sign(p(a)) · sign(e q (a)) · ∞. x↓a x↑a 245 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 (d) Ist K = R und m > n, so gelten lim f (x) = lim f (x) = 0. x→∞ x→−∞ (e) Ist K = R und m = n, so gelten lim f (x) = lim f (x) = x→∞ x→−∞ an . bn (f ) Ist K = R und m < n, so gelten lim f (x) = sign(an )·sign(bm )·∞ und lim f (x) = (−1)n+m sign(an )·sign(bm )·∞. x→∞ x→−∞ Beweis: (a) Dies haben wir bereits weiter oben festgehalten. (b,c) Es sind r p(x) p(x) p(a) 1 f (x) = für x ∈ K\q −1 ({0}) und lim = 6= 0 x→a q x − a qe(x) e(x) qe(a) nach (a). Da für alle x ∈ K\q −1 ({0}) stets |x − a| > 0 ist und nach Lemma 1.(e) auch limx→a |x − a| = 0 und limx→a |p(x)/e q (x)| = |p(a)|/|e q (a)| > 0 gelten, folgt mit den Rechenregeln für Funktionsgrenzwerte auch limx→a |f (x)| = +∞. Nun nehmen wir K = R an. Für x ∈ R\q −1 ({0}) ist dann x − a > 0 für x > a und x − a < 0 für x < a, also ergeben die Rechenregeln für Funktionsgrenzwerte auch lim f (x) = sign(p(a)) sign(e q (a)) · ∞ x↓a und lim f (x) = sign(p(a)) sign(e q (a)) · (−∞)r = (−1)r sign(p(a)) sign(e q (a)) · ∞. x↑a Zusammen mit Lemma 4 folgen damit alle Behauptungen. (e) Mit Satz 5 ergibt sich lim f (x) = lim x→∞ x→∞ an + bn + an−1 x bn−1 x + ··· + + ··· + a0 xn b0 xn = an , bn und analog ist auch limx→−∞ f (x) = an /bn . (d) Mit (d) und Satz 5 erhalten wir 1 xm−n p(x) lim f (x) = lim · =0 x→∞ x→∞ xm−n q(x) und analog ist auch limx→−∞ f (x) = 0. 246 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 (f ) Mit (d) und Satz 5 erhalten wir diesmal p(x) an n−m · ∞ = sign(an ) sign(bm ) · ∞. = lim f (x) = lim x · n−m x→∞ x→∞ x q(x) bm Eine analoge Rechnung ergibt dann auch lim f (x) = x→−∞ 13.2 an (−∞)n−m = (−1)n+m sign(an ) sign(bm ) · ∞. bm Stetige Funktionen Im letzten Abschitt hatten wir gesehen, dass bei einem Polynom f über K = R oder K = C in jedem Punkt a ∈ K die Gleichung limx→a f (x) = f (a) gilt. Man bezeichnet dies als die Stetigkeit der Funktion f an der Stelle a. Dies ist natürlich nur dann sinnvoll wenn wir überhaupt von einem Grenzwert der Funktion f in x = a sprechen können, wenn also a ein Häufungspunkt des Definitionsbereich der Funktion f ist. In allen anderen Punkten wollen wir die Funktion ebenfalls als stetig bezeichnen. Dies ist kein wesentlicher Punkt, es ist ein Randfall der normalerweise gar nicht auftritt, wir müssen ihn hier nur der Vollständigkeit halber mit erfassen. Definition 13.3 (Stetigkeit in einem Punkt) Seien K ∈ {R, C} und D ⊆ K. Dann heißt eine Funktion f : D → K stetig in einem Punkt a ∈ D, wenn entweder a ∈ / D0 kein Häufungspunkt von D ist oder a ∈ D0 und limx→a f (x) = f (a) gelten. Beachte das wir überhaupt nur in Punkten in denen die Funktion f definiert ist, von Stetigkeit sprechen, das weicht etwas von der in der Schule manchmal verwendeten Terminologie ab. Beispielsweise ist die Frage ob eine der Funktionen f : R\{0} → R; x 7→ 1/x oder g : R\{0} → R; x 7→ sin x/x in x = 0 stetig ist, völlig sinnlos. Was man fragen kann, ist ob der Grenzwert in x = 0 existiert, aber das ist eine andere Frage. Man kann die Stetigkeitsdefinition auf verschiedene Weisen umformulieren, und damit insbesondere die etwas störende Fallunterscheidung zum Verschwinden bringen. Lemma 13.7 (Charakterisierung der Stetigkeit in einem Punkt) Seien K ∈ {R, C}, D ⊆ K, a ∈ D und f : D → K eine Funktion. Dann sind die folgenden Aussagen äquivalent: (a) Die Funktion f ist in a stetig. (b) Für jede Folge (xn )n∈N in D mit (xn )n∈N −→ a gilt auch (f (xn ))n∈N −→ f (a). 247 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 (c) Für jedes ∈ R mit > 0 existiert ein δ ∈ R mit δ > 0 so, dass für jedes x ∈ D mit |x − a| < δ stets |f (x) − f (a)| < ist. Beweis: (a)=⇒(b). Sei (xn )n∈N eine gegen a konvergente Folge in D. Wir betrachten dann die beiden Mengen I1 := {n ∈ N|xn 6= a} und I2 := {n ∈ N|xn = a}, und unterscheiden drei verschiedene Fälle. Fall 1. Sei die Menge I1 endlich, d.h. es gibt ein n0 ∈ N mit xn = a für alle n ≥ n0 . Dann ist auch f (xn ) = f (a) für alle n ≥ n0 und somit gilt (f (xn ))n∈N −→ f (a). Fall 2. Sei die Menge I2 endlich, d.h. es gibt ein n0 ∈ N mit xn 6= a für alle n ≥ n0 . Dann ist (xn )n≥n0 eine gegen a konvergente Folge in D\{a} und insbesondere ist a ∈ D0 ein Häufungspunkt von D. Da die Funktion f in a stetig ist, folgt lim f (xn ) = lim f (x) = f (a). n→∞ x→a Fall 3. Seien I1 und I2 beide unendlich. Wir definieren die Teilfolgen (xn(1) )k∈N und k (j) (xn(2) )k∈N von (xn )n∈N durch Ij = {nk |k ∈ N} für j = 1, 2. Nach §6.Lemma 1.(a) gilt k auch (xn(j) )k∈N −→ a für j = 1, 2, und analog zu den beiden bereits behandelten Fällen k haben wir auch (f (xn(j) ))k∈N −→ f (a) für j = 1, 2. Nach Aufgabe (21) ist damit auch k (f (xn ))n∈N −→ f (a). (b)=⇒(a). Ist a kein Häufungspunkt von D, so ist die Aussage klar, wir können also a ∈ D0 annehmen. Für jede gegen a konvergente Folge (xn )n∈N in D\{a} ⊆ D ist dann nach unserer Annahme auch (f (xn ))n∈N −→ f (a), d.h. wir haben limx→a f (x) = f (a), und somit ist f auch in diesem Fall stetig in a. (a)=⇒(c). Ist a ∈ / D0 kein Häufungspunkt von D, so existiert ein δ > 0 mit {x ∈ D : |x − a| < δ} = {a}, und dann ist für jedes x ∈ D mit |x − a| < δ wegen x = a auch f (x) = f (a) und |f (x) − f (a)| = 0. Wir können also annehmen das a ∈ D0 ist, und dann ist auch limx→a f (x) = f (a). Sei > 0. Nach Lemma 1.(f) existiert ein δ > 0 mit |f (x) − f (a)| < für alle x ∈ D mit 0 < |x − a| < δ. Ist also x ∈ D mit |x − a| < δ, so ist im Fall x 6= a sofort |f (x) − f (a)| < und im Fall x = a haben wir trivialerweise ebenfalls |f (x) − f (a)| = 0 < . (c)=⇒(a). Ist a ∈ / D0 so sind wir bereits fertig. Nun sei a ∈ D0 . Dann gilt nach Lemma 1.(f) auch limx→a f (x) = f (a) und f ist auch in diesem Fall in a stetig. Die Bedingung in (c) kann man als ∀( > 0)∃(δ > 0)∀(x ∈ D) : |x − a| < δ =⇒ |f (x) − f (x)| < schreiben, und bezeichnet dies als die –δ Definition der Stetigkeit in a. Oftmals wird auch diese Bedingung als die Definition der Stetigkeit in a verwendet, wie bei den 248 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 Funktionsgrenzwerten ist dies im wesentlichen eine Geschmacksfrage. Eine Interpretation der –δ Bedingung ist es sich diese als eine Bedingung an Fehlerschranken zu denken. Geben wir uns eine Fehlerschranke für die Werte der Funktion vor, so finden wir eine passende Fehlerschranke δ für die Argumente der Funktion so, dass wann immer x eine Näherung an a mit Fehler höchstens δ ist, also wenn |x − a| < δ gilt, der Wert f (x) eine Näherung an f (a) mit dem Fehler höchstens ist, also |f (x)−f (a)| < . Jede der im vorigen Abschnitt hergeleiteten Eigenschaften von Funktionsgrenzwerten ergibt auch eine entsprechende Eigenschaft des Stetigkeitsbegriffs in einem Punkt. Das folgende Lemma fasst einen Großteil der sich so ergebenden Eigenschaften zusammen. Lemma 13.8 (Grundeigenschaften der Stetigkeit in einem Punkt) Seien K ∈ {R, C}, D ⊆ K und a ∈ D gegeben. Weiter sei f : D → K eine Funktion. (a) Ist f in a stetig, so ist auch die Funktion |f | in a stetig. (b) Ist K = C, so ist f genau dann in a stetig, wenn die beiden Funktionen Re ◦f und Im ◦f in a stetig sind. (c) Ist M ⊆ D mit a ∈ M und ist f in a stetig, so ist auch f |M in a stetig. e := {x ∈ D : |x − a| < }. Dann ist f genau dann in a stetig (d) Sei > 0 und setze D e in a stetig ist. wenn f |D (e) Ist K = R, so ist f genau dann in a stetig, wenn die folgenden beiden Aussagen gelten: 1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt lim f (x) = f (a). x↓a 2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und es gilt lim f (x) = f (a). x↑a Beweis: Ist a ∈ / D0 so ist auch a ∈ / M 0 für jede Teilmenge M ⊆ D und alle Aussagen sind trivial. Wir können also a ∈ D0 annehmen. (a) Klar nach Lemma 1.(e). (b) Klar nach Lemma 1.(c). (c) Klar nach Lemma 1.(g). (d) Klar nach Lemma 3. (e) Klar nach Lemma 4. Die Rechenregeln für Funktionsgrenzwerte ergeben sofort auch entsprechende Rechenregeln für die Stetigkeit in einem Punkt. 249 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 Lemma 13.9 (Rechenregeln für die Stetigkeit in einem Punkt) Seien K ∈ {R, C}, D ⊆ K und a ∈ D gegeben. Weiter seien f, g : D → K zwei in a stetige Funktionen. Dann gelten: (a) Die Funktion f + g ist in a stetig. (b) Ist c ∈ K, so ist die Funktion c · f in a stetig. (c) Die Funktion f · g ist in f stetig. (d) Ist g(x) 6= 0 für alle x ∈ D, so ist die Funktion f /g in a stetig. Beweis: Im Fall a ∈ / D0 sind alle vier Aussagen klar und im Hauptfall a ∈ D0 folgen sie alle aus Satz 5. Als einzige Aussage über die Stetigkeit in einem Punkt, die sich nicht direkt aus einer entsprechenden Aussage über Funktionsgrenzwerte ergibt, wollen wir jetzt die Stetigkeit von Hintereinanderausführungen von Funktionen untersuchen. Lemma 13.10 (Stetigkeit und Hintereinanderausführungen) e ⊆ L, g : D e → L sei stetig in b ∈ D e und f : D → D e Seien K, L ∈ {R, C}, D ⊆ K, D sei eine weitere Funktion. (a) Sei a ∈ K ein Häufungspunkt von D mit limx→a f (x) = b. Dann gilt auch lim g(f (x)) = g(b). x→a (b) Sind K = L, a ∈ D und ist f in a stetig mit f (a) = b, so ist auch g ◦ f : D → K in a stetig. Beweis: (a) Sei (xn )n∈N eine gegen a konvergente Folge in D\{a}. Dann ist auch (f (xn ))n∈N −→ b und nach Lemma 7 ist damit (g(f (xn )))n∈N −→ g(b). Somit konvergiert die Funktion g ◦ f an der Stelle a gegen g(b). (b) Ist a ∈ / D0 , so ist dies klar und ist a ∈ D0 , so gilt limx→a f (x) = f (a) = b und nach (a) ist auch limx→a g(f (x)) = g(b) = g(f (a)), d.h. g ◦ f ist auch in diesem Fall in a stetig. Nachdem wir bisher nur die Stetigkeit in einem einzelnen Punkt des Definitionsbereichs betrachtet haben, kommen wir nun zur Stetigkeit der gesamten Funktion. Definition 13.4 (Stetige Funktionen) Seien K ∈ {R, C} und D ⊆ K eine Teilmenge. Dann heißt eine Funktion f : D → K stetig wenn sie in jedem Punkt a ∈ D stetig ist. Wir wollen einige erste einfache Beispiele stetiger Funktionen durchgehen. 250 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 1. Ist K ∈ {R, C}, so ist jedes Polynom f : K → K stetig. 2. Ist f eine rationale Funktion über K und bezeichnet N die Menge der Nullstellen ihres Nenners, so ist f : K\N → K stetig. 3. Der Betrag | | : K → R ist stetig. Dies folgt zum Beispiel aus Lemma 8.(a). 4. Die Funktionen Re : C → R und Im : C → R sind stetig. Dies gilt zum Beispiel nach Lemma 8.(b). Zur Behandlung weiterer Beispiele verwenden wir die Aussagen (c) und (d) des folgenden Lemmas. Lemma 13.11 (Charakterisierung der Stetigkeit) Seien K ∈ {R, C}, D ⊆ K und f : D → K eine Funktion. (a) Die Funktion f ist genau dann stetig wenn für jede konvergente Folge (xn )n∈N in D mit limn→∞ xn ∈ D auch die Folge (f (xn ))n∈N konvergent ist mit lim f (xn ) = f n→∞ lim xn . n→∞ (b) Ist K = C so ist f genau dann stetig wenn die beiden reellwertigen Funktionen Re ◦f : D → R und Im ◦f : D → R stetig sind. (c) Ist f stetig und ist M ⊆ D eine Teilmenge, so ist auch die Einschränkung f |M stetig. (d) Ist K = R und a ∈ R, so ist f genau dann stetig wenn die beiden Einschränkungen f |D≥a und f |D≤a stetig sind. Beweis: (a) Dies ist klar nach Lemma 7. (b) Dies ist klar nach Lemma 8.(b). (c) Dies ist klar nach Lemma 8.(c). (d) ”=⇒” Klar nach (c). e := {x ∈ D : |x − p| < ”⇐=” Sei p ∈ D. Ist p > a, so setzen wir := p − a > 0 und D e in p stetig und nach Lemma 8.(d) ist damit auch } ⊆ D≥a . Nach Lemma 8.(c) ist f |D f in p stetig. Ist p < a so folgt die Stetigkeit von f in p analog. Wir müssen also nur noch die Stetigkeit von f in a zeigen, und diese ist klar nach Lemma 8.(e). 251 Mathematik für Physiker I, WS 2010/2011 Wir wollen kurz vorführen wie sich mit den bisherigen Aussagen die Stetigkeit der nebenstehend gezeigten Funktion 0, x ≤ −2, 2 + x, −2 ≤ x ≤ −1, f : R → R; x 7→ 1, −1 ≤ x ≤ 1, 2 − x, 1 ≤ x ≤ 2, 0, x≥2 Montag 31.1.2011 f(x) −2 −1 1 2 x zeigen läst. Zunächst sind die konstante Funktion f |(−∞, −2] und die Funktion f |[−2, −1] als Einschränkung eines Polynoms stetig, und damit ist nach Teil (d) des obigen Lemmas auch f |(−∞, −1] stetig. Weiter ist dann die konstante Funktion f |[−1, 1] stetig, und wieder nach Teil (d) des Lemmas ist f |(−∞, 1] stetig. Fahren wir noch zweimal so fort, so erhalten wir schließlich die Stetigkeit der Funktion f : R → R. Diese Argumentation läßt sich auf alle ähnlichen Situationen übertragen, so das man nur noch überprüfen muss das die einzelnen Stücke zusammenpassen. Zum Abschluß dieser allgemeinen Aussagen zum Nachweis der Stetigkeit, wollen wir noch die folgenden Rechenregeln festhalten. Satz 13.12 (Rechenregeln für die Stetigkeit) Seien K ∈ {R, C}, D ⊆ K und f, g : D → K zwei stetige Funktionen. Dann gelten: (a) Die Funktion f + g : D → K ist stetig. (b) Für jedes c ∈ K ist die Funktion cf : D → K stetig. (c) Die Funktion f · g : D → K ist stetig. (d) Ist g(x) 6= 0 für alle x ∈ D, so ist die Funktion f /g : D → K stetig. e ⊆ K und h : D e → D stetig, so ist auch die Hintereinanderausführung (e) Sind auch D e → K stetig. g◦h:D Beweis: (a,b,c,d) Klar nach Lemma 9. (e) Klar nach Lemma 10.(b). 13.3 Eigenschaften reeller stetiger Funktionen In diesem Abschnitt beschäftigen wir uns mit auf R definierten, reellwertigen stetigen Funktionen. Für derartige Funktionen werden wir zwei grundlegende Sätze herleiten, zum einen den Satz über die Beschränktheit solcher Funktionen und zum anderen 252 Mathematik für Physiker I, WS 2010/2011 Montag 31.1.2011 den sogenannten Zwischenwertsatz. Letzterer ist dabei nur eine etwas exaktere Version der anschaulichen Beobachtung das stetige Funktionen keine Sprünge haben. Bisher haben wir nur beschränkte Mengen und Folgen definiert, aber noch keine beschränkten Funktionen, was wir nun nachholen müssen. Definition 13.5: Seien K ∈ {R, C} und D eine Menge. Eine Funktion f : D → K heißt beschränkt wenn ihre Bildmenge f (D) = {f (x)|x ∈ D} ⊆ K beschränkt ist, wenn es also ein C ≥ 0 mit |f (x)| ≤ C für alle x ∈ D gibt. Ist K = R, so nennen wir f entsprechend nach oben beschränkt wenn die Menge f (D) nach oben beschränkt ist und nach unten beschränkt wenn die Menge f (D) nach unten beschränkt ist. Eine reellwertige Funktion ist natürlich genau dann beschränkt wenn sie nach oben und nach unten beschränkt ist. Genau wie wir es für Mengen in §5.2 eingesehen haben, ist eine komplexwertige Funktion f : D → C genau dann beschränkt wenn die beiden reellwertigen Funktionen Re ◦f und Im ◦f beide beschränkt sind. Wir kommen nun zum angekündigten Satz über die Beschränktheit stetiger Funktionen. Für die Gültigkeit dieses Satzes ist nicht nur die Stetigkeit der Funktion wichtig, sondern auch die Form des Definitionsbereichs der Funktion. Es gibt ja offenbar unbeschränkte stetige Funktionen wie etwa f (x) = x definiert auf ganz R. Satz 13.13 (Existenz von Maximum und Minimum) Seien a, b ∈ R mit a ≤ b und sei f : [a, b] → R eine stetige Funktion. Dann ist f beschränkt und nimmt ihr Supremum und Infimum an, d.h. es gibt x1 , x2 ∈ [a, b] mit f (x1 ) ≤ f (x) ≤ f (x2 ) für alle x ∈ [a, b]. Beweis: Setze s := sup f ([a, b]) ∈ R ∪ {+∞}. Weiter wähle eine Folge (sn )n∈N in R mit sup{sn |n ∈ N} = s und sn < s für alle n ∈ N. Für jedes n ∈ N existiert dann wegen sn < s ein xn ∈ [a, b] mit f (xn ) > sn . Nach dem Satz von Heine-Borel §6.Satz 11 existiert eine konvergente Teilfolge (xnk )k∈N von (xn )n∈N . Wir setzen x := limk→∞ xnk und wegen a ≤ xnk ≤ b für alle k ∈ N ist auch a ≤ x ≤ b, d.h. x ∈ [a, b]. Mit §6.Lemma 5.(a) folgt s = lim sn = lim snk ≤ lim f (xnk ) = f lim xnk = f (x) ≤ s, n→∞ k→∞ k→∞ k→∞ d.h. es ist f (x) = s. Insbesondere ist s < +∞, d.h. die Funktion f ist nach oben beschränkt. Die Aussage über das Minimum folgt analog. Damit kommen wir zum Zwischenwertsatz. Das wesentliche Beweisprinzip haben wir schon einmal gesehen, nämlich beim Beweis der Existenz reeller Wurzeln in §4.Lemma 7. Die Details werden sich natürlich unterscheiden, bei der Behandlung der Wurzeln konnten wir spezifische Abschätzungen über Potenzen verwenden, bei einer allgemeinen stetigen Funktion muss man dagegen etwas abstrakter vorgehen. Tatsächlich liefert uns der Zwischenwertsatz auch einen zweiten Beweis der Existenz von Wurzeln. 253 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Satz 13.14 (Zwischenwertsatz) Seien a, b ∈ R mit a ≤ b und sei f : [a, b] → R eine stetige Funktion. Weiter sei y ∈ R zwischen f (a) und f (b), also f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a). Dann existiert ein x ∈ [a, b] mit f (x) = y. Beweis: Wir behandeln den Fall f (a) ≤ y ≤ f (b), der andere Fall ist dann analog. Ist y = f (a) oder y = f (b), so sind wir bereits fertig, d.h. wir können sogar f (a) < y < f (b) annehmen. Wir betrachten die Menge M := {x ∈ [a, b]|f (x) ≥ y} ⊆ [a, b]. Wegen b ∈ M ist M nicht leer und durch a nach unten beschränkt, also existiert x := inf M und es ist a ≤ x ≤ b, d.h. x ∈ [a, b]. Für jedes n ∈ N mit n ≥ 1 ist x + 1/n > x = inf M , also existiert ein xn ∈ M ⊆ [a, b] mit x ≤ xn < x + 1/n. Nach dem Einschnürungslemma für Folgen §6.Lemma 5.(b) ist damit limn→∞ xn = x, und wegen f (xn ) ≥ y für alle n ∈ N ist auch f (x) = f lim xn = lim f (xn ) ≥ y. n→∞ n→∞ Wegen f (a) < y ist x > a. Insbesondere existiert ein n0 ∈ N mit x − 1/n0 > a, und für jedes n ≥ n0 haben wir damit auch a<x− 1 1 ≤ x − < x = inf M, n0 n also auch x − 1/n ∈ / M aber x − 1/n ∈ [a, b], also f (x − 1/n) < y. Es folgt 1 1 f (x) = f lim x − = lim f x − ≤ y. n→∞ n→∞ n n Insgesamt ist somit f (x) = y. Vorlesung 24, Freitag 4.2.2011 Am Ende der letzten Sitzung hatten wir den sogenannten Zwischwertsatz für stetige Funktionen notiert, der im wesentlichen eine formalisierte Version der Aussage stetige Funktionen haben keine Sprünge“ ist. All die Aussagen die man gewöhnlich ” über letztere anschauliche Vorstellung erschließt können durch den Zwischenwertsatz 254 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 exakt bewiesen werden. Als ein Beispiel wollen wir einmal die Lösbarkeit von Gleichungen f (x) = y mit stetiger linker Seite herleiten. Gegeben sei eine stetige Funktion f : R → R mit limx→−∞ f (x) = −∞ und limx→∞ f (x) = +∞ und wir wollen zeigen, dass f (x) = y immer lösbar ist, die Abbildung f also surjektiv ist. Sei nämlich ein y ∈ R gegeben. Wegen limx→−∞ f (x) = −∞ gibt es dann ein a ∈ R mit f (a) < y und wegen limx→∞ f (x) = +∞ gibt es weiter ein b ∈ R mit b > a und f (b) > y. Der Zwischenwertsatz liefert dann ein x ∈ [a, b] mit f (x) = y. Eine Verallgemeinerung dieses Arguments werden wir im folgenden Satz festhalten. Die Hauptaussage wird dabei sein, dass für auf Intervallen definierte stetige Funktionen die Begriffe injektiv und streng monoton äquivalent sind. Da wir bisher Monotonieeigenschaften nur bei Folgen definiert haben, müssen wir diese aber erst einmal auf reelle Funktionen übertragen. Definition 13.6: Seien I ⊆ R ein Intervall und f : I → R eine Funktion. Dann heißt f 1. monoton steigend wenn f (x) ≤ f (y) für alle x, y ∈ I mit x ≤ y gilt, 2. streng monoton steigend wenn f (x) < f (y) für alle x, y ∈ I mit x < y gilt, 3. monoton fallend wenn f (x) ≥ f (y) für alle x, y ∈ I mit x ≤ y gilt, 4. streng monoton fallend wenn f (x) > f (y) für alle x, y ∈ I mit x < y gilt, 5. monoton wenn f monoton steigend oder monoton fallend ist, 6. streng monoton wenn f streng monoton steigend oder streng monoton fallend ist. Beachte das eine streng monotone Funktion f : I → R immer injektiv ist, sind x, y im Definitionsbereich der Funktion mit x 6= y, so können wir nach eventuellen Vertauschen von x und y auch x < y annehmen, und haben dann f (x) < f (y) oder f (y) < f (x), also auf jeden Fall f (x) 6= f (y). Weiter ist die Umkehrfunktion f −1 : f (I) → I wieder streng monoton von derselben Sorte wie f . Sei f streng monoton steigend. Sind dann x, y ∈ f (I) mit x < y, so folgte aus f −1 (y) ≤ f −1 (x) auch der Widerspruch y = f (f −1 (y)) ≤ f (f −1 (x)) = x, es muss also f −1 (x) < f −1 (y) sein und f −1 ist wieder streng monoton steigend. Analog folgt das f −1 streng monoton fallend ist wenn f streng monoton fallend ist. Wie schon bemerkt wollen wir einsehen, dass eine injektive stetige Funktion streng monoton steigend oder streng monoton fallend ist. Der Beweis wurde in der Vorlesung nicht vorgeführt, man kann sich aber schnell an einem Bild klarmachen warum die y Funktion monoton sein muss. Wenn f irgendwann seine Rich” tung ändert“, also etwa zunächst steigt und dann wieder fällt, so a haben wir die nebenstehend abgebildete Situation. Wenden wir dann den Zwischenwertsatz in den links und rechts vom Umkehrpunkt liegenden Intervallen an, so erhalten wir das ein geeignetes y ∈ R links und rechts von a von der Funktion als Wert angenommen wird. Dies wiederspricht dann 255 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 der Injektivität der Funktion f , da eine injektive Funktion jeden Wert an höchstens einer Stelle annimmt. Dies ersetzt natürlich keinen exakten Beweis, der Vollständigkeit halber werden wir auch einen solchen angeben. Satz 13.15 (Monotonie stetiger Funktionen) Seien ∅ = 6 I ⊆ R ein Intervall und f : I → R eine stetige Funktion. (a) Das Bild J := f (I) ⊆ R ist wieder ein Intervall. (b) Genau dann ist f injektiv wenn f streng monoton ist. (c) Ist f streng monoton, so ist auch die Umkehrfunktion f −1 : J → I stetig. Beweis: (a) Setze a := inf J ∈ R ∪ {−∞} und b := sup J ∈ R ∪ {+∞}. Dann ist a ≤ b. Ist sogar a = b, so haben wir J = {a} und sind bereits fertig, wir können also a < b annehmen. Sei y ∈ R mit inf J = a < x < b = sup J. Dann existieren u, v ∈ I mit f (u) < x < f (v), und nach dem Zwischenwertsatz Satz 14 existiert ein x zwischen u und v, also auch x ∈ I, mit y = f (x) ∈ J. Dies zeigt (a, b) ⊆ J, und damit ist J eines der höchstens vier möglichen Intervalle mit Grenzen a und b. (b) Es ist nur die Implikation von links nach rechts zu zeigen, wir nehmen also an, dass die Funktion f injektiv ist. Wir teilen den Beweis in drei Schritte auf. (1) Seien a, b ∈ I mit a < b und f (a) < f (b). Dann ist für alle x ∈ (a, b) auch f (x) ∈ (f (a), f (b)). Andernfalls wäre nämlich f (x) ≤ f (a) oder f (x) ≥ f (b). Ist f (x) ≤ f (a), so hätten wir f (x) ≤ f (a) < f (b) also liegt f (a) zwischen f (x) und f (b), d.h. nach Satz 14 existiert ein x0 ∈ [x, b] mit f (x0 ) = f (a). Wegen a < x ≤ x0 ist x0 6= a, im Widerspruch zur Injektivität von f . Der zweite Fall f (x) ≥ f (b) führt analog zu einem Widerspruch. Damit ist Schritt (1) eingesehen. Analog ergibt sich das für a, b ∈ I mit a < b und f (a) > f (b) auch f (x) ∈ (f (b), f (a)) für alle x ∈ (a, b) ist. (2) Sind a, b ∈ I mit a < b und f (a) < f (b), so ist f |[a, b] streng monoton steigend. Seien nämlich x, y ∈ [a, b] mit x < y gegeben. Nach Schritt (1) ist dann f (x) < f (b) und wegen y ∈ (x, b) ergibt eine weitere Anwendung von Schritt (1) auch f (x) < f (y). Damit ist auch Schritt (2) eingesehen. Analog folgt das für a, b ∈ I mit a < b und f (a) > f (b) die Funktion f |[a, b] streng monoton fallend ist. (3) Jetzt zeigen wir, dass f streng monoton ist. Gilt für alle x, y ∈ I mit x < y stets f (y) ≤ f (x), so ist sogar f (y) < f (x) für alle x, y ∈ I mit x < y da f injektiv ist, d.h. die Funktion f ist streng monoton fallend. Andernfalls existieren a, b ∈ I mit a < b und f (a) < f (b). Seien x, y ∈ I mit x < y. Setze u := min{a, x} ∈ I und v := max{y, b} ∈ I. Dann ist u ≤ a < b ≤ v und u ≤ x < y ≤ v, also u < v und a, b, x, y ∈ [u, v]. Wäre f (v) < f (u), so wäre f |[a, b] nach Schritt (2) streng monoton fallend, im Widerspruch zu f (a) < f (b). Da f injektiv ist, kann auch nicht f (u) = f (v) sein, d.h. es ist f (u) < f (v). Erneut nach Schritt (2) ist f |[u, v] streng monoton steigend, und damit haben wir f (x) < f (y). Dies zeigt, das f streng monoton steigend ist. 256 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 (c) Angenommen die Umkehrabbildung f −1 : J → R wäre nicht stetig. Dann existiert ein Punkt y ∈ J in dem f −1 nicht stetig ist, und dies bedeutet das f −1 (y) nicht der Grenzwert von f −1 an der Stelle y ist. Nach Lemma 1.(b) existieren ein > 0 und eine gegen y konvergente Folge (yn )n∈N in J mit |f −1 (yn ) − f −1 (y)| ≥ für alle n ∈ N. Da J ein Intervall ist, existieren u, v ∈ J mit u ≤ v und ein δ > 0 mit J ∩ (y − δ, y + δ) ⊆ [u, v]. Wegen u, v ∈ J = f (I) können wir {u, v} = {f (a), f (b)} mit a, b ∈ I, a < b schreiben. Wegen (yn )n∈N −→ y existiert ein n0 ∈ N mit |yn − y| < δ für alle n ∈ N mit n ≥ n0 , und für diese n ist damit auch yn ∈ J ∩ (y − δ, y + δ) ⊆ [u, v], d.h. u ≤ yn ≤ v. Da auch f −1 wieder monoton ist, gilt damit auch a ≤ f −1 (yn ) ≤ b für alle n ≥ n0 , und insbesondere ist die Folge (f −1 (yn ))n∈N beschränkt. Nach dem Satz von Heine Borel §6.Satz 11 existiert eine konvergente Teilfolge (f −1 (ynk ))k∈N von (f −1 (yn ))n∈N , und es bezeichne x ∈ R ihren Grenzwert. Wegen a ≤ f −1 (ynk ) ≤ b für alle k ∈ N ist auch a ≤ x ≤ b, also x ∈ [a, b] ⊆ I. Die Stetigkeit von f impliziert nun f (x) = lim f (f −1 (ynk )) = lim ynk = y, k→∞ k→∞ d.h. es ist x = f −1 (y), und somit haben wir |f −1 (ynk ) − x| = |f −1 (ynk ) − f −1 (y)| ≥ für alle k ∈ N, im Widerspruch zu (f −1 (ynk ))k∈N −→ x. Dieser Widerspruch beweist die Stetigkeit von f −1 . Als eine Anwendung können wir die Stetigkeit der Wurzelfunktionen nachweisen. Sei n ∈ N mit n ≥ 1. Dann ist die Funktion f : R≥0 → R≥0 ; x 7→ xn stetig, streng monoton steigend und surjektiv, und ihre Umkehrfunktion ist die Wurzelfunktion √ n : R≥0 → R≥0 . Der eben bewiesene Satz sagt dann, dass auch diese Wurzelfunktion stetig ist. Damit wissen wir dann√zum Beispiel, das für eine konvergente Folge (xk )k∈N −→ a in R≥0 auch √ ( n xk )k∈N −→ n a ist. Weiter folgt die Stetigkeit der Potenzfunktionen zu rationalen Exponenten, d.h. ist α ∈ Q, so ist die Funktion R>0 → R>0 ; x 7→ xα stetig. Schreiben wir nämlich α = p/q mit p ∈ Z, q ∈ N, q ≥ 1, so ist √ xα = ( q x)p für alle x > 0 und dies ist als eine Hintereinanderausführung stetiger Funktionen wieder stetig. 257 Mathematik für Physiker I, WS 2010/2011 13.4 Freitag 4.2.2011 Potenzreihen Bisher haben wir an Beispielen stetiger Funktionen nur Polynome, rationale Funktionen, Wurzeln und aus solchen Teilen zusammengesetzte Funktionen. In diesem Abschnitt wollen wir jetzt eine umfangreiche Klasse stetiger Funktionen konstruieren die sogenannten Potenzreihen. Eine Potenzreihe über K ∈ {R, C} ist eine Reihe der Form f (z) = ∞ X an (z − z0 )n n=0 mit Koeffizienten an ∈ K für n ∈ N. Etwas genauer spricht man von einer Potenzreihe mit dem Entwicklungspunkt z0 ∈ K. Solange diese Reihe konvergiert kann man sie als eine Funktion in z ∈ K auffassen, die manchmal ebenfalls als Potenzreihe bezeichnet wird. Beispielsweise ist die geometrische Reihe f (z) = ∞ X zn n=0 eine für |z| < 1 definierte Funktion. Wir wissen auch schon, dass einfach f (z) = ∞ X zn = n=0 1 1−z für |z| < 1 gilt. Die Reihe konvergiert hier auf einem Kreis dessen Mittelpunkt der Entwicklungspunkt z0 = 0 der Potenzreihe ist. Es stellt sich heraus, dass dies das normale Konvergenzverhalten von Potenzreihen ist. Auch den Radius dieses Kreises kann man explizit hinschreiben. Definition 13.7 (Der Konvergenzradius einer P Potenzreihe) n Der Konvergenzradius einer Potenzreihe f (z) = ∞ n=0 an (z − z0 ) über K ∈ {R, C} ist die Zahl r := sup {q ∈ R≥0 |Die Folge (|an |q n )n∈N ist beschränkt } ∈ R≥0 ∪ {∞}. Es wird sich herausstellen, dass sich Potenzreihen in einem gewissen Sinne wie Polynome vom Grad ∞ verhalten. Diese Analogie kann man tatsächlich sehr weit treiben, aber dies werden wir in diesem Semester noch nicht tun. Wir werden jetzt nur einige Grundeigenschaften von Potenzreihen herleiten. Auf die Beweise all der folgenden Aussagen über Potenzreihen musste in der Vorlesung leider verzichtet werden, aber hier werden wir die Beweise mit aufführen. Lemma 13.16 (Konvergenzverhalten P∞ von Potenzreihen) Sei K ∈ {R, C} und sei f (z) = n=0 an (z − z0 )n eine Potenzreihe über K mit Entwicklungspunkt z0 ∈ K und Konvergenzradius r. Dann gelten: 258 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 (a) Für jedes z ∈ K mit |z − z0 | > r ist die Potenzreihe f (z) divergent. (b) Sei s ∈ R mit 0 < s < r. Dann existieren Konstanten q, C ∈ R mit s < q ≤ r und C > 0 mit den folgenden Eigenschaften: 1. Für jedes n ∈ N ist |an | ≤ C . qn 2. P Für jedes z ∈ K mit |z − z0 | ≤ s ist die Reihe f (z) absolut konvergent und ∞ n n=0 (s/q) ist eine konvergente Majorante von f (z). 3. Für jedes z ∈ K mit |z − z0 | ≤ s gilt |f (z)| ≤ Cq . q−s P n Beweis: (a) Angenommen die Reihe ∞ n=0 an (z − z0 ) ist konvergent. Nach §7.Lemma 3 ist (an (z−z0 )n )n∈N eine Nullfolge, und damit ist auch (|an |·|z−z0 |n )n∈N eine Nullfolge, also nach §6.Lemma 2.(a) insbesondere beschränkt. Es folgt |z − z0 | ≤ r. (b) Wegen s < r existiert ein q ∈ R mit q > s so, dass die Folge (|an |q n )n∈N beschränkt ist, d.h. es gibt ein C ∈ R mit C > 0 und |an |q n ≤ C für alle n ∈ N. Insbesondere haben wir Eigenschaft (1). Für jedes z ∈ K mit |z − z0 | ≤ s folgt weiter |z − z0 |n |an (z − z0 ) | = |an | · |z − z0 | = |an |q · ≤C qn n n n n s , q P n für alle n ∈ N und wegen s/q < 1 ist ∞ n=0 (s/q) eine konvergente Majorante von f (z). Nach dem Majorantenkriterium §7.Satz 14 ist damit f (z) absolut konvergent, und wir haben (2). Schließlich gilt nach §7.Lemma 10 auch ∞ ∞ ∞ n X X X s Cq n n |f (z)| = an (z − z0 ) ≤ |an (z − z0 ) | ≤ C = , n=0 n=0 q q−s n=0 und auch (3) ist bewiesen. Innerhalb des Kreises mit Mittelpunkt z0 und Radius r ist f (z) also absolut konvergent und außerhalb dieses Kreises ist f (z) divergent, man bezeichnet den Kreis Br (z0 ) mit Radius r und Mittelpunkt z0 daher auch als den Konvergenzkreis der Potenzreihe. Für r = +∞ wird der Kreis dabei als ganz K interpretiert. Im reellen Fall K = R hat man natürlich eigentlich nur ein Intervall, aber der Einheitlichkeit halber spricht man weiter von einem Konvergenzkreis. Was auf dem Rand des Kreises, also im Fall |z − z0 | = r, passiert, hängt ganz von 259 Divergenz r x0 (absolute) Konvergenz Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 der speziellen Potenzreihe ab. Beachte weiter das der Konvergenzradius nur von den Beträgen der Koeffizienten an abhängt, d.h. die reelle Potenzreihe F (x) := ∞ X |an |xn n=0 hat denselben Konvergenzradius r, und ist nach Lemma 16 für |x| < r konvergent. Nach §7.Lemma 10 ist für jedes z ∈ K mit |z − z0 | < r auch ∞ ∞ X X n |an | · |z − z0 |n = F (|z − z0 |). an (z − z0 ) ≤ |f (z)| = n=0 n=0 Es gibt auch eine explizite Formel für den Konvergenzradius, die wir nun herleiten wollen. Satz 13.17 (Hadamardsche FormelP für den Konvergenzradius) ∞ n Sei K ∈ {R, C} und sei f (z) = n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r. Dann gilt r= 1 lim sup p n |an | , n→∞ wobei 1/0 als +∞ zu interpretieren ist. Gibt es ein n0 ∈ N mit an 6= 0 für alle n ≥ n0 und ist die Folge (|an |/|an+1 |)n∈N in R konvergent, so ist auch |an | . n→∞ |an+1 | r = lim p Beweis: Wir schreiben s := lim supn→∞ n |an | ∈ R≥0 ∪ {+∞}. Sei q ∈ R>0 so, dass die Folge (|an |q n )n∈N beschränkt ist, d.h. es gibt ein C >√ 0 mit |an |q n ≤ C für alle n ∈ N. p n Für jedes n ∈ N mit n ≥ 1 ist damit auch n |an |q ≤ C, und es folgt p p √ √ n n qs = q · lim sup n |an | = lim sup( n |an |q) ≤ lim sup C = lim C = 1. n→∞ n→∞ n→∞ n→∞ Insbesondere ist s 6= +∞ und q ≤ 1/s. Im Fall s = +∞ ist die Folge (|an |q n )n∈N also nur für q = 0 beschränkt, und somit ist r = 0 = 1/s. Wir können jetzt also s < +∞ annehmen, und haben dann q ≤ 1/s für jedes q ∈ R≥0 für das (|an |q n )n∈N beschränkt ist, wobei für s = 0 der Quotient 1/s = +∞ interpretiert wird. Dies zeigt r ≤ 1/s. Sei jetzt q ∈ R mit 0 ≤ q < 1/s, also sq < 1. Dann ist p p lim sup n |an q n | = q · lim sup n |an | = sq < 1, n→∞ n→∞ und nach dem Wurzelkriterium §7.Korollar 15 ist f (z0 + q) absolut konvergent. Mit Lemma 16.(a) folgt q ≤ r. Da dies für jedes q ∈ [0, 1/s) gilt, folgt auch 1/s ≤ r, d.h. insgesamt ist r = 1/s auch im Fall s < +∞. 260 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Damit ist die erste Aussage bewiesen, und wir kommen zur zweiten Behauptung. Nehme nun also an 6= 0 für alle n ≥ n0 sowie die Existenz des Grenzwertes t := limn→∞ |an |/|an+1 | ∈ R≥0 ∪ {+∞} an. Nach den Rechenregeln für Folgengrenzwerte zusammen mit den Ergänzungen für Grenzwerte in R folgt auch die Existenz von limn→∞ |an+1 |/|an | = 1/t in R wenn wir wieder 1/t = +∞ für t = 0 setzen. Mit §7.Lemma 16.(c) folgt auch lim sup p n |an | = lim p n n→∞ n→∞ und somit ist r= 1 |an+1 | = , n→∞ |an | t |an | = lim 1 lim sup p n |an | = t. n→∞ Damit ist auch die Quotientenformel für den Konvergenzradius bewiesen. Mit dieset Former können jetzt beispielsweise den Konvergenzradius jeder PoPwir ∞ tenzreihe der Form f (z) = n=n0 an (z − z0 )n berechnen in der die Koeffizienten die Form br n r + · · · + b0 an = cs ns + · · · + c0 für n ≥ n0 haben. Dabei soll br , cs 6= 0 sein und der Nenner werde für n ≥ n0 nicht Null. Durch eventuellen Übergang zu −f können wir nämlich annehmen das br , csp > 0 sind, n und nach Aufgabe (23) gilt für jede Folge (an )n≥n0 dieser Form stets limn→∞ |an | = 1 und damit hat die Potenzreihe ∞ X f (z) = an z n n=n0 den Konvergenzradius 1. Wir wollen noch eine weitere kleine Konsequenz der Formel P∞ für den Konvergenzradius festhalten. Angenommen wir haben eine Potenzreihe n=0 an (z − z0 )n mit Konvergenzradius r. Dann ist auch für jeden Index n0 ∈ N und jedes z ∈ K\{z0 } ∞ X an0 +n (z − z0 )n = n=0 ∞ X 1 an +n (z − z0 )n0 +n (z − z0 )n0 n=0 0 1 = (z − z0 )n0 ∞ X an (z − z0 )n − n=0 P∞ nX 0 −1 ! an (z − z0 )n , n=0 P∞ d.h. genau dann ist n=0 an0 +n (z −z0 )n konvergent −z0 )n konvergiert. P∞ wenn n=0 an (z n Mit Lemma 16 folgt das auch die Potenzreihe n=0 an0 +n (z − z0 ) den Konvergenzradius r hat, und damit folgt auch p p lim sup n |an0 +n | = lim sup n |an |. n→∞ n→∞ 261 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Dies kann man sich natürlich auch direkt überlegen, aber so ist es einfacher. Wir wollen zeigen, dass eine durch eine Potenzreihe definierte Funktion im Inneren ihres Konvergenzkreises stetig ist. Die Stetigkeit im Entwicklungspunkt selber ist dabei leicht einzusehen. Um hieraus die Stetigkeit in allen anderen Punkten des Konvergenzkreises herzuleiten, zeigen wir das wir überhaupt jeden Punkt des Konvergenzkreises als Entwicklungspunkt verwenden können. Lemma 13.18 (Wechsel des Entwicklungspunktes) P n Sei K ∈ {R, C} und sei f (z) = ∞ n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r > 0. Weiter sei z1 ∈ K mit |z1 − z0 | < r. Für jedes n ∈ N ist die Reihe ∞ X n+k bn := an+k (z1 − z0 )k n k=0 P n absolut konvergent und die Potenzreihe g(z) = ∞ n=0 bn (z − z1 ) hat einen Konvergenzradius r0 ≥ r − |z1 − z0 | > 0. Für jedes z ∈ K mit |z − z1 | < r − |z1 − z0 | ist f (z) = g(z). Beweis: Sei n ∈ N. Für jedes k ∈ N ist dann n+k (n + k)! (k + 1) · . . . · (k + n) = = , n k!n! n! d.h. dieser Binomialkoeffizient ist ein Polynom von Grad n in k, und nach Aufgabe (23) gilt s n+k k lim = 1. k→∞ n Mit Aufgabe (29) folgt jetzt auch s p |z1 − z0 | k n + k < 1, lim sup an+k (z1 − z0 )k = |z1 − z0 | lim sup k |an+k | = r n k→∞ k→∞ und nach dem Wurzelkriterium §7.Korollar 15 ist ∞ X n+k bn := an+k (z1 − z0 )k n k=0 absolut konvergent. Setze s := r − |z1 − z0 | > 0 und sei z ∈ K mit |z − z1 | < s. Dann ist auch |z − 0 | ≤ |z − z1 | + |z1 − z0 | < s + |z1 − z0 | = r und nach Lemma 16 ist die Reihe Pz∞ f (z) = n=0 an (z − z0 )n absolut konvergent. Wir zeigen, dass auch g(z) konvergent mit demselben Grenzwert ist. P Sei also > 0 gegeben. Wegen |z −z1 |+|z1 −z0 | < r ist die Reihe ∞ n=0 |an |(|z −z1 |+ n |z1 − z0 |) konvergent, und nach dem Cauchy-Kriterium für Reihen §7.Satz 8 existiert 262 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Pm ein n0 ∈ N so, dass für alle n, m ∈ N mit m ≥ n ≥ n0 stets k=n |ak | · (|z − z1 | + |z1 − P z0 |)k < /3 gilt. Weiter existiert ein n1 ∈ N mit |f (z) − nk=0 ak (z − z0 )k | < /3 für alle n ∈ N mit n ≥ n1 . Setze k0 := max{n0 , n1 }. Sei k ∈ N mit k ≥ k0 . Für jedes 0 ≤ i ≤ k ist dann ∞ ∞ X X i+j j i j i bi (z − z1 ) = ai+j (z1 − z0 ) (z − z1 ) = aj (z1 − z0 )j−i (z − z1 )i , i i j=0 j=i und somit existiert ein mi ∈ N mit mi ≥ i und m X j aj (z1 − z0 )j−i (z − z1 )i < bi (z − z1 )i − 3(k + 1) i j=i für alle m ∈ N mit m ≥ mi . Setze schließlich n∗ := max{m0 , . . . , mk , k + 1} ∈ N. Dann ist k X n X i n−i i b (z − z ) − a (z − z ) (z − z ) i 1 n 1 0 1 i i=0 0≤i≤n≤n∗ i≤k ∗ k n k X X X n n−i i i = . an (z1 − z0 ) (z − z1 ) < ≤ bi (z − z1 ) − 3(k + 1) 3 i i=0 n=i i=0 Weiter haben wir nach der binomischen Formel §4.Lemma 5 X n an (z1 − z0 )n−i (z − z1 )i i 0≤i≤n≤n∗ i≤k n∗ X k X n n−i i = an (z1 − z0 ) (z − z1 ) + an (z1 − z0 )n−i (z − z1 )i i i n=0 i=0 n=k+1 i=0 ∗ k n k X X X n n = an (z1 − z0 + z − z1 ) + an (z1 − z0 )n−i (z − z1 )i i n=0 n=k+1 i=0 k n∗ X k X X n n = an (z − z0 ) + an (z1 − z0 )n−i (z − z1 )i i n=0 n=k+1 i=0 k X n X n und ebenfalls nach der binomischen Formel §4.Lemma 5 sowie der Annahme k ≥ k0 ≥ n0 ist dabei ∗ n k n∗ X k X X X n n n−i i an (z1 − z0 ) (z − z1 ) ≤ |an | · |z1 − z0 |n−i |z − z1 |i i i n=k+1 i=0 n=k+1 i=0 ∗ n n n∗ X X X n n−i i ≤ |an | |z1 − z0 | |z − z1 | = |an |(|z1 − z0 | + |z − z1 |)n < . 3 i i=0 n=k+1 n=k+1 263 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Dies zeigt k X X n n−i i n an (z1 − z0 ) (z − z1 ) − an (z − z0 ) 0≤i≤n≤n∗ i n=0 i≤k ∗ n k X X n an (z1 − z0 )n−i (z − z1 )i < . = 3 i n=k+1 i=0 P Wegen k ≥ k0 ≥ n1 ist andererseits auch |f (z) − kn=0 an (z − z0 )n | < /3, und wir haben insgesamt die Abschätzung k k X X n i an (z − z0 ) bi (z − z1 ) ≤ f (z) − f (z) − n=0 i=0 X k X n n n−i i + an (z − z0 ) − an (z1 − z0 ) (z − z1 ) i n=0 0≤i≤n≤n∗ i≤k k X X n n−i i i + an (z1 − z0 ) (z − z1 ) − bi (z − z1 ) 0≤i≤n≤n∗ i i=0 i≤k + + = . < 3 3 3 Damit haben wir ∞ X n=0 n bn (z − z1 ) = lim k→∞ k X bn (z − z1 )n = f (z) n=0 P∞ eingesehen, d.h. die Potenzreihe g(z) = n=0 bn (z − z1 )n konvergiert in z mit g(z) = f (z). Nach Lemma 16 ist insbesondere r0 ≥ |z − z1 |. Da dies für jedes z ∈ K mit |z − z1 | < r − |z1 − z0 | gilt, ist damit auch r0 ≥ r − |z1 − z0 |. Wie schon bemerkt, ist es jetzt einfach die Stetigkeit von Potenzreihen innerhalb ihres Konvergenzkreises zu beweisen. Satz 13.19 (Stetigkeit von Potenzreihen) P n Sei K ∈ {R, C} und sei f (z) = ∞ n=0 an (z − z0 ) eine Potenzreihe über K mit Entwicklungspunkt z0 und Konvergenzradius r > 0. Dann ist die Funktion f : Br (z0 ) → K stetig. Beweis: Nach Lemma 8.(d) und Lemma 18 reicht es die Stetigkeit von f in z0 zu zeigen. Wähle ein s ∈ R mit 0 < s < r. Nach Satz 17 hat auch die Potenzreihe 264 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 P n g(z) := ∞ n=0 an+1 (z − z0 ) den Konvergenzradius r, also gibt es nach Lemma 16 eine Konstante C > 0 mit ∞ X an+1 (z − z0 )n ≤ C n=0 für alle z ∈ K mit |z − z0 | ≤ s. Für jedes z ∈ K mit |z − z0 | ≤ s folgt damit auch ∞ ∞ X X an+1 (z − z0 )n ·|z−z0 | ≤ C|z−z0 |. an (z − z0 )n = |f (z)−f (z0 )| = |f (z)−a0 | = n=0 n=1 Jetzt ergibt Lemma 7.(c) die Stetigkeit von f in z0 . Wir wollen uns jetzt einige spezielle Beispiele von Potenzreihen anschauen, und zwar zunächst die Potenzreihe zu den Koeffizienten an = 1/n!. Zur Berechnung des Konvergenzradius verwenden wir Satz 17 1/n! (n + 1)! = lim = lim (n + 1) = +∞, n→∞ 1/(n + 1)! n→∞ n→∞ n! lim d.h. die Potenzreihe z e := exp(z) := ∞ X zn n=0 n! hat den Konvergenzradius r = +∞. Insbesondere können wir e := exp(1) ∈ R definieren. Satz 13.20 (Grundeigenschaften der Exponentialfunktion) Die Exponentialfunktion exp : C → C hat die folgenden Eigenschaften: (a) Die Funktion exp : C → C ist stetig. (b) Es ist exp(0) = 1. (c) Für alle z, w ∈ C gilt die Funktionalgleichung exp(z + w) = exp(z) · exp(w). (d) Für jedes z ∈ C ist exp(z) 6= 0 und 1/ exp(z) = exp(−z). (e) Für jedes z ∈ C ist exp(z) = exp(z). (f ) Für jedes x ∈ R ist exp(x) ∈ R mit exp(x) > 0. (g) Für jedes z ∈ C gilt | exp(z)| = exp(Re(z)). Beweis: (a) Klar nach Lemma 19. (b) Klar. 265 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 (c) Nach §7.Satz 18 und der binomischen Formel §4.Satz 5 gilt exp(z) · exp(w) = ! ∞ n X X z k wn−k · = n! n! k!(n − k)! n=0 n=0 n=0 k=0 ! ∞ n ∞ X X 1 X n k n−k (z + w)n = z w = = exp(z + w). n! k=0 k n! n=0 n=0 ∞ X zn ! ∞ X wn ! (d) Nach (c) und (d) ist exp(z) · exp(−z) = exp(z − z) = exp(0) = 1, also exp(z) 6= 0 und 1/ exp(z) = exp(−z). (e) Da wir bereits wissen das Real- und Imaginärteil stetige Funktionen sind, ist auch die komplexe Konjugation stetig, und damit folgt exp(z) = ∞ X zn n=0 n! = ∞ X zn n=0 n! = exp(z). P∞ (f ) Da die Reihe exp(x) = n=0 xn /n! reell ist, ist zumindest exp(x) ∈ R und nach (d) ist auch exp(x) 6= 0. Ebenso ist exp(x/2) ∈ R und mit (c) folgt exp(x) = exp(x/2)2 ≥ 0, d.h. es ist exp(x) > 0. (g) Nach (e) und (c) ist | exp(z)|2 = exp(z)·exp(z) = exp(z)·exp(z) = exp(z+z) = exp(2 Re(z)) = exp(Re(z))2 , und mit (f) ergibt sich schließlich | exp(z)| = exp(Re(z)). Aus der Funktionalgleichung erhält man durch Induktion auch exp(nz) = exp(z)n für alle z ∈ C, n ∈ N mit n ≥ 1. Wegen exp(0) = 1 gilt dies auch für n = 0. Zur Ausdehnung dieser Eigenschaft auf beliebige ganzzahlige Exponenten nehmen wir ein n ∈ N mit n ≥ 1 und rechnen exp(−nz) = 1 1 = = exp(z)−n , exp(nz) exp(z)n also ist exp(nz) = exp(z)n sogar für alle n ∈ Z. Für reelles z kann man das noch etwas weitertreiben. Sind x ∈ R und n ∈ N mit n ≥ 1, so wissen wir exp(x/n) > 0 und x n x x p exp = exp n · = exp(x) =⇒ exp = n exp(x). n n n 266 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Ist also schließlich α ∈ Q, so schreiben wir α = p/q mit p, q ∈ Z, q ≥ 1 und haben x exp(αx) = exp p · q p p x = exp = ( q exp(x))p = exp(x)α . q Insbesondere ist für jedes α ∈ Q auch exp(α) = exp(1)α = eα , die Schreibweise ez für exp(z) ist im Fall z ∈ Q wirklich eine Potenz. Wir rechnen jetzt noch etwas weiter mit der Exponentialfunktion herum. Für jedes z ∈ C haben wir −z e = ∞ X (−z)n n! n=0 = ∞ X n=0 (−1)n zn , n! und mit §7.Lemma 5 folgt z −z e +e ∞ X zn z 2n . = (1 + (−1) ) = 2 n! (2n)! n=0 n=0 ∞ X n Analog ergibt sich auch z −z e −e =2 ∞ X n=0 z 2n+1 . (2n + 1)! Diese Formeln führen uns auf die Definition der sogenannten Hyperbelfuktionen. Definition 13.8 (Hyperbelfunktionen) Für jedes z ∈ C definieren wir die Hyperbelfunktionen durch ∞ ez − e−z X z 2n+1 sinh z := = 2 (2n + 1)! n=0 (Sinus Hyperbolicus), ∞ ez + e−z X z 2n cosh z := = 2 (2n)! n=0 sinh z cosh z cosh z coth z := sinh z tanh z := (Cosinus Hyperbolicus), (Tangens Hyperbolicus), (Cotangens Hyperbolicus), wobei die letzteren beiden nur definiert werden wenn der jeweilige Nenner von Null verschieden ist. Wegen ex ∈ R für x ∈ R haben auch die vier Hyperbelfunktionen für reelle Argumente stets reelle Werte. Die reellen Graphen dieser Funktionen sowie der Exponentialfunktion sehen wie folgt aus 267 Mathematik für Physiker I, WS 2010/2011 y –3 –2 –1 Freitag 4.2.2011 4 4 4 4 4 3 3 3 3 3 y 2 y 2 y 2 y 2 2 1 1 1 1 1 0 0 0 0 0 1 2 3 –3 –2 –1 1 x 2 3 –3 –2 –1 1 x 2 3 –3 –2 –1 1 x 2 3 –3 –2 –1 –1 –1 –1 –2 –2 –2 –2 –2 –3 –3 –3 –3 –3 –4 –4 –4 –4 –4 sinh x cosh x tanh x 2 3 x –1 ex 1 x –1 coth x Für jedes z ∈ C gelten sinh z + cosh z = ez und sinh z − cosh z = −e−z . Die Hyperbelfunktionen erfüllen fast dieselben Formeln wie die trigonometrischen Funktionen. In der Vorlesung wurde dies nur erwähnt aber nicht weiter vorgeführt. An dieser Stelle wollen wir die Rechnungen aber ruhig einmal vorführen. Das Analogon zum Pythagoras sin2 + cos2 = 1 ist cosh2 z − sinh2 z = (cosh z + sinh z) · (cosh z − sinh z) = ez e−z = e0 = 1 für jedes z ∈ C, und die Additionstheoreme berechnen sich als 1 z+w (e − e−(z+w) ) 2 1 z w (e e + ez e−w − e−z ew − e−z e−w + ez ew − ez e−w + e−z ew − e−z e−w ) = 4 1 z = ((e − e−z ) · (ew + e−w ) + (ez + e−z ) · (ew − e−w )) 4 = sinh(z) cosh(w) + cosh(z) sinh(w) sinh(z + w) = und analog folgt cosh(z + w) = cosh(z) cosh(w) + sinh(z) sinh(w). Bis auf Vorzeichen sind das genau die vertrauten Formeln für die trigonometrischen Funktionen. Die trigonometrischen Funktionen kann man für für z ∈ C jetzt durch Rückgriff auf die Hyperbelfunktionen definieren: ∞ sin z := −i sinh(iz) = eiz − e−iz X z 2n+1 = (−1)n , 2i (2n + 1)! n=0 ∞ x2n eiz + e−iz X cos z := cosh(iz) = = (−1)n , 2 (2n)! n=0 sin z tan z := −i tanh(iz) = , cos z cos z cot z := i coth(iz) = , sin z 268 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 letztere wieder solange dies definiert ist. Für reelle Argumente sind dies tatsächlich die vier trigonometrischen Funktionen, was wir an dieser Stelle glauben müssen. Bei einem etwas systematischeren Aufbau der Theorie wären die obigen Formeln tatsächlich die Definitionen der trigonometrischen Funktionen, und man könnte jetzt beginnen ihre Theorie zu entwickeln. Beispielsweise ergeben sich die grundlegenden Additionstheoreme durch sin2 z + cos2 z = cosh2 z − sinh2 z = 1, sin(z + w) = −i sinh(iz + iw) = −i sinh(iz) cosh(iz) + cosh(iz) · (−i sinh(iw)) = sin(z) cos(w) + cos(z) sin(w), cos(z + w) = cosh(iz + iw) = cosh(iz) cosh(iw) + sinh(iz) sinh(iw) = cosh(iz) cosh(iw) − (−i sinh(iz))(−i sinh(iw)) = cos(z) cos(w) − sin(z) sin(w) für z, w ∈ C. Etwas raffinierter ist dann der Nachweis der Periodizitätseigenschaften der trigonometrischen Funktionen. Für diese muss man sich erst einmal eine Definition von π verschaffen, man kann sich beispielsweise überlegen das die reelle Cosinusfunktion eine kleinste positive Nullstelle hat, und das Doppelte dieser Nullstelle definiert man als π. Mit dieser Definition kann man dann letztlich alle Periodizitätsformeln herleiten, dies wollen wir aber hier nicht vorführen. Wir wollen uns noch kurz die sogenannte Eulersche Formel überlegen, die es erlaubt umgekehrt die komplexe Exponentialfunktion durch die reelle Exponentialfunktion und die reellen trigonometrischen Funktionen auszudrücken. Wir starten mit der Formel cos z + i · sin z = cosh(iz) + sinh(iz) = eiz , und für reelles t ∈ R wird dies zu eit = cos t + i sin t. Speziell für t = π ist eiπ = −1. Für eine allgemeine komplexe Zahl z = s + it wird ez = es+it = es eit = es cos t + ies sin t, und die komplexe Exponentialfunktion ist auf die reelle Exponentialfunktion sowie den Sinus und den Cosinus zurückgeführt. Man kann noch ein klein wenig weiter mit diesen Formeln herumspielen. Es ist e2πi = (eiπ )2 = (−1)2 = 1, also auch ez+2πi = ez e2πi = ez für alle z ∈ C, die komplexe Exponentialfunktion ist also periodisch mit der Periode 2πi. 269 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Zum Abschluß dieses Kapitels kommen wir jetzt noch zum reellen Logarithmus. Es gibt auch einen komplexen Logarithmus, aber diesen wollen wir in diesem Semester nicht mehr behandeln. Wir beginnen indem wir die bekannten Eigenschaften der reellen Exponentialfunktion herleiten. Satz 13.21 (Grundeigenschaften der reellen Exponentialfunktion) Die reelle Exponentialfunktion exp : R → R>0 hat die folgenden Eigenschaften: (a) Die Funktion exp ist stetig und streng monoton steigend. (b) Es gelten lim ex = ∞ und lim ex = 0. x→∞ x→−∞ (c) Für jede reelle, rationale Funktion f sind lim f (x)e−x = 0 und x→∞ lim f (x)ex = 0. x→−∞ Beweis: (a) Die Stetigkeit ist klar nach Satz 20.(a). Für jedes x ∈ R mit x > 0 ist ex = ∞ X xn n=0 n! > 1, und für x, y ∈ R mit x < y folgt weiter ey = ex+(y−x) = ey−x ex > ex , d.h. die reelle Exponentialfunktion ist streng monoton steigend. (b,c) Seien p(x) = an xn + · · · + a0 und q(x) = bm xm + · · · + b0 mit an , bm 6= 0 zwei reelle Polynome. Wir betrachten die rationale Funktion f (x) = p(x)/q(x). Nach §6.Lemma 7 gibt es ein x0 > 0 mit |p(x)| < 2|an |xn und |q(x)| > (|bm |/2)xm für alle x > x0 . Für jedes x ∈ R mit x > x0 ist damit auch |f (x)| = |p(x)| 4|an | n−m < x . |q(x)| |bm | Setzen wir also 4|an | A := , x1 := max{x0 , 1} und k := |bm | ( n − m, n > m, 0, n ≤ m, so ist für alle x ∈ R mit x > x1 auch |f (x)| < Axk . Für jedes x ∈ R mit x > x1 > 0 gilt weiterhin auch ∞ X xj xk+1 x e = > , j! (k + 1)! j=0 270 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 also auch |f (x)| A(k + 1)! < . x e x Mit dem Einschnürungslemma Lemma 2.(b) folgt limx→∞ f (x)e−x = 0. Weiter folgt damit lim f (x)ex = lim f (−x)e−x = 0, |f (x)e−x | = x→−∞ x→∞ wobei diese Umparametrisierung“ des Limes eine kleine Übungsaufgabe ist. Wenden ” wir dies speziell auf die rationale Funktion f (x) = 1 an, so ergeben sich limx→∞ e−x = limx→−∞ ex = 0, also auch lim ex = lim x→∞ x→∞ 1 e−x = +∞, da das Vorzeichen konstant +1 ist. Wenden wir jetzt den Monotoniesatz Satz 15 für stetige Funktionen an, so folgt das die reelle Exponentialfunktion exp : R → R>0 bijektiv mit einer stetigen und ebenfalls streng monoton steigenden Umkehrfunktion ln : R>0 → R ist, genannt der Logarithmus, oder auch der natürliche Logarithmus. Da in der reinen Mathematik keine anderen Logarithmen vorkommen, läßt man den Zusatz natürlich“ ” meistens weg. Oft wird der Logarithmus auch als log geschrieben, dies meint dann weiterhin den natürlichen Logarithmus, andere Logarithmen kommen wie gesagt nicht vor. Die Eigenschaften der Exponentialfunktion ergeben sofort die folgenden Eigenschaften des Logarithmus x ln(1) = 0, ln(xy) = ln(x) + ln(y), ln = ln(x) − ln(y) y jeweils für alle x, y > 0, sowie lim ln(x) = −∞ und lim ln(x) = +∞. x→0 x→∞ Mit dem Logarithmus ist man schließlich auch in der Lage Potenzen mit beliebigen reellen Exponenten zu definieren xα := eα·ln x für x, α ∈ R, x > 0. Die Funktionen x 7→ xα und α 7→ xα sind dann als Hintereinanderausführungen stetiger Funktionen stetig. Damit haben wir die allgemeinen Potenzen mit reellen Exponenten definiert und die Stetigkeit dieser Potenzen im Exponenten ergibt, dass diese Definition dieselben Potenzen liefert wie die am Ende von §4.4 angedeutete Konstruktion, d.h. für x, α ∈ R mit x > 1 gilt xα = sup{xq |q ∈ Q, q < α}, 271 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 und entsprechend ist für 0 < x < 1 auch xα = inf{xq |q ∈ Q, q < α}. Der genaue Beweis dieser Tatsachen ist eine Übungsaufgabe. $Id: diffb.tex,v 1.8 2011/08/01 14:37:05 hk Exp $ §14 Differenzierbare Funktionen Wir kommen jetzt zum letzten Thema dieses Semesters, den differenzierbaren Funktionen in einer Variablen. In diesem Semester sind wir nur am reellen Fall interessiert, nur die Definition und die ersten Eigenschaften werden wir noch allgemein halten, da es für diese keinen Unterschied macht ob wir reelle oder komplexe Zahlen verwenden. Schon bei der Besprechung der Folgenkonvergenz in §6.1 hatten wir die Interpretation der Ableitung als eine Änderungsrate besprochen. Es gibt noch mindestens zwei weitere alternative Sichtweisen der Ableitung, einmal geometrisch über den Begriff der Tangentensteigung, und zum anderen als lineare Näherung. Alle drei Möglichkeiten haben ihren Platz. Die geometrische Interpretation dient bei uns hauptsächlich zur anschaulichen Interpretation einiger Aussagen, und der Zugang als lineare Näherung wird erst im nächsten Semester wirklich wichtig werden. 14.1 Differenzierbarkeit und Differenzenquotienten Wir wollen jetzt die formale Definition der Ableitung f 0 (x) einer Funktion f in einem Punkt x ihres Definitionsbereichs angeben. Wie schon bemerkt gibt es mindestens drei verschiedene, aber natürlich gleichwertige, Methoden f 0 (x) einzuführen. Alle diese verschiedenen Definitionen involvieren einen Funktionsgrenzwert im Punkt x, und daher müssen wir fordern das x ein Häufungspunkt des Definitionsbereich der Funktion f ist. Seien K ∈ {R, C}, D ⊆ K eine Teilmenge, f : D → K eine Funktion und x ∈ D ein Häufungspunkt von D. Wir beginnen mit der geometrischen Beschreibung der Ableitung. Hier betrachten wir Punkte y ∈ D verschieden von x, also y 6= x, und bilden die Verbindungsgerade der beiden Punkte (x, f (x)) und (y, f (y)), dies ist sozusagen eine Sekante der Kurve y = f (x). Die Steigung dieser Sekante ist durch den sogenannten Differenzenquotienten f (y) − f (x) y−x gegeben. Lassen wir jetzt y gegen x konvergieren, so sollte die Steigung dieser Sekanten gegen die Steigung der Tangente an y = f (x) im Punkte x konvergieren, und diesen 272 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Grenzwert, sofern er existiert nennen wir dann die Ableitung von f in x f (y) − f (x) . y→x y−x f 0 (x) := lim Im komplexen Fall K = C hat man natürlich keine so direkte Anschauung, aber die formale Definition ist ohne Probleme auch in der komplexen Situation sinnvoll. In einer etwas exakteren Formulierung definieren wir dann nachträglich die Tangente von y = f (x) im Punkte x als die Gerade der Steigung f 0 (x) durch den Punkt (x, f (x)). Die zweite Beschreibung ist die Definition der Ableitung als Änderungsrate in einem Punkt. Da wir diese schon in §6.1 diskutiert haben, wollen wir uns hier kurz fassen, und kommen gleich zur Definition der Ableitung als f (x + h) − f (x) . h→0 h f 0 (x) := lim Die Funktion bezüglich derer der Grenzwert gebildet wird, ist dabei die um x verschobene Menge D − x, und 0 ist wieder ein Häufungspunkt dieser Menge, der Grenzwert ist also überhaupt sinnvoll. Die Ableitung tritt in dieser Formel als Änderungsrate auf. Mathematisch ist dies genau dasselbe wie die geometrische Interpretation, man muss ja nur y = x+h schreiben, und sich die einfache Tatsache klarmachen, dass diese Umparametrisierung auf den Grenzwert keinen Einfluss hat. Sie sollten sich dies ruhig als eine kleine Übungsaufgabe einmal hinschreiben. Die dritte Interpretation ist die Auffassung der Ableitung als eine lineare Approximation. Hier denken wir uns die Funktion f in der Nähe des Punktes x durch eine lineare Funktion angenähert, wir schreiben also f (x + h) = f (x) + mh + fehler(h) mit einem m ∈ K wobei dann üblicherweise τ (h) = fehler(h) gesetzt wird. Dabei ist die Störung h ein Element der Menge D −x. Beachte das wir diesen Ausdruck als Funktion in h auffassen, der Punkt x ist hier fest gewählt und ändert sich nicht. Damit dies eine sinnvolle Approximation ist, muss der Fehler dabei natürlich einigen Bedingungen genügen. Die Minimalbedingung ist, dass der Fehler klein wird, wenn h klein wird, es sollte also limh→0 τ (h) = 0 gelten. Für die Ableitung ist dies noch nicht genug. Der Fehler soll nicht nur klein werden, er soll dies schlimmstenfalls proportional zu h tun, es soll also eine Abschätzung |τ (h)| ≤ A|h| mit einer Proportionalitätskonstanten A > 0 gelten. Auch dies ist für die Differenzierbarkeit noch nicht gut genug. Differenzierbarkeit bedeutet, dass man auch die Proportionalitätskonstante A beliebig klein machen kann, wenn h nur klein genug ist. Es soll also für jede vorgegebene Proportionalitätskonstante > 0 stets |τ (h)| ≤ |h| für ausreichend kleine h sein, beziehungsweise etwas exakter soll es ein δ > 0 mit |τ (h)| ≤ |h| für alle h ∈ R mit |h| ≤ δ geben. Da wir dies zu |τ (h)/h| ≤ für 0 6= h ∈ D − x mit |h| ≤ δ umformen können, sehen wir das die Bedingung an den Fehler gemäß der –δ Definition von Funktionsgrenzwerten aus §13.Lemma 1.(f) gerade τ (h) lim =0 h→0 h 273 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 ist. Auch diese Interpretation ist zu den anderen beiden Differenzierbarkeitsdefinitionen äquivalent, wobei die Steigung m der approximierenden linearen Funktion gerade m = f 0 (x) sein muss. Dies ist leicht zu sehen, wir können die Gleichung f (x + h) = f (x) + mh + τ (h) ja zu τ (h) f (x + h) − f (x) −m= h h umschreiben. Interpretieren wir die lineare Näherung als Gerade in K 2 , so wird diese gerade zur Tangente aus dem geometrischen Standpunkt. Als Definition müssen wir uns für eine dieser drei Varianten entscheiden, und wählen hierfür die zweite Methode. Definition 14.1: Seien K ∈ {R, C}, D ⊆ K und f : D → K eine Abbildung. Weiter sei x ∈ D ein Häufungspunkt von D. Wir nennen f in x differenzierbar, wenn der Grenzwert f (x + h) − f (x) f 0 (x) := lim h→0 h existiert, welcher dann als die Ableitung von f in x bezeichnet wird. Wie schon bemerkt kann man auch die äquivalente Form f 0 (x) = lim y→x f (y) − f (x) y−x verwenden, was wir auch gelegentlich tun werden. Aus der Interpretation der Ableitung als lineare Approximation ist klar, dass für eine lineare Funktion f : K → K; x 7→ ax+b mit a, b ∈ K auch f 0 (x) = a für alle x ∈ K ist. Insbesondere ist die Ableitung konstanter Funktionen in jedem Punkt gleich Null. Als ein weiteres Beispiel wollen wir die Funktion f (x) = x2 definiert auf D = K behandeln. Hier rechnen wir (x + h)2 = x2 + 2xh + h2 und haben f (x + h) = (x + h)2 geschrieben als die Summe des linearen Teils x2 + 2xh und dem Fehler τ (h) = h2 . Dann ist limh→0 τ (h)/h = limh→0 h = 0, d.h. f ist in x differenzierbar. Die Ableitung in x ist die Steigung des linearen Teils, also f 0 (x) = 2x. Als letztes Beispiel schauen wir uns die Funktion f : K\{0} → K; x 7→ 1/x an. Sei x ∈ K\{0}. Als Differenzenquotient ergibt sich 1 x+h − h 1 x =− 1 , x(x + h) und mit den Rechenregeln für Funktionsgrenzwerte §13.Satz 5 folgt f (x + h) − f (x) 1 = − 2. h→0 h x f 0 (x) = lim 274 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Aus der Lokalität von Funktionsgrenzwerten folgt, dass auch der Ableitungsbegriff lokal ist, also nicht von der ganzen Funktion abhängt, sondern nur von den Werten der Funktion in der Nähe des Punktes in dem abgeleitet wird. Lemma 14.1: Seien K ∈ {R, C}, D ⊆ K eine Teilmenge, a ∈ D ein Häufungspunkt von D und f : D → K eine Funktion. (a) Sei f in a differenzierbar. Ist dann M ⊆ D eine Teilmenge mit a ∈ M und ist a auch ein Häufungspunkt von M , so ist auch f |M in a differenzierbar mit (f |M )0 (a) = f 0 (a). e := B (a) ∩ D = {x ∈ D : |x − a| < }. Dann ist f genau (b) Sei > 0 und setze D e in a differenzierbar ist, und in diesem Fall dann in a differenzierbar wenn f |D e 0 (a) = f 0 (a). gilt (f |D) Beweis: (a) Klar nach §13.Lemma 1.(g). (b) Klar nach §13.Lemma 3. 14.2 Die Ableitungsregeln Wir wollen jetzt die Rechenregeln für Ableitungen herleiten. Zusammen mit den Regeln für die Ableitungen der Grundfunktionen erhält man einen Kalkül der die Ableitung aller als Formeln in den Grundfunktionen gegebenen Funktionen erlaubt. Beweistechnisch ist es bequem zuvor eine weitere Umformulierung der Ableitungsdefinition herzuleiten. Da wir den Beweis der Ableitungsregeln in der Vorlesung weggelassen hatten, wurde auch dieses ganze Lemma nicht angeschrieben, es wird auch in der nächsten Sitzung nur in Beweisen verwendet werden. Lemma 14.2 (Ableitungsdefinition nach Caratheodory) Seien K ∈ {R, C}, D ⊆ K, f : D → K eine Funktion und x ∈ D ein Häufungspunkt von D. Dann ist die Funktion f genau dann differenzierbar in x, wenn es eine in x stetige Funktion φ : D → K mit f (t) = f (x) + (t − x)φ(t) für alle t ∈ D gibt. In diesem Fall ist f 0 (x) = φ(x). Beweis: ”=⇒” Sei ( φ : D → K; t 7→ f (t)−f (x) , t−x 0 f (x), t 6= x, t = x, und dann gilt f (x) + (t − x)φ(t) = f (t) für alle t ∈ D. Außerdem ist f (t) − f (x) f (x + h) − f (x) = lim = f 0 (x) = φ(x), t→x h→0 t−x h lim φ(t) = lim t→x 275 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 d.h. φ ist stetig in x. Die hier vorgenommene Umparametrisierung des Grenzwerts ist dabei mit der –δ Beschreibung des Funktionsgrenzwerts nach §13.Lemma 1.(f) klar. ”⇐=” Es gilt f (x + h) − f (x) = lim φ(x + h) = φ(x) lim h→0 h→0 h da φ in x stetig ist, also ist f in x differenzierbar mit f 0 (x) = φ(x). Als ein direktes Korollar sehen wir das Differenzierbarkeit in einem Punkt auch die Stetigkeit in diesem Punkt impliziert. Lemma 14.3: Seien K ∈ {R, C}, D ⊆ K, x ∈ D ein Häufungspunkt von D und f : D → K eine in x differenzierbare Funktion. Dann ist f an der Stelle x auch stetig. Beweis: Klar nach Lemma 2 und §13.Lemma 9.(a,c). Jetzt sind wir in der Lage die meisten der Ableitungsregeln zu beweisen. Diese Regeln sind Formeln, die es erlauben, die Ableitung einer Funktion aus den bereits als bekannt angenommenen Ableitungen ihrer Bestandteile zu berechnen. Im einzelnen sind dies die Summenregel für die Ableitung von Summen, die Vielfachenregel für die Ableitungen von Vielfachen, die Produktregel für die Ableitung von Produkten, Quotientenregel für die Ableitung von Brüchen und schließlich die Kettenregel für die Ableitung von Hintereinanderausführungen. Die Quotientenregel ist dabei eigentlich keine eigenständige Regel da sie aus der Kettenregel und der Produktregel folgt. Satz 14.4 (Ableitungsregeln) Seien K ∈ {R, C}, D ⊆ K, x ∈ D ein Häufungspunkt von D und f, g : D → K zwei in x differenzierbare Funktionen. (a) Die Funktion f +g : D → K ist in x differenzierbar mit (f +g)0 (x) = f 0 (x)+g 0 (x). (b) Für jedes c ∈ K ist die Funktion cf : D → K differenzierbar mit (cf )0 (x) = cf 0 (x). (c) Die Funktion f · g : D → K ist in x differenzierbar mit (f · g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x). (d) Ist g(t) 6= 0 für alle t ∈ D, so ist die Funktion f /g in x differenzierbar mit 0 f f 0 (x)g(x) − f (x)g 0 (x) (x) = . g g(x)2 e ⊆ K eine weitere Menge, y ∈ D e ein Häufungspunkt von D e und h : D e →D (e) Sind D e → K in y eine in y differenzierbare Funktion mit h(y) = x, so ist auch f ◦ h : D differenzierbar mit (f ◦ h)0 (y) = f 0 (x)h0 (y) = f 0 (h(y)) · h0 (y). 276 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Beweis: Nach Lemma 2 gibt es in x stetige Funktionen φ, ψ : D → K mit f (t) = f (x) + (t − x)φ(t) und g(t) = g(x) + (t − x)ψ(t) für alle t ∈ D, und es sind f 0 (x) = φ(x) und g 0 (x) = ψ(x). (a) Nach §13.Lemma 9.(a) ist θ := φ + ψ in x stetig und für alle t ∈ D gilt f (t) + g(t) = f (x) + g(x) + (t − x)θ(t), d.h. nach Lemma 2 ist f + g in x differenzierbar mit (f + g)0 (x) = θ(x) = φ(x) + ψ(x) = f 0 (x) + g 0 (x). (b) Nach §13.Lemma 9.(b) ist θ := cφ in x stetig und für alle t ∈ D gilt cf (t) = cf (x) + (t − x)θ(t), d.h. nach Lemma 2 ist cf in x differenzierbar mit (cf )0 (x) = θ(x) = cφ(x) = cf 0 (x). (c) Nach §13.Lemma 9.(a,b,c) ist die Funktion θ : D → K; t 7→ φ(t)g(x) + f (x)ψ(t) + (t − x)φ(t)ψ(t) in x stetig, und für alle t ∈ D gilt f (t)g(t) = (f (x) + (t − x)φ(t)) · (g(x) + (t − x)ψ(t)) = f (x)g(x) + (t − x)(φ(t)g(x) + f (x)ψ(t)) + (t − x)2 φ(t)ψ(t) = f (x)g(x) + (t − x)θ(t). Nach Lemma 2 ist f g in x differenzierbar mit (f g)0 (x) = θ(x) = φ(x)g(x)+f (x)ψ(x) = f 0 (x)g(x) + f (x)g 0 (x). e → K mit h(t) = h(y) + (e) Nach Lemma 2 existiert eine in y stetige Funktion θ : D e und θ(y) = h0 (y). Nach §13.Lemma 10.(b) und §13.Lemma (t − y)θ(y) für alle t ∈ D 9.(c) ist die Funktion e → K; t 7→ θ(y)φ(h(t)) %:D e ist damit auch in y stetig. Für jedes t ∈ D f (h(t)) = f (x) + (h(t) − x)φ(h(t)) = f (x) + (h(y) + (t − y)θ(y) − x)φ(h(t)) = f (h(y)) + (t − y)θ(y)φ(h(t)) = f (h(y)) + (t − y)%(t), und nach Lemma 2 ist f ◦ h in y differenzierbar mit (f ◦ h)0 (y) = %(y) = θ(y)φ(x) = f 0 (x)h0 (y). (d) Wir haben bereits eingesehen, dass die Funktion h : K\{0} → K; t 7→ 1 t für jedes t ∈ K\{0} differenzierbar mit h0 (t) = −1/t2 ist. Nach (e) ist die Funktion 1/g = h ◦ g in x differenzierbar mit 0 g 0 (x) 1 (x) = (h ◦ g)0 (x) = h0 (g(x)) · g 0 (x) = − . g g(x)2 277 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 Nach (c) ist damit auch f /g = f · (1/g) in x differenzierbar mit 0 0 0 1 f 0 (x) 1 f 0 (x) f (x)g 0 (x) f (x) = f · (x) = − f (x) (x) = − g g g(x) g g(x) g(x)2 f 0 (x)g(x) − f (x)g 0 (x) = . g(x)2 Damit ist auch die Quotientenregel bewiesen. Per Induktion folgt mit der Produktregel die Formel für die Ableitung von Funktionen f : K → K; x 7→ xn für jedes n ∈ N, es gilt f 0 (x) = nxn−1 für jedes x ∈ K. Für n = 0 müssen wir die rechte Seite dabei als Null interpretieren, auch wenn x = 0 ist. An dieser Stelle ist es nützlich eine kleine symbolische Schreibweise einzuführen. Es ist gelegentlich lästig einer Funktion wie x 7→ xn extra einen Namen f geben zu müssen, nur um die Ableitung als f 0 (x) hinschreiben zu können. Etwas verkürzend schreibt man daher so etwas wie d n dxn x = = nxn−1 dx dx für diese Ableitung. Das x“ hat hier eine rein formale Funktion und sollte außerhalb ” der Formel nicht auftreten. Gelegentlich wenn der Definitionsbereich des angegebenen Terms nicht ganz klar ist, kann man diesen mit einem Satz der Form für x ∈ D“ oder ” ähnlich, hinzufügen. Will man die Ableitung in einem konkreten Punkt a angeben, so schreibt man entsprechend dxn d n x = = nan−1 . dx x=a dx x=a Wenden wir noch die Quotientenregel an, so gilt diese Formel für alle n ∈ Z wenn x 6= 0 ist. Damit können wir weiter die Ableitungen von Polynomen und die Ableitungen rationaler Funktionen berechnen. Um noch mehr Ableitungen berechnen zu können, wollen wir jetzt zeigen, dass Potenzreihen im Inneren ihres Konvergenzkreises differenzierbar sind. Satz 14.5 (Ableitungen von P Potenzreihen) n Seien K ∈ {R, C} und f (z) = ∞ n=0 an (z −z0 ) eine Potenzreihe mit Konvergenzradius r > 0. Dann ist f für jedes z ∈ K mit |z − z0 | < r differenzierbar mit 0 f (z) = ∞ X (n + 1)an+1 (z − z0 )n , n=0 und diese Potenzreihe hat wieder den Konvergenzradius r. √ √ √ √ √ Beweis: Für alle n ∈√N mit n ≥ 1 gilt n n ≤ n n + 1 ≤ n 2n = n 2 n n und wegen √ ( n n)n∈N −→ 1 und ( n 2)n∈N −→ 1 ist nach §6.Lemma 6.(c) und §6.Lemma 5.(b) auch 278 Mathematik für Physiker I, WS 2010/2011 Freitag 4.2.2011 √ ( n n + 1)n∈N −→ 1. Nach Aufgabe (29) gilt p p p √ lim sup n |(n + 1)an+1 | = lim n n + 1 · lim sup n |an+1 | = lim sup n |an |, n→∞ n→∞ n→∞ n→∞ P∞ n und nach §13.Satz 17 hat auch die Potenzreihe g(z) := n=0 (n + 1)an+1 (z − z0 ) den Konvergenzradius r. Wir beweisen die P Differenzierbarkeitsaussage zunächst im n Entwicklungspunkt. Die Potenzreihe φ(z) := ∞ n=0 an+1 (z − z0 ) hat wieder den Konvergenzradius r, und ist nach §13.Satz 19 eine stetige Funktion φ : Br (z0 ) → K. Für jedes z ∈ K mit |z − z0 | < r gilt f (z) = a0 + ∞ X an (z − z0 )n = f (z0 ) + (z − z0 )φ(z), n=1 und nach Lemma 2 ist f in z0 differenzierbar mit f 0 (z0 ) = φ(z0 ) = a1 = g(z0 ). Jetzt sei z1 ∈ K mit |z − z1 | < r ein beliebiger Punkt im Konvergenzkreis von f , und setze s := r − |z1 − z0 | > 0. Nach §13.Lemma 18 ist ∞ X n+k bn := an+k (z1 − z0 )k n k=0 P n für jedes n ∈ N absolut konvergent, die Potenzreihe f ∗ (z) := ∞ n=0 bn (z − z1 ) hat ∗ einen Konvergenzradius r ≥ s und für jedes z ∈ K mit |z − z1 | < s gilt f (z) = f ∗ (z). Wie bereits gezeigt, ist f ∗ in z1 differenzierbar mit ∞ ∞ X X n+1 ∗ 0 (f ) (z1 ) = b1 = an+1 (z1 − z0 )n = (n + 1)an+1 (z1 − z0 )n = g(z1 ). 1 n=0 n=0 Nach Lemma 1.(b) ist damit auch f in z1 differenzierbar mit f 0 (z1 ) = (f ∗ )0 (z1 ) = g(z1 ). Wenden wir diesen Satz speziell auf die Exponentialfunktion z e = ∞ X zn n=0 n! an, so ergibt sich die Ableitung ∞ ∞ X X zn zn dez = exp0 (z) = (n + 1) = = ez , dz (n + 1)! n! n=0 n=0 für alle z ∈ R. Damit kann man dann weiter die Ableitungen der Hyperbelfunktionen als d d ez − e−z ez + e−z sinh z = = = cosh z, dz dz 2 2 d d ez + e−z ez − e−z cosh z = = = sinh z, dz dz 2 2 d d sinh z cosh2 z − sinh2 z 1 tanh z = = = = 1 − tanh2 z 2 dz dz cosh z cosh z cosh2 z 279 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 berechnen. Für die Ableitungen der trigonometrischen Funktionen ergibt sich dann weiter d d sin z = (−i sinh(iz)) = −i2 cosh(iz) = cosh(iz) = cos z, dz dz d d cos z = cosh(iz) = i sinh(iz) = − sin z, dz dz d d 1 tan z = (−i tanh(iz)) = = 1 + tan2 z. 2 dz dz cos z Vorlesung 25, Montag 7.2.2011 In der letzten Sitzung hatten wir die Ableitungsregeln angegeben, die es erlauben ziemlich beliebige, als explizite Formeln gegebene, Funktionen abzuleiten solange man nur die Ableitungen der auftretenden Grundfunktionen kennt. Damit verbleibt dann zur Berechnung von Ableitungen nur noch das Problem die Ableitungen der Grundfunktionen auszurechnen. Für die Exponentialfunktion sowie die trigonometrischen Funktionen haben wir dies bereits getan, es verbleiben aber noch Funktionen wie beispielsweise der reelle Logarithmus. Dieser ist als Umkehrfunktion der reellen Exponentialfunktion definiert. Um derartige Funktionen abzuleiten, brauchen wir noch eine Ableitungsregel für die Ableitung von Umkehrfunktionen. Wir formulieren und beweisen diese Formel nur im reellen Fall, da wir im Beweis die Stetigkeit von Umkehrfunktionen verwenden werden. Tatsächlich ist der wörtlich auf den Fall K = C übertragene Satz falsch. Man kann einen entsprechenden Satz auch im komplexen Fall beweisen, allerdings muss man zusätzliche Voraussetzungen an den Definitionsbereich der betrachteten Funktion stellen. Dieses durchzuführen ist zum einen etwas komplizierter und zum anderen gehört es auch nicht mehr zu den Themen dieses Semesters. Wir werden im Rest dieses Kapitels nur noch reelle Funktionen betrachten. Satz 14.6 (Umkehrregel) Seien I, J ⊆ R zwei Intervalle und sei f : I → J eine bijektive stetige Funktion, die im Punkt x ∈ I differenzierbar ist mit f 0 (x) 6= 0. Dann ist auch die Umkehrfunktion f −1 : J → I im Punkt y := f (x) ∈ J differenzierbar mit (f −1 )0 (y) = 1 f 0 (x) = 1 f 0 (f −1 (y)) . Beweis: Wir müssen zeigen, dass der Grenzwert f −1 (u) − f −1 (y) u→y u−y (f −1 )0 (y) = lim 280 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 existiert und gleich dem angegebenen Wert ist. Hierzu ist es am bequemsten direkt auf die Definition dieses Funktionsgrenzwerts durch Folgen zurückzugehen. Sei also (yn )n∈N eine gegen y konvergente Folge in J\{y}. Nach §13.Satz 15.(c) ist die Umkehrfunktion f −1 : J → I stetig, und damit ist (f −1 (yn ))n∈N eine gegen f −1 (y) = x konvergente Folge in I\{x}. Mit den Rechenregeln für Folgengrenzwerte §6.Satz 6.(d) folgt −1 f −1 (yn ) − f −1 (y) f −1 (yn ) − x f (f −1 (yn )) − f (x) = lim = lim lim n→∞ f (f −1 (yn )) − f (x) n→∞ n→∞ yn − y f −1 (yn ) − x −1 −1 1 f (f −1 (yn )) − f (x) f (u) − f (x) = lim = 0 . = lim −1 u→x n→∞ f (yn ) − x u−x f (x) Dies ergibt f −1 (u) − f −1 (y) 1 = 0 . u→y u−y f (x) (f −1 )0 (y) = lim Die Voraussetzung f 0 (x) 6= 0 ist tatsächlich nötig. Beispielsweise ist die Funktion f : R → R; x 7→ x3 √ stetig, bijektiv und überall differenzierbar, aber die Umkehrfunktion f −1 (x) = 3 x ist in x = 0 nicht differenzierbar. Der Satz ist wegen f 0 (0) = 0 hier auch nicht anwendbar. Ausgerüstet mit der Umkehrregel können wir jetzt die Ableitungen der noch ausstehenden Grundfunktionen berechnen. Wir beginnen dabei mit dem Logarithmus, und erhalten für jedes x > 0 1 1 d ln x = ln x = . dx e x Zusammen mit der Kettenregel ergibt sich hieraus die Ableitung der allgemeinen Potenzfunktion d α·ln x α α·ln x d α x = e = e = αxα−1 dx dx x für alle x, α ∈ R mit x > 0. Dagegen wird die Ableitung der Potenzfunktion nach dem Exponenten für a, x ∈ R mit a > 0 zu d x d ln(a)·x a = e = ln(a)eln(a)·x = ln(a)ax . dx dx Wir wollen auch noch die Umkehrfunktionen der trigonometrischen Funktionen behandeln, die sogenannten Arcus Funktionen. All diese sind immer nur die Umkehrfunktion der entsprechenden trigonometrischen Funktion auf einem geeignet gewählten Intervall, nämlich arcsin : [−1, 1] → − π2 , π2 (Arcus Sinus) arccos : [−1, 1] → [0,π] (Arcus Cosinus) π π arctan : R → − 2 , 2 (Arcus Tangens). 281 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Nach dem Satz §13.Satz 15.(c) sind diese Funktionen allesamt stetig. Auch die reellen Hyperbelfunktionen sind auf geeigneten Intervallen umkehrbar, und ihre Umkehrfunktionen sind wieder stetig. Dies gibt uns die sogenannten Area Funktionen arsinh : R → R (Area Sinus Hyperbolicus) arcosh : [1, ∞) → [0, ∞) (Area Cosinus Hyperbolicus) artanh : (−1, 1) → R (Area Tangens Hyperbolicus). Die Stetigkeit der Area-Funktionen kann man aber auch leicht direkt einsehen, da es für diese die expliziten Formeln √ arsinh x = ln(x + x2 + 1), √ arcosh x = ln(x + x2 − 1), 1 1+x artanh x = ln 2 1−x für die x aus dem jeweiligen Definitionsbereich, gibt. Als nächsten Schritt können wir jetzt die Ableitungen der Arcusfunktionen berechnen. Sei x ∈ (−1, 1). Dann ist arcsin x ∈ (−π/2, π/2), also auch cos(arcsin x) > 0 und es gilt q √ d sin t 2 = cos(arcsin x) = 1 − sin (arcsin x) = 1 − x2 > 0, dt t=arcsin x und damit ist d 1 arcsin x = √ . dx 1 − x2 Wegen π − arcsin x 2 für alle x ∈ [−1, 1], folgt für jedes x ∈ (−1, 1) auch arccos x = d 1 arccos x = − √ . dx 1 − x2 Die Ableitung des Arcustangens ergibt sich für jedes x ∈ R zu d 1 1 arctan x = = . 2 dx 1 + tan (arctan x) 1 + x2 Auch die Ableitungen der Areafunktionen lassen sich analog zu den Arcusfunktionen berechnen, alternativ kann man auch die expliziten Logarithmus-Formeln verwenden. Dies wollen wir hier nicht vorrechnen, das Ergebnis ist d 1 arsinh x = √ (x ∈ R), dx x2 + 1 d 1 arcosh x = √ (x ∈ (1, ∞)), 2 dx x −1 d 1 artanh x = (x ∈ (−1, 1)). dx 1 − x2 282 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Als letzte Ableitungsregel wollen wir noch kurz auf die Ableitungen von aus mehreren Stücken zusammengesetzten Funktionen eingehen. Zunächst können wir dabei die sogenannten links- und rechtsseitigen Ableitungen einer Funktion definieren. Seien also D ⊆ R eine Menge, a ∈ D und f : D → R eine Funktion. Ist dann a ein rechtsseitiger Häufungspunkt von D, so nennen wir f in a rechtsseitig differenzierbar, wenn f |D≥a in a differenzierbar ist, und die Ableitung f+0 (a) := (f |D≥a )0 (a) = lim x↓a f (x) − f (a) x−a heißt die rechtsseitige Ableitung von f in a. Analog wird die linksseitige Ableitung von f in a f (x) − f (a) f−0 (a) := (f |D≤a )0 (a) = lim x↑a x−a einer von links differenzierbaren Funktion im Punkt a definiert, wenn a ein linksseitiger Häufungspunkt von D ist. Ist beispielsweise f : R → R; x 7→ |x| die Betragsfunktion, so existieren die links- und rechtsseitigen Ableitungen von f in 0 und es gelten f−0 (0) = −1 und f+0 (0) = 1. Dagegen ist die Betragsfunktion in 0 nicht differenzierbar, wie zum Beispiel das folgende Lemma zeigt. Lemma 14.7 (Ableitungen stückweise definierter Funktionen) Seien D ⊆ R eine Menge, a ∈ D ein Häufungspunkt von D und f : D → R eine Funktion. Dann ist die Funktion f genau dann in a differenzierbar mit der Ableitung f 0 (a) = b ∈ R wenn die folgenden beiden Bedingungen erfüllt sind: 1. Entweder ist a kein rechtsseitiger Häufungspunkt von D oder a ist ein rechtsseitiger Häufungspunkt von D und es gilt f+0 (a) = b. 2. Entweder ist a kein linksseitiger Häufungspunkt von D oder a ist ein linksseitiger Häufungspunkt von D und es gilt f−0 (a) = b. Beweis: Klar nach §13.Lemma 4. Als ein Beispiel betrachten wir die Funktion f : R → R gegeben durch ( x2 , x ≥ 0, f (x) = x2 H(x) = 0, x ≤ 0 für jedes x ∈ R. Dabei ist H wieder die Heaviside Funktion. Für x < 0 ist f 0 (x) = 0 und für x > 0 haben wir f 0 (x) = 2x. In x = 0 ergeben sich die links- und rechtsseitigen Ableitungen f−0 (0) = 0 und f+0 (0) = 0, also ist f auch in 0 differenzierbar mit f 0 (0) = 0. Insgesamt zeigt diese Rechnug d 2 x H(x) = 2xH(x). dx 283 Mathematik für Physiker I, WS 2010/2011 14.3 Montag 7.2.2011 Grundeigenschaften differenzierbarer reeller Funktionen In diesem Abschnitt wollen wir einige der wichtigsten Eigenschaften von auf R definierten, differenzierbaren Funktionen zusammenstellen. Insbesondere werden wir damit die Grundlagen der sogenannten Kurvendiskussion“ legen. Wir beginnen mit einigen ” vorbereitenden Definitionen. Definition 14.2: Sei K ∈ {R, C} und sei D ⊆ K eine Teilmenge mit D ⊆ D0 , d.h. jeder Punkt von D ist auch ein Häufungspunkt von D. Dann nennen wir eine Funktion f : D → K differenzierbar in einer Teilmenge M ⊆ D wenn f in jedem Punkt x ∈ M differenzierbar ist. Weiter nennen wir f differenzierbar wenn f in ganz D differenzierbar ist, und in diesem Fall bezeichnen wir die Funktion f 0 : D → K; x 7→ f 0 (x) als die Ableitung von f . Alternativ sagen wir auch, dass die Funktion f einfach differenzierbar ist und schreiben f (1) := f 0 . Die höheren Ableitungen von f werden rekursiv definiert, d.h. ist n ∈ N mit n ≥ 2, so nennen wir f n-fach differenzierbar wenn f (n − 1)-fach differenzierbar ist und die (n − 1)-te Ableitung f (n−1) von f wieder differenzierbar ist. Die n-te Ableitung von f wird dann als f (n) := (f (n−1) )0 definiert. Die Funktion f selbst nennen wir die nullte Ableitung und schreiben f (0) := f . Für jedes n ∈ N nennen wir f n-fach stetig differenzierbar wenn f n-fach differenzierbar ist und die n-te Ableitung f (n) : D → K stetig ist. Schließlich heißt f unendlich oft differenzierbar, wenn f für jedes n ∈ N stets n-fach differenzierbar ist. Nach Lemma 3 ist eine n-fach differenzierbare Funktion für jedes n ≥ 1 auch (n − 1)fach stetig differenzierbar. Insbesondere ist eine unendlich oft differenzierbare Funktion für jedes n ∈ N stets n-fach stetig differenzierbar. Die Bedingung D ⊆ D0 an den Definitionsbereich der betrachteten Funktion f ist für uns unproblematisch, sie ist beispielsweise erfüllt wenn D ein Kreis D = Br (z) in C oder ein Intervall mit mindestens zwei Punkten in R ist. Die meisten der in diesem Abschnitt behandelten Aussagen handeln von stetigen Funktionen f : [a, b] → R, die auf dem offenen Intervall (a, b) differenzierbar sind. Dabei sind a, b ∈ R mit a < b gegeben. Eine der Aufgaben bei der sogenannten Kurvendiskussion ist die Bestimmung der lokalen Extrema einer gegebenen Funktion f : [a, b] → R. Wir beschränken uns bei der Definition lokaler Extrema auf den reellen Fall. Definition 14.3 (Lokale Extrema) Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine Funktion. Ein Punkt x ∈ (a, b) heißt ein lokales Maximum der Funktion f , wenn es ein > 0 mit f (x) ≥ f (t) für alle t ∈ [a, b] mit |t − x| < gibt. Analog heißt x ein lokales Minimum von f wenn es ein > 0 mit f (x) ≤ f (t) für alle t ∈ [a, b] mit |t − x| < gibt. Schließlich heißt x ein lokales Extremum von f wenn x eine lokales Maximum oder ein lokales Minimum von f ist. 284 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Damit x etwas ein lokales Maximum ist, wird nur f(x) gefordert, dass der Funktionswert x maximal unter den Funktionswerten nahe bei x ist, also für alle Stellen in einem Intervall (x − , x + ) um x. Weiter von x entfernt kann die Funktion durchaus noch größere Werte x annehmen. Ein globales Maximum x ∈ [a, b] von f ist x−ε x x+ ε eine Stelle an der das Maximum der Funktionswerte angenommen wird, also f (x) ≥ f (t) für alle x ∈ [a, b]. Ist x 6= a, b, so ist x dann offenbar auch ein lokales Maximum. Analog gilt dies auch für globale Minima der Funktion. Das folgende Lemma erlaubt in vielen Fällen die Bestimmung aller potentiellen lokalen Extrema einer Funktion f . Lemma 14.8 (Notwendige Bedingung für lokale Extrema) Seien I ⊆ R ein Intervall, f : I → R eine Funktion und a ∈ I ein lokales Extremum von f in dem die Funktion f differenzierbar ist. Dann gilt f 0 (a) = 0. Beweis: Wir zeigen dies wenn a ein lokales Maximum ist, der Fall eines lokalen Minimums ist dann analog. Es gibt ein > 0 mit (a − , a + ) ⊆ I und f (a) ≥ f (x) für alle x ∈ (a − , a + ). Mit Lemma 7 und §13.Lemma 2.(a) folgen f (x) − f (a) ≤ 0, x↓a x−a f (x) − f (a) f 0 (a) = f−0 (a) = lim ≥ 0, x↑a x−a f 0 (a) = f+0 (a) = lim es ist also f 0 (a) = 0. Dieses Lemma erlaubt es bereits das Maximum und Minimum der betrachteten Funktion zu berechnen. Angenommen wir haben eine stetige Funktion f : [a, b] → R, die in (a, b) differenzierbar ist. Dann bilden wir die Menge M := {x ∈ (a, b)|f 0 (x) = 0} ∪ {a, b} also alle Nullstellen der Ableitung im Inneren des Intervalls plus die beiden Randpunkte. In vielen Aufgabenstellungen ist die Menge M endlich und sogar recht klein. Der maximale Wert den die Funktion annimmt ist dann m := max f (x) = max f (x), x∈M x∈[a,b] man muss die Funktion also nur an den Punkten aus M auswerten und den größten auftretenden Wert heraussuchen. Weiter ist auch {x ∈ [a, b]|f (x) = m} = {x ∈ M |f (x) = m}, wir finden also auch alle Werte in denen das Maximum angenommen wird, d.h. die globalen Maxima der Funktion. Dies ist leicht zu sehen. Zunächst wissen wir nach 285 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 §13.Satz 13 das f überhaupt sein Maximum annimmt, es gibt also überhaupt ein globales Maximum von f . Damit muss man nur zeigen, dass jedes globale Maximum von f in der Menge M liegt. Ist x ein globales Maximum, so ist x entweder einer der beiden Randpunkte a, b, und dann ist x ∈ M , oder x ist auch lokales Maximum, und dann ist nach dem eben bewiesenen Lemma f 0 (x) = 0, und wir haben wieder x ∈ M . Beachte das wir nicht wissen müssen welche der Nullstellen der Ableitung lokale Maxima oder überhaupt lokale Extrema sind, das spielt keinerlei Rolle. Für das Minimum der Funktion f kann man analog vorgehen. Wir wollen jetzt ein Beispiel rechnen, die Funktion f : [0, 2] → R; x 7→ x3 − 4x2 + 4x − 5. Wir suchen den maximalen und den minimalen Wert von f . Folgen wir dem obigen Verfahren, so berechnen wir zunächst die Ableitung von f f 0 (x) = 3x2 − 8x + 4, und bestimmen ihre Nullstellen 8 4 4 ! x2 − x + = 0 =⇒ x = ± 3 3 3 r 4 16 4 − = ± 9 3 3 r 4 2 4 = ± , 9 3 3 also 2 und x2 = 2. 3 Die relevanten Funktionswerte sind also 2 103 135 f (0) = −5, f (2) = −5 und f =− >− = −5. 3 27 27 x1 = Also hat f ein globales Maximum in x = 2/3 mit Wert max = −103/27 und ein globales Minimum in x = 0 (und x = 2) mit Wert min = −5. Wir wollen noch ein zweites Beispiel rechnen, dieses wurde in der Vorlesung aus Zeitgründen weggelassen. Bisher haben wir uns auf Funktionen beschränkt die auf Intervallen der Form [a, b] definiert sind. In diesem Fall garantiert uns §13.Satz 13 die Existenz von globalen Maximum und Minimum. Man kann natürlich auch andere Intervalle behandeln, benötigt dann aber zusätzliche Argumente. Als ein solches Beispiel wollen wir jetzt das Minimum der Funktion f : R → R; x 7→ 2x − x berechnen, und insbesondere einsehen das es ein solches überhaupt gibt. Hier schauen wir uns als ersten Schritt das Verhalten von f (x) für x gegen ±∞ an. Zunächst ist lim 2x = lim eln(2)x = ∞ =⇒ lim (2x − x) = ∞ x→−∞ x→−∞ x→−∞ 286 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 nach §13.Satz 21.(b) und §13.Satz 5.(a). Etwas komplizierter ist der Grenzwert gegen +∞, da hier sowohl 2x als auch x gegen +∞ gehen. Intuitiv ist klar das als Grenzwert +∞ herauskommt, da 2x wesentlich schneller wächst als x. Mit den uns inzwischen zur Verfügung stehenden Hilfsmitteln können wir dies auch leicht formal beweisen, nach §13.Satz 21.(c) gilt lim xe−x = 0, x→∞ und insbesondere existiert ein a ∈ R mit xe−x < ln(2)/2 für alle x ∈ R mit x > a. Für jedes x > a ist dann auch ex > 2x/ ln(2). Für jedes x ∈ R mit x > a/ ln(2) ist damit auch 2 ln(2)x 2x = eln(2)x > = 2x =⇒ 2x − x > x, ln(2) und §13.Lemma 2.(b) ergibt lim (2x − x) = ∞. x→∞ Es ist f (0) = 1 und wegen limx→±∞ f (x) = ∞ existiert ein a > 0 mit f (x) ≥ 2 für alle x ∈ R mit |x| > a. Damit folgt inf f (x) = x∈R inf f (x), x∈[−a,a] und auf das Intervall [−a, a] ist unsere obige Überlegung anwendbar. Für jedes x ∈ R gilt jetzt f 0 (x) = ln(2) · 2x − 1, also 1 . ln 2 Gleichungen der Form ax = b mit a, b > 0, a 6= 1 lassen sich leicht nach x auflösen, wir haben ! ax = eln(a)x = b ⇐⇒ ln(a)x = ln(b), f 0 (x) = 0 =⇒ 2x = d.h. die eindeutige Lösung ist x = lna b := ln b . ln a Damit haben wir 0 f (x) = 0 =⇒ x = ln2 1 ln 2 = ln 1 ln 2 ln 2 =− ln(ln 2) , ln 2 und somit hat f sein globales Minimum in x0 = − ln(ln 2)/ ln(2). Der Funktionswert in diesem Punkt ist 1 ln(ln 2) 1 + ln(ln 2) f (x0 ) = 2x0 − x0 = + = . ln 2 ln 2 ln 2 Insgesamt haben wir damit min(2x − x) = x∈R 1 + ln(ln 2) . ln 2 287 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Wir wollen jetzt die Theorie etwas fortsetzen und steuern als nächstes Ergebis den sogenannten Mittelwertsatz an. Bei diesem betrachten wir eine differenzierbare Funktion f : [a, b] → R und schauen uns die Steigung des Geradenstücks an, das die beiden Punkte (a, f (a)) und (b, f (b)) miteinander verbindet. Diese Strecke ist sozusagen eine Sekante a ξ b an den Graphen der Funktion f . Der Mittelwertsatz besagt das es zwischen a und b immer einen Punkt ξ gibt so, dass die Steigung der Tangente an den Graphen im Punkt (ξ, f (ξ)) gleich der Sekantensteigung zwischen a und b ist, oder geometrisch formuliert das es zwischen a und b eine zur gegebenen Sekante parallele Tangente an den Graphen gibt. Die Steigung der Tangente bei x = ξ ist dabei die Ableitung f 0 (ξ). Der Mittelwertsatz spielt eine recht kuriose Rolle. Für rechnerische Zwecke und die meisten Anwendungen der Differentialrechnung außerhalb der Mathematik spielt der Mittelwertsatz keinerlei Rolle. Für den Aufbau der Theorie ist der Mittelwertsatz dagegen das Herzstück von allen. Alle weiteren Ergebnisse bauen direkt oder indirekt auf ihm auf, der Mittelwertsatz ist der Dreh- und Angelpunkt aller weiteren Beweise. Um den Mittelwertsatz zu beweisen, behandelt man zuvor einen Spezialfall den sogenannten Satz von Rolle. Satz 14.9 (Satz von Rolle) Seien a, b ∈ R mit a < b und sei f : [a, b] → R eine stetige Funktion mit f (a) = f (b) die in (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit f 0 (ξ) = 0. Beweis: Ist f konstant so ist f 0 (ξ) = 0 für jedes ξ ∈ (a, b) und die Behauptung ist klar. Wir können also annehmen, dass f nicht konstant ist. Insbesondere kann nicht gleichzeitig f (a) ≥ f (x) für alle x ∈ [a, b] und f (a) ≤ f (x) für alle x ∈ [a, b] gelten, und wir nehmen zunächst an das es x ∈ [a, b] mit f (a) = f (b) < f (x) gibt. Nach §13.Satz 13 nimmt f in [a, b] sein Maximum an, es gibt also ein ξ ∈ [a, b] mit f (ξ) ≥ f (x) für alle x ∈ [a, b]. Nach unserer Annahme ist ξ 6= a, b, also ist sogar ξ ∈ (a, b). Dann ist ξ auch ein lokales Maximum von f . Da f in ξ differenzierbar ist, ergibt Satz 8 auch f 0 (ξ) = 0. Damit ist die Aussage bewiesen wenn f in a nicht sein Maximum annimmt. Im anderen Fall nimmt f in a nicht sein Minimum an, und wir können den obigen Beweis analog mit einem globalen Minimum ξ führen. Eigentlich hatten wir den Satz von Rolle schon implizit bei unseren Überlegungen zur Berechnung des globalen Maximums beziehungsweise Minimums erhalten. Aus dem Satz von Rolle wird jetzt der allgemeine Mittelwertsatz folgen. Der Beweis erfolgt im wesentlichen durch Neigen des Kopfes“, der Satz von Rolle deckt den Fall einer waa” gerechten Sekante ab, und der allgemeine Fall wird hierauf durch eine Scherung zurückgeführt. Bei dieser Gelegenheit wollen wir auch noch gleich eine leicht verallgemeinerte 288 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Form des Mittelwertsatzes formulieren und beweisen. Satz 14.10 (Mittelwertsatz) Seien a, b ∈ R mit a < b und seien f, g : [a, b] → R zwei stetige Funktion die in (a, b) differenzierbar sind. (a) Es existiert ein ξ ∈ (a, b) mit f 0 (ξ) = f (b) − f (a) . b−a (b) Es existiert ein ξ ∈ (a, b) mit f 0 (ξ) · (g(b) − g(a)) = g 0 (ξ) · (f (b) − f (a)). Beweis: (b) Nach §13.Satz 12.(a,b) und Satz 4.(a,b) ist die Funktion h : [a, b] → R; x 7→ f (x) · (g(b) − g(a)) − g(x) · (f (b) − f (a)) stetig und in (a, b) differenzierbar. Es gelten h(a) = f (a)(g(b) − g(a)) − g(a)(f (b) − f (a)) = f (a)g(b) − g(a)f (b), h(b) = f (b)(g(b) − g(a)) − g(b)(f (b) − f (a)) = g(b)f (a) − f (b)g(a), also ist h(a) = h(b) und nach dem Satz von Rolle Satz 9 existiert ein ξ ∈ (a, b) mit h0 (ξ) = 0. Mit Satz 4.(a,b) folgt f 0 (ξ) · (g(b) − g(a)) − g 0 (ξ) · (f (b) − f (a)) = h0 (ξ) = 0, und dies ergibt die Behauptung. (a) Das Polynom h(x) = x ist auf ganz R stetig und differenzierbar mit h0 (x) = 1 für alle x ∈ R. Nach (b) existiert also ein ξ ∈ (a, b) mit f 0 (ξ) · (b − a) = f 0 (ξ) · (h(b) − h(a)) = h0 (ξ) · (f (b) − f (a)) = f (b) − f (a), und hieraus folgt der Mittelwertsatz. Als eine erste Anwendung des Mittelwertsatzes wollen wir die Kennzeichnung monotoner Funktionen durch Ableitungen herleiten. Die vollständige Aussage ist etwas länglich da diverse Fälle zu unterscheiden sind. Da wir diesen Satz nicht nur auf Intervallen der Form [a, b] formulieren wollen, brauchen wir noch einen kleinen zusätzlichen Begriff. Ist I ⊆ R ein Intervall, so nennen wir die Menge I ◦ aller von den Randpunkten von I verschiedenen Elemente von I das Innere von I, d.h. für a, b ∈ R mit a < b sind [a, b]◦ = [a, b)◦ = (a, b]◦ = (a, b)◦ = (a, b) 289 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 und [a, ∞)◦ = (a, ∞)◦ = (a, ∞), (−∞, a]◦ = (−∞, a)◦ = (−∞, a) sowie {a}◦ = ∅◦ = ∅ und R◦ = R. Korollar 14.11 (Charakterisierung differenzierbarer monotoner Funktionen) Seien I ⊆ R ein Intervall und f : I → R eine stetige, in jedem Punkt von I ◦ differenzierbare Funktion. Dann gelten: (a) Gilt f 0 (x) ≥ 0 für alle x ∈ I ◦ , so ist f monoton steigend. (b) Gilt f 0 (x) ≤ 0 für alle x ∈ I ◦ , so ist f monoton fallend. (c) Ist f monoton steigend so gilt f 0 (x) ≥ 0 für alle x ∈ I ◦ . (d) Ist f monoton fallend so gilt f 0 (x) ≤ 0 für alle x ∈ I ◦ . (e) Gilt f 0 (x) > 0 für alle x ∈ I ◦ , so ist f streng monoton steigend. (f ) Gilt f 0 (x) < 0 für alle x ∈ I ◦ , so ist f streng monoton fallend. Beweis: (a) Seien x, y ∈ I mit x < y gegeben. Dann ist f in jedem Punkt von (x, y) ⊆ I ◦ differenzierbar, also existiert nach dem Mittelwertsatz Satz 10.(a) ein ξ ∈ (x, y) mit f (y) − f (x) = f 0 (ξ)(y − x) ≥ 0, also f (x) ≤ f (y). Damit ist f monoton steigend. (e) Gehen wir wie im Beweis von (a) vor, so haben wir diesmal f (y) − f (x) = f 0 (ξ)(y − x) > 0, also f (x) < f (y). Damit ist f streng monoton steigend. (c) Sei x ∈ I ◦ . Ist y ∈ I\{x}, so gilt im Fall y > x stets f (y) ≥ f (x) also (f (y) − f (x))/(y − x) ≥ 0 und im Fall y < x ist f (y) ≤ f (x) und wir haben ebenfalls (f (y) − f (x))/(y − x) ≥ 0. Nach §13.Lemma 2.(a) ist damit f (y) − f (x) ≥ 0. y→x y−x f 0 (x) = lim (b,d,f ) Analog zum monoton steigenden Fall. Man kann die Aussagen (e) und (f) des Korollars noch etwas verbessern, einzelne isolierte Nullstellen der Ableitung können auch noch erlaubt werden. Gibt es etwa x1 , . . . , xn ∈ I so, dass für alle x ∈ I ◦ \{x1 , . . . , xn } stets f 0 (x) > 0 ist, so ist f auch in diesem Fall streng monoton steigend. Diese Behauptung läßt sich leicht durch Betrachtung der Teilintervalle zwischen den Ausnahmepunkten auf (e) zurückführen. Noch allgemeiner reicht es f 0 (x) > 0 für alle x ∈ I ◦ \N zu fordern, wenn N ⊆ I ◦ eine 290 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Teilmenge ist, die keine Häufungspunkte in I ◦ hat. Dies nachzuweisen ist eine kleine Übungsaufgabe. Wir werden das eben bewiesene Korollar verwenden eine weitere Grundtatsache herzuleiten, die Kennzeichnung lokaler Maxima und Minima über die zweite Ableitung. Wir wissen bereits aus Satz 8 das die Ableitung einer differenzierbaren Funktion in einem lokalen Extremum stets Null ist, aber umgekehrt muss eine Nullstelle der Ableitung nicht unbedingt ein lokales Extremum sein. Ist die Funktion sogar zweimal differenzierbar, so werden wir zeigen das aus f 0 (x) = 0 und f 00 (x) 6= 0 folgt das die Funktion im Punkt x ein lokales Extremum hat. Etwas genauer liegt ein lokales Maximum vor wenn die zweite Ableitung in x negativ ist und ein lokales Minimum wenn sie positiv ist. Korollar 14.12 (Hinreichende Bedingung für lokale Extrema) Seien a, b ∈ R mit a < b und f : [a, b] → R sei in (a, b) differenzierbar. Weiter sei x ∈ (a, b) mit f 0 (x) = 0 und f sei in x zweifach differenzierbar mit f 00 (x) 6= 0. Dann hat f in x ein lokales Extremum. Genauer hat f in x ein lokales Minimum wenn f 00 (x) > 0 ist und ein lokales Maximum wenn f 00 (x) < 0 ist. Beweis: Wir betrachten den Fall f 00 (x) > 0, der Beweis des anderen Falls ist dann analog. Nach Lemma 2 existiert eine in x stetige Funktion φ : [a, b] → R mit f 0 (y) = f 0 (x) + (y − x)φ(y) = (y − x)φ(y) für alle y ∈ [a, b], und es ist φ(x) = f 00 (x) > 0. Nach §13.Lemma 7 existiert ein > 0 mit [x − , x + ] ⊆ (a, b) und |φ(y) − f 00 (x)| < f 00 (x)/2 für alle y ∈ [a, b] mit |y − x| < . Für jedes y ∈ [a, b] mit |y − x| < ist damit φ(y) = f 00 (x) + φ(y) − f 00 (x) ≥ f 00 (x) − |φ(y) − f 00 (x)| > f 00 (x) > 0, 2 und folglich ist auch sign(f 0 (y)) = sign(y − x). Für jedes y ∈ (x − , x) ist damit f 0 (y) < 0 und für y ∈ (x, x + ) haben wir f 0 (y) > 0. Nach Korollar 11.(e,f) sind f |[x − , x] streng monoton fallend und f |[x, x + ] streng monoton steigend. Ist also y ∈ [a, b] mit |y − x| < , so ist im Fall y ≤ x stets f (y) ≥ f (x) und im Fall y ≥ x haben wir ebenfalls f (x) ≤ f (y). Dies zeigt, dass f in x ein lokales Minimum hat. Man sollte die praktische Bedeutung dieses Korollars nicht überschätzen. Welche der Nullstellen von f 0 lokale Maxima beziehungsweise lokale Minima sind, ist in den meisten Fällen sowieso klar. Ist beispielsweise x1 kleinste Nullstelle von f 0 und limx→−∞ f (x) = +∞, so kann f in x1 nur ein lokales Minimum oder gar kein lokales Extremum haben. Kennen wir dann auch die zweitkleinste Nullstelle x2 von f 0 , so müssen wir nur die Werte f (x1 ) und f (x2 ) vergleichen. Ist f (x2 ) < f (x1 ), so hatte f in x1 kein lokales Extremum, und in x2 ist entweder auch kein lokales Extremum oder ein lokales Minimum. Ist dagegen f (x2 ) > f (x1 ), so hatte f in x1 ein lokales Minimum und in x2 ist entweder ein lokales Maximum oder gar kein lokales Extremum. Mit Überlegungen 291 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 dieser Art lassen sich die meisten in Aufgaben vorkommenden Funktionen behandeln, d.h. man kommt in der Regel alleine mit dem Vergleichen von Funktionswerten durch und benötigt keine zweite Ableitung. Sucht man nach den globalen Minima und Maxima, so ist es wie bereits früher bemerkt völlig egal welche der Nullstellen von f 0 lokale Extrema sind. Zusammengefasst stellt man sich meistens ungeschickt an, wenn man sich beim Berechnen der zweiten Ableitung ertappt. 14.4 Die Regel von Hospital Die sogenannten Hospitalschen Regeln sind Formeln zur Berechnung von Funktionsgrenzwerten unter Verwendung gewisser Ableitungen. Diese gehen ursprünglich auf einen Brief von Hospital an Johann Bernoulli aus dem Jahr 1693 zurück, dort fragt Hospital nach einer Berechnung des Grenzwerts √ √ 3 2a3 x − x4 − a a2 x √ lim 4 x→a a − ax3 für reelles a > 0. In seiner Antwort entwickelt Bernoulli die Hospitalschen Regeln, die dann später von Hospital in ein Lehrbuch zur Analysis aufgenommen wurden. Es handelt sich eigentlich um zwei verschiedene Regeln, einmal für Grenzwerte der Form 0/0“, und ein anderes Mal für Grenzwerte der Form ∞/∞“. In obigen Problem ” ” können wir die Grenzwerte von Zähler und Nenner leicht berechnen √ √ √ 3 4 lim 2a3 x − x4 − a a2 x = a2 − a2 = 0 und lim a − a3 x = a − a = 0, x→a x→a da wir bereits die Stetigkeit von Wurzelfunktionen bewiesen haben, und damit liegt ein 0/0“-Problem vor. ” Am häufigsten angewandt wird ein trivialer Spezialfall der Hospitalschen Regeln, mit dem wir hier auch beginnen wollen. Wir wollen den schon in §6 diskutierten Grenzwert limn→∞ (1 + 1/n)n berechnen. Hierzu bestimmen wir zunächst den Grenzwert des Logarithmus dieses Terms n ln 1 + n1 − ln(1) 1 1 lim ln 1 + = lim n ln 1 + = lim 1 n→∞ n→∞ n→∞ n n n ln(1 + h) − ln(1) = lim =1 h→0 h da es sich um einen Differenzenquotienten der Ableitung des Logarithmus in 1 handelt. Mit der Stetigkeit der Exponentialfunktion folgt weiter n n 1 1 lim 1 + = exp lim ln 1 + = exp(1) = e. n→∞ n→∞ n n Die eigentliche Grundidee der Hospitalschen Regel haben wir damit schon gesehen, der Grenzwert wurde berechnet, indem wir ihn als Grenzwert eines Differenzenquotienten 292 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 interpretiert haben. Etwas allgemeiner kann man die folgende Situation betrachten. Gegeben seien zwei auf dem Intervall I definierte, differenzierbare Funktionen f, g : I → R, und wir haben einen Punkt a ∈ I mit f (a) = g(a) = 0 und g 0 (a) 6= 0. Dann berechnen wir den Grenzwert limx→a f (x)/g(x) indem wir ihn als einen Quotienten zweier Differenzenquotienten auffassen h i (a) f (x)−f (a) lim f (x)−f x−a x−a f 0 (a) f (x) x→a i = = lim = lim h . x→a g(x) x→a g(x)−g(a) g 0 (a) lim g(x)−g(a) x−a x→a x−a Wie man sieht ist dies eigentlich keine neue Aussage, sondern nur die Definition der Ableitung. Ein beliebtes, wenn auch eigentlich ziemlich unsinniges, Beispiel ist der Grenzwert sin x lim = 1. x→0 x Die Rechnung über die Hospitalsche Regel wäre sin x sin0 x lim = lim = cos 0 = 1. x→0 x x→0 1 Einfacher kann man auch sagen, dass dieser Grenzwert gerade der Grenzwert des Differenzenquotienten für sin x bei 0 ist, also gleich sin0 0 = cos 0 = 1 sein muss. Die nicht triviale Hospitalsche Regel wird erstaunlich selten wirklich benötigt, in dieser wird auch noch der Fall erfasst das die Ableitungen von Zähler und Nenner in a gar nicht existieren sowie die Situation von Grenzwerten der Form ∞/∞“. In der Vorlesung ” hatten wir uns auf den Beweis des einfacheren Falles 0/0“ beschränkt, hier soll aber ” der volle Satz bewiesen werden. Satz 14.13 (Die Hospitalschen Regeln) Seien a, b ∈ R mit a < b und seien f, g : (a, b) → R zwei differenzierbare Funktionen mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ (a, b). Weiter nehme an, dass in R die beiden Grenzwerte lim f (x) und lim g(x) existieren und das x→a x→a lim f (x) = lim g(x) = 0 oder lim f (x), lim g(x) ∈ {−∞, +∞} x→a x→a x→a x→a gelten. Existiert dann der Grenzwert limx→a f 0 (x)/g 0 (x) in R, so ist auch f (x) f 0 (x) = lim 0 . x→a g(x) x→a g (x) lim Beweis: Wir schreiben c := limx→a f 0 (x)/g 0 (x) ∈ R. Zunächst sei limx→a f (x) = limx→a g(x) = 0. Durch f (a) := 0 und g(a) := 0 können wir f und g zu, der Einfachheit halber wieder mit f und g bezeichneten, stetigen Funktionen auf [a, b) fortsetzen. Sei 293 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 (xn )n∈N eine Folge in (a, b) mit (xn )n∈N −→ a. Sei n ∈ N. Nach Satz 10.(b) existiert ein ξn ∈ (a, xn ) mit f 0 (ξn ) · g(xn ) = f 0 (ξn ) · (g(xn ) − g(a)) = g 0 (ξn ) · (f (xn ) − f (a)) = g 0 (ξn ) · f (xn ), also ist wegen g(xn ) 6= 0 und g 0 (ξn ) 6= 0 auch f (xn ) f 0 (ξn ) . = 0 g(xn ) g (ξn ) Wegen a < ξn < xn für alle n ∈ N gilt nach dem Einschnürungslemma §6.Lemma 5.(b) auch (ξn )n∈N −→ a. Es folgt f 0 (ξn ) f 0 (x) f (xn ) = lim 0 = lim 0 = c. n→∞ g (ξn ) x→a g (x) n→∞ g(xn ) lim Dies zeigt limx→a f (x)/g(x) = c, und die Aussage ist in diesem Fall bewiesen. Nun kommen wir zum Fall limx→a f (x), limx→a g(x) ∈ {−∞, +∞}. Durch eventuellen Übergang von f zu −f beziehungsweise von g zu −g können wir limx→∞ f (x) = limx→∞ g(x) = ∞ annehmen. Sei (xn )n∈N wieder eine gegen a konvergente Folge in (a, b). Dann ist limn→∞ f (xn ) = limn→∞ g(xn ) = ∞. Wir behaupten zunächst, dass es ein n0 ∈ N und eine gegen a konvergente Folge (bn )n≥n0 mit bn > xn und f (xn ) > f (bn ) > 0, g(xn ) > g(bn ) > 0 für alle n ≥ n0 und lim n→∞ f (bn ) g(bn ) = lim =0 n→∞ f (xn ) g(xn ) gibt. Zunächst wähle ein m0 ∈ N mit f (xn ), g(xn ) > 0 für alle n ≥ m0 . Nun sei k ≥ 1 und mk−1 ∈ N sei schon gewählt. Dann existiert ein mk ∈ N mit mk > mk−1 , xn < xmk−1 für alle n ≥ mk und f (xn ) > kf (xmk−1 ), g(xn ) > kg(xmk−1 ) für alle n ≥ mk . Damit haben wir induktiv eine streng monoton steigende Folge (mk )k∈N in N definiert. Setze n0 := m1 ∈ N und definiere die Folge (bn )n≥n0 wie folgt: Ist n ∈ N mit n ≥ n0 = m1 , so existiert ein k ≥ 1 mit mk ≤ n < mk+1 und wir setzen bn := xmk−1 ∈ (a, b). Wir zeigen nun, dass diese Folge alle verlangten Eigenschaften hat. Sei n ∈ N mit n ≥ n0 und sei k ≥ 1 mit mk ≤ n < mk+1 . Wegen n ≥ mk > mk−1 ≥ m0 sind f (xn ) > kf (xmk−1 ) ≥ f (xmk−1 ) = f (bn ) > 0 und g(xn ) > kg(xmk−1 ) ≥ g(xmk−1 ) = g(bn ) > 0. Außerdem ist xn < xmk−1 = bn . Wir kommen nun zu den Konvergenzbehauptungen, zunächst zeigen wir das die Folge (bn )n≥n0 gegen a konvergiert. Sei > 0. Dann existiert ein n1 ∈ N mit a < xn < a + für alle n ≥ n1 . Sei nun n ∈ N mit n ≥ mn1 +1 . Dann existiert ein k ≥ n1 + 1 mit mk ≤ n < mk+1 und wegen mk−1 ≥ mn1 ≥ n1 ist |bn − a| = |xmk−1 − a| < . Damit haben wir (bn )n≥n0 −→ a eingesehen. Es verbleiben nur noch die beiden Aussagen über die Quotientenfolgen. Sei wieder ein > 0 gegeben. Dann existiert ein k0 ≥ 1 mit 1/k0 < . Sei n ∈ N mit n ≥ mk0 . Dann existiert ein k ≥ k0 mit mk ≤ n < mk+1 und wegen f (xn ) > kf (xmk−1 ) = kf (bn ), g(xn ) > kg(xmk−1 ) = kg(bn ) und wegen f (xn ), g(xn ), f (bn ), g(bn ) > 0 folgen auch 0< f (bn ) 1 1 g(bn ) 1 1 < ≤ < und 0 < < ≤ < , f (xn ) k k0 g(xn ) k k0 294 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 also sind auch diese Konvergenzaussagen bewiesen. Damit haben wir diese Zwischenbehauptung eingesehen, und kommen zur eigentlichen Aussage. Nach Satz 10.(b) existiert für jedes n ≥ n0 ein ξn ∈ (xn , bn ) mit f 0 (ξn ) · (g(xn ) − g(bn )) = g 0 (ξn ) · (f (xn ) − f (bn )) Wegen g(xn ) − g(bn ) > 0 und g 0 (ξn ) 6= 0 ist damit f (xn ) − f (bn ) f 0 (ξn ) = 0 . g(xn ) − g(bn ) g (ξn ) Für jedes n ≥ n0 ist wegen f (xn ) > f (bn ) > 0 f (xn ) f (xn ) − f (bn ) f (xn ) g(xn ) − g(bn ) = · · g(xn ) g(xn ) − g(bn ) f (xn ) − f (bn ) g(xn ) f 0 (ξn ) 1 g(bn ) · · 1− = 0 . g (ξn ) 1 − f (bn ) g(xn ) f (xn ) Wegen xn < ξn < bn für alle n ≥ n0 gilt nach dem Einschnürungslemma §6.Lemma 5.(b) auch (ξn )n≥n0 −→ a. Mit den Grenzwertsätzen für Folgen §6.Satz 6 folgt f (xn ) f 0 (ξn ) g(bn ) 1 f 0 (x) lim = lim 0 · 1 − lim = c. · = lim n→∞ g(xn ) n→∞ g (ξn ) n→∞ g(xn ) x→a g 0 (x) 1 − lim f (bn ) n→∞ f (xn ) Dies zeigt limx→a f (x)/g(x) = c, und die Aussage ist auch in diesem Fall bewiesen. Wir haben die Regel hier nur für rechtsseitige Grenzwerte x → a von auf (a, b) definierten Funktionen formuliert, analog gilt dies dann natürlich auch für linksseitige Grenzwerte x → b, und auch für beidseitige Grenzwerte x → c mit c ∈ (a, b). Für letzteres müssen wir uns nur auf §13.Lemma 4 berufen. Im ursprünglichen Anwendungsfall haben wir √ d √ 3 a3 − 2x3 a3 3 ( 2a x − x4 − a a2 x) = √ − √ , dx 2a3 x − x4 3 3 a4 x2 √ d 3ax2 4 (a − ax3 ) = − √ 4 dx 4 a3 x 9 Für x → a konvergieren die Ableitung des Zählers gegen −a − a/3 = −4a/3 und die Ableitung des Nenners gegen −3/4, nach der Hospitalschen Regel gilt also √ √ 3 − 43 a 16 2a3 x − x4 − a a2 x √ = a. lim 3 = 4 3 x→a 9 −4 a − ax Wir wollen noch ein zweites Beispiel rechnen in dem Satz 13 gleich doppelt angewandt wird 1 1 − cos x sin x 1 x − sin x lim − = lim = lim = lim = 0. x→0 x→0 x sin x x→0 sin x + x cos x x→0 2 cos x − x sin x sin x x 295 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Streng genommen, ist diese Rechnung so falsch, da wir mit einem Grenzwert beginnen von dem wir noch nicht wissen das er überhaupt existiert. Dies ist allerdings so verbreitet das wir uns dieser Unsitte hier anschließen wollen, man muss sich immer nur dazudenken das diese Gleichungskette eigentlich von rechts nach links zu lesen ist. Wir wollen auch noch ein Beispiel für die ∞/∞“ Situation rechnen ” ln x x−1 = lim = lim (−x) = 0. x→0 x−1 x→0 −x−2 x→0 lim x ln x = lim x→0 Als nächste Aufgabe wollen wir die Hospitalsche Regel auch auf Grenzwerte x → ∞ ausdehnen. Zu diesem Zweck führen wir derartige Grenzwerte auf den schon behandelten Grenzwerttyp zurück, indem x durch 1/x ersetzt wird. Hierfür benötigen wir ein kleines Lemma, das derartige Umparametrisierungen von Grenzwerten untersucht. Dabei sind wir nicht an die Substitution von 1/x gebunden, sondern können je nach den aktuellen Erfordernissen auch andere Funktionen h(x) substituieren. Eine analoge Aussage gilt natürlich auch für Grenzwerte gegen −∞. Lemma 14.14 (Umparametrisierung von Funktionsgrenzwerten in ∞) Seien a, b, c ∈ R mit a < b und weiter sei h : (a, b] → R eine stetige Funktion mit limx→a h(x) = +∞ und h(x) > c für alle x ∈ (a, b]. Weiter seien f : (c, ∞) → R eine Funktion und m ∈ R. Dann gilt lim f (x) = m ⇐⇒ lim f (h(x)) = m. x→∞ x→a Beweis: ”=⇒” Sei (xn )n∈N eine gegen a konvergente Folge in (a, b]. Dann ist lim h(xn ) = lim h(x) = +∞, n→∞ x→a also auch lim f (h(xn )) = lim f (x) = m. n→∞ x→∞ ”⇐=” Wegen limx→a h(x) = +∞ und da das Bild h((a, b]) ⊆ R nach §13.Lemma 15.(a) ein Intervall ist, gilt [h(b), ∞) ⊆ h((a, b]). Sei jetzt (xn )n∈N eine Folge in (c, ∞) mit (xn )n∈N −→ +∞. Dann existiert ein n0 ∈ N mit xn > h(b) für alle n ∈ N mit n ≥ n0 , d.h. für jedes n ≥ n0 existiert ein tn ∈ (a, b] mit xn = h(tn ). Wir behaupten, dass die Folge (tn )n≥n0 gegen a konvergiert. Angenommen (tn )n≥n0 konvergiert nicht gegen a. Nach §6.Lemma 1.(c) existieren ein > 0 und eine Teilfolge (tnk )k∈N von (tn )n≥n0 mit |tnk − a| ≥ für alle k ∈ N. Für alle k ∈ N ist dann a + ≤ tnk ≤ b, und nach dem Satz von Heine Borel §6.Satz 11 existiert eine konvergente Teilfolge (tnkl )l∈N von (tnk )k∈N . Für den Grenzwert t dieser Teilfolge gilt dann nach §6.Lemma 5.(a) auch a + ≤ t ≤ b, und die Stetigkeit von h liefert den Widerspruch h(t) = lim h(tnkl ) = lim xnkl = lim xn = +∞. l→∞ l→∞ 296 n→∞ Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Dies zeigt (tn )n≥n0 −→ a, und somit gilt auch lim f (xn ) = lim f (h(tn )) = lim f (h(x)) = m. n→∞ n→∞ x→a Damit ist dieses Lemma bewiesen. Ausgerüstet mit diesem Lemma ist es leicht, die Hospitalsche Regel auch für Grenzwerte x → ±∞ zu beweisen. Wir formulieren und beweisen den folgenden Satz nur für Grenzwerte gegen +∞, aber für Grenzwerte gegen −∞ gilt natürlich die analoge Aussage. Satz 14.15 (Regel von Hospital für x → ∞) Sei a ∈ R und seien f, g : [a, ∞) → R zwei differenzierbare Funktionen mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ [a, ∞). Weiter nehme an, dass in R die beiden Grenzwerte lim f (x) und lim g(x) existieren und das x→∞ x→∞ lim f (x) = lim g(x) = 0 oder lim f (x), lim g(x) ∈ {−∞, +∞} x→∞ x→∞ x→∞ x→∞ gelten. Existiert dann der Grenzwert limx→∞ f 0 (x)/g 0 (x) in R, so ist auch f 0 (x) f (x) = lim 0 . x→∞ g (x) x→∞ g(x) lim Beweis: Durch eventuelles Vergrößern von a können wir a > 0 annehmen. Die Funktion 1 1 h : 0, → [a, ∞); x 7→ a x ist differenzierbar mit limx→0 h(x) = +∞, und wir betrachten die beiden differenzierbaren Funktionen F := f ◦h : (0, 1/a] → R und G := g ◦h : (0, 1/a] → R. Nach Lemma 14 gelten limx→0 F (x) = limx→∞ f (x) und limx→0 G(x) = limx→∞ g(x). Weiter ist für alle x ∈ (0, 1/a) nach der Kettenregel Satz 4.(e) auch 1 0 1 1 0 1 0 0 F (x) = − 2 f und G (x) = − 2 g x x x x also insbesondere G(x) 6= 0 und G0 (x) 6= 0 für alle x ∈ (0, 1/a). Wieder nach Lemma 14 ist auch f 0 x1 − x12 f 0 x1 f 0 (x) F 0 (x) m := lim 0 = lim 0 1 = lim 1 0 1 = lim 0 , x→∞ g (x) x→0 g x→0 − 2 g x→0 G (x) x x x und nach Satz 13 ist damit auch F (x) = m. x→0 G(x) lim 297 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Eine erneute Anwendung von Lemma 14 liefert damit auch f (x) F (x) = lim = m. x→∞ g(x) x→0 G(x) lim Auch hierfür wollen wir ein kleines, in der Vorlesung leider weggelassenes Beispiel besprechen. Sei a ∈ R mit a > 0. Dann haben wir 1 ln x 1 x = lim = lim = 0. a a−1 x→∞ x x→∞ ax x→∞ axa lim Die Voraussetzungen g(x) 6= 0, g 0 (x) 6= 0 in den Hospitalschen Regeln sind tatsächlich wichtig. Dies wurde in der Vorlesung nur mündlich erwähnt, hier wollen auch ein Beispiel angeben. Nehmen wir etwa die Funktionen f (x) = x + cos(x) sin(x), g(x) = esin x f (x), so ist limx→∞ f (x) = limx→∞ g(x) = +∞, jeweils da Sinus und Cosinus nur Werte zwischen −1 und 1 annehmen, und der Grenzwert von f (x)/g(x) = e− sin x für x → ∞ existiert nicht. Dagegen haben wir f 0 (x) = 1 + cos2 x − sin2 x = 2 cos2 x und g 0 (x) = cos(x)esin x f (x) + esin x f 0 (x) = esin x (x cos x + sin(x) cos2 x + 2 cos2 x) = esin x cos(x) · (x + sin(x) cos(x) + 2 cos x), also ist 14.5 2 cos x 1 f 0 (x) lim = lim · = 0. x→∞ g 0 (x) x→∞ esin x x + sin(x) cos(x) + 2 cos x Die Taylor Entwicklung Wir kommen nun zum allerletzten Thema dieser Vorlesung, der sogenannten Taylor Entwicklung einer Funktion. Hierzu ist es sinnvoll sich zunächst an die Approximationsinterpretation der Ableitung zu erinnern. Bei dieser schrieben wir bei einem gegebenen Punkt x0 f (x0 + h) = f (x0 ) + f 0 (x0 )h + fehler(h), wobei der Fehler mit limh→0 fehler(h)/h = 0 klein wurde. Diese Formel können wir in der Form f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + fehler(x − x0 ) 298 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 umschreiben. Dies ist eine Approximation von f durch eine lineare Funktion, also durch ein Polynom von Grad 1. Die Taylor Approximation ist nun die Approximation von f durch Polynome höheren Grades. Definition 14.4 (Das n-te Taylorpolynom) Seien I ⊆ R ein Intervall, n ∈ N, x0 ∈ I und f : I → R eine n-fach differenzierbare Funktion. Das n-te Taylorpolynom von f im Entwicklungspunkt x0 ist dann das Polynom n X f (k) (x0 ) (x − x0 )k . Tn,x0 (x) := k! k=0 Das Taylorpolynom Tn,x0 ist nicht so willkürlich wie es zunächst ausschaut, es handelt sich genau um dasjenige Polynom von Grad höchstens n, dessen Funktionswert und erste n Ableitungen im Punkt x0 mit denjenigen von f übereinstimmen. Zur Berechnung des Taylorpolynoms reicht es aus Ableitungen berechnen zu können, es stellt sich also kein neues rechnerisches Problem. Wir wollen uns einige einfache Beispiele von Taylorpolynomen anschauen. 1. Zunächst betrachten wir die Sinusfunktion f (x) = sin x. Dann sind f 0 (x) = cos x, f 00 (x) = − sin x, f 000 (x) = − cos x und f 0000 (x) = sin x, die ersten vier Taylorpolynome zum Entwicklungspunkt Null sind also T1 (x) = T2 (x) = x, T3 (x) = T4 (x) = x − x3 . 6 Verwenden wir dagegen x = π/2 als Entwicklungspunkt, so ergeben sich die Taylorpolynome 1 π 2 T1 (x) = 1, T2 (x) = T3 (x) = 1 − x− 2 2 und T4 (x) = 1 − 1 π 2 1 π 4 x− + x− . 2 2 24 2 2. Nun sei f (x) = ex . Dann ist auch f (k) (x) = ex für jedes k ∈ N,P also ist das n-te Taylorpolynom zum Entwicklungspunkt x0 = 0 gleich Tn (x) = nk=0 xk /k!. 3. Als drittes Beispiel behandeln wir ein etwas unangenehmeres Beispiel, die Funktion sin x . f (x) = 1 + x2 Die ersten Ableitungen dieser Funktion sind (1 + x2 ) cos x − 2x sin x , (1 + x2 )2 (x4 − 4x2 + 3) sin x + 4x(x2 + 1) cos x f 00 (x) = − . (1 + x2 )3 f 0 (x) = 299 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Damit haben wir f (0) = 0, f 0 (0) = 1 und f 00 (0) = 0, das quadratische Taylorpolynom ist also T2 (x) = x. In diesen Beispielen sieht man auch, dass es durchaus passieren kann, dass der Grad des n-ten Taylorpolynoms echt kleiner als n ist. Ist der Entwicklungspunkt beispielsweise ein Wendepunkt, also f 00 (x0 ) = 0, so stimmen lineares und quadratisches Taylorpolynom überein. Dies passiert etwa für f (x) = sin x beim Entwicklungspunkt x0 = 0. Das so entstehende quadratische Taylorpolynom T2 (x) = x ist dann die sogenannte Sinus” Approximation für kleine Auslenkungen“. Wir wollen jetzt quantitativ möglichst genau wissen, wie gut die Approximation einer Funktion durch ihr Taylorpolynom ist, also wie gross der Näherungsfehler f (x) − Tn (x) sein kann. Der nächste Satz gibt uns eine Formel für diesen Fehler, wir müssen aber noch kurz die verwendete Terminologie einführen. Sind a, b ∈ R so sagen wir das ein ξ ∈ R zwischen a und b liegt wenn a = b = ξ, a < ξ < b oder b < ξ < a gilt. Satz 14.16 (Taylorpolynom mit Lagrangeschen Fehlerterm) Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N, f : I → R eine (n + 1)-fach differenzierbare Funktion und bezeichne Tn das n-te Taylorpolynom von f zum Entwicklungspunkt x0 . Dann gibt es für jedes x ∈ I ein ξ ∈ I zwischen x0 und x mit n f (x) = Tn (x) + X f (k) (x0 ) f (n+1) (ξ) f (n+1) (ξ) (x − x0 )n+1 = + (x − x0 )n+1 . (n + 1)! k! (n + 1)! k=0 Beweis: Sei x ∈ I. Im Fall x = x0 ist die Aussage klar, wir können also x 6= x0 annehmen. Wir setzen f (x) − Tn (x) m := (n + 1)! (x − x0 )n+1 und definieren die Hilfsfunktion g : I → R; t 7→ n X f (k) (t) k=0 k! (x − t)k + m (x − t)n+1 . (n + 1)! Dann ist g differenzierbar mit g(x) = f (x) und g(x0 ) = n X f (k) (x0 ) k=0 k! (x−x0 )k +m (x − x0 )n+1 f (x) − Tn (x) = Tn (x)+ (x−x0 )n+1 = f (x), (n + 1)! (x − x0 )n+1 300 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 d.h. wir haben g(x) = g(x0 ). Nach dem Satz von Rolle Satz 9 existiert ein ξ zwischen x und x0 mit g 0 (ξ) = 0. Für jedes t ∈ I ist n (k+1) X f (t) f (k) (t) (x − t)n k k−1 0 0 (x − t) − (x − t) −m g (t) = f (t) + k! (k − 1)! n! k=1 0 = f (t) + n X f (k+1) (t) k=1 k! k (x − t) − n−1 (k+1) X f (t) k=0 k! (x − t)k − m (x − t)n n! f (n+1) (t) (x − t)n (x − t)n − m n! n! n f (n+1) (t) (x − t) = (x − t)n − m , n! n! = f 0 (t) − f 0 (t) + also haben wir f (n+1) (ξ) (x − ξ)n (x − ξ)n − m = g 0 (ξ) = 0, n! n! und damit ist auch m = f (n+1) (ξ). Es folgt f (x) − Tn (x) = f (n+1) (ξ) (x − x0 )n+1 , (n + 1)! und der Satz ist bewiesen. Der Approximationsfehler ist also gleich Approximationsfehler = f (n+1) (ξ) (x − x0 )n+1 (n + 1)! für eine geeignete Zwischenstelle ξ, was zunächst nicht sehr hilfreich aussieht. Glücklicherweise täuscht dieser Eindruck, man kann den Satz meistens recht explizit auswerten. Angenommen wir interessieren uns für Argumente x aus dem Intervall [x0 −a, x0 +a] mit a > 0. Ist dann M := sup |f (n+1) (x)|, x∈[x0 −a,x0 +a] der größte Wert den die (n + 1)-Ableitung überhaupt annehmen kann, so können wir den Fehler für x ∈ R mit |x − x0 | ≤ a durch (n+1) f |f (n+1) (ξ)| (ξ) M n+1 n+1 (x − x ) ≤ |x − x0 |n+1 0 (n + 1)! = (n + 1)! |x − x0 | (n + 1)! abschätzen. Schauen wir uns beispielsweise einmal das quadratische Taylorpolynom T2 (x) = x für f (x) = sin x an. Die dritte Ableitung ist f 000 (x) = − cos x, also wird die Taylorformel zu cos ξ 3 sin x − x = − x 6 301 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 für ein ξ zwischen 0 und x. Wegen | cos ξ| ≤ 1 für überhaupt jedes ξ ∈ R folgt 1 | sin x − x| ≤ |x|3 6 für alle x ∈ R. Die Näherung ist nur in der Nähe des Entwicklungspunktes x0 = 0 sinnvoll, wir interessieren uns also für kleine x, und dann wird x3 sogar noch viel kleiner. Merkwürdigerweise gibt uns die Taylorformel auch eine untere Schranke für den Fehler. √ Beschränken wir uns auf |x| ≤ π/4, so ist auch |ξ| ≤ π/4 und somit cos ξ ≥ 2/2, für 0 < x < π/4 gilt also √ 2 3 1 x < x − sin x < x3 . 12 6 Als ein weiteres Beispiel betrachten wir f (x) = √ 1+x für |x| < 1. Es sind 1 1 3 , f 000 (x) = , , f 00 (x) = − f 0 (x) = √ 3/2 4(1 + x) 8(1 + x)5/2 2 1+x also f (0) = 1, f 0 (0) = 1/2 und f 00 (0) = −1/4. Das quadratische Taylorpolynom ist T2 (x) = 1 + x x2 − . 2 8 Dies ist eine klassische Approximation der Quadratwurzel, die bereits von Newton verwendet wurde. Die dritte Ableitung f 000 ist positiv und monoton fallend. Für x > 0 ergibt sich damit √ x3 | 1 + x − T2 (x)| ≤ 16 und für 0 < x < 0.1 ist der Approximationsfehler höchstens 0.0000625. Für −0.1 < x < 0 haben wir dagegen f 000 (−0.1)/6 = 0.0813.. < 0.0814, also √ | 1 + x − T2 (x)| < 0.0814 · |x|3 < 0.0000813... < 0.0000814. Wir wollen noch eine Anmerkung zur Wahl der Ordnung n der Taylor-Approximation machen. Auf der einen Seite wird die Approximation in der Regel besser wenn n größer wird, man will n also eher groß wählen. Auf der anderen Seite ist es der Sinn einer Approximation die gegebene Funktion f durch etwas einfacheres zu ersetzen. Ein Polynom ist umso einfacher je kleiner sein Grad ist, man möchte n also eigentlich auch möglichst klein wählen. Was der ideale Kompromiss zwischen diesen beiden Forderungen ist, hängt natürlich immer an der speziellen Situation. Sehr oft stellt sich die quadratische Taylor Approximation, also n = 2, als die geeigneteste Wahl von n heraus. 302 Index A−1 , 152 A−t , 153 At , 149 \, 6 |x|, 43, 60, 220 |M|, 162 n , 51 k ∩, 6 ◦, 26 ∈, 1 >, 41 <, 41 ∅, 5 ∈, / 1 ez , 265 ≥, 41 b, siehe Auslassungssymbol =⇒, 11 IdM , 34 ∞, 49 ', 204 z, 60 ≤, 40 7→, 25 (−1)π , 163 M 0 , 231 ¬, 10 ||x||, 220 ⊥, 220 Π, siehe Produktzeichen ∀, 13 ∃, 13 Sn , 160 h. . .i, 185 Σ, siehe Summenzeichen ⊆, 4 (, 4 ×, 23, 225 6⊆, 4 ∪, 6 ∨, 11 ∧, 10 √ n a, 54 Abbildung, siehe Funktion linear, siehe Lineare Abbildung Ableitung, 75–76, 272–274, 284 höhere, 284 n-te, 284 Ableitungsregeln, 276–277 Absolut konvergent, siehe Reihe, absolut konvergent Addition von Matrizen, 145 von Vektoren, 145 Additionstheoreme, 62, 69, 268–269 Adjunkte, 177 Adjunkte Matrix, 174 affiner Teilraum, 209–213, 224 Allaussage, 13 Allquantor, 13 Änderungsrate, 75 Anordnung, siehe Ordnung Antisymmetrie, 40 Approximation, 298, 300 linear, 273–274 Approximationsfehler, 301 Archimedische Eigenschaft, 49, 79, 82, 86, 92 Arcus Cosinus, 281 Sinus, 281 Tangens, 281 Arcusfunktionen, siehe Funktion, arcus Area Cosinus Hyperbolicus, 282 Sinus Hyperbolicus, 282 303 Mathematik für Physiker I, WS 2010/2011 Tangens Hyperbolicus, 282 Areafunktionen, siehe Funktion, area arg z, 64 Argument, 64, 66, 67 Hauptwert, 64, 65 Hauptzweig, 64 Assoziativgesetz, 160 der Addition, 37, 145, 180 der Hintereinanderausführung, 27 der Multiplikation, 38, 145, 147, 181 Aufpunkt, 135, 209–210 Aufspann, 184–186, 216, 217 Auslassungssymbol, 194 Aussage, 10 Austauschlemma, 196 Axiome, 36–37 der reellen Zahlen, 37–38, 40, 42, 48 einer Anordnung, 40 einer Gruppe, 160 eines angeordneten Körpers, 42, 59, 79 eines Körpers, 37–38, 59 eines Vektorraums, 180–181 Montag 7.2.2011 Cm×n , 144 Cantor, 1 Caratheodory, 275 Cardano Formel, 56–58, 70 Cartesisches Produkt, 23 Cauchy Kriterium für Folgen, 105 für Reihen, 115, 131 Cauchyfolge, 102–106 Cauchyprodukt, 130, 131, 133 C− , 64 Cn , 144, 181 Cosinus, 268 Hyperbolicus, 267 Cotangens, 268 Hyperbolicus, 267 Cramersche Regel, 177–180 De Morgansche Regeln für Aussagen, 11 für Mengen, 9 Definitionsbereich, 22, 25 Determinante, 158, 159, 164–165, 167, 173, Basis, 194–199, 201, 205, 207, 219 223, 224, 227, 228 negativ, 224 Differenzenquotient, 272, 274, 292, 293 positiv, 224–228 Differenzierbarkeit, siehe Funktion, diffeBernoulli Ungleichung, 53, 74 renzierbar beschränkt, 45, 46, 66–67, 72, 231–232, 253 Differenzmenge, 6, 15 nach oben, 45, 73 Dimension, 24, 197–198, 203, 205, 207, 208, nach unten, 45, 73 210, 212, 216, 217, 219 Beschränktheitssatz, 253 Dimensionsformel, 207, 210, 211 bestimmt divergent, 93 Disjunktion, 11 Betrag, 43–44, 46, 60–61, 63, 80, 283 Distributivgesetz, 38, 146, 148, 181 Beweis divergent, 80, 90, 107, 125, 128, 133, 232, direkt, 16–17 259 indirekt, 17–18, 49 gegen ±∞, 93 Bijektiv, siehe Funktion, bijektiv Division, 39 Bild, 203, 216 dom(f), 22, 25 Binomialkoeffizient, 51, 52 Drehmatrix, 215, 221 Binomische Formel, 51, 53, 74, 83 Drehung, 215 Br (z), 232 Dreiecksmatrix, 167 B r (z), 232 Dreiecksungleichung, 44, 61, 62 Durchschnitt, 6, 15 C, siehe Komplexe Zahlen 304 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 e, 265, 292 lokales, siehe lokales Extremum Ebene, 24, 135, 209, 210 f | D, 235 Einheitsmatrix, 148, 216 Fehlstand, 162 Einheitswurzel, 67, 68 Folge, 71, 72, 182 Einschnürungslemma, 85–86 beschränkt, 72–74, 80, 83, 93, 100, 101, Einschränkung, 235, 237, 241, 249, 251, 104, 110 275 konvergent, 76, 78, 80–82, 85, 86, 91, einseitige 99–100, 104, 126, 184, 202, 251 Ableitung, 283 mit Startwert, 71 Differenzierbarkeit, 283 monoton, 72–74, 81–82, 94 Grenzwerte, 235 rational, 90 Häufungspunkte, 235 Folgenglied, 71 Konvergenz, 235, 249 Freiheitsgrade, 24 Element, 1 f 0 (x), 274 maximales, siehe Maximum f−0 (x), 283 minimales, siehe Minimum f (n) , 284 elementare Spaltenumformungen, siehe Spaltenu- f+0 (x), 283 Funktion, 22–23, 25, 182 mformungen arcus, 33, 34, 65, 281–282 Zeilenumformungen, siehe Zeilenumfarea, 282 ormungen beschränkt, 253 Eliminationsverfahren, 139, 141–144, 155, bijektiv, 29, 35, 118, 204, 216 156, 185, 192, 198, 211, 216–218 differenzierbar, 274–278, 280, 283, 284, zum Invertieren, 155–157 290, 291, 293 endlich erzeugt, siehe Vektorraum, endlich einfach differenzierbar, 284 erzeugt identisch, 34, 160, 216 Entwicklungspunkt, 258, 262, 299, 300 injektiv, 29, 31, 203, 208, 255, 256 –δ Definition, 239–240, 248, 273 Komposition, siehe HintereinanderauErweiterte Koeffizientenmatrix, siehe Kosführung effizientenmatrix, erweitert konvergent, 232 Erzeugendensystem, 187, 190, 195–198, 203, monoton, 255, 290 219 n-fach differenzierbar, 284 Erzeugnis, siehe Aufspann nach oben beschränkt, 253 Eulersche Formel, 269 nach unten beschränkt, 253 Eulersche Konstante, 82, 265 rational, 245, 251, 270 Existenz, 49 stückweise definierte, 23 Existenzaussage, 13 stetig, 247–254, 256, 264, 276 Existenzquantor, 13 stetig differenzierbar, 284 exp(z), 265 streng monoton, 255, 256 Exponentialfunktion, 265–267, 269–270, 279, 292 surjektiv, 29, 31, 208, 255 Extremum trigonometrisch, 25, 32–34, 69, 268, 269, global, siehe globales Extremum 280, 281 305 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 I ◦ , 289 Identität, siehe Funktion, identisch Im z, 60 imaginäre Einheit, 58, 59 Zahl, 58 Ganze Zahlen, 2 Imaginärteil, 60, 66, 78, 109, 117, 237, 249, Gaußsche Zahlenebene, 58 251, 253 Gauß Algorithmus, siehe Eliminationsver- Implikation, 11 fahren Induktion, siehe Vollständige Induktion Genau dann wenn, 9 Induktionsanfang, 18, 20 geometrische Reihe, siehe Reihe, geome- Induktionsannahme, 18, 20 trisch Induktionsschritt, 18, 21 Gerade, 135, 209, 210 inf M , 47 geschlitzte Ebene, 64 Infimum, 46–48, 50, 82, 253 globales Infinitesimale Grössen, 75, 76 Extremum, 285 Injektiv, siehe Funktion, injektiv Maximum, 285–286 Inklusion, 7 Minimum, 285–287 Inneres eines Intervalls, 289 Graph, 22, 23, 25 Intervalle, 41, 50–51, 256 graph(f), 22 abgeschlossen, 41, 51 Graßman Identität, 229 beschränkt, 41 Grenzwert, 76 halboffen, 41 einer Folge, 80, 94 offen, 41, 51 einer Reihe, 107 unbeschränkt, 50 von Funktionen, 232, 237, 240, 243– Inverse Matrix, 152–157, 169, 177 246, 250, 296 Inverse Permutation, 160 Grundbegriff, 5, 36 isomorph, 204, 208 Grundrechenarten, 37, 59 Isomorphismus, 204–206, 208, 216 Gruppe, 160 Jacobi Identität, 229 Häufungspunkt, 91–92, 97, 101, 231–232, Junktoren, 10 235 K M , 182 Hadamardsche Formel, 260 K m×n , 144, 182 Halbierungsformeln, 69–70 Harmonische Reihe, siehe Reihe, harmo- K n , 144, 181, 208 kanonische Basis, 197 nisch Kern, 203, 216 Heaviside Funktion, 23, 242, 283 Kettenregel, 276 Hessesche Normalform, 224–225 Hintereinanderausführung, 26, 27, 35, 203, Koeffizienten, 134, 258 Koeffizientenmatrix, 138, 150, 154, 219 216, 250, 252 erweitert, 138, 219 Hospitalsche Regel, 293, 295–298 Kommutativgesetz Hyperbelfunktionen, 267–268, 279 der Addition, 37, 145, 181 Hyperebene, 210, 224 zusammengesetzt, 243, 251, 283 Funktionalgleichung, 265, 266 Funktionsgrenzwert, siehe Grenzwert, von Funktionen Funktionsraum, 182, 202 306 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 der Multiplikation, 38 Komplement, siehe Differenzmenge Komplementärmatrix, 174, 177 Komplementärwert, 174 komplex Konjugierte, siehe Konjugierte Komplexe Zahlen, 2, 58 Kondensationskriterium, 113 Konjugierte, 60–61, 265 Konjungtion, 10 Konvergenz in R, 92, 110, 233 linksseitig, siehe einseitige Konvergenz rechtsseitig, siehe einseitige Konvergenz von Folgen, siehe Folge, konvergent von Funktionen, siehe Funktion, konvergent von Reihen, siehe Reihe, konvergent Konvergenzkreis, 259, 264 Konvergenzradius, 258, 260–261, 278 Koordinaten, 199 Koordinatenabbildung, 199, 203, 205 Kreuzprodukt, 225 Kronecker Symbol, 187 Kurvendiskussion, 284 Lineare Approximation, siehe Approximation, linear Lineares Gleichungssystem, 134–136, 138, 140, 150–152, 157, 185, 211, 212, 219 homogen, 151, 152, 183, 184, 188–190, 192, 198, 199, 216 inhomogen, 151 regulär, 154, 178 Linearform, 220 Linearkombination, 152, 184, 185, 187, 191, 194, 199 linksseitige Ableitung, siehe einseitige Ableitung Differenzierbarkeit, siehe einseitige Differenzierbarkeit Grenzwerte, siehe einseitige Grenzwerte Konvergenz, siehe einseitige Konvergenz linksseitiger Häufungspunkt, siehe einseitige Häufungspunkte ln, 271 log, 271 Logarithmus, 25, 271, 281, 292, 296 natürlich, siehe Logarithmus lokal, 241, 275 lokales Extremum, 284–285, 291 Maximum, 284, 291 Minimum, 284, 291 Länge, 220, 227 Lagrangescher Fehlerterm, 300 Laplace Entwicklung, 170–173, 175 Leipnitz Formel, 164, 175 Leipnitz Kriterium, 114, 134 Leipnitz Reihe, 115–117 lim, siehe Grenzwert Limes Inferior, 99–101, 126–127 Limes Superior, 99–101, 124, 126–127 lim inf n→∞ an , 99 lim f (x), 235 Majorante, 124 Majorantenkriterium, 124 Mathematische Definition, 4–5, 36 Matrix, 137, 138, 144–149, 213 x↑a invertierbar, 152, 177, 178, 216, 219 lim f (x), 235 quadratisch, 137 x↓a regulär, 152 lim supn→∞ an , 99 max M , 45 linear abhängig, 194 Maximum, 45, 47, 253 linear unabhängig, 191–198, 217, 219 globales, siehe globales Maximum Lineare Abbildung, 201, 203, 205, 207, 208, lokales, siehe lokales Maximum 213–214, 220 307 Mathematik für Physiker I, WS 2010/2011 Menge, 1 Auswahl, 15 leere, 5 Liste der Elemente, 2 Parametrisierung, 3 min M , 45 Minimum, 45, 47, 253 globales, siehe globales Minimum lokales, siehe lokales Minimum Mittelwertsatz, 288–289 Monoton, 72 streng, 72 Multiplikation mit Skalaren, 145 von Matrizen, 146, 216 Montag 7.2.2011 Potenzrechenregeln, 51, 53, 55 Potenzreihe, 258–260, 262, 264, 278 Produkt von Mengen, siehe Cartesisches Produkt Produktregel, 276 für Determinanten, 168 Produktzeichen, 162, 163 Projektion, 223 Q, siehe Rationale Zahlen Quotientenkriterium, 127–128 Quotientenregel, 276 R, siehe Reelle Zahlen Rm×n , 144 R, 49 N, siehe Natürliche Zahlen Rang, 217–219 Näherungsfehler, 300 Rationale Zahlen, 2 Natürliche Zahlen, 2 Re z, 59 Normalenvektor, 225 Realteil, 59, 60, 66, 78, 109, 117, 237, 249, Nullfolge, 83–84, 93, 95, 110 251, 253 Nullmatrix, 145 Rechenregeln Nullvektor, 181 für Ableitungen, siehe Ableitungsregeln, 280 Ordnung, 39–41, 45, 49 für das Vorzeichen, 164 total, 40 für die Inverse, 153 Ortsvektor, 180 für die Transposition, 149 Pagerang, 136 für Folgengrenzwerte, 86, 93–96, 106 Parallelepiped, 159 für Funktionsgrenzwerte, 244 Parallelogram, 159, 223, 227 für Matrizen, 145–148 Partialsummen, 106, 107, 110, 116, 205 für Permutationen, 160 Partikularlösung, 152 für Reihen, 111 Pascalsches Dreieck, 52 für Stetigkeit, 250, 252 Permutation, 160–162, 165 rechtsseitige gerade, 163 Ableitung, siehe einseitige Ableitung ungerade, 163 Differenzierbarkeit, siehe einseitige DifPolarkoordinaten, 63–67 ferenzierbarkeit Potenzen, 51–56, 84 Grenzwerte, siehe einseitige Grenzwermit ganzzahligen Exponenten, 53 te mit natürliche Exponenten, 51 Konvergenz, siehe einseitige Konvermit rationalen Exponenten, 54, 84, 257, genz 267 rechtsseitiger Häufungspunkt, siehe einseitige Häufungspunkte mit reellen Exponenten, 55, 271, 281 308 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Reelle Zahlen, 2, 37 erweitert, 49, 92 Reflexivitätsgesetz, 40 Reihe, 106–109 absolut konvergent, 117, 121, 124, 127, 131 alternierend, 114 geometrisch, 103, 108–109, 117, 124, 133 harmonisch, 112–113 konvergent, 107, 109–111, 113–115, 117, 131 unbedingt konvergent, 117, 120, 121 rang( ), 217 Richtung, 210–212 Richtungsvektor, 135, 180, 209–210 Riemanscher Umordnungssatz, siehe Umordnungssatz Rn , 144, 181 Russelsche Antinomie, 15 spezielle Lösung, 152 Standardbasis, 187, 198 Startindex, 84, 85, 107, 126 Steinitzscher Austauschsatz, siehe Austauschlemma Steinitzscher Umordnungssatz, siehe Umordnungssatz Stetigkeit, siehe Funktion, stetig Stufenform, 139–142, 167 Subtraktion, 39 Summationsindex, 20 Summe, siehe Summenzeichen von Funktionen, 182 von Untervektorräumen, 186 Summenregel, 276 Summenzeichen, 19–20, 107, 163 sup M , 47 Superpositionsprinzip, 152 Supremum, 46–48, 50, 82, 253 Surjektiv, siehe Funktion, surjektiv Symmetrische Gruppe, 160, 162 Sarrus Regel, 159, 170 Satz von Heine–Borel, 101 Rolle, 288, 289 Scherung, 214, 228 Schranke obere, 45, 46 untere, 45, 46 Sekante, 272, 288 senkrecht, 220–222, 225 sign(x), 43 Sinus, 268 Hyperbolicus, 267 Sinusapproximation, 300–302 Skalar, 145, 183 Skalarprodukt, 220–222 Skalierung, 214 Spaltenumformungen, 165, 172, 217 Spaltenvektor, 140, 144 span(. . .), 185 Spat, 159, 228 Spatprodukt, 227, 228 Tangens, 268 Hyperbolicus, 267 Tangente, 272–274, 288 Taylorpolynom, 299–300 Teilfolge, 72, 78, 91, 93, 104 induktiv, 92 Teilmenge, 4, 51 echte, 4 Teilraum, siehe Untervektorraum Transformationsmatrix, 200–201, 212 transitiv, 7 Transitivitätsgesetz, 40 Transponierte, 149, 153, 165, 217 Transposition, 163 Trichotomieprinzip, 41 triviale Lösung, 151 Übergangsmatrix, siehe Transformationsmatrix Umkehrfunktion, 27, 28, 31–35, 205, 255, 256, 280 Umkehrregel, 280 309 Mathematik für Physiker I, WS 2010/2011 Montag 7.2.2011 Zusammengesetzte Funktion, siehe FunkUmordnung, 118–121 tion, zusammengesetzt Umordnungssatz, 121, 124 zweifach differenzierbar, 291 Umparametrisierung, 296 Unbedingt konvergent, siehe Reihe, unbe- Zwischenwertsatz, 254–256 dingt konvergent Untervektorraum, 184, 186, 203, 206, 209, 216 trivial, 186 Urbild, 28 Ursprungsgerade, 209 Variable, 8, 22, 25 formale, 8 Vektor, 180, 183 Vektorprodukt, 225, 226, 228 Vektorraum, 180, 186, 190, 193, 195, 196, 201, 203, 205 endlich erzeugt, 196–201, 203, 205–208, 210 Verdichtungskriterium, siehe Kondensationskriterium Vereinigung, 6, 15 Verneinung, 10 von Quantoren, 14 Vielfachenregel, 276 Vielfachheit, 245 Vollständige Induktion, 18–21 Vollständigkeitsaxiom, 45, 48, 50, 79 Vorzeichen, 43, 44, 68 einer Permutation, 163 Wahrheitstabelle, 11 Widerspruch, siehe Beweis, indirekt Winkel, 222 Wurzel, 29, 32, 257 komplexer Zahlen, 67, 68 reeller Zahlen, 54 Wurzelapproximation, 302 Wurzelkriterium, 124–126, 128 Z, siehe Ganze Zahlen Zeilenumformungen, 141, 165, 172, 217 Zeilenvektor, 144 Zuordnungsvorschrift, 22, 25, 26 310