Inhaltsverzeichnis §1 §2 §3 §4 §5 §6 §7 §8 §9 §10 §11 §12 §13 §14 Aussagen und Aussagenlogik . . . Beweise . . . . . . . . . . . . . . . Mengen und Abbildungen . . . . . Reelle und komplexe Zahlen . . . . Lineare Gleichungssysteme . . . . . Die Matrixmultiplikation . . . . . . Vektorräume . . . . . . . . . . . . Determinanten . . . . . . . . . . . Lineare Abbildungen . . . . . . . . Analytische Geometrie . . . . . . . Reelle und komplexe Zahlenfolgen Reihen . . . . . . . . . . . . . . . . Stetige Funktionen . . . . . . . . . Differenzierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 8 11 48 72 82 95 115 134 149 162 178 202 223 $Id: aussagen.tex,v 1.5 2015/10/20 16:06:35 hk Exp $ Vorlesung 1, Freitag 24.10.2008 I. Grundlagen §1 Aussagen und Aussagenlogik 1.1 Aussagen In diesem einleitenden Abschnitt wollen wir einige grundlegende Begriffe und Tatsachen der Aussagenlogik vorstellen. Diese werden Ihnen wahrscheinlich bereits weitesgehend bekannt sein, achten sollten Sie vor allem auf die in der Mathematik verwendeten Interpretationen der logischen Junktoren oder“ und folgt“. Unter einer Aussagen ” ” verstehen wir hier, und in dieser Vorlesung, einen sprachlichen Ausdruck der einen eindeutigen Wahrheitsgehalt hat, also entweder wahr oder falsch ist. Streng genommen sollten wir eigentlich von einer mathematischen Aussage sprechen, nur diese sind gemeint. Beispiele derartiger (mathematischer) Aussagen sind: • 3 + 4 = 7. • 7 · 8 = 44 (Dies ist zwar falsch, aber trotzdem eine Aussage). 1 Mathematik für Ingenieure I, WS 2008/2009 Freitag 24.10.2008 • Die 5-te Nachkommastelle von π ist 9. Alle diese Ausdrücke sind definitiv, und ohne jeden Verhandlungsspielraum jeweils wahr oder falsch. Definitiv keine Aussagen in unserem Sinn sind dagegen Ausdrücke wie • Dieses Gebäude müsste dringend gestrichen werden. • Diese Vorlesung ist langweilig. • Die Tafel ist grün. Die ersten beiden dieser Beispiele sind reine Meinungsäußerungen, diese haben zwar für eine gegebene Person zu einem bestimmten Zeitpunkt einen gewissen Wahrheitswert, dieser ist aber sicher nicht definitiv festgelegt. Das dritte Beispiel ist dagegen bereits von einer etwas objektiveren Natur. Trotzdem werden derartige von realen, physikalischen Objekten handelnde Aussagen üblicherweise nicht als mathematische Aussagen behandelt, da ihr Wahrheitsgehalt stark vom Kontext abhängt. Man kann fragen was den grün“ bedeutet, ob die Tafel selbst grün ist oder nur ihre Reflexion unter Licht” einstrahlung grün ist, ob die Tafel bei völliger Dunkelheit noch immer grün ist, und so weiter. Wir wollen uns auf Aussagen beschränken, die nur von mathematischen Objekten handeln. Im Rahmen der Mathematik ist dies eine sinnvolle Einschränkung, da wir Aussagen wirklich im mathematischen Sinne beweisen wollen. Dies ist für Aussagen über physikalische Objekte schlichtweg nicht möglich. Vielleicht ändern sich ja morgen die Naturgesetze schlagartig, das ist keine sehr realistische Befürchtung, aber rein logisch immer denkbar. In einer anderen Hinsicht sind wir dagegen recht großzügig, es ist nicht nötig zu wissen ob eine mathematische Aussage nun wahr oder falsch ist, es kommt nur darauf an, daß sie eines von beiden ist. Beispiele solcher zweifelsfrei mathematischen Aussagen, deren Wahrheitsgehalt wir zur Zeit nicht kennen sind: • Die 104000 -te Nachkommastelle von π ist eine 7. n • Es gibt eine Fermat-Primzahl (das sind Primzahlen der Form 22 + 1), die größer als 65537 = 216 + 1 ist. • Es gibt beliebig große natürliche Zahlen n so, dass unter den ersten n Nachkommastellen von π die 7 genauso oft wie die 3 vorkommt. Welche dieser Aussagen wahr oder falsch sind ist nicht bekannt. Für die dritte Aussage können wir uns sogar ziemlich sicher sein, das man das nie wissen wird. Trotzdem sind alle drei Aussagen auch mathematische Aussagen in unserem Sinn, denn entweder wahr oder falsch sind sie allemal, auch wenn wir nicht wissen welche dieser beiden Möglichkeiten nun zutrifft. Außerdem dürfen Aussagen auch von freien Parametern abhängen. Zum Beispiel können wir die Aussage x2 = 4 betrachten, in der x für eine reelle Zahl steht. Ob diese Aussage wahr oder falsch ist, hängt vom konkreten Wert von x ab, aber wahr oder falsch ist sie immer, unabhängig von x. 2 Mathematik für Ingenieure I, WS 2008/2009 Freitag 24.10.2008 Wir nennen zwei Aussagen A und B äquivalent wenn entweder A und B beide wahr sind oder A und B beide falsch sind. Alternativ sagen wir auch, A genau dann wenn ” B“, oder A und B sind gleichbedeutent“, und so weiter. In Formelnotation wird die ” Äquivalenz der beiden Aussagen A und B als A ⇔ B geschrieben. 1.2 Logische Junktoren Es gibt verschiedene Konstruktionen aus bereits gegebenen Aussagen A, B, . . . neue Aussagen zusammenzusetzen. Diese werden gelegentlich als aussagenlogische Junktoren bezeichnet. Der einfachste dieser Junktoren ist die Verneinung. Ist A eine Aussage, so ist die Verneinung von A die Aussage ¬A, die genau dann wahr ist wenn A falsch ist. Ebenfalls ohne Überraschungen ist die Konjuktion, oder simpler die und“, Aussage. ” Bei dieser sind zwei Aussagen A, B gegeben, und man bildet die neue Aussage A ∧ B, gesprochen als A und B, die genau dann wahr ist wenn beide Aussagen A und B wahr sind. Diese Festlegungen sollten nicht besonders überraschend sein. Der nächste unserer Junktoren wird nun die Disjunktion, beziehungsweise oder“ Aussage, sein. Hier gibt es ” ein kleines Detail zu beachten, die Bedeutung der Disjunktion weicht gelegentlich etwas von der sonst üblichen Verwendung dieses Wortes ab. Sind A, B wieder zwei Aussagen, so ist die Disjunktion A ∨ B, gesprochen als A oder B, genau dann wahr wenn eine der beiden Aussagen A, B wahr ist. Hierbei ist immer der Fall erlaubt, dass sogar beide Aussagen A, B wahr sind. In der umgangssprachlichen Verwendung des Wortes hängt es dagegen gelegentlich vom vorliegenden Kontext ab, ob auch die Gültigkeit beider Aussagen möglich ist. Beachte weiter, dass mit eine der beiden Aussagen“ implizit ” mindestens eine der beiden Aussagen“ gemeint ist. Dies ist die übliche Konvention, ” bei derartigen Zahlangaben ist immer implizit mindestens“ gemeint. Sagen wir bei” spielsweise, dass zwei der drei natürlichen Zahlen a, b, c gerade sind. so ist ebenfalls erlaubt das sogar alle drei Zahlen gerade sind. Wollen wir dagegen sagen, dass eine, aber nicht alle beide, der Aussagen A, B wahr sind, so sagen wir das genau eine der beiden Aussagen A, B wahr ist. Dies ist dann das sogenannte ausschließende, oder exklusive, oder. Dieses kommt innerhalb der Mathematik relativ selten vor, und es hat daher auch kein allgemein verwendetes Symbol. Gelegentlich ist es klarer logische Junktoren in Form sogenannter Wahrheitstabellen zu beschreiben. Die Tabellen für Konjunktion und Disjunktion haben dabei die folgende Form: @A A ∨ B: B @ 0 1 0 0 1 1 1 1 A A ∧ B: @ B @ 0 1 0 0 0 1 0 1 In diesen Tabellen schreiben wir 0 für falsch“ und 1 für wahr“. Dies soll nicht etwa ” ” bedeuten, dass die Zahlen 0 und 1 irgendetwas mit wahr“ und falsch“ zu tun haben, ” ” es handelt sich nur um Symbole für diese Begriffe. Alternativ könnten wir auch f 3 Mathematik für Ingenieure I, WS 2008/2009 Freitag 24.10.2008 und w anstelle von 0 und 1 schreiben. Bei Formeln in denen mehr als zwei Aussagen vorkommen ist diese simple Form einer Wahrheitstabelle nicht mehr möglich. Man behilft sich dann mit einer tabellarischen Auflistung etwa der folgenden Form (in diesem Beispiel für A ∨ (B ∧ C) mit drei Aussagen A, B, C): A B C 0 0 0 0 0 1 0 1 0 0 1 1 1 0 0 1 0 1 1 1 0 1 1 1 A ∨ (B ∧ C) 0 0 0 1 1 1 1 1 Zur Illustration der Verwendung dieser logischer Junktoren, sowie als ein erstes kleines Beispiel eines Beweises, wollen wir nun die sogenannten de Morganschen Regeln beweisen. Diese beschreiben den Zusammenhang der Verneinung mit Konjuktion und Disjunktion, und dürften Ihnen wahrscheinlich bekannt. Satz 1.1 (De Morgansche Regeln) Seien A, B zwei Aussagen. Dann gelten: (a) Es ist ¬(A ∨ B) ⇐⇒ (¬A) ∧ (¬B). (b) Es ist ¬(A ∧ B) ⇐⇒ (¬A) ∨ (¬B). Beweis: (a) Die Aussage ¬(A ∨ B) ist genau dann wahr, wenn A ∨ B falsch ist, d.h. wenn A und B beide falsch. Dies bedeutet aber gerade, dass ¬A und ¬B beide wahr sind, und dies besagt (¬A) ∧ (¬B). (b) Dieses könnten wir analog zu (a) beweisen, da es uns hier aber um ein Beispiel eines Beweises, und nicht um die De Morganschen Regeln selbst, geht, führen wir hier einen anderen Beweis vor, der (b) auf den bereits bewiesenen Teil (a) des Satzes zurückführt. Wir haben nämlich die folgende Kette von Äquivalenzumformungen: ¬(A ∧ B) ⇐⇒ ¬((¬¬A) ∧ (¬¬B)) ⇐⇒ ¬¬((¬A) ∨ (¬B)) (a) ⇐⇒ (¬A) ∨ (¬B), wobei wir Teil (a) auf die beiden Aussagen ¬A und ¬B anstelle von A und B anwenden. Alternativ können wir Teil (a), und natürlich auch (b), auch mit Hilfe unserer Wahrheitstafeln einsehen. Zu diesem Zweck wird für beide Seiten der zu beweisenden Äquivalenz die jeweilige Wahrheitstafel aufgestellt, und überprüft das die beiden so entstehenden Tafeln identisch sind. Dies zeigt dann, dass die eine Aussage genau dann 4 Mathematik für Ingenieure I, WS 2008/2009 Freitag 24.10.2008 wahr ist, wenn auch die andere wahr ist, und dies bedeutet genau die Äquivalenz der betrachteten Aussagen. Für die erste der beiden de Morganschen Regeln hätten wir dabei die Tafeln ¬(A ∨ B) : (¬A) ∧ (¬B) : 0 1 0 1 0 1 0 0 0 1 0 1 0 1 0 0 Die Verwendung von Wahrheitstafeln sieht so aus, als wäre es eine eigenständige Beweismethode, aber in Wahrheit ist es nur eine kompakte Darstellung eines direkten Beweises. Im Grunde machen wir dort ja nur eine vollständige Fallunterscheidung, und könnten die Tabelle durch einen Text der Form Sind A und B beide falsch, so sind ” auch ¬(A ∨ B) und (¬A) ∧ (¬B) beide wahr. Sind A wahr aber B falsch, so ...“ ersetzen. In diesem Stil kann ein Beweis durch Wahrheitstafeln rein mechanisch in einen gewöhnlichen textlichen Beweis überführt werden. 1.3 Die Implikation Der letzte noch zu diskutierende logische Junktor ist die Implikation oder auch Folgerung. Sind A, B zwei Aussagen, so ist die Aussage A ⇒ B, gesprochen als aus A ” folgt B“ oder A impliziert B“, wahr wenn mit A auch B stets wahr ist. In Form einer ” Wahrheitstafel soll diese Festlegung gerade A A ⇒ B: @ B @ 0 1 0 1 0 1 1 1 bedeuten. Beachte das die Implikation A ⇒ B insbesondere immer dann wahr ist wenn die Voraussetzung A der Implikation falsch ist. Anders gesagt soll aus einer falschen Aussage jede beliebige andere Aussage folgen. Dies erscheint zunächst als eine etwas merkwürdige Festlegung, aber dieser Eindruck sollte bei näherer Betrachtung verfliegen. Umgangssprachlich würde man eine Aussage der Form Wenn morgen das ” Hörsaalgebäude einstürzt, so fällt die Vorlesung aus“, als wahr betrachten unabhängig davon ob das Gebäude morgen noch steht, selbst dann wenn die Vorlesung trotz eines in bestem Zustand befindlichen Hörsaals ausfällt. Ein weiterer Grund für die angegebene Interpretation der Implikation, der für die Mathematik auch erheblich schwerwiegender ist, sind Aussagen in denen noch freie Variablen vorkommen. Steht x beispielsweise für eine reelle Zahl, so sollte die Aussage x2 = 4 =⇒ x = 2 ∨ x = −2 immer wahr sein, unabhängig davon welchen konkreten Wert x jetzt hat. In der nächsten Sitzung werden wir den Implikationsbegriff noch etwas genauer besprechen. 5 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 28.10.2008 Vorlesung 2, Dienstag 28.10.2008 Der folgende Satz zeigt nun, dass sich die Implikation auch durch und“ und oder“ ” ” ausdrücken läßt. Satz 1.2: Seien A, B zwei Aussagen. Dann gelten: (a) Es ist ¬(A ⇒ B) ⇐⇒ A ∧ (¬B). (b) Es ist (A ⇒ B) ⇐⇒ (¬A) ∨ B. Beweis: (a) Die Verneinung ¬(A ⇒ B) ist genau dann wahr, wenn A ⇒ B falsch ist, also wenn A wahr aber B falsch ist. Letzteres bedeutet aber genau die Gültigkeit von A ∧ (¬B). (b) Mit Teil (a) und den de Morganschen Regeln Satz 1 haben wir die folgende Kette von Äquivalenzumformungen: (A ⇒ B) ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ¬¬(A ⇒ B) ¬(A ∧ (¬B)) (¬A) ∨ (¬¬B) (¬A) ∨ B. Insbesondere scheint die Implikation damit auf derselben inhaltlichen Stufe wie und“ ” und oder“ zu stehen, was Sie zumindest irritieren sollte. Dieser Eindruck täuscht auch ” in gewisser Weise, denn der in Satz 2 verwendete Implikationsbegriff ist rein formaler Natur. Es kommt dort nur auf den Wahrheitswert der Aussagen A und B an, nicht aber auf die inhaltliche Bedeutung dieser Aussagen. Diesen Implikationsbegriff sollte man nicht mit dem inhaltlichen Folgerungsbegriff verwechseln, dass also eine Aussage B durch logsiches Schließen aus einer Aussage A folgt. Bei letzterem kommt es tatsächlich auf die Bedeutung von A und B an. Die formale Untersuchung des Folgerungsbegriffs gehört zur mathematischen Logik, beziehungsweise zur sogenannten Beweistheorie, und wird nicht Gegenstand dieser Vorlesung sein. Wir wollen hier nur darauf hinweisen, dass diese Fragen gelegentlich sogar eine gewisse praktische Bedeutung haben, zum Beispiel für Dinge wie formale Korrektheitsbeweise für Computerprogramme in der (theoretischen) Informatik. Zum Abschluss dieses Abschnitts wollen wir noch kurz das sogenannte Kontrapositionsprinzip herleiten. Satz 1.3 (Kontrapositionsprinzip) Seien A, B zwei Aussagen. Dann ist A ⇒ B zu (¬B) ⇒ (¬A) äquivalent. 6 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 28.10.2008 Beweis: Dies können wir leicht auf den vorherigen Satz 2 zurückführen. Wir haben nämlich die Äquivalenzen: A ⇒ B ⇐⇒ (¬A) ∨ B ⇐⇒ (¬¬B) ∨ (¬A) ⇐⇒ (¬B) ⇒ (¬A). 1.4 Modellierung Bei unserer Einführung mathematischer Aussagen haben wir uns ausdrücklich auf Aussagen beschränkt, die nur von mathematischen Objekten handeln. Andere Aussagetypen, etwa über reale physikalische Gegenstände, sollen dagegen nicht Gegenstand der Mathematik sein. Auch später in dieser Vorlesung werden wir uns in ähnlichen Situationen immer auf diesen strikten Standpunkt stellen. Dies vereinfacht zwar unsere Diskussion, man könnte aber den Eindruck gewinnen die Mathematik wäre nur ein nicht besonders nützliches Puzzlespiel. Dieser Eindruck täuscht natürlich, tatsächlich sind weite Teile der Mathematik sogar ausdrücklich zur Lösung konkreter physikalischer und anderer angewandter Probleme entwickelt worden. Man kann sich die Anwendung mathematischer Methoden auf konkrete Probleme im Prinzip als in drei Phasen aufgeteilt denken. Zuerst wird die gegebene Anwendungssituation modelliert, d.h. den realen Gegenstände und Konzepten werden sie repräsentierende mathematische Objekte zugeordnet, und die Beziehungen zwischen ihnen werden in Beziehungen zwischen diesen mathematischen Objekten übertragen. Dieser Modellierungsprozess ist kein Teil der Mathematik sondern ein Thema der für die jeweilige Anwendungssituation zuständigen Theorie. Nachdem diese Modellierung erfolgt ist, wird die entstandene Situation innerhalb der Mathematik untersucht und ausgewertet. Nur dieser Teil ist Mathematik im eigentlichen Sinn, und damit Gegenstand dieser Vorlesung. Zum Abschluß werden dann die erhaltenen Resultate für das vorliegende konkrete Problem ausgewertet, und gegebenenfalls weiter untersucht, etwa durch Messungen oder andere empirische Methoden. Dies ist natürlich eine idealisierte Beschreibung, in realen Beispielen werden die obigen drei Schritte natürlich miteinander vermischt werden und in einem iterativen Prozess mehrfach wiederholt und verfeinert werden. Wir wollen hier kurz ein Beispiel beschreiben, bei dem sich die Trennung in Modellierung und mathematische Beschreibung ungewöhnlich deutlich vornehmen läßt. Als solch ein Beispiel wollen wir hier die Bewegung der Planeten um die Sonne verwenden. Die Zeit modellieren wir hier wie eigentlich immer durch eine reelle Zahl. Der zu betrachtende Planet wird zum Zeitpunkt t durch einen Punkt p(t) im Raum sowie durch eine weitere Zahl m, die seine Masse angibt, beschrieben. Wie immer in solchen Fällen werden die meisten Details der Situation ignoriert, in Wahrheit ist ein Planet ja kein Punkt, er hat keine zeitlich konstante Masse und so weiter. Welche Details zu berücksichtigen und welche zu vernachlässigen sind, ist eine Entscheidung der Physik und 7 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 28.10.2008 kein mathematisches Problem. Ebenso beschreiben wir die Sonne durch eine Position s(t) und eine Masse M . Das Gravitationsgesetz übersetzen wir nun in die Definition der Funktion mM F (t) := −γ (p(t) − s(t)). ||p(t) − s(t)||3 Schließlich übersetzt sich das Bewegungsgesetz in die Differentialgleichung mp00 (t) = F (t) und analog ergibt sich eine Differentialgleichung für s(t). Damit ist die Modellierung abgeschlossen, als mathematische Objekte haben wir die Zahlen γ, m, M und die beiden Funktionen p(t), s(t), und unsere Differentialgleichungen geben die Beziehungen zwischen diesen Objekten an. Damit sind wir in der rein mathematischen Phase Zwei, die hier in der Lösung unserer Differentialgleichung besteht. Natürlich kann es heuristisch nützlich sein, sich über das unterliegende physikalische Problem im klaren zu sein, aber im Prinzip haben wir hier eine mathematische Aufgabe. Die Lösungsdetails wollen wir hier nicht diskutieren, diese kennen Sie vielleicht aus der Schule oder aus Ihrer Physikvorlesung. Als Ergebnis erhalten wir jedenfalls, bei geeigneten Anfangsbedingungen und Werten von m und M , die üblichen Ellipsenbahnen. In der Auswertungsphase können wir dann hieraus beispielsweise die Keplerschen Gesetze herleiten. Beachte das es sich hierbei keinesfalls um einen mathematischen Beweis der Keplerschen Gesetze handelt, unsere ursprüngliche Differentialgleichung ist ja nicht mathematisch sondern physikalisch begründet worden. Umgekehrt bedeutet ein nicht mit der Realität übereinstimmendes Ergebnis der mathematischen Untersuchung nicht notwendig, dass diese fehlerhaft ist. Ebensogut kann die verwendete Modellierung der Sitaution nicht angemessen sein. Zur detaillierteren Beschreibung der Bahnen von Jupiter und Saturn reicht unser obiges Modell zum Beispiel nicht aus, da es die Anziehung zwischen diesen beiden Planeten völlig ignoriert. Ebenso scheitert unser Modell beispielsweise an der Beschreibung von Satelietenbahnen um die Erde, hier ist die Modellierung der Erde durch einen Punkt nicht mehr angemessen, die exakte Form der Erde sowie ihre inhomogene Masseverteilung spielen hier eine Rolle, die von unserem simplen Modell nicht berücksichtigt wird. $Id: beweise.tex,v 1.3 2009/02/25 08:58:56 hk Exp $ §2 Beweise Die Aussagen der Mathematik werden in Form sogenannter Sätze beschrieben. Dabei verwenden wir das Wort Satz“ hier als einen Oberbegriff, einige Sätze werden ” gerne auch mit Namen wie Lemma“, Theorem“, Hilfssatz“ und so weiter versehen, ” ” ” und auch andere Resultate wie etwa Rechenverfahren und Algorithmen interpretieren wir hier als mathematische Sätze. Jeder mathematische Satz besteht aus einer oder 8 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 28.10.2008 mehreren Voraussetzungen und einer Behauptung. Zur Begründung eines solchen Satzes wird dann ein Beweis angegeben, dies ist eine Kette logischer Folgerungen, die aus den Voraussetzungen des Satzes auf seine Behauptung schließt. Das Wort Beweis“ ” wird hierbei wesentlich enger als im normalen Sprachgebrauch verwendet, Plausibilitätsbetrachtungen und heuristische oder empirische Begründungen reichen keinesfalls aus. Ein Beweis muss eine vollständige logische Folgerungskette sein. Je nach intendierten Leserkreis wird ein mathematischer Beweis oft nicht in dieser Vollständigkeit wirklich hingeschrieben, dies ist aber nicht wesentlich, es muss nur klar sein, dass man die fehlenden Teile der Folgerungskette nötigenfalls hinzufügen könnte. Ein Beweis verfolgt hauptsächlich zwei Zwecke. Zum einen begründet er überhaupt die Gültigkeit eines mathematischen Satzes, empirische oder heuristische Argumente reichen hierzu, wie bereits bemerkt, nicht aus. Auf der anderen Seite soll ein Beweis seinen Satz natürlich auch erklären. Insbesondere kann es durchaus sinnvoll sein, verschiedene Beweise ein und desselben Satzes zu kennen, wenn diese Beweise den fraglichen Satz von verschiedenen Gesichtspunkten aus begründen. Es gibt im wesentlichen zwei Grundtypen von Beweisen. Der erste, und auch wichtigste, Typ ist dabei der sogenannte direkte Beweis. Hier wird die Aussage des Satzes durch eine direkte Folgerungskette aus den Voraussetzungen hergeleitet. Gerade in dieser Vorlesung bestehen viele dieser direkten Folgerungen auch aus Gleichungsketten. Als ein simples Beispiel eines direkten Beweises wollen wir hier einmal die Ihnen aus der Schule bekannte binomische Formel (a + b)2 = a2 + 2ab + b2 für alle reellen Zahlen a, b, behandeln. Aufgeteilt in Voraussetzung, Behauptung und Beweis, können wir dies wie folgt hinschreiben: Vor: Seien a, b zwei reelle Zahlen. Beh: Es gilt (a + b)2 = a2 + 2ab + b2 . Bew: Es gilt (a + b)2 = = = = (a + b) · (a + b) a · (a + b) + b · (a + b) a2 + ab + ba + b2 a2 + 2ab + b2 . Diese explizite Aufteilung in Voraussetzung und Behauptung ist ein bei der Bearbeitung von Übungsaufgaben beliebter Stil, in normalen Texten werden diese beiden normalerweise zusammengefasst. Wir kommen nun zum zweiten Beweistyp, dem sogenannten Widerspruchsbeweis. In diesem ist eine Aussage A zu beweisen, und wir nehmen anstelle dessen an, dass ihre Verneinung ¬A wahr ist. Dann wird aus der angenommenen Gültigkeit von ¬A eine andere Aussage B hergeleitet, und weiter gezeigt das aus ¬A auch die Verneinung ¬B von B folgt. Wäre also ¬A wahr, so müssten gleichzeitig B und ¬B gelten, was natürlich nicht möglich ist. Damit hat die Annahme von ¬A zu einem Widerspruch 9 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 28.10.2008 geführt. Andererseits ist die mathematische Aussage A ja entweder wahr oder falsch, und da ¬A nicht wahr, also A nicht falsch, sein kann, muss A wahr sein. Dies wird klarer wenn wir es an einem konkreten Beispiel betrachten. Der klassi√ sche Widerspruchsbeweis zeigt, dass 2 keine rationale Zahl, also kein Bruch zweier √ natürlicher Zahlen sein kann. Unsere Aussage A ist hier die Aussage 2 ist keine ” rationale Zahl“.√Für einen Widerspruchsbeweis müssen wir ¬A annehmen, d.h. wir nehmen √ an das 2 doch eine rationale Zahl ist. Dann gibt es zwei natürliche Zahlen p, q mit 2 = p/q. Durch eventuelles Auskürzen können wir dabei annehmen, dass p und q keinen gemeinsamen Teiler haben. Dies ist dann unsere Aussage B, also p und ” q sind teilerfremd“. Nun rechnen wir p2 = q2 2 √ 2 p = 2 = 2, q d.h. es ist p2 = 2q 2 . Somit ist p2 gerade und damit muss auch p gerade sein. Folglich ist r := p/2 eine natürliche Zahl mit p = 2r, und setzen wir dies in die gerade bewiesene Formel ein, so ergibt sich 2q 2 = p2 = (2r)2 = 4r2 , also ist auch q 2 = 2r2 gerade. Damit ist aber auch q gerade, d.h. p und q haben den gemeinsamen Teiler 2. Also ist auch die Verneinung ¬B eingesehen, und wir haben einen √ Widerspruch. Dieser Widerspruch beweist dann, dass 2 tatsächlich keine rationale Zahl ist. Damit haben wir beide Grundtypen von Beweisen, den direkten und den indirekten, oder Widerspruchsbeweis, vorgestellt. Komplizierte Beweise sind dann oftmals Mischformen dieser beiden Typen. In diesem wird die eigentliche Aussage in mehreren Teilschritten bewiesen, die dann ihrerseits direkte oder indirekte Beweise sind. Gelegentlich wird noch der sogenannte Beweis durch Kontraposition als ein eigener, dritter, Grundtyp angesehen. Bei einem Beweis durch Kontraposition ist eine Aussage der Form A ⇒ B zu zeigen, und man zeigt anstelle dessen die Implikation (¬B) ⇒ (¬A). Nach dem Kontrapositionsprinzip §1.Satz 3 sind diese beiden Implikationen zueinder äquivalent. Insbesondere ist ein Beweis durch Kontraposition eigentlich ein direkter Beweis, dessen letzte Aktion in der Anwendung des Kontrapositionsprinzips besteht. Oftmals wird ein Kontrapositionsbeweis auch als Widerspruchsbeweis verkauft, das ist zwar nicht falsch aber etwas unelegant. Das Vorgehen ist dann wie folgt: Zu zeigen ist die Aussage A ⇒ B, und wir nehmen ¬(A ⇒ B) an. Nach Satz 2 bedeutet dies, dass wir A ∧ (¬B) annehmen. Dann wird der Beweis der Aussage (¬B) ⇒ (¬A) durchgeführt, und da ¬B vorausgesetzt ist, haben wir dann den Widerspruch ¬A. Wird bei der Herleitung von ¬B die Aussage A tatsächlich verwendet, so handelt es sich um einen echten Widerspruchsbeweis. Andernfalls liegt ein als Widerspruchsbeweis verpackter Beweis durch Kontraposition vor. $Id: mengen.tex,v 1.8 2015/10/20 16:10:51 hk Exp $ 10 Mathematik für Ingenieure I, WS 2008/2009 Freitag 31.10.2008 Vorlesung 3, Freitag 31.10.2008 §3 Mengen und Abbildungen 3.1 Mengen Eine Menge fasst eine Gesamtheit mathematischer Objekte zu einem neuen Objekt zusammen. Die klassische informelle Definition einer Menge geht auf Cantor zurück, und lautet wie folgt: Unter eine Menge“ verstehen wir jede Zusammenfassung M von ” bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens, welche die Elemente von M genannt werden, zu einem Ganzen. Für die Mathematik ist der Mengenbegriff von grundlegender Bedeutung, in der Tat kann die gesamte Mathematik vollständig aus dem Begriff einer Menge und einigen wenigen anderen Grundbegriffen aufgebaut werden. Für die Zwecke dieser Vorlesung ist dies allerdings ohne jede Bedeutung, für uns wird der Mengenbegriff einfach eine bequeme Schreibweise sein. Wie schon aus §1 gewohnt, werden wir auch den Mengenbegriff wesentlich enger interpretieren als es die obige Definition nahelegt. Wir wollen ausschließlich mathematische Objekte, also beispielsweise die verschiedenen Sorten von Zahlen, Funktionen und so weiter, als Elemente einer Menge zulassen. Insbesondere betrachten wir keine Mengen, die abstrakte Konzepte oder auch reale physikalische Gegenstände als Elemente enthalten. Ersteres wäre für unsere Zwecke sinnlos, und die Betrachtung physikalischer Objekte führt wieder auf Fragen, die in der Mathematik nichts zu suchen haben. Beispielsweise kann man sich streiten inwieweit verschiedene Elektronen wohlunterschiedene Objekte sind, in einem gewissen Sinne sind alle Elektronen gleich und unterscheiden sich nur in Bezug auf externe Objekte. All dies können wir vermeiden indem wir ausschließlich mathematische Objekte als Elemente von Mengen erlauben, und daher werden wir uns im Folgenden auf diesen Standpunkt stellen. Beachte dabei das Mengen selbst dann mathematische Objekte sind, und somit als Elemente anderer Mengen zugelassen sind, d.h. Mengen können andere Menge als Elemente enthalten. Sind M eine Menge und x ein mathematisches Objekt, so schreiben wir x ∈ M wenn x ein Element von M ist, d.h. die Formel x ∈ M steht für die Aussage x ist ein Ele” ment von M“. Ist x dagegen kein Element von M , so notieren wir dies als x ∈ / M . Die Aussage x ∈ / M ist also die Verneinung ¬(x ∈ M ) von x ∈ M . Wie alle mathematischen Objekte sind Mengen vollständig statische Gebilde, Elemente können eine Menge nicht verlassen und andere Objekte können nicht als neue Elemente hinzukommen. Natürlich können wir zu einer gegebenen Menge M durch Entfernen oder Hinzufügen von Ele11 Mathematik für Ingenieure I, WS 2008/2009 Freitag 31.10.2008 menten eine neue Menge N bilden, aber diese ist von M verschieden. Mengen sind eben keine Containerobjekte wie man sie aus einigen Programmiersprachen gewohnt ist. Eine Menge ist durch ihre Elemente vollständig bestimmt und besitzt keine darüber hinausgehende, eigenständige Identität. Dies ist das sogenannte Extensionalitätsprinzip, zwei Mengen M, N sind genau dann gleich M = N wenn für jedes mathematische Objekt x genau dann x ∈ M gilt wenn auch x ∈ N ist. In anderen Worten ist genau dann M = N wenn die Aussagen x ∈ M und x ∈ N für mathematische Objekte x äquivalent sind. Wir wollen nun die üblichen Methoden zur Beschreibung von Mengen diskutieren. Die einfachste Art eine Menge festzulegen ist durch explizite Angabe ihrer Elemente. Die hierfür übliche Notation schließt die aufgelisteten Elemente in Klammern {“ und ” }“ ein, also beispielsweise ” M = {1, 2, 3}, M = {1, 2, {3, 4}}. Dies sind beides Mengen mit jeweils 3 Elementen, im zweiten Beispiel ist die Menge {3, 4} eines dieser drei Elemente von M . In dieser Notation ist es durchaus erlaubt ein und dasselbe Element mehrfach aufzuführen, beispielsweise M = {1, 2, 1} = {1, 2}. Ein mathematisches Objekt x ist entweder ein Element einer Menge M oder nicht, es kann nicht mehrfach Element von M sein. Natürlich ist ein Ausdruck wie {1, 2, 1} nicht besonders sinnvoll, aber in anderen Fällen ist es sehr nützlich das mehrfache Auflisten von Objekten in {. . .} zuzulassen. Angenommen wir haben beispielsweise drei reelle Zahlen x, y, z, die wir noch nicht explizit kennen. Dann können wir einfach M := {x, y, z} schreiben, ohne uns vorher zu überlegen welche Gleichheiten unter den Zahlen x, y, z auftreten können. Hätten wir auf verschiedene Elemente in einem Ausdruck {. . .} bestanden, so müßten wir Dinge wie Ist x = y = z, so sei M := {x}, ” ist x = y 6= z, so sei M := {x, z}, . . .“ schreiben. Die von uns verwendete Konvention dient also der Bequemlichkeit, und nicht dazu tatsächlich {1, 2, 1} zu schreiben. Man muss sich allerdings damit abfinden das eine Menge {x, y, z} nur höchstens 3 Elemente hat, sie könnte auch 2 oder nur ein Element haben, je nachdem welche Gleichheiten zwischen x, y, z auftreten. Als ein Randfall ist es auch zugelassen, dass überhaupt kein Element vorkommt, also { }. Dies ist die sogenannte leere Menge, die eindeutige Menge ohne Elemente. Diese Menge kommt so häufig vor, das sie ein eigenes, für sie reserviertes Symbol, erhält. Definition 3.1: Die Menge ∅ := { } heißt die leere Menge. Ist M eine beliebige Menge, so sagen wir auch M ist leer“ für die Aussage M = ∅, d.h. ” wenn M keine Elemente hat. Beachte übrigens das dies die erste Stelle in diesem Skript ist, die wir explizit als eine Definition bezeichnen. Dies hat auch einen guten Grund, alle unsere bisherigen Definitionen“ waren keine Definitionen im in der Mathematik ” üblichen Sinn, sondern sie dienten allesamt nur der Einführung von Grundbegriffen. 12 Mathematik für Ingenieure I, WS 2008/2009 Freitag 31.10.2008 Eine Definition in der Mathematik ist im wesentlichen eine Abkürzung, die einen neuen Begriff auf bereits vorhandene Konzepte zurückführt. Es gibt einige weitere Mengen, die derart wichtig sind, das sie eigene, nur für sie verwendete, Symbole erhalten. Dies sind im wesentlichen die folgenden Mengen: N N0 Z Q R C − − − − − − die die die die die die Menge Menge Menge Menge Menge Menge der der der der der der natürlichen Zahlen 1, 2, 3, . . ., natürlichen Zahlen mit Null 0, 1, 2, . . ., ganzen Zahlen . . . , −2, −1, 0, 1, 2, . . ., rationalen Zahlen, also Brüche ganzer Zahlen, reellen, also etwa aller auch unendlichen Dezimalbrüche, komplexen Zahlen. Die komplexen Zahlen C werden wir bald behandeln. Als natürliche Zahlen werden gelegentlich auch alle Zahlen 0, 1, 2, . . . bezeichnet, ob 0 als natürliche Zahl zählt oder nicht wird nicht ganz einheitlich gehandhabt. Wir kommen nun zu einer kleinen Erweiterung der Schreibweise {. . .}. Bei dieser wird eine Menge definiert, indem ihre Elemente durch die Elemente einer bereits vorhandenen Menge indiziert werden. Beispiele hierfür sind M := {2k − 1|k ∈ N} für die Menge 1, 3, 5, . . . der ungeraden, natürlichen Zahlen, M := {a2 + b2 |a, b ∈ N} für die Menge aller natürlichen Zahlen, die sich als Summe zweier Quadrate schreiben lassen, also 2, 5, 8, 10, 13, 18, . . .. Mit dieser Notation können wir die rationalen Zahlen beispielsweise als p Q= p ∈ Z, q ∈ N q schreiben. Eine weitere Notation bewirkt die Auswahl gewisser Elemente aus einer gegebenen großen Menge heraus. Seien hierzu eine Menge M und eine Aussage A(x) mit einer freien Variablen x gegeben. Dann bezeichnet {x ∈ M |A(x)} die Menge all derjenigen Elemente x von M , für die die Aussage A(x) wahr ist. Ist also N := {x ∈ M |A(x)}, so sind für jedes Element x ∈ M die Aussagen x ∈ N und A(x) äquivalent. Ein Beispiel für diese Notation ist etwa {x ∈ N|x ist ungerade} für die Menge der ungeraden natürlichen Zahlen. Als eine kleine Erweiterung lassen wir auch die Notation {x|A(x)} zu, wenn wir aus der Bedingung A(x) eine größtmögliche Menge M ablesen können, die alle mathematischen Objekte x mit A(x) enthält. Dann 13 Mathematik für Ingenieure I, WS 2008/2009 Freitag 31.10.2008 ist {x|A(x)} eine alternative Schreibweise für {x ∈ M |A(x)}. Ein sehr einfaches Beispiel für diese erweiterte Notation ist etwa {x|x ∈ M ∧ A(x)}. Unsere eingangs gegebene Definition“ einer Menge läßt auch eine völlig freie Mengenbildung {x|A(x)} zu, also ” die Menge absolut aller mathematischen Objekte x mit A(x) zu betrachten. Diese harmlos aussehende Bildung führt allerdings geradewegs in verheerende Widersprüche. Der bekannteste dieser Widersprüche ist die sogenannte Russelsche Antinomie. Diese betrachtet die folgende Menge R := {M |M ist eine Menge mit M ∈ / M }. Dann ist entweder R selbst ein Element von R oder nicht. Gehen wir diese beiden Möglichkeiten einmal durch. Zunächst nehme die erste Möglichkeit an, es sei also R ∈ R. Dies bedeutet aber das R eine Menge mit R ∈ / R ist, was natürlich nicht geht. Also muss wohl die zweite Möglichkeit zutreffen, d.h. es sollte R ∈ / R sein. Dann ist R aber eine Menge mit R ∈ / R und nach unserer Definition von R ist somit R ∈ R. Dies ist erneut ein Widerspruch. Damit haben wir einen Widerspruch in der Mathematik selbst. Es darf also nicht erlaubt so etwas wie die Menge R zu definieren. Daher bestehen wir in unserer Notation {x ∈ M |A(x)} darauf, dass nur Elemente aus einer vorgegebenen, bereits vorhandenen, Menge M ausgewählt werden dürfen. Die freie Mengenbildung, die alle mathematischen Objekte x mit einer Bedingung A(x) zusammenfasst, ist bei uns nicht erlaubt. Damit können wir die obige Menge R gar nicht sinnvoll hinschreiben und haben den mit ihr verbundenen Widerspruch vermieden. Natürlich könnte es einen raffinierteren Widerspruch geben, der mit Mengen der erlaubten Form {x ∈ M |A(x)} auskommt, aber ein solcher ist nicht bekannt, und es rechnet auch niemand ernsthaft mit dieser Möglichkeit. Die Konstruktion der Menge {x ∈ M |A(x)} legt den folgenden Teilmengenbegriff nahe. Definition 3.2: Seien M und N zwei Mengen. Die Menge M heißt eine Teilmenge von N , geschrieben als M ⊆ N , wenn jedes Element x ∈ M von M auch ein Element von N ist. Weiter heißt M eine echte Teilmenge von N , geschrieben als M ( N , wenn M ⊆ N und M 6= N ist. Mit diesem Begriff ist dann {x ∈ M |A(x)} ⊆ M für jedes Menge M und jede Aussage A(x). Viele Autoren verwenden auch das Symbol M ⊂ N , und je nach Autor meint dies M ⊆ N oder M ( N . Die in diesem Skript verwendete Notation sollte dagegen keine Mißverständnisse zulassen. Für können die Teilmengenbeziehung auch in Termen des Implikationsbegriffs für Aussagen formulieren. Für zwei gegebene Mengen M, N bedeutet M ⊆ N gerade, dass die Aussage (x ∈ M ) ⇒ (x ∈ N ) für jedes mathematische Objekt x wahr ist. Einige Beispiele für Teilmengenbeziehungen haben wir in der folgenden Inklusionskette N ( N0 ( Z ( Q ( R ( C. Dagegen ist etwa {3, 4} 6⊆ {1, 2, {3, 4}}, denn beispielsweise ist 3 kein Element der rechten Menge. 14 Mathematik für Ingenieure I, WS 2008/2009 Freitag 31.10.2008 Es gibt einen besonderen Randfall, der gelegentlich zu Verwirrungen führt. Ist beispielsweise die leere Menge eine Teilmenge von {1, 2, 3}, gilt also ∅ ⊆ {1, 2, 3}? Definitionsgemäß bedeutet dies, dass jedes Element x der leeren Menge auch ein Element von {1, 2, 3} ist, und dies ist tatsächlich wahr obwohl es überhaupt keine Elemente in der leeren Menge gibt. Dies kann man auf verschiedene Arten begründen, am einfachsten ist es auf Zweifel zu fragen wo denn ein Element x ∈ ∅ sei, für das nicht x ∈ {1, 2, 3} gilt? Etwas formaler können wir uns auch daran erinnern, dass ∅ ⊆ {1, 2, 3} bedeutet das die Aussage (x ∈ ∅) ⇒ (x ∈ {1, 2, 3}) für jedes mathematische Objekt wahr ist, und dies trifft tatsächlich zu, denn für jedes mathematische Objekt ist x ∈ ∅ falsch, also ist die Implikation (x ∈ ∅) ⇒ (x ∈ {1, 2, 3}) wie in §1 festgelegt tatsächlich wahr. Dieselbe Argumentation zeigt natürlich ∅ ⊆ M für überhaupt jede Menge M . Zum Abschluß dieses Abschnitts wollen wir den folgenden sehr einfachen, aber oft verwendeten, Satz einsehen: Satz 3.1 (Kennzeichnung der Gleichheit durch Inklusion) Seien M, N zwei Mengen. Dann ist genau dann M = N wenn M ⊆ N und N ⊆ M gelten. Beweis: ”=⇒” Ist M = N , so ist offenbar insbesondere M ⊆ N und N ⊆ M . ”⇐=” Nehme M ⊆ N und N ⊆ M an. Sei x ein mathematisches Objekt. Ist dann x ∈ M , so ist wegen M ⊆ N auch x ∈ N . Ist andererseits x ∈ N , so ist wegen N ⊆ M auch x ∈ M . Damit haben M und N dieselben Elemente, und dies bedeutet M = N . 3.2 Operationen mit Mengen Aus bereits vorhandenen Mengen können auf verschiedene Weisen neue Mengen gebildet werden. Die grundlegendensten dieser Konstruktionen sind dabei die Vereinigung, der Durchschitt und das relative Komplement. Wir werden sehen, dass die ersten beiden dieser Operationen in gewissen Sinne den logischen Junktoren oder“ sowie und“ ” ” entsprechen. Daher werden für sie auch die Symbole ∪“ und ∩“ verwendet, die an ” ” die entsprechenden logischen Symbole ∨“ und ∧“ erinnern sollen. ” ” Definition 3.3: Seien M und N zwei Mengen. Die Vereinigung von M und N , geschrieben als M ∪ N , ist dann die Menge aller mathematischen Objekte x, die in einer der beiden Mengen M oder N liegen. Der Durchschnitt von M und N , geschrieben als M ∩ N ist die Menge all derjenigen mathematischen Objekte, die sowohl in M als auch in N liegen. Das relative Komplement von N in M , geschrieben als M \N , ist schließlich die Menge aller Elemente x von M , die nicht in der Menge N liegen. 15 Mathematik für Ingenieure I, WS 2008/2009 Freitag 31.10.2008 In unser oben eingeführten Notation {. . . | . . .} können wir diese drei Mengen auch als M ∪ N = {x|x ∈ M ∨ x ∈ N }, M ∩ N = {x|x ∈ M ∧ x ∈ N }, M \N = {x ∈ M |x ∈ / N} schreiben. Gelegentlich spricht man auch einfach von Komplement einer Menge N , dies meint dann das relative Komplement von N in einer aus dem Kontext heraus gegebenen festen Obermenge M . Dagegen gibt es kein absolutes Komplement von N , da der Ausdruck {x|x ∈ / N } eine jener freien Mengenbildungen ist, die wir ja nicht zugelassen haben. Die Analogie zwischen ∪“ und oder“ sowie zwischen ∩“ und und“ ” ” ” ” wird noch deutleicher, wenn wir Vereinigungen und Schnitte von durch Bedingungen A(x) und B(x) aus einer Menge M gebildeten Teilmengen betrachten. Sind M eine Menge und A(x), B(x) zwei Aussagen jeweils mit einer freien Variablen x, so haben wir offenbar {x ∈ M |A(x)} ∪ {x ∈ M |B(x)} = {x ∈ M |A(x) ∨ B(x)}, {x ∈ M |A(x)} ∩ {x ∈ M |B(x)} = {x ∈ M |A(x) ∧ B(x)}. Die eben eingeführten Grundoperationen zwischen Mengen erfüllen eine Vielzahl einfacher Gleichungen, die wir hier nicht alle auflisten wollen. Einige davon, wie beispielsweise die beiden Distributivgesetze A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C), A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C), werden wir als Übungsaufgaben behandeln. An dieser Stelle wollen wir nur exemplarisch die sogenannten de Morganschen Regeln für Mengen notieren und beweisen. Satz 3.2 (De Morgansche Regeln für Mengen) Seien M, A, B drei Mengen. Dann gelten: (a) Es ist M \(A ∪ B) = (M \A) ∩ (M \B). (b) Es ist M \(A ∩ B) = (M \A) ∪ (M \B). Beweis: Mit der entsprechenden de Morganschen Regel §1.Satz 1 für Aussagen haben wir M \(A ∪ B) = = = = = = = {x ∈ M |x ∈ / (A ∪ B)} {x ∈ M |¬(x ∈ A ∪ B)} {x ∈ M |¬(x ∈ A ∨ x ∈ B)} {x ∈ M |(¬x ∈ A) ∧ (¬x ∈ B)} {x ∈ M |x ∈ / A∧x∈ / B} {x ∈ M |x ∈ / A} ∩ {x ∈ M |x ∈ / B} (M \A) ∩ (M \B). 16 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 Diese Gleichungskette beweist Teil (a) des Satzes, und Teil (b) folgt analog. Die letzte noch zu diskutierende Mengenoperation ist von etwas anderer Natur als die bisher beschriebenen Konstruktionen. Definition 3.4: Seien M, N zwei Mengen. Das cartesische Produkt von M und N , geschrieben als M × N , ist dann die Menge aller Paare M × N = {(x, y)|x ∈ M, y ∈ N }. Analog können wir auch für endlich viele gegebene Mengen M1 , . . . , Mn ein cartesisches Produkt von M1 , . . . , Mn als eine Menge von sogenannten n-Tupeln M1 × · · · × Mn = {(x1 , . . . , xn )|x1 ∈ M1 , . . . , xn ∈ Mn } definieren. Im speziellen Fall M1 = . . . = Mn =: M schreiben wir dann auch M n := M · · × M} . | × ·{z n mal In der Tupelsprechweise ist ein Paar (x, y) dann ein 2-Tupel. Weiter werden 3-Tupel (x, y, z) gelegentlich als Tripel und 4-Tupel (x, y, u, v) als Quadrupel bezeichnet. Entsprechend haben wir dann auch Quintupel und so weiter, aber bereits die Bezeichnung Quadrupel wird eher selten verwendet. Für uns besonders wichtige Beispiele cartesischer Produkte sind die Menge R2 = R × R = {(x, y)|x, y ∈ R} der Punkte der Ebene sowie die Menge R3 = R × R × R = {(x, y, z)|x, y, z ∈ R} der Punkte des Raumes. Durch Kombination von cartesischen Produkten und Teilmengenbildung können wir nun auch kompliziertere geometrische Gebilde als Mengen hinschreiben, etwa 2 y2 2 x E := (x, y) ∈ R 2 + 2 = 1 a b die Ellipse mit Hauptachsen der Längen a, b > 0 (hier wird nur die Kurve selbst, nicht aber ihr Inneres als Ellipse bezeichnet) oder die Einheitskugel {(x, y, z) ∈ R3 |x2 + y 2 + z 2 ≤ 1} im Raum R3 . Derartige Dinge werden wir aber erst später in diesem Semester diskutieren, insbesondere ist es an dieser Stelle nicht weiter tragisch wenn ihnen die geometrischen Interpretationen der eben beschriebenen Mengen nicht geläufig sind. 17 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 Vorlesung 4, Dienstag 4.11.2008 Zusammenfassend haben wir damit die folgenden Operationen für Mengen definiert: 3.3 Vereinigung M ∪N {x|x ∈ M ∨ x ∈ N } Durchschnitt M ∩N {x|x ∈ M ∧ x ∈ N } Komplement M \N {x ∈ M |x ∈ / N} Produkt M ×N {(x, y)|x ∈ M, y ∈ N } Abbildungen und Relationen Definition 3.5: Seien n ∈ N eine natürliche Zahl und M1 , . . . , Mn gegebene Mengen. Eine Relation R auf M1 , . . . , Mn ist eine Teilmenge R ⊆ M1 × · · · × Mn . Wir sprechen auch von einer n-stelligen Relation, da R aus n-Tupeln besteht. Beachte das die Angabe der Mengen M1 , . . . , Mn etwas willkürlich ist, wir können jederzeit zu größeren Mengen M10 ⊇ M1 , . . . , Mn0 ⊇ Mn übergehen und R ist dann offenbar auch eine Relation auf M10 , . . . , Mn0 . Insbesondere können wir immer M1 = . . . = Mn = M annehmen, d.h. das alle Mengen M1 , . . . , Mn gleich sind, indem wir etwa zu M = M1 ∪. . .∪Mn übergehen. Weiter könnten wir eine n-stellige Relation damit auch einfach als eine Menge von n-Tupeln definieren, ohne von den Mengen M1 , . . . , Mn überhaupt zu sprechen. Allerdings gibt es oftmals eine aus dem Kontext heraus gegebene Wahl der Mengen M1 , . . . , Mn so, dass es sinnvoll erscheint, diese auch in der Definition einer Relation zu bennenen. Wir wollen nun einige Beispiele von Relationen durchgehen. Dabei beginnen wir mit für die Mathematik typischen Relationen, und diese sind in der Regel zweistellig, d.h. in unserer obigen Definition haben wir n = 2. Die Ordnung der reellen Zahlen ergibt eine Relation R := {(x, y) ∈ R2 |x ≤ y} ⊆ R2 . Tatsächlich pflegt man in der Mathematik den Ordnungsbegriff dem allgemeinen Relationsbegriff unterzuordnen, d.h. man definiert die Ordnung der reellen Zahlen überhaupt als die obige Relation R und fasst die Notation x ≤ y einfach als eine Schreibweise für (x, y) ∈ R auf. Dann wird R =≤ die Ordnung der reellen Zahlen. Eine andere nützliche Relation, die Sie wahrscheinlich noch aus der Schule kennen, ist die Kongruenz 18 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 von Dreiecken. In diesem Fall sind M = M1 = M2 beides die Menge der Dreiecke in der Ebene, und wir haben die sogenannte Kongruenzrelation R = {(∆1 , ∆2 ) ∈ M × M |∆1 und ∆2 sind zwei kongruente Dreiecke}. Diese Relation ist hilfreich, da kongruente Dreiecke ja in vielerlei Hinsicht dieselben geometrischen Eigenschaften haben. Wir wollen nun noch ein Beispiel eines etwas anderen Typs einer Relation betrachten, das zwar in der Mathematik keine Rolle spielt, aber außerhalb dieser von Bedeutung ist. Außerdem ermöglich es uns dieses Beispiel die Verwendung kartesischer Produkte in der in §1 diskutierten mathematischen Modellierung zu demonstrieren. Wir werden kurz an einem Beispiel die Verwendung des Relationenbegriffs in sogenannten relationalen Datenbanken“ beschreiben, natürlich ohne allzu sehr auf technische De” tails einzugehen. Konkret wollen wir hier eine Menge von Studenten als eine Relation betrachten. Wir bereits bemerkt, stellen wir uns immer auf den Standpunkt keine Mengen realer, physikalischer Objekte zu erlauben, und daher können wir nicht direkt eine Menge von Studenten einführen. Anstelle dessen gehen wir zu einer mathematischen Beschreibung über, d.h. wir führen eine Modellierung wie in §1 geschildert, durch. Dies deckt sich mit dem Vorgehen bei der Verwendung realer Datenbanken, die Erfassung der relavanten Daten über die zu beschreibenden Objekte, in unserem Beispiel also die Studenten, ist ein spezieller Fall einer mathematischen Modellierung. Wie wollen wir nun einen Studenten beschreiben? Wie wählen hier die einfachste Methode und beschreiben einen jeden Studenten durch einen Datensatz (Id,Matrikelnummer,Name,Geburtsdatum,Semester,Studiengang). Dabei interpretieren wir die Einträge Matrikelnummer und Semester als natürliche Zahlen, also als Elemente von N. Den Eintrag Studiengang interpretieren wir ebenfalls als eine natürliche Zahl, etwa indem wir alle möglichen Studiengänge einfach durchnumerieren. Der Name des Studenten Name entstammt einer Menge S von Strings, also Zeichenketten, die wir uns hier der Einfachheit halber als vorgegeben denken. Das Geburtsdatum interpretieren wir dagegen als eine natürliche Zahl, etwa indem wir ein jedes Datum durch die Anzahl der Tage seit dem ersten Januar des Jahres 1900 beschreiben, dies sollte ausreichen alle derzeit lebenden Studenten zu erfassen. Der letzt Eintrag Id ist einfach eine natürliche Zahl, die diesen Studenten eindeutig kennzeichnet. Je nach geplanten Verwendungszweck könnten wir hierfür auch die Matrikelnummer verwenden, eine davon unabhängige Nummer erlaubt es uns aber auch beispielsweise nicht mehr immatrikulierte Studenten zu erfassen. Die gesamte Beschreibung eines Studenten, also das volle oben angegebene 6-Tupel ist dann ein Element des kartesischen Produkts N × N × S × N × N × N. Technische Details ignorieren wir hierbei, in realen Datenbanken müsste man sich über die erlaubten Wertebereiche der verschiedenen auftretenden Zahlen Gedanken machen, 19 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 man sollte sich für eine Stringcodierung sowie für eine maximale Namenslänge entscheiden, und so weiter. Eine Menge von Studenten, beziehungsweise genauer von Beschreibungen von Studenten, wird nun eine Teilmenge S ⊆ N × N × S × N × N × N des obigen kartesischen Produkts, also eine sechsstellige Relation. Notiert denken wir uns diese üblicherweise in einer Tabelle, etwa wie folgt 1 2 3 . . . 456123 673961 987543 Burg, Klemens Haf, Herbert Wille, Friedrich 26123 27467 25939 3 2 1 1 2 1 Die Reihenfolge in der die Zeilen dieser Tabelle aufgelistet werden spielt keine Rolle, es handelt sich um eine Menge von Studenten, und nicht um eine irgendwie geordnete Liste. Es darf in der Tabelle keine zwei identischen Zeilen geben. Diese Einschränkung gibt es übrigens auch in den Tafeln einer realen, relationalen Datenbank, die Tafeln repräsentieren eben Mengen und keine Listen. Die mit dieser Tabellensichtweise verbundene Vorstellung ist es sich ein Tupel, also ein Element eines kartesischen Produktes, als einen Datensatz vorzustellen, also als eine Zeile in einer Tabelle, und Relationen werden dann zu Tabellen. Diese Vorstellung können wir auch in anderen Situation verwenden, zum Beispiel können wir uns einen Punkt (1, 2, −1) ∈ R3 im Raum auch als eine Beschreibung {x = 1, y = 2, z = −1} interpretieren. Für die Mathematik ist diese Vorstellung aber in der Regel nicht sehr hilfreich. Unsere mengentheoretischen Operationen, also Vereinigen, Schneiden, das Bilden von Teilmengen und so weiter treten nun tatsächlich bei der Verwendung relationaler Datenbanken auf. Haben wir beispielsweise eine Menge Studenten von Studenten gegeben und interessieren uns für die Teilmenge aller dieser Studenten, die im ersten oder zweiten Semester sind, also in mengentheoretischer Notation {(i, m, n, d, s, f ) ∈ Studenten|s ∈ {1, 2}}, so können wir diese mathematische Notation in der üblichen Abfragesprache (SQL), auch als SELECT * FROM Studenten WHERE semester <= 2 formulieren. Die Formulierung SELECT * FROM Studenten“ ist dabei die Aufforde” rung eine Teilmenge der Relation Studenten zu bilden, und hinter dem Schlüsselwort WHERE“ wird die, die Teilmenge definierende Bedingung angegeben. In unserer obigen ” Beispieltabelle wäre die Antwort 2 3 . . . 673961 987543 Haf, Herbert Wille, Friedrich 20 27467 25939 2 1 2 1 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 Suchen wir dagegen beispielsweise alle Studenten im Studiengang Elektrotechnik, so können wir diese durch eine zu obigem Kommando analoge Anfrage SELECT * FROM ” Studenten WHERE fach=1“ erhalten, wobei angenommen sei, dass der Srudiengang Elektrotechnik die Nummer 1 erhalten hat. In unserem Beispiel sind dies 1 3 . . . 456123 987543 Burg, Klemens Wille, Friedrich 26123 25939 3 1 1 1 Wollen wir nun alle Studenten, die beide Bedingungen erfüllen, also Studenten der Elektrotechnik im ersten oder zweiten Semester, so müssen wir den mengentheoretischen Durchschnitt der beiden eben erhaltenen Mengen bilden. Wir hatten bereits die Beziehung {x ∈ M |A(x)} ∩ {x ∈ M |B(x)} = {x ∈ M |A(x) ∩ B(x)} zwischen Durchschnitt und dem logischen Junktor und“ festgehalten, und unter Ver” wendung dieser Beziehung erhalten wir die Abfrage SELECT * FROM Studenten WHERE semester <= 2 AND fach = 1 mit Ergebnistabelle 3 . . . 987543 Wille, Friedrich 25939 1 1 Wir werden dieses Beispiel später noch etwas fortsetzen. Wir kommen nun zu den Operationen wie Hintereinanderausführung und Inversion von Relationen. Diese sind hauptsächlich für zweistellige Relationen von Interesse, und zu ihrem Verständnis ist eine weitere Veranschaulichung speziell zweistelliger Relationen hilfreich. Wir können uns eine Relation R ⊆ M × N als eine Menge von Pfeilen von Elementen von M zu Elementen von N vorstellen, indem wir jedes Element (x, y) ∈ R ⊆ M × N als einen Pfeil von x nach y interpretieren. Haben wir zum Beispiel M = N = {1, 2, 3, 4}, so veranschaulicht 21 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 die Relation R = {(1, 1), (2, 1), (2, 2), (3, 4), (4, 4)} wobei wir uns die vier Elemente von M beziehungsweise N von oben nach unten durchnumeriert denken. Definition 3.6: Sei R ⊆ M × N eine Relation. Dann heißt die Menge R−1 := {(y, x)|(x, y) ∈ R} ⊆ N × M die zu R inverse Relation. In unserem Pfeilbild entspricht das Bilden der Inversen einer Relation einfach dem Umdrehen aller Pfeile, in unserem obigen Beispiel ist etwa R−1 = {(1, 1), (1, 2), (2, 2), (4, 3), (4, 4)}, und im Pfeilbild ist dies Die andere Operation auf Relationen ist das Bilden der Hintereinanderausführung: Definition 3.7: Seien A, B, C drei Mengen und R ⊆ A × B, S ⊆ B × C Relationen. Die Hintereinanderausführung von R und S ist dann die Relation S ◦ R := {(a, c) ∈ A × C|Es gibt ein b ∈ B mit (a, b) ∈ R und (b, c) ∈ S} ⊆ A × C. Alternativ spricht man auch vom Produkt oder der Komposition von R und S. Diese Definition wird im Pfeilbild klarer. Wir betrachten die folgende Situation: 22 Mathematik für Ingenieure I, WS 2008/2009 R A Dienstag 4.11.2008 S C B Dabei ist A = B = {1, 2, 3, 4}, C = {1, 2, 3}, R ist wieder die schon oben als Beispiel verwendete Relation und S ist die Relation S = {(2, 1), (3, 1), (3, 2), (4, 3)}. Die Elemente von S ◦ R sind jetzt alle Paare (a, c) ∈ A × C = {1, 2, 3, 4} × {1, 2, 3}, so dass es zunächst einen Pfeil von a zu einem Punkt b ∈ B = {1, 2, 3, 4} gibt, und es weiter auch einen Pfeil von b nach c gibt. Wir setzen also auf alle möglichen Weisen Pfeile aus S an Pfeile aus R und gucken uns dann nur noch die Start- und Endpunkte dieser kombinierten Pfeile an. In unserem Beispiel sind dies R A S B C und die Hintereinanderausführung von R und S wird zu S ◦ R = {(2, 1), (3, 3), (4, 3)}. Die Bedeutung der Hintereinanderausführung für unsere Zwecke wird erst im Zusammenhang mit Abbildungen klar werden. Die verschiedenen Operationen auf Relationen haben allerdings auch einige durchaus praktische Anwendungen, beispielsweise im Zusammenhang mit den bereits oben als Beispiel verwendeten relationalen Datenbanken. Wir wollen unser obiges Beispiel der Studenten Tabelle weiter ausbauen, wir brauchen 23 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 ja mehrere Relationen um Beispiele von Hintereinanderausführungen zu diskutieren. Wir denken uns eine weitere Tafel Vorlesungen zur Beschreibung von Vorlesungen gegeben. Für die Zwecke unseres Beispiels wollen wir eine Vorlesung durch ein 4-Tupel (Id,Name,Zeit,Raum) beschreiben. Wir könnten beispielsweise die folgende Tabelle vorliegen haben 1 2 . . . Elektrotechnik I Mathematik I Di. 16.15--17.45 Do. 14.15--15.45 CAP3, Raum 1 Audimax H Natürlich sollte nun auch erfasst werden, welche Studenten welche Vorlesung besuchen. Dies können wir beispielsweise durch Einrichten einer weiteren, diesmal zweistelligen, Relation Teilnehmer erreichen, die einfach Paare (Vorlesung.Id,Student.Id) enthält. Besuchen beispielsweise die Studenten Burgm Klemens und Wille, Friedrich die Vorlesung Elektrotechnik I und Burg, Klemens sowie Haf, Herbert die Vorlesung Mathematik I, so wird unsere Teilnehmer Relation zu 1 1 2 2 1 3 1 2 Nehmen wir nun an, wir möchten einen vollständigen Stundenplan aller Studenten aufstellen, d.h. für jeden der vorhandenen Studenten auflisten zu welcher Zeit sie oder er sich in welchem Raum befindet, oder zumindest befinden sollte. Wir wollen also eine Tabelle von Tripeln (Student.Name,Vorlesung.Raum,Vorlesung.Zeit) konstruieren, wobei ein solcher Eintrag bedeutet, dass sich der Student mit dem Namen Student.name zur Zeit Vorlesung.Zeit im Raum Vorlesung.Raum befindet. Solch ein Tripel wird in unsere Liste aufgenommen, wenn die Tafel Teilnehmer einen Eintrag (Vorlesung.Id,Student.Id) enthält, denn diese Tafel listet ja gerade die Teilnehmer der verschiedenen Vorlesungen auf. Was hat das mit der Hintereinanderausführung von Relationen zu tun? Zu diesem Zweck denken wir uns die Relation Studenten als eine Teilmenge des kartesischen Produkts N × M indem wir die hinteren fünf Einträge in einem einzigen 5-Tupel zusammenfassen, also M = N × S × N × N × N. Ebenso denken 24 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 4.11.2008 wir uns Vorlesung als eine Teilmenge des kartesischen Produkts N × N , wobei N für die hinteren drei Komponenten einer Vorlesung steht. Sind s ein Student und v eine Vorlesung, geschrieben als s =(s.Id,s.M) und v =(v.Id,v.N), wobei s.M und v.N für die hinteren fünf beziehungsweise drei Komponenten von s beziehungsweise v stehen, so müssen wir (s, v) genau dann in usere Liste aufnehmen, wenn es einen Eintrag t = (n, m) in Teilnehmer gibt so, daß s.Id= m und v.Id= n ist. Wir brauchen also einen zusammengesetzten Pfeil, wie im folgenden Bild angedeutet −1 Vorlesung N Teilnehmer IN Studenten IN M Wir müssen also die Relation Student ◦ Teilnehmer ◦ Vorlesung−1 bilden. Für unser konkretes Beispiel müssen anschließend noch die zur Anzeige vorgesehenen Spalten unserer Tabellen ausgewählt werden. Ein SQL Kommando um all dies zu erreichen wäre etwa SELECT FROM WHERE Student.Name, Raum, Zeit Student,Vorlesungen,Teilnehmer Teilnehmer.vorlesung id = Vorlesung.Id AND Teilnehmer.student id = Student.Id Als Ausgabe für unsere Beispieldaten ergibt sich Burg, Klemens Wille, Friedrich Burg, Klemens Haf, Herbert . . . CAP3, Raum 1 CAP3, Raum 1 Audimax H Audimax H Di. Di. Do. Do. 16.15-17.45 16.15-17.45 14.15-15.45 14.15-15.45 Dabei wollen wir die Beispiele für Relationen beenden und uns nun dem Abbildungsbegriff zuwenden. Dabei ist das Wort Abbildung“ einfach ein Synonym für das et” was vertrautere Wort Funktion“. Die Ihnen wahrscheinlich aus der Schule bekannte ” Definition einer Funktion f erklärt diese als eine Abbildungsvorschrift, die jedem Element x des Definitionsbereichs der Funktion ein Element f (x) des Wertebereichs der Funktion zuordnet. Allerdings ist die Funktion dann doch nicht wirklich gleich der 25 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 Abbildungsvorschrift sondern der durch sie gegebenen Wirkung, zwei völlig verschiedene aussehende Abbildungsvorschriften können ja exakt dieselben Werte liefern, und sollten damit natürlich auch dieselbe Funktion sein. Beispielsweise werden Sie als eine Übung einsehen, dass die beiden für n ∈ N erklärten Abbildungsvorschriften f (n) = 12 + 22 + . . . + n2 und n(n + 1)(2n + 1) 6 genau dieselbe Funktion beschreiben. Die Abbildungsvorschrift selbst zur Funktion zu ernennen scheint also ein etwas unpassender Ansatz zu sein. Ein weiteres Argument das gegen diese Idee spricht, ist, dass wir dann den Begriff einer Abbildungsvorschrift als einen weiteren Grundbegriff akzeptieren müssten. Das kann man natürlich tun, aber wie sich herausstellt ist dies überhaupt nicht nötig. Die seit inzwischen fast 100 Jahren in der Mathematik verwendete Definition einer Funktion, oder Abbildung, erwähnt das Konzept einer Abbildungsvorschrift nicht einmal mehr, sondern interpretiert Funktionen als eine spezielle Sorte zweistelliger Relationen. g(n) = Definition 3.8: Seien M, N zwei Mengen. Eine Abbildung f von M nach N , geschrieben als f : M → N , ist eine zweistellige Relation f ⊆ M × N , die die folgende Bedingung erfüllt: Für jedes x ∈ M gibt es genau ein Element y ∈ N mit (x, y) ∈ f . Wir schreiben dann auch f (x) für dieses eindeutige Element y ∈ N . Mit der Schreibweise f (x) für x ∈ M ist dann f = {(x, f (x))|x ∈ M } ⊆ M × N. Natürlich spielt die Idee einer Abbildungsvorschrift weiter eine Rolle, aber nicht mehr in der Definition einer Abbildung, sondern bei der Beschreibung konkret gegebener Funktionen. Bezeichnet F (x) eine Abbildungsvorschrift mit freier Variablen x, also beispielsweise eine Formel in der x als freie Variable vorkommt, so bezeichnen wir mit f : M → N ; x 7→ F (x) die Funktion f := {(x, F (x))|x ∈ M }, d.h. diejenige Funktion, deren Werte f (x) sich gemäß der gegebenen Formel als f (x) = F (x) berechnen. Beispielsweise steht f : R → R; x 7→ x2 für die Funktion f = {(x, x2 )|x ∈ R} ⊆ R2 . In unserer Pfeilinterpretation einer zweistelligen Relation, bedeutet die eine Abbildung definierende Eigenschaft gerade, dass von jedem Punkt der linken Seite genau ein Pfeil zur rechten Seite startet. In der nächsten Sitzung werden wir uns noch einige weitere Beispiele anschauen und den Abbildungsbegriff näher untersuchen. 26 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 Vorlesung 5, Freitag 7.11.2008 Die eine Funktion definierende Abbildungsvorschrift braucht nicht eine einfache Formel zu sein, auch kompliziertere Konstruktionsvorschriften sind zugelassen. Betrachte beispielsweise die folgende Abbildung ( q, Es ist 0 6= x = pq mit teilerfremden p ∈ Z, q ∈ N, f : Q → N; x 7→ 1, x = 0. Eine gegebene rationale Zahl x 6= 0 müssen wir also als ausgekürzten Bruch x = p/q schreiben, wobei die Vorzeichen von p und q so normiert sind das p ∈ Z und q ∈ N ist. In dieser Darstellung sind der Zähler p sowie der Nenner q eindeutig durch x festgelegt, und damit ist f (x) = q ein ein eindeutig definierter Funktionswert. Beispielsweise sind 1 4 f (1) = 1, f (2) = 2, f − = 2, f = 3, 2 12 wobei letzterer Wert zustande kommt da 1/3 die ausgekürzte Form von 4/12 ist. Gelegentlich werden Funktionen tatsächlich direkt als Mengen von Paaren definiert. Betrachte zum Beispiel die Menge f := {(x, y) ∈ R2 |xy = 1} ⊆ R2 . Dann ist f ⊆ (R\{0}) × R und für jedes 0 6= x ∈ R gibt es genau ein y ∈ R mit (x, y) ∈ f , d.h. mit xy = 1, nämlich y = 1/x. Also ist f gleich der Funktion f : R\{0} → R; x 7→ 1 . x Wir wollen nun noch einige kleine im Zusammenhang mit Funktionen, und auch mit Relationen, auftretende Schreibweisen einführen. Wir beginnen mit dem Bild einer Teilmenge unter einer Relation. Definition 3.9: Seien M, N zwei Mengen und R ⊆ M × N eine Relation. Ist dann A ⊆ M eine Teilmenge, so definieren wir das Bild von A unter R als die Teilmenge R(A) := {y ∈ M |Es gibt ein x ∈ A mit (x, y) ∈ R} ⊆ N. Im Pfeilbild betrachten wir also alle Pfeile in R, die bei einem Element aus A starten, und die Gesamtheit der Endpunkte all dieser Pfeile ist das Bild R(A) ⊆ N . 27 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 R R(A) A M N In diesem Beispiel sind M = N = {1, 2, 3, 4}, R = {(1, 1), (2, 1), (2, 2), (4, 3), (4, 4)} und A = {1, 2}. Bei Elementen aus A startende Pfeile sind dann (1, 1), (2, 1) und (2, 2), d.h. die Bildmenge von A unter R ist in diesm Fall R(A) = {1, 2}. Bildmengen und Hintereinanderausführungen von Relationen sind gut miteinander verträglich, wie durch den folgenden Satz gezeigt wird: Satz 3.3: Seien A, B, C drei Mengen und R ⊆ A × B, S ⊆ B × C zwei Relationen. Für jede Teilmenge U ⊆ A ist dann (S ◦ R)(A) = S(R(A)). Beweis: Sei U ⊆ A eine Teilmenge. Dann gilt: (S ◦ R)(U ) = = = = {c ∈ C|Es gibt ein a ∈ U mit (a, c) ∈ S ◦ R} {c ∈ C|Es gibt a ∈ U und b ∈ B mit (a, b) ∈ R und (b, c) ∈ S} {c ∈ C|Es gibt ein b ∈ R(U ) mit (b, c) ∈ S} S(R(U )). Für Bilder unter Funktionen vereinfacht sich die Definition der Bildmenge wesentlich. Sind f : M → N eine Funktion und A ⊆ M eine Teilmenge, so haben wir f (A) = {y ∈ N |Es gibt ein x ∈ A mit (x, y) ∈ f } = {y ∈ N |Es gibt ein x ∈ A mit y = f (x)} = {f (x)|x ∈ A}. Insbesondere folgt für jedes x ∈ M damit f ({x}) = {f (u)|u ∈ {x}} = {f (x)}. Sind also f : M → N und g : N → P zwei Abbildungen, so folgt für jedes x ∈ M mit dieser 28 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 Beobachtung und Satz 3 (g ◦ f )({x}) = g(f ({x})) = g({f (x)}) = {g(f (x))}. Da andererseits (g ◦ f )({x}) die Menge aller z ∈ P mit (x, z) ∈ g ◦ f ist, ist g ◦ f somit wieder eine Abbildung mit (g ◦ f )(x) = g(f (x)) für alle x ∈ M . Die Hintereinanderausführung zweier Abbildungen ist also wieder eine Abbildung, deren Abbildungsvorschrift durch Zusammensetzen der Abbildungsvorschriften von f und g entsteht. Damit ist die Hintereinanderausführung ◦“ eine Konstruktion aus bereits vor” handenen Abbildungen neue zu bilden. Wir wollen hier noch eine weitere solche Konstruktionsmethode festhalten, die sogenannte Einschränkung. Bei dieser haben wir eine Abbildung f : M → N zwischen zwei Mengen M und N gegeben und betrachten außerdem eine Teilmenge A ⊆ M von M . Dann erhalten wir eine neue Funktion indem wir uns nur noch anschauen wie f die Elemente der Teilmenge A abbildet. Dies ist die sogenannte Einschränkung, oder auch Restriktion, von f auf A geschrieben als f |A : A → N ; x 7→ f (x). Noch einfacher, aber etwas geheimnisvoller aussehend, wird dies wenn wir die betreffenden Abbildungen einfach als Mengen hinschreiben, dann ist nämlich f |A = f ∩(A×N ). Zum Abschluss dieses Abschnitts wollen wir nun einige im Zusammenhang mit Abbildungen verwendete Begriffe festhalten: Definition 3.10: Seien M, N zwei Mengen und f : M → N eine Abbildung. Dann nennen wir die Menge dom(f ) := M = {x|Es gibt ein y mit (x, y) ∈ f } den Definitionsbereich von f . Gelegentlich sprich man auch vom Urbildbereich von f . Weiter heißt Bild(f ) := f (M ) = {f (x)|x ∈ M } ⊆ N das Bild von f . Im allgemeinen ist Bild(f ) ( N eine echte Teilmenge von N , und wir nennen die Abbildung f surjektiv wenn Bild(f ) = N ist, d.h. wenn jedes Element von N tatsächlich als Wert der Funktion f auftritt. Weiter heißt f injektiv, wenn für alle x, y ∈ M mit x 6= y stets auch f (x) 6= f (y) ist. Schließlich nennen wir f bijektiv, wenn f sowohl surjektiv als auch injektiv ist. Streng genommen müßten wir von der Surjektivität der Abbildung f bezüglich N reden, denn f selbst legt zwar die Urbildmenge M , nicht aber die Menge N , eindeutig fest. Die Injektivität einer Abbildung bedeutet, dass die Aussage x 6= y ⇒ f (x) 6= f (y) für alle x, y ∈ M wahr ist. Verwenden wir das Kontrapositionsprinzip §1.Satz 3, so sehen wir das man gleichwertig auch f (x) = f (y) ⇒ x = y für alle x, y ∈ M verlangen kann. Die Surjektivität einer Abbildung f : M → N bedeutet dagegen, dass es für jedes y ∈ N ein x ∈ M mit f (x) = y gibt. Insgesamt ist f : M → N damit genau dann bijektiv, wenn es für jedes y ∈ N genau ein x ∈ M mit y = f (x) gibt. In anderen 29 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 Worten soll also die Gleichung f (x) = y für jedes gegebene y ∈ N eindeutig nach x ∈ M auflösbar sein. Surjektivität, Injektivität und Bijektivität einer Abbildung lassen sich auch gut in unserem Pfeilbild verstehen. Wir hatten bereits bemerkt, dass die definierende Eigenschaft einer Abbildung Für jedes x ∈ M existiert genau ein y ∈ N mit (x, y) ∈ f“ im ” Pfeilbild bedeutet das von jedem Punkt der linken Seite genau ein Pfeil startet. Dass f : M → N surjektiv ist bedeutet definitionsgemäß das für jedes y ∈ N ein x ∈ M mit y = f (x) existiert. Letzteres bedeutet (x, y) ∈ f also das f einen Pfeil von x nach y enthält. Also ist f genau dann surjektiv, wenn jedes Element der rechten Seite von einem Pfeil getroffen wird: nicht surjektiv surjektiv Wir kommen zur Beschreibung der Injektivität einer Abbildung im Pfeilbild. Wir hatten bereits festgehalten, dass f genau dann injektiv ist, wenn für alle x, y ∈ M aus f (x) = f (y) stets x = y folgt. Äquivalent hierzu ist, dass für jedes z ∈ N für alle x, y ∈ M mit f (x) = f (y) = z stets x = y ist, d.h. das es höchstens ein x ∈ M mit f (x) = z gibt. Da weiter f (x) = z nach Definition einfach (x, z) ∈ f bedeutet, können wir die letztgenannte Bedingung auch so aussprechen, dass jedes Element x ∈ N der rechten Seite von höchstens einem Pfeil getroffen wird: nicht injektiv injektiv Eine bijektive Abbildung ist nun gleichzeitig injektiv und surjektiv, und im Pfeilbild bedeutet dies das unsere Pfeile eine umkehrbar eindeutige Zuordnung der Elemente der 30 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 linken Seite zu den Elementen der rechten Seite vermitteln. In den Übungen werden Sie auch einige Beispiele zu Injektivität und Surjektivität für durch Formeln gegebene Funktionen durchrechnen. 3.4 Vollständige Induktion und endliche Mengen Die sogenannte vollständige Induktion ist Beweisverfahren für Aussagen über natürliche Zahlen. Abstrakt können wir diese Methode wie folgt beschreiben. Gegeben ist eine Aussage A(n) für natürliche Zahlen n ∈ N, und wir wollen zeigen, dass diese für alle n ∈ N zutrifft. Statt A(n) direkt zu beweisen werden dann die folgenden beiden Teilbehauptungen bewiesen: Induktionsanfang: Die Aussage A(1) ist wahr. Induktionsschluß: Ist n ∈ N eine natürliche Zahl und ist A(n) wahr, so ist auch die Aussage A(n + 1) wahr. Haben wir diese beiden Aussagen bewiesen, treffen also Induktionsanfang und Induktionsschluß beide zu, so besagt das Prinzip der vollständigen Induktion, dass unsere Aussage A(n) tatsächlich für jedes n ∈ N wahr ist. Dies wird klarer wenn wir die vollständige Induktion an einem konkreten Beispiel vorführen. Wir wollen zeigen, daß für jedes n ∈ N die Summe der ersten n natürlichen Zahlen gleich n(n + 1)/2 ist, d.h. das n(n + 1) (∗) 1 + 2 + . . . + n = 2 gilt. Unsere Behauptung ist hier also die Aussage A(n) = Es gilt 1 + 2 + . . . + n = ” n(n + 1) “ 2 für natürliche Zahlen n ∈ N. Dann prüfen wir der Reihe nach, dass Induktionsanfang und Induktionsschluß beide wahr sind: Induktionsanfang: Wegen 1 = ist wahr. 1·2 2 stimmt unsere Behauptung für n = 1, d.h. A(1) Induktionsschluß: Sei nun n ∈ N gegeben und nehme an, dass A(n) wahr ist, das also unsere Behauptung für n zutrifft. Es ist also bereits 1 + . . . + n = n(n + 1)/2. Dann rechnen wir: 1 + . . . + (n + 1) = 1 + . . . + n + (n + 1) n(n + 1) = +n+1 2 n(n + 1) + 2(n + 1) = 2 (n + 1)(n + 2) = , 2 31 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 und dies bedeutet das die behauptete Formel auch für n + 1 wahr ist, also das die Aussage A(n + 1) ebenfalls wahr ist. Per vollständiger Induktion ist (∗) damit allgemein für jedes n ∈ N bewiesen. In sehr vielen Induktionsbeweisen ist es aus der jeweiligen Behauptung unmittelbar klar, welche Aussage für A(n) verwendet wird, und in diesen Fällen verzichten wir meist darauf A(n) explizit einzuführen. Die oben durchgeführte explizite Trennung von Induktionsanfang und Induktionsschluß ist ein hauptsächlich bei der Bearbeitung von Übungsaufgaben verwendeter Stil. Normalerweise wird der obige Beweis eher im folgenden Stil notiert: Wegen 1 · 2/2 = 1 gilt (∗) für n = 1. Ist nun n ∈ N mit (∗) ” gegeben, so gilt auch . . ., d.h. (∗) trift auch für n + 1 anstelle von n zu. Per Induktion ist (∗) damit für jedes n ∈ N bewiesen“. Wir wollen nun kurz die Frage behandeln warum die vollständige Induktion überhaupt ein zulässiges Beweismittel ist. Eine heuristische Begründung, die auch bereits ausreichen sollte Sie von der Induktionsmethode zu überzeugen, kann man wie folgt beschreiben. Nach unserem Induktionsanfang wissen wir, dass zumindest A(1) zutrifft. Damit können wir aber den Induktionsschluß auf den speziellen Fall n = 1 anwenden, und erhalten das auch A(2) = A(1 + 1) wahr ist. Wenden wir den Induktionsschluß dann ein weiteres Mal, diesmal mit n = 2, an, so haben wir die Gültigkeit von A(3) = A(2 + 1). So fortfahrend sind dann auch A(4), A(5), . . . und immer so weiter wahr. Da wir so bei jeder natürlichen Zahl n ∈ N vorbeikommen, ist A(n) für jedes n ∈ N wahr. Das mag überzeugend klingen, und darf Ihnen durchaus als Begründung ausreichen, ist aber streng genommen kein Beweis. Wir haben ja das eigentliche Problem nur in die harmlos aussehenden Worte und immer so weiter“ verpackt, die obige Begründung ” ist also eher ein Verkaufstrick als ein wirkliches Argument. Da wir in dieser Vorlesung keine wirkliche Definition der natürlichen Zahlen angegeben haben, und dies auch im folgenden nicht tun werden, ist ein strenger Beweis des Induktionsverfahrens für uns überhaupt nicht möglich. Tatsächlich gibt es keinen bekannten Weg, der es vollständig vermeidet die eine oder andere Form des Induktionsbeweises als eines der Grundaxiome zu verwenden. Allerdings können wir das Induktionsprinzip sehr wohl auf ein noch einfacheres Grundprinzip zurückführen, das zu akzeptieren Ihnen keine Probleme bereiten sollte. Wir verwenden hier die folgende Grundannahme: Grundprinzip: Sind n ∈ N und endlich viele reelle Zahlen x1 , . . . , xn ∈ R gegeben, so gibt es unter diesen eine kleinste Zahl, d.h. es gibt ein 1 ≤ i ≤ n mit xi ≤ xj für alle 1 ≤ j ≤ n. In anderen Worten soll jede nichtleere, endliche Teilmenge ∅ = 6 M ⊆ R ein minimales, d.h. kleinstes, Element besitzen. Dieses Grundprinzip ist in gewissen Sinne einfacher als das Induktionsprinzip, da es ja nur von endlichen Mengen von Zahlen handelt, und 32 Mathematik für Ingenieure I, WS 2008/2009 Freitag 7.11.2008 nicht von der Gültigkeit von Aussagen für die unendlich vielen n ∈ N. Trotzdem reicht diese Annahme aus, die Induktion als Beweisverfahren vollständig zu begründen. Satz 3.4: Jede nichtleere Teilmenge ∅ = 6 M ⊆ N der natürlichen Zahlen hat ein minimales Element. Beweis: Sei also eine Teilmenge ∅ = 6 M ⊆ N gegeben. Wegen M 6= ∅ können wir ein Element m ∈ M wählen. Dann ist M ∩ {1, . . . , m} als Teilmenge der endlichen Menge {1, . . . , m} eine endliche Menge reeller Zahlen. Wegen m ∈ M ∩ {1, . . . , m} ist diese Menge auch nicht leer, und nach unserem Grundprinzip enthält sie ein minimales Element n ∈ M ∩ {1, . . . , m} ⊆ M . Wir wollen nun einsehen, das n sogar ein minimales Element von ganz M ist. Sei also k ∈ M gegeben. Ist dann k ≤ m, so gilt k ∈ M ∩ {1, . . . , m} und nach Wahl von n als minimales Element von M ∩ {1, . . . , m} ist damit n ≤ k. Andernfalls gilt k > m. Wegen n ∈ {1, . . . , m} ist dann n ≤ m < k, also ebenfalls n ≤ k. Damit ist n ein minimales Element von M und der Satz ist bewiesen. Nun ist es leicht aus diesem Satz die mengentheoretische Version des Induktionsprinzips herzuleiten: Satz 3.5 (Mengentheoretisches Induktionsprinzip) Sei M ⊆ N eine Teilmenge mit den folgenden beiden Eigenschaften: 1. Es ist 1 ∈ M . 2. Für jedes n ∈ M ist auch n + 1 ∈ M . Dann gilt bereits M = N. Beweis: Wir beweisen dies durch einen Widerspruchsbeweis. Nehme also an, es wäre doch M 6= N. Dann gibt es natürliche Zahlen n ∈ N mit n ∈ / M , d.h. es wäre N\M 6= ∅. Nach Satz 4 gibt es ein minimales Element n ∈ N\M von N\M , also insbesondere n∈ / M . Nach Bedingung (1) für die Menge M ist n 6= 1, also ist auch n − 1 ∈ N eine natürliche Zahl. Wegen n − 1 < n kann n − 1 kein Element von N\M sein, denn sonst wäre ja n ≤ n − 1 da n ein minimales Element von N\M ist. Folglich ist n − 1 ∈ M , und mit Bedingung (2) für M ergibt sich der Widerspruch n = (n − 1) + 1 ∈ M . Dieser Widerspruch beweist unsere Behauptung M = N. Mit diesem Satz können wir jetzt das Verfahren der vollständigen Induktion in seiner eingangs gegebenen Formulierung für Aussagen A(n) tatsächlich beweisen. Wir denken uns also die Aussagen A(n) als gegeben und nehme an, dass wir bereits den Induktionsanfang und den Induktionsschluß nachgewiesen haben. Dann definieren wir die folgende Menge natürlicher Zahlen M := {n ∈ N|A(n) ist wahr} ⊆ N. 33 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 Der Induktionsanfang besagt dann 1 ∈ M und der Induktionsschluß ergibt n + 1 ∈ M für jedes n ∈ M . Nach dem mengentheoretischen Induktionsprinzip Satz 5 ist damit bereits M = N, aber dies bedeute gerade das A(n) für jede natürliche Zahl n ∈ N wahr ist. Damit wollen wir die grundsätzliche Diskussion über das Prinzip der vollständigen Induktion beenden, und uns nun einigen kleinen Erweiterungen und Details zuwenden. Zunächst wollen wir uns über die Rolle des Induktionsanfangs klar werden, in den allermeisten Beispielen von Induktionsbeweisen ist der Induktionsanfang eine oft nahezu lächerlich wirkende Kleinigkeit, in unserem Beweis der Summenformel 1 + . . . + n = n(n + 1)/2 scheint es reichlich überflüssig, 1 = 1 · 2/2 explizit festzuhalten. Die eigentliche Arbeit bei einem Induktionsbeweis findet meist bei der Begründung des Induktionsschlusses statt. Trotzdem ist der Induktionsanfang unverzichtbar und absolut wesentlich. Denn der Induktionsschluß funktioniert erstaunlich oft auch bei völlig falschen Aussagen. Nehmen wir beispielsweise die offensichtlich falsche Behauptung n > n + 1 als unsere Aussage A(n). Der Induktionsschluß ist hier völlig unproblematisch machbar, ist ein n ∈ N mit n > n + 1 gegeben, so haben wir sofort auch n + 1 > (n + 1) + 1. Nur der Induktionsanfang steht hier zwischen uns und dem Beweis einer falschen Aussage durch vollständige Induktion. Vorlesung 6, Dienstag 11.11.2008 Dass es wirklich notwendig ist auch den Induktionsanfang zu überprüfen ist keinesfalls ein isoliertes Problem. Betrachten Sie beispielsweise den Fall, dass die Aussage A(n) für absolut jedes n ∈ N falsch ist. Wie wir in §1 vermerkt haben, ist eine Implikation A ⇒ B immer wahr wenn ihre Voraussetzung A falsch ist, ist also A(n) wie angenommen für jedes n ∈ N falsch, so ist die Implikation A(n) ⇒ A(n + 1) für jedes n ∈ N wahr. Der Induktionsschluß funktioniert also immer wenn die Aussage A(n) für jedes n ∈ N falsch ist. Häufig ist es nützlich das Induktionsprinzip ein klein wenig zu modifizieren, und wir wollen nun die gängigsten Varianten des Induktionsprinzips besprechen, und uns auch jeweils klarmachen das es sich tatsächlich um korrekte Beweismethoden handelt. Die erste dieser Varianten sind Induktionsbeweise, die ihren Induktionsanfang nicht bei 1 sondern bei einem anderem Startwert n0 haben. Dieses Induktionsprinzip folgt dem im folgenden beschriebenen Schema. Gegeben ist wieder eine Aussage A(n) für n ∈ N und zusätzlich eine natürliche Zahl n0 ∈ N. Dann zeigt man der Reihe nach: Induktionsanfang: Die Aussage A(n0 ) ist wahr. Induktionsschluß: Ist n ∈ N eine natürliche Zahl mit n ≥ n0 und ist A(n) wahr, so ist auch die Aussage A(n + 1) wahr. 34 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 Haben wir diese beiden Aussagen bewiesen, so besagt das modifizierte Induktionsprinzip das die Aussage A(n) für jedes n ∈ N mit n ≥ n0 wahr ist. Bevor wir uns klar machen das auch diese Variante des Induktionsprinzips in Ordnung ist wollen wir noch ein Beispiel vorführen. Wir wollen zeigen, dass für jedes n ∈ N mit n ≥ 4 stets 2n > 3n gilt. Die Aussage A(n) ist hier also 2n > 3n“ und wir haben n0 = 4. Nun überprüfen ” wir Induktionsanfang und Induktionsschluß. Induktionsanfang: Wegen 24 = 16 > 12 = 3 · 4 gilt die Aussage für n = 4 = n0 , d.h. wir haben A(n0 ). Induktionsschluß: Sei n ∈ N mit n ≥ 4 gegeben und nehme an, dass A(n) wahr ist, das also 2n > 3n gilt. Mit 3n ≥ 3 folgt dann auch 2n+1 = 2 · 2n > 2 · 3n = 3n + 3n ≥ 3n + 3 = 3(n + 1), und dies bedeutet das die Behauptung auch für n + 1 gilt, beziehungsweise das A(n + 1) wahr ist. Unser verallgemeinertes Induktionsprinzip liefert damit 2n > 3n tatsächlich für alle n ≥ 4 wahr ist. Dass auch dieses verallgemeinerte Induktionsprinzip eine korrekte Beweismethode ist, können wir einsehen indem wir es auf das gewöhnliche Verfahren der vollständigen Induktion zurückführen. Nehme also an, dass wir ein n0 ∈ N und eine Aussage A(n) haben, die die Bedingungen des verallgemeinerten Induktionsprinzips erfüllen. Es soll also A(n0 ) wahr sein und für jedes n ≥ n0 für das A(n) wahr ist, sei auch A(n + 1) wahr. Wir müssen beweisen das dann A(n) für jedes n ≥ n0 wahr ist. Dabei können wir ohne jede Einschränkung annehmen, dass n0 > 1 ist denn für n0 = 1 haben wir ja genau unser originales Induktionsprinzip. Nun führen wir die folgende Hilfsaussage B(n) = A(n) ∨ (n < n0 ) ein, und wollen uns klarmachen das für diese Induktionsanfang und Induktionsschluß des ursprünglichen Induktionsverfahrens zutreffen. Induktionsanfang: Wegen n0 > 1 ist B(1) wahr. Induktionsschluß: Nun sei n ∈ N und es gelte bereits B(n). Wir müssen einige verschiedene Fälle unterscheiden: Fall 1: Es sei n < n0 − 1. Dann ist auch n + 1 < n0 und somit ist B(n) wahr. Fall 2: Es sei n = n0 − 1. Dann ist n + 1 = n0 und da A(n0 ) wahr ist, ist auch B(n + 1) = B(n0 ) = A(n0 ) ∨ (n0 < n0 ) wahr. Fall 3: Im verbleibenden Fall ist n ≥ n0 . Da B(n) = A(n) ∨ (n < n0 ) wahr ist, aber n ≥ n0 gilt, muss A(n) wahr sein. Jetzt können wir den angenommenen Induktionsschluß für die Aussage A(n) verwenden, und hier auf die Gültigkeit von A(n+1) schließen. Damit ist auch B(n+1) = A(n+1)∨(n+1 < n0 ) wahr. 35 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 Damit haben wir B(n+1) in allen drei Fällen bewiesen, und der Induktionsschluß für die Hilfsaussage B(n) ist vollständig. Damit ist die Aussage B(n) per vollständiger Induktion für jedes n ∈ N bewiesen. Ist nun schließlich n ∈ N mit n ≥ n0 gegeben, so ist B(n) = A(n) ∨ (n < n0 ) wahr, d.h. A(n) selbst muss wahr sein. Damit haben wir unser erstes modifiziertes Induktionsverfahren als korrekt nachgewiesen. Wie gesehen ist der Unterschied zur Standardinduktion hier nicht besonders groß. Es gibt nun eine weitere Variante des Induktionsverfahrens, die sogenannte Abschnittsinduktion, die sich auf den ersten Blick deutlich vom Standardverfahren zu unterscheiden scheint. Dieses dient erneut dazu eine gegebene Aussage A(n) für jedes n ∈ N zu beweisen. Diesmal wird ein Induktionsschluß in der folgenden Form durchgeführt: Induktionsschluß: Ist n ∈ N eine natürliche Zahl und sind die Aussagen A(k) für alle 1 ≤ k < n bereits wahr, so ist auch die Aussage A(n) wahr. In anderen Worten müssen wir die Implikation A(1) ∧ . . . ∧ A(n − 1) ⇒ A(n)“ für jede ” natürliche Zahl n ∈ N nachweisen. Hier scheint der Induktionsanfang zu fehlen, aber dies ist eine Täuschung, er ist nur etwas besser versteckt. Der spezielle Fall n = 1 im obigen Induktionsschluß verlangt ja, dass aus der Gültigkeit von A(k) für alle 1 ≤ k < 1 auch die Gültigkeit von A(1) folgt, und da es überhaupt keine solchen k gibt wird in Wahrheit verlangt, dass A(1) zutrifft. Der Induktionsanfang fällt in dieser Formulierung also mit dem speziellen Fall n = 1 im Induktionsschluß zusammen. Haben wir dann den Induktionschluß in seiner obigen Form durchgeführt, so besagt das Prinzip der Abschnittsinduktion, das A(n) für jede natürliche Zahl n ∈ N wahr ist. Bevor wir begründen warum auch die Abschnittsinduktion in Wahrheit doch nur ein spezieller Fall unserer originalen vollständigen Induktion ist, wollen wir sie wieder an einem Beispiel vorführen. Wir wollen zeigen, dass jede natürliche Zahl ein Produkt von Primzahlen ist. Beachte dabei das wir das leere Produkt, in dem es also überhaupt keine Faktoren gibt, per Konvention als 1 interpretieren. Daher müssen wir für n = 1 in unserer Aussage keine Ausnahme machen. Die Aussage A(n) ist hier natürlich einfach n ist ein Produkt von Primzahlen“. Für diese Aussage müssen wir nun einsehen, dass ” der Induktionsschluß in seiner Abschnittsform wahr ist. Sei also eine natürliche Zahl n ∈ N gegeben, und nehme an das A(k) für jede kleinere natürliche Zahl k bereits wahr ist. Wir unterscheiden einige verschiedene Fälle: Fall 1: Zunächst nehme an, dass n selbst eine Primzahl ist. Dann ist n ein Produkt von Primzahlen mit nur einem Faktor und A(n) ist wahr. Fall 2: Nun sei n = 1. Dann hatten wir bereits bemerkt das wir n = 1 als das Produkt von Null Primzahlen interpretieren, also ist A(n) = A(1) auch in diesem Fall wahr. Fall 3: Im verbleibenden Fall ist n 6= 1 keine Primzahl und dies bedeutet das sich n als ein Produkt zweier kleinerer Zahlen schreiben läßt. Es gibt also natürliche 36 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 Zahlen k, l ∈ N mit k, l < n und n = k · l. Da k, l beide kleiner als n sind, besagt unsere Annahme in der Abschnittsinduktion das A(k), A(l) wahr sind, d.h. k und l sind beide bereits Produkte von Primzahlen. Damit ist aber auch n = k · l ein Produkt von Primzahlen. Damit haben wir den Induktionsschluß in seiner Abschnittsvariante durchgeführt, und das Prinzip der Abschnittsinduktion ergibt, dass A(n) für jede natürliche Zahl n ∈ N wahr ist, dass also jedes n ∈ N ein Produkt von Primzahlen ist. Wie für die Induktion ab einem Startwert wollen wir nun auch begründen warum die Abschnittsinduktion eine korrekte Beweistechnik ist. Hierzu gehen wir völlig analog zu unserer obigen Schlußweise vor. Wir geben uns also eine Aussage A(n) für natürliche Zahlen n ∈ N vor, und nehmen an das für diese der Induktionsschluß der Abschnittsinduktion zutrifft. Wir werden nun eine Hilfsaussage B(n) einführen und von dieser dann zeigen das für sie sowohl Induktionsanfang als auch Induktionsschluß des gewöhlichen Induktionsverfahrens wahr sind. Wie Sie vielleicht erwarten definieren wir diese Hilfsaussage einfach als B(n) := [A(1) ∧ A(2) ∧ . . . ∧ A(n)], d.h. B(n) ist wahr wenn A(k) für jedes 1 ≤ k ≤ n wahr ist. Für diese Aussage B(n) gehen wir nun Induktionsanfang und Induktionsschluß durch: Induktionsanfang: Wir hatten bereits bemerkt, dass der Induktionsschluß beim Abschnittsinduktionsverfahren mit n = 1 die Aussage A(1) beinhaltet. Damit ist auch B(1) = A(1) wahr. Induktionsschluß: Nun sei n ∈ N und es gelte bereits die Aussage B(n), d.h. alle Aussagen A(1), . . . , A(n) sind wahr. Wenden wir nun den Induktionsschluß des Abschnittinduktionsverfahrens mit n + 1 statt n an, so folgt damit das auch die Aussage A(n + 1) wahr ist. Folglich sind alle Aussagen A(1), . . . , A(n), A(n + 1) wahr und dies ist gerade die Gültigkeit von B(n + 1). Damit gelten für unsere Hilfsaussage B(n) sowohl Induktionsanfang als auch Induktionsschluß des gewöhnlichen Induktionsverfahrens, d.h. per vollständiger Induktion ist B(n) für jedes n ∈ N wahr. Damit ist aber auch A(n) für jedes n ∈ N wahr. Dieses Argument beweist die Korrektheit der Abschnittsinduktion. Als eine letzte Induktionsvariante wollen wir noch kurz die sogenannte Strukturinduktion ansprechen, die einem gelegentlich in der Informatik begegnet. Diese unterscheidet sich dadurch von den bisherigen Induktionsmethoden, dass sie nicht mehr von Aussagen über natürliche Zahlen handelt. Weiter ist Strukturinduktion“ eher ein Oberbegriff als ein konkret ” fixiertes Prinzip, so das die Dinge am klarsten sind wenn wir ein Beispiel behandeln. Wir wollen Terme betrachten die durch Addition und Multiplikation aus vorgegebenen Variablen a, b, c, . . . aufgebaut sind. Gemeint sind also Ausdrücke wie (a + b) · c + ad. Formal werden diese Ausdrücke definiert indem man ihren Aufbau von unter her beschreibt, was etwa durch die folgenden Regeln getan werden kann: 37 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 1. Für jede Variable x ist x ein Term. 2. Sind t, s zwei Terme, so ist auch t + s ein Term. 3. Sind t, s zwei Terme, so ist auch (t) · (s) ein Term. 4. Sind x, y zwei Variablen, so ist x · y ein Term. 5. Sind t ein Term und x eine Variable, so sind auch (t) · x und x · (t) Terme. Unser Beispielterm ergibt sich dann wie folgt: Zunächst sind a, b Variablen, also nach (1) auch Terme, und somit ist nach (2) auch a + b ein Term. Da c eine Variable ist, ist nach (5) auch (a + b) · c ein Term. Weiter sind a, d Variable, also a · d nach (4) ein Term. Insgesamt ist schließlich (a + b) · c + a · d nach (2) ein Term. Die Regeln (4,5) dienen hier nur dazu damit wir einzelne Variablen als Faktoren von Produkten nicht klammern müssen, sonst wäre zum Beispiel a · d kein Term, sondern nur (a) · (d). Die Regeln sind noch nicht ganz perfekt, da Produkte aus Variablen immer vollständig geklammert sein müssen, a · b · c ist hier kein Term, sondern nur a · (b · c) und auch (a · b) · c. Unter Strukturinduktion versteht man nun die Methode Aussagen über Terme durch Induktion über den Aufbau der Terme gemäß der gegebenen Regeln zu beweisen. Nehmen wir etwa an wir wollen die Behauptung Jeder Term kann durch Anwendung ” der üblichen Rechenregeln in eine Summe von Produkten von Variablen überführt werden“ wirklich beweisen. Wir wollen dies hier nicht zu Ende beweisen, da es doch etwas von unserem eigentlichen Thema wegführt, sondern nur einen Eindruck einses solchen Beweises geben. Man geht der Reihe nach die Regeln durch und überzeugt sich jedesmal, dass aus der Gültigkeit der Behauptung für die Teilterme t, s auch die Gültigkeit der Behauptung für den Gesamtterm folgt. Nehmen wir etwa Regel (2). Wir betrachten also einen Term der Form t + s mit Termen t, s für die unsere Behauptung bereits wahr ist. Durch Anwendung von Rechenregeln können wir dann t und s einzeln in Summen von Produkten von Variablen überführen. Führen wir dies nacheinander für t und s durch, so haben wir auch t + s in eine Summe von Produkten von Variablen umgeschrieben. Die Argumentation für Regel (3) ist schon komplizierter, wir müssen hier das Produkt (t) · (s) ausmultiplizieren. Dies kann man etwa durch eine weitere geschachtelte Induktion machen, aber wie bereits bemerkt wollen wir dies nicht zu Ende ausführen. Wichtig ist hier nur das Induktionsartige“ dieser Methode zu sehen, statt von n ” auf n + 1 zu schließen wird von einzelnen Teilausdrücken auf die zusammengesetzten Terme geschlossen. Dies sind auf den ersten Blick komplizierter als eine gewöhnlicher Induktionsbeweis aus, kann aber letztlich doch als ein solcher aufgefasst werden. Wir können die Strukturinduktion etwa als eine Abschnittsinduktion über die Länge des Termes interpretieren, dies ist also kein wirklich anderes Beweisverfahren. Damit wollen wir die Diskussion der abstrakten Induktionsprinzipien abschließen, und uns kurz einem verwandten Thema zuwenden. Dies ist die induktive Konstruktion von auf N definierten Abbildungen, die oft auch als Rekursion bezeichnet wird, 38 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 aber letzterer Begriff wird auch noch in etwas erweiterter Bedeutung verwendet. Hier schließen wir nicht von n auf n + 1 um eine Behauptung zu beweisen, sondern wir verwenden einen bereits bekannten Funktionswert f (n) um den nächsten Wert f (n + 1) zu definieren. Eines der einfachsten Beispiele ist die sogenannte Fakultät natürlicher Zahlen geschrieben als n! := 1 · 2 · . . . · n für n ∈ N. Verwenden wir die bereits oben erwähnte Konvention das leere Produkt als 1 zu interpretieren, so können wir auch noch 0! := 1 setzen. Die induktive Definition der Fakultätsfunktion läuft wie im folgenden beschrieben. Wir starten mit dem Funktionswert 1! := 1, oder wenn man will auch mit 0! := 1. Dies entspricht dem Induktionsanfang. Als nächstes nimmt man ein n ∈ N und geht davon aus, dass der Funktionswert n! bereits definiert ist. Dann definiere den Wert der Fakultät für n + 1 durch (n + 1)! := (n + 1) · n!. Wichtig ist das hier um (n + 1)! als (n + 1) · n! zu definieren der vorherige Wert n! benutzt wird. Betrachten wir noch ein zweites Beispiel und nehmen die Funktion die durch die induktive Definition f (1) = 3 und f (n + 1) = n + (−1)n n · f (n) für n ∈ N gegeben ist. Die Funktionwerte sind hier f (1) = 3, f (2) = 1+(−1)1 1·f (1) = 1−3 = −2, f (3) = 2+(−1)2 2f (2) = 2−4 = −2, f (4) = 3 + (−1)3 3f (3) = 3 − 3 · (−2) = 9, f (5) = 4 + (−1)4 4f (4) = 40, . . . Wie beim Induktionsverfahren gibt es auch für die induktive Definition einige kleine Varianten. Man kann etwa bei einem Funktionwert f (n0 ) anstelle von f (1) starten, oder auch f (n) unter Verwendung mehrerer, oder gar aller, der Werzte f (1), . . . , f (n − 1) definieren. Ein bekanntes Beispiel für letzteres sind die sogenannten Fibonacci-Zahlen, die induktiv wie folgt definiert werden: f (1) := 1, f (2) := 1, f (n) := f (n − 2) + f (n − 1) für n ≥ 3. Die ersten dieser Fibonacci-Zahlen sind dann f (1) = 1, f (2) = 1, f (3) = f (1) + f (2) = 1 + 1 = 2, f (4) = f (2) + f (3) = 1 + 2 = 3, f (5) = f (3) + f (4) = 2 + 3 = 5, f (6) = f (4) + f (5) = 3 + 5 = 8, . . . Wir kommen jetzt zum letzten Thema dieses Abschnitts und wollen noch einige kleine Anzahlformeln für endliche Mengen begründen. Eine endliche Menge ist dabei natürlich eine Menge mit nur endlich vielen Elementen M = {x1 , . . . , xn } und die Anzahl ihrer Elemente bezeichnen wir mit dem Symbol |M |. Zunächst wollen wir einige unmittelbar einleuchtende Abzählformeln für endliche Mengen M, N einfach auflisten: 1. Ist N ⊆ M eine Teilmenge, so gilt |M \N | = |M | − |N |. Dies sollte Ihnen kar sein, denn die Elemente von M \N sind ja gerade diejenigen Elemente von M , die nicht in N sind, d.h. die Elementezahl verringert sich um die Zahl der Elemente von N , also um |N |. 39 Mathematik für Ingenieure I, WS 2008/2009 M Dienstag 11.11.2008 N 2. Sind M, N disjunkt, d.h. haben M und N keine gemeinsamen Elemente, beziehungsweise M ∩ N = ∅, so ist offenbar |M ∪ N | = |M | + |N |. 3. Im allgemeinen Fall ist dagegen |M ∪ N | = |M | + |N | − |M ∩ N |. Dies kann man auf zwei verschiedene Arten einsehen. M N Zähle wir die Elemente von M ∪ N also die Elemente die in M oder in N sind, so können wir zuerst die Elemente von M und dann die von N zählen und die beiden Werte addieren. Allderdings haben wir dann jedes Element das zugleich in M und in N , also in M ∩ N , liegt doppelt gezählt, und zur Korrektur dieses Fehlers müssen wir die Zahl dieser Elemente, also |M ∩ N | wieder abziehen. Dies ist die erste mögliche Begründung dieser Formel. Alternativ können wir auch mit (1) und (2) argumentieren, denn die Menge M ∪ N ist ja die Vereinigung M ∪ N = (M \(M ∩ N )) ∪ (N \(M ∩ N )) ∪ (M ∩ N ) dreier zueinander jeweils disjunkter Mengen, und mit (1) und (2) rechnen wir |M ∪ N | = |M \(M ∩ N )| + |N \(M ∩ N )| + |M ∩ N | = |M | − |M ∩ N | + |N | − |M ∩ N | + |M ∩ N | = |M | + |N | − |M ∩ N |. 4. Es gilt |M × N | = |M | · |N |. Dies ist klar, denn |M × N | ist die Anzahl aller Paare (x, y) mit erster Komponente x in M und zweiter Komponente y in N . Für x gibt es also |M | Möglichkeiten, für y gibt es |N | Möglichkeiten und insgesamt haben wir |M | · |N | mögliche Paare. Wir wollen nun einige etwas kompliziertere Anzahlformeln herleiten. Wir beginnen damit die Anzahl der Anordnungen von n ∈ N verschiedenen Objekten zu bestimmen. Wir werden dies auf zwei verschiedene Arten tun, zunächst gegen wir eine exakte Herleitung über eine induktive Beschreibung der gesuchten Zahl an. Anschließend machen wir uns dann heuristisch klar, das unser Ergebnis eigentlich von vorn herein klar war. Beginnen wir mit einer exakten Herleitung. Zunächst müssen wir uns darüber im klaren 40 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 11.11.2008 sein was mit der Anzahl der Anordnungen von n Objekten überhaupt gemeint ist. Wir wollen dies einmal für n = 3 durchgehen. Sagen wir haben drei (verschiedene) Objekte a, b, c. Die Zahl der Anordnungen meint dann in wievielen verschiedenen Reihenfolgen wir diese drei Dinger hinschreiben können. Für drei Objekte schaft man die noch ganz gut per Hand und erhält abc, bac, cba, acb, bca, cab, also 6 verschiedene Möglichkeiten. In einer anderen Reihenfolge hinschreiben meint das in der neuen Liste jeder Eintrag der alten List an genau einer Stelle wiederkehrt. Alternativ können wir jede solche Reihenfolge beschreiben indem wir für jeden der drei Einträge einen Pfeil zu seiner neuen Position aufmalen. Beispielsweise entspricht die Reihenfolge bca dem Bild a b c Dieses können wir etwas entzerren indem wir die drei Punkte duplizieren und die Pfeile vom linken Original zum rechten Duplikat zeichnen. Unser Beispiel wird dann zu a b c Die Bedingung das jedes der Objekte a, b, c in der anderen Reihenfolge genau einmal auftritt, besagt für dieses Bild, das jeder Punkt auf der rechten Seite von genau einem Pfeil getroffen wird. Auf der anderen Seite hatten wir aber festgehalten, dass die Pfeilbilder mit der obigen Eigenschaft genau den bijektiven Abbildungen f : {a, b, c} → {a, b, c} entsprechen. Weil es auf die Benennungen der Punkte hierzu nicht ankommt, ist die Anzahl der Umordnungen unserer drei Objekte also gerade gleich der Anzahl bijektiver Abbildungen einer dreielementigen Menge auf eine andere dreielementige Menge. Diese Beobachtung ist natürlich nicht auf n = 3 beschränkt sondern ist für jede natürliche Zahl n ∈ N wahr. Also ist die von uns gesuchte Zahl A(n) der Anordnungen von n verschiedenen Objekten auch gleich der Anzahl bijektiver Abbildungen f : M → N einer n-elementigen Menge M auf eine andere n-elementige Menge N . Mit dieser Beobachtung ist es nun leicht eine induktive Formel für die gesuchten Zahlen A(n) aufzustellen. Sei n ∈ N gegeben. Wir betrachten dann die Menge M := {f : {1, . . . , n + 1} → {1, . . . , n + 1}|f ist bijektiv}. 41 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 Wie wir gerade eingesehen haben, ist die Anzahl der Elemente von M , also die Anzahl bijektiver Abbildungen f : {1, . . . , n + 1} → {1, . . . , n + 1} gleich der Anzahl A(n + 1) der Anordnungen von n + 1 Objekten. Die Menge M können wir nun durch das Bild f (n+1) des letzten Elements in n+1 verschiedene, disjunkte, Gruppen einteilen, indem wir für jedes 1 ≤ k ≤ n + 1 die Menge Mk := {f ∈ M |f (n + 1) = k} betrachten. Dann ist M die disjunkte Vereinigung M = M1 ∪ . . . ∪ Mn+1 und unsere obige Formel (2) liefert A(n + 1) = |M | = |M1 | + . . . + |Mn+1 |. Was sind nun die Elementezahlen |M1 |, . . . , |Mn+1 |? Sei 1 ≤ k ≤ n + 1. Die Elemente von Mk+1 sind diejenigen bijektiven Abbildungen f : {1, . . . , n + 1} → {1, . . . , n + 1} bei denen der Wert f (n + 1) = k festgelegt ist. Diese entsprechen dann bijektiven Abbildungen g : {1, . . . , n} → {1, . . . , n + 1}\{k} = {1, . . . , k − 1, k + 1, . . . , n + 1}. Insbesondere ist die Anzahl der Elemente von Mk gleich der Anzahl der bijektiven Abbildungen der n-elementigen Menge {1, . . . , n} auf die n-elementige Menge {1, . . . , n + 1}\{k}, und wie bereits oben festgehalten ist diese Anzahl gleich A(n). Somit haben wir |M1 | = |M2 | = . . . = |Mn+1 | = A(n), und damit A(n + 1) = |M1 | + . . . + |Mn+1 | = A(n) + . . . + A(n) = (n + 1) · A(n). | {z } n + 1 mal Dies ist aber genau dieselbe Rekursionsgleichung die auch von der Fakultätsfunktion erfüllt wird. Da zudem die Anzahl der Anordnungen eines einzigen Objekts gleich 1 = 1! ist, ist damit A(n) = n! für jedes n ∈ N per vollständiger Induktion. Vorlesung 7, Freitag 14.11.2008 Wir wollen noch ein zweites, eher informelles, Argument für die Formel A(n) = n! angeben. Wir denken uns unsere zu ordnenden n Objekte gegeben, und wollen diese in n bereitstehende Schubladen einräumen. Die Reihenfolge in der die Objekte in den verschiedenen Schubladen landen entspricht dann einer Anordnung der Objekte. 42 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 ..... ..... Für die erste Kugel stehen n freie Schubladen zur Verfügung, und wir haben damit n Möglichkeiten diese Kugel einzuordnen. Bei der Einordnung der zweiten Kugel ist bereits eine Schublade belegt, wir haben also nur noch n − 1 freie Schubladen und somit n − 1 Möglichkeiten diese Kugel einzuordnen. So fortfahrend gibt es für die dritte Kugel n − 2 Möglichkeiten, und so weiter bis zur letzten Kugel, die nur noch eine freie Schublade vorfindet, also auch nur eine einzige Möglichkeit hat eingeordnet zu werden. Insgesamt haben wir damit n · (n − 1) · . . . · 1 = n! Möglichkeiten der Anordnung unserer n Objekte. Beachte das dies in Wahrheit nur eine andere Formulierung unserer vorherigen Argumentation ist. Nach Einordnung der ersten Kugel haben wir dieselbe Situation nur für n − 1 statt n Kugeln vor uns, d.h. in unserer obigen Notation haben wir wieder die rekursive Beziehung A(n) = n · A(n − 1) eingesehen. Die anderen beiden Anzahlformeln, die wir nun noch herleiten wollen, werden wir nur im Stil der eben vorgestellten zweiten Argumentation vorführen. Bei Bedarf könnten wir diese Begründungen jederzeit in ein entsprechendes Induktionsargument überführen, aber für unsere Zwecke reicht es, ein solches Argument gesehen zu haben. Wir wollen nun die Anzahl der Teilmengen einer n-elementigen Menge M berechnen. Jede dieser Teilmengen besteht dann aus gewissen der Elemente von M , kann also dadurch beschrieben werden, dass wir für jedes Element x von M sagen ob es zur Teilmenge gehört oder nicht. Um eine der Teilmengen von M beschreiben, haben wir also für jedes der n Elemente von M zu entscheiden, ob wir es zur Teilmenge gehören lassen oder nicht. Für jedes der n Elemente von M gibt es also zwei Möglichkeiten, und insgesamt haben wir damit 2| · 2 ·{z. . . · 2} = 2n n mal Möglichkeiten eine Teilmenge von M auszuwählen. Die Zahl der Teilmengen einer nelementigen Menge ist also 2n . Wie bereits bemerkt ist es auch leicht möglich, dieses Argument in einen Induktionsbeweis umzuschreiben. Dies können wir zum Beispiel machen indem wir die Teilmengen von M in zwei Gruppen einteilen, die einen enthalten ein fixiertes Element x von M und die anderen nicht. Es ist durchaus lohnend, einen solchen Induktionsbeweis als eine kleine Übung einmal selbst zu formulieren. Wir wollen uns noch eine weitere solche Anzahlformel überlegen. Diesmal wollen wir die Anzahl aller k-elementigen Teilmengen einer n-elementigen Mengen bestimmen. 43 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 Da eine Teilmenge einer n-elementigen Menge selbst höchstens n Elemente haben kann, können wir uns auf den Fall 0 ≤ k ≤ n beschränken. Seien also n ∈ N und 0 ≤ k ≤ n gegeben. Wir orientieren uns in unserer Argumentation nun an der Diskussion zur Bestimmung der Anordnungen von n Elementen. Um eine k-elementige Teilmenge einer n-elementigen Menge M zu wählen, können wir der Reihe nach k verschiedene Elemente aus M herauspicken. Für das erste Element können wir dabei jedes beliebige Element von M verwenden, haben also n Möglichkeiten. Wählen wir dann ein zweites Element, so dürfen wir das bereits gewählte erste Element nicht noch einmal nehmen, haben also nur noch n − 1 Möglichkeiten zur Wahl des zweiten Elements unserer Teilmenge. So fortfahrend gibt es dann n − 2 mögliche Wahlen für das dritte Element, bis wir letztlich zum k-ten Element kommen, für das es noch n − k + 1 Möglichkeiten gibt. Letztere Formel läßt sich am einfachsten einsehen, wenn wir uns klarmachen, dass es n = n − 1 + 1 Möglichkeiten für das erste Element, n − 1 = n − 2 + 1 Möglichkeiten für das zweite Element, n − 2 = n − 3 + 1 Möglichkeiten für das dritte Element, also allgemein n − i + 1 Möglichkeiten für das i-te Element gibt. Damit haben wir insgesamt n·(n−1)·. . .·(n−k+1) Möglichkeiten, aber dies ist noch nicht unser Endergebnis. Die eben berechnete Zahl ist ja nur die Anzahl aller Listen aus k verschiedenen Elementen von M . Jede solche Liste liefert uns eine der gesuchten k-elementigen Teilmengen, nämlich diejenige dere Elemente gerade die Einträge unserer Liste sind, aber auf diese Art wird jede k-elementige Teilmenge mehrfach gezählt. Eine gegebene k-elementige Menge kann man ja auf verschiedene Arten durch Auflisten ihrer k Elemente hinschreiben, nämlich auf soviele Arten wie es Anordnungen ihrer k Elemente gibt. Diese Zahl haben wir aber bereits als k! berechnet. Als Anzahl der k-elementigen Teilmengen der n-elementigen Menge M ergibt sich damit n · (n − 1) · . . . · (n − k + 1) n · (n − 1) · . . . · 1 n! = = . k! k! · (n − k) · . . . · 1 k!(n − k)! Diesen Quotienten n n! := k!(n − k)! k bezeichnet man als den Binomialkoeffizienten n über k“. Zusammenfassend haben wir ” damit die folgenden Anzahlformeln eingesehen: Beschreibung Anordnungen von n Objekten Teilmengen einer n-elementigen Menge k-elementige Teilmengen einer n-elementigen Menge Anzahl n! 2n n k Zum Abschluß dieses Abschnitts wollen wir die Binomialkoeffizienten noch etwas näher untersuchen, und insbesondere erklären woher sie ihren Namen haben. In unserer obigen Überlegung hatten wir immer n ∈ N also insbesondere n ≥ 1 angenommen, aber 44 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 unsere obige Definition ergibt wegen 0! = 1 auch 00 = 1. Für jedes n ∈ N hat eine nelementige Menge M genau eine nullelementige und genau eine n-elementige Teilmenge, nämlich ∅ beziehungsweise M , also haben wir n n = =1 0 n was natürlich auch mit der definierenden Formel klar ist. Weiter hat M auch genau n einelementige Teilmengen, nämlich die Mengen {x} mit x ∈ M , d.h. wir haben n = n. 1 Die Binomialkoeffizienten sind auch symmetrisch in k, d.h. es gilt die Gleichung n n = k n−k für alle 0 ≤ k ≤ n. Auch dies ist wegen n − (n − k) = k direkt aus unserer Formel klar. Alternativ können wir dies auch dadurch begründen, dass die k-elementigen Teilmengen einer n-elementigen Mengen über Komplementbildung den (n−k)-elementigen Teilmengen entsprechen. Insbesondere ist damit übrigens: n n = = n. n−1 1 Es gibt noch eine weitere einfache Beziehung zwischen den Binomialkoeffizienten, das Pascalsche Dreieck. Um diese Formel herzuleiten betrachten wir eine natürliche Zahl n ∈ N sowie ein 0 ≤ k < n. Weiter sei M die Menge der (k +1)-elementigen Teilmengen der (n + 1)-elementigen Menge {1, . . . , n + 1}. Dann wissen wir bereits n+1 |M | = . k+1 Wir können die Menge als die disjunkte Vereinigung M = A∪B der beiden Teilmengen A := {N ∈ M |n + 1 ∈ M }, B := {N ∈ M |n + 1 ∈ / M} schreiben, und somit wird |M | = |A| + |B|. Wir wollen nun die Elementanzahlen |A| und |B| bestimmen. Wir beginnen dabei mit dem einfacheren |B|. Die Menge B ist ja die Menge aller (k + 1)-elementigen Teilmengen N ⊆ {1, . . . , n + 1} mit n + 1 ∈ / N , und dies sind genau die (k+1)-elementigen Teilmengen der n-elementigen Menge {1, . . . , n}, also insbesondere n |B| = . k+1 Die Elemente von A sind dagegen diejenigen (k + 1)-elementigen Teilmengen N ⊆ {1, . . . , n+1} mit n+1 ∈ N , und diese können wir in der Form N = N 0 ∪{n+1} schreiben, wobei N 0 die k-elementigen Teilmengen von {1, . . . , n} durchläuft. Insbesondere 45 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 hat A genauso viele Elemente wie es Mengen N 0 gibt, d.h. soviele wie es k-elementige Teilmengen von {1, . . . , n} gibt, und von letzterer Zahl wissen wir, dass sie gleich n |A| = k ist. Insgesamt haben wir somit n+1 n n = |M | = |A| + |B| = + . k+1 k k+1 Auch diese Formel könnte man natürlich leicht durch eine direkte Rechnung herleiten, aber hierdurch würde sie als eine rechnerische Zufälligkeit erscheinen, während die hier gegebene Ableitung uns eine inhaltliche Begründung der Formel gibt. Um mit dieser Formel das Pascalsche Dreieck zu konstruieren, denken wir uns die Binomalkoeffizienten zu festen n zeilenweise angeordnet: 0 0 . & 1 1 0 1 . & . & 2 2 2 0 1 2 & . & . & . 3 3 3 3 0 1 2 3 Unsere Formel können wir dann folgendermaßen interpretieren: Der k-te Binomialkoeffizient in Zeile n ergibt sich als die Summe des (k − 1)-ten und des k-ten Binomialkoeffizienten in der darüberliegenden (n − 1)-ten Zeile, d.h. als die Summe der beiden links und rechts über im stehenden Binomialkoeffizienten. Auf diese Weise können die Binomialkoeffizienten rekursiv berechnet werden ohne das es nötig ist, die verschiedenen Fakultäten auszurechnen. Für die kleinen Werte n = 1, 2, 3, 4, 5, 6 erhalten wir die folgenden Binomialkoeffizienten: 1 1 1 1 1 1 1 2 3 4 5 6 1 3 6 10 15 1 1 4 10 20 1 5 15 1 6 1 Einer der wesentlichen Zusammenhänge in denen die Binomialkoeffizienten eine Rolle spielen ist die sogenannte binomische Formel, dies ist eine Verallgemeinerung der Ihnen 46 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 aus der Schule bekannten binomischen Formel (a + b)2 = a2 + 2ab + b2 für Quadrate. Die allgemeine binomische Formel handelt von n-ten Potenzen einer Summe a + b. Um die Formel auszusprechen ist es sinnvoll zuvor eine kleine Notation einzuführen. Sind a1 , . . . , an reelle Zahlen, so schreiben wir die Summe a1 + · · · + an mit dem sogenannten P Summenzeichen als n X ak := a1 + · · · an . k=1 Der Index kPhat hier eine P rein formale P Bedeutung, man kann auch jedes andere Symbol verwenden nk=1 ak = ni=1 ai = nj=1 aj und so weiter. Ebenso man die SummaPkann n tion P2n auch über andere Indexbereiche erstrecken, zum Beispiel k=0 ak = a0 + · · · + an , k=2 ak = a2 + a3 + · · · + a2n und so weiter. Die binomische Formel besagt nun, dass für alle natürlichen Zahlen n ∈ N und alle reellen Zahlen a, b ∈ R stets n (a + b) = n X n k=0 k ak bn−k gilt. Man kann diese Formel durch Induktion begründen, im Induktionsschritt wird dann die obige Formel des Pascalschen Dreiecks verwendet. Wir wollen hier aber einen direkten Beweis angeben, bei dem auch klarer wird warum hier ausgerechnet die Binomialkoeffizienten auftauchen. Wir fragen uns was passiert, wenn das Produkt (a + b)n = (a + b) · . . . · (a + b) | {z } n mal ausmultipliziert wird. Das ausmultiplizierte Produkt wird zu einer Summe von Produkten aus jeweils n Faktoren. Jeder dieser Summanden entsteht dadurch, das für jeden der n Faktoren in (a + b) · . . . · (a + b) entschieden wird, ob a oder b als Faktor verwendet wird. Haben wir beispielsweise n = 5 und wählen im ersten, dritten und vierten Faktor ein a, so entsteht der Summand abaab = a3 b2 . Wählen wir allgemein für k der n Faktoren ein a aus, so wird für die restlichen n − k Faktoren das b gewählt und wir erhalten den Summanden ak bn−k . Dieser Summand taucht so oft auf, wie es Möglichkeiten gibt die k Faktoren unter unseren n Faktoren auszuwählen an denen ein a stehen soll, anders gesagt so oft wie es k-elementige Teilmengen einer n-elementigen n Mengen gibt. Diese Zahl war aber gerade der Binomialkoeffizient k . Insgesamt haben wir also für jedes 0 ≤ k ≤ n stets nk Summanden ak bn−k , und dies ist gerade unsere binomische Formel. Damit ist zumeinen die binomische Formel bewiesen, und zum anderen wissen wir nun warum die nk Binomialkoeffizienten heißen, es sind eben gerade die Koeffizienten in der binomischen Formel. Die ersten dieser binomischen Formeln für n = 2, 3, 4, 5, 6 47 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 sind (a + b)2 (a + b)3 (a + b)4 (a + b)5 (a + b)6 = = = = = a2 + 2ab + b2 , a3 + 3a2 b + 3ab2 + b3 , a4 + 4a3 b + 6a2 b2 + 4ab3 + b4 , a5 + 5a4 b + 10a3 b2 + 10a2 b3 + 5ab4 + b5 , a6 + 6a5 b + 15a4 b2 + 20a3 b3 + 15a2 b4 + 6ab5 + b6 . $Id: komplex.tex,v 1.5 2008/11/23 22:54:20 hk Exp $ §4 Reelle und komplexe Zahlen 4.1 Reelle Zahlen Dieser kurze Abschnitt dient im wesentlichen zur Einleitung des Abschnitts über die komplexen Zahlen. Ich gehe davon aus, dass Sie die reellen Zahlen und ihre Grundeigenschaften aus der Schule kennen. Die dort vermittelten Kenntnisse sind zwar keine für die Mathematik ausreichende Grundlegung der reellen Zahlen, reichen für unsere eher bescheidenen Zwecke aber aus. Sie können sich die reellen Zahlen beispielsweise als die unendlichen Dezimalbrüche vorstellen. Dass dieser Standpunkt für eine systematische Behandlung der reellen Zahlen eher unpraktisch ist, spielt für uns keine Rolle. Die beiden grundlegensten Operationen auf den reellen Zahlen sind Addition und Multiplikation, und wir wollen nun einige der Grundregeln für diese Operationen auflisten. 1. Assoziativgesetze der Addition und Multiplikation Für alle a, b, c ∈ R gelten a + (b + c) = (a + b) + c und a(bc) = (ab)c. Hieraus folgt dann, dass man Summen und Produkte beliebig umklammern kann, und damit können Klammern einfach weggelassen werden. 2. Kommutativgesetze der Addition und Multiplikation Für alle a, b ∈ R gelten a + b = b + a und ab = ba. 3. Null und Eins Es gibt Elemente 0, 1 ∈ R mit 0 6= 1 so, dass 0 + a = a und 1 · a = a für alle a ∈ R gelten. 4. Subtraktion Für jedes a ∈ R existiert genau ein additives Inverses −a ∈ R mit (−a) + a = 0. 5. Division Für jedes a ∈ R mit a 6= 0 existiert genau ein 1/a ∈ R mit (1/a)·a = 1. 48 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 6. Distributivgesetz Für alle a, b, c ∈ R gilt a(b + c) = ab + ac. Die obigen Rechenregeln (1) bis (6) werden als die Körperaxiome bezeichnet, und die reellen Zahlen erfüllen sie bekanntlich alle. Beachte das die Körperaxiome weder von allgemeiner Subtraktion noch von allgemeiner Division sprechen, sondern nur von −a und 1/a. Mit diesen können wir dann a − b := a + (−b), a 1 := a · b b für a, b ∈ R mit b 6= 0 für die zweite Gleichung, definieren. Subtraktion und Division werden nun nicht als eigenständige Operationen sondern über die obige Definition nur als Schreibweisen betrachtet. Aus den Körperaxiomen folgen alle üblichen arithmetischen Gesetze, also Gleichungen die von Addition und Mutliplikation handeln. Was dagegen nicht aus den Körperaxiomen folgt sind Existenzaussagen, wie etwa die Existenz von Wurzeln, oder Ungleichungen. Beispielsweise sind die Körperaxiome nicht stark genug um auch nur 1 + 1 6= 0 einzusehen. Definieren wir beispielsweise auf der zweielementigen Menge K = {0, 1} die Operationen + und · durch · 0 1 0 0 0 1 0 1, + 0 1 0 0 1 1 1 0, so erfüllen diese sämtliche Körperaxiome, aber es gilt 1 + 1 = 0 in K. Eine weitere grundlegende Struktur auf den reellen Zahlen ist die Anordnung ≤. Auch diese wollen wir wieder nicht systematisch untersuchen, sondern nur die folgenden Grundgesetze auflisten: 1. Transitivität Sind a, b, c ∈ R mit a ≤ b und b ≤ c, so ist auch a ≤ c. 2. Antsymmetrie Sind a, b ∈ R mit a ≤ b und b ≤ a, so ist auch a = b. 3. Trichotomie Sind a, b ∈ R, s gilt stets a ≤ b oder b ≤ a. 4. Monotonie der Addition Sind a, b, c ∈ R mit a ≤ b, so ist auch a + c ≤ b + c. 5. Monotonie der Multiplikation Für alle a, b ∈ R mit a ≤ b und alle c ∈ R mit c ≥ 0 ist auch ac ≤ bc. Die Körperaxiome zusammen mit diesen fünf zusätzlichen Axiomen sind die sogenannten Axiome eines angeordneten Körpers. Aus diesen folgen dann alle sonstigen Ihnen bekannten Regeln für ≤, es folgt beispielsweise das Quadrate immer gröër gleich Null sind, dass das Produkt negativer Zahlen positiv ist, und so weiter. Insbesondere können wir dann Dinge wie 1 + 1 6= 0, beziehungsweise sogar 1 + 1 > 0 beweisen. Wie schon bei den Körperaxiomen wollen wir hier aber nichts von all diesen Dingen vorführen. Wir wollen aber noch bemerken, dass selbst die Axiome eines angeordneten Körpers nicht ausreichen, die reellen Zahlen vollständig zu beschreiben. Zum Beispiel erfüllen 49 Mathematik für Ingenieure I, WS 2008/2009 Freitag 14.11.2008 auch die rationalen Zahlen Q alle Regeln, die wir hier angegeben haben. Es gibt ein weiteres Axiom, durch das die reellen Zahlen dann vollständig beschrieben werden. Dies ist das sogenannte Vollständigkeitsaxiom, das wir aber erst besprechen werden wenn wir uns mit der Konvergenz von Zahlenfolgen beschäftigen werden. Wir wollen nun noch eine kleine Notation, die Ihnen aus der Schule wahrscheinlich nicht geläufig ist, einführen und besprechen, den sogenannten Betrag einer reellen Zahl. Dieser hat eine rein praktische Funktion, wir möchten eine bequeme Möglichkeit haben davon zu sprechen, dass eine reelle Zahl x klein ist. Wir könnten beispielsweise versuchen die Zahl x klein zu nennen wenn sie x ≤ 10−4 erfüllt. Dies erfüllt aber nicht ganz den intendierten Zweck, den es ist ja zum Beispiel auch −400 ≤ 10−4 , aber −400 wollen wir meist nicht als klein betrachten. Wir müssten unsere Bedingung also beispielsweise in x ≤ 10−4 und x ≥ −10−4 umschreiben. Um diese zwei Bedingungen durch eine einzige zu ersetzen, wird nun der Betrag der reellen Zahl x eingeführt. Definition 4.1: Ist x ∈ R eine reelle Zahl, so heißt ( x, x ≥ 0, |x| := −x, x ≤ 0 der Betrag von x. Beispielsweise sind |4| = 4, | − 2| = 2 und |0| = 0. In anderen Worten ist |x| der nichtnegative Wert unter den beiden Zahlen x und −x. In unserem obigen Beispiel können wir die beiden Bedingungen x ≤ 10−4 und x ≥ −10−4 dann durch die eine Bedingung |x| ≤ 10−4 ersetzen. Als Funktion von x hat der Betrag die folgende Gestalt |x| x Der Betrag erfüllt eine ganze Reihe von Grundeigenschaften, die im folgenden Satz zusammengestellt sind: Satz 4.1: Für alle x, y, z ∈ R gelten: (a) Es ist |x| = | − x| ≥ 0 und x2 = |x|2 . (b) Es gilt x ≤ |x|. 50 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 (c) Es ist |xy| = |x| · |y|. (d) Es gilt die Dreiecksungleichung |x + y| ≤ |x| + |y|. (e) Es ist |x − y| ≥ |x| − |y|. (f ) Es ist |x| − |y| ≤ |x − y|. Beweis: (a,b,c) Diese Aussagen sind direkt aus der Definition des Betrages klar. (d) Mit den Regeln (a), (b) und (c) erhalten wir |x + y|2 = (x + y)2 = x2 + 2xy + y 2 ≤ x2 + |2xy| + y 2 = |x|2 + 2|x| · |y| + |y|2 = (|x| + |y|)2 , und damit auch |x + y| ≤ |x| + |y|. (e) Mit Teil (d) rechnen wir |x| = |(x − y) + y| ≤ |x − y| + |y|, also |x − y| ≥ |x| − |y|. (f ) Mit Teil (e) haben wir |x| − |y| ≤ |x − y| und (e), (a) zusammen ergeben auch |y| − |x| ≤ |y − x| = | − (x − y)| = |x − y|. Da |x| − |y| aber eine der beiden Zahlen |x| − |y| oder −(|x| − |y|) = |y| − |x| ist, folgt auch |x| − |y| ≤ |x − y|. Warum Aussage (d) hier als Dreiecksungleichung bezeichnet wird, ist an dieser Stelle nicht gut zu sehen. Wir werden dies aber bei der Betrachtung des Betrags einer komplexen Zahl später in diesem Kapitel noch klären. Vorlesung 8, Dienstag 18.11.2008 4.2 Die komplexen Zahlen (Operative Version) Wir wollen nun mit der Diskussion der komplexen Zahlen beginnen. Wir werden diese in zwei Teile aufteilen, zunächst wollen wir dabei eine rein rechnerische, eben operative, Beschreibung angeben und verwenden, ohne uns darum zu kümmern, ob diese logisch einwandfrei oder auch nur sinnvoll ist. Im nächsten Abschnitt wird dann der zweite Schritt durchgeführt, und wir werden eine formale Definition der komplexen Zahlen angeben, und uns natürlich auch klarmachen, dass diese die rechnerischen Eigenschaften des ersten Schritts erfüllen. Diese Aufteilung entspricht dabei der geschichtlichen Entwicklung des Begriffs der komplexen Zahlen. Erstmalig treten diese im frühen 16-ten Jahrhundert in Erscheinung und hatten eher den Status eines obskuren Rechentricks. 51 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 Wir werden am Ende dieses Abschnitts auch kurz den Kontext vorstellen, der zur Entstehung der komplexen Zahlen geführt hat. Wie bereits gesagt werden wir jetzt noch keine vollständige Definition der komplexen Zahlen geben, sondern uns ein Weilchen mit einer eher vagen Beschreibung zufriedengeben. Wie bei jedem gut funktionierenden rechnerischen Kalkül kann man mit den komplexen Zahlen ganz gut rechnen, selbst wenn man nur eine eher vage Vorstellung davon hat, was diese denn sind. Eine erste Beschreibung der komplexen Zahlen kann man etwa wie folgt durchführen: Die komplexen Zahlen C entstehen aus den re√ ellen Zahlen R indem wir eine neue Zahl i = −1 einführen, und mit dieser dann normal“, unter Verwendung von i2 = −1, rechnen. Das normal rechnen“ bezieht sich ” ” dabei zunächst nur auf die Grundrechenarten, also +, −, ·, /. Etwas konkreter könnten wir sagen, daß in C die im vorigen Abschnitt angegebenen Körperaxiome wahr sein sollen. Wir wollen zunächst einfach drauf los rechnen. Ein naheliegender Startpunkt sind dann die Potenzen von i. Klar sind dabei i1 = i und i2 = −1. Die nächsten beiden ergeben sich als i3 = i2 · i = (−1) · i = −i und i4 = (i2 )2 = (−1)2 = 1. Wegen i4 = 1 gestalten sich die restlichen Potenzen dann sehr einfach, es ist ja i5 = i4 · i = i, i6 = i4 · i2 = i2 = −1 und so weiter. Die Potenzen von i beginnen sich also in einem 4-er Zyklus zu wiederholen. Dies hat eine weitere nützliche Konsequenz. Zur Zeit wissen wir noch nicht wieviele neue Zahlen wir neben i zu R hinzunehmen müssen. Mindestens sind dies sicherlich die durch Multiplikation und Addition aus R und i gebildeten Ausdrücke, also die Polynome in i und mit reellen Koeffizienten. Rechnen wir testweise einmal ein solches aus: i6 + 4i5 − 3i4 + 2i2 − 3i + 5 = −1 + 4i − 3 − 2 − 3i + 5 = −1 + i. In dieser Art können wir tatsächlich immer rechnen, gerade Potenzen von i sind ±1 und ungerade Potenzen von i sind ±i, also kann jedes Polynom a0 + a1 i + a2 i2 + · · · auch in der Form a0 + a1 i + a2 i2 + a3 i3 + · · · = a + ib mit geeigneten a, b ∈ R geschrieben werden. Werden komplexe Zahlen dieser Form miteinander multipliziert, so erhält man wieder eine komplexe Zahl dieser Form, beispielsweise ist (1 + 3i) · (4 − i) = 4 − i + 12i − 3i2 = 7 + 11i. Selbiges passiert natürlich auch im allgemeinen Fall, d.h. sind a1 , a2 , b1 , b2 ∈ R reelle Zahlen, so ist (a1 + ib1 ) · (a2 + ib2 ) = a1 a2 + a1 b2 i + b1 a2 i + b1 b2 i2 = a1 a2 − b1 b2 + (a1 b2 + b1 a2 )i. Wie sieht es nun mit Quotienten aus? Starten wir hier einmal mit der einfachsten Situation und berechnen 1/i. Dies ist recht leicht, denn wir haben ja i · (−i) = −i2 = 1 52 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 und somit 1 = −i. i Hier hatten wir allerdings Glück, da wir für 1/i sofort einen Kandidaten gesehen haben. Bei anderen komplexen Zahlen ist dies nicht so einfach, schon bei der Berechnung von 1/(1 + 2i) gibt es keine sofort offensichtliche Lösung. Ein kleiner Rechentrick führt aber auch hier schnell zum Erfolg. Wir hatten ja eingangs bemerkt, dass wir mit den komplexen zumindest bezüglich der Grundrechenarten normal rechnen wollen, und insbesondere können wir Brüche erweitern. Wie sich herausstellt müssen wir unser 1/(1 + 2i) nur mit 1 − 2i erweitern und uns an die binomische Formel (a + b)(a − b) = a2 − b2 erinnern, um zur gewünschten Lösung zu kommen: 1 1 − 2i 1 − 2i 1 2 1 − 2i = = = = − i. 2 1 + 2i (1 + 2i) · (1 − 2i) 1 − 4i 5 5 5 Umgekehrt kann man jetzt leicht nachrechnen, dass dies tatsächlich die Lösung ist 1 4 2 2 1 2 − i = + + i − i = 1. (1 + 2i) · 5 5 5 5 5 5 Dies hat natürlich nicht mit diesm speziellen Beispiel zu tun, tatsächlich können wir ganz analog für alle a, b ∈ R mit (a, b) 6= (0, 0) stets a − ib a b 1 a − ib a − ib = = − i = = 2 a + ib (a + ib) · (a − ib) a − b 2 i2 a2 + b2 a2 + b 2 a2 + b 2 rechnen. Insbesondere zwingen uns die Grundrechenarten nie dazu, die Menge der komplexen Zahlen der Form a + ib mit a, b ∈ R zu verlassen, wir können also unsere eingangs gegebene vage Vorstellung der komplexen Zahlen durch die Festlegung C = {a + ib|a, b ∈ R} etwas verschärfen. Wir wollen hier noch einen kleinen, aber wichtigen, Punkt anmerken. Ist die komplexe Zahl z = a + ib gegeben, so sind die reellen Zahlen a und b eindeutig durch z festgelegt. Anders gesagt soll für alle a1 , a2 , b1 , b2 ∈ R aus a1 + ib1 = a2 + ib2 auch a1 = a2 und b1 = b2 folgen. Machen wir uns das einmal klar. Nehme also a1 +b1 i = a2 + b2 i an, und schreibe dies als a1 − a2 = b2 i − b1 i = (b2 − b1 )i. Wäre dann b1 6= b2 , also b2 − b1 6= 0, so hätten wir auch i= a1 − a2 ∈ R, b2 − b1 aber i kann wegen i2 = −1 keine reelle Zahl sein. Also ist b1 = b2 , und damit natürlich auch a1 = a2 . Da die Zahlen a und b also eindeutig durch z = a + ib festgelegt sind, können wir Re z := a 53 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 als den Realteil von z und Im z := b als den Imaginärteil von z definieren. In diesem Zusammenhang bezeichnet man i auch als die imaginäre Einheit. Damit haben wir die Diskussion der Grundrechenarten in C weitgehend beendet. Wir wollen uns nun noch kurz der nach den Grundrechenarten zweiteinfachsten Operation auf C zuwenden, der Berechnung von Wurzeln. Wir beginnen dabei mit Qua√ dratwurzeln, und als konkretes Beispiel wollen wir die Wurzel i berechnen. Beachte √ dabei, dass das Symbol i ein wenig problematisch ist. Es wird ja zwei verschiedene Wurzeln von i geben, wenn es denn überhaupt eine gibt, die sich nur um ihr √ Vorzeichen unterscheiden. Im Gegensatz zu den reellen Zahlen, wo mit der Wurzel x einer Zahl x ≥ 0 ja diejenige nichtnegative reelle Zahl gemeint ist, deren Quadrat x ist, haben wir in C keine Möglichkeit eine der beiden Wurzeln vor der anderen auszuzeichnen. √ Daher gibt es keine Wurzelfunktion, aber wir verwenden trotzdem das Symbol i und meinen damit irgendeine der Wurzeln. Wie findet man nun eine √ Wurzel von i? An dieser Stelle bleibt uns dazu nichts anderes übrig als den Ansatz i = x + iy mit x, y ∈ R zu machen, und zu versuchen irgendwie an x und y zu kommen. Die Bedingung ist i = (x + iy)2 = x2 − y 2 + 2xyi, also haben wir zwei Gleichungen für x und y: x2 − y 2 = 0, 2xy = 1. Mit der ersten Gleichung erhalten wir dann y = ±x und setzen wir dies in die zweite Gleichung ein, so wird ±2x2 = 1. Die Variante mit Minus ist dabei nicht möglich, d.h. y = x und wir haben x2 = 1/2 und somit r 1 1 1√ = ±√ = ± 2. y=x=± 2 2 2 Die beiden Wurzeln sind also √ √ 1√ 1√ 1√ 1√ i= 2+ 2i und i = − 2− 2i. 2 2 2 2 √ Wir wollen auch noch ein etwas komplizierteres Beispiel rechnen, nämlich 1 + i. Wir machen genau denselben Ansatz wie oben. Dannn bleiben auch die linken Seiten unserer Gleichung erhalten, und wir haben die Bedingungen x2 − y 2 = 1, 2xy = 1. 54 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 Insbesondere ist x 6= 0 und 1 , 2x und setzen wir dies in die erste Gleichung ein, so erhalten wir y= 1 = 1. 4x2 x2 − Dies können wir mit x2 multiplizieren und in der Form x4 − x2 − 1 =0 4 schreiben. Dies ist eine quadratische Gleichung für x2 und somit r 1 1 1 1 1√ x2 = ± + = ± 2. 2 4 4 2 2 Da x2 ≥ 0 ist, ist der Fall mit Minus nicht möglich, also √ 1+ 2 2 x = 2 und somit s x=± √ 1+ 2 . 2 Für y ergibt sich dann schließlich s s √ q √ 1 1 2 1 2( 2 − 1) 1 √ .=± √ √ y= =± =± 2 2 − 2. 2x 2 1+ 2 2 ( 2 + 1) · ( 2 − 1) 2 Unsere gesuchte Wurzel ist also √ s 1 + i = ± √ 1+ 2 i + 2 2 √ 2 2 − 2 . q √ Analog können wir jede Quadratwurzel a + ib in C bestimmen, wir könnten sogar leicht eine allgemeine Formel für diese Wurzeln herleiten. Dies wollen wir an dieser Stelle aber nicht tun, da wir später eine wesentlich bequemere Methode zur Berechnung dieser Wurzeln kennenlernen werden. Nun da wir Quadratwurzeln berechnen können, sind wir in Wahrheit bereits in der Lage beliebige quadratische Gleichungen über den komplexen Zahlen zu lösen. Wir müssen uns nur darüber klar werden, dass die vertraute p–q Formel auch für komplexe Zahlen wahr ist. Dies ist aber klar, denn die p–q Formel ist ja einfach eine quadratische Ergänzung und diese fällt unter das normale Rechnen“, das ” wir für die komplexen Zahlen als gegeben annehmen. Können wir also Quadratwurzeln 55 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 ziehen, so können wir über die p–q Formel beliebige quadratische Gleichungen über den komplexen Zahlen lösen. Insbesondere stellt sich heraus, dass diese immer eine Lösung haben, die Situation ist also noch etwas besser als wir es von den reellen Zahlen her gewöhnt sind. Wir nähern uns damit dem Ende unser Beispielrechnungen und wollen noch kurz dritte Wurzeln ansprechen. Wir beginnen dabei mit einer √ zunächst etwas merkwürdig anmutenden Aufgabe, wir wollen die dritten Wurzeln 3 1, also alle z ∈ C mit z 3 = 1, bestimmen. Warum dies nützlich ist, werden wir gleich einsehen. Eine Lösung der Gleichung z 3 = 1 ist natürlich die reelle Lösung z = 1, aber es gibt noch zwei weitere komplexe Lösungen. Um diese zu bestimmen, machen wir wieder den Ansatz z = x+iy und rechnen z 3 = (x + iy)3 = x3 + 3x2 yi + 3xy 2 i2 + y 3 i3 = x3 − 3xy 2 + (3x2 y − y 3 )i. Für z 3 = 1 erhalten wir diesmal also die beiden Gleichungen x3 − 3xy 2 = 1, 3x2 y − y 3 = 0. Die zweite Gleichung können wir als (3x2 − y 2 )y = 0 schreiben, und da z = 1 die einzige reelle Lösung, also die einzige Lösung mit y = 0, ist, √ können wir uns auf den Fall y 6= 0 beschränken. Damit wird 3x2 = y 2 , also y = ± 3x. Setzen wir dies in die erste Gleichung ein, so wird diese zu 1 = x3 − 3xy 2 = x3 − 9x3 = −8x3 , √ also x3 = −1/8 beziehungsweise x = −1/2. Somit wird y = ± 3/2. Damit haben wir exakt drei dritte Wurzeln von 1 gefunden, nämlich 1 1√ 1 1√ 1, − + 3 i und − − 3 i. 2 2 2 2 √ Wir wollen dies nun verwenden um alle dritte Wurzeln 3 i zu berechnen. Dies ist nun wesentlich leichter als die obige Rechnung, da wir sofort eine der drei Wurzeln sehen. Es ist ja (−i)3 = −i3 = −(−i) = i, d.h. eine unserer Wurzeln ist −i. Hiermit können wir jetzt auch sofort die beiden anderen Wurzeln sehen. Nehmen wir uns nämlich eine unser oben ausgerechneten komplexen Zahlen z mit z 3 = 1, so ist sofort auch (−iz)3 = (−i)3 z 3 = (−i)3 = i. √ √ Multiplizieren wir also eine dritte Wurzel 3 i mit den drei Wurzeln 3 1, so erhalten wir drei, und damit alle, dritten Wurzeln von i. Die beiden anderen dritten Wurzeln von i sind also 1 1√ 1√ 1 1√ 1 1 1√ −i · − + 3i = 3 + i und − i · − − 3i = − 3 + i. 2 2 2 2 2 2 2 2 56 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 Beachte das die drei dritten Wurzeln von Eins für allgemeine dritte Wurzeln dieselbe √ z ja Rolle spielen, die das Vorzeichen ± bei Quadratwurzeln innehat. Wir können ± √ √ auch als 1 · z und (−1) · z interpretieren wobei 1 und −1 gerade die zweiten Wurzeln von 1 in C, beziehungsweise in R, sind. √ 3 Nun kommt unser direkter Weg über den Ansatz z = x + iy allmählich zum √ 3 3 Halt. Die dritten Wurzeln 1 + i über die Gleichungen x − 3xy 2 = 3x2 y − y 3 = 1 zu berechnen, ist zwar möglich aber bereits recht unangenehm. Für höhere Wurzeln liefert unser Ansatz auch jeweils zwei Gleichungen für x, y, aber diese sind dann vom Grad 4, 5 und so weiter in x, y. Trotzdem werden wir im nächsten Abschnitt einsehen, dass es in Wahrheit ganz einfach ist, all diese Wurzeln zu berechnen. Zum Abschluß wollen wir noch einmal zum Start unserer Überlegungen zurückkehren. Wir hatten ja bemerkt, dass die komplexen Zahlen ursprünglich einmal ein etwas merkwürdiger Rechentrick waren, und wir wollen nun das Problem beschreiben, das der Anlaß zur Einführung der komplexen Zahlen war. Dabei handelt es sich um die Lösung der allgemeinen Gleichung dritten Grades über den reellen Zahlen, also um x3 + ax2 + bx + c = 0 mit a, b, c ∈ R. Wie für die quadratische Gleichung gibt es eine allgemeine Lösungsformel für diese Gleichung. Wie wir gleich sehen werden, ist diese allerdings nicht annähernd so überschaubar wie die p–q Formel, und sie hat auch bei weiten nicht deren praktische Bedeutung. Trotzdem ist sie der Ursprung der komplexen Zahlen, und daher wollen wir sie uns kurz anschauen. Allerdings behandelt unsere angestrebte Formel eine bereits leicht reduzierte Form der obigen allgemeinen Gleichung dritten Grades. Ersetzen wir x durch x − a/3, so wird a 3 a 2 a x− +a x− +b x− +c 3 3 3 a2 a3 2a2 a3 ab = x3 − ax2 + x − + ax2 − x+ + bx − +c 3 27 3 9 3 a2 2a3 ab = x3 + b − x+ − + c = x3 + px + q 3 27 3 mit p := b − a2 2a3 ab , q := − + c. 3 27 3 Bestimmen wir also die Lösungen x von x3 + px + q = 0, so sind die Zahlen x + a/3 die Lösungen der ursprünglichen Gleichung x3 + ax2 + bx + c = 0. Diese Überlegung ist völlig analog zur quadratischen Ergänzung bei quadratischen Gleichung, und entfernt die zweithöchste Potenz von x. Die erwähnte Lösungsformel, die sogenannte Formel von Cardano, beschäftigt sich nun mit der vereinfachten Gleichung x3 + px + q = 0. 57 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 Die volle Cardano-Formel beschreibt alle drei Lösungen dieser Gleichung, aber für unsere Zwecke reicht es die erste, und auch einfachste, dieser drei Lösungen hinzuschreiben. Diese Lösung ist gegeben als √ 3 p D 2p x= −√ mit D := −108q + 12 12p3 + 81q 2 . 3 6 D Wir wollen als ein konkretes Beispiel einmal die Gleichung 7 20 x3 − x + =0 3 27 durchrechnen. Hier ist p = −7/3 und q = 20/27. Damit wird 12p3 + 81q 2 = −108 = −36 · 3, p und wir sehen das die Wurzel 12p3 + 81q 2 keine reelle Zahl ist. Gehen wir aber zu den komplexen Zahlen über so wird p √ √ 12p3 + 81q 2 = −108 = 6 3 i. Für D erhalten wir p √ √ D = −108q + 12 12p3 + 81q 2 = −80 + 12 · 6 3 i = −80 + 72 3 i. √ Nun müssen wir 3 D ausrechnen. Wie schon bemerkt werden wir erst im nächsten Abschnitt ein überzeugendes Verfahren hierfür kennenlernen, daher lassen wir hier den √ folgenden Ansatz aus dem Himmel fallen: Schreibe 3 D = 1 + it mit t ∈ R. Es ist (1 + it)3 = 1 − 3t2 + (3t − t3 )i, √ √ 2 2 3 und√mit t = √ −3 3 wird 1 − 3t = 1 − 3 3 = 1 − 81 = −80 und 3t − t3 = √ −9 3 + 27 · 3 3 = 72 3. Damit haben wir eine dritte Wurzel √ √ 3 D = 1 − 3 3 i. Die Cardano-Formel liefert damit die Lösung √ √ √ √ 3 D 2p 1 − 3 3i 14 1 − 3 3 i 14 1 + 3 3 i 1 √ x= −√ = + = + · = , 3 6 6 6 3 28 3 3 · (1 − 3 3 i) D die wegen 3 7 1 20 1 − 21 + 20 1 − · + = =0 3 3 3 27 27 tatsächlich eine Lösung ist. Wir haben hier also mit der rein reellen Gleichung 20 7 x3 − x + =0 3 27 58 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 begonnen, und sind bei der reellen Lösung x = 1/3 gelandet. Nur zwischendurch sind komplexe Zahlen in der Rechnung aufgetaucht, sind aber am Ende wieder verschwunden. In diesem Kontext spielt es also keinerlei Rolle ob die komplexen Zahlen logisch stichhaltig sind, am Ende kann man ja einfach nachschauen ob die erhaltene reelle Zahl tatsächlich eine Lösung ist. Hier sind die komplexen Zahlen also wirklich nur ein Rechentrick, sie tauchen zwischendurch geisterhaft auf und verschwinden am Ende wieder. Aus dieser Zeit stammt auch die Redeweise von i als der imaginären Einheit und vom Imaginärteil einer komplexen Zahl, denn als reiner Rechentrick betrachtet haben die komplexen Zahlen mit echten Imaginärteil ja tatsächlich etwas imaginäres“. ” 4.3 Die komplexen Zahlen (Offizielle Version) Wie bereits bemerkt wurden die komplexen Zahlen eine lange Zeit als rein rechnerische Technik betrachtet. Im Laufe der Zeit begann man allerdings komplexe Zahlen wirklich als Hilfsmittel in Beweisen zu verwenden, und später dann sogar Aussagen die von komplexen Zahlen handeln zu beweisen. Anders als bei Rechnungen können wir den logischen Status der komplexen Zahlen hierbei nicht mehr ignorieren, es gibt ja keinen abschließenden Test den man durchführen könnte. Glücklicherweise stellt es sich heraus, dass die logisch einwandfreie Definition der komplexen Zahlen diese nicht nur exakt begründet, sondern zugleich ein wesentlich besseres Verständnis von C liefert. Zum Beispiel werden wir sehen, dass das Berechnen von Wurzeln komplexer Zahlen sehr viel einfacher möglich ist, als wir es bisher getan haben. Die Grundidee ist hierbei erschreckend einfach, wir interpretieren die komplexe Zahl a + ib mit a, b ∈ R als den Punkt (a, b) der Ebene R2 . Zum Beispiel haben wir die Punkte Im −2+3i 3 2 i 1 −3 −2 2+ 1 i 2 −1 1 2 3 Re −1 −2 −3 Einige der im vorigen Abschnitt errechneten dritten Wurzeln zeigen als Punkte der 59 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 Ebene interpretiert ein zunächst überraschendes Verhalten. Betrachten wir etwa die √ 3/2)i, sowie die drei dritten Wurzeln von drei dritten Wurzeln von 1, also 1, −1/2 ± ( √ √ i, also −i, ± 3/2 + i/2, so sehen diese wegen 3/2 ≈ 0.86 in der Ebene wie folgt aus Im 3 2 1 −3 −2 −1 1 2 3 Re −1 −2 −3 wobei die offenen Punkte für die dritten Wurzeln von i stehen. Dies sind zwei gleichseitige Dreiecke, und das aus den dritten Wurzeln von i gebildete Dreieck entsteht aus dem entsprechenden Dreieck der dritten Wurzeln von 1 durch eine Drehung um 90◦ im Uhrzeigersinn. Wir werden sehen, dass dies keine Zufälle sind. Wir sind jetzt in der Lage eine einwandfreie Definition der komplexen Zahlen anzugeben. Diese stellt sozusagen die Ergebnisse des vorigen Abschnitts auf den Kopf, dort hatten wir eingesehen, dass wir uns auf Terme der Form a + ib beschränken können, und hatten ausgerechnet wie deren Multiplikation aussieht. Die dort erhaltene Formel stellen wir nun an die Spitze und verwenden sie als Definition der Multiplikation. Definition 4.2: Die komplexen Zahlen sind die Menge C = R × R versehen mit der Addition (a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ) für a1 , a2 , b1 , b2 ∈ R und der Multiplikation (a1 , b1 ) · (a2 , b2 ) := (a1 a2 − b1 b2 , a1 b2 + b1 a2 ) wieder für a1 , a2 , b1 , b2 ∈ R. Wir fassen R als Teilmenge von C auf, indem wir jede reelle Zahl x ∈ R mit dem Punkt (x, 0) der Ebene identifizieren. Weiter definieren wir die imaginäre Einheit als i := (0, 1) ∈ C. 60 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 Da für alle a, b ∈ R stets (a, 0) + (b, 0) = (a + b, 0) und (a, 0) · (b, 0) = (ab, 0) ist die obige Identifikation R ⊆ C sinnvoll. Wir haben i2 = (0, 1) · (0, 1) = (−1, 0) = −1, unsere hier definierte imaginäre Einheit hat also die gewünschte Eigenschaft. Beachte das für alle a, b ∈ R auch a + ib = (a, 0) + (0, 1) · (b, 0) = (a, 0) + (0, b) = (a, b) gilt, die komplexe Zahl a + ib ist hier als wirklich gleich dem Punkte (a, b) ∈ R2 . Um zu sehen, dass die durch die obige Definition eingeführten komplexen Zahlen tatsächlich wie diejenigen des vorigen Abschnitts sind, ist nur noch einzusehen, dass man mit ihnen normal rechnen“ kann. Dazu muss etwas näher spezifiziert werden was mit normal ” ” rechnen“ gemeint ist. Zu diesem Zweck erinnern wir uns an die Körperaxiome, die wir bei der Diskussion der reellen Zahlen vorgestellt haben, also die Assoziativgesetze der Addition und Multiplikation, die Kommutativgesetze der Addition und Multiplikation, und so weiter. Wir hatten angemerkt, dass aus diesen Körperaxiomen alle anderen arithmetischen Rechenregeln folgen. Daher können wir normal rechnen“ etwas genau” er als erfüllt die Körperaxiome“ interpretieren. Um also einzusehen, dass unsere eben ” definierten komplexen Zahlen wie erwartet funktionieren, müssten wir nun die sechs Körperaxiome der Reihe nach für C überprüfen. Da dies für unsere Zwecke aber zu keinerlei Erkenntnisgewinn führt, will ich hier einfach an ihren guten Glauben appellieren. Wir wollen also akzeptieren, dass die Körperaxiome in C gelten, und wir damit tatsächlich unserer operativen Version der komplexen Zahlen eine solide Grundlage gegeben haben. Wir wollen nun die komplexen Zahlen in ihrer geometrischen Interpretation als Punkte der Ebene untersuchen. Die Addition zweier komplexer Zahlen kennen Sie eigentlich bereits aus der Schule, die komponentenweise Addition ist ja die vertraute Addition zweidimensionaler Vektoren, die etwa durch das übliche Vektorparallelogram veranschaulicht werden kann. Interessanter ist die Multiplikation, und um diese geometrisch zu verstehen ist es nützlich zuvor die Polarkoordinaten in der Ebene einzuführen. Hierzu werde ich mich auf den Standpunkt stellen, dass Ihnen die trigonometrischen Funktionen Sinus, Cosinus, Tangens und Cotangens in Ihrer geometrischen Deutung an Dreiecken bekannt ist. Systematisch werden wir diese Funktionen noch einmal im Analysis Teil dieser Vorlesung besprechen, aber an dieser Stelle reichen die Schulkenntnisse völlig aus. Die Diskussion der Polarkoordinaten beginnt mit der Untersuchung des Einheitskreises in der Ebene, das ist der Kreis mit Mittelpunkt 0 = (0, 0) und Radius 1. Die Punkte (x, y) dieses Kreises sind nach dem Satz von Pythagoras durch die Formel x2 + y 2 = 1 gegeben. 61 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 18.11.2008 1 y x Man möchte die Punkte des eindimensionalen Einheitskreises aber auch durch eine einzige Zahl beschreiben können, anstelle der zwei ja etwas redundanten Koordinaten x und y. Hierzu verwendet man dann den Winkel φ zwischen der x-Achse und der Verbindsstrecke von 0 zum Punkt des Einheitskreises. Der eingezeichnete Punkt wird hier durch den Winkel φ repräsentiert. In diesem Kontext, und eigentlich immer in der Mathematik, ist es hilfreich den Winkel φ nicht im gewöhnlichen Gradmaß, also zwischen 0◦ und 360◦ zu messen, sondern im sogenannten Bogenmaß. Dieses entsteht aus dem Gradmaß indem wir den Bereich 0◦ . . . 360◦ proportional auf den Bereich von 0 bis 2π umskalieren. Wir haben also beispielsweise die 62 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 folgenden Übersetzungen Gradmaß Bogenmaß 0◦ 0 π 30◦ 6 π 45◦ 4 π 60◦ 3 π 90◦ 2 180◦ π 2π 360◦ Beachte das wir Winkel im Bogenmaß einfach als reelle Zahlen betrachten, und nicht als so etwas wie π/2 Grad. In der Mathematik gibt es keine Messungen, und daher auch keinen Bedarf für Maßeinheiten. Das Bogenmaß hat auch eine einfache geometrische Bedeutung. Der Umfang eines Kreises mit Radius r > 0 ist ja bekanntlich 2πr, und der Umfang des Einheitskreises ist somit 2π. Verändern wir den Winkel φ, so verändert sich die Länge des oben dick eingezeichneten Bogens proportional mit φ. Da der volle Umfang des Einheitskreises 2π, also gleich dem vollen Winkel ist, ist damit φ auch zugleich die Länge unseres dick eingezeichneten Bogens. Dies erklärt auch den Namen Bogenmaß“, das Maß des Winkels im Bogenmaß ist eben gerade die Länge ” des entsprechenden Bogens auf dem Einheitskreis. Vorlesung 9, Freitag 21.11.2008 Ist φ ∈ R ein vorgegebener Winkel, so bezeichnen wir den zugehörigen Punkt auf dem Einheitskreis, d.h. den Punkt der mit der positiven x-Achse den Winkel φ bildet, mit dem Symbol e(φ), und wir wollen nun seine xe( ) 1 und y-Koordinaten berechnen. Wir beginnen dabei mit y dem Fall, daß φ im ersten Quadranten liegt, das also x 0 < φ < π/2 ist. Dann haben wir das aufgezeichnete rechtwinklige Dreieck mit Katheten der Längen x und y. Die Länge der Hypotenuse ist dabei gleich 1, da sie ein Radius des Einheitskreises ist. Da die Kathete der Länge x am Winkel φ anliegt, also die Ankathete zu φ ist, haben wir x Ankathete x= = = cos φ. 1 Hypotenuse Ebenso ist die Kathete der Länge y diejenige die dem Winkel φ gegenüberliegt, also die Gegenkathete, und somit ist auch y= y Gegenkathete = = sin φ. 1 Hypotenuse 63 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 Insgesamt haben wir für den Punkt e(φ) im ersten Quadranten damit die Formel e(φ) = (cos φ, sin φ) = cos φ + i sin φ. Bevor wir die Situation im zweiten Quadranten besprechen, ist es nützlich sich an einige kleine Tatsachen über die trigonometrischen Funktionen Sinus und Cosinus zu erinnern. In ihrer geometrischen Definition werden die Sinus und Cosinus Funktion auf Winkel in einem rechtwinkligen Dreieck angewendet, und da die Winkelsumme in einem Dreieck insgesamt 180◦ , also im Bogenmaß π, ist, sind sin φ und cos φ zunächst nur für Argumente φ mit 0 < φ < π/2 definiert. Sie haben dann bereits in der Schule gesehen wie die Definition von sin φ und cos φ auf beliebige Winkel φ mit 0 ≤ φ ≤ 2π ausgedehnt wird. Zunächst vereinbart man sin(0) := 0 und cos(0) := 1 sowie sin(π/2) := 1 und cos(π/2) := 0. Für π/2 ≤ φ ≤ π ist dann 0 ≤ π − φ ≤ π/2 und man setzt sin φ := sin(π − φ) und cos φ := − cos(π − φ). Damit sind sin φ und cos φ dann für alle 0 ≤ φ ≤ π definiert. Ist weiter π ≤ φ ≤ 2π, so haben wir 0 ≤ 2π − φ ≤ π und setzen sin φ := − sin(2π − φ) und cos φ := cos(2π − φ). Jetzt sind sin φ, cos φ für alle Winkel 0 ≤ φ ≤ 2π definiert und diese beiden Funktionen werden mit Periode 2π für alle φ ∈ R fortgesetzt, also so das sin(φ + 2π) = sin φ und cos(φ + 2π) = cos φ für alle φ ∈ R gelten. 1 1 –1 –1 Sinus Cosinus Zwischen 0 und 2π hat die Sinusfunktion Nullstellen in 0, π und 2π, ein Maximum mit dem Wert 1 bei π/2 und ein Minimum mit dem Wert −1 bei 3π/2. Dagegen hat der Cosinus Nullstellen in π/2 und 3π/2, zwei Maxima mit dem Wert 1 in 0 und 2π und ein Minimum mit dem Wert −1 in π. Wie bereits bemerkt setzt sich dies dann periodisch auf ganz R fort. Wir werden übrigens später im Analysis Teil dieser Vorlesung noch eine andere Definition von Sinus und Cosinus kennenlernen, die ohne rechtwinklige Dreiecke auskommt und sin φ, cos φ auf einen Schlag für alle φ ∈ R definiert. Wir wollen uns nun den Fall vornehmen, dass unser Punkt wie im nebenstehenden Bild im zweiten Quadranten liegt, das also π/2 < φ < π gilt. In diesem Fall er−x halten wir ein rechtwinkliges Dreieck mit einem Winken y 1 ψ, der gerade 90◦ kleiner als φ ist, d.h. ψ = φ − π/2. Die Ankathete zum Winkel ψ ist diesmal y, während die Gegenkathete zu ψ wegen x < 0 die Länge −x hat. Genau wie wir im ersten Quadranten geschlossen haben, liefern diese Beobachtungen uns die Gleichungen y = cos ψ und − x = sin ψ. 64 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 Wir erinnern uns nun an die Additionstheoreme des Sinus und des Cosinus. Diese besagen bekanntlich, das die beiden Gleichungen cos(φ + ψ) = cos φ cos ψ − sin φ sin ψ, sin(φ + ψ) = sin φ cos ψ + cos φ sin ψ für alle φ, ψ ∈ R gelten. Erinnern wir uns noch daran, daß sin(±π/2) = ±1 und cos(±π/2) = 0 ist, so können wir unsere obigen Formeln wie folgt weiter auswerten π π π −x = sin ψ = sin φ − = sin φ cos − + cos φ sin − = − cos φ, 2 2 2 also x = cos φ, und π π π = cos φ cos − − sin φ sin − = sin φ. y = cos ψ = cos φ − 2 2 2 Damit haben wir auch im zweiten Quadranten die Gleichung e(φ) = (cos φ, sin φ). Analog läßt sich auch im dritten und vierten Quadranten schließen. Somit haben wir die Identität e(φ) = (cos φ, sin φ) = cos φ + i sin φ für alle Winkel 0 ≤ φ < 2π. Da die rechte Seite dieser Gleichung für jedes φ ∈ R definiert ist, können wir sie auch dazu verwenden die Definition e(φ) := cos φ + i sin φ für überhaupt sämtliche φ ∈ R durchzuführen. Da Sinus und Cosinus beide die Periode 2π haben, gilt dann auch e(φ + 2π) = e(φ) für jedes φ ∈ R. Für Argumente φ mit 0 ≤ φ < 2π ist e(φ) direkt nach unserer Definition eine injektive Abbildung. Insbesondere haben wir für je zwei φ, ψ ∈ R stets e(φ) = e(ψ) ⇐⇒ es gibt eine ganze Zahl k ∈ Z mit ψ = φ + 2kπ, d.h. genau dann ist e(φ) = e(ψ) wenn φ und ψ sich nur um ein ganzzahliges Vielfaches von 2π unterscheiden. Die eben bemerkte Periodizität von e(φ) ergibt dann, dass e(φ) eine bijektive Abbildung auf den Einheitskreis ist, wenn wir nur die Winkel φ auf einen Bereich der Länge 2π beschränken. Wählen wir insbesondere den Bereich der reellen Zahlen φ mit −π < φ ≤ π, so erhalten wir die Polarkoordinaten auf dem Einheitskreis. Ist also z = (x, y) = x + iy ein Punkt auf dem Einheitskreis, so heißt die eindeutig bestimmte reelle Zahl φ mit −π < φ ≤ π und e(φ) = z die Polarkoordinate von z. Dieses φ können wir leicht bestimmen, die Formel unterscheidet sich aber je nachdem ob z ober- oder unterhalb der x-Achse liegt. Wir starten mit dem ersten Fall sei also y ≥ 0. Dann ist x = cos φ und wegen sin φ = y ≥ 0 muss φ ≥ 0 sein, also 0 ≤ φ ≤ π. Aber für φ zwischen 0 und π ist die Cosinusfunktion eine monoton fallende, bijektive Abbildung auf die reellen Zahlen zwischen −1 und 1. Die Umkehrabbildung dieser Einschränkung des Cosinus ist der sogenannte Arcus Cosinus, geschrieben als arccos : {x ∈ R : |x| ≤ 1} → {φ ∈ R|0 ≤ φ ≤ π}; x 7→ arccos x. 65 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 Mit dieser Bezeichnung ist also φ = arccos x. Nun kommen wir zum Fall, daß z = (x, y) unterhalb der x-Achse liegt, das also y < 0 ist. Dann ist sin φ = y < 0, also −π < φ < 0. Es folgen 0 < −φ < π und cos(−φ) = cos φ = x, also −φ = arccos x, beziehungsweise φ = − arccos x. Insgesamt ist damit die Polarkoordinate für z = (x, y) auf dem Einheitskreis gegeben durch ( arccos x, y ≥ 0, φ= − arccos x, y < 0. Damit haben wir die Punkte des Einheitskreises durch eine Polarkoordinate beschrieben. Wir wollen diez=(x,y) se Beschreibung nun auf die gesamte Ebene ausdehnen. r Da diese im Gegensatz zum Einheitskreis zweidimensioy nal ist, werden wir auch zwei Koordinaten zur Beschreibung von Punkten der Ebene benötigen. Sei ein Punkt x z = (x, y) ∈ R2 = C mit z 6= 0 gegeben. Als erste Koordinate von z verwenden wir dann den Abstand von z zum Nullpunkt. Wie im nebenstehenden Bild zu sehen, können wir dann ein rechtwinkliges Dreieck bilden, dessen Hypothenusenlänge gerade der Abstand r von z zum Nullpunkt ist, und dessen Kathetenlängen |x| und |y| sind (die Beträge sind nötig um auch die Situation in den anderen drei Quadranten abzudecken). Als Abstand zum Nullpunkt ergibt sich somit r= p p |x|2 + |y|2 = x2 + y 2 > 0. Nun bilden wir die Halbgerade von 0 zum Punkt z und betrachten ihren Schnittpunkt mit dem Einheitskreis. Dieser Schnittpunkt ist ein Punkt des Einheitskreises, und kann damit durch einen eindeutigen Winkel φ mit −π < φ ≤ π beschrieben werden. Wie dies im Bild aussieht unterscheidet sich je nachdem ob z im Inneren des Einheitskreises oder außerhalb des Einheitskreises liegt: z e( ) e( ) z 66 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 In kartesischen Koordinaten ist der Schnittpunkt unserer Halbgeraden mit dem Einheitskreis gerade x y 1 z= , , r r r und für den Winkel φ ergibt sich mit unserer obigen Formel ( arccos xr , y ≥ 0, φ= x − arccos r , y < 0, wobei wir einfach y statt y/r verwenden, da y und y/r ja dasselbe Vorzeichen haben. Die Polarkoodinaten eines Punktes z = (x, y) = x + iy sind also die reellen Zahlen r, φ mit r > 0, −π < φ ≤ π und z = re(φ) = r cos φ + ir sin φ. Ausrechnen können wir diese beiden Polarkoordinaten dann über die eben angegebenen Formeln für r und φ. Dem Nullpunkt sind hierbei keine Polarkoordinaten zugeordnet, bei Bedarf kann man als die Polarkoordinaten jederzeit r = 0 und einen beliebigen Winkel φ verwenden. Umgekehrt können wir für beliebige reelle Zahlen r, φ ∈ R mit r ≥ 0 den Punkt z = r · e(φ) = (r cos φ, r sin φ) = r cos φ + ir sin φ betrachten. Der Abstand dieses Punktes zum Nullpunkt ist wegen r2 cos2 φ+r2 sin2 φ = r2 · (cos2 φ + sin2 φ) = r2 dann gleich r. Allerdings müssen r und φ nicht die Polarkoordinaten von z sein. Die erste Polarkoordinate von z ist zwar das vorgegebene r, aber der Winkel φ liegt eventuell nicht im von den Polarkoordinaten verwendeten Bereich zwischen −π und π. Um auch den Winkel zu erhalten muss aber nur noch ein geeignetes Vielfaches von 2π zu φ addiert werden so, dass die Summe im erlaubten Bereich liegt. Die Polarkoordinaten von z sind also r und der Winkel φ0 mit −π < φ0 ≤ π und φ0 = φ + 2kπ für ein k ∈ Z. Man bezeichnet den Winkel φ, also die zweite Polarkoordinate eines Punktes z = (x, y) ∈ C, gelegentlich auch als das Argument von z und schreibt dann ( arccos xr , y ≥ 0, arg z := φ = x − arccos r , y < 0. Manchmal wird dies auch als das Hauptargument von z bezeichnet und mit einem Argument von z meint man dann die Summe des Hauptarguments mit einem beliebigen Vielfachen von 2π, also ein beliebiges φ mit z = re(φ), das nicht unbedingt im Bereich zwischen −π und π liegt. Wir werden diese Sprechweise in dieser Vorlesung nicht, oder höchstens sehr sparsam, verwenden, sie kann Ihnen aber in anderen Texten immer mal wieder unterkommen. Damit haben wir die Polarkoordinaten von Punkten der Ebene konstruiert, aber was haben diese nun mit komplexen Zahlen zu tun? Die Bedeutung der Polarkoordinaten für die komplexen Zahlen beruht auf der folgenden Rechnung, die wieder die bereits weiter oben angegebenen Additionstheoreme des Sinus und des Cosinus verwendet. Für 67 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 alle φ, ψ ∈ R haben wir: e(φ) · e(ψ) = = = = (cos φ + i sin φ) · (cos ψ + i sin ψ) cos φ cos ψ − sin φ sin ψ + i · (sin φ cos ψ + cos φ sin ψ) cos(φ + ψ) + i sin(φ + ψ) e(φ + ψ), d.h. bei Multiplikation komplexer Zahlen auf dem Einheitskreis müssen nur ihre Winkel in ihrer Darstellung in Polarkoordinaten addiert werden. Diese Beobachtung kann nun leicht auf allgemeine komplexe Zahlen ausgedeht werden, sind r, s ≥ 0 und φ, ψ ∈ R, so haben wir (r · e(φ)) · (s · e(ψ)) = rs · e(φ)e(ψ) = rs · e(φ + ψ). In Polarkoordinaten ausgedrückt müssen zur Multiplikation zweier komplexer Zahlen also ihre Längen multipliziert und ihre Winkel addiert werden. Um dann zur Darstellung des Produkts in Polarkoordinaten zu kommen, muss anschließend noch die Winkelsumme durch Addition eines geeigneten Vielfachen von 2π in den Bereich zwischen −π und π gebracht werden. Besonders das von uns im vorigen Abschnitt behandelte Problem der Bestimmung der n-ten Wurzeln einer komplexen Zahl wird durch die Verwendung von Polarkoordinaten auf einmal sehr einfach. Ist nämlich eine komplexe Zahl z ∈ C in Polarkoordinaten als z = re(φ) mit r ≥ 0, φ ∈ R geschrieben. so haben wir z 2 = r2 e(2φ), z 3 = r3 e(3φ), z 4 = r4 e(4φ), . . . , und so weiter, also auch z n = rn e(nφ) für jedes n ∈ N. Wir wollen dies einmal dazu verwenden erneut alle komplexen Zahlen z mit z 3 = 1 zu berechnen. Hierzu setzen wir z in der Form z = re(φ) mit r ≥ 0 und 0 ≤ φ < 2π an. Dass wir dabei für φ nicht den Bereich zwischen −π und π nehmen, dient dabei nur der Bequemlichkeit. Nach unserer eben durchgeführten Überlegung wird z 3 = r3 e(3φ) mit 0 ≤ 3φ < 6π. Wegen 1 = 1 · e(0) ist damit genau dann z 3 = 1 wenn r3 = 1 und e(3φ) = e(0) sind. Die erste Bedingung r3 = 1 ist zu r = 1 äquivalent. Die zweite Bedingung e(3φ) = e(0) ist genau dann wahr, wenn es eine ganze Zahl k ∈ Z mit 3φ = 0 + 2kπ = 2kπ gibt. Wegen 0 ≤ 3φ < 6π kommen hierfür aber nur die drei Zahlen k = 0, 1, 2 in Frage, d.h. wir haben genau drei komplexe Zahlen z mit z 3 = 1, nämlich z = e(0) = 1, z = e 2π 3 2π 2π = cos + i sin und z = e 3 3 4π 3 = cos 4π 4π + i sin . 3 3 Um diese speziellen Werte der Sinus und der Cosinusfunktion weiter auszurechnen kann man sich nun einer Formelsammlung bedienen. Einige dieser speziellen Werte wollen 68 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 wir hier einmal auflisten: cos φ 1 −1 0 φ 0 π π 2 π 3 π 4 π 5 π 6 1 √ 2 2 √ 1 2 2 √ √ 1 2 √ 3+ 5 4 √ 3 sin φ 0 0 1 √ 1 3 2√ 1 2 2 √ 2 √ 5− 5 4 1 2 Weitere Werte kann man dann mit den Additionstheoremen berechnen. Wir haben ja zum Beispiel sin(2φ) = 2 sin φ cos φ, cos(2φ) = cos2 φ − sin2 φ = 2 cos2 φ − 1 für alle φ ∈ R und erhalten somit cos 2π = 2 cos2 3 cos 4π = 2 cos2 3 π − 1 = − 12 , sin 3 2π − 1 = − 21 , sin 3 2π 3 4π 3 √ = 2 sin π3 cos π3 = 12 3,√ = 2 sin 2π cos 2π = − 12 3 3 3 also sind unsere drei dritten Wurzeln von 1 wieder 1 1√ 1 1√ z = 1, z = − + 3 und z = − − 3. 2 2 2 2 Wir wollen hier nicht vollständig begründen, wie die obigen Werte sin φ und cos φ hergeleitet werden, aber wenigstens einige kleine Hinweise hierzu geben. Dabei sind die Fälle φ = 0, π, π/2 klar. Für die anderen Werte reicht es aus cos φ auszurechnen, da ja sin2 φ + cos2 φ = 1 und sin(π/k) ≥ 0 für k ∈ N gilt. Zunächst beachte das für jedes x ∈ R stets x x cos x = cos 2 · = 2 cos2 − 1, 2 2 also 1 + cos x x cos2 = . 2 2 Ist nun x ∈ R mit |x| ≤ π, so ist auch |x/2| ≤ π/2 also cos x ≥ 0 und x cos = 2 r 1 + cos x . 2 Damit ist zum Beispiel π cos = 4 r 1 + cos π2 1 1√ =√ = 2. 2 2 2 69 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 Ebenso kann die Zeile zu π/6 aus der zu π/3 berechnet werden. Die Werte cos(π/3) und cos(π/5) können geometrisch, oder alternativ über die Additionstheoreme begründet werden, aber dies wollen wir hier nicht vorführen. Kommen wir wieder zu unseren komplexen Wurzeln zurück. Bis auf die endgültige Formel hängt unsere obige Berechnung der z ∈ C mit z 3 = 1 nicht von n = 3 ab, sondern läßt sich analog für jeden Exponenten durchführen. Für jede natürliche Zahl n ∈ N gibt es genau n komplexe Zahlen z ∈ C mit z n = 1, nämlich die Zahlen 2π 4π 2(n − 1)π e(0) = 1, e ,e ,...,e , n n n oder anders gesagt alle Zahlen der Form e(2πk/n) mit k = 0, 1, . . . , n − 1. Da die Winkel dieser Zahlen 0, 2π/n, . . . , 2(n − 1)π/n sind, bilden sie die Ecken eines in den Einheitskreis eingeschriebenen gleichmäßigen n-Ecks. Sind nun a ∈ C mit a 6= 0 und n ∈ N, so schreiben wir a = re(φ) mit r > 0 und −π < φ ≤ π, d.h. r, φ sind die √ n Polarkoordinaten von a. Dann ist r · e(φ/n) eine n-te Wurzel von a. Die anderen nten Wurzeln entstehen aus dieser durch Multiplikation mit den entsprechenden Wurzeln der Eins, sind also die komplexen Zahlen √ √ φ φ + 2πk 2πk n n r·e ·e = r·e n n n mit k = 0, 1, . . . , n − 1. Damit bilden auch die n-ten Wurzeln von a die Ecken eines gleichseitigen n-Ecks, das aus dem n-Eck der Wurzeln von 1 durch eine Drehung und eine Streckung entsteht. Tatsächlich hat jede Gleichung z n + an−1 z n−1 + . . . + a1 z + a0 = 0 über den komplexen Zahlen eine Lösung. Dies ist der sogenannte Fundamentalsatz der Algebra, dessen Beweis hier allerdings noch weit jenseits unserer Möglichkeiten liegt. Zum Abschluß dieses Abschnitts wollen wir nun noch einige einfache Konzepte und die mit ihnen verbundenen Rechenregeln besprechen. Definition 4.3: Sei z = x + iy ∈ C eine komplexe Zahl. Dann heißen p |z| := x2 + y 2 der Betrag von z und z := x − iy die zu z konjugiert komplexe Zahl. Dabei ist der Betrag |z| eine der beiden Polarkoordinaten, d.h. in dieser Notation sind die Polarkoordinaten von z die beiden reellen Zahlen |z| und arg z. Die konjugiert komplexe Zahl z einer komplexen Zahl z, ist uns bereits im vorigen Abschnitt bei der Berechnung der komplexen Zahl 1/z begegnet. Ist z eine reelle Zahl, also z = x, so ist √ 2 |z| = x = |x| der schon früher definierte Betrag der reellen Zahl z. Die Grundeigenschaften von Betrag und Konjugation werden im folgenden Satz zusammengefasst: Satz 4.2: Seien z, w ∈ C zwei komplexe Zahlen. 70 Mathematik für Ingenieure I, WS 2008/2009 Freitag 21.11.2008 (a) Es gelten z + w = z + w, zw = z · w und z = z. (b) Es gelten |z| = |z|, |z|2 = zz und ist z 6= 0, so ist auch 1/z = z/|z|2 . (c) Es gilt |zw| = |z| · |w|. (d) Es sind Re z = z+z z−z und Im z = 2 2i und | Re z| ≤ |z|, | Im z| ≤ |z|. (e) Es gilt |z + w| ≤ |z| + |w| (dies ist wieder die Dreiecksungleichung). (f ) Es gelten |z − w| ≥ |z| − |w| und |z| − |w| ≤ |z − w|. Beweis: Wir schreiben z = x + iy mit x, y ∈ R. (b) Zunächst haben wir p p |z| = |x − iy| = x2 + (−y)2 = x2 + y 2 = |z| und zz = (x + iy) · (x − iy) = x2 − i2 y 2 = x2 + y 2 = |z|2 . Ist z 6= 0, so folgt aus zz = |z|2 > 0 auch 1/z = z/|z|2 . (c) Da |z| der Abstand von z zu Null ist, haben wir dies bereits bei der Diskussion der Polarkoordinaten festgehalten (Multiplikation komplexer Zahlen in Polarkoordinaten bedeutete Multiplikation der Längen und Addition der Winkel). (a) Die Gleichungen z + w = z + w und z = z sind klar. Ist z = 0 oder w = 0, so ist auch |zw| = 0 = |z| · |w|. Nun seien z, w 6= 0 beide nicht Null. Dann rechnen wir zw = |zw|2 |z|2 |w|2 |z|2 |w|2 = = · = z · w. zw zw z w (d) Die ersten beiden Aussagen sind wegen z + z = x + iy√+ x − p iy = 2x undz − z = x + iy − x + iy = 2iy klar. Weiter ist auch | Re z| = |x| = x2 ≤ x2 + y 2 = |z|, und analog folgt auch | Im z| ≤ |z|. (e) Mit den bereits nachgewiesenen Eigenschaften ergibt sich |z+w|2 = (z+w)·(z + w) = (z+w)·(z+w) = zz+zw+zw+ww = zz+zw+zw+ww = |z|2 + 2 Re(zw) + |w|2 ≤ |z|2 + 2| Re(zw)| + |w|2 ≤ |z|2 + 2|zw| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = |z|2 + 2|z| · |w| + |w|2 = (|z| + |w|)2 , also auch |z + w| ≤ |z| + |w|. (f ) Dies folgt mit (e) genau wie im Beweis von Satz 1. 71 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 z+w w D z 0 An der komplexen Dreiecksungleichung können wir übrigens auch den Grund für ihren Namen ablesen. Die Summe z + w zweier komplexer Zahlen z, w ist die übliche Vektorsumme, kann also durch ein Parallelogramm wie im oben stehenden Bild realisiert werden. Bilden wir dann das untere Dreieck D, so hat die Seite von D in der Mitte des Parallelogramms die Länge |z + w|, die untere Seite von D hat die Länge |z| und die rechte Seite ist parallel zu w, hat also die Länge |w|. Die Dreiecksungleichung ist also die geometrische Aussage, dass die Länge jeder Seite eines Dreiecks kleiner oder gleich der Summe der Längen der beiden anderen Seiten ist. $Id: lgs.tex,v 1.4 2008/11/28 12:03:35 hk Exp $ Vorlesung 10, Dienstag 25.11.2008 II. Lineare Algebra §5 Lineare Gleichungssysteme Definition 5.1: Ein lineares Gleichungssystem besteht aus m linearen Gleichungen a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm für die gesuchten n Unbekannten x1 , . . . , xn . Dabei sind die sogenannten Koeffizienten aij und die rechten Seiten bj reelle oder komplexe Zahlen, und auch die Variablen x1 , . . . , xn können reell oder komplex sein. Je nachdem ob reelle oder komplexe Zahlen vorliegen, sprechen wir von einem linearen Gleichunssystem über R oder über C. Allgemeiner kann man auch lineare Gleichungssysteme über einem Körper K behandeln. Ein Körper ist dabei eine Menge K versehen 72 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 mit einer Addition und einer Multiplikation, die die in §4 aufgezählten Körperaxiome erfüllen. Da dieser Grad an Allgemeinheit für unsere Zwecke aber nicht von Bedeutung ist, nehmen wir immer K = R oder K = C an. Zur Verkürzung der Schreibweise führen wir für das lineare Gleichungssystem (∗) die sogenannte Matrixschreibweise ein. Definition 5.2: Eine m × n Matrix A über dem Körper K (also bei uns K ∈ {R, C}) ist ein rechteckiges Schema a11 · · · a1n .. A = ... . am1 · · · amn bestehend aus m Zeilen von je n Elementen von K. Ist dabei m = n, so spricht man auch von einer quadratischen Matrix. Definition 5.3: Sei (∗) das lineare Gleichungssystem der obigen Definition. Dann nennt man die Matrix a11 · · · a1n .. A = ... . am1 · · · amn die Koeffizientenmatrix des linearen Gleichungssystems (∗). Weiter heißt die Matrix a11 · · · a1n b1 .. .. A0 = ... . . am1 · · · amn bm die erweiterte Koeffizientenmatrix des linearen Gleichungssystems (∗). Wir wollen ein erstes Beispiel eines linearen Gleichungssystems besprechen, nämlich das folgende System von vier Gleichungen in vier Unbekannten: x + 2y − u + v = 1 x + 2y + u − v = −3 −x + 2y + 3u − v = 1 3x − u = 0 Koeffizientenmatrix und erweiterte Koeffizientenmatrix dieses Gleichungssystems sind dann die 4 × 4 beziehungsweise 4 × 5 Matrix 1 2 −1 1 1 2 −1 1 1 1 2 1 −1 1 −1 −3 , A0 = 1 2 . A= −1 2 −1 2 3 −1 3 −1 1 3 0 −1 0 3 0 −1 0 0 73 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 Zur Lösung dieses Gleichungssystem werden wir gleich kommen. Es ist nützlich sich zunächst um einen sehr einfach zu lösenden Spezialfall eines linearen Gleichungssystems zu kümmern. Betrachte beispielsweise das folgende lineare Gleichungssystem x + 2y − u + v 4y + 2u 2u − 2v 2v = 1 = 2 = −4 = 10 Dieses Gleichungssystem können wir sehr einfach lösen indem wir die Unbekannten mit v startend von unten her auflösen. Die vierte Gleichung liefert v = 5, damit wird die dritte zu 2u − 10 = −4, also u = 3, die zweite Gleichung ergibt 4y + 6 = 2, also y = −1 und schließlich mit der ersten Gleichung auch x − 2 − 3 + 5 = 1, also x = 1. Ein ähnliches Beispiel ist das folgende lineare Gleichungssystem x + y + y − z=1 = 23 1 z 3 Hier können wir aus der letzten Gleichung y= 2 1 + z 3 3 ablesen, wobei die Variable z durch das Gleichungssystem nicht weiter festgelegt wird, also jeden reellen Wert annehmen kann. Gehen wir mit diesem Wert für y in die erste Gleichung, so wird diese zu 2 1 x+ + z+z =1 3 3 also 1 4 x = − z. 3 3 Damit haben wir hier zwar keine eindeutige Lösung, aber wir können zumindest die Menge aller Lösungen des Gleichungssystems hinschreiben als 1 4 3 − 3 z 2 + 1 z z ∈ R . 3 3 z Analog läßt sich jedes solche lineare Gleichungssystem in Stufenform a11 x1 + · · · + a1i xi + · · · + a1j xj + · · · = b1 a2i xi + · · · + a2j xj + · · · = b2 a3j xj + · · · = b3 .. . . = .. mit a11 6= 0, a2i 6= 0, a3j = 0, . . . auflösen. Dabei dürfen auch noch zusätzliche führende Spalten auftreten, die nur aus Nullen bestehen. Wie in den Beispielen startet man mit 74 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 der untersten Gleichung und arbeitet sich nach oben durch. Jede der Gleichungen legt dann eine der Unbekannten fest, nämlich diejenige xi deren Koeffizient der am weitesten links stehende, von Null verschiedene, Eintrag in dieser Gleichung ist. Bei jeder der langen Stufen treten dabei Variablen auf, die durch die Gleichung nicht weiter festgelegt sind, wie im obigen Beispiel das z. Diese müssen nicht ganz hinten stehen. Ein anderes Beispiel in Stufenform mit vier Variablen und zwei langen Stufen ist x + y + u − v= 1 u + v = 2. Hier ergibt die zweite Gleichung u = 2 − v mit einer freien Variablen v. Die erste Gleichung wird dann zu x + y + 2 − v − v = 1, also x = −1 − y + 2v, d.h. durch diese Gleichung wird auch y zu einer freien Variable. Für die Lösungsmenge ist es nun praktisch, die frei gebliebenen Variablen umzutaufen, y und v als Laufvariablen sieht etwas merkwürdig aus. Die Lösungsmenge ist 1 − s + 2t s s, t ∈ R . 2 − t t Ein allgemeines lineares Gleichungssystem kann nun gelöst werden, indem es in ein äquivalentes lineares Gleichungsystem in Stufenform umgeformt wird. Hierzu verwenden wir die folgenden drei elementaren Transformationen eines linearen Gleichungssystems: 1. Vertauschen zweier Gleichungen. 2. Multiplikation einer der Gleichungen mit einer Zahl c 6= 0. 3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile. Offenbar verändert keine dieser drei Transformationen die Lösungsmenge eines linearen Gleichungssystems. Die Operation (2) wird dabei nicht wirklich benötigt, wir können sie dazu benutzen in der Stufenform zusätzlich a11 = a2i = a3j = · · · = 1 anzunehmen, was gelegentlich bequem ist. In Termen der erweiterten Koeffizientenmatrix werden diese drei Operationen zu 1. Vertauschen zweier Zeilen. 2. Multiplikation einer Zeile mit einer Zahl c 6= 0. 3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile. 75 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 Diese drei Transformationen einer Matrix werden auch als elementare Zeilenumformungen bezeichnet. Das sogenannte Gaußsche Eliminationsverfahren, oft auch als GaußAlgorithmus bezeichnet, wendet diese drei elementaren Umformungen systematisch auf ein gegebenes lineares Gleichungssystem an, um es in ein System in Stufenform zu überführen. Wir wollen das Eliminationsverfahren zunächst am obigen Beispiel des linearen Gleichungssystems mit der erweiterten Koeffizientenmatrix 1 2 −1 1 1 1 2 1 −1 −3 −1 2 3 −1 1 3 0 −1 0 0 durchführen. Das Verfahren startet hier indem wir Vielfache der ersten Zeile zu den anderen drei Zeilen addieren, und zwar so, dass der neue Eintrag in der ersten Spalte dieser drei Gleichungen zu Null wird. Ziehen wir die erste Zeile von der zweiten ab, so erhalten wir ganz links in der zweiten Zeile tatsächlich eine Null. Beachte dabei das ein Abziehen der ersten Zeile von der zweiten auch als Addition des (−1)-fachen der ersten Zeile zur zweiten gedeutet werden kann. Entsprechend müssen wir die erste Zeile zur dritten Zeile addieren, und das dreifache der ersten Zeile von der vierten Zeile abziehen. Mit diesen drei elementaren Zeilenumformungen wird unsere erweiterte Koeffizientenmatrix zu 1 2 −1 1 1 1 2 −1 1 1 1 2 1 −1 −3 0 2 −2 −4 −→ 0 . −1 2 0 3 −1 1 4 2 0 2 3 0 −1 0 0 0 −6 2 −3 −3 Damit sind wir der Stufenform ein Stück näher gekommen. Nun würden wir gerne mit der zweiten Zeile so fortfahren, also Vielfache der zweiten Zeile zur dritten und vierten addieren so, dass wir in der dritten und vierten Zeile zwei führende Nullen bekommen. Leider geht dies nicht sofort, da der zweite Eintrag der zweiten Zeile ja selbst eine Null ist. Dies können wir aber leicht beheben, wir benutzen die erste unserer elementaren Zeilenumformungen um die zweite und die dritte Zeile der Matrix miteinander zu vertauschen 1 2 −1 1 1 1 2 −1 1 1 0 0 2 −2 −4 4 2 0 2 . −→ 0 0 0 4 2 0 2 0 2 −2 −4 0 −6 2 −3 −3 0 −6 2 −3 −3 Danach kann es weitergehen, um auch der vierten Zeile eine zweite Null zu geben, muss nur noch das 3/2-fache der zweiten Zeile zur vierten addiert werden 1 2 −1 1 1 1 2 −1 1 1 0 4 2 0 2 2 0 2 −→ 0 4 . 0 0 0 0 2 −2 −4 2 −2 −4 0 −6 2 −3 −3 0 0 5 −3 0 76 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 Damit ist die Stufenform schon beinahe erreicht. Wir müssen nur noch als letzten Schritt das 5/2-fache der dritten Zeile von der vierten abziehen und erhalten 1 2 −1 1 1 1 2 −1 1 1 0 4 2 0 2 2 0 2 . −→ 0 4 0 0 0 0 2 −2 −4 2 −2 −4 0 0 0 2 10 0 0 5 −3 0 Damit haben wir unser lineares Gleichungssystem in Stufenform gebracht. Tatsächlich ist das erhaltene System in Stufenform gerade x + 2y − u + v 4y + 2u 2u − 2v 2v = 1 = 2 = −4 = 10 und dies war unser erstes Beispiel eines linearen Gleichungssystems in Stufenform. Die eindeutige Lösung dieses Gleichungssystems hatten wir bereits als x = 1, y = −1, u = 3, v = 5 ermittelt. Wir wollen nun noch ein zweites Beispiel durchrechnen, das zwar lösbar, aber nicht mehr eindeutig lösbar ist. Wir betrachten das folgende lineare Gleichungssystem x + y + z= 1 2x − y + 3z = 0 5x − y + 7z = 1. Hier beginnt das Eliminationsverfahren, indem wir das doppelte der ersten Zeile von der zweiten Zeile abziehen und anschließend das fünffache der ersten Zeile von der dritten Zeile abziehen 1 1 1 1 1 1 1 1 2 −1 3 0 −→ 0 −3 1 −2 . 5 −1 7 1 0 −6 2 −4 Jetzt wird das doppelte der zweiten Zeile von der dritten Zeile abgezogen, und es entsteht 1 1 1 1 1 1 1 1 0 −3 1 −2 −→ 0 −3 1 −2 , 0 −6 2 −4 0 0 0 0 hier ist also auf einmal die gesamte dritte Zeile zu Null geworden. Für das erhaltene lineare Gleichungssystem bedeutet dies, dass die dritte Gleichung verschwunden ist. Für den Gauß Algorithmus ist dies kein Problem, die nun erhaltene Matrix ist nämlich in Stufenform, Phase 1 des Algorithmus ist hier also abgeschlossen. Benutzen wir noch die zweite unserer elementaren Zeilenumformungen um die zweite Zeile mit −1/3 zu 77 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 25.11.2008 multiplizieren und lassen die überflüssig gewordene dritte Zeile weg, so entsteht das folgende linere Gleichungssystem in Stufenform x + y + y − z=1 = 23 1 z 3 und dies war unser zweites Beispiel eines linearen Gleichungssystems in Stufenform. Die Menge der Lösungen dieses Gleichungssystems hatten wir bereits als 1 4 3 − 3 t 2 + 1 t t ∈ R . 3 3 t berechnet. Das Gaußsche Eliminationsverfahren läuft damit prinzipiell in zwei Phasen ab: 1. Bringe das gegebene lineare Gleichungssystem von oben beginnend in Stufenform indem die Einträge der weiter unten liegenden Spalten durch Addition geeigneter Vielfacher der oberen Zeile auf Null gebracht werden. 2. Löse das entstandene lineare Gleichungssystem in Stufenform von unter her, indem jede der verbliebenen Gleichungen eine der Unbekannten festleft, und eventuell verbleibende Unbekannte als freie Parameter behandelt werden. Wir werden bald eine etwas formalere Beschreibung dieses Algorithmus angeben. Aber bevor wir dies tun, wollen wir noch kurz einige der Vor- und Nachteile des Gaußschen Algorithmus benennen. Ein Vorteil ist natürlich, dass er sich für lineare Gleichungssysteme moderater Größe bequem per Hand durchführen läßt und zuverlässig in allen Fällen zur Bestimmung aller Lösungen führt. Es gibt allerdings auch einige Nachteile, die vor allen zum Tragen kommen, wenn der Algorithmus auf einem Computer ablaufen soll. In der hier gegebenen Form ist das Eliminationsverfahren zum Rechnen mit Fließkommazahlen nicht geeignet. Es werden fortwährend Differenzen gebildet, durch die dann anschließend dividiert wird. In dem unglücklichen, aber durchaus vorkommenden Fall, das dabei die Differenz von Zahlen gebildet wird, die relativ ihrer Größenordnung nahe beeinander liegen, verschwindet der wesentliche Teil dieser Zahlen in der Differenz, aber in den hinteren Dezimalstellen überlegen bereits aufgetretene Rundungsfehler, ein Effekt der als Auslöschung bezeichnet wird. Wird dann anschließend durch dieses Ergebnis geteilt, so können diese Rundungsfehler soweit vergrößert werden, dass die ganze Rechnung nur noch an Fehlern herumrechnet. Dies ist nicht das einzige numerische Problem des, Eliminationsverfahrens aber eine weitergehende Analyse unter numerischen Gesichtspunkten liegt außerhalb des Themas dieses Vorlesung. Ein anderes Problem ist, dass der Rechenaufwand beim Gaußschen Eliminationsverfahren grob gesagt mit der dritten Potenz n3 der Anzahl n der Unbekannten im linearen 78 Mathematik für Ingenieure I, WS 2008/2009 Freitag 28.11.2008 Gleichungssystem wächst. Dadurch wird die Behandlung großer linearer Gleichungssysteme mit unserem Algorithmus praktisch unmöglich. Leider sind lineare Gleichungssysteme mit vielen Unbekannten gerade Anwendungsfragen ein häufig auftretendes Phänomen. Eine typische Quelle derartiger großer Gleichungssysteme ist die numerische Lösung gewisser (partieller) Differentialgleichungen auf dem Computer. In einer solchen Gleichung wird nach einer Funktion f , beispielsweise in zwei Variablen also f (x, y), gesucht und die Gleichungen bestehen aus Bedingungen an Ableitungen von f . Sehr viele physikalische und praktische Probleme führen auf derartige Gleichungen. Ein Ansatz zur numerischen Behandlung ist es den für (x, y) interessierenden Bereich durch ein ausreichend feines Gitternetz aufzuteilen, und die unbekannte Funktion f anzunähern indem nur die Werte von f auf den Gitterpunkten betrachtet werden. 1 0 0 1 Die Ableitungen in einem Gitterpunkt werden dann durch gewisse Linearkombinationen der Werte der Funktion in diesem und in den umliegenden Gitterpunkten approximiert. Dadurch übersetzt sich die Differentialgleichung in ihrer Näherung durch ein lineares Gleichungssystem, das für jeden Funktionswert f (x, y) in einem der Gitterpunkte (x, y) eine Unbekannte hat. Unterteilen wir etwa für 0 ≤ x, y ≤ 1 das Quadrat in ein Gitter der Maschenweite 0.01, so haben wir auf jeder der beiden Achsen 100 Gitterpunkte, also im gesamten Quadrat 100 · 100 = 10000 Gitterpunkt. Damit hätten wir es bereits mit linearen Gleichungssystemen in 10000 Unbekannten zu tun. Hierfür wird dann sicher nicht der Gauß-Algorithmus eingesetzt, sondern es kommen ganz andere Verfahren zum Zug. Aber dies ist ein Thema einer spezialisierteren Vorlesung, und wir hier nicht behandelt werden. Vorlesung 11, Freitag 28.11.2008 Wir wollen das Gaußsche Eliminationsverfahren jetzt noch einmal etwas formaler beschreiben. Als Eingabe haben wir ein lineares Gleichungssystem bestehend aus m 79 Mathematik für Ingenieure I, WS 2008/2009 Freitag 28.11.2008 Gleichungen in n Unbekannten. Dieses Gleichungssystem wird durch seine Koeffizientenmatrix A und die rechte b ∈ K m beschrieben. Dabei ist A eine m × n Matrix, und wir schreiben auch (A|b) für die erweiterte Koeffizientenmatrix. Dann geht der Algorithmus wie folgt vor: 1. Suche die am weitesten links stehende Spalte in A, die einen von Null verschiedenen Eintrag enthält (in aller Regel ist dies die erste Spalte, sonst hätte man Unbekannte die im Gleichungssystem gar nicht auftauchen. Das ist formal zwar erlaubt, aber meistens nicht sinnvoll). 2. Gibt es überhaupt keine solche Spalte, sind also absolut alle Koeffizienten gleich Null, so gehen wir gleich zu Schritt 8. Andernfalls sorge dafür das bereits in der ersten Zeile der gefundenen Spalte ein Eintrag ungleich Null steht, indem bei Bedarf die erste Zeile mit einer anderen vertauscht wird. 3. Nun addiere Vielfache der ersten Zeile zu allen anderen Zeilen so, dass sämtliche Einträge der Spalte aus Schritt 1, mit Ausnahme des Eintrags in ersten Zeile selbst, zu Null werden. 4. Nun suche die am weitesten links stehende Spalte in A (dies meint jetzt bereits die in den vorigen Schritten veränderte Koeffizientenmatrix, nicht die ursprüngliche mit der wir gestartet sind), die außerhalb der ersten Zeile einen von Null verschiedenen Eintrag hat. 5. Gibt es überhaupt keine solche Spalte, so gehen wir wieder gleich zu Schritt 8 über. Andernfalls sorge dafür, dass in der zweiten Zeile der in Schritt 4 gefundenen Spalte ein von Null verschiedener Eintrag steht, indem bei Bedarf die zweite Zeile mit einer weiter unten stehenden vertauscht wird. 6. Addiere Vielfache der zweiten Zeile zu allen weiter unten stehenden Zeilen so, dass sämtliche Einträge der in Schritt 4 gefundenen Spalte, mit Ausnahme höchstens der Einträge in der ersten und zweiten Zeile, zu Null werden. 7. Wiederhole die Schritte 4,5 und 6 mit der dritten, vierten und allen folgenden Zeilen bis wir entweder bei der untersten Zeile angekommen sind oder direkt zu Schritt 8 gesprungen wurde. 8. Sind wir bei diesem Schritt angekommen so sind die obersten r Zeilen der Matrix von Null verschieden und in Stufenform, während die unteren m − r Zeilen nur aus Nullen bestehen. Dabei ist normalerweise r = m, außer wenn wir bereits vorzeitig zu diesem Schritt gesprungen sind. Das dies vorkommen kann, haben wir in unseren Beispielen bereits gesehen. 9. Ist r < m und gibt es in den unteren m − r Einträgen von b (auch dies ist das in den vorigen Schritten veränderte b und nicht mehr die urspüngliche rechte Seite), so ist das lineare Gleichungssysten nicht lösbar (da wir im äquivalenten Gleichungssystem ja eine Zeile 0 · x1 + . . . + 0 · xn = bi 6= 0 haben). 80 Mathematik für Ingenieure I, WS 2008/2009 Freitag 28.11.2008 10. Andernfalls sind auch alle unteren m−r Zeilen der (veränderten) erweiterten Koeffizientenmatrix gleich Null. Im entstandenen System in Stufenform löse nun die Gleichungen von der r-ten Zeile zur obersten Zeile hin auf. Jede Zeile legt dabei die Unbekannte, die zum am weitesten links liegenden, von Null verschiedenen, Eintrag der Zeile gehört fest. 11. Die restlichen nicht in Schritt 10 festgelegten n − r Unbekannten werden durch das lineare Gleichungssystem nicht weiter festgelegt. Ist also n = r, so haben wir eine eindeutige Lösung, und ist r < n, so haben wir eine Lösungsmenge die durch n − r freie Parameter beschrieben wird. Manchmal ist es bequem die Schritte 2 und 5 ein wenig zu modifizieren. 2∗ . Nach Durchführung des originalen Schritt 2 multipliziere die erste Zeile mit dem Kehrwert des Eintrags in der in Schritt 1 gefundenen Spalte der ersten Zeile. Hierdurch wird dieser Eintrag zu 1. 5∗ . Nach Durchführung des originalen Schritt 5 multipliziere die zweite Zeile (beziehungsweise die dritte, vierte und so weiter wenn dieser Schritt wiederholt wird) mit dem Kehrwert des Eintrags in der in Schritt 4 gefundenen Spalte dieser Zeile. Hierdurch wird dieser Eintrag zu 1. Verwenden wir diese kleine Modifikation, so werden die Schritte 3, 6 und 10 vereinfach, da wir zur Ermittlung der passenden Vielfachen keine Division mehr durchführen müssen. Dies ist vor allem im komplexen Fall sehr praktisch. Es empfiehlt sich das Gaußche Eliminationsverfahren einmal selbst auf einem Computer zu implementieren. Betrachten Sie dies ruhig als eine inoffizielle zusätzliche Übungsaufgabe. Wir hatten bereits bemerkt, dass das Gaußsche Eliminationsverfahren in der von uns beschriebenen Form für numerische Zwecke nicht besonders geeignet ist. Eine ausführliche Diskussion der vorzunehmenden Verbesserungen und ihre numerischen Analyse ist leider außerhalb des Themenbereichs dieser Vorlesung. Falls Sie an diesen Dingen interessiert sind, können Sie sich beispielsweise einmal Kapitel 2 in dem Buch James W. Demmel, Applied Numerical Linear Algebra, Society for Industrial and Applied Mathematics, Philadelphia 1997 anschauen. Falls Sie für das Eliminationsverfahren geeignete lineare Gleichungssysteme im Rahmen anderer numerischer Rechnungen lösen wollen, ist es in den meisten Fällen sinnvoll die üblichen Programmbibliotheken zu verwenden, statt eine eigene Implementierung des Eliminationsverfahrens einzusetzen. Schauen sie sich zum Beispiel an welche Funktionen Ihnen die BLAS (Basic Linear Algebra Subprograms) und LAPACK (Linear Algebra Package) Bibliotheken Ihres Rechners zur Verfügung stellen. Normalerweise sind das /usr/lib/libblas... und /usr/lib/liblapack..., aber die Details unterscheiden sich je nach verwendeten Betriebssystem. $Id: matrix.tex,v 1.4 2008/12/02 21:08:55 hk Exp $ 81 Mathematik für Ingenieure I, WS 2008/2009 §6 Freitag 28.11.2008 Die Matrixmultiplikation Zur weiteren Behandlung linearer Gleichungssysteme ist es hilfreich einige weitere algebraische Strukturen einzuführen. Insbesondere werden wir die Matrizen in ihrem Status etwas aufwerten. Im vorigen §5 dienten und Matrizen nur als eine bequeme Notation für lineare Gleichungssysteme, inhaltlich haben sie aber keinen Beitrag geleistet. In diesem Kapitel werden wir einige einfache Rechenoperationen mit Matrizen einführen, und diese dann auf eine spezielle Sorte linearer Gleichungssysteme anwenden. 6.1 Addition und Multiplikation von Matrizen Der Vollständigkeit halber führen wir zunächst die Addition von Vektoren und Matrizen sowie die Multiplikation derselben mit Skalaren ein. Wie in §5 bezeichne K entweder die reellen oder die komplexen Zahlen. Definition 6.1: Seien n, m ∈ N. Sind dann x, y ∈ K n zwei Vektoren derselben Größe, so definiere ihre Summe als x1 y1 x1 + y1 .. x + y = ... + ... := . . xn yn xn + yn Analog definieren wir für zwei m × n Matrizen a11 · · · a1n b11 · · · b1n .. , B = .. .. A = ... . . . am1 · · · amn bm1 · · · bmn die Summe von A und B als a11 + b11 · · · a1n + b1n .. .. A + B := . . . am1 + bm1 · · · amn + bmn Beachte das wir nur Summen von Vektoren und Matrizen derselben Größe definieren, und das diese sich bei der Addition dann nicht ändert. Für einen Skalar c ∈ K, d.h. eine reelle oder komplexe Zahl, definiert wir das Produkt von c mit einem Vektor beziehungsweise einer Matrix durch x1 cx1 a11 · · · a1n ca11 · · · ca1n .. := .. .. . c · ... := ... , c · ... . . . xn cxn am1 · · · amn cam1 · · · camn Mit dieser Addition beziehungsweise Multiplikation haben wir dann die folgenden Rechenregeln: 82 Mathematik für Ingenieure I, WS 2008/2009 Freitag 28.11.2008 1. Assoziativgesetz der Addition Für alle m × n Matrizen A, B, C und alle Vektoren x, y, z ∈ K n gelten (A+B)+C = A+(B+C) und (x+y)+z = x+(y+z). 2. Kommutativgesetz der Addition Für alle m × n Matrizen A, B und alle Vektoren x, y ∈ K n gelten A + B = B + A und x + y = y + x. 3. Null Ist 0 der Nullvektor, dessen Einträge alle Null sind, beziehungsweise die Nullmatrix, deren Einträge ebenfalls alle Null sind, so gelten 0 + x = 0 für jeden Vektor x ∈ K n und 0 + A = A für jede m × n Matrix A. 4. Subtraktion Sind A eine Matrix und x ein Vektor, so gelten (−A) + A = 0 und (−x) + x = 0 wobei −A := (−1) · A und −x := (−1) · x sind. 5. Assoziativgesetz für die Multiplikation mit Skalaren Für alle Zahlen a, b ∈ K, alle Matrizen A und alle Vektoren x gelten a · (b · A) = (ab) · A und a · (b · x) = (ab) · x. 6. Eins Für jede Matrix A und jeden Vektor x sind 1 · A = A und 1 · x = x. 7. Distributivgesetze Für alle m × n Matrizen A, B, Vektoren x, y ∈ K n und Zahlen a, b, c ∈ K gelten (a + b) · A = a · A + b · A, c · (A + B) = c · A + c · B, (a + b) · x = a · x + b · x und c · (x + y) = c · x + c · y. Auch mit Matrizen und Vektoren kann man also weitgehend normal rechnen. Nicht definiert wird dagegen das Produkt zweier Vektoren x, y ∈ K n . Einige Möglichkeiten Produkte von Vektoren einzuführen werden wir später behandeln, etwa das Skalarprodukt bei dem x · y eine Zahl wird, oder im Fall n = 3 das Vektorprodukt x × y. Für Matrizen passender Größe gibt es dagegen eine Multiplikation von Matrizen, die wir nun definieren wollen. Definition 6.2: Seien n, m, l ∈ N. Sind dann A eine m × l Matrix und B eine l × n Matrix a11 · · · a1l b11 · · · b1n .. , B = .. .. , A = ... . . . am1 · · · aml bl1 · · · bln so ist das Produkt c11 · · · c1n .. C := A · B = ... . cm1 · · · cmn die m×n Matrix C, deren Eintrag cij in der i-ten Zeile und der j-ten Spalte (1 ≤ i ≤ m, 1 ≤ j ≤ n) durch l X cij := aik bkj = ai1 b1j + · · · + ail blj k=1 definiert ist. 83 Mathematik für Ingenieure I, WS 2008/2009 Freitag 28.11.2008 Zwei Matrizen A, B können also nur dann multipliziert werden, wenn die linke Matrix A genausoviele Spalten hat wie die rechte Matrix B Zeilen hat. Die Formel zur Multiplikation zweier Matrizen sieht zunächst etwas bedrohlich aus, ist in Wahrheit aber sehr einfach. Wir wollen einmal ein kleines Beispiel anschauen, betrachte etwa die beiden Matrizen 1 1 0 1 1 −1 1 0 . A= , B= 0 0 1 −2 3 1 1 2 0 −1 Hier sind A eine 2 × 3 und B eine 3 × 4 Matrix, d.h. A und B können multipliziert werden und ihr Produkt ist eine 2 × 4 Matrix. Wie sieht die erste Zeile des Produktes A · B aus? Die Formel für den allerersten Eintrag dieser Zeile lautet c11 = a11 b11 + a12 b21 + a13 b31 = 1 · 1 + (−1) · 0 + 1 · 1 = 2. Übersichtlicher wird dies wenn wir uns die erste Zeile von A zu einer Spalte gedreht denken und diese der ersten Spalte von B gegenüberstellen 1 −1 1 1 0 1. Gegenüberliegende Zahlen werden dann miteinander multipliziert, und anschließend wird alles aufaddiert. Der zweite Eintrag der ersten Zeile ergibt sich dann ebenso, nur taucht diesmal auf der rechten Seite die zweite Spalte von B auf, also 1 0 2, 1 −1 1 und wir erhalten c12 = 1 + 0 + 2 = 3. Die restlichen Einträge der ersten Zeile von A · B ergeben sich analog. Gehen wir dann zur zweiten Zeile des Produkts über, so müssen wir uns die zweite Zeile der linken Matrix A gedreht denken und stellen diese den Spalten von B gegenüber, also etwa für den Eintrag in der ersten Spalte der zweiten Zeile von A · B −2 1 3 0 1 1. So fortfahrend haben wir dann insgesamt 1 1 0 1 2 3 −1 0 1 −1 1 0 = · 0 0 1 . −1 0 3 −3 −2 3 1 1 2 0 −1 Wir wollen nun einige der Rechenregeln für die Matrixmultiplikation festhalten: Satz 6.1 (Rechenregeln für Matrizen) Seien n, m, p, q ∈ N. 84 Mathematik für Ingenieure I, WS 2008/2009 Freitag 28.11.2008 (a) Assoziativgesetz Sind A eine m × p, B eine p × q und C eine q × n Matrix, so gilt (A · B) · C = A · (B · C). (b) Einheitsmatrizen Ist 0 ··· 1 ··· 1 .. . . . . En := = . . . 0 0 ··· 1 0 0 ··· {z | 1 0 .. . n Spalten n Zeilen 1 0 0 1 } 0 0 .. . 0 0 .. . die sogenannte n × n Einheitsmatrix, so gelten für jede m × n Matrix A die Gleichungen A · En = A und Em · A = A. (c) Distributivgesetze Sind A eine m × p Matrix und B, C zwei p × n Matrizen, so gilt A · (B + C) = A · B + A · C. Sind ebenso A, B zwei m × p Matrizen und C eine p × n Matrix, so gilt (A + B) · C = A · C + B · C. (d) Multiplikation mit Skalaren Sind A eine m × p Matrix, B eine p × n Matrix und c ∈ K ein Zahl, so gilt (cA) · B = A · (cB) = c · (A · B). Beweis: Wir wollen hier nur das Assoziativgesetz exemplarisch vorrechnen, die anderen drei Regeln können Sie sich selbst einmal als zusätzliche Übungsaufgaben vornehmen. Seien also A, B, C wie in (a) gegeben. Die beiden Produkte (AB)C und A(BC) sind dann zwei m × n Matrizen. Für alle 1 ≤ i ≤ m, 1 ≤ j ≤ n ergibt sich der Eintrag von (AB)C in der i-ten Zeile und der j-ten Spalte als ! q p q X X X X (AB)ik Ckj = Ail Blk Ckj = Ail Blk Ckj . ((AB)C)ij = k=1 k=1 1≤l≤p 1≤k≤q l=1 Auf der anderen Seite haben wir ebenfalls (A(BC))ij = p X l=1 Ail (BC)lj = p X Ail l=1 q X ! Blk Ckj k=1 = X Ail Blk Ckj . 1≤l≤p 1≤k≤q Dies zeigt ((AB)C)ij = (A(BC))ij , und (a) ist bewiesen. Dagegen ist die Multiplikation aber nicht kommutativ. Wir haben zum Beispiel 1 1 1 0 2 1 1 1 1 0 1 1 · = 6= = · . 0 1 1 1 1 1 1 2 1 1 0 1 85 Mathematik für Ingenieure I, WS 2008/2009 6.2 Dienstag 2.12.2008 Lineare Gleichungssysteme als Matrixgleichung Was hat die Matrixmultiplikation nun mit linearen Gleichungssystemen zu tun? Um dies zu sehen, betrachten wir ein lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = b1 a21 x1 + a22 x2 + · · · + a2n xn = b2 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = bm und schreiben A für seine Koeffizientenmatrix sowie b1 b := ... bm für seine rechte Seite. Ist weiter x1 x := ... xn der Vektor der n Unbekannten, so können wir x auch als eine n × 1 Matrix auffassen. Da A eine m × n Matrix ist, ist damit das Matrixprodukt Ax definiert und ergibt eine m×1 Matrix, also einen Vektor mit m Einträgen. Diesen Vektor können wir auch leicht ausrechnen a11 · · · a1n x1 a11 x1 + · · · + a1n xn .. · .. = .. Ax = ... , . . . am1 · · · amn xn am1 x1 + · · · + amn xn die m Komponenten des Produkts Ax sind also gerade die linken Seiten unseres linearen Gleichungssystems. Damit kann das gesamte lineare Gleichungssystem (∗) als eine einzelne Matrixgleichung Ax = b interpretiert werden. Vorlesung 12, Dienstag 2.12.2008 Wir wollen diese Interpretation nun verwenden, um einige einfache Beobachtungen über die Menge der Lösungen unseres linearen Gleichungssystems zu machen. Um diese auszusprechen ist eine weitere kleine Definition hilfreich. 86 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 2.12.2008 Definition 6.3: Das lineare Gleichungssystem (∗) heißt homogen, wenn b = 0 ist, d.h. wenn es die Form a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . am1 x1 + am2 x2 + · · · + a1n xn = 0 + · · · + a2n xn = 0 .. . . = .. + · · · + amn xn = 0 hat. Ein homogenes lineares Gleichungssystem hat offenbar immer die Lösung x = 0, also x1 = . . . = xn = 0, die man als die triviale Lösung des linearen Gleichungssystems bezeichnet. Als das zum allgemeinen Gleichungssystem (∗), also Ax = b, gehörige homogene Gleichungssystem bezeichnet man das homogene lineare Gleichungssystem Ax = 0. Satz 6.2 (Homogene und inhomogene Lösungen) Seien n, m ∈ N und A eine m × n Matrix. (a) Sind u, v ∈ K n zwei Lösungen des homogenen linearen Gleichungssystems Ax = 0 und c ∈ K eine Zahl, so sind auch u + v und cu Lösungen von Ax = 0. (b) Sei weiter b ∈ K m gegeben. Gibt es dann überhaupt eine Lösung x0 ∈ K n des linearen Gleichungssystems Ax = b, so ist {x0 + u|u ∈ K n , Au = 0} die volle Lösungsmenge von Ax = b, d.h. die Lösungen von Ax = b sind genau die Vektoren der Form x = x0 + u wobei u die Lösungen des zugehörigen homogenen linearen Gleichungssystems durchläuft. Beweis: (a) Aus Au = Av = 0 folgen nach Satz 1.(c,d) auch A · (u + v) = Au + Av = 0 und A · (cu) = cAu = 0, d.h. auch u + v und cu sind Lösungen von Ax = 0. (b) Ist u eine Lösung des homogenen Systems, gilt also Au = 0, so haben wir nach Satz 1.(c) auch A·(x0 +u) = Ax0 +Au = Ax0 = b, d.h. x = x0 +u ist eine Lösung von Ax = b. Nun sei umgekehrt x ∈ K n mit Ax = b gegeben. Dann setzen wir u := x − x0 ∈ K n und haben wieder nach Satz 1.(c,d) auch Au = A · (x − x0 ) = Ax − Ax0 = b − b = 0. Also ist u eine Lösung des homogenen linearen Gleichungssystems und es gilt x = x0 + (x − x0 ) = x0 + u. Hat also insbesondere das zugehörige homogene lineare Gleichungssystem nur die triviale Lösung, so ist das allgemeine lineare Gleichungssystem Ax = b für jede rechte Seite b ∈ K m entweder gar nicht lösbar oder eindeutig lösbar. 87 Mathematik für Ingenieure I, WS 2008/2009 6.3 Dienstag 2.12.2008 Inverse Matrizen und reguläre lineare Gleichungssysteme Schreiben wir ein lineares Gleichungssystem in der Form Ax = b, so ist es naheliegend dieses durch A auf die andere Seite bringen“ zu lösen, also mit so etwas wie 1/A zu ” multiplizieren. Allerdings haben wir Quotienten von Matrizen bislang nicht eingeführt, und zwar aus gutem Grund. Betrachten wir zum Beispiel einmal die folgende 2 × 2 Matrix 0 1 A= . 0 0 Es ist dann zum einen A 6= 0, aber auch 0 1 0 1 0 0 2 A = · = , 0 0 0 0 0 0 also A2 = 0. So etwas wie 1/A kann hier also sicher nicht geben, denn dann hätten wir A = A2 · (1/A) = 0 · (1/A) = 0. Trotzdem gibt es durchaus Matrizen für die Quotienten sinnvoll sind, und diesen geben wir nun einen Namen. Definition 6.4: Sei n ∈ N. Eine n × n Matrix A (wieder mit reellen oder komplexen Einträgen) heißt invertierbar, oder auch regulär, wenn es eine n×n Matrix A−1 , genannt die Inverse von A, gibt so, dass A · A−1 = A−1 · A = En gelten. Beachte das wir hier A−1 statt 1/A schreiben. Die Bruchschreibweise ist für Matrizen in der Tat nicht sinnvoll. Wollten wir A/B definieren, so könnte dies A·B −1 oder B −1 ·A bedeuten, und diese beiden Ausdrücke können durchaus verschieden sein, wir hatten ja bereits bemerkt das die Multiplikation von Matrizen nicht kommutativ ist. Können wir also A/B keine Bedeutung geben, so erscheint auch die Schreibweise 1/A als nicht sinnvoll. Beachte weiter, dass es zunächst sein könnte, das es zu einer invertierbaren Matrix A mehrere Matrizen A−1 gibt. Dies wollen wir nun ausschließen. Satz 6.3: Sei n ∈ N. (a) Ist A eine invertierbare n × n Matrix, so gibt es genau eine n × n Matrix A−1 mit AA−1 = A−1 A = En . (b) Sind A, B zwei invertierbare n × n Matrizen, so ist auch A · B invertierbar, und es gilt (A · B)−1 = B −1 · A−1 . (c) Sind A eine invertierbare n × n Matrix und c 6= 0 eine Zahl, so ist auch cA invertierbar mit 1 (cA)−1 = · A−1 . c Beweis: (a) Sei B eine weitere n × n Matrix mit AB = BA = En . Dann haben wir B = En · B = (A−1 A)B = A−1 (AB) = A−1 · En = A−1 . 88 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 2.12.2008 (a) Es gilt (AB) · (B −1 A−1 ) = A · (BB −1 )A−1 = AEn A−1 = AA−1 = En , und analog folgt auch (B −1 A−1 )(AB) = En . Damit ist AB invertierbar mit (AB)−1 = B −1 A−1 . (c) Mit Satz 1.(d) rechnen wir (cA) · (c−1 A−1 ) = (c−1 cA) · A−1 = AA−1 = En , und analog ist auch (c−1 A−1 ) · (cA) = En . Damit ist cA invertierbar mit (cA)−1 = c−1 A−1 . Nun wenden wir den Begriff einer invertierbaren Matrix auf lineare Gleichungssysteme an. Hierzu bezeichnen wir ein quadratisches lineares Gleichungssystem a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . am1 x1 + am2 x2 + · · · + a1n xn = b1 + · · · + a2n xn = b2 .. . . = .. + · · · + amn xn = bm als regulär, wenn seine Koeffizientenmatrix regulär, also invertierbar, ist. Satz 6.4 (Reguläre lineare Gleichungssysteme) Ein reguläres lineares Gleichungssystem mit Koeffizientenmatrix A und rechter Seite b hat genau eine Lösung, nämlich x = A−1 b. Beweis: Wegen A · (A−1 b) = (AA−1 )b = En b = b ist A−1 b eine Lösung des linearen Gleichungssystems Ax = b. Ist umgekehrt x ∈ K n mit Ax = b, so gilt auch x = En x = (A−1 A)x = A−1 · (Ax) = A−1 b. Um dies zu verwenden, benötigen wir noch eine Methode die Inverse einer gegebenen Matrix tatsächlich zu berechnen, sofern sie überhaupt existiert. Wir wollen mit zwei häufig auftretenden Spezialfällen beginnen. Zunächst betrachten wir sogenannte Diagonalmatrizen, das sind quadratische Matrizen, die außerhalb der Hauptdiagonalen keine von Null verschiedenen Einträge haben, also beispielsweise die Einheitsmatrizen En . Diese Diagonalmatrizen multiplizieren sich auf sehr einfache Weise λ1 µ1 λ 1 µ1 ... ... ... · = . λn µn λ n µn Sind also insbesondere λ1 , . . . , λn ∈ K\{0} alle von Null verschieden, so ist die zugehörige Diagonalmatrix invertierbar mit −1 1 λ1 λ1 ... ... = . 1 λn λn 89 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 2.12.2008 Ein weiterer gut überschaubarer Fall sind 2 × 2 Matrizen. Wir haben nämlich die folgende einfache Rechnung a b d −b ad − bc 0 · = = (ad − bc)E2 , c d −c a 0 ad − bc und ebenso ergibt sich dieses Ergebnis, wenn wir die beiden Matrizen in der anderen Reihenfolge multiplizieren. Damit haben wir die Äquivalenz a b ist invertierbar ⇐⇒ ad − bc 6= 0, c d und in diesem Fall ist a b c d −1 1 = ad − bc d −b −c a . Wir besprechen nun den Algorithmus zur Berechnung der Inversen einer allgemeinen n × n Matrix, und wollen diesen zugleich am Beispiel der Matrix 1 2 −1 1 1 2 1 −1 A= −1 2 3 −1 3 0 −1 0 durchführen. Dies ist gerade die Koeffizientenmatrix unseres ersten Beispiels zum Gaußschen Eliminationsverfahren in §5. Das Verfahren zum Invertieren dieser Matrix läuft in drei Schritten ab. 1. Schreibe A und die 4 × 4 Einheitsmatrix nebeneinander. 1 1 −1 3 2 −1 1 2 1 −1 2 3 −1 0 −1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 2. Führe das Gaußsche Eliminationsverfahren für die linke Matrix (also für A) durch. Dabei verwende die modifizierte Form, und bringe den am weitesten links stehenden von Null verschiedenen Eintrag einer jeder Zeile auf Eins. Wende dabei simultan genau dieselben Zeilenumformungen auf die rechte Matrix an. Wir beginnen also wieder mit der ersten Zeile. In dieser steht ganz links bereits eine Eins, und wir bringen alle Einträge unterhalb dieser Eins auf Null 1 1 −1 3 2 −1 1 2 1 −1 2 3 −1 0 −1 0 1 0 0 0 0 1 0 0 0 0 1 0 0 1 2 −1 1 0 0 0 2 −2 −→ 0 0 4 2 0 1 0 −6 2 −3 90 1 −1 1 −3 0 1 0 0 0 0 1 0 0 0 0 1 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 2.12.2008 Dann müssen wir die zweite und die dritte Zeile vertauschen und die neue zweite Zeile anschließend durch 4 teilen 1 2 −1 1 0 0 2 −2 0 4 2 0 0 −6 2 −3 1 −1 1 −3 0 1 0 0 0 0 1 0 0 1 2 −1 1 1 0 0 1 0 2 −→ 0 0 2 −2 0 0 −6 2 −3 1 1 0 0 0 1 0 14 0 4 −1 1 0 0 −3 0 0 1 Jetzt bringen wir die untenstehenden Einträge der zweiten Spalte auf Null. 1 2 −1 1 1 0 0 1 2 0 0 2 −2 0 −6 2 −3 1 2 −1 1 1 0 0 0 1 1 1 0 4 0 0 0 1 4 2 −→ 0 0 2 −2 −1 1 0 0 −3 0 0 1 0 0 5 −3 1 0 0 0 1 0 41 0 4 −1 1 0 0 − 32 0 23 1 Jetzt bringe die führende Zwei der dritten Zeile auf Eins 1 0 0 0 2 −1 1 1 0 1 2 0 2 −2 0 5 −3 1 2 −1 1 1 0 0 0 1 1 1 0 4 0 0 0 1 4 2 −→ −1 1 0 0 0 0 1 −1 3 3 0 0 5 −3 −2 0 2 1 1 0 0 0 1 0 14 0 4 − 12 21 0 0 − 32 0 32 1 Schließlich bringe die linke Seite endgültig auf Stufenform 1 0 0 0 2 −1 1 1 1 0 2 0 1 −1 0 5 −3 1 0 0 0 1 2 −1 1 1 1 1 0 4 0 0 1 0 4 2 −→ 1 1 −2 2 0 0 0 0 1 −1 3 3 −2 0 2 1 0 0 0 2 1 0 0 0 0 14 0 1 0 0 2 5 1 − 2 32 1 1 4 − 12 und teilen die unterste Zeile anschließend durch Zwei 1 0 0 0 2 −1 1 1 1 0 2 0 1 −1 0 0 2 1 2 −1 1 0 0 0 1 1 0 1 0 0 4 0 2 −→ 1 0 0 0 0 1 −1 2 5 3 1 −2 2 1 0 0 0 1 1 1 1 4 − 12 1 4 1 −2 1 2 0 0 0 0 14 0 1 0 0 2 − 54 3 4 1 2 Damit ist Schritt für dieses Beispiel beendet. 3. Jetzt bringen wir analog zum Vorgehen bei der Gauß-Elimination, nur diesmal von unten nach oben gehend, in der linken Matrix alle Einträge außerhalb der Hauptdiagonale auf Null. Nachdem dies getan ist, steht auf der rechten Seite die gesuchte inverse Matrix. Wir müssen also zuerst die Spalte ganz rechts betrachten 1 0 0 0 2 −1 1 1 1 0 2 0 1 −1 0 0 1 1 1 4 − 12 1 2 0 0 0 1 1 0 4 0 0 −→ 1 0 0 0 2 − 54 34 21 0 91 2 −1 0 1 1 0 2 0 1 0 0 0 1 1 2 1 4 5 4 − 34 − 12 1 0 0 4 0 − 34 1 − 54 2 3 4 3 4 1 2 1 2 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 2.12.2008 Nun wird auch die dritte Spalte oben auf Null gebracht 1 0 0 0 2 −1 0 1 0 1 2 0 1 0 0 0 1 1 2 1 4 5 4 − 34 − 21 1 0 0 4 3 4 3 4 0 − 34 1 − 54 2 1 0 −→ 0 0 1 2 1 2 2 1 0 0 0 0 1 0 0 0 0 1 1 2 1 4 0 1 2 1 2 3 8 − 34 − 54 0 0 − 18 3 4 3 4 − 14 1 2 1 2 Als letzter Schritt wird nun die zweite Spalte bearbeitet 1 0 0 0 2 1 0 0 0 0 1 0 0 0 0 1 1 2 1 4 0 1 2 1 2 3 8 3 −4 − 54 0 0 − 18 − 14 3 4 3 4 1 2 1 2 1 0 −→ 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 − 14 1 4 0 1 2 3 8 − 34 − 54 1 4 − 18 3 4 3 4 1 2 − 14 1 2 1 2 Als inverse Matrix haben wir in diesem Beispiel damit −1 0 − 1 1 1 1 2 −1 1 0 −2 2 4 4 4 2 1 3 1 2 − 18 − 41 1 −1 2 3 −1 −2 1 4 8 = . = 3 3 1 −1 2 3 −1 0 −6 6 4 8 0 −4 4 2 3 0 −1 0 4 −10 6 4 5 3 1 1 − 2 4 4 2 Wollen wir beispielsweise erneut das lineare Gleichungssystem x + 2y − u + v = 1 x + 2y + u − v = −3 −x + 2y + 3u − v = 1 3x − u = 0 aus §5 lösen, so können wir die eben berechnete inverse Matrix verwenden, um direkt die Lösung des Gleichungssystem zu erhalten 0 −2 2 4 1 8 1 1 2 3 −1 −2 · −3 = 1 −8 = −1 , x= 6 4 1 8 24 3 8 0 −6 0 5 4 −10 6 4 40 und dies ist wieder die Lösung, die wir schon damals berechnet hatten. Man sollte allerdings die praktische Bedeutung inverser Matrizen für das Lösen linearer Gleichungssysteme nicht überschätzen. Unser Verfahren zur Berechnung von A−1 erfordert ungefähr den drei- bis vierfachen Aufwand im Vergleich zum Gaußschen Eliminationsverfahren. Selbst wenn mehrere Gleichungssysteme mit derselben Koeffizientenmatrix zu lösen sind, ist das Eliminationsverfahren effektiver, da der Hauptteil des Algorithmus sich nur auf die Koeffizientenmatrix bezieht, und wir die Wirkung auf die rechte Seite einmal bestimmen und dann immer wieder anwenden können. 92 Mathematik für Ingenieure I, WS 2008/2009 Freitag 5.12.2008 Vorlesung 13, Freitag 5.12.2008 Wir wollen nun noch kurz begründen, warum der Algorithmus zur Berechnung der inversen Matrix funktioniert. Hierzu wollen wir uns klarmachen, dass die drei elementaren Zeilenumformungen sich durch Multiplikation mit geeigneten Matrizen von links realisieren lassen. Wir haben zum Beispiel 1 λ 0 ··· 0 a11 · · · a1n 0 1 0 ··· 0 . .. ... .. .. .. . . .. · .. . . . . . . am1 · · · amn 0 0 0 ··· 1 a11 + λa21 a12 + λa22 · · · a1n + λa2n a21 a22 ··· a2n = , .. .. . . . . . . . . am1 am2 ··· amn ist also P die links stehende Matrix, so entsteht die Matrix P A aus A durch Addition des λ-fachen der zweiten Zeile zur ersten Zeile. Analog erhalten wir auch eine Matrix P so, dass P A aus A durch Addition eines Vielfachen der i-ten Zeile zur j-ten Zeile entsteht. Vertauschen zweier Zeilen sowie die Multiplikation einer Zeile mit einer Zahl λ 6= 0 lassen sich ebenfalls durch Matrixmultiplikation bewirken, wie etwa in den folgenden Beispielen gezeigt wird 0 1 0 ··· 0 a21 a22 · · · a2n a11 · · · a1n 1 0 0 ··· 0 .. a11 a12 · · · a1n . . . . .. .. .. . . .. · . . . .. . . .. . = .. . . . . . . . . am1 · · · amn 0 0 0 ··· 1 am1 an2 · · · amn und λ 1 ... 1 a11 · · · a1n .. . . . . · . . . = am1 · · · amn λa11 λa12 a21 a22 .. .. . . am1 am2 · · · λa1n · · · a2n .. ... . · · · amn . Also lassen sich sämtliche elementaren Zeilenoperationen durch Linksmultiplikation mit geeigneten Matrizen bewirken. Damit ist es nun leicht unseren Algorithmus zu rechtfertigen. Formen wir A in t Schritten durch elementare Zeilenoperationen in die Einheitsmatrix um, so gibt es Matrizen P1 , . . . , Pt , die diese Zeilenumformungen bewirken, und mit diesen gilt dann Pt . . . P1 A = En , 93 Mathematik für Ingenieure I, WS 2008/2009 Freitag 5.12.2008 beziehungsweise A = P1−1 . . . Pt−1 . Mit Satz 3.(b) folgt hieraus A−1 = (Pt−1 )−1 . . . (P1−1 )−1 = Pt . . . P1 = Pt . . . P1 En . Letzteres ist aber gerade die Anwendung der durch P1 , . . . , Pt vermittelten Zeilenumformungen auf die Einheitsmatrix, d.h. A−1 geht aus En durch dieselben Zeilenumformungen hervor, die A in die Einheitsmatrix überführt haben. Dies ist aber gerade unser Algorithmus zur Inversion der Matrix A. 6.4 Transposition von Matrizen Zum Abschluß dieses Abschnitts wollen wir kurz eine weitere der üblichen algebraischen Operationen mit Matrizen einführen. Definition 6.5: Sei a11 · · · a1n .. .. A = ... . . am1 · · · amn eine m × n Matrix. Die Transponierte At von A ist dann die n × m Matrix a11 · · · am1 .. , At := ... . . . . a1n · · · amn deren Zeilen gerade die Spalten von A sind. Beispielsweise ist 1 1 −1 0 2 −1 2 4 7 1 = 0 −3 −5 7 11 2 t 2 −3 4 −5 . 7 7 1 11 Auch die Matrixtransposition erfüllt einige einfache Rechenregeln: Satz 6.5 (Rechenregeln für die Transposition) Seien n, m, l ∈ N drei natürliche Zahlen. (a) Für jedes m × n Matrix A gilt (At )t = A. (b) Sind A, B zwei m × n Matrizen, so gilt (A + B)t = At + B t . (c) Sind A eine m × n Matrix und c ∈ K eine Zahl, so gilt (cA)t = cAt . (d) Sind A eine m × l und B eine l × n Matrix, so gilt (AB)t = B t At . 94 Mathematik für Ingenieure I, WS 2008/2009 Freitag 5.12.2008 (e) Ist A eine invertierbare n × n Matrix, so ist auch At invertierbar, und es gilt (At )−1 = (A−1 )t . Beweis: (a,b,c) Diese Aussagen sind klar. (d) Da B t eine n × l und At eine l × m Matrix sind, sind (AB)t und B t At beides n × m Matrizen. Für alle 1 ≤ i ≤ n, 1 ≤ j ≤ m ergibt sich der Eintrag in der i-ten Zeile und der j-ten Spalte zu t t (B A )ij = l X t Bik Atkj = k=1 l X Ajk Bki = (AB)ji = (AB)tij , k=1 d.h. es gilt tatsächlich (AB)t = B t At . (e) Mit Teil (d) rechnen wir At · (A−1 )t = (A−1 A)t = Ent = En , und ebenso (A−1 )t At = En . Damit ist At invertierbar und es gilt (At )−1 = (A−1 )t . Aufgrund von Teil (e) dieses Satzes können wir für eine invertierbare n × n Matrix A auch einfach A−t := (A−1 )t = (At )−1 schreiben. $Id: vektor.tex,v 1.6 2015/10/20 16:17:45 hk Exp $ §7 Vektorräume Abstrakte Vektorräume sind eine Verallgemeinerung der bereits betrachteten Vektorräume K n , also Rn und Cn . Wie in den bisherigen Abschnitten steht K wieder für die reellen oder die komplexen Zahlen. In diesem Semester werden wir es ausschließlich mit Teilräumen von Rn oder Cn zu tun haben, aber später werden auch andere Sorten von Vektorräumen, wie etwa Räume von Funktionen, eine Rolle spielen. 7.1 Der Vektorraumbegriff Definition 7.1: Ein Vektorraum über K besteht aus einer Menge V , deren Elemente dann Vektoren genannt werden, versehen mit zwei Abbildungen + : V × V → V ; (x, y) 7→ x + y 95 Mathematik für Ingenieure I, WS 2008/2009 Freitag 5.12.2008 und · : K × V → V ; (λ, x) 7→ λx, die die folgenden Vektorraumaxiome erfüllen: (a) Assoziativgesetz der Addition Für alle x, y, z ∈ V gilt (x+y)+z = x+(y +z). (b) Kommutativgesetz der Addition Für alle x, y ∈ V gilt x + y = y + x. (c) Existenz der Null Es gibt ein Element 0 ∈ V mit 0 + x = x für alle x ∈ V . (d) Existenz additiver Inverser Für jedes x ∈ V existiert ein −x ∈ V mit (−x) + x = 0. (e) Assoziativgesetz der Multiplikation Für alle λ, µ ∈ K und alle x ∈ V gilt λ(µx) = (λµ)x. (f ) Multiplikation mit Eins Für jedes x ∈ V gilt 1 · x = x. (g) Distributivgesetz für Vektoren Für alle λ ∈ K und alle x, y ∈ V gilt λ(x+y) = λx + λy. (h) Distributivgesetz für Skalare Für alle λ, µ ∈ K, x ∈ V gilt (λ+µ)x = λx+µx. Aus den angegebenen Vektorraumaxiomen kann man nun all die üblichen Rechenregeln herleiten, also Dinge wie die Eindeutigkeit von 0 und −x für x ∈ V , die Formeln 0·x = 0 und −x = (−1) · x für jeden Vektor x und so weiter. Wie schon öfters in diesem Skript wollen wir diese Herleitungen hier nicht weiter durchgehen, sondern einfach glauben, dass sich in allgemeinen Vektorräumen wie gewohnt rechnen läßt. Wir wollen jetzt lieber ein Paar Beispiele von Vektorräumen durchgehen. Das Urbeispiel eines Vektorraums ist der Vektorraum K n der n-Tupel von Zahlen aus K, also Rn oder Cn . Die Addition derartiger n-Tupel und die Multiplikation mit Skalaren hatten wir in §6 eingeführt, und sie sollte Ihnen auch aus der Schule bekannt sein. Ein sehr ähnliches Beispiel eines Vektorraums ist die Menge a11 · · · a1n .. . . . . Mm,n (K) := . . . a11 , . . . , amn ∈ K a m1 · · · amn aller m × n Matrizen über K, erneut mit der in §6 eingeführten Addition und Multiplikation mit Skalaren. Ein anderer wichtiger Typ von Vektorräumen sind Funktionsräume, also Mengen deren Elemente Funktionen sind. Ist M eine beliebige Menge, so betrachten wir die Menge K M := {f |f : M → K ist eine Abbildung} 96 Mathematik für Ingenieure I, WS 2008/2009 Freitag 5.12.2008 aller Abbildungen von M nach K. Die Elemente von K M können wir addieren, sind f, g ∈ K M , so sind f und g Abbildungen von M nach K, und wir definieren die Summe f + g dieser Abbildungen durch f + g : M → K; x 7→ f (x) + g(x). Ebenso können wir für eine Funktion f ∈ K M und eine Zahl c ∈ K eine neue Funktion c · f : M → K durch c · f : M → K; x 7→ cf (x) definieren. Es ist leicht, aber etwas ermüdend, hier die Gültigkeit der Vektorraumaxiome vorzuführen, daher wollen wir uns dies wieder ersparen, beziehungsweise es uns als eine Übungsaufgabe stellen. Betrachten wir etwa ganz konkret den Fall K = M = R, so ist V := RR die Menge aller reellen Funktionen f : R → R. Zum Beispiel sind die Sinusfunktion sin, der Cosinus cos, die Exponentialfunktion exp dann Elemente des Vektorraums V , und wir können Ausdrücke wie √ f := sin + 2 · cos − 2 · exp hinschreiben. Dies ist dann die Funktion f : R → R; x 7→ sin x + 2 cos x − √ 2ex . Hieran sieht man insbesondere, dass das Wort Vektor“ hier nur eine Rollenbeschrei” bung der Elemente x ∈ V und keine intrinsische Eigenschaft der Elemente x ∈ V ist. In unserem Vektorraum V = RR ist die Sinusfunktion sin selbst ein Vektor. Ebenso sprechen wir im Zusammenhang mit Vektorräumen oft von Skalaren statt von Zahlen, auch dies ist nur eine Rollenbezeichnung, Skalare sind einfach Zahlen, das andere Wort wird nur verwendet um anzudeuten, dass wir sie an Vektoren heranzumultiplizieren gedenken. 7.2 Untervektorräume Die für uns wichtigste Quelle von Vektorräumen sind die Teilräume, oder auch Untervektorräume, von bereits vorhandenen Vektorräumen. Definition 7.2: Sei V ein Vektorraum über K. Ein Teilraum von V ist eine Teilmenge U ⊆ V mit den folgenden drei Eigenschaften: (a) Es ist 0 ∈ U . (b) Für alle x, y ∈ U ist auch x + y ∈ U . (c) Für alle x ∈ U und jeden Skalar c ∈ K ist auch cx ∈ U . 97 Mathematik für Ingenieure I, WS 2008/2009 Freitag 5.12.2008 Ist U solch ein Teilraum, so können wir U selbst als einen Vektorraum über K betrachten, indem wir für + und · einfach die Addition und die Multiplikation von V verwenden. Synonym spricht man auch von einem Untervektorraum von V . Wir schreiben auch U ≤ V für die Aussage U ist ein Teilraum von V “. ” Gehen wir einige Beispiele von Teilräumen durch. Haben wir ein homogenes lineares Gleichungssystem a11 x1 a21 x1 .. . + a12 x2 + a22 x2 .. . am1 x1 + am2 x2 + · · · + a1n xn = 0 + · · · + a2n xn = 0 .. . . = .. + · · · + amn xn = 0 über K, so ist die Menge U aller Lösungen dieses Gleichungssystems nach §6.Satz 2.(a) ein Untervektorraum des Vektorraums K n . Tatsächlich kann überhaupt jeder Untervektorraum des K n so beschrieben werden, aber dies spielt für uns erstmal keine Rolle. Wir wollen auch einmal naheliegende Beispiele für Unterräume von Funktionsräumen angeben. Die Menge aller Polynome K[x] := {x 7→ an xn + . . . + a1 x + a0 |n ∈ N0 , a0 , . . . , an ∈ K} ⊆ K K ist ein Untervektorraum des Vektorraums K K aller Abbildungen f : K → K. Ebenso haben wir die Menge U := {f : R → R|Für jedes x ∈ R gilt f (x + 2π) = f (x)} aller 2π-periodischen Funktionen R → R als Untervektorraum des Vektorraums aller reellen Funktionen f : R → R. Für unsere Zwecke entstehen Untervektorräume entweder als Lösungsmenge homogener linearer Gleichungssysteme oder als das sogenannte Erzeugnis gegebener Vektoren in einem Vektorraum. Diese Erzeugnisse und den damit verbundenen Begriff einer Linearkombination wollen wir nun einführen. Definition 7.3: Sei V ein Vektorraum über K. Sind v1 , . . . , vn ∈ V , so heißt ein weiterer Vektor v ∈ V eine Linearkombination von v1 , . . . , vn , wenn es Skalare λ1 , . . . , λn ∈ K mit n X v = λ1 v 1 + . . . + λn v n = λk v k k=1 gibt. Die Menge aller Linearkombinationen von v1 , . . . , vn heißt das Erzeugnis, oder auch der Aufspann, von v1 , . . . , vn , geschrieben als ( n ) X hv1 , . . . , vn i = span(v1 , . . . , vn ) := λk v k λ1 , . . . , λ n ∈ K . k=1 Schließlich heißen v1 , . . . , vn ein Erzeugendensystem von V , wenn V = hv1 , . . . , vn i ist, wenn also jeder Vektor v ∈ V Linearkombination von v1 , . . . , vn ist. 98 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 Vorlesung 14, Dienstag 9.12.2008 Für Vektoren v1 , . . . , vn im K m ist es uns leicht möglich zu entscheiden, ob ein weiterer Vektor v eine Linearkombination der v1 , . . . , vn ist. Schreiben wir hierzu a1n a12 a11 v1 := ... , v2 := ... , . . . , vn := ... , amn am2 am1 so ist für alle x1 , . . . , xn stets a12 a1n a11 x1 + · · · + a1n xn a11 .. x1 · ... + x2 · ... + · · · + xn · ... = . am1 am2 amn am1 x1 + · · · + amn xn also wobei x1 x1 v1 + · · · + xn vn = A · ... , xn a11 · · · a1n .. , .. A := ... . . am1 · · · amn die Matrix ist deren Spalten gerade die Vektoren v1 , . . . , vn sind. Damit ist ein Vektor v ∈ K m genau dann eine Linearkombination der Vektoren v1 , . . . , vn wenn das lineare Gleichungssystem Ax = v eine Lösung hat. Insbesondere können wir dies mit dem Gaußschen Eliminationsverfahren effektiv entscheiden. Wir wollen nun noch zwei Grundbeispiele von Erzeugendensystemen besprechen. Der Tupelraum K n besitzt ein besonders einfaches Erzeugendensystem bestehend aus den Vektoren 1 0 0 0 1 0 e1 := .. , e2 := .. , . . . , en := .. , . . . 0 0 1 denn jeder Vektor x ∈ K n ist ja eine Linearkombination x1 1 0 x2 0 1 x = .. = x1 · .. + x2 · .. + · · · + xn · . . . xn 0 0 99 0 0 .. . 1 n X xk ek . = k=1 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 Ein weiteres Beispiel von Erzeugendensystemen kennen wir auch bereits aus unserer Diskussion linearer Gleichungssysteme aus §5. Angenommen wir haben ein homogenes lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = 0 a21 x1 + a22 x2 + · · · + a2n xn = 0 (∗) .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = 0 und betrachten die Menge V seiner Lösungen. Wie bereits bemerkt ist V ein Teilraum des K n , also selbst ein Vektorraum. Wenden wir nun das Gaußsche Eliminationsverfahren auf das lineare Gleichungssystem (∗) an, so erhalten wir ein äquivalentes lineares Gleichungssystem xi1 + c1,i1 +1 xi1 +1 + · · · + c1i2 xi2 + · · · + c1ir xir + · · · = 0 xi2 + · · · + c2ir xir + · · · = 0 .. .. . . xir + · · · = 0, dessen untere n−r nur aus Nullen bestehende Zeilen hier fortgelassen werden, d.h. r ist die Anzahl der nach Anwendung des Gaußschen Eliminationsverfahrens verbleibenden nicht trivialen Zeilen. Wir haben hier die Variante des Eliminationsverfahrens verwendet, die den führenden Eintrag jeder verbleibenden Zeile durch Multiplikation mit einer Konstanten auf Eins bringt. Jede dieser r Zeilen legt eine der Unbekannten fest, d.h. die Werte von xi1 , . . . , xir werden festgelegt während die anderen Unbekannten frei bleiben. Dabei haben wir xir = −cr,ir +1 xir +1 − · · · − crn xn , xir−1 = −cr−1,ir−1 +1 xir−1 +1 − · · · − cr−1,ir xir − cr−1,ir +1 xir +1 − · · · − cr1 ,n xn = −cr−1,ir−1 +1 xir−1 +1 − · · · − (cr−1,ir +1 + cr−1,ir cr,ir +1 )xir +1 − · · · − (cr−1,n + cr−1,ir crn )xn und so weiter. Benennen wir die frei bleibenden Unbekannten in t1 , . . . , tn−r um, so können wir die allgemeine Lösung des homogenen linearen Gleichungssystems (∗) damit in der Form ∗ ∗ ∗ . .. .. .. . . . . . ∗ .. . 1 x = t1 · + t2 · ∗ + · · · + tn−r · ... ... 1 .. . . . .. .. ∗ 0 0 1 100 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 schreiben. Damit wird der Lösungsraum des homogenen linearen Gleichungssystems (∗) von diesen n − r Vektoren erzeugt. Dies sollte an einem kleinen Beispiel klarer werden. Wir betrachten das folgende homogene lineare Gleichungssystem in den Unbekannten x1 , . . . , x 6 x1 + 2x4 − x5 =0 3x4 + x6 = 0 Dieses ist bereits in Stufenform, wobei die Unbekannten x1 und x4 festgelegt sind, während x2 , x3 , x5 und x6 frei bleiben. Wir haben 1 2 x4 = − x6 und x1 = x5 − 2x4 = x5 + x6 , 3 3 benennen wir also die freien Unbekannten x2 , x3 , x5 , x6 in t1 , t2 , t3 , t4 um, so wird der Lösungsraum dieses homogenen linearen Gleichungssystems zu t3 + 23 t4 t 1 t 2 t , t , t , t ∈ R − 1 t4 1 2 3 4 3 t 3 t4 0 0 0 1 1 0 = t1 · + t2 · + t3 · 0 0 0 0 0 0 1 0 0 0 1 0 2 3 0 + t4 · 01 − 3 0 1 t1 , t2 , t3 , t4 ∈ R . Ein Erzeugendensystem des Lösungsraums besteht hier also aus den vier Vektoren 2 1 0 0 3 0 0 0 1 1 0 0 0 u1 = , u 2 = , u 3 = , u 4 = 1 . 0 −3 0 0 0 0 0 1 0 0 0 1 Zum Abschluß dieses Abschnitts wollen wir noch einige Tatsachen über Erzeugendensysteme in einem Satz zusammenfassen: Satz 7.1 (Grundeigenschaften von Erzeugendensystemen) Sei V ein Vektorraum über K. (a) Sind v1 , . . . , vn beliebige Vektoren, so ist U := hv1 , . . . , vn i ein Teilraum von V und v1 , . . . , vn ist ein Erzeugendensystem von U . 101 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 (b) Sind U ≤ V ein Teilraum und v1 , . . . , vn ∈ U , so ist auch hv1 , . . . , vn i ≤ U . (c) Ist v1 , . . . , vn ein Erzeugendensystem von V und sind w1 , . . . , wm ∈ V so, daß vk für jedes 1 ≤ k ≤ n eine Linearkombination von w1 , . . . , wm ist, so ist auch w1 , . . . , wm ein Erzeugendensystem von V . Diesen Satz wollen wir an dieser Stelle nicht beweisen, auch wenn dies nicht besonders schwierig ist. Vor allen Teil (c) des Satzes ist oftmals sehr hilfreich. Wollen wir von Vektoren v1 , . . . , vn nachweisen, das sie ein Erzeugendensystem von V sind, so reicht es zu zeigen, dass die Elemente eines bereits bekannten Erzeugendensystems von V sich als Linearkombinationen der v1 , . . . , vn schreiben lassen. 7.3 Lineare Unabhängigkeit, Basen und Dimension Haben wir ein Erzeugendensystem v1 , . . . , vn des Vektorraums V , so können wir jeden Vektor v ∈ V als eine Linearkombination v = λ1 v 1 + · · · + λn v n schreiben, aber leider ist diese Darstellung im Allgemeinen nicht eindeutig. Betrachten wir zum Beispiel einmal im R2 die drei Vektoren 1 1 1 v1 = , v2 = und v3 = . 1 −1 2 Wegen e1 = (1/2)(v1 + v2 ) und e2 = v3 − v1 sind v1 , v2 , v3 nach Satz 1.(c) ein Erzeugendensystem des R2 . In diesem können wir Vektoren auf mehrere Arten als Linearkombinationen schreiben, zum Beispiel ist 1 1 e2 = v3 − v1 = v1 − v2 . 2 2 Von besonderem Interesse sind nun natürlich diejenigen Erzeugendensysteme für die die Darstellung anderer Vektoren als Linearkombinationen eindeutig ist. Die hierfür zuständige Bedingung ist die sogenannte lineare Unabhängigkeit: Definition 7.4: Sei V ein Vektorraum. Dann heißen die Vektoren v1 , . . . , vn linear unabhängig, wenn für alle Skalare λ1 , . . . , λn ∈ K aus λ1 v1 + · · · + λn vn = 0 bereits λ1 = · · · = λn = 0 folgt. Die Vektoren v1 , v2 , v3 des obigen Beispiels sind dann nicht linear unabhängig, da ja etwa 3 1 v1 − v2 − v3 = 0 2 2 gilt. Beachte das die lineare Unabhängigkeit auch die Eindeutigkeit der Koeffizienten in einer Linearkombination bedeutet, sind nämlich λ1 , . . . , λn , µ1 , . . . , µn ∈ K mit λ 1 v 1 + · · · + λ n v n = µ1 v 1 + · · · + µn v n 102 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 so folgt auch (λ1 − µ1 )v1 + · · · + (λn − µn )vn = 0, und damit ist λk − µk = 0, also λk = µk , für alle k = 1, . . . , n. Sind v1 , . . . , vn Vektoren in einem Vektorraum K m , so schreiben wir a1n a12 a11 v1 = ... , v2 = ... , . . . , vn = ... , amn am2 am1 und haben a11 λ1 + · · · + a1n λn .. λ1 v 1 + · · · + λn v n = , . am1 λ1 + · · · + amn λn d.h. die Vektoren v1 , . . . , vn sind genau dann linear unabhängig, wenn das homogene lineare Gleichungssystem + · · · + a1n xn .. . = 0 .. . am1 x1 + · · · + amn xn = 0 a11 x1 .. . nur die triviale Lösung hat. Diese Bedingung können wir rechnerisch noch etwas weiter auswerten. Nehme hierzu wieder an, dass wir das Gaußsche Eliminationsverfahren mit dem obigen homogenen linearen Gleichungssystem laufen lassen, und das dieses mit einen System in Stufenform, das aus r Gleichungen 6= 0 besteht, endet. Dann sind r der n Unbekannten durch das Gleichungssystem festgelegt, es hat also genau dann nur die triviale Lösung wenn r = n ist. Damit gilt auch v1 , . . . , vn sind linear unabhängig ⇐⇒ Das Gaußssche Eliminationsverfahren endet mit n von Null verschiedenen Zeilen. Wir wollen unsere Beispiele von Erzeugendensystemen aus dem vorigen Abschnitt auf lineare Unabhängigkeit überprüfen. Starten wir mit den Vektoren e1 , . . . , en ∈ K n . Für alle λ1 , . . . , λn ∈ K haben wir dann 1 0 0 λ1 n 0 1 0 λ2 X λk ek = λ1 .. + λ2 .. + · · · + λn .. = .. , . . . . k=1 0 0 1 λn und damit folgt aus λ1 e1 +· · ·+λn en = 0 sofort λ1 = · · · = λn = 0. Damit sind e1 , . . . , en linear unabhängig. Kommen wir nun zu den n − r Vektoren u1 , . . . , un−r , die den Lösungsraum des homogenen linearen Gleichungssystems (∗) aufspannen. Auch diese sind linear unabhängig. Seien nämlich λ1 , . . . , λn−r ∈ K mit λ1 u1 + · · · + λn−r un−r = 0 103 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 gegeben. Beachten wir nun, dass nur der letzte Vektor un−r in der untersten Zeile eine Eins hat, während die restlichen Vektoren u1 , . . . , un−r−1 an dieser Stelle eine Null haben, so haben wir ∗ n−r .. X 0= λk u k = . , ∗ k=1 λn−r also ist zumindest λn−r = 0. Damit ist aber auch λ1 u1 +· · ·+λn−r−1 un−r−1 = 0. Schauen wir uns dann beim jetzt letzten Vektor un−r−1 die unterste von Null verschiedene Zeile an, so haben alle anderen Vektoren u1 , . . . , un−r−2 dort eine Null, und es folgt wieder λn−r−1 = 0. So fortfahrend erhalten wir schließlich λn−r = λn−r−1 = · · · = λ1 = 0. Damit sind u1 , . . . , un−r tatsächlich linear unabhängig, und somit wird der Lösungsraum eines homogenen linearen Gleichungssystems von n − r linear unabhängigen Vektoren erzeugt, wobei r wieder die Anzahl der nach dem Gaußschen Eliminationsverfahren verbleibenden von Null verschiedenen Zeilen bezeichnet. Satz 7.2 (Grundeigenschaften der linearen Unabhängigkeit) Seien V ein Vektorraum und v1 , . . . , vn ∈ V . Die folgenden Aussagen sind äquivalent: 1. Die Vektoren v1 , . . . , vn sind linear unabhängig. 2. Kein vi ist eine Linearkombination der anderen, d.h. für jedes 1 ≤ i ≤ n ist vi ∈ / hv1 , . . . , vbi , . . . , vn i. 3. Für jedes 1 ≤ i ≤ n ist vi ∈ / hv1 , . . . , vi−1 i. Diesen Satz wollen wir an dieser Stelle nicht mehr beweisen. Nennen wir die Vektoren v1 , . . . , vn linear abhängig, wenn sie nicht linear unabhängig sind, so besagt der Satz, dass v1 , . . . , vn genau dann linear abhängig sind, wenn für einen der Vektoren vi die Bedingung vi ∈ hv1 , . . . , vbi , . . . , vn i erfüllt ist, d.h. wenn sich ein vi als Linearkombination der anderen vj schreiben läßt. Entsprechend sagt man häufig auch anstelle von v ” ist eine Linearkombination von v1 , . . . , vn“ das v von v1 , . . . , vn linear abhängt“. ” Ist v1 , . . . , vn ein Erzeugendensystem des Vektorraums V , so läßt sich jedes v ∈ V als eine Linearkombination v = λ1 v1 + · · · + λn vn schreiben, und sind die v1 , . . . , vn zusätzlich linear unabhängig, so sind die Koeffizienten λ1 , . . . , λn in dieser Linearkombination eindeutig bestimmt. In dieser Situation sprechen wir dann von einer Basis des Vektorraums V . Definition 7.5: Sei V ein Vektorraum. Eine Basis von V ist ein linear unabhängiges Erzeugendensystem v1 , . . . , vn von V . Mit Satz 2.(b) folgt, dass die Basen von V genau die minimalen Erzeugendensysteme und auch genau die maximalen linear unabhängigen Systeme sind, d.h. für Vektoren v1 , . . . , vn ∈ V bestehen die Äquivalenzen v1 , . . . , vn ist Basis von V ⇐⇒ v1 , . . . , vn sind ein minimales Erzeugendensystem ⇐⇒ v1 , . . . , vn sind maximal linear unabhängig in V . 104 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 Gibt es also überhaupt ein Erzeugendensystem v1 , . . . , vn von V , so können wir aus diesem nach Satz 1.(c) und Satz 2 solange Vektoren rauswerfen, die von den anderen linear abhängig sind, bis wir zu einem linear unabhängigen Erzeugendensystem, d.h. zu einer Basis von V , kommen. Damit haben wir zumindest einen Teil des folgenden grundlegenden Satzes eingesehen: Satz 7.3 (Existenz von Basen und Dimension) Jeder von endlich vielen Vektoren erzeugte Vektorraum V besitzt eine Basis, und je zwei Basen von V bestehen aus gleich vielen Elementen. Die erste dieser beiden Aussagen haben wir eben gerade eingesehen, und die zweite, also die Eindeutigkeit der Zahl der Elemente einer Basis, wollen wir hier ohne einen Beweis hinnehmen. Die nach dem Satz eindeutig bestimmte Länge einer Basis von V wird als die Dimension des Vektorraums V bezeichnet. Definition 7.6: Sei V ein Vektorraum. Wir nennen V endlich erzeugt, wenn es ein Erzeugendensystem v1 , . . . , vn von V gibt. In diesem Fall wird die eindeutige Anzahl der Elemente einer Basis von V als die Dimension von V bezeichnet. Wir schreiben auch dim V für diese Zahl. Die oben eingeführten Vektoren e1 , . . . , en ∈ K n sind ein linear unabhängiges Erzeugendensystem des K n , also eine Basis. Diese Basis wird auch als die kanonische Basis des K n bezeichnet. Da die kanonische Basis aus n Elementen besteht ist insbesondere dim K n = n. Ist a11 x1 + a12 x2 + · · · + a1n xn = 0 a21 x1 + a22 x2 + · · · + a2n xn = 0 .. .. .. . . . . = .. am1 x1 + am2 x2 + · · · + amn xn = 0 ein homogenes lineares Gleichungssystem, und verbleiben nach Ablauf des Gaußschen Eliminationsverfahrens r von Null verschiedene Zeilen, so haben wir oben eingesehen, dass das Eliminationsverfahren uns dann ein Erzeugendensystem des Lösungsraums U des Gleichungssystems liefert, das aus n − r linear unabhängigen Vektoren besteht. Dieses Erzeugendensystem ist dann eine Basis von U , und insbesondere ist dim U = n − r. Eine weitere kleine Beobachtung ist rechnerisch oftmals sehr nützlich. Angenommen wir haben einen Vektorraum V und n Vektoren v1 , . . . , vn ∈ V . Weiter nehmen wir an, dass wir bereits n = dim V wissen. Ist v1 , . . . , vn ein Erzeugendensystem von V , so können wir einige Vektoren aus v1 , . . . , vn entfernen und erhalten eine Basis von V . Ist t die Anzahl der entfernten Vektoren, so ist n = dim V = n − t, also t = 0 und v1 , . . . , vn ist eine Basis von V . Nun nehme an, dass v1 , . . . , vn linear unabhängig sind. Dann können wir das System um t ≥ 0 Vektoren vergrößern so, dass ein maximal linear unabhängiges System von Vektoren von V entsteht. Dieses ist dann eine Basis von V , und somit n = dim V = n + t und es ist wieder t = 0. Damit ist v1 , . . . , vn selbst eine Basis von V . Bei n = dim V vielen Vektoren reicht es also eine der beiden Bedingungen an eine Basis zu überprüfen, d.h. entweder lineare Unabhängigkeit oder 105 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 9.12.2008 Erzeugendensystem, und dann handelt es sich bereits um eine Basis. Sind insbesondere a1n a12 a11 v1 = ... , v2 = ... , . . . , vn = ... , ann an2 an1 n Vektoren im K n , so ist v1 , . . . , vn genau dann eine Basis des K n , wenn das homogene lineare Gleichungssystem + · · · + a1n xn .. . = 0 .. . am1 x1 + · · · + amn xn = 0 a11 x1 .. . nur die triviale Lösung hat, und wie bereits gezeigt ist dies weiter genau dann der Fall wenn das Gaußsche Eliminationsverfahren angewendet auf die n × n Matrix mit den Spalten v1 , . . . , vn bis zur untersten Zeile durchläuft, also n von Null verschiedene Zeilen liefert. Wir wollen dies an einem kleinen Beispiel im R3 illustrieren. Betrachte etwa die drei Vektoren 1 −1 0 v1 := −1 , v2 := −1 , v3 := 3 . 0 1 −1 Um zu überprüfen, ob diese eine Basis sind können wir also die Matrix A mit Spalten v1 , v2 , v3 hinschreiben, und lassen dann das Gaußsche Eliminationsverfahren auf A laufen. Kommt dieses bei der untersten Zeile an, tritt also vorher keine nur aus Nullen bestehende Zeile auf, so sind die drei Vektoren eine Basis des R3 und sonst nicht. Führen wir dies einmal durch 1 −1 0 1 −1 0 1 −1 −1 −1 3 → 0 −2 3 → 0 −2 0 1 −1 0 1 −1 0 0 0 3 1 . 2 Die Stufenform hat also drei von Null verschiedene Zeilen, und somit bilden v1 , v2 , v3 eine Basis des R3 . Definition 7.7: Sei V ein Vektorraum mit einer Basis v1 , . . . , vn . Dann hat jeder Vektor v ∈ V eine eindeutige Darstellung v = x1 v1 + · · · + xn vn mit x1 , . . . , xn ∈ K. Damit ist die Abbildung n X n Ψ : K → V ; x 7→ xk vk k=1 bijektiv, und wir nennen Ψ die Koordinatenabbildung bezüglich der Basis v1 , . . . , vn von V . Sind v1 , . . . , vn eine Basis eines Vektorraums V und v ∈ V ein Vektor in V , so müssen wir also v als eine Linearkombination in v1 , . . . , vn schreiben, d.h. v = x1 v1 + · · · + 106 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 xn vn und die Zahlen x1 , . . . , xn sind dann die Koordinaten von v bezüglich der Basis v1 , . . . , vn von V . Betrachten wir etwa die im obigen Beispiel verwendete Basis v1 , v2 , v3 des R3 und wollen die Koordinaten des Vektors 0 v= 4 −1 bezüglich dieser Basis bestimmen, so müssen wir v als eine Linearkombination in den Elementen der Basis schreiben, was in diesem Beispiel durch v1 + v2 + 2v3 = v erreicht wird. Die Koordinaten von v bezüglich der Basis v1 , v2 , v3 sind hier also (1, 1, 2). Bezüglich verschiedener Basen hat ein und derselbe Vektor in der Regel verschiedene Koordinaten. Beispielsweise hat unser obiges v bezüglich der kanonischen Basis des R3 die Koordinaten (0, 4, −1) aber bezüglich der Basis v1 , v2 , v3 die Koordinaten (1, 1, 2). Es ist nun oftmals wichtig die Koordinaten eines Vektors bezüglich einer Basis in die Koordinaten desselben Vektors bezüglich einer anderen Basis umrechnen zu können. Dieses wird durch die sogenannten Transformationsmatrizen geleistet. Seien also V ein Vektorraum und v1 , . . . , vn sowie w1 , . . . , wn zwei Basen P von V . Für jedes 1 ≤ i ≤ n können wir dann vi bezüglich der Basis w1 , . . . , wn als vi = nj=1 aji wj mit a1i , . . . , ani ∈ K schreiben, und mit diesen Zahlen bilden wir die Matrix a11 · · · a1n A := ... . . . ... . an1 · · · ann Diese Matrix ist dann die Transformationsmatrix von der Basis v1 , . . . , vn zur Basis w1 , . . . , wn von V . Für jedes x ∈ K n gilt dabei die Formel Ψv (x) = Ψw (Ax) wobei Ψv , Ψw : K n → V die Koordinatenabbildungen bezüglich der Basen v1 , . . . , vn beziehungsweise w1 , . . . , wn von V sind. Hat also ein Vektor v ∈ V bezüglich der Basis v1 , . . . , vn den Koordinatenvektor x, gilt also Ψv (x) = v, so ist auch v = Ψv (x) = Ψw (Ax), d.h. der Koordinatenvektor von v bezüglich der Basis w1 , . . . , wn von V ist Ax. Die Transformationsmatrix A ist immer invertierbar und ihre Inverse A−1 ist gerade die Transformationsmatrix in der anderen Richtung, also von der Basis w1 , . . . , wn von V zur Basis v1 , . . . , vn von V . Vorlesung 15, Freitag 12.12.2008 107 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 Wir wollen jetzt die bisher eingeführten Begriffe im Spezialfall des Vektorraums V = K m , also für Spaltenvektoren der Länge m, noch einmal zusammenfassen. Gegeben seien also n Vektoren a1n a12 a11 v1 = ... , v2 = ... , . . . , vn = ... , amn am2 am1 mit jeweils m Einträgen. Wir bilden dann die m × n Matrix A, deren Spalten gerade unsere Vektoren v1 , . . . , vn sind. Weiter bezeichne r wieder die Anzahl der von Null verschiedenen Zeilen der durch den Gaußschen Algorithmus aus A erhalten Matrix in Stufenform. Dann haben wir die folgenden Entscheidungskriterien: Aufgabe Sind v1 , . . . , vn linear unabhängig? Sind v1 , . . . , vn ein Erzeugendensystem des K m ? Ist v ∈ hv1 , . . . , vn i (für einen weiteren Vektor v ∈ K m )? Ist v1 , . . . , vn eine Basis des K m ? Kriterium r=n r=m Ax=v ist lösbar m=n=r Für die meisten dieser Problemstellungen gibt es ein notwendiges Kriterium, das erfüllte sein muss damit die Aussage auch nur eine Chance hat wahr zu sein. Die Vektoren v1 , . . . , vn können höchstens dann linear unabhängig sein wenn n ≤ m ist, und sie können höchstens dann ein Erzeugendensystem des K m sein, wenn n ≥ m sein. Schließlich kann v1 , . . . , vn höchstens dann eine Basis des K m sein, wenn m = n ist. Beachte das wir für die meisten der obigen Problemstellungen die aus A erhaltene Matrix in Stufenform gar nicht brauchen, nur die Anzahl r ihrer von Null verschiedenen Zeilen spielt eine Rolle. Wie kommen nun zur Diskussion der Transformationsmatrizen zurück, und zwar im Spezialfall von Spaltenvektoren im K m . Die Koordinaten x1 , . . . , xn eines Vektors v bezüglich einer Basis v1 , . . . , vn waren definitionsgemäß diejenigen Zahlen x1 , . . . , xn ∈ K mit v = x1 v1 + · · · + xn vn . Im besonders wichtigen Spezialfall der kanonischen Basis e1 , . . . , en des K n haben wir 1 0 x1 0 .. x1 e1 + · · · + xn en = x1 · .. + xn · . = ... , . 0 xn 0 1 d.h. die Koordinaten bezüglich der kanonischen Basis des K n sind genau die Einträge des betreffenden Vektors. Wir wollen nun im R2 die Koordinatentransformation von einer um den Winkel φ im Gegenuhrzeigersinn zur kanonischen Basis e1 , e2 gedrehten Basis v1 , v2 zur kanonischen Basis des R2 beschreiben. Hierzu müssen wir zunächst die Koordinaten der Vektoren v1 , v2 bezüglich der kanonischen Basis des R2 bestimmen, und wir gerade eben gesehen sind dies gerade die kartesischen x- und y-Koordinaten dieser Vektoren. 108 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 Diese haben wir aber bereits bei der Beschreibung v der Polarkoordinaten in §4 bestimmt. Betrachten wir die beiden im nebenstehenden Bild zu sehenden rechtwinkligen Dreiecke mit Hypothenusenlänge 1 und Winkel φ, so sind die x- und y-Koordinaten von v1 die Ankathete beziehungsweise die Gegenkathete zum Winkel φ im rechten Dreieck. Im linken Dreieck dagegen sind die yKoordinate von v2 die Ankathete und die Gegenkathete ist das Negative der x-Koordinate von v2 . Wir haben also cos φ v1 = = cos φ · e1 + sin φ · e2 , sin φ − sin φ v2 = = − sin φ · e1 + cos φ · e2 . cos φ e2 2 v1 e1 Die Transformationsmatrix A von der kanonischen Basis e1 , e2 zur Basis v1 , v2 erhalten wir nun indem wir die Koordinaten von v1 , v2 bezüglich der kanonischen Basis des R2 als Spalten in die Matrix A eintragen, d.h. die Transformationsmatrix entsteht indem wir die obigen Spaltenvektoren als Spalten der Matrix A nebeneinanderschreiben, und somit ist cos φ − sin φ A= . sin φ cos φ Daher bezeichnet man Matrizen dieser Form auch als Drehmatrizen“. Die Transfor” mationsmatrix von der gedrehten Basis v1 , v2 zur kanonischen Basis e1 , e2 ist dann die inverse Matrix A−1 . Erinnern wir uns an die Formel für die Inverse einer 2 × 2 Matrix aus §6 −1 1 a b d −b = , c d a ad − bc −c so erhalten wir für die Transformationsmatrix von der Basis v1 , v2 zur Basis e1 , e2 die Formel 1 cos φ sin φ cos φ sin φ −1 = . A = − sin φ cos φ cos2 φ + sin2 φ − sin φ cos φ Die Matrix A−1 ist damit übrigens selbst eine Drehmatrix, nämlich die Drehmatrix zum Winkel −φ. Wir wollen noch ein zweites Beispiel einer Koordinatentransformation im R2 diskutieren, eine sogenannte Scherung. Bei dieser gehen wir zu einer neuen Basis v1 , v2 des R2 über, bei der v1 = e1 ist aber v2 aus e2 durch eine Verschiebung parallel zur x-Achse entsteht, also 1 v1 = = e1 0 t v2 = = te1 + e2 1 mit einer Konstante t ∈ R. 109 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 Im nebenstehenden Bild ist dabei t = 1/2. Die Transformationsmatrix von der Basis e1 , e2 zur gescherten Basis v1 , v2 ist diesmal gegeben durch 1 t A= , 0 1 und die Transformationsmatrix in der anderen Richtung von v1 , v2 nach e1 , e2 wird zu A −1 = 1 t 0 1 −1 = 1 −t 0 1 e2 t v2 v1= e 1 . Die obige Matrix A wird daher auch oft als eine Scherungsmatrix bezeichnet. Ein weiterer häufig verwendeter Typ von Koordinatentransformation sind Skalierungen, dort gehen wir zu einer Basis der Form v1 = ae1 , v2 = be2 mit Konstanten a, b > 0 über. Eine kleine Übersicht dieser Basiswechsel wird durch die folgende Graphik gegeben: Ing I Ing I Skaliert Scherung I g In Ing I Standard Rotiert Eine typische Anwendung von Koordinatentransforp3 mationen besteht in der Wahl einer geeigneten Basis, die die anschließenden Rechnungen oder sonstigen Überles1 gungen dann einfacher macht. Als ein Beispiel für ein s2 derartiges Vorgehen wollen wir zeigen, daß sich die Seip2 tenhalbierenden eines Dreiecks in einem Punkt schneis3 den. Dabei geht es uns hier nur um die Methode des p 1 Beweises, die Tatsache an sich ist für uns nicht weiter wichtig, und sie sollte Ihnen auch bekannt sein. Gegeben sei also ein Dreieck mit den Ecken p1 , p2 , p3 . Ist {i, j, k} = {1, 2, 3} so bezeichne si 110 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 den Mittelpunkt der Strecke zwischen pj und pk , also si = (pj + pk )/2. Die zugehörige Seitenhalbierende ist dann die Verbindungsgerade von si mit pi , also die Menge li := {pi + t · (si − pi )|t ∈ R}. Durch Translation können wir annehmen, dass einer der drei Eckpunkte der Nullpunkt ist, also etwa p1 = 0. Nun könnten wir ansetzen p2 = (x, y) und p3 = (u, v) und den fraglichen Schnittpunkt einfach ausrechnen. Durch die Wahl einer geeigneten Basis können wir dies aber noch einfacher machen. Da die drei Punkte p1 , p2 , p3 aber nicht auf einer Geraden liegen, ist p3 kein Vielfaches von p2 und somit ist p2 , p3 , und damit auch v1 := p2 /2, v2 := p3 /2 eine Basis des R2 . Gehen wir zu Koordinaten bezüglich der Basis v1 , v2 des R2 über, so wird 2 0 p2 = 2v1 = . p3 = 2v2 = . 0 2 Damit werden s2 = (p1 + p3 )/2 = v2 und s3 = (p1 + p2 )/2 = v1 sowie s1 = (p2 + p3 )/2 = v1 + v2 , also 1 0 1 s1 = , s2 = , s3 = . 1 1 0 Wir wollen nun zeigen, dass der Punkt s := (2/3) · (v1 + v2 ) auf allen drei Seitenhalbierenden liegt, und somit der Schnittpunkt dieser drei Geraden ist. Zu diesem Zweck rechnen wir 2 2 2 0 1 0 3 p1 + (s1 − p1 ) = + · − = =s 2 0 1 0 3 3 3 2 2 2 2 0 2 3 p2 + (s2 − p2 ) = =s + · − = 2 0 1 0 3 3 3 2 2 2 0 1 0 3 p3 + (s3 − p3 ) = + · − = = s. 2 2 0 2 3 3 3 Damit ist diese Aussage bewiesen. Beachte, dass hier nicht nur ein Spezialfall nachgerechnet wurde, durch geeignete Wahl einer Basis des R2 hat jedes Dreieck die hier behandelte Gestalt. Wir wollen noch kurz eine weitere typische Anwendung von Transformationsmatrizen besprechen, die allerdings nicht viel mit Mathematik zu tun hat. Transformationsmatrizen, beziehungsweise die zugehörigen Basistransformationen, werden oft als ein Element in der Computergraphik verwendet. Typischerweise verwaltet eine Graphik API (das ist die übliche Abkürzung für Application Programming Interface) eine aktuelle Transformationsmatrix, und alle an die API übergebenen Koordinaten werden mit dieser Transformationsmatrix multipliziert bevor sie weiter verwendet werden. In anderen Worten sind die angegebenen Koordinaten bezüglich der durch die Transformationsmatrix gegebenen Basis des R2 , und nicht bezüglich der kanonischen Basis des R2 , d.h. es sind keine kartesischen Koordinaten. Dabei enthält die Transformation 111 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 normalerweise auch noch einen Translationsanteil, den wir in dieser Diskussion aber ignorieren wollen. Spezielle Beispiele solcher APIs sind alle auf das Graphikmodel von Postscript aufsetzenden APIs, etwa das CoreGraphics Framework oder der Postscript Nachfolger PDF. Entsprechendes gibt es dann auch für dreidimensionale Graphik APIs, etwa die Modelview Matrix bei OpenGL, aber hier werden die Dinge dann durch die notwendige Projektion ins Zweidimensionale noch etwas komplizierter. Um an dieser Stelle einmal ein direktes Beispiel zum Einsatz von Transformationsmatrizen in der Computergraphik zu sehen, wollen wir hier die Erzeugung des oben gezeigten Übersichtsbilds zu Drehungen, Scherungen und so weiter, durchgehen. Wir geben hier zunächst das vollständige Postscript Programm zum Ausdruck dieses Bildes an, und besprechen dann anschließend einige seiner Details. Es geht uns hier um Koordinatentransformationen, und nicht um Postscript selbst, daher können Sie das folgende Programm ohne schädliche Folgen ignorieren. Wir verwenden hier Postscript da es so am einfachsten ist, ein für sich selbst stehendes Programm hinzuschreiben, das keine weitere Anbindung an irgendwelche sonstigen APIs benötigt. %!PS-Adobe-2.0 EPSF-2.0 %%BoundingBox: 5 5 420 420 %%EndComments /tickheight 8 def /tickwidth 16 def /tickcount 24 def /ingoffset 64 def /ingheight 144 def /inglines 0 def /squarewidth 48 def /total 400 def /axis { newpath 0 0 moveto tickwidth tickcount mul 0 lineto 0 tickheight -2 div moveto tickcount { tickwidth 0 rmoveto 0 tickheight rlineto 0 tickheight neg rmoveto } repeat stroke } def /square { 0.8 setgray newpath 0 0 moveto squarewidth dup dup dup 0 rlineto 0 exch rlineto neg 0 rlineto neg 0 exch rlineto closepath fill 0 setgray } def /axes { axis 90 rotate axis -90 rotate square } def /stringdims { newpath 0 0 moveto 112 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 true charpath flattenpath pathbbox exch 4 -1 roll sub 3 1 roll exch dup 0 lt { pop 0 } if sub } def /ing { (Ing I) dup stringdims 3 -1 roll newpath ingoffset ingoffset moveto true charpath stroke newpath ingoffset ingoffset moveto inglines dup 0 eq { pop 1 } if div inglines 1 add { exch dup dup 0 rlineto neg 0 rmoveto exch dup 0 exch rmoveto } repeat stroke } def /drawing { /Times-Roman findfont ingheight scalefont setfont axes ing } def /center { /Helvetica findfont 18 scalefont setfont dup stringwidth pop total 2 div exch sub dup 0 lt { pop 0 } if 2 div 4 moveto show } def /quadrant { gsave total 2 div dup 4 -1 roll mul 3 1 roll mul translate center total 2 div dup dup dup dup newpath 0 0 moveto 0 rlineto 0 exch rlineto neg 0 rlineto neg 0 exch rlineto closepath clip 8 div dup translate 0.35 0.35 scale exec drawing grestore } def 10 10 translate newpath 0 0 moveto total 0 lineto total total lineto 0 total lineto 0 0 lineto total 2 div dup dup dup 0 moveto total lineto 0 exch moveto total exch lineto stroke { } (Standard) 0 0 quadrant { 30 rotate } (Rotiert) 1 0 quadrant { 1 3 scale } (Skaliert) 0 1 quadrant 113 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 { [1 0 1 1 0 0] concat } (Scherung) 1 1 quadrant showpage Das eigentliche Zeichnen der vier Teilbilder wird hier durch die vier Zeilen vor dem abschließenden showpage bewirkt. Jede dieser Zeilen hat die allgemeine Gestalt { setup } (Beschriftung) x y quadrant und dabei ist quadrant eine Funktion, die mit den vorstehenden Parametern aufgerufen wird. Die Zahlen x, y stehen für den zu zeichnenden Quadranten, (0,0) für das linke untere Quadrat, (0,1) für das linke obere Quadrat und so weiter. Postscript ist eine stack-orientierte Sprache, die vier Parameter werden auf den Stack geworfen und dort von quadrant verwendet. Die Funktion quadrant ist wie folgt definiert /quadrant { gsave total 2 div dup 4 -1 roll mul 3 1 roll mul translate center total 2 div dup dup dup dup newpath 0 0 moveto 0 rlineto 0 exch rlineto neg 0 rlineto neg 0 exch rlineto closepath clip 8 div dup translate 0.35 0.35 scale exec drawing grestore } def Die ersten beiden Zeilen können wir hier ignorieren. In der dritten Zeile wird der Koordinatenursprung auf die linke untere Ecke des zu zeichnenden Quadranten verschoben und anschließend die weiter oben definierte Funktion center aufgerufen, um die Bildunterschrift zentriert zu setzen. Anschließend wird die Clipping Area auf den zu zeichnenden Quadranten begrenzt, d.h. es wird nur noch in diesem Bereich gezeichnet. So wird zum Beispiel vermieden das der überstehende Teil des rotierten Bildes ins Nachbarbild hereinragt. Nun kommt der uns hier eigentlich interessierende Teil. Der Befehl exec führt das an quadrant übergebene Setup Argument aus, und anschließend erledigt die Funktion drawing die eigentliche Zeichnung. Die Funktion drawing zeichnet immer dasselbe, völlig egal in welchem Quadranten wir uns gerade befinden. Der Unterschied zwischen den vier Teilbildern entsteht ausschließlich durch die vorgeschaltete Koordinatentransformation. Die Transformation des Scherungsbildes wird zum Beispiel durch [1 0 1 1 0 0] concat erreicht. Dabei steht der Ausdruck in eckigen Klammern für die Scherungsmatrix 1 1 , 0 1 wobei die abschließenden beiden Nullen ein Translationsanteil sind, der hier nicht vorhanden ist. Der Befehl concat fügt diese Transformationsmatrix der aktuellen Transformationsmatrix hinzu, bewirkt also eine Matrixmultiplikation. Die anderen beiden 114 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 Transformationen 30 rotate und 1 3 scale sind eine Rotation um 30◦ beziehungsweise die Streckung der y-Achse um den Faktor 3. Hier könnten wir genausogut die entsprechende Matrix mit concat angeben, also eine Drehmatrix beziehungsweise 1 , 3 aber für Drehungen und Skalierungen gibt es alternativ die vorgefertigten Befehle rotate und scale. Der für uns beachtenswerte Teil in diesem gesamten Beispiel ist, dass wir Transformationsmatrizen verwenden können um ein und dieselben Zeichnung auf vielerlei verschiedene Arten zu interpretieren. $Id: det.tex,v 1.4 2008/12/19 17:07:55 hk Exp $ §8 Determinanten 8.1 Die Determinante Die Determinante einer n × n Matrix A über K = R oder K = C ist eine Zahl det A ∈ K. Alternativ wird oft auch |A| anstelle von det A geschrieben. Wird dabei A direkt in Matrixform (...) hingeschrieben, so läßt man die Klammern um die Matrix in der Schreibweise |A| üblicherweise fort, schreibt also etwa 1 2 1 3 für die Determinante det A der Matrix A= 1 2 1 3 . Beachte das die Determinante nur für quadratische Matrizen definiert wird. Bevor wir zur Definition der allgemeinen Determinante kommen, wollen wir sie zunächst in den drei kleinen Fällen n = 1, 2, 3 explizit hinschreiben. Für 1 × 1 Matrizen ist die Determinante einfach der eine Eintrag der Matrix, also det(a) = a für a ∈ K. Die Determinante einer 2 × 2 Matrix wird durch die Formel a b c d := ad − bc definiert. Beachte das uns der Ausdruck ad − bc bereits in §6 in der Formel −1 1 a b d −b = c d a ad − bc −c 115 Mathematik für Ingenieure I, WS 2008/2009 Freitag 12.12.2008 für die Inverse eine 2 × 2 Matrix begegnet ist. Dies ist kein Zufall, wie wir sehen werden gibt es auch für n × n Matrizen eine direkte Formel für die Einträge der inversen Matrix A−1 in Termen gewisser Determinanten. Für n > 2 ist diese Formel allerdings für praktische Zwecke nur selten hilfreich. Wir kommen nun zur Determinante einer 3 × 3 Matrix, und diese Formel ist bereits merklich komplizierter. a11 a12 a13 a21 a22 a23 := a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a13 a22 a31 − a11 a23 a32 − a12 a21 a33 . a31 a32 a33 Es ist populär sich diese Formel mit Hilfe der sogenannten Regel von Sarrus zu merken. Hierzu schreibt man sich die ersten beiden Spalten der 3 × 3 Matrix noch einmal rechts neben die Matrix. Dann bildet man die drei Dreierprodukte entlang der drei Diagonalen von links nach rechts und addiert diese. Anschließend bildet man die Dreierprodukte auf den drei Gegendiagonalen von rechts nach links und zieht diese von der zuvor gebildeten Summe ab. Die so erhaltene Zahl ist die Determinante der Matrix. − a11 a12 a13 a11 a12 a21 a22 a23 a21 a22 a31 a32 a33 a31 a32 − − + + + Natürlich sind Sie nicht verpflichtet die Regel von Sarrus zu verwenden, mit etwas Konzentration und ein wenig Übung ist es leicht sich die beiden verdoppelten Spalten im Kopf zu denken, ohne sie extra hinzuschreiben. Die Determinante größerer Matrizen ist etwas komplizierter. Wir schauen uns hierzu noch einmal die Formel für die Determinante einer 3 × 3 Matrix an. Jeder der sechs Summanden ist ein Produkt aus drei Einträgen der Matrix, ein Eintrag der ersten Zeile, einer der zweiten Zeile und einer der dritten Zeile. Schreiben wir für das Produkt a1i a2j a3k einfach i, j, k und schreiben das jeweilige Vorzeichen in der Determinante daneben, so wird die obige Formel zur Liste 1, 2, 3 2, 3, 1 3, 1, 2 3, 2, 1 1, 3, 2 2, 1, 3 + + + − − −. Hier tauchen auf der linken Seite alle sechs Ordnungen der Elemente 1, 2, 3 auf, die wir schon einmal als ein Beispiel in §3 hingeschrieben haben. Die Summanden der 3 × 3 Determinante entsprechen also den sechs Ordnungen einer dreielementigen Menge, und ebenso wird die Determinante einer n × n Matrix eine Summe aus sovielen n-fachen Produkten von Einträgen der Matrix sein wie es Ordnungen einer n-elementigen Menge 116 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 gibt. In §3 hatten wir gezeigt, dass diese Zahl gerade n! ist, d.h. die Determinante einer n × n Matrix wird eine Summe mit n! Summanden sein. Die eine Hälfte dieser Summanden wird mit dem Vorzeichen + versehen und die andere Hälfte mit −. Ebenfalls bereits in §3 hatten wir uns klargemacht, dass die Ordnungen einer nelementigen Menge gerade den bijektiven Abbildungen der Menge auf sich selbst entsprechen. Eine bijektive Abbildung π : M → M einer Menge M in sich selbst nennt man auch eine Permutation. Für die allgemeine Definition der Determinante wird es nützlich sein eine Bezeichnung für die Menge aller Ordnungen der Menge {1, . . . , n} zu haben. Definition 8.1: Für jedes n ∈ N bezeichne Sn die Menge aller Anordnungen der Menge {1, . . . , n}. Wie bereits bemerkt wissen wir |Sn | = n! und wir können die Elemente von Sn auch als Permutationen von {1, . . . , n} auffassen. Wir hatten ebenfalls bemerkt, dass die eine Hälfte der Summanden in unserer Determinante das Vorzeichen + und die andere das Vorzeichen − hat. Wir müssen nur noch beschreiben welche Permutationen mit + und welche mit − versehen werden sollen. Hierzu werden wir gerade und ungerade Permutationen definieren, und als eine Vorstufe hierzu benötigen wir den Begriff eines Fehlstands einer Permutation. Definition 8.2: Sei n ∈ N und sei π ∈ Sn . Ein Fehlstand von π ist ein Paar (i, j) bestehend aus zwei natürlichen Zahlen i, j ∈ N mit 1 ≤ i < j ≤ n und π(i) > π(j). Vorlesung 16, Dienstag 16.12.2008 Betrachte beispielsweise die durch π(1) = 2, π(2) = 3, π(3) = 4 und π(4) = 1 definierte Permutation π ∈ S4 . Oft schreiben wir auch einfach die zugehörige Ordnung von {1, 2, 3, 4} hin, in diesem Beispiel also π = (2, 3, 4, 1). Wir wollen nun die Fehlstände von π auflisten, und hierzu gehen wir alle sechs Paare (i, j) mit 1 ≤ i < j ≤ 4 durch, wenden auf jedes π an, und schauen ob sich die Reihenfolge der beiden Elemente umdreht oder nicht: (1, 2)−→(2, 3), (2, 3)−→(3, 4), (1, 3)−→(2, 4), (2, 4)−→(3, 1) Fehlstand, (1, 4)−→(2, 1) Fehlstand, (3, 4)−→(4, 1) Fehlstand. Damit hat die Permutation π genau drei Fehlstände, nämlich die Paare (1, 4), (2, 4) und (3, 4). Betrachten wir noch ein weiteres Beispiel, die Permutation π = (2, 1, 4, 3). Die Tabelle wird dann zu (1, 2)−→(2, 1) Fehlstand, (2, 3)−→(1, 4), (1, 3)−→(2, 4), (2, 4)−→(1, 3), (1, 4)−→(2, 1), (3, 4)−→(4, 3) Fehlstand, 117 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 d.h. diese Permutation hat genau die beiden Fehlstände (1, 2) und (3, 4). Insbesondere sehen Sie, dass das Ermitteln der Fehlstände einer Permutation kein besonderes Problem darstellt. Wir wollen noch kurz tabellarisch die Fehlstände sämtlicher Permutation in S2 und S3 festhalten: Permutation (1,2) (2,1) Fehlstände Permutation (1,2,3) (2,3,1) (3,1,2) (2,1,3) (3,2,1) (1,3,2) (1,2) Fehlstände (1,3),(2,3) (1,2),(1,3) (1,2) (1,2),(1,3),(2,3) (2,3) Nun sind wir in der Lage das Vorzeichen einer Permutation zu definieren. Definition 8.3: Seien n ∈ N und π ∈ Sn . Dann heißt π gerade wenn die Anzahl der Fehlstände von π gerade ist, und ungerade wenn die Anzahl der Fehlstände von π ungerade ist. Weiter definieren wir das Vorzeichen, oder Signum, von π als ( 1, π ist gerade, signum(π) := sgn(π) := sign(π) := (−1)π := −1, π ist ungerade. Wie in der Definition aufgelistet findet man in der Literatur für das Vorzeichen einer Permutation eine große Zahl möglicher Bezeichnungsvarianten. Für unsere beiden Beispiele von Permutationen von vier Elementen finden wir (−1)(2,3,4,1) = −1, (−1)(2,1,4,3) = 1, und die Vorzeichen aller Permutationen von zwei und drei Elementen ergeben sich wie in der folgenden Tabelle: Permutation (1,2) (2,1) Permutation (1,2,3) (2,3,1) (3,1,2) (2,1,3) (3,2,1) (1,3,2) Vorzeichen 1 -1 Vorzeichen 1 1 1 -1 -1 -1. Beachte insbesondere das das Signum einer jeden Permutation von zwei oder drei Elementen gleich dem Vorzeichen des entsprechenden Terms in der Determinante einer n × n Matrix ist. Bevor wir zur Definition der Determinante kommen, wollen wir noch ein paar kleine Tatsachen über das Vorzeichen von Permutationen festhalten. Sind 118 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 π, η ∈ Sn zwei Permutationen und τ ∈ Sn eine Transposition, d.h. eine Permutation die zwei Elemente von {1, . . . , n} vertauscht und alle anderen fixiert, so gelten (−1)π −1 = (−1)π , (−1)πη = (−1)π (−1)η , (−1)τ = −1. Dabei steht πη für die Hintereinanderausführung π ◦ η. Alle diese Formeln sind leichte Übungen, die wir hier nicht vorführen wollen, da sie doch etwas von unserem Thema fortführen. Nun sind wir endlich in der Lage die Determinante einer allgemeinen n × n Matrix zu definieren. Definition 8.4: Sei n ∈ N. Die Determinante einer n × n Matrix wird dann über die sogenannte Leipnitz-Formel als a11 · · · a1n X .. . . . (−1)π a1,π(1) · . . . · an,π(n) . . .. := π∈Sn an1 · · · ann definiert. P P Dabei interpretieren wir eine Summe π∈Sn f (π) als n! k=1 f (πk ) wobei die Menge Sn = {π1 , . . . , πn! } in irgendeiner Weise durchnumeriert ist. Unsere obigen Listen zeigen uns, dass diese Determinantendefinition für n = 2, 3, und natürlich auch für n = 1, mit der eingangs gegebenen Definition einer n × n Determinante für n = 1, 2, 3 übereinstimmt. Wir wollen in diesem Abschnitt die Grundeigenschaften der Determinante herleiten, und dies wird uns insbesondere auf eine erste Methode zur effektiven Berechnung von Determinanten führen. Im nächsten Abschnitt werden wir dann noch eine weitere Technik zur Berechnung von Determinanten durch Rückführung auf kleinere Determinanten herleiten. Satz 8.1: Für jede n × n Matrix A gilt det At = det A, wobei At die transponierte Matrix zu A bezeichnet. Beweis: Schreibe a11 · · · a1n a11 · · · an1 A = ... . . . ... also At = ... . . . ... . an1 · · · ann a1n · · · ann Dann haben wir für jede Permutation π ∈ Sn aπ(1),1 · . . . · aπ(n),n = aπ(1),π−1 (π(1)) · . . . · aπ(n),π−1 (π(n)) = a1,π−1 (1) · . . . · an,π−1 (n) , und somit folgt X X det At = (−1)π aπ(1),1 · . . . · aπ(n),n = (−1)π a1,π−1 (1) · . . . · an,π−1 (n) π∈Sn = X π∈Sn π −1 (−1) a1,π−1 (1) · . . . · an,π−1 (n) = π∈Sn X π∈Sn 119 (−1)π a1,π(1) · . . . · an,π(n) = det A Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 da mit π auch π −1 die Menge Sn durchläuft. Wie bereits bemerkt ist es unser Ziel eine Methode zur Berechnung von Determinanten zu finden. Es ist nützlich hierbei zunächst eine sehr spezielle Sorte von Matrizen zu behandeln, die sogenannten oberen Dreiecksmatrizen. Diese haben auf der Diagonale und oberhalb der Diagonalen Einträge, aber alle Einträge unterhalb der Diagonale sind gleich Null, also beispielsweise die Matrix 1 −1 3 1 0 2 4 3 . A= 0 0 3 178 0 0 0 4 Analog gibt es dann auch untere Dreiecksmatrizen, dies sind gerade die Transponierten der oeberen Dreiecksmatrizen. Satz 8.2: Sei A= ∗ a1 .. oder A = . an a1 .. ∗ . an eine obere oder eine untere Dreiecksmatrix. Dann ist det A = a1 · . . . · an . Beweis: Schreibe wieder a11 · · · a1n A = ... . . . ... . an1 · · · ann Zunächst sei A eine obere Dreiecksmatrix, also aij = 0 für 1 ≤ j < i ≤ n und aii = ai für 1 ≤ i ≤ n. Sei π ∈ Sn . Gibt es dann ein 1 ≤ i ≤ n mit π(i) < i, so ist ai,π(i) = 0 und somit auch a1,π(1) · . . . · an,π(n) = 0. Ist dagegen π(i) ≥ i für jedes 1 ≤ i ≤ n, so ist π(n) ≥ n, also π(n) = n, und weiter π(n − 1) ≥ n − 1 also π(n − 1) = n − 1 oder π(n − 1) = n, also wegen π(n − 1) 6= π(n) = n sogar π(n − 1) = n − 1. So fortfahrend folgt dann π(i) = i für alle 1 ≤ i ≤ n. Es gibt in det A also höchstens einen von Null verschiedenen Summanden, nämlich derjenige zu π = (1, . . . , n) und da diese Permutation gerade ist, folgt det A = (−1)(1,...,n) a11 · . . . · ann = a1 · . . . · · · an . Ist A eine untere Dreiecksmatrix, so ist At eine obere Dreiecksmatrix und mit Satz 1 folgt die Behauptung auch in diesem Fall. 120 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 Speziell für unsere obige Beispielmatrix liefert dieser Satz 1 −1 3 1 0 2 4 3 = 1 · 2 · 3 · 4 = 24. 0 0 3 178 0 0 0 4 Wir werden nun eine allgemeine n × n Determinante auf eine in oberer Dreiecksgestalt zurückführen. Zu diesem Zweck kommt wieder die Gaußsche Eliminationsmethode zum Einsatz. Mit dieser können wir ja eine gegebene Matrix durch elementare Zeilenumformungen in einer Matrix in Stufenform überführen. Da jede Matrix in Stufenform insbesondere eine obere Dreiecksmatrix ist, können wir die Determine von Matrizen in Stufenform mit Satz 2 leicht berechnen. Wir müssen uns also nur noch überlegen wie sich die Determinante einer Matrix unter elementaren Zeilenumformungen verhält. Nach §5 gibt es drei Sorten elementarer Zeilenumformungen 1. Vertauschen zweier Zeilen. 2. Multiplikation einer Zeile mit einer Zahl. 3. Addition eines Vielfachen einer Zeile zu einer anderen Zeile. Das Verhalten der Determinante unter diesen drei Operation wird das Thema der nächsten drei Sätze sein. Neben den Zeilenumformungen werden auch Spaltenumformungen möglich sein, diese sind völlig analog zu Zeilenumformungen definiert. Da sich Zeilen- und Spaltenumformungen unter Matrixtransposition ineinander übersetzen, können wir Satz 1 verwenden um Aussagen über Zeilen in Aussagen über Spalten, und umgekehrt, zu überführen. Wir beginnen mit dem Vertauschen von Zeilen beziehungsweise Spalten. Dabei formulieren wir gleich einen etwas allgemeineren Satz, der beliebige Vertauschungen der Zeilen oder Spalten einer Determinante behandelt. Satz 8.3: Seien A eine n × n Matrix und η ∈ Sn eine Permutation. Definiere eine neue Matrix A0 , deren i-te Zeile (Spalte) für i = 1, . . . , n gerade die η(i)-te Zeile (Spalte) von A ist. Dann gilt det A0 = (−1)η det A. Haben wir beispielsweise die Matrix 1 2 A= 1 −1 4 −1 −2 0 −3 4 1 −1 −2 0 0 3 und die Permutation η = (2, 3, 4, 1), so ist die Matrix A0 diejenige 4 × 4 Matrix, deren erste Zeile die η(1) = 2-te Zeile von A, deren zweite Zeile die η(2) = 3-te Zeile von A, 121 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 deren dritte Zeile die η(3) = 4-te Zeile von Zeile von A ist, also −1 0 1 4 A0 = 2 0 1 1 A und deren letzte Zeile die η(4) = 1-te 0 3 −1 −2 . −3 4 −1 −2 Da wir bereits in einem Beispiel festgehalten hatten, dass die Permutation η ungerade ist, liefert Satz 3 die Gleichung −1 0 1 4 −1 −2 0 3 2 0 −3 1 4 −1 −2 4 = − 2 0 −3 1 1 −1 −2 . 4 −1 0 1 1 −1 −2 0 3 Da Transpositionen immer ungerade sind ist insbesondere det A0 = − det A wenn A0 aus A durch Vertauschen zweier Zeilen oder durch Vertauschen zweier Spalten entsteht. Damit haben wir die erste der elementaren Zeilumformungen behandelt, und wir kommen zum zweiten Typ, dem Multiplizieren einer Zeile mit einer Zahl. Auch hier beweisen wir gleich eine allgemeinere Aussage. Wir behaupten das sich Addition einzelner Zeilen oder Spalten und Multiplikation einzelner Zeilen oder Spalten mit einem Skalar aus einer Determinante herausziehen lassen. Satz 8.4 (Zeilen- und spaltenweise Linearität der Determinante) Seien n ∈ N und 1 ≤ k ≤ n. Dann gilt für alle Zahlen t, s ∈ K und alle die Gleichung a11 · · · a1n a11 · · · a11 ··· a1n . .. .. .. .. . . . . . . ta1 + sb1 · · · tan + sbn = t · a1 · · · an + s · b1 · · · . .. .. .. ... .. . . . a a a ··· a ··· a ··· n1 nn n1 nn n1 aij , ai , bi ∈ K bn , .. . ann a1n .. . wobei die Summen in der k-ten Zeile dieser Determinante stehen. Die entsprechende Aussage gilt auch für Summen von Spalten. Auch diese einfache Tatsache wollen wir jetzt nicht vorführen. Ein direktes Beispiel für die obige Formel ist etwa 1 −1 1 1 −1 1 −1 1 1 2 1 3 + 2 · 0 −1 −1 = 2 −1 1 . −1 −1 0 2 0 2 −1 0 2 Die erste und die dritte Zeile dieser Matrizen stimmen jeweils überein, Addition und Multiplikation werden nur in einer Zeile, in diesem Beispiel in der zweiten Zeile, durchgeführt. Mit den beiden eben bewiesenen Sätzen ist es leicht die Invarianz der Determinante unter der letzten noch zu betrachtenden Zeilen- beziehungsweise Spaltenumformung einzusehen. 122 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 Satz 8.5: Sei n ∈ N und sei A eine n × n Matrix. Die Matrix A0 entstehe aus A durch Addition eines Vielfachen der i-ten Zeile (Spalte) zur j-ten Zeile (Spalte). Dann ist det A0 = det A. Mit den bisher nachgewiesenen, beziehungsweise behaupteten, Eigenschaften der Determinante können wir nun ein erstes Rechenverfahren zur Bestimmung allgemeiner Determinanten angeben. Starten wir mit einer n × n Matrix A, so führen wir mit A das Gaußsche Eliminationsverfahren durch, d.h. wir bringen A durch elementare Zeilenumformungen auf Stufenform. Für jeden der Umformungsschritte wissen wir nach obigen drei Sätzen wie sich die Determinante unter dieser Umformung verhält. Die Determinante der letztlich entstehenden oberen Dreiecksmatrix können wir dann durch Ausmultiplizieren der Einträge entlang der Diagonalen berechnen. Wir wollen dies einmal an einem Beispiel durchführen. 1 2 −1 1 1 1 2 −1 1 2 −1 1 2 1 −1 0 0 2 −2 0 4 2 = = − −1 2 3 −1 0 4 2 0 0 2 0 3 0 −1 0 −6 0 0 −6 2 −3 2 1 2 −1 1 1 0 4 0 2 0 = − = − 2 −2 0 0 0 0 0 0 5 −3 1 0 −2 −3 2 −1 1 4 2 0 = −16. 0 2 −2 0 0 2 Man ist allerdings nicht gezwungen so stur den Gaußschen Algorithmus abzuarbeiten, oft kann man sich die Arbeit durch Mischen von Zeilen- und Spaltenoperationen erleichtern. Dies geschieht etwa im folgenden Beispiel wo wir zuerst Vielfache der ersten Zeile von der dritten und vierten Zeile abziehen und anschließend die zweite und dritte Spalte von der ersten Spalte subtrahieren 1 4 2 4 1 0 1 2 0 1 1 −1 3 1 0 1 −1 3 0 0 1 −1 3 3 7 −5 4 1 3 7 −5 0 1 3 7 −5 0 1 0 = 0 2 −2 3 −6 = 0 2 −2 3 −6 = 0. 4 −3 6 0 0 0 1 −6 0 0 0 1 −6 0 8 1 1 1 0 8 1 0 1 0 8 1 Das abschließende Ergebnis Null ist dabei nach Satz 4 klar, hat eine Matrix eine Zeile oder eine Spalte, die nur aus Nullen besteht, so können wir die Null vor die Determinante ziehen und die gesamte Determinante wird gleich Null. Alternativ können Sie sich auch leicht klarmachen das überhaupt jeder Summand in der Leipnitz-Formel gleich Null ist. Rechnerisch ist es oftmals hilfreich die Aussage Satz 2 über die Determinanten oberer und unterer Dreiecksmatrizen auf etwas allgemeinere Matrizen auszudehnen, bei denen auf der Diagonale keine einzelnen Zahlen sondern ganze Untermatrizen als Blöcke stehen. 123 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 Satz 8.6 (Verallgemeinerte Dreiecksmatrizen) Hat die n × n Matrix A die Form D1 ∗ D1 D2 D2 oder A = A= ... ... Dr Dr ∗ mit quadratischen Untermatrizen D1 , . . . , Dr , so gilt det A = det(D1 ) · . . . · det(Dr ). Dies kann man etwa über unser Berechnungsverfahren für Determinanten einsehen. Bringen wir jede der Matrizen D1 , . . . , Dr durch elementare Zeilenumformungen auf oberer Dreiecksgestalt, so bringen diese Umformungen auch die gesamte Matrix A auf obere Dreiecksgestalt. Die Determinante wird dann das Produkt aller Diagonaleinträge und diese können wir grüppchenweise zu den Produkten über die Diagonaleinträge in den einzelnen Kästchen zusammenfassen. Jedes dieser Teilprodukte ist dann aber ein det(Di ), und dies liefert gerade den Satz. Betrachten wir beispielsweise die Matrix 1 2 −1 7 1 4 5 −1 , A= 0 0 2 3 0 0 2 4 so können wir diese in Kästchen aufteilen 1 2 −1 7 1 4 5 −1 A= 0 0 2 3 0 0 2 4 und dies ist gerade eine verallgemeinerte obere Dreiecksmatrix bei der D1 , D2 zwei 2×2 Matrizen sind. Der Satz liefert also 1 2 −1 7 1 4 5 −1 1 2 3 5 = · = 2 · 2 = 4. 0 0 2 3 1 4 2 4 0 0 2 4 Auch in unserem obigen Beispiel einer 4×4 Determinante hätten wir den Kästchensatz verwenden können. Benutzen wir die Einteilung von 1 2 −1 1 0 4 2 0 0 0 2 −2 0 0 5 −3 124 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 16.12.2008 2 −2 in zwei 1 × 1 Kästchen (1) und (4) sowie ein 2 × 2 Kästchen , so können 5 −3 wir mit dem Kästchensatz den letzten Schritt unserer Rechnung einsparen 1 2 −1 1 2 −1 1 1 2 −2 0 4 1 2 2 0 1 −1 = −4 · 5 −3 = −16. = ··· = − 0 0 −1 2 2 −2 3 −1 0 0 3 0 −1 5 −3 0 Bevor wir zu weiteren Formeln für Determinanten kommen, wollen wir noch zwei kleine geometrische Tatsachen festhalten. Wir beginnen mit der Kennzeichnung von Matrizen A mit det A 6= 0. Angenommen wir haben eine n × n Matrix A gegeben und bezeichnen ihre Spalten mit v1 , . . . , vn . Auf A lassen wir dann das Gaußsche Eliminationsverfahren laufen. Dann ist genau dann det A = 0 wenn auf der nach dem Eliminationsverfahren entstandenen Diagonale eine Null vorkommt, und da die Matrix nach der Elimination in Stufenform ist, ist dies genau dann der Fall, wenn mindestens eine Zeile der entstandenen Matrix nur aus Nullen besteht, wenn also das Gaußsche Eliminationsverfahren nur r < n von Null verschiedene Zeilen produziert. Letzteres bedeutet nach den Ergebnissen des §7 genau das v1 , . . . , vn keine Basis des K n ist. Somit haben wir das Kriterium v1 , . . . , vn sind eine Basis des K n ⇐⇒ det A 6= 0. Damit haben wir die linearen Unabhängig von n Vektoren im K n durch Determinanten charakterisiert. Für reelle Matrizen hat die Determinante auch eine weitere geometrische Bedeutung. Ist A eine reelle n × n Matrix, so betrachten wir die Spalten v1 , . . . , vn von A. Dies sind n Vektoren im Rn und mit diesen bilden wir die Menge M := {t1 v1 + · · · + tn vn |0 ≤ t1 , . . . , tn ≤ 1} ⊆ Rn , das sogenannte von v1 , . . . , vn aufgespannte Parallelepiped. In Dimension n = 2 hat M die Form eines ausgefüllten Parallelograms v2 v2 v1 v1 t2v2 t1v1 In Dimension n = 3 hat M die Form eines Spats, und in höheren Dimensionen kann man sich M als einen n-dimensionalen Spar vorstellen. Der Betrag | det A| der Determinante von A ist nun das n-dimensionale Volumen der Menge M . Für die beiden kleinen Dimensionen n = 2 und n = 3 werden wir darauf später noch einmal eingehen. 125 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 Vorlesung 17, Freitag 19.12.2008 Wir wollen in diesem Abschnitt jetzt noch eine letzte wichtige Formel ansprechen, den sogenannten Determinanten-Multiplikationssatz. Dieser besagt, dass die Determinante eines Produkts zweier Matrizen das Produkt der beiden Einzeldeterminanten ist. Dies ist keine Selbstverständlichkeit, und mag zunächst sogar etwas überraschend sein. Wir haben sowohl die Determinante als auch die Multiplikation von Matrizen durch teilweise recht kompliziert aussehende Formeln eingeführt, dass diese nun so gut zusammenpassen um den Multiplikationssatz zu liefern, ist überhaupt nicht klar. Im nächsten Kapitel werden wir eine andere Interpretation für Matrizen und die Determinante kennenlernen, die den Multiplikationssatz zumindest im reellen Fall geometrisch begründet. Hier hingegen, wollen wir ihn einfach nachrechnen. Satz 8.7 (Multiplikationssatz für Determinanten) Sind A, B zwei n × n Matrizen so gilt det(A · B) = det(A) · det(B). Beweis: Wir schreiben a11 · · · a1n A = ... . . . ... , B = an1 · · · ann b11 · · · b1n c11 · · · c1n . .. . . . . . .. und AB = .. . . . .. . . bn1 · · · bnn cn1 · · · cnn P Nach Definition der Matrizenmultiplikation gilt dann cij = nk=1 aik bkj für alle 1 ≤ i, j ≤ n. Hiermit rechnen wir nun X det(AB) = (−1)π c1,π(1) · . . . · cn,π(n) π∈Sn = X (−1)π = ! a1,j1 bj1 ,π(1) (−1)π n X · ... · j1 =1 π∈Sn X n X ! an,jn bjn ,π(n) jn =1 X a1,j1 · . . . · an,jn · bj1 ,π(1) · . . . · bjn ,π(n) 1≤j1 ,...,jn ≤n π∈Sn " = X a1,j1 · . . . · an,jn · 1≤j1 ,...,jn ≤n # X (−1)π bj1 ,π(1) · . . . bjn ,π(n) . π∈Sn Nun kümmern wir uns um den Faktor in den eckigen Klammern. Die dort stehende Summe sieht fast wie eine Determinante aus, nur das dort überall ji statt i steht. Dies ist aber kein echtes Problem, schreiben wir B(j1 , . . . , jn ) für die n × n Matrix, deren i-te Zeile gerade die ji -te Zeile von B ist, so ist der Ausdruck in eckigen Klammern gerade die Determinante von B(j1 , . . . , jn ), also ist X det(AB) = a1,j1 · . . . · an,jn · det B(j1 , . . . , jn ). 1≤j1 ,...,jn ≤n 126 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 Wir betrachten nun einen einzelnen Summanden in dieser Summe, seien also 1 ≤ j1 , . . . , jn ≤ n gegeben. Gibt es dann zwei Indizes 1 ≤ i, i0 ≤ n mit i 6= i0 und ji = ji0 , so hat die Matrix B(j1 , . . . , jn ) zwei identische Zeilen, und somit ist dann det B(j1 , . . . , jn ) = 0 wie etwa aus Satz 5 folgt. Also müssen wir in der obigen Summe nur die Summanden (j1 , . . . , jn ) betrachten in denen j1 , . . . , jn paarweise verschieden sind. Aber Tupel aus n verschiedenen Zahlen aus {1, . . . , n} sind ja gerade die Ordnungen von {1, . . . , n}, also folgt mit Satz 3 det(AB) = X a1,π(1) · . . . · an,π(n) · det B(π(1), . . . , π(n)) π∈Sn ! = X (−1)π a1,π(1) · . . . · an,π(n) · det(B) = det(A) · det(B). π∈Sn Insbesondere erhalten wir eine Formel für die Determinante der Inversen einer Matrix. Satz 8.8: Sei A eine invertierbare n × n Matrix. Dann gilt det A 6= 0 und es ist det(A−1 ) = 1 . det A Beweis: Nach dem Multiplikationssatz ist det(A) · det(A−1 ) = det(A · A−1 ) = det En = 1. 8.2 Laplace Entwicklung Die Laplace Entwicklung einer Determinante ist ein weiteres Rechenverfahren zur Bestimmung von Determinanten. Bei diesem Verfahren wird die Determinante einer n × n Matrix als eine Summe von n Termen berechnet die ihrerseits im wesentlichen aus einer (n−1)×(n−1) Determinante bestehen. Wir wollen dies zunächst an einigen Beispielen vorführen, bevor wir es als abstrakten Satz formulieren. Wir beginnen dabei mit der Berechnung einer 3 × 3 Determinante 1 −1 3 2 1 −1 . 5 1 0 127 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 Als Entwicklung dieser Determinante nach der ersten Zeile bezeichnet man die folgende Rechnung 1 −1 3 2 1 2 −1 1 −1 2 1 −1 = 1 · + 3 · 5 1 = 1 + 5 − 9 = −3. − (−1) · 5 0 1 0 5 1 0 Diese Summe beginnt mit dem Eintrag 1 in der ersten Zeile und der Spalte multipliziert mit der Determinante, die aus der ursprünglichen Determinante durch Streichen der ersten Zeile und der ersten Spalte entsteht. Hiervon wird dann der Eintrag −1 in der zweiten Spalte der ersten Zeile mal die durch Streichen der ersten Zeile und der zweiten Spalte gebildete Determinante abgezogen. Schließlich wird der Eintrag 3 in der dritten Spalte der ersten Zeile mit der durch Streichen der ersten Zeile und dritten Spalte erhaltenen Determinante multipliziert und zur Gesamtsumme addiert: 1 −1 1 −1 1 −1 1 −1 3 3 3 3 2 =1· 2 − (−1) · 2 +3· 2 . 1 −1 1 −1 1 −1 1 −1 5 1 0 1 0 5 5 1 0 5 1 0 Diese Rechenverfahren ist etwas effizienter als die Rechnung über die Regel von Sarrus. Bei der Sarrusschen Regel hat man die Summe von sechs Dreierprodukten zu bilden, benötigt also 12 Multiplikationen und 5 Additionen, wobei wir Subtraktion und Addition nicht unterscheiden. Bei der Entwicklung nach der ersten Zeile bilden wir dagegen drei 2 × 2 Determinanten, und jede von diesen erfordert zwei Multiplikationen und eine Addition, also insgesamt 6 Multiplikationen und drei Additionen. Dann werden diese 2 × 2 Determinanten jeweils mit einer Zahl multipliziert und dann addiert, dies sind 3 weiter Multiplikationen und zwei Additionen. Insgesamt erfordert die Entwicklung nach der ersten Zeile also 9 Multiplikationen und 5 Additionen, wir haben also 3 Multiplikationen eingespart, dies sind immerhin 25% des Aufwands der Regel nach Sarrus. Ebenso kann die Determinante auch nach der ersten Spalte entwickelt werden, hier gehen wir entsprechend die Einträge in der ersten Spalte der Matrix durch 1 −1 1 −1 1 −1 1 −1 3 3 3 3 −2· 2 +5· 2 . 2 =1· 2 1 −1 1 −1 1 −1 1 −1 5 5 1 0 5 1 0 5 1 0 1 0 Noch allgemeiner kann die Determinante auch nach einer beliebigen Zeile oder einer beliebigen Spalte entwickelt werden. Das einzige kleine Detail auf das man dabei achten muss ist die Verteilung der Vorzeichen. Entwickeln wir nach der ersten Zeile oder Spalte, so beginnt die Entwicklung mit +“ und dann wechseln die Vorzeichen sich ab. ” Entwickeln wir dagegen nach der zweiten Zeile oder Spalte, so beginnen die Vorzeichen mit −“ und wechseln sich dann ab. In der dritten Zeile oder Spalte starten wir dann ” wieder mit +“ und so weiter. Allgemein gehört zum Eintrag (i, j) der Determinan” te, also dem Eintrag in der i-ten Zeile und in der j-ten Spalte, die Determinante die 128 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 durch Entfernen der i-ten Zeile und der j-ten Spalte entsteht und mit dem Vorzeichen (−1)i+j versehen ist. Diese Vorzeichen beginnen links oben mit (−1)2 = 1 und breiten sich dann schachbrettartig aus + − + − .. . − + − + .. . + − + − .. . − + − + .. . ··· ··· ··· ··· ... Die Entwicklung nach Zeilen oder Spalten ist auch nicht auf 3 × 3 Determinanten beschränkt, sondern ist für jede natürlich Zahl n ∈ N möglich. Wir wollen als ein Beispiel einmal eine 4 × 4 Determinante nach der zweiten Zeile entwickeln: 1 −1 0 2 3 1 −1 0 = 0 2 5 −3 1 2 −1 1 1 −1 0 2 3 1 −1 0 − 3 · 0 2 5 −3 1 2 −1 1 +1· 1 −1 0 2 3 1 −1 0 − (−1) · 0 2 5 −3 1 2 −1 1 1 −1 0 2 3 1 −1 0 0 2 5 −3 1 2 −1 1 = (−3) · (−26) + 1 · (−8) + 1 · 7 = 77, wobei wir die haben und die −1 2 2 1 0 1 1 0 1 mit Null zu multiplizierende vierte Determinante gleich weggelassen Werte der verbleibenden drei 3 × 3 Determinanten 0 2 5 −3 2 5 + 2 5 −3 = − 2 −1 = −2 − 24 = −26, −1 1 −1 1 0 2 5 −3 0 5 + 2 5 −3 = 1 −1 = 2 − 10 = −8, −1 1 −1 1 −1 2 1 2 1 −1 + 3 = −2 + 9 = 7 2 −3 = 2 1 1 1 2 2 1 gleich eingesetzt haben. Man kann dieses Rechenverfahren durch Entwicklung nach einer Zeile oder Spalte natürlich auch mit den elementaren Zeilen- und Spaltenumformungen kombinieren. In unserem eben gerechneten Beispiel einer 4 × 4 Determinante können wir auch zunächst die erste Spalte zur zweiten Spalte addieren. Dann haben wir auf einmal zwei Nullen in der ersten Zeile, und bei der Entwicklung nach der ersten 129 Mathematik für Ingenieure I, WS 2008/2009 Zeile treten nur 1 −1 0 3 1 −1 0 2 5 1 2 −1 4 −1 0 2 5 −3 3 −1 1 noch zwei Summanden auf. 0 2 2 1 0 0 0 3 4 −1 = = 5 −3 −3 0 2 1 1 1 3 −1 3 4 −1 4 −1 − 2 0 2 2 5 = 11 1 3 −1 3 −1 4 = 11 Freitag 19.12.2008 3 4 3 −1 − 2 · 2 1 −1 − 5 1 3 −1 − 2 · (−4 − 25) = 19 + 59 = 77. 2 0 0 1 Die Entwicklung einer Determinante nach einer Zeile oder Spalte nennt man auch den Laplaceschen Entwicklungssatz, und um diesen, und später auch die Cramersche Regel für die Matrixinversion bequem formulieren zu können, führen wir noch eine kleine Definition ein. Definition 8.5: Sei A eine n × n Matrix. Sind 1 ≤ i, j ≤ n, so bezeichne Aij die (n − 1) × (n − 1) Matrix, die aus A durch Streichen der i-ten Zeile und der j-ten Spalte entsteht. Die Zahl b aij := (−1)i+j det Aji wird dann als (i, j)-ter Komplementärwert bezeichnet (das i und j hier vertauscht werden ist kein Schreibfehler, sondern tatsächlich so gemeint), und die n × n Matrix b a11 · · · b a1n . . b := A .. . . . .. b an1 · · · b ann heißt die Komplementärmatrix oder Adjunkte zu A. Für n = 2, 3 können wir die Komplementärmatrix noch direkt a b b d −b = , c d −c a a11 a12 a13 b a22 a33 − a23 a32 a13 a32 − a12 a33 a21 a22 a23 = a23 a31 − a21 a33 a11 a33 − a13 a31 a21 a32 − a22 a31 a12 a31 − a11 a32 a31 a32 a33 hinschreiben a12 a23 − a13 a22 a13 a21 − a11 a23 , a11 a22 − a12 a21 aber schon für n ≥ 4 sind die entstehenden Formeln zu gross. Ganz konkret ist beispielsweise die Komplementärmatrix zu 1 −1 2 8 5 −1 0 2 −3 gleich −3 −1 3 . 1 2 1 −2 −3 2 130 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 Der Laplacesche Entwicklungssatz nimmt mit diesen Bezeichnungen die folgende Form an: Satz 8.9 (Entwicklung nach Zeilen und Spalten) Sei A eine n × n Matrix. Dann gelten für jedes 1 ≤ i ≤ n die Gleichungen det A = n X (−1)i+1 aij det Aij (Entwicklung nach einer Zeile) j=1 und det A = n X (−1)i+j aji det Aji (Entwicklung nach einer Spalte). j=1 Da wir in dieser Sitzung schon genug bewiesen haben, wollen wir hier auf einen formalen Beweis verzichten. Die Grundidee ist aber einfach beschrieben. In der LeipnitzP Summe det(A) = π∈Sn (−1)π a1,π(1) ·. . .·an,π(n) fasse alle Terme zu π ∈ Sn mit π(i) = j zusammen. Dann wird det A = n X j=1 X π (−1) a · . . . a · a · . . . a aij · 1,π(1) i−1,π(i−1) i+1,π(i+1) n,π(n) π∈Sn π(i)=j und die Summe in eckigen Klammern stellt sich als (−1)i+j det Aij heraus, sie ist ja beinahe bereits eine Leipnitz-Summe. Eine der Folgerungen der Laplace-Entwicklung sind die sogenannten Cramerschen Regeln. Es gibt zwei derartige Regeln, eine für die Berechnung der Inversen einer n × n Matrix und eine für das Lösen regulärer linearer Gleichungssysteme. Die Cramersche Regel für die inverse Matrix wird sich dabei aus dem folgenden Satz über die komplementäre Matrix ergeben: Satz 8.10: Sei A eine n × n Matrix. Dann gilt det A ... b=A b·A = A·A = det(A) · En . det A Dies ist eine direkte Folge aus dem Entwicklungssatz Satz 9. Schreiben Sie sich einmal als eine Übung die Formel für die Matrixmultiplikation hin, und überlegen sich wie daraus der Satz folgt. Da wie gesagt schon genug bewiesen wurde, wollen wir dies hier nicht mehr direkt vorführen. Damit können wir nun die beiden Cramerschen Regeln einsehen. Satz 8.11 (Cramersche Regel für die Matrixinversion) Sei A eine n × n Matrix. Dann ist A genau dann invertierbar wenn det A 6= 0 ist, und in diesem Fall gilt 1 b A−1 = A. det A 131 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 Beweis: ”=⇒” Dies gilt nach Satz 8. ”⇐=” Dies ist klar nach Satz 10. Wegen 1 −1 2 1 2 0 2 −3 = 2 · 1 1 1 2 1 1 −1 = 2 · (−1) + 3 · 3 = 7 +3· 1 2 haben wir in unserem obigen Beispiel damit −1 1 −1 2 8 5 −1 1 0 2 −3 = −3 −1 3 . 7 1 2 1 −2 −3 2 Etwas trickreicher könnten wir auch den ersten Eintrag der ersten Zeile des Produkts b ausrechnen, und wir wissen dann nach Satz 10 das die so erhaltene Zahl die A·A Determinante von A ist. Kombinieren wir die Cramersche Regel für inverse Matrizen mit dem Lösungssatz §6.Satz 4 für reguläre lineare Gleichungssysteme, so ergibt sich die Cramersche Regel für lineare Gleichungssysteme: Satz 8.12 (Cramersche Regel für reguläre lineare Gleichungssysteme) Gegeben sei ein reguläres lineares Gleichungssystem a11 x1 + a12 x2 + · · · + a1n xn = b1 .. .. .. .. . . . . an1 x1 + an2 x2 + · · · + ann xn = bn , d.h. Ax = b mit einer invertierbaren Koeffizientenmatrix A. Für 1 ≤ i ≤ n sei Ai die n × n Matrix, die aus A durch Ersetzen der i-ten Spalte von A durch die rechte Seite b entsteht. Dann ist die Lösung von Ax = b durch det Ai xi = det A (1 ≤ i ≤ n) gegeben. Hierzu müssen wir uns nur daran erinnern, dass die Lösung von Ax = b nach §6.Satz 4 durch 1 b x = A−1 b = Ab det A b ist gleich gegeben ist. Der i-te Eintrag von Ab n X j=1 b aij bj = n X (−1)i+j bj det Aji , j=1 132 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 und letztere Summe ist nach dem Entwicklungssatz Satz 9 gerade gleich der Determinante det Ai . Als ein Beispiel zur Cramerschen Regel wollen wir einmal das lineare Gleichungssystem x − y + 2z = 1 2y − 3z = 0 x + 2y + z = −1 lösen. Die Koeffizientenmatrix A dieses linearen Gleichungssystem ist gerade die bereits oben als Beispiel verwendete Matrix 1 −1 2 2 −3 A= 0 1 2 1 von der wir bereits det A = 7 nachgerechnet haben. Die rechte Seite ist 1 b = 0 , −1 und dies müssen wir der Reihe nach als erste, zweite, dritte Spalte von A einsetzen, um die Lösung mit der Cramerschen Regel zu erhalten. Es ergibt sich damit die Lösung 1 −1 2 2 −3 −1 1 1 2 = − = 1 (8 + 1) = 9 , 0 2 −3 x = 2 1 2 −3 7 7 7 7 −1 2 1 1 1 2 1 1 3 1 = = −6, 0 0 −3 y = 1 −1 7 7 7 1 −1 1 1 −1 1 1 1 2 1 = = −4. 0 2 0 z = 7 1 −1 7 7 1 2 −1 Obwohl der Cramerschen Regeln sowohl für die inverse Matrix als auch für reguläre lineare Gleichungssysteme zunächst nach einer guten Rechenmethode aussehen, da sie eben so schön direkte und explizite Formeln sind, sind sie fürs praktische Rechnen meist eher ungeeignet. Es ist eine relativ große Zahl von Determinanten zu berechnen, und da ist es fast immer schneller unseren Gauß-Algorithmus sowohl zum Lösen linearer Gleichungssysteme als auch zur Berechnung der inversen Matrix heranzuziehen. Der einzige Fall in dem die Cramerschen Regeln manchmal brauchbar sind ist n = 3, aber selbst hier fährt man mit der Gaußschen Elimination fast immer besser. $Id: linabb.tex,v 1.6 2015/10/20 16:21:04 hk Exp $ 133 Mathematik für Ingenieure I, WS 2008/2009 §9 Freitag 19.12.2008 Lineare Abbildungen Lineare Abbildungen sind einer der, leider etwas abstrakten, Grundbegriffe der linearen Algebra und der Mathematik schlechthin. Die linearen Abbildungen sind eine Klasse besonders einfacher Abbildungen, die aber trotzdem noch allgemein genug sind, sich in einer Vielzahl von Situationen anwenden zu lassen. 9.1 Lineare Abbildungen Definition 9.1: Seien V, W zwei Vektorräume über K, wobei K bei uns wie immer für K = R oder K = C steht. Eine lineare Abbildung von V nach W ist dann eine Abbildung f : V → W mit den folgenden beiden Eigenschaften: (a) Für alle x, y ∈ V gilt f (x + y) = f (x) + f (y). (b) Für alle x ∈ V und jede Zahl c ∈ K gilt f (c · x) = c · f (x). Beispielsweise ist die Abbildung x f : R3 → R; y 7→ x − y + 2z z linear. In der Tat, sind x, y, z, x0 , y 0 , z 0 ∈ R, so haben wir x + x0 f y + y 0 = x + x0 − (y + y 0 ) + 2(z + z 0 ) = x − y − 2z + x0 − y 0 + 2z 0 z + z0 0 x x y y0 , =f +f z z0 und ist zusätzlich c ∈ R, so haben wir auch cx x f cy = cx − cy + 2cz = c · (x − y + 2z) = c · f y . cz z Eine solche Rechnung funktioniert natürlich immer wenn f : K n → K eine Summe von Termen der Form Konstante · Variable ist. Im Gegensatz zur üblichen Sprechweise bei Polynomen sind auch keine konstanten Terme erlaubt. Beispielsweise ist die Abbildung x g : R3 → R; y 7→ x − y + 2z + 1 z 134 Mathematik für Ingenieure I, WS 2008/2009 Freitag 19.12.2008 nicht linear. In der obigen Rechnung haben wir nämlich x + x0 g y + y 0 = x − y − 2z + x0 − y 0 + 2z 0 + 1 z + z0 aber 0 x x g y + g y 0 = x − y − 2z + x0 − y 0 + 2z 0 + 2. z z0 Ebenso ist eine Abbildung K n → K m linear, wenn in jeder ihrer Komponenten nur lineare Terme stehen, beispielsweise ist also die Abbildung x x+y 2 2 f :R →R ; 7→ y x−y linear. Für Abbildungen von Spaltenvektoren ist Linearität also ein sehr simples Konzept. Tatsächlich sollen lineare Abbildungen ja, wie bereits bemerkt, besonders einfache Abbildungen sein. Wir wollen auch noch ein Beispiel einer linearen Abbildung auf Funktionenräumen angeben. In §7 hatten wir den Vektorraum RR aller Abbildungen f : R → R eingeführt. Wir behaupten nun, daß die Teilmenge V := {f : R → R|f ist differenzierbar} ⊆ RR ein Teilraum dieses Vektorraums ist. Sind nämlich f, g ∈ V zwei differenzierbare Funktionen, so ist auch die Summe f + g differenzierbar mit Ableitung (f + g)0 = f 0 + g 0 . Ebenso ist für eine differenzierbare Abbildung f ∈ V und eine Zahl c ∈ R auch c · f differenzierbar mit (cf )0 = cf 0 . Dabei haben wir den Differenzierbarkeitsbegriff eigentlich noch gar nicht eingeführt, aber für dieses Beispiel reichen die Erinnerungen aus ihrer Schulzeit völlig aus. Damit ist V ein Teilraum von RR , und somit selbst ein Vektorraum. Jetzt ist das Ableiten selbst d : V → RR ; f 7→ f 0 dx eine lineare Abbildung, denn dies bedeutet ja gerade die Gültigkeit der beiden Formeln (f + g)0 = f 0 + g 0 und (cf )0 = cf 0 . In diesem Semester werden wir es allerdings nur mit linearen Abbildungen zwischen Teilräumen des K n zu tun haben. Lineare Abbildungen zwischen Funktionenräumen spielen dann später eine gewisse Rolle. Wir wollen nun das Bild einer linearen Abbildung einführen. Eigentlich haben wir das Bild einer allgemeinen Abbildung bereits in §3 eingeführt, aber wir wollen die Definition hier der Deutlichkeit halber wiederholen. Definition 9.2: Seien V, W zwei Vektorräume über K und f : V → W eine lineare Abbildung. Dann heißt die Menge Bild(f ) := {f (x)|x ∈ V } 135 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 das Bild von f . Es wird sich herausstellen, dass das Bild einer linearen Abbildung immer ein Teilraum ist. Zunächst wollen wir das Bild einer linearen Abbildung aber in einem Beispiel berechnen. Hierzu betrachten wir die lineare Abbildung x+y+z x f : R3 → R3 ; y 7→ 2y − z . x − y + 2z z Wann liegt ein Vektor v ∈ R3 im Bild Bild(f ) von f ? Schreiben wir b1 v = b2 , b3 so ist genau dann v ∈ Bild(f ), wenn es x, y, z ∈ R mit x x+y+z b1 b2 = f y = 2y − z b3 z x − y + 2z gibt, d.h. genau dann wenn das lineare Gleichungssystem x + y + z = b1 2y − z = b2 x − y + 2z = b3 eine Lösung hat. Um diese v ∈ R3 zu bestimmen, können wir wieder einmal das Gaußsche Eliminationsverfahren zum Einsatz bringen 1 1 1 b1 1 1 1 b1 1 1 1 b1 . 0 2 −1 b2 → 0 2 −1 b2 2 −1 b2 → 0 0 −2 1 b3 − b1 0 0 0 b2 + b3 − b1 1 −1 2 b3 Damit ist unser lineares Gleichungssystem genau dann lösbar wenn b2 + b3 − b1 = 0 beziehungsweise b1 = b2 + b3 gilt. Als Bild von f erhalten wir somit b1 t + s b2 b1 , b2 , b3 ∈ R, b1 = b2 + b3 = t Bild(f ) = t, s ∈ R . b3 s In der nächsten Sitzung werden wir einsehen das sich das Berechnen des Bildes einer linearen Abbildung auch als die Bestimmung des Aufspanns geeigneter Vektoren intepretieren läßt. 136 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 Vorlesung 18, Freitag 9.1.2009 Der folgende Satz gibt uns eine einfachere Möglichkeit das Bild einer linearen Abbildung auszurechnen. Satz 9.1: Seien V, W zwei Vektorräume und f : V → W eine lineare Abbildung. Dann ist das Bild Bild(f ) ein Teilraum von W . Ist weiter v1 , . . . , vn ein Erzeugendensystem von V , so ist f (v1 ), . . . , f (vn ) ein Erzeugendensystem des Bildes Bild(f ) von f . Dass das Bild dabei ein Teilraum ist, ist eine leichte Übung. Die Aussage über Erzeugendensysteme ist ebenfalls leicht einzusehen. Das die Vektoren v1 , . . . , vn ein Erzeugendensystem von V bilden, bedeutet ja das sich jeder Vektor v ∈ V als Linearkombination v = x1 v1 + · · · + xn vn schreiben läßt. Für die Bilder f (v) ergibt sich damit f (v) = f (x1 v1 + · · · + xn vn ) = f (x1 v1 ) + · · · + f (xn vn ) = x1 f (v1 ) + · · · + xn f (vn ). Dabei haben wir von der Tatsache Gebrauch gemacht, dass sich die Additivitätsbedingung f (x + y) = f (x) + f (y) an eine lineare Abbildung auch auf drei, vier und letztlich n Summanden überträgt. Jeder Bildvektor f (v) von f ist also eine Linearkombination der f (v1 ), . . . , f (vn ), und dies bedeutet definitionsgemäß, dass die Vektoren f (v1 ), . . . , f (vn ) ein Erzeugendensystem des Bildes Bild(f ) sind. Wenden wir dies einmal auf unser eben gerade (also vor den Ferien) gerechnetes Beispiel an. Als Erzeugendensystem des R3 verwenden wir dabei die kanonische Basis e1 , e2 , e3 des R3 . Unser Satz sagt uns dann, dass die drei Bildvektoren f (e1 ), f (e2 ), f (e3 ) das Bild von f erzeugen. Diese drei Vektoren berechnen sich als 1 1 0 1 0 1 f 0 = 0 , f 1 = 2 , f 0 = −1 , 0 1 0 −1 1 2 wir haben also * 1 1 1 + Bild(f ) = 0 , 2 , −1 . 1 −1 2 Zunächst mag dieses Ergebnis etwas verwunderlich sein, denn wir hatten ja bereits ausgerechnet, dass das Bild von f ein zweidimensionaler Teilraum des R3 ist, und nun haben wir auf einmal ein Erzeugendensystem aus drei Vektoren. Aber dies ist kein Problem, diese drei Vektoren sind eben keine Basis sondern nur ein Erzeugendensystem. 137 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 Tatsächlich läßt sich etwa der dritte unserer drei Vektoren als Linearkombination der ersten beiden schreiben 1 1 1 −1 = 3 0 − 1 2 2 2 2 1 −1 und damit sind bereits die beiden linear unabhängigen Vektoren f (e1 ), f (e2 ) ein Erzeugendensystem des Bildraums * 1 1 + Bild(f ) = 0 , 2 . −1 1 Nebem dem Bild spielt auch der sogenannte Kern einer linearen Abbildung eine wichtige Rolle. Wie sich herausstellen wird, mißt dieser sozusagen wie nicht-injektiv“ eine ” lineare Abbildung ist. Definition 9.3: Seien V, W zwei Vektorräume und f : V → W eine lineare Abbildung. Der Kern von f ist dann der Teilraum Kern(f ) := {v ∈ V |f (v) = 0} von V . Dass dies ein Teilraum von V ist, ist dabei leicht zu sehen. Rechnen wir einmal den Kern unserer Beispielabbildung f : R3 → R3 aus. Ein Vektor v = (x, y, z) ∈ R3 liegt definitionsgemäß genau dann im Kern von f wenn 0 x x+y+z 0 = f y = 2y − z 0 z x − y + 2z gilt, d.h. wenn (x, y, z) eine Lösung des homogenen linearen Gleichungssystems x + y + z = 0 2y − z = 0 x − y + 2z = 0 ist. Insbesondere können wir unsere bereits bei der Berechnung des Bildes durchgeführte Anwendung des Eliminationsverfahrens recyceln und erhalten das folgende äquivalente Gleichungssystem in Stufenform x + y + z = 0 2y − z = 0 also y = z/2 und x = −y − z = −(3/2)z. Damit ist der Kern von f eindimensional 3 − t 2 1 Kern(f ) = 2 t t ∈ R . t 138 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 Beachte insbesondere das sich die Dimensionen des Bildes und des Kernes von f gerade zur Dimension 2 + 1 = 3 des R3 addieren, wie werden gleich festhalten, dass dies kein Zufall ist. Aber zuvor wollen wir noch den Kern einer etwas komplizierteren linearen Abbildung berechnen. Wir hatten bereits eingesehen, dass die differenzierbaren Funktionen f : R → R einen Vektorraum V bilden, und das das Ableiten d : V → RR dx auf diesem eine lineare Abbildung definiert. Was ist nun der Kern des Ableitens? Eine differenzierbare Funktion f : R → R ist genau dann in diesem Kern, wenn f 0 = 0 ist, also wenn ihre Ableitung konstant Null ist. Dies bedeutet aber bekanntlich genau das die Funktion f konstant ist. Damit ist der Kern von d/dx genau der eindimensionale Vektorraum der konstanten reellen Funktionen auf R. Wie bereits bemerkt beschreibt der Kern einer linearen Abbildung in gewisser Weise wie nicht-injektiv“ diese ist. Sei nämlich eine lineare Abbildung f : V → W gegeben. ” Dass die Abbildung f injektiv ist, bedeutete gerade die Gültigkeit der Implikation f (x) = f (y) =⇒ x = y für alle x, y ∈ V . Sind aber nun x, y ∈ V zwei Vektoren in V , so können wir auch f (x) − f (y) = f (x) + (−1) · f (y) = f (x − y) schreiben, und somit wird f (x) = f (y) ⇐⇒ f (x − y) = 0 ⇐⇒ x − y ∈ Kern(f ). Injektiv bedeutet nun, dass aus f (x) = f (y), also aus x − y ∈ Kern(f ) stets x = y, also x − y = 0, folgt. Folglich haben wir damit die Äquivalenz f ist injektiv ⇐⇒ Kern(f ) = {0}. Je größer die Dimension des Kerns einer linearen Abbildung f ist, desto mehr Urbilder gibt es zu jedem Element des Bildes von f . Der folgende Satz zeigt, dass bei großem Kern das Bild klein ist und umgekehrt. Satz 9.2 (Dimensionsformel für lineare Abbildungen) Seien V, W zwei endlich erzeugte Vektorräume und f : V → W eine lineare Abbildung. Dann gilt die Dimensionsformel dim Kern(f ) + dim Bild(f ) = dim V. Wir wollen diesen Satz hier nicht beweisen, da dies einen etwas systematischeren Aufbau der Theorie erfordern würde. Alternativ können wir die Gleichung auch als 139 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 dim Kern(f ) = dim V − dim Bild(f ) schreiben, d.h. die lineare Abbildung f ist genau dann injektiv wenn dim Bild(f ) = dim V ist. Wie wir früher gesehen hatten, besteht für allgemeine Abbildungen zwischen Surjektivität und Injektivität kein Zusammenhang, es gibt surjektive aber nicht injektive, injektive aber nicht surjektive, weder injektive noch surjektive und sowohl surjektive als auch injektive Abbildungen. Für lineare Abbildungen stellt sich die Situation etwas anders dar, dort bestehen zwischen injektiv“ und surjektiv“ durchaus einige Zusam” ” menhänge. Dies wollen wir im speziellen Fall einer linearen Abbildung f : V → W zwischen endlich erzeugten Vektorräume V, W gleicher Dimension dim V = dim W einmal vorführen. Für unsere lineare Abbildung f : V → W bestehen nun die folgenden Äquivalenzumformungen f ist injektiv ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒ Kern(f ) = {0} dim Kern(f ) = 0 dim V − dim Bild(f ) = 0 dim Bild(f ) = dim V dim Bild(f ) = dim W Bild(f ) = W f ist surjektiv. Dieses wichtige Ergebnis wollen wir in einem Satz festhalten: Satz 9.3: Seien V, W zwei endlich erzeugte Vektorräume gleicher Dimension und f : V → W eine lineare Abbildung. Dann sind die folgenden Aussagen äquivalent: (a) Die Abbildung f ist injektiv. (b) Die Abbildung f ist surjektiv. (c) Die Abbildung f ist bijektiv. Dies betrifft insbesondere den besonders wichtigen Fall V = W . Für eine lineare Abbildung f : V → V eines endlich erzeugten Vektorraums V in sich selbst impliziert die eindeutige Lösbarkeit der Gleichung f (x) = 0 damit das überhaupt jede Gleichung f (x) = y mit y ∈ V eindeutig lösbar ist. Im Zusammenhang mit linearen Abbildungen sind noch einige Sprechweisen üblich, die wir in dieser Vorlesung zwar nur sehr sparsam bis gar nicht verwenden, die Ihnen aber trotzdem geläufig sein sollten da sie in der Literatur zur linearen Algebra sehr häufig verwendet werden. Definition 9.4: Sei f : V → W eine lineare Abbildung. (a) Ist V = W , so nennt man f auch einen Endomorphismus. (b) Die lineare Abbildung f heißt ein Monomorphismus wenn f injektiv ist. (c) Die lineare Abbildung f heißt ein Epimorphismus wenn f surjektiv ist. 140 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 (d) Die lineare Abbildung f heißt ein Isomorphismus wenn f bijektiv ist. 9.2 Matrixdarstellung linearer Abbildungen Wie sich in diesem Abschnitt herausstellen wird, besteht zwischen linearen Abbildungen einerseits und Matrizen andererseits ein sehr enger Zusammenhang. In gewissen Sinne werden sich diese beiden Konzepte als nahezu dasselbe herausstellen, und bei dieser Gelegenheit werden wir auch endlich den Grund für die in §6 etwas willkürlich definierte Multiplikation von Matrizen kennenlernen. Im folgenden betrachten wir zwei Vektorräume V mit Basis v1 , . . . , vn und W mit Basis w1 , . . . , wm . Weiter sei f : V → W eine lineare Abbildung. Kennen wir dann die Funktionswerte f (v1 ), . . . , f (vn ) der Basiselemente von V , so ist f bereits vollständig festgelegt. Denn einen beliebigen Vektor v ∈ V können wir als eine eindeutige Linearkombination v = x1 v1 + · · · + xn vn schreiben, und das Bild f (v) wird dann wie bereits oben gesehen zur entsprechenden Linearkombination f (v) = x1 f (v1 ) + · · · + xn f (vn ). Andererseits sind f (v1 ), . . . , f (vn ) Vektoren im Vektorraum W , können also bezüglich der Basis w1 , . . . , wm von W in eindeutiger Weise als Linearkombinationen geschrieben werden: f (v1 ) = a11 w1 + a21 w2 + · · · +am1 wm , f (v2 ) = a12 w1 + a22 w2 + · · · +am2 wm , .. .. .. .. . . . . f (vn ) = a1n w1 + a2n w2 + · · · +amn wm . Setzen wir diese Darstellungen in die Formel für das Bild f (v) ein, so erhalten wir " n # m n n m X X X X X aij xj · wi . f (v) = xj f (vj ) = xj aij wi = j=1 j=1 i=1 i=1 j=1 Damit legen die Zahlen aij die lineare Abbildung f fest, und wir bezeichnen die aus ihnen gebildete Matrix als die Matrix der linearen Abbildung f . Definition 9.5: Seien V, W zwei endlich erzeugte Vektorräume und f : V → W eine lineare Abbildung. Die Matrix von f bezüglich der Basen v1 , . . . , vn von V und w1 , . . . , wm von W ist die m × n Matrix A = (aij ), deren j-te Spalte gerade Pmaus den Koordinaten von f (vj ) bezüglich der Basis w1 , . . . , wm besteht, also f (vj ) = i=1 aij wi für 1 ≤ j ≤ n. In der eben verwendeten Notation ist also a11 · · · a1n .. . A = ... . am1 · · · amn 141 Mathematik für Ingenieure I, WS 2008/2009 Freitag 9.1.2009 Sind dabei die auf V und W verwendeten Basen im gegebenen Kontext festgelegt, so spricht man etwas ungenau auch einfach von der Matrix der linearen Abbildung, ohne die beiden Basen noch einmal zu erwähnen. Unsere Rechnung zeigt uns aber nicht nur die Tatsache, dass f durch die Zahlen aij festgelegt ist, sondern die Art dieser Festlegung wird auch genau angegeben. Schauen wir uns einmal den Koeffizienten vor dem wi an ai1 · x1 + a i2 · x2 n X + aij xj = ai1 x1 + · · · + ain xn = .. j=1 . + ain · vn . In dieser Formel wird die i-te Zeile (ai1 , . . . , ain ) der Matrix A gedreht und der Spalte (x1 , . . . , xn ) gegenübergestellt. Dann werden gegenüberliegende Zahlen miteinander multipliziert, und alle diese Produkte werden addiert. Dies ist aber auch genau die Vorgehensweise bei der Multiplikation derPm × n Matrix A mit der Spaltenvektor (x1 , . . . , xn ). Anders gesagt ist die Summe nj=1 aij xj gerade der i-te Eintrag des Spaltenvektors A · x. Hat also der Vektor v ∈ V bezüglich der Basis v1 , . . . , vn die Koordinaten x = (x1 , . . . , xn ), so hat der Bildvektor f (v) bezüglich der Basis w1 , . . . , wm von W die Koordinaten Ax. In Koordinaten ist die Abbildung f also die Multiplikation der Matrix A mit dem Koordinatenvektor x. Verwenden wir weiter die in §7 eingeführten Koordinatenabbildungen Ψv (x) = x1 v1 + · · · + xn vn (x ∈ K n ), Ψw (y) = y1 w1 + · · · + ym wm (y ∈ K m ), so gilt für jeden Koordinatenvektor x ∈ K n die Gleichung f (Ψv (x)) = Ψw (Ax). Wir wollen jetzt als ein Beispiel die Matrix der bereits behandelten linearen Abbildung x x+y+z f : R3 → R3 ; y 7→ 2y − z x − y + 2z z bezüglich der kanonischen Basis e1 , e2 , e3 des R3 bestimmen. In den obigen Bezeichnungen haben wir also V = W = R3 , v1 = w1 = e1 , v2 = w2 = e2 , v3 = w3 = e3 . Wie bereits bemerkt ist die Methode zur Bestimmung der Matrix einer linearen Abbildung beschrieben als die Spalten der Matrix sind die Koeffizienten der Bilder der ” 142 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 Basisvektoren von V “. Hier müssen wir also die Bilder der drei kanonischen Einheitsvektoren e1 , e2 , e3 berechnen, und diese als Linearkombinationen wieder in e1 , e2 , e3 schreiben 1 0 1 1 f (e1 ) = f 0 = 0 = e1 + e3 , f (e2 ) = f 1 = 2 = e1 + 2e2 − e3 , −1 0 1 0 1 0 f (e3 ) = f 0 = −1 = e1 − e2 + 2e3 . 2 1 Die Matrix A von f erhalten wir nun indem wir die gerade berechneten Koeffizienten als die Spalten einer 3 × 3 Matrix zusammenfassen 1 1 1 2 −1 . A= 0 1 −1 2 Dieses Ergebnis hätten wir auch gleich an der Formel für f sehen können. Die erste Spalte der Matrix A besteht gerade aus den Koeffizienten vor der Variablen x, die zweite aus denen vor y und die dritte aus denen vor z. Bezüglich der kanonischen Basen ist dies immer der Fall, schreiben wir f : K n → K m als Summe von Termen der Form Koeffizient · Variable, so ist die Matrix von f bezüglich der kanonischen Basen gerade so etwas wie die Koeffizientenmatrix eines linearen Gleichungssystems. Vorlesung 19, Dienstag 13.1.2009 Wir setzen unser Beispiel x x+y+z f : R3 → R3 ; y → 7 2y − z z x − y + 2z nun noch etwas fort, und wollen überlegen wie sich die Matrix dieser linearen Abbildung beim Übergang zu anderen Basen ändert. Wir hatten ja beispielsweise ausgerechnet, dass das Bild unserer linearen Abbildung f : R3 → R3 gerade der Teilraum t + s t W := t, s ∈ R s des R3 ist, und wir können f auch als lineare Abbildung f : R3 → W auffassen. Für den zweidimensionalen Vektorraum W haben wir die Basis 1 1 w1 := 1 , w2 := 0 0 1 143 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 und bezüglich dieser Basis sind die Bilder der kanonischen Einheitsvektoren des R3 1 0 = w2 , f (e1 ) = 1 1 f (e2 ) = 2 = 2w1 − w2 , −1 1 f (e3 ) = −1 = −w1 + 2w2 . 2 Die Matrix einer linearen Abbildung bezüglich gegebener ergab sich mit dem bereits mehrfach beschriebenen Rechschema Die Spalten der Matrix von f sind die Koeffi” zienten der Bilder der Basisvektoren des linken Vektorraums bezüglich der Basis des rechten Vektorraums“. Als Matrix von f : R3 → W bezüglich der kanonischen Basis des R3 und der Basis w1 , w2 von W ergibt sich also diesmal die 2 × 3 Matrix 0 2 −1 A= . 1 −1 2 Beachte hier, dass sich die Anzahl der Zeilen der Matrix hier von 3 auf 2 verringert hat, dies liegt eben daran das wir f hier nicht als Abbildung in den dreidimensionalen R3 sondern als Abbildung in den zweidimensionalen Vektorraum W betrachten. Nun kehren wir wieder zur Originalabbildung f : R3 → R3 zurück. Auch bei Änderung der Basis des linken Vektorraums V verändert sich die Matrix der linearen Abbildung f . Auf dem R3 haben wir beispielsweise die Basis 1 −1 0 v1 := −1 , v2 := −1 , v3 := 3 . 0 1 −1 Wegen 1 0 −1 −1 f (v1 ) = f −1 = −2 , f (v2 ) = f −1 = −3 , 2 1 2 0 0 2 f (v3 ) = f 3 = 7 , −1 −5 ist die Matrix von f : R3 → R3 bezüglich der Basen v1 , v2 , v3 und e1 , e2 , e3 des R3 gleich 0 −1 2 7 . A = −2 −3 2 2 −5 144 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 Beachte es zwischen dieser Matrix und der Matrix von f bezüglich der kanonischen Basis auf beiden Seiten keinen direkt ersichtlichen Zusammenhang gibt. Es gibt aber trotzdem eine oftmals nützliche Formel, die die Änderung der Matrix einer linearen Abbildung beim Übergang zu anderen Basen beschreibt. Durch die relativ große Anzahl beteiligter Objekte ist die Herleitung dieser Formel leider zunächst etwas unübersichtlich. Für praktische Zwecke ist das zum Glück nicht weiter tragisch, da man die herzuleitende Formel auch ohne Kenntnis ihrer Herleitung gut verwenden kann. Wir wollen die folgende allgemeinen Situation betrachten: Gegeben sei eine lineare Abbildung f : V → W zwischen zwei endlichdimensionalen Vektorräumen V, W über K. Weiter seien zwei Basen v1 , . . . , vn und v10 , . . . , vn0 von V sowie zwei Basen w1 , . . . , wm 0 und w10 , . . . , wm von W gegeben. Zur linearen Abbildung f gehören dann zwei m × n Matrizen, einmal die Matrix A von f bezüglich der Basen v1 , . . . , vn und w1 , . . . , wm 0 und zum anderen die Matrix A0 von f bezüglich der Basen v10 , . . . , vn0 und w10 , . . . , wm . In Termen unserer Koordinatenabbildungen gelten dann f (Ψv (x)) = Ψw (Ax), f (Ψv0 (x)) = Ψw0 (A0 x) für alle x ∈ K n . Der Zusammenhang zwischen A und A0 wird über die in §7 eingeführten Transformationsmatrizen hergestellt. Es bezeichne S die Transformationsmatrix von der Basis v1 , . . . , vn zur Basis v10 , . . . , vn0 von V und T die Transformationsmatrix von 0 der Basis w1 , . . . , wm zur Basis w10 , . . . , wm von W . Die definierende Eigenschaft dieser Transformationsmatrizen sind dabei die Formeln Ψv (x) = Ψv0 (Sx) (x ∈ K n ), Ψw (x) = Ψw0 (T x) (x ∈ K m ), d.h. die Matrix S übersetzt Koordinaten bezüglich v1 , . . . , vn in Koordinaten bezüglich v10 , . . . , vn0 , und analog für T . Für jeden Vektor x ∈ K n haben wir dann Ψw0 (A0 x) = f (Ψv0 (x)) = f (Ψv (S −1 x)) = Ψw (AS −1 x) = Ψw0 (T AS −1 x) und dies bedeutet gerade A0 = T AS −1 . Damit haben wir den folgenden Satz bewiesen: Satz 9.4 (Transformationsverhalten von Matrizen) Seien V, W zwei endlichdimensionale Vektorräume über K und f : V → W eine lineare Abbildung. Weiter seien v1 , . . . , vn und v10 , . . . , vn0 zwei Basen von V sowie w1 , . . . , wm 0 und w10 , . . . , wm zwei Basen von W . Sind dann A die Matrix von f bezüglich der Basen v1 , . . . , vn von V und w1 , . . . , wm von W , S die Transformationsmatrix von der Basis v1 , . . . , vn von V zur Basis v10 , . . . , vn0 und T die Transformationsmatrix von der Basis 0 w1 , . . . , wm von W zur Basis w10 , . . . , wm , so ist T AS −1 die Matrix von f bezüglich der 0 Basen v10 , . . . , vn0 und w10 , . . . , wm . Wir wollen dies einmal an unserem obigen Beispiel überprüfen. Wir haben e2 = v1 + v2 + v3 , e1 = v1 + e2 = 2v1 + v2 + v3 , e3 = 3e2 − v3 = 3v1 + 3v2 + 2v3 145 Mathematik für Ingenieure I, WS 2008/2009 und die Transformationsmatrix von der Basis damit gleich 2 1 S= 1 1 1 1 Dienstag 13.1.2009 e1 , e2 , e3 des R3 zur Basis v1 , v2 , v3 ist 3 3 . 2 Die Inverse von S ist die Transformationsmatrix in die andere Richtung, also 1 −1 0 3 . S −1 = −1 −1 0 1 −1 Ist A wieder die Matrix von f bezüglich der kanonischen Basis des R3 auf beiden Seiten, so sagt unser Satz, dass AS −1 die Matrix von f bezüglich der Basen v1 , v2 , v3 und e1 , e2 , e3 ist. Dies können wir leicht verifizieren 1 1 1 1 −1 0 0 −1 2 2 −1 · −1 −1 3 = −2 −3 7 , AS −1 = 0 1 −1 2 0 1 −1 2 2 −5 und wir erhalten tatsächlich die bereits oben berechnete Matrix. Unser Satz liefert uns hier also wirklich das korrekte Ergebnis. Wir wollen nun auch noch die Matrix von f bezüglich der Basis v1 , v2 , v3 auf beiden Seiten bestimmen. Wieder nach dem Satz ist diese gleich 2 1 3 0 −1 2 −4 1 −4 7 = 4 2 −6 . SAS −1 = 1 1 3 · −2 −3 1 1 2 2 2 −5 2 0 −1 Für lineare Abbildungen f : V → V eines Vektorraums in sich selbst, betrachtet man natürlich in den allermeisten Fällen auf beiden Seite dieselbe Basis von V . Gehen wir dann von einer Basis v1 , . . . , vn durch eine Transformationsmatrix S zu einer anderen Basis v10 , . . . , vn0 von V über, so haben wir in der Situation des Satzes auf beiden Seiten denselben Basiswechsel vorliegen, und unsere Formel wird zu A0 = SAS −1 . Die Transformationsmatrizen selbst stellen sich nun auch als spezielle Beispiele von Matrizen zu linearen Abbildungen heraus. Vergleichen wir einmal die Rechenverfahren zur Bestimmung von Transformationsmatrizen beziehungsweise von Matrizen linearer Abbildungen. Die Transformationsmatrix ergab sich durch das Schema: Die ” Spalten der Transformationsmatrix sind die Koeffizienten der Vektoren der ursprünglichen Basis bezüglich der neuen Basis“, während die Matrix einer linearen Abbildung durch Die Spalten der Matrix sind die Koeffizienten der Bilder der Basiselemente des ” linken Vektorraums bezüglich der Basis des rechten Vektorraums“. In beiden Rechnungen wird beidesmal fast dasselbe gemacht, bei der Transformationsmatrix werden nur keine Bilder berechnet. Aber wir können etwas künstlich ein Berechnen von Bil” dern“ hier hereininterpretieren, es werden halt Bilder bezüglich der linearen Abbildung x 7→ x betrachtet. Damit sehen wir dann, dass die Transformationsmatrix von der 146 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 Basis v1 , . . . , vn von V zur Basis v10 , . . . , vn0 von V dasselbe wir die Matrix der linearen Abbildung f : V → V ; x 7→ x bezüglich der Basen v1 , . . . , vn und v10 , . . . , vn0 ist. Zum Abschluß dieses Abschnitts wollen wir noch, wie bereits angekündigt, die Begründung der Matrixmultiplikation liefern. Wir betrachten drei Vektorräume U, V, W über K sowie zwei lineare Abbildungen f : U → V , g : V → W . Es ist eine leichte Übung einzusehen, dass auch die Hintereinanderausführung g ◦ f : U → W linear ist. Seien nun u1 , . . . , ur eine Basis von U , v1 , . . . , vn eine Basis von V und w1 , . . . , wm eine Basis von W . Bezüglich dieser Basen haben wir eine Matrix A von f und eine Matrix B von g. Für jeden Spaltenvektor x ∈ K r gilt nun (g ◦ f )(Ψu (x)) = g(f (Ψu (x))) = g(Ψv (Ax)) = Ψw (BAx), d.h. die Matrix von g ◦ f bezüglich unserer Basen ist gerade das Matrizenprodukt BA. Damit entspricht die Multiplikation von Matrizen der Hintereinanderausführung linearer Abbildungen. Dies ist natürlich kein Zufall, die Multiplikation von Matrizen wurde von vornherein so definiert, dass die Hintereinanderausführung linearer Abbildungen der Multiplikation von Matrizen entspricht. Diese Tatsache hat einige wichtige Konsequenzen, von denen wir hier nur eine besonderns nützliche festhalten wollen. Zunächst folgt, dass eine lineare Abbildung f : V → V genau dann bijektiv ist, also eine Umkehrabbildung f −1 : V → V hat, wenn ihre Matrix A invertierbar ist, und die inverse Matrix A−1 ist dann die Matrix der Umkehrabbildung f −1 . Weiter übersetzt sich der Satz Satz 3 in die folgende Tatsache: Gegeben seien zwei n × n Matrizen A, B über K. Es gelte AB = En oder auch BA = En . Dann ist schon AB = BA = En , d.h. die Matrix A ist invertierbar mit A−1 = B. Zum Überprüfen der Invertierbarkeit einer Matrix A reicht es also bereits eine der beiden Gleichungen AB = En oder BA = En zu testen, die andere Gleichung folgt dann automatisch. Gilt etwa BA = En , so folgt für zugehörige lineare Abbildungen f, g : V → V die Gleichung g ◦f = idV , also g(f (x)) = x für alle x ∈ V . Damit ist f aber injektiv, denn sind x, y ∈ V mit f (x) = f (y), so folgt durch Anwenden von g auch x = g(f (x)) = g(f (y)) = y. Nach Satz 3 ist f also sogar bijektiv und A ist invertierbar. Für AB = En argumentiert man ähnlich mit Surjektivität statt Injektivität. 9.3 Der Rang einer Matrix In diesem abschließenden Abschnitt wollen wir noch den Rang einer Matrix einführen. Wir werden hier nur die Definition und mehr oder weniger kommentarlos einige Eigenschaften des Ranges angeben. In diesem Kapitel wurde schließlich wahrlich schon genug bewiesen. Definition 9.6: Der Rang einer m × n Matrix A ist die maximale Anzahl linear unabhängiger Spalten von A erzeugten. Wir schreiben dann auch rang A für den Rang einer Matrix A. Die Grundeigenschaften des Ranges sind nun die folgenden Tatsachen, die wir hier wie schon bemerkt nicht mehr beweisen wollen: 147 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 (a) Ist f : V → W eine lineare Abbildung und ist A eine Matrix von f bezüglich irgendwelcher Basen von V und W , so ist dim Bild(f ) = rang A. (b) Der Rang einer Matrix ändert sich nicht bei elementaren Zeilen- und Spaltenumformungen. (c) Entstehen bei Anwendung des Gaußschen Eliminationsverfahrens auf eine m × n Matrix A genau r von Null verschiedene Zeilen, so ist r = rang A. Diese letzte Eigenschaft zeigt uns, dass wir den Rang in Wahrheit schon die ganze Zeit kennen, wir haben ihm nur bisher keinen Namen gegeben. Insbesondere können wir den Rang einer Matrix leicht berechnen, wir müssen wieder nur das Gaußsche Eliminationsverfahren laufen lassen, und schauen wieviele von Null verschiedene Zeilen in der Stufenform überbleiben. Da wir Beispiele dieser Rechnungen schon reichlich gesehen haben, wird hier auf ein konkretes Beispiel zur Rangberechnung verzichtet. Der Rangbegriff erlaubt es uns auch alle unsere bisherigen Ergebnisse über lineare Gleichungssysteme in einem sehr übersichtlichen Satz zusammenzufassen. Um diesen Satz auszusprechen benötigen wir noch den Begriff eines affinen Teilraums eines Vektorraums. Dies sind einfach um einen konstanten Vektor verschobe Teilräume. Beispielsweise sind die eindimensionalen Teilräume eines Vektorraums, etwa des R3 , gerade die durch Null gehenden Geraden in diesem Vektorraum und die eindimensionalen affinen Teilräume sind dann sämtliche Geraden im Vektorraum. Definition 9.7: Sei V ein Vektorraum. Ein affiner Teilraum von V ist eine Teilmenge der Form A = U + v wobei U ein Teilraum von V ist und v ∈ V ein Vektor aus V ist. Die Dimension des affinen Teilraums A ist dann als die Dimension dim U des Teilraums U definiert. Beispielsweise sind die nicht-leeren Lösungsmengen eines linearen Gleichungssystems immer affine Teilräume des K n , dies ist im Wesentlichen gerade die Aussage des Satzes §6.Satz 2.(b). Satz 9.5 (Hauptsatz über lineare Gleichungssysteme) Sei Ax = b ein lineares Gleichungssystem aus m Gleichungen in n Unbekannten. Dann ist das lineare Gleichungssystem genau dann lösbar wenn der Rang der Koeffizientenmatrix A gleich dem Rang der erweiterten Koeffizientenmatrix (A|b) ist r := rang A = rang(A|b). In diesem Fall ist die Lösungsmenge des linearen Gleichungssystems ein (n − r)dimensionaler affiner Teilraum des K n . Dieser Satz ist wie bereits gesagt eigentlich nur eine Zusammenfassung unserer bisherigen Ergebnisse über lineare Gleichungssysteme. Lösen wir das lineare Gleichungssystem indem wir es über das Gaußsche Eliminationsverfahren in Stufenform bringen, so haben wir bereits bemerkt, dass der Rang r von A gerade die Anzahl von Null verschiedenen Zeilen im System in Stufenform ist. Die Gleichung ist dann genau dann lösbar wenn 148 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 die unteren n − r Einträge der rechten Seite dann gleich Null sind, und dies bedeutet gerade, dass Hinzufügen der rechten Seite zu A den Rang nicht mehr ändert. Weiter legt jede der r Zeilen ungleich Null eine der Unbekannten fest, d.h. es verbleiben n − r frei wählbare Variablen. $Id: anageo.tex,v 1.3 2009/01/18 21:24:38 hk Exp $ §10 Analytische Geometrie Unter analytischer Geometrie versteht man die Behandlung geometrischer Probleme durch Beschreibung der geometrischen Objekte mittels Koordinaten. Im engeren Sinne meinen wir hier damit die Beschreibung der geometrischen Gebilde durch Vektoren im Rn . Dabei sind hauptsächlich die beiden kleinen Dimensionen n = 2 und n = 3 von Interesse, aber viele der hier vorgestellten Methoden funktionieren völlig unabhängig von der Dimension. Der Gegensatz zu analytischer Geometrie ist die sogenannte synthetische Geometrie, die eben ohne Koordinaten auskommt. Diese haben Sie bereits in der Schule kennengelernt, beispielsweise sind all die trickreichen Beweise geometrischer Eigenschaften, die nur mit Längen, Winkeln und so weiter arbeiten Beispiele synthetischer Geometrie. 10.1 Das Skalarprodukt Das Skalarprodukt zweier Vektoren im Rn , wobei Sie sich wie bereits bemerkt stets n = 2 oder n = 3 vorstellen können, auch wenn dies keine Rolle spielt, ist eine Zahl, eben ein Skalar. Eine Methode zur Definition des Skalarprodukts ist die Beschreibung u · v = Länge von u · Länge von v · Cosinus des eingeschlossenen Winkels, allerdings ist dies als Definition etwas unhandlich. Wir werden das Skalarprodukt auf eine einfachere, wenn auch etwas weniger anschauliche, Art definieren und uns dann klarmachen das es die oben erwähnte geometrische Interpretation hat. Definition 10.1: Sind u, v ∈ Rn zwei Spaltenvektoren, so heißt die Zahl u · v := u1 · v1 + · · · + un · vn das Skalarprodukt von u und v. Beispielsweise ist −1 1 1 · −2 = −1 − 2 + 3 = 0. 3 1 149 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 Die Länge eines Spaltenvektors u ∈ Rn definieren wir als die Zahl |u| := √ u · u. Neben der hier verwendeten Multiplikationsschreibweise für das Skalarprodukt sind noch viele andere alternative Schreibweisen üblich, beispielsweise u · v = hu|vi = hu, vi = (u|v) = (u, v). √ Die Bezeichnung Länge von u“ für |u| = u · u bedarf natürlich noch einer Be” gründung. Diese wollen wir hier für n = 2 vorführen, der allgemeine Fall folgt hieraus, da jeder Vektor im Rn in einem zweidimensionalen Teilraum, also in einem R2 liegt. Dies ist zumindest für n ≥ 2 so, aber für n = 1 ist sowieso nichts zu zeigen. Betrachte nun einen Vektor u x 2 u= ∈R . y l y Dann betrachten wir das nebenstehende rechtwinklige Dreiecke. Die Komponenten x, y, beziehungsweise eigentlich ihre Beträge, sind dann die beiden Kathetenlängen im diesem Dreieck. Nach dem Satz von Pythagoras addie0 x ren sich ihre Quadrate damit zum Quadrat l2 der Länge der Hypotenuse des Dreiecks. Aber diese wird gerade vom p Vektor u gebildet, ihre Länge ist also gerade die Länge des Vektors u, d.h. l = x2 + y 2 . p √ Andererseits ist aber auch u · u = x2 + y 2 , d.h. u · u = x2 + y 2 ist tatsächlich die Länge von u. Wie bereits angekündigt wollen wir die eingangs beschriebene geometrische Interpretation des Skalarprodukts herleiten. Hierzu ist es sehr nützlich zunächst zu zeigen, daß genau dann u · v = 0 ist wenn die beiden Vektoren u und v senkrecht aufeinander stehen. Auch dies wollen wir wieder im ebenen Fall n = 2 nachweisen, da auch je zwei Vektoren in einer Ebene liegen folgt hieraus wieder der allgemeine Fall. Gegeben seien also zwei Vektoren 0 x x u= ,v= , y y0 deren Skalarprodukt sich als u · v = xx0 + yy 0 ergibt. Wir können uns auf den Fall u 6= 0 beschränken. Dass u und v senkrecht aufeinander stehen, bedeutet das v ein Vielfaches des um π/2 (also 90◦ ) gedrehten Vektors u. Erinnern wir uns an die Matrix einer Drehung um den Winkel φ cos φ − sin φ A(φ) = sin φ cos φ 150 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 13.1.2009 aus §7, so wird die Matrix unserer Drehung um π/2 wegen cos(π/2) = 0, sin(π/2) = 1 zu 0 −1 A= . 1 0 Der gedrehte Vektor ist also A·u= 0 −1 1 0 x −y · = . y x Dass u und v senkrecht aufeinander stehen bedeutet nun also das v ein Vielfaches dieses Vektors ist, also x0 = −cy, y 0 = cx für eine reelle Zahl c, und damit xx0 + yy 0 = 0. Die Rückrichtung folgt dann ebenso. Damit haben wir das Senkrechtstehen durch die Bedingung u · v = 0 beschrieben. Diese kleine geometrische Tatsache läßt sich nun leicht zur geometrischen Beschreibung des allgemeinen Skalarprodukts erweitern. Wieder können wir uns auf den ebenen Fall n = 2 beschränken. Gegeben seien also wieder zwei Vektoren u und v im R2 v w u p 0 Wir betrachten dann den von u und v eingeschlossenen Winkel φ. Weiter fällen wir das Lot von v auf die Gerade durch 0 und u. Der Lotfußpunkt werde mit p bezeichnet, und den Vektor von p nach v nennen wir w, d.h. es ist v = p + w wobei u und w senkrecht aufeinander stehen. Wie bereits gezeigt ist damit u · w = 0. Weiter ist p ein Vielfaches von u, wir können also p = λu mit einer reellen Zahl λ ∈ R schreiben. Im obigen Bild ist der Winkel φ kleiner als π/2, und damit liegt p auf derselben Seite wie u und wir haben λ ≥ 0. Ist φ größer als π/2, so liegt p links von 0 und es wird λ < 0, aber diesen Fall wollen wir nicht gesondert ausführen da er zu keinem anderen Ergebnis führt. Damit ist v = p + w = λu + w und wir rechnen u · v = u · (λu + w) = λ u · u + u · w = λ|u|2 . Dabei haben wir die aus der Definition des Skalarprodukts offensichtlichen Formeln x · (y + z) = x · y + x · z, x · (λy) = λ x · y verwendet. Um nun den Winkel φ in Geschäft 151 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 zu bringen betrachten wir noch das von 0, p und v gebildete rechtwinklige Dreieck. Die Ankathete bezüglich des Winkels φ hat in diesem Dreieck die Länge |p| = λ|u|, und die Hypotenuse wird vom Vektor v gebildet, hat also die Länge |v|. Also ist cos φ = λ|u|/|v|. Damit rechnen wir nun |u| · |v| · cos φ = |u| · |v| · λ|u| = λ|u|2 = u · v. |v| Vorlesung 20, Freitag 16.1.2009 v w u p 0 Wir wollen noch eine weiteres Ergebnis der eben durchgeführten Überlegung festhalten. Den eben verwendeten Lotfußpunkt p nennt man auch die Projektion des Vektors v in Richtung von u, oder auf u. Unsere obige Formel besagt dann p = λu = u·v |u · v| · u, |p| = |λ| · |u| = . 2 |u| |u| Insbesondere ist damit p·u= u·v · (u · u) = u · v. |u|2 Diese Beobachtungen bilden auch die Grundlage für die Bedeutung des Skalarprodukts in der Mechanik. Dort treten Vektoren zumeist bei der Beschreibung wirkender Kräfte auf. Denken wir uns, dass der Vektor eine Kraft beschreibt, so interessiert man sich hier für den in Richtung von u wirkenden Teil der Kraft. Um diesen zu ermitteln zerlegt man v in einen zu u parallelen und einen zu u senkrechten Teil, und dies ist gerade unsere oben verwendet Zerlegung v = p + w. Der in Richtung u wirkende Teil der Kraft ist dann also p = λu = ((u · v)/|u|2 )u. In der Regel wird die Richtung dann durch einen 152 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 Einheitsvektor beschrieben, d.h. wir haben |u| = 1 und somit p = (u · v)u. Der Betrag der in Richtung u wirkenden Kraft ist dann |p| = |u · v|. In §8 hatten wir bemerkt, dass die Determinante, beziehungsweise ihr Betrag, das Volumen des von den Spalten der Determinante aufgespannten Parallelepipeds angibt. An dieser Stellen wollen wir dies für den ebenen Fall n = 2 auch einmal nachweisen. Hierzu betrachten wir die Fläche F des durch u und v gegebenen Parallelogramms: v w u p 0 so haben wir F = |u| · |w|, da wir etwa das rechts abgetrennte Teildreieck links wieder anhängen können und ein Rechteck mit den Seitenlängen |u| und |v| erhalten. Betrachten wir erneut unser rechtwinkliges Dreieck von oben, so können wir aus diesem die Länge |w| als |w| = |v| sin φ gewinnen, und somit wird die Fläche des von u und v aufgespannten Parallelogramms zu F = |u| · |w| = |u| · |v| · sin φ. Dabei betrachten wir hier den Fall, dass u und v sich wie im obigen Bild verhalten, der Punkt v also oberhalb von u liegt und der Winkel φ von u nach v kleiner als π ist, denn dann ist sin φ > 0. Quadrieren wir die Gleichung, so wird F 2 = (|u| · |w|)2 = |u|2 |v|2 sin2 φ = |u|2 |v|2 (1 − cos2 φ) = |u|2 |v|2 − (u · v)2 . Setzen wir hier u = (u1 , u2 ), v = (v1 , v2 ) ein, so wird dieser Ausdruck zu F 2 = (u21 + u22 ) · (v12 + v22 ) − (u1 v1 + u2 v2 )2 = u21 v12 + u21 v22 + u22 v12 + u22 v22 − u21 v12 − u22 v22 − 2u1 u2 v1 v2 2 u v 1 1 , = u21 v22 + u22 v12 − 2u1 u2 v1 v2 = (u1 v2 − u2 v1 )2 = u2 v 2 d.h. es ist tatsächlich F = | det(u, v)|. Auch das Vorzeichen der Determinante det(u, v) hat eine geometrische Bedeutung. Um diese zu sehen betrachten wir die beiden möglichen Konstellationen von u und v 153 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 v 0 u 0 Positive Basis, det(u,v) > 0 u Negative Basis, det(u,v) < 0 v Wir drehen den Vektor u, beziehungsweise genauer die von ihm erzeugte Halbgerade, gegen den Uhrzeigersinn zum Vektor v. Im linken Bild ist der dabei auftretende Drehwinken φ kleiner als π, und wir nennen die Basis u, v positiv. Im rechten Bild ist der Winkel φ größer als π und wir haben eine negative Basis. Welcher der beiden Fälle vorliegt läßt sich an der Determinante det(u, v) ablesen, ist diese positiv, so ist die Basis positiv, und ist sie negativ, so ist die Basis negativ. 10.2 Die Hessesche Normalform Die Hessesche Normalform ist eine Beschreibung von Geraden in der Ebene und von Ebenen im Raum, und allgemeiner von (n−1)-dimensionalen affinen Teilräumen im Rn . Der Vollständigkeit halber wollen wir diese Begriffe erst einmal in Vektorraumsprache einführen: Definition 10.2: Eine Gerade im Rn ist ein eindimensionaler affiner Teilraum des Rn , und eine Ebene im Rn ist ein zweidimensionaler affiner Teilraum des Rn . Eine Hyperebene im Rn ist ein (n − 1)-dimensionaler affiner Teilraum des Rn . Starten wir einmal mit Geraden im Rn . Diese sind eindimensionale affine Teilräume, haben also die Form {v + tu|t ∈ R} (Parameterform oder Aufpunkt-Richtung Form). Dabei ist der Aufpunkt v irgendein Punkt der Geraden, ist also keinesfalls eindeutig. Auch der Richtungsvektor u ist nicht eindeutig festgelegt, mit u funktioniert auch jedes Vielfache von u, natürlich mit Ausnahme des Nullvektors. Nehmen wir als ein Beispiel einmal die Gerade 154 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 y y=x−1 o p x q gegeben als y = x − 1. Als Aufpunkt können wir dann irgendeinen Punkt, etwa den eingezeichneten Punkt p nehmen. Als Richtung können wir dann beispielsweise den Vektor von q nach p, also u = p − q benutzen, also haben wir als (eine) AufpunktRichtung Form 1 1 0 1 1 1+t +t· − = +t· = , t ∈ R. 0 0 −1 0 1 t Auch für Ebenen haben wir eine entsprechende Aufpunkt-Richtung, beziehungsweise Parameterform. Da Ebenen als zweidimensionale affine Teilräume definiert sind, brauchen wir hier gleich zwei Richtungsvektoren und entsprechend auch zwei Parameter {v + tu + sw|t, s ∈ R}. Wir kommen nun zu einer weiteren Beschreibung von Hyperebenen im Rn . Jeder kdimensionale affine Teilraum des Rn läßt sich durch ein lineares Gleichungssystem aus n − k Gleichungen in n Unbekannten beschreiben. Da Hyperebenen ja als (n − 1)dimensionale affine Teilräume definiert sind, lassen sich diese durch eine einzige lineare Gleichung a1 x 1 + · · · + an x n = c beschreiben. Im Fall n = 2 wird dies zur Beschreibung einer Geraden durch eine Gleichung ax + by = c (Implizite Form), beziehungsweise für n = 3 zur Beschreibung einer Ebene durch ebenfalls eine Gleichung ax + by + cz = d (Implizite Form). In unserem obigen Beispiel einer Geraden ist diese leicht zu erhalten, die Gerade war ja ursprünglich als y = x − 1 gegeben, die implizite Form ist also x − y = 1. Man 155 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 kann die implizite Form der Gleichung einer Hyperebene nun auch noch in Termen des Skalarprodukts deuten. Betrachten wir den Vektor a1 a := ... ∈ Rn an so wird für jeden Vektor x ∈ Rn a1 x1 + · · · + an xn = a · x, d.h. die implizite Form einer Hyperebene läßt sich als a · x = c (Implizite Form als Skalarprodukt) schreiben. Der Vektor a ist dann normal zur beschriebenen Hyperebene, steht also senkrecht auf ihr. Sind nämlich x, y zwei Punkte der Hyperebene, also a · x = a · y = c, so ist a · (x − y) = a · x − a · y = c − c = 0. In unserem Beispiel einer Geraden war die implizite Form als x − y = 1 gegeben, der Vektor a ist hier also 1 a= . −1 Auch die implizite Form einer Geraden oder einer Ebene ist nicht eindeutig. Die Gerade x − y = 1 können wir zum Beispiel ebensogut durch 2x − 2y = 2 beschreiben. Die Hessesche Normalform einer Hyperebene im Rn ist ein Spezialfall der impliziten Form dieser Hyperebene. Als Hessesche Normalform bezeichnet man eine implizite Form n · x = c, |n| = 1 (Hessesche Normalform) bei der der konstante Vektor n ein Einheitsvektor ist, für den also |n| = 1 gilt. Den Vektor n bezeichnet man als Normalenvektor der Hyperebene, und schreibt daher auch n“ anstelle von a“. Aus einer bereits vorhandenen impliziten Form a · x = c, ist es ” ” leicht eine Hessesche Normalform zu gewinnen, man teilt a einfach durch seine Länge. Die Hessesche Normalform wird a c ·x= |a| |a| also n · x = c0 mit n = a/|a|, c0 = c/|a|. Im unseren Geradenbeispiel ist ! √ √1 √ √ 1 1 1√ 1 2 0 2 √ a= , |a| = 1 + 1 = 2, n = √ a = = , c = 2, −1 − √12 2 − 2 2 2 die Hessesche Normalform ist also n·x= 1√ 2. 2 156 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 Auch die Hessesche Normalform ist nicht ganz eindeutig, man kann von n noch zu −n, und dann rechts natürlich zu −c, übergehen, aber bis auf dieses Vorzeichen ist die Hessesche Normalform eindeutig festgelegt. Die rechte Seite c in der Hesseschen Normalform hat auch noch eine direkte geometrische Bedeutung, der Betrag |c| ist gerade der Abstand der Geraden zum Nullpunkt. Wir wollen uns dies einmal für eine Gerade in der Ebene klarmachen, aber genau dasselbe Argument funktioniert dann auch im n-dimensionalen Fall. Wir betrachten also eine Gerade g, die in Hessescher x Normalform durch n · x = c gegeben ist. Weiter betrachp ten wir dann das Lot auf der Geraden g durch den Nullpunkt und bezeichnen den Lotfußpunkt, also den Schnitt der Lotgeraden mit g, als p. Der Abstand l := |p| von p l zu 0 ist dann der Abstand der Geraden g von Null. Ist 0 nämlich x ein beliebiger Punkt auf g, so haben wir das rechts angedeutete rechtwinklige Dreieck, und erhalten |x|2 = l2 + |x − p|2 ≥ l2 , also auch |x| ≥ l. Nun ist der Vektor p aber senkrecht auf der Geraden g, also ist p ein Vielfaches des Normalenvektors n. Wir können also p = λn mit einer reellen Zahl λ schreiben, und erhalten |λ| = |λn| = |p| sowie c = n · p = n · (λn) = λn · n = λ|n|2 = λ, √ also |c| = |λ| = |p| = l. In unserem Beispiel ist also 2/2 gerade der Abstand der Geraden x − y = 1 zum Nullpunkt. Dies können wir natürlich auch direkt einsehen: y x o Der Abstand der Geraden zum Nullpunkt ist gerade die halbe√Länge der Diagonale in einem Quadrat mit der Seitenlänge 1, und letztere ist gerade 2. 157 Mathematik für Ingenieure I, WS 2008/2009 10.3 Freitag 16.1.2009 Das Vektorprodukt Das Vektorprodukt ist ein spezifisch dreidimensionales Phänomen, es ordnet zwei Vektoren u, v ∈ R3 einen weiteren Vektor u × v ∈ R3 zu, genannt das Vektorprodukt oder auch das Kreuzprodukt von u und v. Wie für das bereits behandelte Skalarprodukt gibt es zwei mögliche Arten das Vektorprodukt einzuführen, eine algebraische und eine mehr geometrische Methode. Wir werden die algebraische Form als Definition verwenden, wollen aber erst mal die geometrische Beschreibung des Vektorprodukts angeben. Zunächst soll u × v senkrecht auf u und auf v stehen. Sind insbesondere u und v linear unabhängig, so wird u × v senkrecht auf der von u und v aufgespannten Ebene sein. Hierdurch ist das Vektorprodukt aber noch nicht festgelegt, die auf u und v senkrechten Vektoren bilden einen eindimensionalen Teilraum des R3 , zumindest wenn u und v linear unabhängig sind. Als nächste Einschränkung soll die Länge des Vektorprodukts gerade die Fläche des von u und v aufgespannten Parallelograms sein. Dadurch ist das Skalarprodukt fast vollständig festgelegt, es gibt gerade zwei auf u, v senkrechte Vektoren einer vorgeschriebenen Länge. Welcher dieser beiden Vektoren als Vektorprodukt verwendet wird, ist durch die dritte Eigenschaft des Vektorprodukts festgelegt, die drei Vektoren u, v und u × v sollen eine positive Basis des R3 bilden, also eine deren Determinante positiv ist. Dies beschreibt zumindest den Fall wenn u und v linear unabhängig sind, andernfalls wird einfach u × v = 0 sein. Wie im zweidimensionalen Fall läßt sich auch wieder sagen was die Positivität einer Basis geometrisch bedeutet. Eine Basis u, v, w des R3 ist positiv, wenn sie ein Rechtssystem bildet, also wie die x-, y- und z-Achse im R3 angeordnet ist. Eine populäre andere Formulierung dieser Bedingung ist die Rechte Hand Regel“. Halten Sie den Daumen ” der rechten Hand in Richtung des ersten Basisvektors u, und den Finger daneben in Richtung des zweiten Basisvektors v, so richtet sich der Mittelfinger in Richtung des dritten Basisvektors w aus. Algebraisch erkennt man dies, wie bereits bemerkt, einfach daran das det(u, v, w) > 0 ist. Wir kommen nun zur algebraischen Definition des Vektorprodukts, und werden dann im folgenden nachweisen, dass diese Definition tatsächlich die obige geometrische Beschreibung verwirklicht. Definition 10.3: Seien u, v ∈ R3 . Das Vektorprodukt von u und v ist dann der Vektor u1 v1 e1 u × v := u2 v2 e2 ∈ R3 . u3 v3 e3 Dabei stehen e1 , e2 , e3 wieder für die drei kanonischen Basisvektoren des R3 . Wir verwenden hier die bisher nicht bemerkte Tatsache, dass wir auch Determinanten bilden können in denen Zahlen und Vektoren gemischt auftreten. Die Determinante war ja eine Summe von Produkten, haben wir also Zahlen und Vektoren in der Determinante stehen, so treten die folgenden Typen von Produkten auf: 1. Produkte von Zahlen. Was diese bedeuten ist klar. 158 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 2. Produkte aus mehreren Zahlen und genau einem Vektor. Multiplizieren wir dann die Zahlen, so erhalten wir einen Skalar, den wir mit dem Vektor multiplizieren können und einen neuen Vektor erhalten. 3. Produkte in denen mindestens zwei Vektoren auftreten. Diese Produkte fassen wir einfach als Null auf. Dass der so erweiterte Determinantenbegriff weiter all unsere in §8 hergeleiteten Eigenschaften hat, ist zwar nicht schwer zu sehen, erfordert aber einen etwas abstrakter angelegten Zugang zur Determinantentheorie, als den in dieser Vorlesung verwendeten Weg. Daher wollen wir dies an dieser Stelle einfach glauben. Eine etwas direktere Beschreibung des Vektorprodukts u × v erhalten wir, indem wir die obige Determinante nach der dritten Spalte entwickeln. Das Vektorprodukt wird dann zu u1 v1 e1 u2 v 2 u1 v 1 u1 v 1 ·e ·e + ·e − u × v = u2 v2 e2 = u3 v 3 1 u3 v 3 2 u2 v 2 3 u3 v3 e3 u2 v 2 u3 v 3 u v − u v 2 3 3 2 u1 v 1 u3 v 1 − u1 v 3 . = − u3 v 3 = u1 v 2 − u2 v 1 u1 v 1 u2 v 2 Insbesondere ist das tatsächliche Berechnen von Kreuzprodukten einfach möglich 1 3 2 − 10 −8 −1 × 5 = −(−2 − 6) = 8 . 2 −2 5+3 8 Einige der algebraischen Grundeigenschaften des Vektorprodukts folgen sofort aus der algebraischen Definition. Da eine Determinante genau dann Null ist, wenn ihre Spalten linear abhängig sind, erhalten wir u × v = 0 ⇐⇒ u und v sind linear abhängig. Vertauschen wir in einer Determinante zwei Spalten, so ändert sich das Vorzeichen der Determinante, also u × v = −v × u. Da die Determinante in jeder ihrer Spalten linear ist, haben wir ebenfalls (u1 +u2 )×v = u1 ×v +u2 ×v, u×(v1 +v2 ) = u×v1 +u×v2 , λ·u×v = (λu)×v = u×(λv) für u, v, u1 , u2 , v1 , v2 ∈ R3 , λ ∈ R. Wir wollen nun beginnen uns die eingangs gegebene geometrische Beschreibung des Vektorprodukts herzuleiten. Es stellt sich als nützlich 159 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 heraus, zunächst einmal für u, v, w ∈ R3 die folgende Kombination von Skalarprodukt und Vektorprodukt zu berechnen u1 v1 w1 u1 v 1 u1 v 1 u2 v2 w3 = u2 v2 w2 = det(u, v, w). w2 + w1 − (u×v)·w = u2 v 2 u3 v 3 u3 v 3 u3 v3 w3 Man bezeichnet (u × v) · w = det(u, v, w) auch als das Spatprodukt der drei Vektoren u, v, w. Insbesondere haben wir nun (u × v) · u = det(u, v, u) = 0 da die Determinante det(u, v, u) zwei identische, also insbesondere linear abhängige, Spalten hat. Ebenso ist (u × v) · v = 0. Andererseits haben wir bereits eingesehen, dass (u × v) · u = 0 gerade bedeutet, dass u × v senkrecht auf u steht, und ebenso steht dann u × v senkrecht auf v. Damit haben wir die erste der obigen drei Bedingungen an das Vektorprodukt eingesehen. Wir kommen nun zur Länge von u × v 2 |u × v| u2 v 2 2 u1 v 1 2 u1 v 1 2 + = u3 v 3 + u2 v 2 u3 v 3 = (u2 v3 − u3 v2 )2 + (u1 v3 − u3 v1 )2 + (u1 v2 − u2 v1 )2 = u22 v32 + u23 v22 + u21 v32 + u23 v12 + u21 v22 + u22 v12 −2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 ) 2 = (u1 + u22 + u23 ) · (v12 + v22 + v32 ) − (u21 v12 + u22 v22 + u23 v32 +2(u2 u3 v2 v3 + u1 u3 v1 v3 + u1 u2 v1 v2 )) = (u21 + u22 + u23 ) · (v12 + v22 + v32 ) − (u1 v1 + u2 v2 + u3 v3 )2 = |u|2 |v|2 − (u · v)2 . Andererseits haben wir bereits bei der Diskussion des Skalarprodukts festgehalten, dass |u|2 |v|2 − (u · v)2 gerade das Quadrat der Fläche des von u und v aufgespannten Parallelograms ist. Folglich ist die Länge |u×v| gerade die Fläche dieses Parallelograms. Es verbleibt nur noch zu zeigen, dass u, v, u × v eine positive Basis des R3 ist, wenn u und v linear unabhängig sind. Dies ist aber mit unserer obigen Formel (u × v) · w = det(u, v, w) klar det(u, v, u × v) = (u × v) · (u × v) = |u × v|2 > 0. Damit haben wir auch die geometrische Beschreibung des Vektorprodukts verifiziert. Wir wollen uns nun noch über die geometrische Bedeutung des Spatprodukts klar werden. 160 Mathematik für Ingenieure I, WS 2008/2009 Freitag 16.1.2009 w uxv v F 0 u Wir wollen uns überlegen, dass (u × v) · w gerade das Volumen des von u, v, w aufgespannten Spats ist, wie im obigen Bild angedeutet. Beachte dazu, das sich das Volumen einer Teilmenge des R3 unter Scherungen nicht ändert, das Volumen V des Spats ergibt sich also als das Produkt F · l, wobei F die Fläche des von u und v aufgespannten Parallelograms ist, und l die Länge der Projektion von w auf eine zu diesem Parallelogram senkrechte Gerade ist. Wie bereits gesehen steht das Vektorprodukt u × v senkrecht auf u und v, also auch auf unserem Parallelogram. Wie bei der Diskussion des Skalarprodukts gezeigt, ist die Länge der Projektion von w auf u × v gegeben als l= (u × v) · w . |u × v| Andererseits haben wir auch bereits eingesehen, dass die Fläche F unseres Parallelograms gerade die Länge des Vektorprodukts u × v ist, d.h. wir haben V = F · l = |u × v| · (u × v) · w = (u × v) · w. |u × v| Das Spatprodukt ist also das Volumen unseres Spats versehen mit einem Vorzeichen. Insbesondere ist dieses Volumen auch gleich V = (u × v) · w = det(u, v, w). Damit haben wir die in §8 angemerkte Bedeutung der Determinante als Volumen auch für n = 3 eingesehen. Das Vorzeichen des Spatprodukts zeigt wieder an, ob u, v, w eine positive Basis bilden oder nicht, ist also positiv für ein Rechtssystem und negativ für ein Linkssystem. Das Vektorprodukt hat vielfältige Anwendungen. Wollen wir beispielsweise zu einer in Aufpunkt-Richtung Form gegebenen Ebene E = {v + tu + sw|t, s ∈ R} eine implizite Form berechnen, so benötigen wir einen auf der Ebene senkrechten Vektor, d.h. einen zu u und w senkrechten Vektor. Ein kanonisches Beispiel für einen solchen Vektor ist dann durch das Vektorprodukt a = u × w gegeben. Oft tritt das Vektorprodukt bei der Behandlung von Drehungen in der Mechanik auf. Denken wir 161 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 uns etwa einen um einen Punkt z drehbaren Körper im Raum gegeben, und lassen eine Kraft F in einem Punkt p auf den Körper wirken, so betrachten wir den Vektor r := p − z von z nach p, und bezeichnen das Vektorprodukt M =r×F als Drehmoment. Die Richtung des Drehmoments M gibt dabei die Achse durch z an, um die der Körper in Drehung versetzt wird, und die Länge des Drehmoments gibt die Geschwindigkeit dieser Drehung. Die algebraischen Eigenschaften des Vektorprodukts sind ganz anders als diejenigen der gewöhnlichen Multiplikation. Wir hatten beispielsweise schon gesehen, dass für alle u, v ∈ R3 stets u × v = −v × u ist, und das u × v = 0 sein kann selbst wenn u, v 6= 0 beide nicht Null sind. Das Vektorprodukt ist auch nicht assoziativ, man kann also nicht einfach Klammern weglassen. Als Ersatz für das Assoziativgesetz gibt es die sogenannte Jacobi-Identität u × (v × w) + v × (w × u) + w × (u × v) = 0 für alle u, v, w ∈ R3 . In den Übungen wird auch noch die Formel u × (v × w) = (u · w)v − (u · v)w für alle u, v, w ∈ R3 gezeigt. $Id: folgen.tex,v 1.5 2009/01/26 11:02:37 hk Exp $ Vorlesung 21, Dienstag 20.1.2009 III. Analysis §11 Reelle und komplexe Zahlenfolgen In einem groben Sinne ist Analysis“ alles was mit Grenzwerten und verwandten ” Konzepten zu tun hat. In der inzwischen etwas altertümlichen Bezeichnung Infinitesi” malrechnung“ kam dies sogar noch etwas klarer zum Ausdruck. Es gibt viele verschiedene Arten von Grenzwerten, in der Regel lassen sie alle sich auf den hier einzuführenden Begriff des Grenzwerts von Folgen zurückführen, auch wenn dies oftmals nicht die günstigste Formulierung ist. Der Grenzwertbegriff für Folgen entfaltet seine Wirkung 162 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 meist etwas im Hintergrund, also bei Beweisen und anderen theoretischen Überlegungen, es gibt zwar auch einige direkte, nahezu praktische, Anwendungen, aber dies sind nicht allzu viele, zumindest nicht in unserem Kontext. Sie sollten also nicht erwarten, dass Folgengrenzwerte auch nur ansatzweise die praktische Bedeutung von Ableitungen und Ähnlichen haben, sie sind aber auch nicht ganz nutzlos. 11.1 Folgen Eine Folge besteht aus einer unendlichen Reihe reeller oder komplexer Zahlen, die durch eine natürliche Zahl als Index beschrieben werden a1 , a2 , a3 , . . . . Sind alle diese Zahlen reell, so spricht man von einer reellen Zahlenfolge, und sonst von einer komplexen Zahlenfolge (wenn man will kann man eine reelle Zahlenfolge natürlich auch als eine komplexe Zahlenfolge auffassen). Sehr oft ist die Folge durch eine Formel gegeben, etwa an = 2n für 2, 4, 8, 16, . . . oder an = in für i, −1, −i, 1, i, . . . . Als kleine Variante ist es auch zugelassen, dass die Folge bei einem Startindex n0 ∈ N0 beginnt, also beispielsweise an = q n oder an = (n ∈ N0 ) für 1, q, q 2 , . . . 1 n(n − 1) (n ≥ 2) für 1 1 1 , , ,.... 2 6 12 Man verwendet dann Ausdrücke wie (an )n∈N , (an )n∈N0 , (an )n≥n0 , und so weiter, um die gesamte Folge zu bezeichnen. Etwas formaler definieren wir also: Definition 11.1: Sei n0 ∈ N0 . Eine Folge mit Startindex n0 ist eine Abbildung a : {n ∈ N0 |n ≥ n0 } → C; n 7→ an , wir denken uns also an als eine andere Schreibweise für a(n). Den Teil mit Startindex ” n0“ lassen wir meist weg, und sprechen einfach von einer Folge. Eine Teilfolge einer Folge (an )n∈N ist eine Folge, die aus einigen, aber in der Regel nicht allen, Gliedern der Folge (an )n∈N gebildet ist, zum Beispiel ist die Folge q, q 4 , q 9 , q 16 , . . . eine Teilfolge von 1, q, q 2 , q 3 , q 4 , . . . . Anders gesagt hat eine Teilfolge der Folge (an )n∈N die Form (ank )k∈N mit n1 < n2 < n3 < · · · , d.h. das k-te Glied der Teilfolge ist das nk -te Glied der Ausgangsfolge. 163 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 Entsprechend wird dies für die Folgen mit anderen Startindizes definiert. Haben wir etwa wie im Beispiel die Ausgangsfolge an = q n für n ∈ N0 , so ist die Teilfolge des 2 Beispiels gegeben als an = q n für n ∈ N. Hier ist also nk = k 2 für jedes k ∈ N. Wir wollen nun die Begriffe der Beschränktheit und Monotonie für Folgen einführen. Definition 11.2: Sei (an )n∈N eine reelle Folge. Die Folge heißt nach unten beschränkt, wenn es eine Zahl a ∈ R mit an ≥ a für jedes n ∈ N gibt. Jede solche Zahl a ∈ R heißt eine untere Schranke der Folge. Analog heißt die Folge nach oben beschränkt, wenn es eine Zahl b ∈ R mit an ≤ b für alle n ∈ N gibt, und jede solche Zahl b ∈ R heißt dann eine obere Schranke der Folge. Es ist dabei nicht verlangt, dass die obere oder die untere Schranke in irgendeiner Weise optimal gewählt, oft ist dies auch praktisch gar nicht möglich. an n Eine Folge kann graphisch etwa durch Einzeichnen einiger Punkte der Folge dargestellt werden. Optional, und rein nach Geschmack, kann man diese Punkte dann noch wie im obigen Bild miteinander verbinden, diese Verbindungslinien dienen dann aber keinen inhaltlichen Zwecken, sie sind rein dekorative Elemente. Dass die Folge nach oben beschränkt ist, bedeutet dann das sie ganz unterhalb einer, hier dick eingezeichneten, waagerechten Linie verläuft. Für Beschränktheit von unten haben wir entsprechend eine Linie unterhalb der Folge. Gehen wir einige Beispiele durch. Die Folge an = 1 n ist nach unten durch 0 und nach oben durch 1 beschränkt. Ebenso ist die Folge an = (−1)n nach unten durch −1 und nach oben durch 1 beschränkt. Eine nach oben unbeschränkte Folge ist die Folge an = n, die zwar nach unten durch 1 aber nicht nach oben beschränkt ist. Es gibt natürlich auch Folgen, die weder nach oben noch nach unten beschränkt sind, beispielsweise die Folge an = (−1)n n. 164 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 Ein etwas komplizierteres Beispiel ist die Folge n X 1 1 1 1 = 1 + + + ··· + . an := k! 1! 2! n! k=0 Diese Folge ist offenbar durch 1 nach unten beschränkt, es ist aber nicht sofort ersichtlich ob sie nach oben beschränkt ist. Zwar werden die Summanden 1/k! sehr schnell klein, auf der anderen Seite kommen aber immer mehr Summanden hinzu. Hier muss man tatsächlich rechnen, um zu sehen welcher dieser beiden gegensätzlichen Einflüsse sich letztlich durchsetzt. Wir wollen uns klarmachen, dass 3 eine obere Schranke dieser Folge ist, d.h. wir wollen an ≤ 3 für alle n ∈ N0 zeigen. Wegen a0 = 1, a1 = 2 ist dies für n = 0, 1 klar. Nun sei n ≥ 2 gegeben. Dann rechnen wir n n n X X X 1 1 1 an = =2+ ≤2+ k! k(k − 1) · (k − 2)! k(k − 1) k=0 k=2 k=2 n X 1 1 1 − =3− ≤3 =2+ k−1 k n k=2 da n X 1 1 1 1 1 1 1 1 1 1 − = 1− + − + − + ··· + − =1− k−1 k 2 2 3 3 4 n−1 n n k=2 gilt, eine sogenannte Zieharmonika-Summe. Wir wollen noch ein letztes Beispiel behandeln, die Folge n 1 an = 1 + . n Offenbar ist 1 eine untere Schranke dieser Folge, und wir wollen uns klarmachen, dass sie nach oben durch 3 P beschränkt ist. Um dies zu zeigen müssen wir uns an die binomische Formel (a + b)n = nk=0 nk ak bn−k aus §3 erinnern. Mit dieser rechnen wir 1 1+ n n n n X X n 1 (n − k + 1) · . . . · n 1 = = · k k k n k! n k=0 k=0 X n n X 1 1 n−k+1 n · · ... · ≤ ≤ 3. = k! n n k! k=0 k=0 Wir werden eine reelle Zahlenfolge beschränkt nennen wenn sie nach unten und nach oben beschränkt ist. Gleichwertig hierzu ist die Existenz eines c ≥ 0 mit |an | ≤ c für alle n ∈ N. In der Tat, ist (an )n∈N nach unten und oben beschränkt, so gibt es a, b ∈ R mit a ≤ an ≤ b für alle n ∈ N. Ist dann c := max{−a, b} die größere der beiden Zahlen −a und b, so ist für jedes n ∈ N entweder an ≥ 0 und |an | = an ≤ b ≤ c oder an < 0 und |an | = −an ≤ −a ≤ c. Haben wir umgekehrt ein c ≥ 0 mit |an | ≤ c für alle 165 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 n ∈ N, so ist für jedes n ∈ N auch −c ≤ an ≤ c, d.h. die Folge ist nach unten und oben beschränkt. Damit können wir Beschränktheit auch für komplexe Zahlenfolgen einführen: Definition 11.3: Eine komplexe Zahlenfolge (an )n∈N heißt beschränkt, wenn es ein c ≥ 0 mit |an | ≤ c für alle n ∈ N gibt. Wie gezeigt ist dann eine reelle Zahlenfolge genau dann beschränkt, wenn sie nach oben und nach unten beschränkt ist. Insbesondere sind die obigen Beispielfolgen auch alles Beispiele beschränkter Folgen. Wir wollen als ein Beispiel einer komplexen Zahlenfolge die Folge an = q n für n ∈ N0 mit einer komplexen Zahl q ∈ C betrachten. In §4.Satz 2.(c) haben wir |zw| = |z| · |w| für alle z, w ∈ C gezeigt, und per Induktion folgt |z n | = |z|n für alle z ∈ C, n ∈ N0 . Wir müssen nun zwei Fälle unterscheiden. Zunächst sei |q| ≤ 1. Dann folgt für jedes n ∈ N0 auch |q n | = |q|n ≤ 1, und die Folge (q n )n∈N ist beschränkt. Jetzt nehmen wir |q| > 1 an. Dann ist |q| − 1 > 0 und für jedes n ∈ N haben wir mit der binomischen Formel n X n n k n n n (|q| − 1) ≥ 1 + (|q| − 1) = 1 + n(|q| − 1), |q | = |q| = (1 + (|q| − 1)) = k 1 k=0 denn da in dieser Summe alle Summanden positiv sind, können wir die hinteren Terme für k = 2, 3, . . . , n einfach fortlassen. Wegen |q| − 1 > 0 wird n(|q| − 1) nun beliebig groß, und somit ist (q n )n∈N in diesem Fall unbeschränkt. Folglich haben wir (q n )n∈N ist beschränkt ⇐⇒ |q| ≤ 1. Dasselbe Argument über die binomische Reihe zeigt ganz allgemein (1 + a) ≥ 1 + na für jedes a ≥ 0. Tatsächlich gilt diese Ungleichung bereits wenn a ≥ −1 ist, dies ist die sogenannte Bernoulli-Ungleichung, die für uns später noch nützlich sein wird. Satz 11.1 (Bernoulli Ungleichung) Seien a ≥ −1 und n ∈ N. Dann gilt (1 + a)n ≥ 1 + na und genau dann ist (1 + a)n = 1 + na wenn n = 1 oder a = 0 ist. Beweis: Für a = 0 ist die Behauptung klar, wir nehmen im folgenden also a = 0 an. Wir beweisen dies durch Induktion nach n. Für n = 1 ist die Aussage dabei klar. Nun sei n ∈ N gegeben und es gelte bereits (1 + a)n ≥ 1 + na. Wegen 1 + a ≥ 0 folgt dann auch (1 + a)n+1 = (1 + a) · (1 + a)n ≥ (1 + a) · (1 + na) = 1 + (n + 1)a + na2 > 1 + (n + 1)a. Per Induktion ist der Satz damit bewiesen. Wir kommen nun zur Monotonie, diese ist aber nur für reelle Zahlenfolgen definiert. Definition 11.4: Sei (an )n∈N eine reelle Zahlenfolge. 166 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 (a) Die Folge heißt monoton steigend wenn an ≤ an+1 für jedes n ∈ N gilt. (b) Die Folge heißt streng monoton steigend wenn an < an+1 für jedes n ∈ N gilt. (c) Die Folge heißt monoton fallend wenn an ≥ an+1 für jedes n ∈ N gilt. (d) Die Folge heißt streng monoton fallend wenn an > an+1 für jedes n ∈ N gilt. (e) Die Folge heißt monoton, wenn sie monoton steigend oder monoton fallend ist. Beispielsweise sind die Folgen 1. an = n streng monoton steigend, 2. an = 1/n streng monoton falled, 3. an = (−1)n weder monoton steigend noch monoton falled, 4. an = c ∈ R monoton steigend und monoton fallend. Konstante Folgen sind natürlich die einzigen Folgen, die zugleich monoton steigend und monoton fallend sind. Ein etwas komplizierteres Beispiel ist wieder die Folge n 1 , an = 1 + n die sich als streng monoton steigend herausstellt. Für jedes n ∈ N haben wir nämlich mit der Bernoulli Ungleichung 1+ 1 n+1 1 n+1 n + n1 n n+1 n · (n + 2) n+1 n = = 2 n+1 (n + 1) n n+1 n+1 (n + 1)2 − 1 n+1 n+1 1 = = 1− 2 2 (n + 1) n (n + 1) n 1 n+1 n n+1 = · = 1, > 1 − (n + 1) · 2 (n + 1) n n+1 n n+2 n+1 n+1 d.h. es ist 1 1+ n+1 n+1 > 1 1+ n n . Analog zu obigen Definition, können wir natürlich auch monotone Folgen mit einem √ n anderen Startindex betrachten. Beispielsweise ist die Folge ( n)n≥3 streng monoton fallend. Sei nämlich n ≥ 3 gegeben. Dann haben wir zunächst (n + 1)n = nn n+1 n n = 1 1+ n n 167 < 1 1+ n+1 n+1 ≤ 3 ≤ n, Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 also auch (n + 1)n < n · nn = nn+1 und somit √ n+1 n+1< √ n n. In den ersten Termen ist diese Folge aber nicht fallend, es gelten √ 1 11.2 1 = 1, √ 2 2 = 1, 41... und √ 3 3 = 1, 44... Grenzwerte von Zahlenfolgen Wir sagen, dass eine Zahlenfolge (an )n∈N gegen eine Zahl a ∈ C konvergiert, wenn an −a für unendlich große n unendlich klein wird. Dies ist allerdings nicht ganz die formale Definition, wirklich unendlich kleine und unendlich große Zahlen verwenden zu wollen, hat sich als nicht tragfähig herausgestellt. Es gibt in der Mathematik schlichtweg keine unendlich kleinen oder unendlich großen Zahlen. Daher wird die obige Idee umgewandelt zur Formulierung für ausreichend große n ∈ N wird an − a beliebig klein“. Etwas ” genauer ist dann die eigentliche Grenzwertdefinition. Definition 11.5: Sei (an )n∈N eine Zahlenfolge. Dann konvergiert die Folge (an )n∈N gegen eine komplexe Zahl a ∈ C, wenn es für jedes > 0 ein n0 ∈ N mit |an − a| < für alle n ≥ n0 gibt. Die Zahl a ist dann eindeutig bestimmt, und heißt der Grenzwert, oder Limes, der Folge (an )n∈N , geschrieben als a = lim an . n→∞ Gibt es einen solchen Grenzwert, so nennen wir die Folge (an )n∈N konvergent, und andernfalls ist sie divergent. Diese Definition macht Anfängern fast immer Schwierigkeiten, es braucht einige Zeit und Gewöhnung um diese Art von Definitionen wirklich zu verinnerlichen. Glücklicherweise wird sich herausstellen, dass man für die Zwecke konkreter Rechnungen oftmals ohne die Definition auskommt, wenn erst einmal genügend Rechenregeln zusammengestellt sind. Wir wollen uns die Grenzwertdefinition zunächst einmal graphisch zumindest für reelle Zahlenfolgen klarmachen. Der Buchstabe steht für eine kleine Zahl, und die Bedingung |an − a| < besagt gerade − < an − a < also a − < an < a + . 168 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 20.1.2009 an a .............. ......... n0 n Was vor dem Index n0 geschieht spielt keine Rolle, die Folge kann dort weit weg vom Grenzwert a völlig willkürlich hin und her schwanken. Ab dem Index n0 muss die Folge aber ganz in dem gestrichelt eingezeichneten Kanal zwischen a − und a + verlaufen. Wir wollen nun einige einfache Beispiele für Konvergenz und Divergenz auflisten. 1. Die Folge n1 n∈N konvergiert gegen Null, man sagt auch sie ist eine Nullfolge. Dies wollen wir einmal vollständig an Hand der Definition verifizieren. Wir müssen zeigen, daß es für jedes > 0 einen Index n0 ∈ N mit |1/n| < für alle n ∈ N mit n ≥ n0 gibt. Sei also ein > 0 gegeben. Wir müssen nun eine natürliche Zahl n0 finden. Hierzu betrachten wir die reelle Zahl 1/ > 0. Die Zahl ist in der Regel sehr klein, und 1/ damit sehr groß, aber es gibt trotzdem immer eine natürliche Zahl, die noch größer ist. Wir können also eine natürliche Zahl n0 ∈ N mit 1/ < n0 wählen. Wir müssen zeigen, dass die Folge spätestens ab diesem Index kleiner als wird. Sei also n ∈ N mit n ≥ n0 . Dann rechnen wir 1 − 0 = 1 ≤ 1 < 1 = . 1 n n n0 Diese Überlegung zeigt limn→∞ 1 n = 0. 2. Ebenso konvergiert für jedes α > 0 die Folge (1/nα )n∈N gegen Null. Dies ist analog zum eben gerade geführten Beweis, und soll hier nicht mehr √ vorgeführt werden. 2 Damit sind also zum Beispiel die Folge (1/n )n∈N oder (1/ n)n∈N = (1/n1/2 )n∈N Nullfolgen. 3. Für jede komplexe Zahl q ∈ C ist die Folge (q n /n!)n∈N eine Nullfolge. Diese Behauptung ist etwas weniger offensichtlich als die vorigen beiden Beispiele, denn der Term im Nenner wird zwar sehr schnell klein, aber der Ausdruck im Zähler 169 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 wird, zumindest für |q| > 1, gleichzeitig schnell groß. Wir wollen nun beweisen, daß limn→∞ q n /n! = 0 ist. Hierzu wählen wir zunächst eine natürliche Zahl n1 ∈ N mit n1 ≥ 2|q|. Für jede natürliche Zahl n ∈ N mit n > n1 haben wir dann n q |q|n1 |q| |q| |q|n1 1 = · · . . . · ≤ . n! n1 ! n1 + 1 n n1 ! 2n−n1 Sei nun > 0 gegeben. Dann gibt es ein n2 ∈ N mit |q|n1 /(n1 !2n2 ) < , und wir setzen n0 := n1 + n2 ∈ N. Für jedes n ∈ N mit n ≥ n0 ist dann n − n1 ≥ n2 und n q |q|n1 1 |q|n1 ≤ ≤ < . n! n1 ! 2n−n1 n1 !2n2 Somit ist tatsächlich limn→∞ qn n! = 0. 4. Die Folge ((−1)n )n∈N ist divergent. Dies ist klar, da sie ständig zwischen −1 und 1 hin und her wechselt. 5. Die Folge (sin(n))n∈N ist divergent. Dies ist eine der Übungsaufgaben zu diesem Abschnitt. Vorlesung 22, Freitag 23.1.2009 Die vorigen beiden Beispiele divergenter Folge, also an = (−1)n und an = sin(n) sind dabei beschränkte Folgen. Unbeschränkte Folge, wie zum Beispiel an = n sind sowieso immer divergent. Tatsächlich ist jede konvergente Folge auch beschränkt, es liegen ja fast alle ihre Glieder nahe beim Grenzwert. Für Situation wie im Beispiel an = n, ist es nützlich eine etwas verallgemeinerte Notation einzuführen. Diese Folge ist zwar divergent, aber auf eine ganz andere Art als das Beispiel an = (−1)n . Wir führen hierzu die Symbole −∞ und ∞ ein, und bilden die erweiterte Zahlengerade R := R ∪ {−∞, ∞}. Wir sagen, dass eine reelle Folge (an )n∈N gegen ∞ konvergiert, wenn es für jedes a ∈ R ein n0 ∈ N mit an > a für alle n ≥ n0 gibt. Analog konvergiert (an )n∈N gegen −∞, wenn es für jedes a ∈ R ein n0 ∈ N mit an < a für alle n ≥ n0 gibt. Trotzdem nennt man die Folge weiterhin divergent, manchmal spricht man von einer bestimmt divergenten Folge. Konvergiert die reelle Folge (an )n→∞ gegen ∞ oder −∞ und ist an 6= 0 für alle n ∈ N, so ist (1/an )n∈N eine Nullfolge. Die Umkehrung gilt nicht, wie etwa die Folge an = (−1)n n zeigt. Oft schreiben wir auch an → a anstelle von (an )n∈N konvergiert ” gegen a“. Wenn wir wollen, können wir die Konvergenz komplexer Zahlenfolgen auf 170 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 diejenige reeller Zahlenfolgen zurückführen, für eine komplexe Zahlenfolge (an )n∈N gilt nämlich: h i lim = an ⇐⇒ lim Re(an ) = Re(a) ∧ lim Im(an ) = Im(a) . n→∞ n→∞ n→∞ Für das Rechnen mit Grenzwerten sind die folgenden Rechenregeln nützlich: Satz 11.2 (Rechenregeln für Grenzwerte) Seien (an )n∈N und (bn )n∈N zwei konvergente Folgen. (a) Die Folge (an + bn )n∈N ist konvergent mit lim (an + bn ) = lim an + lim bn . n→∞ n→∞ n→∞ (b) Für jedes c ∈ C ist die Folge (can )n∈N konvergent mit lim (can ) = c · lim an . n→∞ n→∞ (c) Die Folge (an bn )n∈N ist konvergent mit lim (an bn ) = lim an · lim bn . n→∞ n→∞ n→∞ (d) Gelten limn→∞ bn 6= 0 und bn 6= 0 für alle n ∈ N, so ist auch die Folge (an /bn )n∈N konvergent mit lim an an lim = n→∞ . n→∞ bn lim bn n→∞ (e) Jede Teilfolge (ank )k∈N von (an )n∈N ist konvergent mit lim ank = lim an . n→∞ k→∞ (f ) Sind (an )n∈N , (bn )n∈N reelle Folgen und gibt es ein n0 ∈ N mit mit an ≤ bn für alle n ≥ n0 , so ist auch lim an ≤ lim bn . n→∞ n→∞ Diesen Satz wollen wir hier nicht beweisen, sondern einige seiner Anwendungen diskutieren. Es wird sich herausstellen, dass wir für sehr viele konkrete Berechnungen von Grenzwerten mit diesen Rechenregeln auskommen werden, auf die Definition eines Grenzwerts werden wir uns, glücklicherweise, eher selten beziehen müssen. Betrachten wir einmal den Grenzwert 2n3 − 7n + 5 lim . n→∞ 3n3 + 6n2 − n + 9 Wir würden hier natürlich gerne die Rechenregel (d) verwenden, nur ist diese für diesen Grenzwert gar nicht zuständig, da weder im Zähler noch im Nenner konvergente Folgen 171 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 stehen. Dieses Problem kann man aber leicht beheben, wir erweitern den Bruch mit 1/n3 und erhalten 2 − n72 + n53 2n3 − 7n + 5 = lim . n→∞ 3 + 6 − 12 + 93 n→∞ 3n3 + 6n2 − n + 9 n n n lim Jetzt wissen wir bereits, dass die Folge 1/n, und auch die Potenzen 1/n2 , 1/n3 gegen Null konvergieren. Damit sagt Rechenregel (b), dass auch die Folge 7/n2 gegen 7 · 0 = 0 konvergiert, und ebenso sind alle die anderen Bruchterme in Zähler und Nenner Nullfolgen. Die konstanten Folgen konvergieren schließlich trivialerweise gegen selbige Konstante, und damit haben wir 7 5 7 5 lim 2 − + 3 2 3 n n 2 − n2 + n3 2n − 7n + 5 2 = . lim = lim = n→∞ 6 1 9 1 6 9 3 2 n→∞ 3n + 6n − n + 9 n→∞ 3 + 3 − n2 + n3 lim 3 + n − n2 + n3 n n→∞ Ein ähnliches Beispiel ist der Grenzwert 2n2 + 7n − 1 n→∞ n3 − 5 lim nur das diesmal der Grad im Nenner größer als der im Zähler ist. Trotzdem führt hier derselbe Rechengang zum Erfolg 2 1 7 lim + 2 2 − n3 n n 2n + 7n − 1 0 lim = n→∞ = = 0. 5 3 n −5 1 lim 1 − n3 n→∞ Betrachten wir noch ein weiteres, diesmal etwas komplizierter wirkendes Beispiel 2n2 + sin(2n + 1) . n→∞ 3n3 − 6 cos(n2 ) lim Da sich die Terme sin(2n + 1) und cos(n2 ) in einer schwer zu überschauenden Weise verhaltem, erwartet man zunächst Probleme bei der Berechnung dieses Grenzwerts. Trotzdem wird erneut der obige Rechenweg zum Erfolg führen, denn so kompliziert die Sinus- und Cosinuswerte auch sind, sie bewegen sich doch alle nur zwischen −1 und 1. Insbesondere ist | sin(2n + 1)/n2 | ≤ 1/n2 und somit ist sin(2n + 1)/n2 , und ebenso auch cos(n2 )/n2 , ein Nullfolge. Also haben wir diesmal sin(2n+1) sin(2n+1) lim 2 + 2 n2 2 + n2 2n + sin(2n + 1) 2 n→∞ lim = = . = lim 2 cos(n2 ) n→∞ 3n3 − 6 cos(n2 ) n→∞ 3 − 6 cos(n ) 3 2 lim 2 − 6 n n→∞ n2 Behandeln wir schließlich einen Fall in dem der Grad des Zählers größer als derjenige des Nenners ist n + n13 n4 + 1 lim = lim . n→∞ 19n3 + 23n + 9 n→∞ 19 + 232 + 93 n n 172 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 Um hier weiterzukommen müssen wir ausnutzen, dass die Rechenregeln für Grenzwerte auch für Konvergenz gegen ±∞ gelten, solange nur Terme der Form Reelle Zahl ± ∞, (Reelle Zahl 6= 0) · (±∞), Reelle Zahl 6= 0 ±∞ oder (±∞) · (±∞) und Ähnliches auftauchen, also Ausdrücke deren Bedeutung unmißverständlich klar ist, aber keine Terme wie 0/0 oder ∞ − ∞. Da im Beispiel der Zähler gegen ∞ und der Nenner gegen 19 konvergieren haben wir n + n13 n4 + 1 lim = lim n→∞ 19n3 + 23n + 9 n→∞ 19 + 232 + n 9 n3 = ∞ = ∞. 19 Allgemein führt das in den obigen Rechnungen verwendete Argument zu folgenden Satz: Satz 11.3: Seien r, s ∈ N0 und a0 , . . . , ar , b0 , . . . , bs ∈ C mit ar 6= 0 und bs 6= 0. Für den Fall s ≥ r gilt dann ( ar , r = s, ar nr + ar−1 nr−1 + · · · + a0 br lim = s s−1 n→∞ bs n + bs−1 n + · · · + b0 0, s > r. Sind dagegen a0 , . . . , ar , b0 , . . . , bs alle reell und haben wir s < r, so ist ( ∞, ar bs > 0, ar nr + ar−1 nr−1 + · · · + a0 = lim s s−1 n→∞ bs n + bs−1 n + · · · + b0 −∞, ar bs < 0. Mit den genannten Rechenregeln kann man zwar bereits einen Gutteil der üblicherweise, zumindest in Übungsaufgaben, vorkommenden Grenzwerte berechnen, aber nicht alle. Ein komplizierteres Beispiel ist der Grenzwert √ lim n n, n→∞ der sich als 1 herausstellen wird. Um dies einzusehen beginnen wir mit der folgenden Rechnung, die wieder auf der binomischen Formel des §3 beruht n X √ n √ n n n = (1 + ( n − 1)) = ( n n − 1)k . k k=0 √ Beachte das zumindest n n ≥ 1 ist, und damit sind alle Terme in der Summe auf der rechten Seite nichtnegativ. Der Ausdruck verkleinert sich also wenn wir einige dieser Terme fortlassen, und wir lassen hier alle, bis auf den quadratischen Term, weg. Dies führt zu n X n √ n √ n(n − 1) √ k n n= ( n − 1) . ≥ ( n n − 1)2 = ( n n − 1)2 , k 2 2 k=0 173 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 und dies können wir noch zu 0≤ √ n r n−1< √ 2 2 =√ n−1 n−1 √ √ √ umformen. Die Folge n n − 1 ist also stets zwischen 0 und der Nullfolge 2/ n − 1. √ n Der folgende Satz zeigt uns dann, daß damit auch n − 1 eine Nullfolge ist. Satz 11.4 (Einschnürungssatz) Seien (an )n∈N , (bn )n∈N und (cn )n∈N drei reelle Zahlenfolgen mit an ≤ bn ≤ cn für alle n ∈ N, oder auch alle n ≥ n0 für eine natürliche Zahl n0 ∈ N. Die Folgen (an )n∈N und (cn )n∈N seien konvergent mit demselben Grenzwert a := lim an = lim cn . n→∞ n→∞ Dann gilt auch lim bn = a. n→∞ √ n Wir wenden√diesen √ Satz auf die Folge bn = n − 1 an. Diese wird von rechts durch die Folge cn = 2/ n − 1 begrenzt. Aber wir haben auch eine sehr einfache Folge auf der linken Seite, nämlich die konstante Folge an = 0. Der Einschnürungssatz liefert folglich √ n limn→∞ ( n − 1) = 0, und eine weitere Anwendung der Rechenregeln für Grenzwerte ergibt dann √ lim n n = 1. n→∞ √ Weiter können wir nun auch limn→∞ n c = 1 für jede reelle Zahl c > 0 zeigen. Für c ≥ 1 haben wir nämlich √ √ 1 ≤ n c ≤ n n für alle n ∈ N mit n ≥ c, √ und der Einschnürungssatz liefert sofort limn→∞ n c√= 1. Den anderen Fall, also 0 < c < 1 kann so leider nicht behandelt werden, da n c dann für jedes n ∈ N kleiner als 1 ist. Wir können aber c = 1/(1/c) schreiben, und wegen 1/c > 1 ergeben die die Rechenregeln für Grenzwerte dann erneut lim n→∞ √ n 1 c = lim q = n→∞ n 1 c 1 lim n→∞ q = 1. n 1 c Als ein letztes Beispiel in diesem Abschnitt wollen wir noch die Folge n 1 an = 1 + n behandeln. Wir haben bereits eingesehen, dass diese Folge streng monoton steigend und nach oben beschränkt ist. Nun ist es eine Eigenschaft der reellen Zahlen, dass jede 174 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 solche Folge konvergiert, dies ist die sogenannte Vollständigkeit der reellen Zahlen. Bei unserer Besprechung reeller Zahlen in §4 hatten wir die Axiome eines angeordneten Körpers aufgelistet, und vermerkt das die reellen Zahlen all diese Axiome erfüllen, die Axiome umgekehrt aber nicht ausreichen die reellen Zahlen zu beschreiben. Das noch fehlende Axiom, durch das die reellen Zahlen dann festgelegt sind, ist das sogenannte Vollständigkeitsaxiom: Vollständigkeitsaxiom: Jede monoton steigende, nach oben beschränkte Folge reeller Zahlen ist konvergent. Dass dies eine Eigenschaft der reellen Zahlen ist, ist anschaulich klar an M sup a n n Dass die Folge nach oben beschränkt ist, bedeutet das sie stets unterhalb einer gewissen Schranke M verläuft. Zugleich soll die Folge monoton steigend sein, wird also ständig größer. Da sie nicht über die Zahl M hinauslaufen kann, muss sie sich letztlich einem größtmöglichen annähern. Der Grenzwert der Folge stellt sich dann als die bestmögliche obere Schranke der Folge heraus, das sogenannte Supremum der Folge. Die hier gegebene Form des Vollständigkeitsaxioms ist nicht die üblicherweise verwendete Formulierung, aber zu dieser äquivalent. Normalerweise formuliert man das Vollständigkeitsaxiom in Termen oberer und unterer Schranken von Mengen reeller Zahlen mit dem Begriff des Supremums, den wir in dieser Vorlesung an dieser Stelle noch nicht einführen wollen. Die Formulierung in Termen von monoton steigenden Folgen ist für uns an zunächst auch etwas bequemer als die übliche Formulierung. Durch Übergang zur Folge (−an )n∈N folgt aus dem Vollständigkeitsaxiom auch, dass jede nach unten beschränkte, monoton fallende reelle Folge konvergent ist. Insbesondere ist jede monotone und beschränkte reelle Zahlenfolge konvergent. Folglich existiert auch der Grenzwert n 1 e = lim 1 + , n→∞ n 175 Mathematik für Ingenieure I, WS 2008/2009 Freitag 23.1.2009 und es stellt sich heraus, dass dieser mit der eulerschen Zahl e = 2, 71828... identisch ist. 11.3 Häufungspunkte und Cauchyfolgen Wir hatten bereits eingangs bemerkt, dass Folgen weniger für rechnerische Anwendungen, sondern mehr als Hilfsmitteln in Beweisen, und für Überlegungen innerhalb der Mathematik verwendet werden. Auf die beiden in diesem Abschnitt behandelten Begriffe, Häufungspunkte und Cauchyfolgen, trifft dies in nochmals verstärkter Form zu. Daher wollen wir diese Begriffe auch nur kurz und nicht sehr ausführlich behandeln. Wir kommen noch einmal zum Beispiel der Folge an = (−1)n zurück. Diese wechselt ständig zwischen −1 und 1 hin und her, konvergiert aber gegen keine dieser beiden Zahlen. Trotzdem würde man natürlich am liebsten sagen, dass sie gegen beiden Zahlen zugleich konvergiert. Einen derartigen Begriff gibt es tatsächlich man spricht nur nicht mehr von Grenzwerten, sondern von sogenannten Häufungspunkten. Definition 11.6: Sei (an )n∈N eine Folge. Ein Häufungspunkt von (an )n∈N ist eine Zahl a ∈ C für die eine gegen a konvergente Teilfolge (ank )k∈N existiert. Im Fall einer reellen Folge lassen wir auch −∞ und ∞ als Häufungspunkte zu. Eine konvergente Folge hat genau einen Häufungspunkt, nämlich ihren Grenzwert. Dies trifft auch auf reelle Folgen, die gegen ±∞ konvergieren zu. Andere Folgen können mehrere Häufungspunkte haben. Beispielsweise hat die Folge an = (−1)n genau zwei Häufungspunkte nämlich −1 und 1, die Häufungspunkte sind hier also wirklich die beiden Grenzwerte“ der Folge. Ebenso hat die Folge an = (−1)n n genau die beiden ” Häufungspunkte −∞ und ∞. Eine Folge kann durchaus auch unendlich viele Häufungspunkte haben. Es stellt sich beispielsweise heraus, daß jede reelle Zahl zwischen −1 und 1 ein Häufungspunkt der Folge (sin(n))n∈N ist. Es stellt sich heraus, daß eine reelle Zahlenfolge immer Häufungspunkte hat (hierfür brauchen wir das −∞ und ∞ als Häufungspunkte zugelassen sind), dies ist der sogenannte Satz von Heine-Borel. Wir können damit für jede reelle Zahlenfolge die folgenden beiden Zahlen definieren: Definition 11.7: Sei (an )n∈N eine reelle Zahlfolge. Dann heißt der kleinste Häufungspunkt von (an )n∈N der Limes Inferior der Folge, und der größte Häufungspunkt heißt der Limes Superior, geschrieben als lim inf an n→∞ und lim sup an . n→∞ Beispielsweise sind lim inf (−1)n = −1, lim sup(−1)n = 1, n→∞ n→∞ lim inf (−1)n n = −∞, lim sup(−1)n n = ∞, n→∞ n→∞ lim inf sin(n) = −1, n→∞ lim sup sup(n) = 1. n→∞ 176 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 Für viele theoretische Überlegungen zu Folgengrenzwerten ist der Begriff der Cauchyfolge entscheidend. Vom rein rechnerischen Standpunkt aus gesehen, ist dieser Begriff nicht besonders bedeutsam, daher werden wir ihn hier nur sehr kurz besprechen. Definition 11.8: Eine Folge (an )n∈N heißt eine Cauchyfolge, wenn es für jedes > 0 einen Index n0 ∈ N mit |an − am | < für alle n, m ∈ N mit n, m ≥ n0 gibt. Es stellt sich dann heraus, daß Cauchyfolgen überhaupt dasselbe wie konvergente Folgen sind: Satz 11.5 (Vollständigkeit der reellen und komplexen Zahlen) Eine Zahlenfolge ist genau dann konvergent, wenn sie eine Cauchyfolge ist. Der Vorteil von Cauchyfolgen ist, dass man die Bedingung an eine Cauchyfolge nachprüfen kann, selbst wenn der Grenzwert der Folge nicht bekannt ist. Man kann dann also die Konvergenz einer Folge beweisen, selbst wenn man ihren Grenzwert nicht kennt. Den Beweis des Satzes wollen wir hier nicht vorführen, sondern nur eine kurze Zusammenfassung der Argumentation angeben. Dass jede konvergente Folge eine Cauchyfolge ist, ist einfach. Liegen nämlich für große n alle Folgenglieder an nahe beim Grenzwert, so liegen sie auch nahe beieinander. Die eigentliche Arbeit liegt darin, zu zeigen das eine Cauchyfolge (an )n∈N einen Grenzwert hat. Zuerst überlegt man sich dazu das eine Cauchyfolge beschränkt sein muss. Dann kann man zeigen, dass eine beschränkte Folge immer einen von ∞ und −∞ verschiedenen Häufungspunkt hat. Damit gibt es einen Häufungspunkt a ∈ C der Folge, und es läßt sich zum Schluß einsehen, dass ein Häufungspunkt einer Cauchyfolge bereits ein Grenzwert sein muss. Da für uns Cauchyfolgen wie gesagt erstmal nicht besonders wichtig sind, wollen wir diesen Abschnitt nun mit einer kleinen Bemerkung zur Definition einer Cauchyfolge abschließen. Es reicht nicht aus, dass die Abstände direkt √ aufeinanderfolgender Folgenglieder klein werden. Betrachte etwa die Folge an = n. Diese ist nicht konvergent, also sicherlich keine Cauchyfolge. Für jedes n ∈ N haben wir andererseits √ √ √ √ √ √ 1 ( n + 1 + n) · ( n + 1 − n) √ =√ n+1− n= √ √ , n+1+ n n+1+ n und somit ist √ √ lim ( n + 1 − n) = 0. n→∞ $Id: reihen.tex,v 1.6 2009/02/17 15:32:57 hk Exp $ Vorlesung 23, Dienstag 27.1.2009 177 Mathematik für Ingenieure I, WS 2008/2009 §12 Dienstag 27.1.2009 Reihen Reihen sind eine spezielle Sorte Folgen, die allerdings bereits deutlich häufiger auch in rechnerischen Anwendungen auftauchen. Insbesondere werden wir am Ende dieses Abschnitts diverse unserer Standardfunktionen, wie Sinus, Cosinus, die Exponentialfunktion, und so weiter von einem ganz anderen Standpunkt aus betrachten können. 12.1 Grundeigenschaften von Reihen Unter Reihen versteht man unendliche Summen ∞ X an = a1 + a2 + a3 + · · · n=1 Die Bedeutung dieser Summen wird durch Rückführung auf den Grenzwertbegriff für Folgen definiert. Wir betrachten die Anfangsstücke der Summe, also a1 , a1 + a2 , a1 + a2 + a3 , a1 + a2 + a3 + a4 und so weiter, und bilden aus diesen eine neue Folge. Definition 12.1: Sei (an )n∈N eine Zahlenfolge. Die Partialsummen dieser Folge sind dann die Summen n X ak = a1 + · · · + an , sn := k=1 P∞ und wir sagen, dass die Summe n=1 an gegen eine komplexe Zahl a ∈ C konvergiert, wenn die Folge (snP )n∈N ihrer Partialsummen gegen a konvergiert. In diesem Fall schreiben wir auch a = ∞ n=1 an . In anderen Worten ist ∞ X n=1 an := lim n→∞ n X ak . k=1 Wie für P∞Folgen haben wir analog natürlich auch Reihen mit anderen Startindizes wie etwa n=0 an , und so weiter. Für reelle Reihen lassen wir wie bei Folgengrenzwerten auch ∞ und −∞ als Grenzwerte zu, nennen die Reihe dann aber, wie bei Folgen, trotzdem nicht konvergent. Wir starten mit einem einfachen Beispiel, bei dem sich die Partialsummen explizit berechnen lassen ∞ X n=1 1 1 1 1 1 = + + + + ··· . n(n + 1) 2 6 12 20 Die Partialsummen dieser Reihe haben wir nämlich schon in §11 beim Beweis der P Abschätzung nk=0 1/k! ≤ 3 gesehen. Wir hatten nämlich n n+1 n+1 X X X 1 1 1 1 1 = − =1− , k(k + 1) k(k − 1) k − 1 k n + 1 k=2 k=1 k=2 178 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 und nach den Grenzwertsätzen für Folgen gilt ∞ X n=1 1 1 = lim 1 − = 1. n(n + 1) n→∞ n+1 Ein anderes einfaches Beispiel ist die wohl wichtigste Reihe überhaupt, die sogenannte geometrischePReihe. Bei dieser haben wir eine komplexe Zahl q ∈ C gegeben und wollen n die Summe ∞ n=0 q ausrechnen. Damit müssen wir zunächst die Partialsummen sn := n X qk k=0 bestimmen. Dies ist eine sogenannte geometrische Summe, für die es eine explizite Summenformel gibt. Wir wollen dies hier einmal kurz vorführen. Zunächst rechnen wir sn = 1 + q + q 2 + · · · + q n q · sn = q + q 2 + · · · + q n + q n+1 , und ziehen wir diese Summen voneinander ab, so folgt (1 − q) · sn = sn − q · sn = 1 − q n+1 . Im Fall q 6= 1 haben wir damit n X qk = k=0 1 − q n+1 . 1−q Im Fall |q| < 1 haben wir nun in den Übungsaufgaben zu §11 gesehen, dass limn→∞ q n = 0 ist, also sind auch limn→∞ q n+1 = 0 und ∞ X n=0 n q = lim n→∞ n X 1 − q n+1 1 = . n→∞ 1 − q 1−q q k = lim k=0 Dies ist die Summenformel für die geometrische Reihe. Zum Beispiel haben wir damit ∞ ∞ X 1 X 1 1 1 1 1 + + + ··· = = −1= n n 2 4 8 2 2 1− n=1 n=0 1 2 − 1 = 2 − 1 = 1. Wir wollen noch ein weiteres Beispiel behandeln, das Sie sogar schon aus der Schule kennen. Zur Einstimmung erinnern wir uns an die Bedeutung der Dezimalbrüche. Eine Zahl wie 0, 175 ist definitionsgemäß eine Schreibweise für 1 7 5 + + , 10 100 1000 179 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 und allgemein bedeutet eine Zahl 0, a1 a2 . . . an in Dezimalschreibweise gerade a2 an a1 + + ··· + n. 10 100 10 Betrachten wir dann allgemeine, also nicht unbedingt abbrechende Dezimalzahlen 0, a1 a2 a3 . . . , so stehen diese für unendliche Summen, also für Reihen ∞ X an a1 a2 a3 + + + ··· = . 10 100 1000 10n n=1 Tatsächlich spielt hier die geometrische Reihe ebenfalls eine Rolle, nämlich bei den periodischen Dezimalzahlen. Betrachten wir hier als ein Beispiel einmal 0, 9 = 0, 999 . . . P∞ n Wie bemerkt ist dies eine Schreibweise für die Reihe n=1 9/10 , die wir über die Summenformel der geometrischen Reihe ausrechnen können "∞ # n ∞ ∞ X X X 1 n 1 10 9 1 = 9· = 9· − 1 = 9· − 1 = 1, = 9· 1 −1 10n 10 10 9 1 − 10 n=1 n=1 n=0 wie Sie es hoffentlich erwartet haben. P n Im Fall |q| ≥ 1 ist die geometrische Reihe ∞ n=0 q divergent. Um dies zu sehen, und gleichzeitig ein wichtiges Konvergenzkriterium für Reihen zu erhalten, wollen wir den folgenden einfachen Satz notieren: P Satz 12.1: Ist die Reihe ∞ n=1 an konvergent, so gilt limn→∞ an = 0. Beweis: Für jedes n ∈ N haben wir an = (a1 + · · · + an ) − (a1 + · · · + an−1 ), also an = sn − sn−1 , wenn s1 , s2 , . . . die Partialsummen sind. Mit §11.Satz 2 folgt lim an = lim sn − lim sn−1 = 0, n→∞ da beide Limiten gleich der Summe n→∞ n→∞ P∞ an sind. n=1 P Ist (an )n∈N eine Nullfolge, so muss die Reihe ∞ n=1 an im Allgemeinen nicht konvergieren. Das übliche Gegenbeispiel ist die sogenannte harmonische Reihe ∞ X 1 1 1 1 = 1 + + + + ··· , n 2 3 4 n=1 180 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 die sich als divergent herausstellt. Um dies zu sehen, fassen wir die Summanden in Gruppen zusammen 1 1 1 1 1 1 1 1 1 1 1 1 1 1 + + + + + + ··· 1 + + + + + + + + ··· = 1 + + 2 3 4 5 6 7 8 2 3 4 5 6 7 8 wobei die Anzahl der Summanden in den Klammern sich jeweils verdoppelt. Schauen wir uns die erste Klammer 1/3 + 1/4 an. Da 1/3 größer als 1/4 ist, haben wir für die Summe dieser beiden Terme 1 1 1 1 1 + > + = . 3 4 4 4 2 In der zweiten Klammer 1/5 + 1/6 + 1/7 + 1/8 tritt dasselbe Phänomen auf, jeder der drei Summanden 1/5, 1/6 und 1/7 ist gröser als 1/8, und somit ist wieder 1 1 1 1 1 1 1 1 1 + + + > + + + = . 5 6 7 8 8 8 8 8 2 In der nächsten Klammer haben wir dann acht Summanden, der letzte ist 1/16 und jeder der ersten sieben Summanden ist größer als 1/16, und die Summe ist erneut größer als 8 · 1/16 = 1/2. Dies geht immer so weiter, und wir haben ∞ X 1 1 1 > 1 + + + · · · = ∞. n 2 2 n=1 Damit ist die harmonische Reihe divergent, obwohl 1/n gegen Null konvergiert. Wir sehen hier aber auch, dass diese Summe mit wachsenden n nur rechts langsam groß wird. Für jedes weitere 1/2 brauchen wir mehr und mehr Summanden der harmonischen Reihe. Wollen wir zum Beispiel mit der Summe großer als 20 werden, so brauchen wir 40 mal 1/2, d.h. mehr als 240 Summanden in der harmonischen Reihe. Die Rechenregeln für Folgengrenzwerte übertragen sich auf unendliche Summen: Satz 12.2 für Reihen) P∞ P∞ (Rechenregeln Seien n=1 an , n=1 bn zwei konvergente Reihen. P (a) Die Reihe ∞ n=1 (an + bn ) ist konvergent mit ∞ X (an + bn ) = n=1 ∞ X an + ∞ X n=1 (b) Für jede Zahl c ∈ C ist auch die Reihe ∞ X P∞ n=1 (can ) (can ) = c · n=1 ∞ X n=1 181 bn . n=1 konvergent mit an . Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 (c) Sind beide Reihen reell, und gilt an ≤ bn für jedes n ∈ N, so ist auch ∞ X an ≤ n=1 ∞ X bn . n=1 Wie für Folgengrenzwerte bleibt dieser Satz auch für gegen ±∞ konvergente reelle Zahlenfolgen gültig, solange nur nicht ∞−∞ auftaucht. Zum Abschluß wollen wir noch das sogenannte Leipnitz-Kriterim erwähnen. Dies handelt von sogenannten alternierenden Reihen, dies sind reelle Reihe, deren Vorzeichen ständig hin und her wechselt. Satz 12.3 (Leipnitz-Kriterium für alternierende Reihen) Sei (an )n∈N eine monoton fallende Folge reeller Zahlen mit limn→∞ an = P∞ positiver n−1 0. Dann ist die alternierende Reihe n=1 (−1) an konvergent. Weiter gilt für jede natürliche Zahl m stets 2m X (−1)k−1 ak ≤ ∞ X (−1)n−1 an ≤ n=1 k=1 2m−1 X (−1)k−1 ak . k=1 Ein berühmtes Beispiel ist die klassische Leipnitz Reihe ∞ 1− X 1 1 1 1 π (−1)n−1 + − + ··· = = . 3 5 7 2n − 1 4 n=1 Wir wollen uns an diesem Beispiel auch kurz klarmachen, das Partialsummen mit einer geraden Anzahl von Summanden stets kleiner als die Gesamtsumme sind, während Partialsummen mit einer ungeraden Anzahl von Summanden größer als diese sind. Fassen wir nämlich die Summanden pärchenweise zusammen, so wird die Summe zu 1 1− 3 + 1 1 − 5 7 + ··· Jeder der Summanden in den Klammern ist positiv, die Partialsummen zu geradem n wachsen als ständig an, müssen also unterhalb der Summe liegen. Gruppieren wir die Summanden um einen verschoben, so können wir die Leipnitz Reihe auch als 1 1 1+ − + 3 5 1 1 + − + 7 9 + ··· schreiben, und diesmal ist jede Klammer negativ. Die Partialsummen zu ungeradem n werden also immer kleiner, müssen also alle oberhalb der Summe liegen. Die Konvergenz der Leipnitz Reihe ist nicht sehr schnell. Es ist π/4 ≈ 0, 785398 und einige unserer 182 Mathematik für Ingenieure I, WS 2008/2009 Partialsummen sn = Pn k−1 /(2k k=1 (−1) n=1 n=3 n=5 n=7 n=9 n = 19 n = 29 n = 99 n = 199 n = 999 Dienstag 27.1.2009 − 1) sind 1 0, 866666 0, 834920 0, 820934 0, 813091 0, 798546 0, 794016 0, 787923 0, 786654 0, 785648 n=2 n=4 n=6 n=8 n = 10 n = 20 n = 30 n = 100 n = 200 n = 1000 0, 666666 0, 723809 0, 744011 0, 754267 0, 760459 0, 772905 0, 777067 0, 782898 0, 784148 0, 785148 Um n korrekte Nachkommastellen zu kriegen brauchen wir grob 10n viele Summanden in der Leipnitz Reihe. 12.2 Absolute Konvergenz Konvergente Reihen haben leider eine sowohl unerwartete, als auch äußerst störende Eigenschaft, man darf sie im allgemeinen nicht umordnen, d.h. eine unendliche Summe hängt im Allgemeinen von der Reihenfolge der Summanden ab. Wir wollen diesen Effekt einmal am Beispiel der Leipnitz Reihe untersuchen. Eine Umordnung der Leipnitz Reihe ist 1 1 1 1 1 1+ − + + − + ··· 5 3 9 11 7 d.h. es werden je zwei positive gefolgt von nur einem negativen Term genommen. Zur besseren Übersicht schreiben wir dies als ∞ X 1 1 1 1 1 1+ − + + − + ··· = ak , 5 3 9 11 7 k=1 wobei a1 , a2 , . . . die eingeklammerten Dreiersummen sind. Diese können wir leicht ausrechnen, die k-te Dreisumme ak addiert den (2k − 1)-ten und den (2k)-ten positiven Term der Leipnitz Reihe und subtrahiert den k-ten negativen Term dieser Summe. Der k-te negative Term ist der (2k)-te Term insgesamt, also −1/(2(2k) − 1) = −1/(4k − 1). Ebenso ist der k-te positive Term gerade der (2k − 1)-te Term insgesamt, also 1/(2(2k − 1) − 1) = 1/(4k − 3) und somit ak = 1 1 1 1 1 1 + − = + − 4(2k − 1) − 3 4(2k) − 3 4k − 1 8k − 7 8k − 3 4k − 1 (8k − 3)(4k − 1) + (8k − 7)(4k − 1) − (8k − 3)(8k − 7) = (8k − 7)(8k − 3)(4k − 1) 24k − 11 > 0. = (8k − 7)(8k − 3)(4k − 1) 183 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 Alle Summanden sind damit positiv, und somit ist ∞ X ∞ (−1)k−1 ak > 1 + k=1 X (−1)k−1 1 1 1 1 1 3734 − + + − = ≈ 0, 911843 > . 5 3 9 11 7 4095 2k − 1 k=1 In dieser Reihenfolge aufsummiert erhalten wir also eine andere Summe. Tatsächlich läßt sich zeigen, dass 1+ 1 1 1 1 1 π + ln(2) − + + − + ··· = 5 3 9 11 7 4 gilt. Von besonderem Interesse sind nun natürlich Reihen bei denen dieser Effekt nicht auftritt, die sogenannten unbedingt konvergenten Reihen. Für die von uns betrachteten Zahlenfolgen stellt sich heraus, dass dies zur sogenannten absoluten Konvergenz Pgleichwertig ist, deren Definition wir nun ansteuern. Haben wir eine reelle Reihe ∞ n=1 an mit an ≥ 0 für alle n ∈ N, so ist die Folge ihrer Partialsummen monoton steigend. Die FolgePder Partialsummen ist dann entweder beschränkt, und in diesem Fall konvergiert ∞ oder die Partialsummen sind n=1 an aufgrund des Vollständigkeitsaxioms, P∞ unbeschränkt. In letzterem Fall ist aber n=1 an = ∞. Eine Summe im erweiterten Sinne existiert für positive P Reihen also immer, und wir können die Konvergenz der Reihe durch die Bedingung ∞ n=1 an < ∞ beschreiben. P∞ P Definition 12.2: Eine Reihe n=1 an heißt absolut konvergent, wenn ∞ n=1 |an | < ∞ ist. Satz 12.4: Ist P∞ n=1 an eine absolut konvergente Reihe, so gilt ∞ X aπ(n) = n=1 ∞ X an n=1 für jede bijektive Abbildung π : N → N. Wie bereits bemerkt gilt auch die Umkehrung dieses Satzes. Tatsächlich ist eine viel P stärkere Aussage wahr, ist eine Reihe ∞ a konvergent, aber nicht absolut konvern=1 n gent, so läßt sie sich so umordnen, dass überhaupt jede beliebig vorgegebene reelle Zahl zu ihrem Grenzwert wird. Wir besprechen nun einige Beispiele absolut konvergenter Reihen. 1. Wir haben bereits gesehen, dass ∞ X n=1 ∞ X 1 1 = =1 n(n + 1) n=2 n(n − 1) ist, und da alle Summanden in dieser Reihe positive reelle Zahlen sind, ist die Reihe auch absolut konvergent. 184 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 2. Das allerwichtigste Beispiel einer absolut konvergenten Reihe ist die geometrische Reihe, die wegen ∞ ∞ X X 1 n |q | = |q|n = <∞ 1 − |q| n=0 n=0 für jedes q ∈ C mit |q| < 1 absolut konvergiert. 3. Summen und Vielfache absolut konvergenter Reihen sind wieder absolut konvergent. Für Vielfache ist dies leicht, und für Summen folgt es mit der Dreiecksungleichung |an + bn | ≤ |an | + |bn |. P∞ P 4. Ist ∞ n=1 bn absolut konvergent, und haben P∞ wir eine weitere Reihe n=1 an mit |an | ≤ |bn | für jedes n ∈ N, so ist auch n=1 absolut konvergent. Dies gilt auch noch, wenn nur |an | ≤ |bn | für alle n ≥ n0 mit einem konstanten Index n0 ∈ N gilt. 5. Wie werden jetzt die Beispiele (1) und (4) kombinieren, um ein weiteres Beispiel einer absolut konvergenten Reihe zu erhalten. Für jedes n ≥ 2 gilt 1 1 ≤ , 2 n n(n − 1) und damit ist auch die Reihe Ergebnis von Euler, das P∞ n=1 1/n2 absolut konvergent. Es ist ein berühmtes ∞ X 1 1 1 π2 = 1 + + + · · · = n2 4 9 6 n=1 gilt. P∞ α 6. Mit demselben Argument folgt, das auch n=1 1/n für jedes α ≥ 2 absolut α 2 konvergiert, denn wir haben dann ja 1/n ≤ 1/n für jedes n ∈ N. Mit etwas mehr Arbeit läßt sich sogar die folgende Aussage für jedes α ∈ R beweisen ∞ X 1 konvergiert (absolut) ⇐⇒ α > 1. α n n=1 Einige wenige dieser Summen kann man explizit ausrechnen, nämlich dann wenn α eine gerade natürliche Zahl ist. Auch dies wurde bereits von Euler durchgeführt. Nun kennen wir diverse Beispiele konvergenter, und absolut konvergenter, Reihen, aberPnur für zwei Beispiele konnten wir die Summe tatsächlich berechnen, nämlich für ∞ n=1 1/n(n + 1) und die geometrische Reihe. Im Laufe dieses Abschnitts werden wir in der Lage sein, auch einige weitere Beispiele, wie etwa die Reihe ∞ X nq n = q + 2q 2 + 3q 3 + · · · n=1 185 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 27.1.2009 für q ∈ C mit |q| < 1, zu berechnen. Zunächst wissen wir nicht einmal ob diese Reihe überhaupt konvergiert, aber wir werden gleich einsehen, dass sie absolut konvergent ist. Auch wenn dies zunächst für die Berechnung dieser Summe nicht hilfreich zu sein scheint, werden wir noch sehen, dass die absolute Konvergenz der Reihe doch eine wichtige Zutat zur konkreten Berechnung der Summe sein wird. Wie oben bemerkt, ist jede Reihe die wir gliedweise durch eine absolut konvergente Reihe abschätzen können selbst absolut konvergent. Insbesondere trifft dies auf Reihen zu, die sich durch eine geometrische Reihe abschätzen lassen, d.h. wir erhalten die folgende Aussage: Ist (an )n∈N eine Zahlenfolge, und gibt es reelle KonstantenPC > 0, 0 < q < 1 sowie einen Index n0 ∈ N mit |an | ≤ Cq n für alle n ≥ 0, so ist ∞ n=1 an absolut konvergent. Diese Bedingung läßt sich noch etwas umformulieren. Wir haben ja p √ n |an | ≤ Cq n ⇐⇒ n |an | ≤ Cq √ für jedes n ∈ N. Wegen limn→∞ n C = 1 erhalten wir damit das sogenannte Wurzelkriterium: Satz 12.5 (Wurzelkriterium) Sei (an )n∈N eine Zahlenfolge. Dann sind die folgenden Aussagen äquivalent: (a) Es gibt reelle Konstanten C > 0, 0 < q < 1 und einen Index n0 ∈ N mit |an | ≤ Cq n für alle n ∈ N mit n ≥ n0 . p (b) Es gibt eine reelle Zahl 0 < q < 1 und einen Index n0 ∈ N mit n |an | ≤ q für alle n ∈ N mit n ≥ n0 . p (c) Es ist lim sup n |an | < 1. n→∞ In diesem Fall ist die Reihe ∞ P an absolut konvergent. n=1 Konkret überprüft wird in der Regel die im Satz genannte Eigenschaft (b). Als ein Beispiel wollen wir einmal, wie schon angekündigt, die Reihe ∞ X nq n n=1 für q ∈ C mit |q| < 1 untersuchen. Zur Anwendung des Wurzelkriteriums müssen wir p √ n |nq n | = n n · |q| √ betrachten. Nun wissen wir aber bereits aus §11, dass limn→∞ n n = 1 gilt, und damit ist auch p √ n n n lim |nq | = lim n · |q| = |q| < 1. n→∞ n→∞ Dies P∞ ist nauch gleich dem Limes Superior dieser Wurzeln, und damit ist die Reihe n=1 nq für q ∈ C mit |q| < 1 absolut konvergent. Wir werden diese Reihe auch bald ausrechnen können. 186 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 Vorlesung 24, Freitag 30.1.2009 Bei den meisten Aufgaben, die sich überhaupt mit dem Wurzelkriterium rechnen lassen, ist es so das sogar der Grenzwert p c := lim n |an | n→∞ existiert. In diesem Fall ist das Wurzelkriterium genau dann erfüllt, wenn c < 1 ist. Das Wurzelkriterium deckt keinesfalls alle Beispiele absolut Reihen ab. P∞ konvergenter 2 Zum Beispiel hatten wir bereits gesehen, dass die Reihe n=1 1/n absolut konvergent ist, aber beim Versuch dies über das Wurzelkriterium einzusehen stoßen wir auf r 1 1 n = √ 2 → 1, n n2 n das Wurzelkriterium ist also nicht erfüllt. Das Wurzelkriterium ist also keinesfalls perfekt, deckt aber trotzdem recht viele Beispiele ab. Nur leider ist die Bedingung des Wurzelkriteriums aufgrund der auftauchenden n-ten Wurzeln oft rechnerisch nur schwer zu überprüfen. Ein etwas schwächeres Kriterium, das sich dann aber oftmals viel bequemer rechnen läßt ist das sogenannte Quotientenkriterium, das wir nun vortstellen wollen. Satz 12.6 (Quotientenkriterium) Sei (an )n∈N eine Zahlenfolge. Es gebe einen Index n0 ∈ N und eine reelle Zahl c < 1 mit an 6= 0 und |an+1 | ≤c |an | P für alle n ∈ N mit n ≥ n0 . Dann ist die Reihe ∞ n=1 an absolut konvergent. Diesen Satz werden wir hier nicht beweisen. Es läßt sich zeigen, dass eine Folge die das Quotientenkriterium erfüllt auch das Wurzelkriterium erfüllt, und in diesem Sinne ist das Wurzelkriterium stärker als das Quotientenkriterium. Als ein Beispiel behandeln wir einmal die Reihe ∞ X qn q2 q3 q4 (−1)n−1 =q− + − + ··· 2n − 1 3 5 7 n=1 wieder für q ∈ C. Rechnen wir die Quotienten aufeinanderfolgender Glieder einmal aus n q n+1 (−1) 2n+1 2n − 1 (−1)n−1 qn = 2n + 1 · |q| → |q|. 2n−1 P n−1 n Das Quotientenkriterium ergibt damit, dass ∞ q /(2n−1) für |q| < 1 absolut n=1 (−1) konvergiert. Diese Summe werden wir erst im nächsten Semester explizit berechnen. Wie beim Wurzelkriterium ist es auch bei der Anwendung des Quotientenkriteriums oft so, dass sogar der Limes c := limn→∞ |an+1 |/|an | existiert, und die Bedingung des Quotientenkriteriums wird dann zu c < 1. 187 Mathematik für Ingenieure I, WS 2008/2009 12.3 Freitag 30.1.2009 Das Cauchy Produkt P n Wie bereits bemerkt wollen wir die Summe der Reihe ∞ n=1 nq explizit berechnen. Bisher haben wir nur eingesehen, dass diese für |q| < 1 zumindest absolut konvergent ist. Diese Einsicht wird sich tatsächlich als hilfreich zur Berechnung herausstellen. Um die Reihe aber effektiv angehen zu können, benötigen wir noch eine weitere Regel für das Rechnen mit unendlichen Summen. Bisher haben wir es strikt vermieden über Multiplikation von Reihen zu sprechen. Diese ist leider auch etwas komplizierter als die Multiplikation von Folgen. Das Produkt der Summen zweier Reihen ist nicht die Summe der Einzelprodukte, dies ist ja nicht einmal bei endlichen Summen so (a1 + a2 + a3 ) · (b1 + b2 + b3 ) = a1 b1 + a1 b2 + a1 b3 + a2 b1 + a2 b2 + a2 b3 + a3 b1 + a3 b2 + a3 b3 . Als eine etwas optimistische Erwartung könnten wir schauen ob eine entsprechende Rechnung auch für unendliche Summen wahr ist, ob also so etwas wie ∞ ∞ P P an · bn = a0 b0 + a0 b1 + a0 b2 + · · · n=0 n=0 + a1 b0 + a1 b1 + a1 b2 + · · · + a2 b0 + a2 b1 + a2 b2 + · · · .. .. .. . . . gilt? Hierzu müssten wir uns zunächst einmal überlegen was die rechte Seite denn überhaupt bedeuten soll, so eine doppelt unendliche“ Summe haben wir bisher nicht ” behandelt. Eine naheliegende Möglichkeit ist es, die Summanden einfach in irgendeiner Reihenfolge nacheinander hinzuschreiben, etwa nach Diagonalen geordnet als a0 b0 + a0 b1 + a1 b0 + a0 b2 + a1 b1 + a2 b0 + · · · Dass dies möglich ist klingt zunächst nicht sehr glaubhaft, wir hatten doch gesehen, dass unendliche Summen von der Reihenfolge der Summanden abhängen können, und nun soll es auf einmal keine Rolle spielen in welcher Reihenfolge wir unsere Summanden durchlaufen. Dies ist aber kein hoffnungsloses Problem, wir haben ja bereits in Satz 4 festgehalten, dass wir absolut konvergente Reihen in beliebiger Reihenfolge aufsummieren können. P∞ P Sind beide Summen ∞ n=0 an und n=1 bn absolut konvergent, so werden wir sehen, dass wir die Produkte ak bl in jeder beliebigen Reihenfolge summieren können, und stets das Produkt der Summen der beiden einzelnen Reihen erhalten. Aus Gründen die im nächsten Teilabschnitt klar werden, ist es üblich jetzt noch eine kleine Variante dieser Summationstechnik einzuführen. Wir fassen die Summanden entlang der Diagonalen zusammen, schreiben also a0 b0 +a0 b1 +a1 b0 +a0 b2 +a1 b1 +a2 b0 +· · · = a0 b0 +(a0 b1 + a1 b0 )+(a0 b2 + a1 b1 + a2 b0 )+· · · 188 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 Dies endlichen Summen in den Klammern fassen wir als eine neue Folge (cn )n∈N0 auf, und diese Folge ist das sogenannte Cauchyprodukt. Der erste Summand a0 b0 hat 0 = 0 + 0 als Summe der auftauchenden Indizes, die beiden Terme a0 b1 , a1 b0 im zweiten Summanden haben beide die Indexsumme 0 + 1 = 1 + 0 = 1, die drei Terme a0 b2 , a1 b1 , a2 b0 im dritten Summanden haben alle die Indexsumme 0 + 2 = 1 + 1 = 2 + 0 = 2, und dies geht immer so weiter. Numerieren wir die Diagonalen mit n = 0, 1, 2, 3, . . . durch, so sind die Produkte ak bl auf der n-ten Diagonalen gerade durch k + l = n beschrieben. Definition 12.3: Seien (an )n∈N0 , (bn )n∈N0 zwei Zahlenfolgen. Das Cauchyprodukt dieser beiden Folgen ist dann die Folge (cn )n∈N0 definiert durch cn := n X ak bn−k = k=0 X ak b l k+l=n für n ∈ N. Die ersten vier Glieder des Cauchyprodukts sind also die Summen der unten jeweils eingekästelten Produkte: a0 b0 a1 b0 a2 b0 a3 b0 a0 b1 a0 b2 a0 b3 a1 b1 a1 b2 a1 b3 a2 b1 a2 b2 a2 b3 a3 b1 a3 b2 a3 b3 c0 a0 b 0 a1 b0 a2 b0 a3 b0 a0 b0 a1 b0 a2 b0 a3 b 0 a0 b1 a0 b2 a0 b3 a1 b1 a1 b2 a1 b3 a2 b1 a2 b2 a2 b3 a3 b1 a3 b2 a3 b3 c1 a0 b1 a0 b2 a1 b1 a1 b2 a2 b1 a2 b2 a3 b1 a3 b2 c2 a0 b 3 a1 b3 a2 b3 a3 b 3 a0 b0 a1 b0 a2 b 0 a3 b0 a0 b1 a0 b2 a1 b1 a1 b2 a2 b1 a2 b2 a3 b1 a3 b2 c3 a0 b3 a1 b3 a2 b3 a3 b3 Beispiele für Cauchyprodukte werden wir dann im nächsten Teilabschnitt sehen, jetzt wollen wir nur noch den angekündigten Satz über Produkte unendlicher Reihen angeben: Satz 12.7 von Reihen) P∞ (Cauchyprodukte P∞ Seien P n=0 an , n=0 bn zwei absolut konvergente Reihen. Dann ist auch das Cauchy∞ produkt n=0 cn dieser beiden Reihen absolut konvergent, und es gilt ! ! ∞ X ∞ n ∞ ∞ X X X X bn . cn = ak bn−k = an · n=0 n=0 k=0 n=0 n=0 Ist weiter P d1 , d2 , d3 , . . . eine Aufzählung der Produkte ak bl (k, l ∈ N0 ), so ist auch die Reihe ∞ n=1 dn absolut konvergent mit ! ! ∞ ∞ ∞ X X X dn = an · bn . n=1 n=0 n=0 Tatsächlich reicht es wenn eine der beiden Reihen im Cauchyprodukt absolut konvergiert und die andere überhaupt konvergent ist. Dann ist auch das Cauchyprodukt konvergent, und seine Summe ist das Produkt der Summen der beiden einzelnen Reihen. Diese Verfeinerung hat allerdings erstaunlich wenige Anwendungen. 189 Mathematik für Ingenieure I, WS 2008/2009 12.4 Freitag 30.1.2009 Potenzreihen Potenzreihen sind ein spezieller, und besonders wichtiger Typ, unendlicher Reihen. In einem gewissen Sinne kann man sich Potenzreihen als Polynome von Grad ∞ vorstellen, und wir werden sehen, dass sich viele wichtige Funktionen als Potenzreihen beschreiben lassen. Definition 12.4: Seien (an )n∈N0 eine Zahlenfolge und x0 ∈ C. Die zur Folge (an )n∈N gehörige Potenzreihe mit Entwicklungspunkt x0 ist für x ∈ C dann definiert als ∞ X an (x − x0 )n . n=0 Warum wir x0 als Entwicklungspunkt bezeichnen, wird erst in §14 klar werden. Meistens wird der Entwicklungspunkt auch einfach x0 = 0 sein und die Potenzreihe wird zu ∞ X an x n . n=0 P n Eine Grundidee ist es nun eine Potenzreihe ∞ n=0 an (x − x0 ) als eine Funktion der komplexen Zahl x aufzufassen. Ist eine solche Potenzreihe gegeben, so interessieren wir uns für die Menge ( ) ∞ X D := x ∈ C an (x − x0 )n konvergiert , n=0 all derjenigen Punkte x in denen die Reihe konvergiert, in denen wir also unsere Funktion von x überhaupt definieren können. Wir wollen als ein erstes Beispiel einmal die Potenzreihe ∞ X xn n=0 betrachten. Da dies einfach eine geometrische Reihe ist, wissen wir das sie genau dann konvergiert wenn |x| < 1 ist, d.h. in diesem Fall ist D = {x ∈ C : |x| < 1} das Innere des Einheitskreises in der komplexen Ebene. Auch die durch die Potenzreihe gegebene Funktion von x kennen wir bereits, für |x| < 1 haben wir ja bereits ∞ X xn = n=0 1 1−x ausgerechnet. Es stellt sich heraus, daß die Menge D der Konvergenzpunkte einer Potenzreihe im wesentlichen immer das Innere eines Kreises ist, dessen Mittelpunkt der Entwicklungspunkt der Potenzreihe ist. Den Radius dieses Kreises nennen wir dann den Konvergenzradius der Potenzreihe. 190 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 Divergenz r x0 (absolute) Konvergenz Im Inneren des Kreises konvergiert die Potenzreihe absolut, und außerhalb des Kreises divergiert sie. Auf dem Kreis selbst, also auf dem Rand, kann alles Mögliche passieren, das hängt ganz von der konkreten Potenzreihe ab. Daher haben wir oben auch etwas vorsichtig gesagt, dass der Konvergenzbereich der Potenzreihe im wesentlichen das Innere eines Kreises ist. Zwei Randfälle müssen wir hier gesondert erwähnen. Für x = x0 konvergiert die P n Potenzreihe ∞ a n=0 n (x − x0 ) = a0 + 0 + 0 + · · · natürlich immer, aber es kann passieren, dass die Potenzreihe in keinem anderen Punkt konvergiert. In diesem Fall denken wir uns den Konvergenzbereich als einen Kreis mit Radius 0, nehmen also r = 0 als Konvergenzradius. Im anderen Extremfall konvergiert die Potenzreihe für überhaupt alle komplexen Zahlen x. Dann denken wir uns den Konvergenzbereich als einen Kreis von Radius ∞, und verwenden r = ∞ als Konvergenzradius der Potenzreihe. Zur Bestimmung des Konvergenzradius können wir uns an das Wurzelkriterium Satz P∞ n 5 erinnern. Wenden wir das Wurzelkriterium auf die Potenzreihe n=0 an (x − x0 ) an, so müssen wir den folgenden Ausdruck betrachten p p p n n n n lim sup |am (x − x0 ) | = lim sup( |an | · |x − x0 |) = lim sup |an | · |x − x0 |. n→∞ n→∞ n→∞ p Wir brauchen das dies kleiner als 1 ist, das also |x − x0 | < 1/(lim supn→∞ n |an |) gilt. Damit erhalten wir die folgende Formel für den Konvergenzradius einer Potenzreihe: Satz 12.8 (Konvergenzradius einer Potenzreihe) Seien (an )n∈N und x0 ∈ C. Dann ist der Konvergenzradius r der P eine Zahlenfolge n Potenzreihe ∞ a (x − x ) gleich 0 n=0 n r= 1 lim sup p n |an | ∈ {x ∈ R|0 ≤ x ≤ ∞} n→∞ Dabei lesen wir 1/∞ wie schon bei Folgen als 0. Dem normalerweise sinnlosen Ausdruck 1/0 weisen wir für diese Formel (und nur für diese Formel) den Wert ∞ zu. 191 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 Streng genommen brauchen wir eine kleine Verschärfung des Wurzelkriteriums um diesen Satz zu beweisen, aber dies wollen wir hier nicht so eng sehen. Überprüfen wir P∞dennSatz einmal an einem uns schon bekannten Beispiel, nämlich der Potenzreihe n=0 x . Hier ist an = 1 für jedes n ∈ N0 und für den Konvergenzradius erhalten wir r= 1 1 √ = = 1. n 1 lim supn→∞ 1 Als ein weiteres Beispiel nehmen wir einmal die Potenzreihe jedes n ∈ N0 . Als Konvergenzradius ergibt sich 1 r= P∞ n=0 nxn , also an = n für 1 √ = = 1, n 1 n lim supn→∞ √ da wir aus §11 die Formel limn→∞ n n = 1 kennen. Als ein letztes Beispiel betrachten wir einmal die Potenzreihe ∞ X xn , n! n=0 also an = 1/n! für jedes n ∈ N0 . Nach einer Übungsaufgabe gilt √ n lim n! = ∞, n→∞ und mit den Formeln für Folgengrenzwerte §11.Satz 2 folgt hieraus r 1 1 n 1 √ = 0. lim = lim √ = n n→∞ n! n→∞ n! lim n n! n→∞ Als Konvergenzradius ergibt sich r= 1 lim sup n→∞ q n = 1 n! 1 = ∞, 0 wobei hier die in Satz 8 erwähnte Interpretation von 1/0 verwendet wird. Bei Addition von Potenzreihen addieren sich offenbar die dargestellten Funktionen. Das Verhalten von Potenzreihen unter Multiplikation ist interessanter. Gegeben seien zwei PotenzreiP∞ P∞ n hen n=0 an (x − x0 ) und n=0 bn (x − x0 )n mit demselben Entwicklungspunkt. Seien r beziehungsweise s die Konvergenzradien dieser beiden Potenzreihen. P∞Weiter sei einn x ∈P C mit |x − x0 | < min{r, s} gegeben. Dann sind die Reihen − x0 ) n=0 an (xP ∞ n und n=0 bn (x − x0 ) absolut konvergent. Wir bilden nun das Cauchyprodukt ∞ n=0 cn dieser beiden Reihen. Für jedes n ∈ N0 ist dann ! n n X X cn = (ak (x − x0 )k ) · (bn−k (x − x0 )n−k ) = ak bn−k · (x − x0 )n , k=0 k=0 192 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 und nach dem Satz über das Cauchyprodukt Satz 7 ist auch ! ! ! ∞ ∞ ∞ n X X X X an (x − x0 )n · bn (x − x0 )n = ak bn−k · (x − x0 )n . n=0 n=0 n=0 k=0 Das Cauchyprodukt zweier Potenzreihen mit demselben Entwicklungspunkt ist also wieder eine Potenzreihe mit demselben Entwicklungspunkt, dessen dargestellte Funktion gerade das Produkt der durch die einzelnen Potenzreihen dargestellten Funktionen ist. Beachte das die Multiplikation von Potenzreihen für Polynome mit dem Produkt von Polynomen übereinstimmt. Potenzreihen multiplizieren sich also genauso wie Polynome. Dies wollen wir nun in einem Satz festhalten: P P∞ n n Satz 12.9: Seien ∞ n=0 an (x − x0 ) und n=0 bn (x − x0 ) zwei Potenzreihen mit demselben Entwicklungspunkt. Es bezeichne r den Konvergenzradius und f die dargestellte Funktion der ersten Potenzreihe und s, g die entsprechenden PWerte Pnder zweiten Potenz-n ∞ reihe. Dann ist der Konvergenzradius des Cauchyprodukts n=0 ( k=0 ak bn−k )(x−x0 ) mindestens min{r, s} und die vom Cauchyprodukt dargestellte Funktion ist das Produkt der durch die beiden einzelnen Potenzreihen dargestellten Funktionen. Wir wollen diesen Satz einmal anwenden. Da wir bisher nur die geometrische Reihe explizit P∞ nberechnet haben, bilden wir notgedrungen das Cauchyprodukt der Potenzreihe n=0 x mit sich selbst, und erhalten für alle x ∈ C mit |x| < 1 die Gleichung ! 2 X ∞ n ∞ X X 1 1 n (n + 1)xn . 1 x = = = (1 − x)2 1−x n=0 n=0 k=0 Dies liefert weiter ∞ X n=1 n nx = ∞ X n=0 n (n + 1)x − ∞ X n=0 xn = 1 1 1 − (1 − x) x − = . = 2 2 (1 − x) 1−x (1 − x) (1 − x)2 Damit haben wir die schon mehrfach angekündigte Summe tatsächlich berechnet. Setzen wir zum Beispiel konkret x = 1/2 ein, so wird ∞ X n 2 = 2 = 2. n 2 1 − 12 n=1 Mit Hilfe von Potenzreihen läßt sich für viele der Standardfunktionen eine einfache, und oftmals gut zu handhabende, Definition angeben. Wir haben bereits gesehen, dass die Potenzreihe ∞ X xn n! n=0 den Konvergenzradius r = ∞ hat. Folglich erhalten wir eine auf ganz C definierte Funktion ∞ X zn z2 z3 ez := exp(z) := =1+z+ + + ··· n! 2 6 n=0 193 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 Dass dies für reelle x tatsächlich die vertraute Exponentialfunktion ist, ist nicht unmittelbar klar. Wir werden erst in §14 eine Begründung hierfür sehen, daher wollen wir es jetzt erst einmal glauben. Die Gestalt der reellen Exponentialfunktion 4 3 2 1 –4 –3 –2 –1 0 1 sollte Ihnen bekannt sein. Wir wollen uns nun die komplexe Exponentialfunktion etwas näher anschauen. Hierzu rechnen wir iz e = ∞ X (iz)n n=0 ∞ X ∞ 2n+1 X z 2n 2n+1 z = i + i n! (2n)! n=0 (2n + 1)! n=0 2n ∞ X z 2n+1 z 2n +i· (−1)n = (−1) (2n)! (2n + 1)! n=0 n=0 ∞ X n da i2n = (i2 )n = (−1)n ist. Definieren wir also sin z := ∞ X (−1)n z 2n+1 z3 z5 =z− + − ··· , (2n + 1)! 6 120 (−1)n z 2n z2 z4 =1− + − ··· , (2n)! 2 24 n=0 cos z := ∞ X n=0 so wird eiz = cos z + i sin z für alle z ∈ C. Auch für diese beiden Formeln müssen wir bis zum nächsten Semester warten, bis wir eine Begründung erhalten warum die obigen Formeln für reelle Zahlen die übliche Sinus und Cosinus Funktion beschreiben. Erinnern wir uns an die in §4 verwendete Schreibweise e(t) = cos t + i sin t, so sehen wir nun, dass einfach e(t) = eit ist. Weiter stellen sich die Polarkoordinaten im wesentlichen als die Exponentialfunktion heraus er+it = er eit = er cos t + ier sin t. 194 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 Der einzige Unterschied ist, dass der Abstand zu Null zu er umskaliert ist. Wir wollen uns nun auch die komplexe Exponentialfunktion ez einmal graphisch anschauen, aber dazu müssen wir uns zunächst überlegen wie man eine komplexe Funktion überhaupt zeichnen will. Direkt einen Graphen von u + iv = f (x + iy) malen kann man nicht, da wir x, y für die Argumente brauchen und dann keine zwei Achsen u, v in den R3 reinpassen. Es gibt mehrere Möglichkeiten hier vorzugehen. Ein Weg ist es den Betrag z = |f (x + iy)| zu zeichnen, dies wird dann gerne als das analytische Gebirge der Funktion f bezeichnet. Für die Exponentialfunktion ergibt sich das folgende Bild 7 6 5 4 3 2 1 0 3 2 1 0 y –1 –2 –4 –3 –2 –1 0 1 2 x Wir sehen hier, dass der Betracg von ez nur vom Realteil von z abzuhängen scheint. Dies ist tatsächlich wahr, für alle x, y ∈ R gilt q q x+iy x x 2 2x 2 2x |e | = |e cos y + ie sin y| = e cos y + e sin y = e2x (cos2 y + sin2 y) = ex , also |ez | = eRe z . Eine andere Darstellungsform ist die sogenannte konforme Darstellung, bei dieser malen wir die Bilder der horizontalen Linien Im z = const und die Bilder der vertikalen Linien Re z = const für mehrere Werte der jeweiligen Konstanten in die Ebene. Man zeichnet also wie die komplexe Funktion f das Standardgitter 195 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 4 2 –4 –2 2 4 –2 –4 deformiert. Als konforme Darstellung der Exponentialfunktion erhalten wir 6 4 2 –6 –4 –2 0 2 4 6 –2 –4 –6 Die Kreise sind hierbei die Bilder der Vertikalen Re z = const und die radialen Linien sind die Bilder der Waagerechten Im z = const. Wir kommen nun zum komplexen Sinus uns Cosinus, und hierzu können wir unsere oben hergeleitete Formel eiz = cos z + i sin z 196 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 noch etwas weiter ausnutzen. Setzen wir hier −z für z ein, so wird e−iz = cos(−z) + i sin(−z) = cos z − i sin z, und damit erhalten wir eiz − e−iz eiz + e−iz , sin z = . 2 2i cos z = Sinus und Cosinus lassen sich also durch die Exponentialfunktion beschreiben. Für reelle Argumente gibt es keinen Zusammenhang zwischen der Exponentialfunktion und den trigonometrischen Funktionen, aber unsere Formel zeigt, daß Sinus und Cosinus bei Betrachtung komplexer Argumente sich nicht groß von der komplexen Exponentialfunktion unterscheiden. Sinus und Cosinus dürften Ihnen im Reellen wohlbekannt sein 1 1 0.5 0.5 0 1 2 3 5 4 0 6 –0.5 –0.5 –1 –1 1 2 Sinus 3 4 5 6 Cosinus und wir wollen uns einmal die komplexe Sinusfunktion anschauen. Zunächst einmal das analytische Gebirge: 2 1 0 1 0 –1.5 2 –1 3 –0.5 y x 4 0 0.5 5 1 1.5 6 Die erkennbaren Löcher sind gerade die bekannten Nullstellen der Sinusfunktion bei den ganzzahligen Vielfachen von π. Im konformen Bild haben wir 197 Mathematik für Ingenieure I, WS 2008/2009 Freitag 30.1.2009 2 1 –2 –1 1 2 –1 –2 Die geschlossenen Linien entsprechen dabei den Horizontalen Im z = const und die seitlichen Kurven stammen von den Vertikalen Re z = const. Diese seitlichen Kurven sind Hyperbeln, den Grund dafür werden wir noch kennenlernen. Auch für den Tangens und den Cotangens haben wir eine komplexe Version, die einfach durch den üblichen Quotienten definiert wird tan z := sin z cos z , cot z := . cos z sin z Auch für diese beiden Funktionen dürften Ihnen die reellen Graphen y 4 4 3 3 y 2 1 1 0 2 1 2 3 4 5 0 6 –1 –1 –2 –2 –3 –3 –4 –4 Tangens 1 2 3 Cotangens 198 4 5 6 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 geläufig sein. Etwas interessanter sind der Betrag und der komforme Plot des Tangens 4 3 2 2 1 0 –4 –3 –2 –1 0 1 2 3 4 –2 –1 –2 –1.5 –2 –1 –1 –0.5 y 0 0 0.5 1 x –3 1 1.5 2 –4 Die nach oben gehenden Kreise sind dabei die Bilder der horizontalen Geraden Im z = const, und die seitlichen Kreise sind die Bilder der vertikalen Linien Re z = const. Vorlesung 25, Dienstag 3.2.2009 Wir wollen uns noch ein klein wenig die Exponentialfunktion ∞ X zn z2 z3 + + ··· = e =1+z+ 2! 3! n! n=0 z und mit ihr verbundene Fragen anschauen. Dass es sich hier für reelle x tatsächlich um die gewohnte Funktion ex handelt, können wir jetzt zwar noch nicht sehen, wir werden aber einsehen, dass die obige Reihe zumindest einige Eigenschaften der e-Funktion hat. Die wichtigste Eigenschaft der Exponentialfunktion ist dabei, dass sie Summen in Produkte überführt, die meisten anderen Dinge folgen aus dieser Tatsache. Seien also zwei komplexe Zahlen z, w ∈ C gegeben. Nach Satz 7 über das Cauchyprodukt haben wir dann z w e ·e = ∞ X zn n=0 n! ! · ∞ X wn n=0 ! ∞ X n X z k wn−k = n! k!(n − k)! n=0 k=0 ! ∞ n ∞ X X 1 X n k n−k (z + w)n = z w = = ez+w , n! k n! n=0 n=0 k=0 199 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 wobei im vorletzten Schritt die binomische Formel verwendet wurde. Hieraus folgen dann viele der üblichen Eigenschaften der Exponentialfunktion, zum Beispiel ist e0 = 1 und für jedes z ∈ C ist damit 1 = e0 = ez−z = ez e−z , also ez 6= 0 und 1/ez = e−z . All dies hat eine unerwartete Konsequenz. Wegen e2πi = cos(2π) + i sin(2π) = 1 folgt auch ez+2πi = ez e2πi = ez für alle z ∈ C, d.h. die Exponentialfunktion ist periodisch mit der Periode 2πi. Zum Abschluß wollen wir nun noch die sogenannten Hyperbelfunktionen behandeln. Definiert sind diese Funktionen einfach durch sinh z := ez − e−z ez + e−z sinh z cosh z , cosh z := , tanh z := , coth z := , 2 2 cosh z sinh z gesprochen als Sinus Hyperbolicus, Cosinus Hyperbolicus und so weiter. Offenbar sind der Cosinus Hyperbolicus eine gerade Funktion, und die anderen drei sind ungerade also cosh(−z) = cosh(z) und sinh(−z) = − sinh(z), tanh(−z) = − tanh(z), coth(−z) = − coth(z) wie wir es auch von den trigonometrischen Funktionen gewöhnt sind. Für reelle Argumente haben alle diese Funktionen auch reelle Werte, und haben die folgenden Graphen 200 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 3.5 3 2 3 1 2.5 –2 –1 0 1 2 2 –1 1.5 –2 –3 1 –2 Sinus Hyperbolicus –1 0 1 2 Cosinus Hyperbolicus 1 4 3 0.5 y 2 1 –2 –1 0 1 2 –4 –3 –2 –1 0 1 2 3 4 –1 –0.5 –2 –3 –1 –4 Tangens Hyperbolicus Cotangens Hyperbolicus Als reelle Funktionen haben die Hyperbelfunktionen also zunächst nichts mit den trigonometrischen Funktionen zu tun. Betrachten wir auch komplexe Argumente, so sieht dies ganz anders, wir haben nämlich sin z = 1 eiz + e−iz eiz − e−iz = sinh(iz) = −i sinh(iz), cos z = = cosh(iz), 2i i 2 und damit auch tan z = sin z −i sinh(iz) cos z cosh(iz) = = −i tanh(iz), cot z = = = i coth(iz), cos z cosh(iz) sin z −i sinh(iz) d.h. die hyperbolischen Funktionen sind im wesentlichen bis auf eine Drehung des Arguments um 90◦ gleich den trigonometrischen Funktionen. Diesen Zusammenhang kann man zum Beispiel dazu verwenden trigonometrische Formeln in Formeln für Hyperbelfunktionen zu übersetzen. Wir haben beispielsweise − sin(iz) = sin(−iz) = −i sinh(−i2 z) = 1 sinh z, i also sinh z = −i sin(iz) und cos(iz) = cos(−iz) = cosh(−i2 z) = cosh z, 201 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 und somit cosh2 z − sinh2 z = cos2 (iz) + sin2 (iz) = 1. Für jedes t ∈ R liegt der durch x = cosh t, y = sinh t damit auf der durch die Gleichung x2 − y 2 = 1 gegebenen Kurve. 1.5 y 1 0.5 –2 0 –1 1 2 x –0.5 –1 –1.5 Diese Gleichung beschreibt dabei bekanntlich eine Hyperbel. Für t ∈ R ist stets cosh t > 0 und damit durchlaufen die Punkte (cosh t, sinh t) für t ∈ R den in der rechten Halbebene liegenden Zweig der obigen Hyperbel. Da sinh t negativ für negative t und positiv für positive t ist, wird die Kurve dabei von unten her kommend nach oben durchlaufen. $Id: stetig.tex,v 1.6 2015/10/20 16:24:27 hk Exp $ §13 Stetige Funktionen 13.1 Funktionsgrenzwerte Wir wollen jetzt Grenzwerte der Form lim f (x) x→x0 202 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 definieren. Hierbei verwenden wir meist Funktionen f , die auf reellen Intervallen definiert sind, und daher führen wir erst einmal den Begriff eines Intervalls ein. Definition 13.1: Reelle Intervalle sind Mengen von einer der folgenden Formen: • [a, b] := {x ∈ R|a ≤ x und x ≤ b} mit a, b ∈ R, ein abgeschlossenes Intervall“, ” • (a, b) := {x ∈ R|a < x und x < b} mit a, b ∈ R, ein offenes Intervall“, ” • (a, b] := {x ∈ R|a < x und x ≤ b} mit a, b ∈ R, ein (links) halboffenes Intervall“, ” • [a, b) := {x ∈ R|a ≤ x und x < b} mit a, b ∈ R, ein (rechts) halboffenes ” Intervall“, • [a, ∞) := {x ∈ R|x ≥ a} mit a ∈ R, ein (rechts) unbeschränktes, abgeschlossenes ” Intervall“, • (a, ∞) := {x ∈ R|x > a} mit a ∈ R, ein (rechts) unbeschränktes, offenes ” Intervall“, • (−∞, a] := {x ∈ R|x ≤ a} mit a ∈ R, ein (links) unbeschränktes, abgeschlosse” nes Intervall“, • (−∞, a) := {x ∈ R|x < a} mit a ∈ R, ein (links) unbeschränktes, offenes ” Intervall“, • und letztlich (−∞, ∞) := R. Der Abschluß I eines Intervalls I ⊆ R ist das kleinste abgeschlossene Intervall, das I als Teilmenge enthält, also I zusammen mit seinen von ±∞ verschiedenen Randpunkten. Beachte das wir oben nicht a < b gefordert haben. Damit sind zum Beispiel (0, −1) = ∅ oder [1, 1] = {1} ebenfalls Intervalle. Diese spielen zwar in der Regel keine Rolle, sind aber formal erlaubt. Wie gesagt wollen wir Grenzwerte limx→x0 f (x) definieren, und nehmen dabei an, dass f : I → R eine auf einem Intervall I ⊆ R definierte Funktion ist. Sinnvoll ist dies nur wenn x0 selbst zu I gehört oder schlimmstenfalls ein Randpunkt von I ist, also wenn x0 ∈ I gilt. Beispielsweise wollen wir keine Grenzwerte limx→2 f (x) wenn f nur zwischen 0 und 1 definiert ist. Wir definieren Grenzwerte von Funktionen nun durch Rückführung auf den Grenzwertbegriff für Folgen. Definition 13.2: Seien I ⊆ R ein Intervall und f : I → R eine Funktion. Ist dann x0 ∈ I, so schreiben wir y = lim f (x) x→x0 wenn für jede Folge (xn )n∈N in I\{x0 } mit limn→∞ xn = x0 stets limn→∞ f (xn ) = y gilt. Wir nennen y den Funktionsgrenzwert von f in x0 , oder auch einfach den Grenzwert von f (x) für x gegen x0 . Definitionsgemäß hängt dieser im Fall x0 ∈ I nicht vom Wert f (x0 ) ab. 203 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 Wir wollen ein paar einfache Beispiele behandeln. Zunächst sei f : R → R; x 7→ x3 + 2x2 − 7x + 1, und wir wollen den Funktionsgrenzwert limx→1 f (x) berechnen. Hierzu müssen wir Folgen (xn )n∈N in R mit xn 6= 1 für alle n ∈ N und limn→∞ xn = 1 betrachten. Erstere Bedingung wird dabei keine Rolle spielen. Die Grenzwertsätze für Folgen §11.Satz 2 ergeben lim f (xn ) = lim (x3n + 2x2n − 7xn + 1) n→∞ 3 2 = lim xn + 2 lim xn − 7 · lim xn + 1 n→∞ n→∞ n→∞ n→∞ = 1 + 2 − 7 + 1 = f (1) = −3. Eine ähnliche Rechnung funktioniert offenbar für jeden Punkt x0 ∈ R und jedes Polynom f , d.h. sind f : R → R ein Polynom und x0 ∈ R, so gilt immer lim f (x) = f (x0 ). x→x0 Kommen wir zu einem etwas komplizierteren Beispiel, der rationalen Funktion x3 − x2 + x + 1 f : R\{1, −2} → R; x 7→ x3 − 3x + 2 mit dem Graphen 10 8 6 y 4 2 –3 –2 0 –1 –2 –4 –6 –8 –10 204 1 2 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 Streng genommen haben wir Funktionsgrenzwerte hier nicht definiert, da R\{1, −2} kein Intervall sondern eine Vereinigung von drei Intervallen ist, aber der Grenzwertbegriff läßt sich wörtlich auf diesen Fall übertragen. Betrachten wir zunächst einmal den Grenzwert x → 0. Hier können wir unsere obige Überlegung für Polynome und erneut den Grenzwertsatz für Folgen zum Einsatz bringen, und rechnen für jede Nullfolge (xn )n∈N lim (x3n − x2n + xn + 1) 1 n→∞ lim f (xn ) = = , n→∞ lim (x3n − 3xn + 2) 2 n→∞ d.h. es ist 1 lim f (x) = f (0) = . x→0 2 Ebenso können wir natürlich für jede rationale Funktion f und jeden Punkt x0 ∈ R argumentieren, der nicht gerade eine Nullstelle des Nenners ist, und erhalten in diesen Fällen limx→∞ f (x) = f (x0 ). Wie sieht es nun aus, wenn x0 doch eine Nullstelle des Nenners ist? Im Beispiel haben wir x3 − 3x + 2 = (x − 1)2 (x + 2) mit den beiden Nullstellen −2 und 1. Betrachten wir erst einmal den Grenzwert für x → 1. Zu diesem Zweck schreiben wir f (x) = 1 x3 − x2 + x + 1 · , (x − 1)2 x+2 und wissen bereits x3 − x2 + x + 1 1−1+1+1 2 = = . x→1 x+2 1+2 3 lim Ist nun (xn )n∈N eine Folge mit limx→∞ xn = 1 und xn 6= 1, −2 für alle n ∈ N, so ist x3n − x2n + xn + 1 2 1 = , lim = ∞, n→∞ xn − 2 3 n→∞ (xn − 1)2 lim also x3n − x2n + xn + 1 = ∞. lim n→∞ (xn − 1)2 (xn + 2) Lassen wir also wie bei Folgen auch −∞ und ∞ als Grenzwerte zu, so ist lim f (x) = ∞. x→1 Wie sieht es mit dem Grenzwert für x → −2 aus? Gehen wir wie bei x = 1 vor, so ist 1 x3 − x2 + x + 1 · , x+2 (x − 1)2 x3 − x2 + x + 1 (−2)3 − (−2)2 − 2 + 1 13 lim = =− . 2 2 x→−2 (x − 1) (−2 − 1) 9 f (x) = 205 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 Aber der Grenzwert von 1/(x + 2) für x → −2 existiert nicht, da dieser Quotient zwar im Betrag beliebig groß wird wenn x nahe an 2 ist, aber für x < −2 negativ und für x > −2 positiv ist. Was existiert sind die links- und rechtsseitigen Grenzwerte für x → −2. Dass y ∈ R der rechtsseitige Grenzwert einer Funktion f : I → R in x0 ist, ist wie folgt definiert lim f (x) = y ⇐⇒ x↓x0 Für jede Folge (xn )n∈N in I mit limn→∞ xn = x0 und xn > x0 für alle n ∈ N ist limn→∞ f (xn ) = y. Alternative Schreibweisen für den rechtsseitigen Grenzwert sind lim f (x) = x lim f (x) = lim+ f (x). →x x↓x0 n 0 x→x0 xn >x0 Analog kann auch der linksseitige Grenzwert lim f (x) = x lim f (x) = lim− f (x) →x x↑x0 n 0 x→x0 xn <x0 definiert werden. Für unsere rationale Funktion f haben wir dann lim f (x) = −∞ und x↓−2 lim f (x) = ∞, x↑−2 wobei sich die Vorzeichen so ergeben, da ja noch mit −13/9 multipliziert wird. Die beiden links- und rechtsseitigen Grenzwerte können natürlich auch von ±∞ verschiedene Werte haben, betrachten wir etwa die sogenannte Heaviside Funktion H(x) ( 0, x < 0, H : R → R; x 7→ 1, x ≥ 0, x so ist lim H(x) = 1, lim H(x) = 0. x↓0 x↑0 Wir wollen noch zwei etwas kompliziertere Beispiele behandeln. Zunächst schauen wir 206 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 uns die folgende Funktion an: 1 0.5 1 f : (0, ∞) → R; x 7→ sin x 0 0.2 0.4 0.6 0.8 1 –0.5 –1 Wenn x näher zu Null rück wird 1/x immer größer und sin(1/x) durchläuft immer schneller seine Perioden. Dies führt dann zu dem im Graphen sichtbaren Oszillationseffekt bei Null. In diesen Beispiel gibt es überhaupt keinen Grenzwert von f (x) für x → 0. Wir haben beispielsweise die Folge xn = π 2 1 + nπ mit limn→∞ xn = 0 und f (xn ) = (−1)n für alle n ∈ N. Anschaulich ist dies die Folge, die gerade die abwechselnden Maxima und Minima von f (x) abläuft. Anders ist es bei der ähnlich aussehenden Funktion 1 0.5 1 f : (0, ∞) → R; x 7→ x · sin x 0 –0.5 –1 207 0.2 0.4 0.6 0.8 1 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 3.2.2009 Zwar oszilliert auch diese immer schneller zwischen positiven und negativen Werten hin und her, aber durch die Multiplikation mit x wird diese Oszillation immer kleiner, was zur Existenz des Grenzwerts führt. Ist hier (xn )n∈N eine Folge in (0, ∞) mit limn→∞ xn = 0, so ist für jedes n ∈ N 1 ≤ |xn |, |f (xn )| = |xn | · sin xn und der Einschnürungssatz §11.Satz 4 für Folgengrenzwerte liefert limn→∞ f (xn ) = 0. Hier ist also limx→0 f (x) = 0. Oft wichtig sind auch Grenzwerte x → ±∞. Diese sind völlig analog zu den sonstigen Funktionsgrenzwerten definiert. Sind beispielsweise I ⊆ R ein nach oben unbeschränktes Intervall, also eines der Form (a, ∞), [a, ∞) oder (−∞, ∞), und f : I → R eine Funktion, so definieren wir Für jede Folge (xn )n∈N in I mit lim f (x) = y ⇐⇒ limn→∞ xn = ∞ ist limn→∞ f (xn ) = y. x→∞ Dabei ist auch y = ±∞ zugelassen. Analog definieren wir limx→−∞ f (x) wenn f auf einem nach unten unbeschränkten Intervall definiert ist. Betrachten wir beispielsweise einmal die beiden Grenzwerte limx→±∞ ex , die wir nur unter Verwendung der in §12 gegebenen Definition der Exponentialfunktion als Potenzreihe herleiten wollen. Zunächst bemerken wir, dass für jede positive reelle Zahl x > 0 in der Reihe x2 x3 ex = 1 + x + + + ··· 2! 3! alle Summanden positiv sind. Lassen wir sie also alle, bis auf einen, weg, so erhalten wir ex > x. Ist damit (xn )n∈N eine Folge mit limn→∞ xn = ∞, so ist ja insbesondere für ausreichend große Indizes n stets xn > 0 und somit auch exn > xn . Damit folgt aber auch limn→∞ exn = ∞. Dies zeigt den erwarteten Grenzwert lim ex = ∞. x→∞ Den Grenzwert für x gegen −∞ können wir hierauf zurückführen. Es gilt nämlich 1 = 0. x→∞ ex lim ex = lim e−x = lim x→−∞ 13.2 x→∞ Stetige Funktionen Definition 13.3: Sei I ⊆ R ein Intervall. Eine Funktion f : I → R heißt stetig in einem Punkt x0 ∈ I, wenn f (x0 ) = lim f (x) x→x0 gilt. Die Funktion f heißt stetig in I, wenn sie in jedem Punkt von I stetig ist. 208 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 Wir werden uns mit diesem Begriff und diversen Beispielen für stetige Funktion noch näher beschäftigen. Wir wollen hier aber von vornherein klarstellen, dass die oft gehörte Formulierung die Funktion läßt sich in einem Stück durchzeichnen“ nicht wirklich die ” stetigen Funktion beschreibt, sondern eine wesentlich stärkere Einschränkung ist. Es gibt beispielsweise stetige Funktionen, die in keinem einzigen Punkt eine Ableitung haben, und solche werden sich schwerlich vernünftig zeichen lassen. Solche Funktionen erscheinen zunächst etwas merkwürdig, sie sind in Wahrheit aber der Normalfall. Man kann in sinnvoller Weise sagen, was es bedeutet zufällig eine stetige Funktion zu wählen, und dann stellt sich heraus, dass die Wahrscheinlichkeit das eine zufällig gewählte stetige Funktion auch nur in einem Punkt eine Ableitung hat, gleich Null ist. Die uns hauptsächlich interessierenden Funktionen sind also in gewissen Sinne extreme Sonderfälle. Trotzdem werden wir uns natürlich hauptsächlich mit differenzierbaren Funktionen beschäftigen, die obigen Bemerkungen zeigen nur, dass man für stetige Funktionen der Anschauung nicht allzu sehr vertrauen sollte. Vorlesung 26, Freitag 6.2.2009 In anderen Worten bedeutet die Stetigkeit einer Funktion f : I → R also lim f (xn ) = f ( lim xn ) n→∞ n→∞ für jede in I konvergente Folge (xn )n∈N aus I. Unsere bisherigen Beispiele ergeben sofort die folgenden Beispiele stetiger Funktionen: 1. Jedes Polynom ist auf ganz R stetig. 2. Jede rationale Funktion ist außerhalb der Nullstellen des Nenners stetig. Gelegentlich existieren die Grenzwerte einer rationale Funktion f (x) = p(x)/q(x) auch in den Nullstellen des Nenners noch, etwa im, etwas albernen, Beispiel p(x) = q(x) = x. Das etwas genauer formulierte Resultat für rationale Funktionen werden wir noch behandeln. 3. Die Funktion ( x sin f : R → R; x 7→ 0, 1 x , x 6= 0, x=0 ist auf ganz R stetig. Dagegen ist zum Beispiel die Heaviside Funktion H, also ( 1, x ≥ 0, H(x) = 0, x < 0 209 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 in x = 0 nicht stetig. Stückweise zusammengesetzte Funktionen wie die Heaviside Funktion können natürlich durchaus auch einmal stetig sein, zum Beispiel ist die Betragsfunktion ( x, x ≥ 0, |x| = −x, x ≤ 0 auf ganz R stetig. Haben wir allgemein eine Funktion in der Form ( f1 (x), x ≤ a, f (x) = f2 (x), x > a gegeben, so ist diese genau dann stetig wenn f1 und f2 stetig sind, und zusätzlich f1 (a) = f2 (a) gilt, die beiden Stücke also zusammepassen. Ob eine gegebene Funktion f stetig ist oder nicht ist für die üblicherweise, und auch hier, vorkommenden Funktionen nicht schwer zu entscheiden. Hierzu ist es zum Glück auch so gut wie nie nötig, sich tatsächlich auf die Definition der Stetigkeit zu berufen. Anstelle dessen verwendet man gewöhnlich eine Vielzahl von Sätzen, die besagen das das Zusammensetzen von Funktionen aus stetigen Funktionen wieder stetige Funktionen liefert. Zum Beispiel ist die Summe f + g zweier stetiger Funktionen f und g auch wieder stetig. Um diesen Satz vorzubereiten halten wir erst einmal einige Rechenregeln für Funktionsgrenzwerte fest. Satz 13.1 (Rechenregeln für Funktionsgrenzwerte) Seien I ⊆ R ein Intervall und x0 ∈ I. Weiter seien f, g : I → R zwei Funktionen, deren Grenzwerte limx→x0 f (x), limx→x0 g(x) existieren. (a) Der Grenzwert limx→x0 (f (x) + g(x)) existiert, und es ist lim (f (x) + g(x)) = lim f (x) + lim g(x). x→x0 x→x0 x→x0 (b) Ist c ∈ R eine reelle Zahl, so existiert auch der Funktionsgrenzwert limx→x0 (cf (x)), und es gilt lim (cf (x)) = c · lim f (x). x→x0 x→x0 (c) Der Grenzwert limx→x0 (f (x)g(x)) existiert, und es ist lim (f (x)g(x)) = lim f (x) · lim g(x). x→x0 x→x0 x→x0 (d) Gelten g(x) 6= 0 für alle x ∈ I und limx→x0 g(x) 6= 0, so existiert auch der Grenzwert limx→x0 (f (x)/g(x)) und es ist lim x→x0 lim f (x) f (x) x→x0 . = g(x) lim g(x) x→x0 210 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 (e) Gilt f (x) ≤ g(x) für alle x ∈ I, so ist auch lim f (x) ≤ lim g(x). x→x0 x→x0 (f ) Gilt a := limx→x0 f (x) = limx→x0 g(x) und ist h : I → R eine weitere Funktion mit f (x) ≤ h(x) ≤ g(x) für alle x ∈ I mit x 6= x0 , so ist auch limx→x0 h(x) = a. All diese Aussagen folgen ziemlich direkt aus den entsprechenden Aussagen über Folgengrenzwerte, die wir in §11 behandelt haben. Haben wir zum Beispiel eine Folge (xn )n∈N in I\{x0 } mit limn→∞ xn = x0 , so gelten limx→∞ f (xn ) = limx→x0 f (x) und limn→∞ g(xn ) = limx→x0 g(x), also auch lim (f (xn ) + g(xn )) = lim f (xn ) + lim g(xn ) = lim f (x) + lim g(x), n→∞ n→∞ n→∞ x→x0 x→x0 d.h. wir haben limx→x0 (f (x) + g(x)) = limx→x0 f (x) + limx→x0 g(x). Die anderen Aussagen ergeben sich im wesentlichen genauso und sollen hier nicht vorgeführt werden. Ebenso gilt dieser Satz natürlich auch für links- und rechtsseitige Grenzwerte, für Grenzwerte x gegen ±∞ sowie für Grenzwerte mit Wert ±∞ solange wie bei Folgen nur sinnvolle Ausdrücke vorkommen, also nicht sow etwas wie 0/0. Wie wollen uns nun einmal, wie schon angekündigt, allgemein die Grenzwerte limx→x0 f (x) für eine beliebige rationale Funktion f anschauen. Definitionsgemäß ist eine rationale Funktion der Quotient zweier Polynome f = p/q, und wie im vorigen Abschnitt gesehen gilt für x0 ∈ R mit q(x0 ) 6= 0 stets limx→x0 f (x) = f (x0 ). Insbesondere ist f in diesen Punkten stetig. Allerdings ist die Bedingung q(x0 ) 6= 0 manchmal zu einschränkend, schreiben wir zum Beispiel f (x) = 1 = x/x, so ist f ja auch für x0 = 0 stetig. Die Einschränkung q(x0 ) 6= 0 ist nur dann die richtige Bedingung, wenn Zähler und Nenner der rationalen Funktion keine gemeinsamen Nullstellen haben, beziehungsweise wenn sie vorher ausgekürzt sind. Um dies exakt zu formulieren benötigen wir die, Ihnen wahrscheinlich aus der Schule bekannte, Polynomdivision: Satz 13.2 (Polynomdivision mit Rest) Sind f, p zwei Polynome mit p 6= 0, so existieren eindeutig bestimmte Polynome q und r so, dass f = pq + r ist und der Grad von r echt kleiner als der Grad von p ist (dabei wird der Grad des Nullpolynoms als −∞ interpretiert). Das Polynom q ist dann der Quotient und r der Rest. Der Satz gilt dabei sowohl für reelle, als auch für komplexe Polynome. Die Berechnung von q und r erfolgt über das Ihnen aus der Schule bekannte Verfahren der Division mit Rest. Wir wollen zum 211 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 Beispiel einmal x3 − x2 + x + 1 durch x + 2 teilen: x3 − x2 + x + 1 : x + 2 = x2 − 3x + 7 −(x3 + 2x2 ) − 3x2 + x − (−3x2 − 6x) 7x + 1 − (7x + 14) − 13 der Quotient ist also x2 − 3x + 7 und der Rest ist −13 x3 − x2 + x + 1 = (x2 − 3x + 7)(x + 2) − 13. Ein Spezialfall dieses Satzes ist besonders wichtig. Ist p 6= 0 ein Polynom, das eine Nullstelle a hat, so dividieren wir p durch x − a und erhalten p = q · (x − a) + r, wobei das Restpolynom r Grad 0 oder −∞ hat, also eine Zahl ist. Weiter ist aber 0 = p(a) = q(a) · (a − a) + r = r, also p = q ·(x−a), wir können den zur Nullstelle gehörenden Linearfaktor herausziehen. Gelegentlich kann man sogar höhere Potenzen von x − a aus p herausziehen, und wir sprechen dann von Nullstellen höherer Ordnung. Allgemein ist die Ordnung, oder Vielfachheit, der Nullstelle a die größte natürlich Zahl n so, dass wir p = q · (x − a)n mit einem Polynom q mit q(a) 6= 0 schreiben können. Wir sagen, dass das Polynom p in Linearfaktoren zerfällt, wenn wir p = c(x − a1 )n1 · . . . · (x − ar )nr schreiben können, wobei c eine von Null verschiedene Zahl ist, und a1 , . . . , ar die verschiedenen Nullstellen von p mit Vielfachheiten n1 , . . . , nr sind. Der sogenannte Hauptsatz der Algebra besagt, dass über den komplexen Zahlen überhaupt jedes Polynom in Linearfaktoren zerfällt. Über den reellen Zahlen ist die Lage etwas komplizierter, es gibt ja Polynome wie x2 + 1, die überhaupt keine reellen Nullstellen haben. Allgemein hat ein quadratisches Polynom p = x2 + ax + b nach der pq-Formel genau dann keine reellen Nullstellen wenn a2 − 4b < 0 ist. Es läßt sich zeigen, dass sich über den reellen Zahlen jedes Polynom p als ein Produkt p = c · (x − a1 )n1 · . . . · (x − ar )nr · (x2 + b1 x + c1 )m1 · . . . · (x2 + bs x + cs )ms schreiben läßt. Dabei sind c wieder eine von Null verschiedene Zahl, a1 , . . . , ar die Nullstellen von p mit Vielfachheiten n1 , . . . , nr , und die verbleibenden Faktoren sind Potenzen nullstellenfreier, quadratischer Polynome. Diese Produktdarstellung ist bis 212 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 auf Reihenfolge eindeutig, die Polynome x − a und x2 + ax + b mit a2 − 4b < 0 sind so etwas wie die Primzahlen unter den Polynomen. Nun betrachten wir eine rationale Funktion f (x) = p(x) q(x) mit zwei Polynomen p und q. Wir nehmen an, dass p und q teilerfremd sind, d.h. schreiben wir beide wie oben als ein Produkt, so kommt keiner der Faktoren von p auch bei q vor, und umgekehrt (dies bezieht sich natürlich auf die Faktoren x − a und x2 + ax + b, und nicht auf die Konstante c). Sei x0 ∈ R und wir wollen limx→x0 f (x) berechnen. Im einfachsten Fall q(x0 ) 6= 0 ist sofort lim f (x) = x→x0 p(x0 ) = f (x0 ). q(x0 ) Nun nehmen wir q(x0 ) = 0 an. Da p und q teilerfremd sind, ist dann sicher p(x0 ) 6= 0. Ist weiter n die Vielfachheit der Nullstelle x0 von q, so können wir q = (x − x0 )n · qe mit einem Polynom qe mit qe(x0 ) 6= 0 schreiben. Dann haben wir f (x) = p(x) 1 · n (x − x0 ) qe(x) mit lim x→x0 p(x) p(x0 ) = . qe(x) qe(x0 ) Nun gibt es zwei Fälle. Ist n gerade, so ist lim x→x0 1 =∞ (x − x0 )n und somit lim f (x) = sign x→x0 p(x0 ) qe(x0 ) · ∞. Ist n dagegen ungerade, so gibt es nur links und rechtsseitige Grenzwerte lim x↓x0 1 1 = ∞, lim = −∞ n x↑x0 (x − x0 )n (x − x0 ) und somit lim f (x) = sign x↓x0 p(x0 ) qe(x0 ) · ∞, lim f (x) = − sign x↑x0 p(x0 ) qe(x0 ) · ∞. Insbesondere haben wir damit die exakte Aussage über die Stetigkeit rationaler Funktionen, sie sind genau außerhalb der Nullstellen des Nenners stetig, wenn wir die rationale Funktion als einen Quotienten teilerfremder Polynome schreiben. Die Rechenregeln für Funktionsgrenzwerte liefern jetzt den folgenden Satz: Satz 13.3 (Erhaltung der Stetigkeit) Seien I ⊆ R ein Intervall und f, g : I → R zwei stetige Funktionen. Dann sind auch 213 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 die Funktionen f + g, f · g und c · f für jedes c ∈ R stetig. Ist g(x) 6= 0 für alle x ∈ I, so ist auch f /g stetig. Entsprechend gilt dieser Satz natürlich auch für Stetigkeit in einzelnen Punkten. Weiter sind Hintereinanderausführungen stetiger Funktionen wieder stetig. Satz 13.4 (Hintereinanderausführung stetiger Funktionen) Seien I, J ⊆ R zwei Intervalle und f : I → J, g : J → R zwei stetige Funktionen. Dann ist auch g ◦ f : I → R stetig. Wir wollen noch eine letzte große Klasse stetiger Funktionen angeben, nämlich unsere Potenzreihen aus §12. Da wir Stetigkeit hier nur für reelle Funktionen eingeführt haben, müssen wir uns auch auf reelle Potenzreihen beschränken. SatzP13.5 (Stetigkeit von Potenzreihen) n Sei ∞ n=0 an (x − x0 ) eine reelle Potenzreihe (also x0 ∈ R und an ∈ R für alle n ∈ N0 ) mit positiven Konvergenzradius r > 0. Dann ist die Funktion f : (x0 − r, x0 + r) → R; x 7→ ∞ X an (x − x0 )n n=0 stetig. Insbesondere ergibt dieser Satz die Stetigkeit aller durch Potenzreihen definierten Funktionen, also ex , sin x, cos x. Mit Satz 3 folgen dann auch die Stetigkeit von sinh x, cosh x, tanh x, coth x für x 6= 0, tan x außerhalb der Nullstellen des Cosinus, und so weiter. Kurzum ist jede Funktion, die wir irgendwie als eine Formel hinschreiben können stetig. Wir wollen den Satz auch einmal verwenden, um den Grenzwert sin x x→0 x lim zu berechnen. Für jedes x ∈ R mit x 6= 0 haben wir sin x 1 x3 x5 x2 x4 = · x− + − ··· = 1 − + − ··· x x 3! 5! 3! 5! Nach dem Satz ist diese Funktion aber auf ganz R stetig und somit ist lim x→0 sin x = 1. x Wir hatten ja schon erwähnt, dass man sich Potenzreihen als Polynome von Grad ∞ vorstellen kann, in der obige Rechnung ziehen wir dann sozusagen den Linearfakter x, der zur Nullstelle des Sinus bei 0 gehört, aus der Sinusfunktion heraus, und kürzen ihn weg. Mit den bisher behandelten Sätzen können wir die Stetigkeit der meisten normalerweise vorkommenden Funktionen einfach begründen. Die einzige Ausnahme sind Umkehrfunktionen wie arcsin x, ln x, und so weiter, die wir etwas später behandeln wollen. 214 Mathematik für Ingenieure I, WS 2008/2009 13.3 Freitag 6.2.2009 Grundeigenschaften stetiger Funktionen Der wohl wichtigste Satz über stetige Funktionen ist der folgende Zwischenwertsatz. Da sein Beweis uns zugleich ein gelegentlich brauchbares Verfahren zur näherungsweisen Lösung von Gleichungen liefert, wollen wir diesen Satz mitsamt seinen Beweis vorführen. Satz 13.6 (Zwischenwertsatz) Seien a, b ∈ R mit a < b und f : [a, b] → R eine stetige Funktion. Weiter sei y ∈ R zwischen f (a) und f (b), d.h. es gilt f (a) ≤ y ≤ f (b) oder f (b) ≤ y ≤ f (a). Dann existiert ein x ∈ [a, b] mit f (x) = y. Beweis: Durch Übergang zu f (x) − y können wir y = 0 annehmen. Weiter können wir dann durch eventuellen Übergang zu −f und Ignorieren trivialer Fälle auch f (a) < 0 < f (b) voraussetzen. Setze a1 := a und b1 := b. Ist nun n ∈ N und haben wir an , bn schon konstruiert, so betrachte den Mittelpunkt zwischen an und bn . Dann setze ( n n an+1 := an , bn+1 := an +b , f an +b ≥ 0, 2 2 an +bn an +bn an+1 := 2 , bn+1 := bn , f < 0. 2 Für jedes n ∈ N0 haben wir dann an ≤ an+1 < bn+1 ≤ bn bn − an = b−a 2n und f (an ) < 0 ≤ f (bn ). Die Vollständigkeit der reellen Zahlen impliziert die Konvergenz der monoton steigenden Folge (xn )n∈N sowie der monoton fallenden Folge (bn )n∈N . Wegen b−a =0 n→∞ 2n lim bn − lim an = lim (bn − an ) = lim n→∞ n→∞ n→∞ erhalten wir x := lim an = lim bn . n→∞ n→∞ Für alle n ∈ N ist nun f (an ) < 0 ≤ f (bn ) und somit auch f (x) = lim f (an ) ≤ 0 ≤ lim f (bn ) = f (x), n→∞ n→∞ d.h. es ist f (x) = 0. Die im Beweis verwendete Methode nennt man auch Intervall-Halbierungsmethode. Die Lösung x liegt immer zwischen an und bn , also ist auch |x − an | = x − an ≤ bn − an = b−a 2n und ebenso |x − bn | ≤ (b − a)/2n . Der Fehler verkleinert sich bei dreifacher Ausführung um den Faktor 8, und bei vierfacher Ausführung um den Faktor 16, wir können also 215 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 sagen, dass wir grob alle drei bis vier Iterationsschritte eine neue Dezimalstelle gewinnen. Das ist zwar nicht besonders schnell, aber der Rechenaufwand läßt sich gut a priori abschätzen. Zum Beispiel verwenden wir einmal das Intervallhalbierungsverfahren um die Gleichung cos x = x für 0 ≤ x ≤ π/2 zu lösen. Als Funktion verwenden wir f (x) = x − cos x, also f (0) = −1 < 0 und f (π/2) = π/2 > 0. Wegen π/2 ≈ 1.57 sollten wir nach spätestens 12 Iterationsschritten eine auf zwei Dezimalstellen genaue Lösung haben: 1.6 n 0 1 2 3 4 5 6 7 8 9 10 11 a 0 0 0.3926990818 0.5890486227 0.6872233932 0.7363107784 0.7363107784 0.7363107784 0.7363107784 0.7363107784 0.7378447592 0.7386117496 b 1.570796327 0.7853981635 0.7853981635 0.7853981635 0.7853981635 0.7853981635 0.7608544710 0.7485826247 0.7424467016 0.7393787400 0.7393787400 0.7393787400 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4 Der Fehler bei n = 11 ist dabei höchstens π/212 ≈ 0.0007669903940, und auf zwei Dezimalstellen genau ist die Lösung x ≈ 0.73. Wir kommen nun zur zweiten Grundeigenschaft stetiger Funktionen, der Existenz globaler Maxima und Minima. Satz 13.7 (Existenz globaler Maxima und Minima) Sei a, b ∈ R mit a < b und f : [a, b] → R eine stetige Funktion. Dann ist f beschränkt und hat eine globales Maximum und ein globales Minimum, d.h. es gibt x1 , x2 ∈ [a, b] mit f (x1 ) ≤ f (x) ≤ f (x2 ) für alle x ∈ [a, b]. Diesen Satz wollen wir hier nicht beweisen. Wir wollen nur explizit darauf hinweisen, dass es hier wichtig ist die Funktion auf einem Intervall der Form [a, b] zu betrachten, auf anderen Intervallen ist die Aussage falsch. Zum Beispiel hat die Funktion f : (0, 1] → R; x 7→ 1/x kein globales Maximum, sie ist ja nicht einmal nach oben beschränkt. 13.4 Umkehrfunktionen Der Zwischenwertsatz ergibt auch die üblichen Kriterien für Surjektivität durch Betrachtung von Grenzwerten. Um zum Beispiel einzusehen, dass ein Polynom p(x) = x3 +ax2 +bx+c vom Grad 3 immer surjektiv ist, rechnet man zunächst limx→∞ p(x) = ∞ und limx→−∞ p(x) = −∞ und der Zwischenwertsatz ergibt, daß es für jedes y ∈ R ein x ∈ R mit p(x) = y gibt. Dies funktioniert auch für andere Grenzwerte, haben wir etwa eine stetige Funktion f : (0, 1) → R mit limx→0 f (x) = a, limx→1 f (x) = b, so gibt es 216 Mathematik für Ingenieure I, WS 2008/2009 Freitag 6.2.2009 für jedes y zwischen a und b stets ein x ∈ (a, b) mit f (x) = y. Besonders übersichtlich ist die Lage für injektive Funktionen: Satz 13.8 (Umkehrfunktionen stetiger Funktionen) Seien I ⊆ R ein Intervall und f : I → R eine stetige Funktion. Dann ist f genau dann injektiv, wenn f streng monoton steigend oder streng monoton fallend ist. In diesem Fall ist J := f (I) ⊆ R wieder ein Intervall und sind a, b ∈ R die beiden Randpunkte von I (unter eventueller Einbeziehung von ±∞), so sind limx→a f (x) und limx→b f (x) die beiden Randpunkte von J. Weiter ist die Umkehrfunktion f −1 : J → R dann wieder stetig. Mit diesem Satz folgen sofort Existenz und Stetigkeit der folgenden, Ihnen wahrscheinlich auch schon wohlbekannten, Funktionen: • Die Sinusfunktion h π πi → [−1, 1] sin : − , 2 2 ist stetig und streng monoton steigend, nach dem Satz also sogar bijektiv, und die Umkehrfunktion h π πi arcsin : [−1, 1] → − , 2 2 ist wieder stetig. • Ebenso erhalten wir den streng monoton fallenden arccos : [−1, 1] → [0, π] ist. • Der Tangens ist zwischen −π/2 und π/2 streng monoton steigend mit lim tan x = ∞, limπ tan x = −∞, x→ π2 x→− 2 und nach unseren Sätzen ist π π tan : − , → R; x 7→ tan x 2 2 stetig und bijektiv, mit der stetigen Umkehrfunktion π π arctan : R → − , . 2 2 • Ebenso erhalten wir den streng monoton fallenden arccot : R → (0, π). 217 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 Entsprechend haben auch die Hyperbelfunktionen stetige Umkehrfunktionen, zumindest auf geeigneten Intervallen. Dies sind die sogenannten Area-Funktionen arsinhx, und so weiter. Da diese Funktionen aber nur selten auftauchen, wollen wir sie hier nicht diskutieren. Vorlesung 27, Dienstag 10.2.2009 Zum Abschluss dieses Paragraphen wollen wir nun noch die Umkehrfunktion der Exponentialfunktion, in ihrer reellen und ihrer komplexen Form, besprechen. Wir gehen wieder von der Definition der Exponentialfunktion über ihre Potenzreihe ex = 1 + x + x2 x3 + + ··· 2! 3! 1. Als durch eine Potenzreihe gegebene Funktion ist die Exponentialfunktion stetig. 2. Für alle x, y ∈ R, und auch alle x, y ∈ C, gilt die Gleichung ex+y = ex ey . Dieses hatten wir über die Berechnung des Cauchyprodukts der definierenden Potenzreihen eingesehen. 3. Als eine Folgerung ergab sich ex 6= 0 und e−x = 1/ex für jedes x ∈ R, und auch jedes x ∈ C. 4. Es gelten limx→−∞ ex = 0 und limx→∞ ex = ∞. Aus diesen Fakten werden wir nun einige weitere Eigenschaften der Exponentialfunktion herleiten. Zunächst zeigen wir ex > 1 für alle x ∈ R mit x > 0. Ist nämlich x > 0, so gilt xn > 0 für jedes n ∈ N, und somit ist auch ex = 1 + x + x2 + · · · > 1. 2! Insbesondere ist auch ex > 0 für alle x ∈ R, denn für x > 0 haben wir dies eben eingesehen, für x = 0 ist ex = 1 und für x < 0 haben wir auch ex = 1/e−x > 0. Damit ist es nun leicht zu zeigen, daß die Exponentialfunktion auch streng monoton steigend ist. Seien nämlich x, y ∈ R mit x < y gegeben. Dann ist y − x > 0 und wir rechnen ey = ex+y−x = ex ey−x > ex . 1 x 1 2 3 4 5 0 –1 Nach unserem Satz über Umkehrfunktionen ist das Bild exp(R) ein Intervall mit den Randpunkten limx→−∞ ex = 0 und limx→∞ ex = ∞, also gleich (0, ∞), und wir haben eine stetige Umkehrabbildung –2 ln : (0, ∞) → R 218 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 genannt der natürliche Logariathmus. Der Zusatz natürlich“ wird dabei in mathe” matisch orientierten Texten oft weggelassen, da sowieso keine anderen Logarithmen betrachtet werden. In der Tat schreiben Mathematiker oft auch log für den natürlichen Logarithmus, während log in anderen Zusammenhängen oftmals den Logarithmus zur Basis 10 bedeutet. Aus den Eigenschaften der Exponentialfunktion folgen nun entsprechende Eigenschaften des Logarithmus. Da die e-Funktion streng monoton steigend ist, ist auch der Logarithmus streng monoton steigend. Wegen limx→−∞ ex = 0 und limx→∞ ex = ∞ gelten lim ln x = −∞ und x→0 lim ln x = ∞. x→∞ Weiter überführt der Logarithmus Produkte in Summen. Sind nämlich x, y ∈ R mit x, y > 0, so haben wir eln(x)+ln(y) = eln x eln y = x · y, also ln(x · y) = ln x + ln y. Diese Eigenschaften wurde (sehr viel) früher in den sogenannten Rechenschiebern ausgenutzt. Da die Potenz xn das n-fache Produkt von x mit sich selbst ist, ergibt sich weiter ln(xn ) = n · ln x für alle n ∈ N, x > 0. Außerdem folgt für jedes x > 0 noch 1 1 0 = ln 1 = ln x · = ln x + ln , x x beziehungsweise 1 ln = − ln x. x Wir hatten bereits bemerkt, dass limx→∞ ln x = ∞ ist, allerdings ist diese Konvergenz sehr langsam. Mit wachsenden x steigen die Logarithmen nur sehr gemächlich an. Um dies zu illustrieren, wollen wir uns einmal überlegen, das die Abstände zwischen aufeinanderfolgenden Gliedern der Folge (ln n)n∈N immer kleiner werden, also eine Nullfolge bilden. In der Tat gilt für jedes n ∈ N die Gleichung 1 n+1 1 ln(n + 1) − ln(n) = ln(n + 1) + ln = ln = ln 1 + n n n und mit der Stetigkeit des Logarithmus folgt 1 1 lim (ln(n + 1) − ln(n)) = lim ln 1 + = ln lim 1 + = ln(1) = 0. n→∞ n→∞ n→∞ n n Formal werden beliebige reelle Potenzen durch eine Kombination von Exponentialfunktion und Logarithmus definiert ax := ex·ln a (a, x ∈ R, a > 0). 219 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 Für den Logarithmus zur Basis a, also der Umkehrfunktion von x 7→ ax folgt hieraus loga y = ln y ln a für alle a, y > 0, denn y = ax = ex ln(a) ist zu x · ln(a) = ln(y) gleichwertig. Wir wollen den Logarithmus jetzt auch noch auf komplexe Argumente ausdehnen. Dies funktioniert nicht als Umkehrfunktion der komplexen Exponentialfunktion selbst, wir hatten ja bereits gesehen das diese periodisch mit Periode 2πi, also sicher nicht injektiv ist. Wann gilt nun ez = ew für komplexe Zahlen z, w? Zunächst wollen wir hierzu alle z ∈ C mit ez = 1 bestimmen. Setze dazu z = x + iy an. Wegen |ez | = ex kommt nur x = 0 in Frage, also z = iy. Dann ist ez = cos y + i sin y, die beiden Bedingungen sind also cos y = 1, sin y = 0. Die zweite Gleichung hat genau die Lösungen y = nπ mit n ∈ Z. Eingesetzt in der ersten Gleichung wird diese zu 1 = cos y = cos(nπ) = (−1)n , d.h. die Zahl n muss gerade sein. Damit haben wir ez = 1 ⇐⇒ z = 2πni für ein n ∈ Z. Für z, w ∈ C folgt weiter ez = ew ⇐⇒ ez−w = ez = 1 ⇐⇒ z = w + 2πin für ein n ∈ Z. ew Zwei komplexe Zahlen haben also genau dann denselben Wert unter der Exponentialfunktion, wenn sie sich um ein Vielfaches von 2πi unterscheiden. Schränken wir also die Exponentialfunktion auf den Streifen U := {x + iy|x ∈ R, −π < y < π} ein, so wird exp : U → C injektiv, da in U keine zwei Elemente liegen, deren Imaginärteile sich um echte Vielfache von 2π unterscheiden. y = Im z y = 3π y= π U x = Re z y = −π y = −3π 220 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 Die Menge U ist der angedeutete waagerechte Streifen, und die Werte der Exponentialfunktion wiederholen sich in jedem der unter diesem und über diesem liegenden Streifen. Auf U eingeschränkte hat die e-Funktion somit eine Umkehrfunktion. Der Definitionsbereich dieser Unkehrfunktion ist das Bild exp(U ) ⊆ C unseres Streifens, das wir nun berechnen wollen. Zunächst wissen wir exp(C) = C\{0} da wir wegen exp(x + iy) = ex (cos y + i sin y) jede komplexe Zahl als Bild erreichen, deren Länge sich als ex schreiben läßt, also nicht Null ist. Da die Exponentialfunktion die Periode 2πi hat, werden fast alle diese Werte schon im Streifen U angenommen, die einzigen Ausnahmen sind die Werte ez bei denen z auf einer der waagerechten Linien Im z = ±π liegt. Erneut aufgrund der Periodizität können wir uns auf Im z = π beschränken, also auf z = t + πi mit t ∈ R. Für jedes t ∈ R gilt nun et+iπ = et · (cos π + i sin π) = −et , also {ez |z ∈ C, Im z = π} = {−et |t ∈ R} = (−∞, 0) und somit ist exp(U ) = (C\{0})\(−∞, 0) = C\R≤0 =: C− die sogenannte geschlitzte Ebene“. Damit ist exp : U → C− bijektiv, und wir erhalten ” den komplexen Logarithmus als die Umkehrfunktion ln := (exp |U )−1 : C− → C. Dieser Logarithmus ist der sogenannte Hauptwert, oder auch Hauptzweig, des Logarithmus. Anstelle von U hätten wir auch irgendeinen anderen waagerechten Streifen der Höhe 2π verwenden können, er müsste nicht einmal parallel zur x-Achse verlaufen. Dies würde uns andere Werte des komplexen Logarithmus“ liefern. Abgesehen von ” speziellen Situationen ist der Hauptwert die meistens verwendete Form des komplexen Logarithmus. Die explizite Berechnung ist einfach. Schreiben wir z = reiφ ∈ C− in Polarkoordinaten mit r > 0, −π < φ < π, so ist ln z = ln r + iφ. Dass die Berechnung der Polarkoordinaten einer komplexen Zahl z leicht möglich ist, haben wir dabei in §4 gesehen. Das analytische Gebirge sowie der komforme Plot des Logarithmus für z = x + iy, −2 ≤ x, y ≤ 2 sind: 221 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 3 2 3 1 2 –2.5 1 0 –2 –2 –1.5 –1 –0.5 0.5 1 –1 –2 –1 –1 y –2 0 0 1 x 1 –3 2 2 Zur Warnung wollen wir abschließend an einem Beispiel zeigen, dass der komplexe Logarithmus sich leider nicht ganz so gut verhält, wie wir es vom reellen Logarithmus gewöhnt sind. Wir hatten bereits bemerkt, dass ln(xy) = ln x + ln y für alle reellen Zahlen x, y > 0 gilt. Für den komplexen Logarithmus ist dies nicht uneingeschränkt wahr, d.h. sind z, w ∈ C− so ist im Allgemeinen ln(zw) 6= ln z + ln w. Zum einen muss natürlich überhaupt zw ∈ C− sein, aber dies reicht nicht aus. Wir betrachten 3 z = w = e 4 πi = − 1√ 1√ 2+ 2 i. 2 2 z φ Der Logarithmus von z berechnet sich dann zu 2 3 ln z = πi. 4 z Auf der anderen Seite ist 2 z = 2 1√ 1 2(i − 1) = (−1 + 1 − 2i) = −i. 2 2 In Polarkoordinaten ist z 2 = −i = e−iπ/4 , also 3 π ln(z 2 ) = ln(−i) = − i 6= πi = 2 ln z. 2 2 In diesem Beispiel ist auch klar wo das Problem liegt. Multiplikation komplexer Zahlen bedeutet Multiplikation der Längen und Addition der Winkel, aber bei dieser Addition kann, wie in diesem Beispiel, der Winkel aus dem Intervall (−π, π) herausrutschen, was zu diesem Sprung des Logarithmus führt. Dies kann beispielsweise nicht passieren wenn wir uns auf Winkel zwischen −π/2 und π/2 beschränken, also auf komplexe Zahlen in 222 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 der rechten Halbebene. Sind also z, w ∈ C mit Re z > 0 und Re w > 0, so gilt stets ln(zw) = ln(z) + ln(w). Genau wie der reelle Logarithmus zur Definition beliebiger reeller Potenzen benutzt werden kann, kann der komplexe Logarithmus zur Definition komplexer Potenzen verwendet werden. Wir führen dies zunächst für Wurzeln, also für hoch 1/2 vor. Für z ∈ C− definieren wir √ 1 z := e 2 ln z . Dann gilt auf jeden Fall √ 1 2 1 2 z = e 2 ln z = e2· 2 ln z = eln z = z, √ aber im Allgemeinen leider nicht z 2 = z. Ist zum Beispiel wieder z = e3πi/4 , so haben wir √ √ π 1 1√ 1√ z 2 = −i = e 2 ln(−i) = e− 4 i = 2− 2 i = −z. 2 2 √ √ √ Anders gesagt ist 6= z · z. Für z, w ∈ C mit Re z > 0 und Re w > 0 gilt √ hier √z · z √ dagegen immer zw = z · w. Allgemeine komplexen Potenzen werden durch z w := ew·ln z (w ∈ C, z ∈ C− ) definiert. Beispielsweise ist dann π ii = ei·ln(i) = ei·i 2 = e−π/2 . $Id: diffb.tex,v 1.4 2009/02/17 14:52:36 hk Exp $ §14 Differenzierbare Funktionen 14.1 Differenzierbarkeit und Differenzenquotienten Jetzt sind wir in der Lage, die Differenzierbarkeit einer auf einem reellen Intervall I definierten Funktion f : I → R einzuführen. Sei x ∈ I ein Punkt des Intervalls, und wir wollen die Ableitung von f in x definieren. Es gibt mindestens drei verschiedene, aber natürlich gleichwertige, Methoden f 0 (x) einzuführen. Wir beginnen mit der geometrischen Beschreibung. Hier betrachten wir Punkte y ∈ I verschieden von x, also y 6= x, und bilden die Verbindungsgerade der beiden Punkte (x, f (x)) und (y, f (y)), dies ist sozusagen eine Sekante der Kurve y = f (x). Die Steigung dieser Sekante ist durch den sogenannten Differenzenquotienten f (y) − f (x) y−x 223 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 gegeben. Lassen wir jetzt y gegen x konvergieren, so sollte die Steigung dieser Sekanten gegen die Steigung der Tangente an y = f (x) im Punkte x konvergieren, und diesen Grenzwert, sofern er existiert nennen wir dann die Ableitung von f in x f (y) − f (x) . y→x y−x f 0 (x) := lim In einer etwas exakteren Formulierung definieren wir dann die Tangente von y = f (x) im Punkte x als die Gerade der Steigung f 0 (x) durch den Punkt (x, f (x)). Die zweite Beschreibung ist die Definition der Ableitung als Änderungsrate in einem Punkte. Hier denken wir uns x als Zeit, und die Funktion f (x) als eine sich mit der Zeit ändernde Größe. Die relative Änderung des Wertes f (x) in einem kleinen Zeitraum h ist dann der Quotient f (x + h) − f (x) . h Lassen wir den Zeitabschnitt h hier klein werden, bilden also den Grenzwert h → 0, so ergibt sich im Grenzwert die relative Änderung im Punkt x selbst, also die Änderungsrate in diesem Punkt f (x + h) − f (x) . h→0 h Mathematisch ist dies genau dasselbe wie die geometrische Interpretation, man muss ja nur y = x + h schreiben. Diese Interpretation ist die wohl am häufigsten verwendete Veranschaulichung der Ableitung. Die Ableitung, also die Änderungsrate, einer Ortskurve ist die Geschwindigkeit, deren Änderungsrate ist die Beschleunigung, und so weiter. Die dritte Interpretation ist die Auffassung der Ableitung als eine lineare Approximation. Hier denken wir uns die Funktion f in der Nähe des Punktes x durch eine lineare Funktion angenähert, schreiben also f 0 (x) := lim f (x + h) = f (x) + mh + fehler(h) wobei dann üblicherweise τ (h) = fehler(h) gesetzt wird. Beachte das wir all dies als Funktionen in h auffassen, der Punkt x ist hier fest gewählt und ändert sich nicht. Der Fehler soll dabei natürlich einigen Bedingungen genügen. Die Minimalbedingung ist, dass der Fehler klein wird, wenn h klein wird, es sollte also limh→0 τ (h) = 0 gelten. Für die Ableitung ist dies noch nicht genug. Der Fehler soll nicht nur klein werden, er soll dies proportional zu h tun, es soll also eine Abschätzung |τ (h)| ≤ A|h| mit einer Proportionalitätskonstanten A > 0 gelten. Auch dies ist für die Differenzierbarkeit noch nicht gut genug. Differenzierbarkeit bedeutet, dass man auch die Proportionalitätskonstante A beliebig klein machen kann, wenn h nur klein genug ist. Es soll also für jede vorgegebene Proportionalitätskonstante > 0 stets |τ (h)| ≤ |h| für kleine h sein, beziehungsweise etwas exakter soll es ein δ > 0 mit |τ (h)| ≤ |h| für alle h ∈ R mit |h| ≤ δ geben. Da wir dies zu |τ (h)|/|h| ≤ für 0 6= h ∈ R mit |h| ≤ δ umformen können, sehen wir das die Bedingung an den Fehler gerade τ (h) =0 h→0 h lim 224 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 10.2.2009 ist. Auch diese Interpretation ist zu den anderen beiden Differenzierbarkeitsdefinitionen äquivalent, wobei die Steigung m der approximierenden linearen Funktion gerade m = f 0 (x) sein muss. Dies ist leicht zu sehen, wir können die Gleichung f (x + h) = f (x) + mh + τ (h) ja zu τ (h) f (x + h) − f (x) −m= h h umschreiben. Als Definition müssen wir uns für eine dieser drei Varianten entscheiden, und wählen hierfür die zweite Methode. Definition 14.1: Seien I ⊆ R ein Intervall und f : I → R eine Abbildung. Wir nennen f in einem Punkt x differenzierbar, wenn der Grenzwert f (x + h) − f (x) h→0 h f 0 (x) := lim existiert, welcher dann als die Ableitung von f in x bezeichnet wird. Als ein erstes Beispiel wollen wir die Funktion f (x) = x2 behandeln. Hier rechnen wir (x + h)2 = x2 + 2xh + h2 und haben f (x + h) = (x + h)2 geschrieben als die Summe des linearen Teils x2 + 2xh und dem Fehler τ (h) = h2 . Dann ist limh→0 τ (h)/h = limh→0 h = 0, d.h. f ist in x differenzierbar. Die Ableitung in x ist die Steigung des linearen Teils, also f 0 (x) = 2x. Etwas komplizierter ist die Funktion f (x) = x3 . Hier rechnen wir (x + h)3 = x3 + 3x2 h + 3xh2 + h3 , wir haben also den linearen Teil x3 + 3x2 h und den Fehler τ (h) = 3xh2 + h3 . Wegen τ (h)/h = 3xh + h2 ist wieder limh→0 τ (h)/h = 0, und f ist in x differenzierbar mit der Ableitung f 0 (x) = 3x2 . Nun kommen wir zur allgemeinen Potenz f (x) = xn . Mit der binomischen Formel rechnen wir dann n X n n−1 n n−k k n n (x + h) = x + x h+ x h = xn−1 + nxn−1 h + τ (h) 1 k k=2 mit dem Fehler τ (h) := n X n k=2 k xn−k hk . Dies ist zwar etwas komplizierter als in den beiden vorigen Beispielen, aber der Fehler ist wieder nur ein Polynom in h, in dem nur die Potenzen h2 , h3 , . . . , hn vorkommen. Damit 225 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 ist auch τ (h)/h ein Polynom in dem nur die Potenzen h, h2 , . . . , hn−1 vorkommen, und insbesondere ist limh→0 τ (h)/h = 0. Folglich ist auch f (x) = xn in x differenzierbar mit f 0 (x) = nxn−1 . Vorlesung 28, Freitag 13.2.2009 Behandeln wir als ein weiteres Beispiel einmal die Funktion f (x) = 1/x. Sei 0 6= x ∈ R. In diesem Beispiel ist es etwas bequemer gleich die Änderungsrate zu berechnen. Für h ∈ R, streng genommen mit x + h 6= 0, gilt ja 1 1 x − (x + h) h − = =− , x+h x x(x + h) x(x + h) also lim h→0 1 x+h − h 1 x = lim − h→0 1 1 =− 2 x(x + h) x nach den Rechenregeln §13.Satz 1 für Funktionsgrenzwerte. Damit haben wir f 0 (x) = − 1 . x2 Die meisten Ableitungen rechnet man aber nicht direkt über den Differenzenquotienten aus, sondern verwendet die diversen Rechenregeln für Ableitungen, also die Summenregel, die Produktregel, die Quotientenregel, die Kettenregel und die Regel für die Ableitung von Unkehrfunktionen. Die beiden einfachsten dieser Regeln, sowie einige andere nützliche Tatsachen, wollen wir im nächsten Satz zusammenfassen: Satz 14.1 (Rechenregeln für Ableitungen) Seien I ⊆ R ein Intervall, x ∈ I und f, g : I → R seien in x differenzierbar. Dann gelten: (a) Die Funktion f ist in x auch stetig. (b) Die Funktion f + g ist in x differenzierbar mit (f + g)0 (x) = f 0 (x) + g 0 (x). (c) Für jedes c ∈ R ist die Funktion cf in x differenzierbar mit (cf )0 (x) = cf 0 (x). (d) Die Funktion f g ist in x differenzierbar mit (f g)0 (x) = f 0 (x)g(x) + f (x)g 0 (x). 226 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 Beweis: Die ersten drei Aussagen sind eine direkte Folge der Rechenregeln für Funktionsgrenzwerte aus §13.Satz 1. Für (a) rechnen wir f (y) − f (x) · lim (y − x) = f 0 (x) · 0 = 0, y→x y→x y−x lim (f (y) − f (x)) = lim y→x also auch limy→x f (y) = f (x) und f ist in x stetig. Die Aussage über Summen folgt mit f (x + h) + g(x + h) − f (x) − g(x) h→0 h f (x + h) − f (x) g(x + h) − g(x) = lim + lim = f 0 (x) + g 0 (x), h→0 h→0 h h (f + g)0 (x) = lim und für Vielfache cf ergibt sich die Behauptung analog. Die Produktregel ist auch eine Folge der Rechenregeln für Grenzwerte, benötigt aber noch einen, kleinen, Zwischenschritt. Wir schreiben den Differenzenquotienten als f (x + h)g(x + h) − f (x)g(x) h f (x + h)g(x + h) − f (x)g(x + h) + f (x)g(x + h) − f (x)g(x) = h f (x + h) − f (x) g(x + h) − g(x) = · g(x + h) + f (x) · h h und erhalten f (x + h)g(x + h) − f (x)g(x) h→0 h f (x + h) − f (x) g(x + h) − g(x) = lim · g(x + h) + f (x) · h→0 h h f (x + h) − f (x) g(x + h) − g(x) = lim · lim g(x + h) + f (x) · lim h→0 h→0 h→0 h h = f 0 (x)g(x) + f (x)g 0 (x), (f g)0 (x) = lim da g ja nach (a) in x stetig ist, also limh→0 g(x + h) = limy→x g(y) = g(x) gilt. Insbesondere ist Differenzierbarkeit in einem Punkt eine stärkere Bedingung als Stetigkeit in diesem Punkt. Nennen wir eine Funktion differenzierbar wenn sie in jedem Punkt differenzierbar ist, so ist damit jede differenzierbare Funktion auch stetig. Mit dem Satz folgt nun zum Beispiel, dass jedes Polynom p(x) = an xn + an−1 xn−1 + · · · + a0 differenzierbar ist mit Ableitung p0 (x) = nan xn−1 + (n − 1)an−1 xn−2 + · · · + a1 . 227 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 Für die Ableitung von Hintereinanderausführungen ist bekanntlich die sogenannte Kettenregel zuständig. Satz 14.2 (Kettenregel) Seien I, J ⊆ R zwei Intervalle, x ∈ J, f : J → I eine in x differenzierbare Funktion und g : I → R eine in f (x) differenzierbare Funktion. Dann ist auch die Hintereinanderausführung g ◦ f in x differenzierbar, und es gilt (g ◦ f )0 (x) = g 0 (f (x)) · f 0 (x). Beweis: Diesen Beweis wollen wir nur skizzieren, aber die etwas umständlichen Details auslassen. Für h ∈ R rechnen wir g(f (x + h)) = g(f (x) + f 0 (x)h + τ (h)) = g(f (x)) + g 0 (f (x)) · (f 0 (x)h + τ (h)) + η(f 0 (x)h + τ (h)), wobei τ und η die Approximationsfehler bezüglich f und g sind. Dies können wir umschreiben zu g(f (x + h)) = g(f (x)) + g 0 (f (x))f 0 (x)h + θ(h) mit dem Gesamtfehler θ(h) = g 0 (f (x))τ (h) + η(f 0 (x)h + τ (h)). Damit haben wir g(f (x + h)) als eine lineare Funktion in h plus einem Fehler geschrieben. Können wir also zeigen, dass der Fehler θ(h) der Differenzierbarkeitsbedingung limh→0 θ(h)/h = 0 genügt, so ist g ◦ f in x differenzierbar, und die Ableitung ist die Steigung des linearen Anteils, also g 0 (f (x)) · f 0 (x). Die Bedingung an den Fehler bedeutete, dass |θ(h)| mit |h| höchstens proportional wächst, und zwar mit beliebig kleiner Proportionalitätskonstante. Geben wir und also ein > 0 vor. Für ausreichend kleine h ist dann |τ (h)| ≤ · |h| und wir schätzen |θ(h)| mit der Dreiecksungleichung ab |θ(g)| ≤ |g 0 (f (x)) · f 0 (x)| · |τ (h)| + |η(f 0 (x)h + τ (h)| ≤ |g 0 (f (x)) · f 0 (x)| · |h| + |η(f 0 (x)h + τ (h)|. Wegen limh→0 (f 0 (x)h + τ (h)) = 0 wird mit h auch f 0 (x)h + τ (h) klein, d.h. für ausreichend kleine h haben wir |η(f 0 (x)h + τ (h))| ≤ · |f 0 (x)h + τ (h)|, und rechnen weiter |θ(h)| ≤ ≤ ≤ ≤ = |g 0 (f (x)) · f 0 (x)| · |h| + |η(f 0 (x)h + τ (h)| |g 0 (f (x)) · f 0 (x)| · |h| + · |f 0 (x)h + τ (h)| |g 0 (f (x)) · f 0 (x)| · |h| + · |f 0 (x)| · |h| + |τ (h)| |g 0 (f (x)) · f 0 (x)| · |h| + · |f 0 (x)| · |h| + 2 |h| · (|(g 0 (f (x)) + 1) · f 0 (x)| + ) · |h| 228 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 und mit können wir auch diesen Proportionalitätsfaktor beliebig klein machen. Der Deutlichkeit halber wollen wir noch ein zweites (ebenfalls etwas ungenaues) Argument für die Kettenregel angeben. Wir können den Differenzenquotienten für g ◦ f in der folgenden Weise als Produkt schreiben g(f (y)) − g(f (x)) g(f (y)) − g(f (x)) f (y) − f (x) = · , y−x f (y) − f (x) y−x wobei wir die Möglichkeit f (y) − f (x) = 0 hier ignorieren, wie gesagt ist auch diese Begründung etwas skizzenhaft. Der zweite Faktor ist einfach der Differenzenquotient für die Funktion f , er geht also für y gegen x gegen die Ableitung f 0 (x). Für den linken Faktor erinnern wir uns daran, dass die Funktion f in x stetig ist, es gilt also limy→x f (y) = f (x). Damit ist auch der linke Term ein Differenzenquotient wobei halt f (y) gegen f (x) geht statt y gegen f (x). Der Grenzwert ist damit die Ableitung g 0 (f (x)). Als Grenzwert des Produkts ergibt sich damit g 0 (f (x)) · f 0 (x). Wir wollen als ein Beispiel einmal die Ableitung der Funktion f (x) = 1 xn für eine natürlich Zahl n ∈ N ableiten. Hierzu fassen wir f als die Hintereinanderausführung der Funktionen h(x) = 1/x und g(x) = xn auf, also f = h ◦ g. Die Ableitungen von h und g haben wir bereits zu h0 (x) = −1/x2 und g 0 (x) = nxn−1 ausgerechnet. Mit der Kettenregel erhalten wir damit f 0 (x) = (h ◦ g)0 (x) = h0 (g(x)) · g 0 (x) = − 1 nxn−1 n n−1 · nx = − n+1 , = − n 2 2n (x ) x x wir erhalten also erwartungsgemäß das Ihnen aus der Schule wohlvertraute Ergebnis. Mit den bisherigen Ergebnissen können wir nun leicht die Quotientenregel herleiten, indem wir sie, ähnlich wie eben vorgeführten Beispiel, auf die Kettenregel zurückführen. Satz 14.3 (Quotientenregel) Seien I ⊆ R ein Intervall, x ∈ I, f, g : I → R in x differenzierbar mit g(y) 6= 0 für alle y ∈ I. Dann ist auch f /g in x differenzierbar mit 0 f f 0 (x)g(x) − f (x)g 0 (x) (x) = . g g(x)2 Beweis: Wir wissen bereits, dass die Funktion h(y) = 1/y in g(x) differenzierbar ist mit 1 h0 (g(x)) = − . g(x)2 229 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 Mit der Kettenregel folgt 0 1 g 0 (x) 0 0 0 (x) = (h ◦ g) (x) = h (g(x))g (x) = − , g g(x)2 und die Produktregel ergibt schließlich 0 0 0 f 1 f 0 (x) 1 f 0 (x) f (x)g 0 (x) (x) = f · (x) = + f (x) (x) = − g g g(x) g g(x) g(x)2 f 0 (x)g(x) − f (x)g 0 (x) . = g(x)2 Insbesondere sehen wir, dass die Quotientenregel eigentlich keine eigenständige Regel, sondern eine Kombination aus Ketten– und Produktregel ist. Mit unseren Regeln können wir die Ableitungen aller aus anderen Funktionen zusammengesetzter Funktionen ausrechnen, solange wir nur die Ableitungen der einzelnen Bestandlich kennen. Um dies sinnvoll anwenden zu können benötigen wir noch die Ableitungen der Grundfunktionen, also von Funktionen wie ex , sin x, cos x und so weiter. Betrachten wir einmal die Sinusfunktion. Als Differenzenquotienten müssten wir sin(x + h) − sin x sin x cos h + cos x sin h − sin x cos h − 1 sin h = = sin x · + cos x · h h h h für h → 0 untersuchen, und es läßt sich tatsächlich einsehen, dass (cos h − 1)/h gegen 0 und sin h/h gegen 1 konvergiert (letzteres hatten wir übrigens schon in §13 festgehalten). Wir gehen hier einen etwas einfacheren Weg, uns erinnern uns an der Beschreibung all der oben aufgelisteten Funktionen als Potenzreihen, wie in §12 angegeben. Die Ableitung von Potenzreihen wir nun durch den folgenden Satz gegeben: Satz 14.4 (Ableitung von Potenzreihen) P∞ Sei f (x) = n=0 an (x − x0 )n eine reelle Potenzreihe mit positiven Konvergenzradius r > 0. Dann ist die Funktion f : (x0 − r, x0 + r) → R differenzierbar und für jedes x ∈ (x0 − r, x0 + r) gilt 0 f (x) = ∞ X n−1 nan (x − x0 ) = n=1 ∞ X (n + 1)an+1 (x − x0 )n . n=0 Anders gesagt leiten sich Potenzreihen ab als wären sie Polynome. Wir wollen diese Tatsache hier nicht exakt begründen, da dies Kenntnisse über Reihen verlangt, die in dieser Vorlesung bisher nicht behandelt wurden, und auch nicht behandelt werden 230 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 sollen. Hier soll nur ein kleiner Eindruck gegeben werden warum der Satz wahr ist. Hierzu rechnen wir f (x + h) = a0 + a1 (x + h) + a2 (x + h)2 + a3 (x + h)3 + · · · = a0 + a1 x + a1 h + a2 x2 + 2a2 xh + a2 h2 +a3 x3 + 3a3 x2 h + 3a3 xh2 + a3 x3 + · · · = a0 + a1 x + a2 x2 + a3 x3 + · · · +(a1 + 2a2 x + 3a3 x2 + · · · ) · h + · · · wobei die letzten Punkte für Terme mit h2 , h3 , . . . stehen. Der erste Summand ist f (x) und der zweite ist das behauptete f 0 (x) mal h. Die Fehlerterme involvieren mindestens h2 , teilen wir sie also durch h, so kommt immer noch mindestens ein h vor und der Grenzwert für Fehler/h bei h → 0 wird Null. Diese Argumentation läßt sich zu einem vollständigen Beweis ausarbeiten, dies erfordert aber wie gesagt Hilfsmittel die wir hier nicht einführen wollen. Mit dem Satz über Ableitungen von Potenzreihen ist es leicht die Ableitungen der Standardfunktionen zu berechnen. Beginnen wir mit ∞ sin x = x − X x3 x5 x2n+1 (−1)n + − ··· = . 3! 5! (2n + 1)! n=0 Leiten wir dies nach dem Satz ab, so erhalten wir ∞ X ∞ 2n + 1 2n X x2n sin (x) = (−1) x = (−1)n = cos x, (2n + 1)! (2n)! n=0 n=0 0 n wie hoffentlich erwartet. Für den Cosinus haben wir eine ähnliche Rechnung cos0 (x) = ∞ X ∞ (−1)n n=1 ∞ X 2n 2n−1 X x2n−1 x2n+1 x = (−1)n = (−1)n+1 = − sin x. (2n)! (2n − 1)! (2n + 1)! n=1 n=0 Schließlich kommen wir zur Exponentialfunktion ∞ X xn x2 e =1+x+ + ··· = . 2! n! n=0 x Hier rechnen wir ∞ ∞ ∞ X X n n−1 X xn−1 xn (e ) = x = = = ex . n! (n − 1)! n! n=1 n=1 n=0 x 0 Durch Kombination dieser Regeln, d.h. Summenregel, Produktregel, Quotientenregel, Kettenregel können Sie schon, wie in der Schule, die meisten üblicherweise vorkommenden Funktionen ableiten. Berechnen wir zum Beispiel einmal die Ableitung des Tangens sin x tan x = . cos x 231 Mathematik für Ingenieure I, WS 2008/2009 Freitag 13.2.2009 Diese könnten wir zwar auch als Potenzreihe schreiben, dies wollen wir an dieser Stelle aber noch nicht tun. Wir verwenden einfach die Quotientenregel cos2 x + sin2 x 1 sin2 x = =1+ = 1 + tan2 x. tan (x) == 2 2 2 cos x cos x cos x 0 Die uns noch fehlende Ableitungsregel betrifft das Ableiten von Umkehrfunktionen, dies werden wir etwas später behandeln. 14.2 Grundeigenschaften differenzierbarer Funktionen Die erste sowohl in praktischer als auch in theoretischer Hinsicht wichtige Eigenschaft differenzierbarer Funktionen ist die Ableitung in lokalen Extremstellen. Angenommen wir haben ein Intervall I ⊆ R und eine differenzierbare Funktion f : I → R. Sei x ∈ I ein lokales Maximum von f und zugleich ein innerer Punkt von I, also kein Randpunkt. Für kleine h ist dann f (x + h) ≤ f (x) da x ja ein lokales Maximum ist und somit ist ( f (x + h) − f (x) ≤ 0, für h > 0, h ≥ 0, für h < 0 also ist sowohl f 0 (x) ≤ 0 als auch f 0 (x) ≥ 0. Dies zeigt f 0 (x) = 0 und für lokale Minima folgt dies ebenso. Damit haben wir Satz 14.5: Seien I ⊆ R ein Intervall und f : I → R differenzierbar. Hat dann f im inneren Punkt x von I ein lokales Extremum, so gilt f 0 (x) = 0. Insbesondere ist dies ein notwendiges Kriterium für lokale Extrema, das Sie im Rahmen von Kurvendiskussionen in der Schule ausgiebig verwendet haben. Mit etwas Arbeit läßt sich aus dem obigen Satz nun der folgende fundamentale Mittelwertsatz herleiten: Satz 14.6 (Mittelwertsatz) Seien a, b ∈ R mit a < b und f : [a, b] → R eine stetige Funktion, die im offenen Intervall (a, b) differenzierbar ist. Dann existiert ein ξ ∈ (a, b) mit f 0 (ξ) = f (b) − f (a) . b−a a ξ 232 b Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 Geometrisch betrachten wir die Sekante durch die beiden Punkte (a, f (a)) und (b, f (b)), und der Mittelwertsatz besagt, dass eine der Tangenten an f zu dieser Sekante parallel ist. Die Steigung der Sekante ist der Differenzenquotient (f (b) − f (a))/(b − a) und die Steigung der Tangente ist die Ableitung f 0 (ξ), wobei die Tangente die Funktion f im Punkt (ξ, f (ξ)) berührt. Aus diesem Satz folgen dann die meisten der Ihnen bekannten Eigenschaften differenzierbarer Funktionen. Ist beispielsweise f : I → R eine differenzierbare Funktion mit Ableitung identisch 0, also f 0 (x) = 0 für jedes x ∈ I, so besagt der Mittelwertsatz, dass es für jedes Paar x, y ∈ I mit x < y stets ein ξ zwischen x und y mit f (y) − f (x) = f 0 (ξ) · (y − x) = 0 gibt, d.h. es ist f (x) = f (y). Also ist die Funktion f konstant. Wir wollen diese Tatsache einmal verwenden, um endlich eine Begründung für die schon mehrfach verwendete Gleichung ex = 1 + x + x2 + ··· 2! zu geben. Wir hatten eingesehen, dass die Exponentialreihe auf der rechten Seite gleich ihrer eigenen Ableitung ist, und dies wissen wir ebenfalls von der Ihnen wohlvertrauten e-Funktion. Es reicht also einzusehen, dass es überhaupt nur eine einzige Funktion mit dieser Eigenschaft gibt. Dies ist aber nicht ganz wahr, da ja auch Vielfache wie f (x) = 2ex gleich ihrer eigenen Ableitung sind. Dieses Problem können wir vermeiden indem wir zusätzlich f (0) = 1 fordern. Wir wollen also die folgende Tatsache zeigen: Ist f : R → R eine differenzierbare Funktionen mit f (0) = 1 und f 0 = f , so ist bereits f (x) = ex für alle x ∈ R. Hierzu betrachten wir die Hilfsfunktion h(x) := f (x) ex und rechnen h(0) = 1 und h0 (x) = f 0 (x)ex − f (x)ex f (x)ex − f (x)ex = = 0. e2x e2x Aber eine Funktion mit Ableitung 0 ist konstant, und wegen h(0) = 1 muss sie konstant gleich Eins sein. Folglich ist tatsächlich f (x) = ex für alle x ∈ R. Vorlesung 29, Dienstag 17.2.2009 Eine weitere oft genutzte Anwendung des Mittelwertsatzes ist die Kennzeichnung der Monotonie durch Ableitungen. Sei hierzu f : I → R eine auf dem Intervall I ⊆ R definierte, differenzierbare Funktion. Zunächst nehme an, dass f monoton steigend ist. Sind dann x ∈ I und h 6= 0 so ist f (x + h) − f (x) ≥ 0 wenn h > 0 ist und f (x + h) − f (x) ≤ 0 wenn h < 0 ist. Für den Differenzenquotienten folgt in beiden Fällen f (x + h) − f (x) ≥0 h 233 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 da wir hier entweder einen Quotienten zweier positiver oder einen Quotienten zweier negativer Zahlen haben, und somit ist auch f (x + h) − f (x) ≥ 0. h→0 h f 0 (x) = lim Nun nehme umgekehrt an, dass f 0 (x) ≥ 0 für jedes x ∈ I gilt. Sind dann a, b ∈ I mit a < b, so gibt es nach dem Mittelwertsatz Satz 6 einen Wert ξ zwischen a und b mit f (b) − f (a) = f 0 (ξ) · (b − a) ≥ 0, also ist auch f (a) ≤ f (b). Ist sogar f 0 (x) > 0 für jedes x ∈ I, so zeigt diese Rechnung sogar f (a) < f (b), d.h. f ist dann streng monoton steigend. Für monoton fallende Funktionen können wir ganz analog schließen und erhalten damit den Satz über die Kennzeichnung der monotonen Funktionen: Satz 14.7 (Kennzeichnung monotoner differenzierbarer Funktionen) Seien I ⊆ R ein Intervall und f : I → R differenzierbar. Dann ist f genau dann monoton steigend (fallend) wenn f 0 (x) ≥ 0 (f 0 (x) ≤ 0) für alle inneren Punkte x von I gilt, also alle Punkte von I mit Ausnahme der Randpunkte. Ist f 0 (x) > 0 ( f 0 (x) < 0) für all diese x, so ist f sogar streng monoton steigend (fallend). Die Umkehrung der zweiten Aussage ist aber nicht mehr wahr, wie etwa f (x) = x3 zeigt. Führen wir diese Überlegung ein wenig weiter, so kommt man zu den Ihnen aus Kurvendiskussionen vertrauten Kriterien für lokale Extremstellen. Hierzu müssen wir zunächst die höheren Ableitungen definieren. Sei also f : I → R eine auf einem Intervall I ⊆ R definierte differenzierbare Funktion. Dann können wir auch die Ableitung f 0 : I → R als eine Funktion auf I auffassen, und nennen f zweifach differenzierbar wenn auch f 0 differenzierbar ist. Die zweite Ableitung von f wird dann als die Ableitung der Ableitung definiert f 00 := (f 0 )0 . So fortfahrend wird dann auch dreifache Differenzierbarkeit, vierfache Differenzierbarkeit, und so weiter, definiert. Dann haben wir auch dritte Ableitungen f 000 , vierte Ableitungen f 0000 und so weiter. Da zu viele Striche unübersichtlich werden, schreibt man auch oftmals f (n) für die n-te Ableitung der Funktion f , also f (0) = f, f (1) = f 0 , f (2) = f 00 , f (3) = f 000 , . . . Schließlich nennt man die Funktion f n-fach stetig differenzierbar, wenn sie n-fach differenzierbar ist, und ihre n-te Ableitung f (n) stetig ist. Damit kann man dann den folgenden Satz über lokale Extrema beweisen. Satz 14.8 (Hinreichende Bedingung für lokale Extrema) Seien I ⊆ R ein Intervall, x ∈ I ein innerer Punkt von I und f : I → R eine zweifach stetig differenzierbare Funktion mit f 0 (x) = 0 und f 00 (x) > 0 (f 00 (x) < 0). Dann hat die Funktion f in x ein lokales Minimum (Maximum). 234 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 Beweis: Wir zeigen dies für lokale Minima, nehme also f 0 (x) = 0 und f 00 (x) > 0 an. Da f 00 in x stetig ist, gibt es ein kleineres Intervall J ⊆ I, das x als inneren Punkt hat, und für das f 00 (y) > 0 für alle y ∈ J gilt. Nach Satz 7 ist die Ableitung f 0 dann auf dem Intervall J streng monoton steigend, und damit ist f 0 (y) < f 0 (x) = 0 für y ∈ J mit y < x und f 0 (y) > f 0 (x) = 0 für y ∈ J mit y > x. Wieder nach Satz 7 ist f damit auf J links von x streng monoton fallend, und rechts von x streng monoton steigend. Damit ist x ein lokales Minimum von f . Man kann den Satz noch weiter verbessern und auch noch gewisse Fälle mit f 00 (x) = 0 behandeln, aber dies spielt für praktische Zwecke keine große Rolle. Tatsächlich ist der gesamte Satz fürs praktische Rechnen oft völlig überflüssig. Sucht man im Rahmen einer Kurvendiskussion die lokalen Extrema von f , so bestimmt man ja zunächst die Nullstellen f 0 (x) = 0 der Ableitung von f . Bei dieser Rechnung sieht man aber in den allermeisten Fällen auch gleich wo f 0 größer Null und wo es kleiner Null ist, d.h. man weiß mit Satz 7 sowieso schon wo f monoton steigend und fallend ist. Dann ist aber auch klar was die lokalen Maxima und Minima sind. Als ein Beispiel wollen wir einmal die Funktion f : R → R; x 7→ x2 + sin x behandeln. 5 4 2 3 –2 x 1 –1 0 2 –2 1 –2 –1 1 2 –4 x f 0 (x) f (x) Für alle x ∈ R gilt f (x) ≥ x2 − 1 und damit ist lim f (x) = lim f (x) = ∞. x→−∞ x→∞ Um lokale Extrema zu finden berechnen wir die Ableitung f 0 (x) = 2x + cos x 235 2 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 Für x < −1/2 ist f 0 (x) < cos x − 1 ≤ 0 und für x > 1/2 ist f 0 (x) > 1 + cos x ≥ 0, es kann also nur lokale Extrema mit −1/2 ≤ x ≤ 1/2 geben. Wegen lim f 0 (x) = −∞, lim f 0 (x) = ∞ x→−∞ x→∞ gibt es nach dem Zwischenwertsatz §13.Satz 6 mindestens ein x ∈ [−1/2, 1/2] mit f 0 (x) = 0. Wir wollen uns überlegen, dass es auch nur höchstens ein solches x gibt. Andernfalls gäbe es x, y ∈ R mit x < y und f 0 (x) = f 0 (y) = 0. Aber dann gibt es nach dem Mittelwertsatz Satz 6 auch ein ξ zwischen x und y mit f 00 (ξ) = 0. Andererseits ist f 00 (x) = 2 − sin x ≥ 1 > 0 für alle x ∈ R, es gibt also überhaupt kein ξ mit f 00 (ξ) = 0. Damit gibt es also genau ein x0 ∈ R mit f 0 (x0 ) = 0, und es muss −1/2 ≤ x0 ≤ 1/2 gelten. Dabei ist x0 die eindeutige Lösung der Gleichung cos x = −2x. Diese Gleichung läßt sich nur näherungsweise lösen, beispielsweise wie in §13 durch Intervallhalbierung. Es ergibt sich x0 ≈ −0, 450183. Wegen limx→±∞ f (x) = ∞ muss f in x0 ein lokales, und auch globales, Minimum haben. Schließlich kommen wir zur Ableitung von Umkehrfunktionen. Dabei sind wir nach §13.Satz 8 nur an monoton steigenden beziehungsweise fallenden, differenzierbaren Funktionen interessiert, also nach Satz 7 an Funktion mit f 0 ≥ 0 oder f 0 ≤ 0. Die Voraussetzung des differenzierbaren Umkehrsatzes ist noch ein klein wenig stärker: Satz 14.9 (Umkehrfunktionen differenzierbarer Funktionen) Seien I ⊆ R ein Intervall und f : I → R eine differenzierbare Funktion mit f 0 (x) > 0 für alle x ∈ I oder f 0 (x) < 0 für alle x ∈ I. Dann ist J := f (I) ⊆ R wieder ein Intervall, die Funktion f : I → J ist bijektiv und die Umkehrfunktion f −1 : J → R ist differenzierbar mit 1 (f −1 )0 (x) = 0 −1 f (f (x)) für alle x ∈ J. Wir wollen diesen Satz hier nicht beweisen, sondern nur auf zwei Dinge hinweisen. Zunächst muss die Umkehrfunktion einer injektiven, differenzierbaren Funktion im allgemeinen nicht differenzierbar sein. Beispielsweise ist f (x) = x3 bijektiv √ und differen−1 3 zierbar mit in x = 0 nicht differenzierbarer Umkehrfunktion f (x) = x. Zweitens wollen wir festhalten, dass die eigentliche Aussage des Satzes die Differenzierbarkeit von f −1 ist, die Formel für (f −1 )0 ist eine unmittelbare Konsequenz der Kettenregel. Wir haben nämlich f (f −1 (x)) = x und leiten wir diese Gleichung ab, so folgt mit der Kettenregel f 0 (f −1 (x)) · (f −1 )0 (x) = 1. Behandeln wir ein paar Beispiele. Zunächst nehmen wir einmal unsere Funktion f (x) = x2 +sin x des vorigen Beispiels. Wir hatten ein eindeutiges x0 ∈ R mit f 0 (x0 ) = 0. Wegen limx→∞ f 0 (x) = ∞ muss für x > x0 dann f 0 (x) > 0 gelten, d.h. f : (x0 , ∞) → R 236 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 erfüllt die Voraussetzungen unseres Umkehrsatzes. Wegen limx→∞ f (x) = ∞ ist das Bild f (x0 , ∞) nach §13.Satz 8 gerade f (x0 , ∞) = (f (x0 ), ∞) = (a, ∞) mit a := f (x0 ). Für x > a ergibt sich die Ableitung von f −1 als (f −1 )0 (x) = 1 f 0 (f −1 (x)) = 2f −1 (x) 1 . + cos(f −1 (x)) Die Umkehrformel liefert uns hier also keine explizite Formel für die Ableitung (f −1 )0 , sondern nur eine Gleichung für diese. Dies ist der Normalfall, meist läßt sich f 0 (f −1 (x)) nicht großartig weiter umformen. In einigen glücklichen, und wichtigen, Fällen ist es möglich die Ableitung von f −1 ohne Verwendung von f −1 selbst zu schreiben. Nehmen wir einmal f (x) = tan x für x ∈ (−π/2, π/2). Die Ableitung hatten wir zu f 0 (x) = 1 + tan2 x berechnet. Als Ableitung der Umkehrfunktion arctan = tan−1 erhalten wir 1 1 arctan0 x = = 2 1 + tan (arctan x) 1 + x2 für alle x ∈ R. Ein weiteres Beispiel ist arcsin = sin−1 definiert auf dem Intervall (−1, 1). Der Arcus Sinus selbst ist zwar auch für x = ±1 definiert, aber dort ist arcsin x = ±π/2 eine Nullstelle des Cosinus, also der Ableitung von sin x, und der Satz ist nicht mehr anwendbar. Als Ableitung berechnen wir 1 1 1 1 arcsin0 x = =p =√ . =p 2 cos(arcsin x) 1 − x2 cos2 (arcsin x) 1 − sin (arcsin x) da arcsin x ∈ (−π/2, π/2), also cos(arcsin x) > 0 ist. Das vielleicht wichtigste Beispiel ist die Ableitung des Logarithmus 1 1 ln0 (x) = ln x = e x für alle x > 0. Damit können wir nun zum Beispiel die Ableitung der allgemeinen Potenz f (x) = xa für x > 0 berechnen. Wegen f (x) = ea ln x ist a f 0 (x) = a ln0 (x)ea ln x = xa = axa−1 . x Die Formel für die Ableitung des Logarithmus ist überraschend stark. Wir wollen uns einmal klarmachen, dass aus ihr die in §11 einfach behauptete Grenzwertformel n 1 =e lim 1 + n→∞ n folgt. Wir rechnen nämlich n ln 1 + n1 − ln(1) 1 1 lim ln 1 + = lim n · ln 1 + = lim 1 n→∞ n→∞ n→∞ n n n ln(1 + h) − ln(1) = lim = ln0 (1) = 1, h→0 h 237 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 und mit der Stetigkeit der Exponentialfunktion folgt n n 1 1 = exp lim ln 1 + = exp(1) = e. lim 1 + n→∞ n→∞ n n 14.3 Die Hospitalsche Regel Die eigentliche Grundidee der Hospitalschen Regel haben wir eben gerade bei der Berechnung des Grenzwerts limn→∞ (1 + 1/n)n = e gesehen. Dieser Grenzwert wurde berechnet, indem wir ihn als Grenzwert eines Differenzenquotienten interpretiert haben. Etwas allgemeiner kann man die folgende Situation betrachten. Gegeben seien zwei auf dem Intervall I definierte, differenzierbare Funktionen f, g : I → R, und wir haben einen Punkt a ∈ I mit f (a) = g(a) = 0 und g 0 (a) 6= 0. Dann berechnen wir den Grenzwert limx→a f (x)/g(x) indem wir ihn als einen Quotienten zweier Differenzenquotienten auffassen h i (a) f (x)−f (a) lim f (x)−f x−a x−a f (x) f 0 (a) x→a i h lim = lim = = 0 . x→a g(x) x→a g(x)−g(a) g (a) lim g(x)−g(a) x−a x→a x−a Ein beliebtes, wenn auch eigentlich ziemlich unsinniges, Beispiel ist der Grenzwert sin x = 1, x→0 x lim den wir schon in §13 hergeleitet haben. Die Rechnung über die Hospitalsche Regel wäre sin0 x sin x lim = lim = cos 0 = 1. x→0 x x→0 1 Einfacher kann man auch sagen, dass dieser Grenzwert gerade der Grenzwert des Differenzenquotienten für sin x bei 0 ist, also gleich sin0 0 = cos 0 = 1 sein muss. Man kann die obige simple Beobachtung zur folgenden allgemeinschen Hospitalschen Regel ausbauen. Satz 14.10 (Regel von Hospital) Seien I ⊆ R ein Intervall und a ∈ R ein Randpunkt von I. Weiter seien f, g : I → R zwei differenzierbare Funktionen mit g(x) 6= 0 und g 0 (x) 6= 0 für alle x ∈ I. Es existiere der Grenzwert limx→a f 0 (x)/g 0 (x), wobei auch ±∞ als Grenzwerte zugelassen seien, und es gelte lim f (x) = lim g(x) ∈ {0, −∞, ∞}. x→a x→a Dann existiert auch der Grenzwert f (x) f 0 (x) = lim 0 . x→a g(x) x→a g (x) lim 238 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 Ein einfaches Beispiel, das gleich eine doppelte Anwendung der Hospitalschen Formel beinhaltet, ist die folgende Rechnung sin x cos x 1 1 − cos x = lim = lim = . x→0 2x x→0 x→0 x2 2 2 lim Ein weiteres Beispiel für Grenzwerte gegen ∞ ist 1 1 ln x x = lim = lim =0 a a−1 x→∞ ax x→∞ axa x→∞ x lim für jedes a > 0. Die Hospitalsche Regel ist zwar erstaunlich beliebt, es gibt aber eigentlich recht wenige Beispiele wo ihr Einsatz wirklich sinnvoll ist. Meist werden damit Formeln begründet, die sich direkt auf Potenzreihen oder Differenzenquotienten zurückführen lassen. Im obigen Beispiel könnten wir auch einfach direkt 2 1 − cos x 1 x x4 1 x2 1 = · − + · · · = − + · · · → x2 x2 2! 4! 2 4! 2 rechnen. 14.4 Taylor Entwicklung Wir kommen nun zum allerletzten Thema dieser Vorlesung, der sogenannten Taylor Entwicklung einer Funktion. Hierzu ist es sinnvoll sich zunächst an die Approximationsinterpretation der Ableitung zu erinnern. Bei dieser schrieben wir bei einem gegebenen Punkt x0 f (x0 + h) = f (x0 ) + f 0 (x0 )h + fehler(h), wobei der Fehler mit limh→0 fehler(h)/h = 0 klein wurde. Diese Formel können wir in der Form f (x) = f (x0 ) + f 0 (x0 ) · (x − x0 ) + fehler(x − x0 ) umschreiben. Dies ist eine Approximation von f durch eine lineare Funktion, also durch ein Polynom von Grad 1. Die Taylor Approximation, ist nun die Approximation von f durch Polynome höheren Grades. Definition 14.2: Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N und f : I → R eine n-fach differenzierbare Funktion. Das Taylorpolynom von Grad n zu f mit Entwicklungspunkt (k) x0 ist das Polynom Tn höchstens n-ten Grades mit Tn (x0 ) = f (k) (x0 ) für k = 0, . . . , n, d.h. das Polynom mit Grad ≤ n, dessen erste n + 1 Ableitungen in x0 mit denen von f übereinstimmen. Das Polynom Tn läßt sich leicht explizit angeben. Schreibe hierzu Tn (x) = a0 + a1 (x − x0 ) + a2 (x − x0 )2 + a3 (x − x0 )3 + · · · + an (x − x0 )n . 239 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 Dann sind Tn0 (x) = a1 + 2a2 (x − x0 ) + 3a3 (x − x0 )2 + · · · + nan (x − x0 )n−1 , Tn00 (x) = 2a2 + 2 · 3a3 (x − x0 ) + · · · + (n − 1)nan (x − x0 )n−2 , .. . (k) Tn (x) = 1 · 2 · . . . · kak + 2 · . . . · (k + 1)ak+1 (x − x0 ) + · · · +(n − k + 1) · . . . · nan (x − x0 )n−k n X l! al (x − x0 )l−k , = (l − k)! l=k für 0 ≤ k ≤ n, und insbesondere ist f (k) (x0 ) = Tn(k) (x0 ) = k!ak für 0 ≤ k ≤ n. Das n-te Taylorpolynom ist damit einfach Tn (x) = n X f (k) (x0 ) k! k=0 (x − x0 )k . Wir wollen als ein Beispiel einmal die Funktion f : R → R; x 7→ sin x + cos x + 1√ 2 2x 2 4 y 2 –4 –3 –2 –1 0 1 2 x –2 –4 240 3 4 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 besprechen. Die ersten drei Ableitungen sind √ f 0 (x) = cos x − sin x + 2 x, √ f 00 (x) = 2 − sin x − cos x, 000 f (x) = sin x − cos x, und für die ersten vier Taylor Polynome mit Entwicklungspunkt 0 erhalten wir 4 4 y y 2 –4 –3 –2 –1 0 2 1 2 3 4 –4 –3 –2 –1 0 1 x –2 –2 –4 –4 4 y 2 –1 3 4 y –2 4 T1 (x) = 1 + x 4 –3 3 x T0 (x) = 1 –4 2 0 2 1 2 3 4 –4 –3 –2 –1 0 1 x x –2 –2 –4 –4 √ T2 (x) = 1 + x + 2−1 2 x 2 2 √ T3 (x) = 1 + x + 2−1 2 x 2 − 61 x3 Zumindest in diesem Beispiel sehen wir, dass die Taylor Polynome mit wachsenden Grad sich der Funktion f immer mehr annähern. Der folgende Satz zeigt, dass dies in gewissen Sinne immer wahr ist, und sich sogar quantitativ recht genau fassen läßt. 241 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 Satz 14.11 (Taylorpolynom mit Lagrangeschen Fehlerterm) Seien I ⊆ R ein Intervall, x0 ∈ I, n ∈ N, f : I → R eine (n + 1)-fach differenzierbare Funktion und bezeichne Tn das Taylorpolynom von f mit Grad n zum Entwicklungspunkt x0 . Dann gibt es für jedes x ∈ I ein ξ ∈ I zwischen x0 und x mit f (x) = Tn (x) + f (n+1) (ξ) (x − x0 )n+1 . (n + 1)! Können wir also das Wachstum der (n + 1)-ten Ableitung von f kontrollieren, so haben wir eine Abschätzung wie groß der Fehler bei der Approximation von f (x) durch Tn (x) höchstens sein kann. Ist beispielsweise J ⊆ I ein kleineres Intervall mit x0 ∈ J und haben wir |f (n+1) (x)| ≤ M für alle x ∈ J, so liefert die obige Fehlerabschätzung |f (x) − Tn (x)| ≤ M |x − x0 |n+1 (n + 1)! für alle x ∈ J. Für x nahe bei x0 wird |x−x0 |n+1 sehr klein, und wir haben eine potentiell gute Approximation von f . Wir wollen uns einmal im obigen Beispiel überlegen wie groß der Fehler |f (x) − T3 (x)| sein kann. Hierzu benötigen wir die vierte Ableitung von f f (4) (x) = sin x + cos x, und müssen schauen wie groß diese werden kann. Eine offensichtliche Abschätzung ist |f (4) (x)| ≤ 2, aber wir können dies auch optimal abschätzen. Die Ableitung f (5) (x) = cos x−sin x hat als Nullstellen die x√ mit tan x = 1, also innerhalb [0, 2π] gerade x√ = π/4 √ (4) (4) (4) und x = 5π/4. Wegen f (π/4) = 2, f (5π/4) = − 2 ist damit |f (x)| ≤ 2 für alle x ∈ R. Die obige Fehlerabschätzung wird zu √ 2 4 |f (x) − T3 (x)| ≤ |x| . 24 Für |x| ≤ 1 haben wir damit schon |f (x) − T3 (x)| ≤ 0, 059 und für |x| ≤ 1/2 wird |f (x) − T3 (x)| ≤ 0, 0037. Die Entwicklung bis zum Grad 3 ist etwas ungewöhnlich, in den meisten Fällen betrachtet man allerhöchstens das quadratische Taylor Polynom, und wenn es irgendwie geht sogar nur das lineare, also im wesentlichen die Ableitung. In diesem Zusammenhang ist es besonders günstig wenn x0 ein Wendepunkt der Funktion f ist, wenn also f 00 (x0 ) = 0 gilt. In diesem Fall ist das lineare Taylorpolynom mit Entwicklungspunkt x0 nämlich gleich dem quadratischen Taylorpolynom mit Entwicklungspunkt x0 . Unsere Beispielfunktion hat wegen √ f 00 (x) = 2 − sin x − cos x einen Wendepunkt in x0 = π/4. Wegen π √ π √2 π2 0 π f = 2· 1+ ≈ 3, 158929, f = ≈ 1, 110720 4 8 4 4 242 Mathematik für Ingenieure I, WS 2008/2009 Dienstag 17.2.2009 wird das lineare, und damit auch das quadratische, Taylorpolynom mit Entwicklungspunkt x0 = π/4 ≈ 0, 785398 zu √ π2 π π + x− ≈ 3, 158929 + 1, 110720 · (x − 0, 785398). T1 (x) = 2 · 1 + 8 4 4 4 y 2 –4 –3 –2 –1 0 1 2 3 4 x –2 –4 Wie gesagt will man den Grad des Taylorpolynoms normalerweise so klein wie möglich halten. Für theoretische Fragen ist es dagegen oft gewünscht zu n = ∞, also zu einer Potenzreihe überzugehen. Dies läßt sich natürlich nur für unendlich oft differenzierbare Funktionen überhaupt hinschreiben. Die Taylorpolynome gehen dann in die Taylorreihe über, dies ist die Potenzreihe T (x) = ∞ X f (n) (x0 ) n=0 n! (x − x0 )n , durch die sich übrigens auch klärt, warum man x0 in einer Potenzreihe als den Entwicklungspunkt bezeichnet. Wenn diese Reihe, zumindest in einer Umgebung von x0 konvergiert und dort die Funktion f darstellt, so nennt man die Funktion analytisch. 243