Höhere Mathematik 1-3 (Vorlesungsmitschrift) WS 2011/12 – WS 2012/13 R. Callies Zentrum Mathematik M2 Technische Universität München Das Copyright liegt ausschließlich beim Autor. Vorsicht: Rohfassung! Es sind sicher noch Tippfehler enthalten. Fehlermeldungen/Korrekturvorschläge bitte per Email an [email protected] 1 Vorlesung “Höhere Mathematik 1” (WS 2011/12) Literatur T. Arens et al., Mathematik, Spektrum Akademischer Verlag, Heidelberg, 2008. K. Meyberg, P. Vachenauer, Höhere Mathematik 1+2, Springer Lehrbuch, Berlin, 2001. R. Ansorge, H.-J.Oberle, Mathematik für Ingenieure 1+2, Verlag WileyVCH, Berlin, 2000. 1 Mengen, Zahlen 1.1 Mengen Definition Eine Menge ist die Zusammenfassung von wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen (nach Cantor 1895). Bezeichnungen Ist x Element (d.h. Objekt) der Menge A, so schreibt man x ∈ A, anderenfalls x 6∈ A. Menge A mit endlich vielen (hier: n) Elementen: A = {a1 , . . . , an }; Reihenfolge der Elemente unwichtig Hat jedes Element einer Menge X die Eigenschaft E, so schreibt man: X = {x|x hat die Eigenschaft E} oder X = {x ∈ A|x hat die Eigenschaft E} In letzterem Fall faßt man in der Teilmenge X alle Elemente aus A mit der Eigenschaft E zusammen. ∅ bezeichnet die leere Menge, sie enthält kein Element. Beispiel: X = {x ∈ IR|x ≤ 7} A ⊆ B Mengeninklusion, d.h. A ist Teilmenge von B: Jedes Element von A ist auch Element von B (mathematische Ausdrucksweise: x ∈ A ⇒ x ∈ B ∀ x ∈ A). Beispiel: IN ⊆ IR 2 Sonderfälle: A = B, wenn sowohl A ⊆ B als auch B ⊆ A; A ⊂ B, wenn A ⊆ B und zusätzlich gibt es wenigstens ein b ∈ B mit b 6∈ A. Diese Aussage macht man erst im zweiten Schritt, zuerst gilt auch hier A ⊆ B. Operationen auf Mengen := bedeutet soviel wie ”definitionsgemäß gleich”, der Doppelpunkt steht bei dem neu zu definierenden Ausdruck. Durchschnitt A ∩ B := {x|x ∈ A und/sowohl als auch x ∈ B} = {x|x ∈ A ∧ x ∈ B} Vereinigung A ∪ B := {x|x ∈ A oder x ∈ B} = {x|x ∈ A∨ x ∈ B}, also mindestens in einer Menge oder in beiden Komplementbildung A\B := {x|x ∈ A und x 6∈ B} = {x|x ∈ A ∧ x 6∈ B} Kartesisches oder direktes Produkt A × B := {(a, b)|a ∈ A, b ∈ B} Verallgemeinerung des direkten Produktes auf n Mengen A1 , . . . , An A1 × A2 × . . . × An := {(a1 , a2 , . . . , an )| ai ∈ Ai , i = 1, 2, . . . , n} Beispiel: 4 Sorten von Asterix-Figuren im Überraschungsei, jede Packung enthält 3 Überraschungseier in fester Reihenfolge A = {1, 2, 3, 4} , A × A × A := {(a1 , a2 , a3 )| ai ∈ A, i = 1, 2, 3} Beim kartesischen Produkt kommt es auf die Reihenfolge an: Beispiel: (a, b) = (c, d) ⇐⇒ (a = c) ∧ (b = d) . (a, b) heißt geordnetes 2-Tupel, . . . , (a1 , . . . , an ) geordnetes n-Tupel. 1.2 Zahlen Naiv-direkter Zugang anstelle axiomatischem Zugang Bezeichnung: IN = {1, 2, 3, . . .} ist Menge der natürlichen Zahlen Natürliche Zahlen sind diskret aufgebaut: 1, 2, 3, . . . Natürliche Zahlen sind abgeschlossen unter den Operationen ”+” und ”·”, d.h. wendet man diese Operationen auf natürlichen Zahlen an, so ergibt sich wieder eine natürliche Zahl. 3 Erweiterung von IN zu ZZ: Bezeichnung: ZZ = {. . . , −2, −1, 0, 1, 2, , . . .} ist Menge der ganzen Zahlen Ganze Zahlen sind abgeschlossen unter den Operationen ”+”, ”−” und ”·”. Erweiterung von ZZ zu Q: Bezeichnung: Q = {x|x = Zahlen m n,m ∈ ZZ, n ∈ IN} ist Menge der rationalen Rationale Zahlen sind abgeschlossen unter den Operationen ”+”, ”−”, ”·” und ”/”. Beispiel: Periodische Dezimalbrüche Der periodische Dezimalbruch c := 0.b1 . . . bk = 0.b1 . . . bk b1 . . . bk . . . (z.B. 0.931931931 . . .) hat die gewöhnliche Bruchdarstellung c= b1 . . . bk , da 10k c − c = c(10k − 1) = b1 b2 . . . bk . 99 . . . 9 | {z } k − mal In unserem Beispiel also 931.931 . . . − 0.931 . . . = 931. Damit gehören (unendliche) periodische Dezimalbrüche zu den rationalen Zahlen. Aber das reicht nicht: Zahlreiche mathematische Operationen führen auf Zahlen a 6∈ Q. Beispiel: Wurzel der Zahl 2 √ 2 = 1, 4142 . . . 6∈ Q, die Dezimalbruchdarstellung ist unendlich und nichtperiodisch (sog. irrationale Zahl). Widerspruchs-Beweis (indirekte Beweistechnik): √ √ Annahme: 2 ∈ Q ⇒ ∃p ∈ ZZ, q ∈ IN so, daß 2 = p/q (p, q gekürzt, d.h. teilerfremd) ⇒ 2q 2 = p2 ; damit ist p2 gerade. Das Quadrieren ist als √ äquivalente Umformung zulässig, da mit 2 > 0 und q > 0 auch p > 0. Nun gilt aber, daß das Quadrat einer geraden Zahl ∈ IN immer gerade und das einer ungeraden Zahl ∈ IN immer ungerade ist. Damit ist p gerade, d.h. p = 2p̂ ⇒ 2q 2 = 4p̂2 ⇒ q 2 = 2p̂2 ⇒ auch q ist gerade ⇒ q = 2q̂. √ Dies ist ein Widerspruch zu p, q teilerfremd ⇒ 2 ist neue Zahl 6∈ Q. Formal gibt es zwei grundlegende Beweistechniken: Direkt Beweistechnik: Aussage A =⇒ Aussage B Indirekte Beweistechnik: verneinte Aussage B =⇒ verneinte Aussage A 4 oder mathematisch: (A =⇒ B) ist äquivalent zu (¬ B =⇒ ¬ A) √ In unserem Beispiel: A = (p ∈ ZZ, q ∈ IN teilerfremd), B = ( 2 6= p/q) Erweiterung von Q zu IR: Veranschaulichung als von −∞ nach +∞ reichender Zahlenstrahl (kontinuierliche Zahlenachse). (Abb. 1) Zusammenfassend gilt: IN ⊂ ZZ ⊂ Q ⊂ IR. Bemerkung: Später kommen noch weitere Zahlen, die komplexen Zahlen, hinzu. Einschränkung von IR auf Maschinenzahlen IM Das System IR der reellen Zahlen ist unbegrenzt und lückenlos: Zu jeder reellen Zahl gibt es noch größere und noch kleinere Zahlen, zwischen je zwei reellen Zahlen liegen noch weitere reele Zahlen. Hingegen ist das System IM der auf einem Rechner exakt darstellbaren reellen Zahlen begrenzt und wird durch 4 Parameter beschrieben: Die Basis B > 1 (üblich: B=2,10), die Zahl der Stellen t ≥ 0 sowie die Grenzen α und β. Weiter bezeichnet M ∈ ZZ die Mantisse und E ∈ ZZ den Exponenten. Die Menge G der t-steligen, normalisierten Gleitpunktzahlen zur Basis B ist definiert durch G = {g|g := M · B E−t mit M = 0 oder B t−1 ≤ |M | < B t } , die Maschinenzahlen IM ergeben sich daraus durch IM := {g ∈ G| α ≤ E ≤ β}. Beispiel: B = 10, t = 3, α = −5, β = 5 : a = 15.8 → g = 158 · 10−1 , E = 2 Oft bezeichnet man als normalisierte Gleitpunktdarst. auch die Form a = 0.158 · 102 , d.h. die Mantisse M wird ersetzt durch M · B −t . Fortsetzung des Beispiels: B = 10, t = 3, α = −5, β = 5 G := {g|g := M · 10E−3 , M = 0 oder 102 ≤ |M | < 103 } IM := {g ∈ G| − 5 ≤ E ≤ 5} 5 Es ergeben sich folgende Zahldarstellungen: a=15.8 → g = 158 · 10−1 , E = 2 → a ∈ IM b=15.83977 → g = 158 · 10−1 , E = 2 → b 6∈ IM (Rundungsfehler) c=15800000 → g = 158 · 105 , E = 8 → c 6∈ IM (Überlauf) Problematisch ist, daß die Maschinenzahlen nicht äquidistant sind, sondern eine Lücke um die Null entsteht. In unserem Beispiel ist die kleinste exakt darstellbare reell-positive Zahl B t−1 B α−t = B α−1 = 10−6 . (Abb. 2) Aus technischen Gründen (Schalter an-aus) basieren Rechner meist auf dem Dualsystem (B=2), in dem die Koeffizienten αj der Dualzerlegung x = ±(αn 2n + αn−1 2n−1 + . . . + α0 20 + α−1 2−1 + α−2 2−2 + . . . ), αi ∈ {0, 1} von x zur Darstellung benutzt werden. Die Ziffern 0 und 1 werden durch 0 und L dargestellt. So besitzt x = 18.5 die Dualdarstellung L00L0.L. 1.3 Abbildungen Voraussetzung A, B Mengen (also sehr allgemein!) Grunddefinition Eine Abbildung (Funktion) f von A nach B , im Zeichen f: A → B x 7→ f (x) , x ∈ A (elementweise) ist eine Vorschrift, die jedem x ∈ A genau ein Element y = f (x) ∈ B zuordnet. A heißt Definitionsbereich und die x ∈ A die Argumente der Abbildung f , f (x) das Bild von x unter f oder der Funktionswert von f an der Stelle x. Beachte Ohne die eindeutige Zuordnung von x zu y spricht man explizit von einer ”mehrdeutigen Abbildung”. Grundlegende Typen von Abbildungen • Gehören zu verschiedenen Argumenten auch verschiedene Bilder, so nennt man f injektiv. Formal: x1 6= x2 =⇒ f (x1 ) 6= f (x2 ) . 6 • Sei C ⊆ A, dann heißt f (C) := {f (x)|x ∈ C} das Bild von C unter f . f (A) heißt Wertebereich von f . • f heißt surjektiv, falls f (A) = B. • f heißt bijektiv, falls f injektiv und surjektiv ist. Eine Abbildung f : A → B ist also genau dann bijektiv, wenn es zu jedem y ∈ B genau ein x ∈ A gibt mit y = f (x). In diesem Fall existiert die Umkehrabbildung f −1 : B → A. • Einfachste bijektive Abbildung ist die Identität Id : A → A , Id(x) := x ∀ x ∈ A . (Abb. 3) (Abb. 4) 7 1.4 Ungleichungen, Intervalle, Schranken Definition: Ungleichung Eine Ungleichung für Zahlen x, y ∈ IR ist ein Größenvergleich der Form x < y bzw. x ≤ y ( x kleiner/kleiner gleich y) oder analog x > y bzw. x ≥ y (größer/größer gleich). Ungleichungen benutzt man häufig für Abschätzungen; so gibt etwa x ≤ y0 eine Abschätzung der unbekannten Größe x durch eine (bekannte) Zahl y0 nach oben an. Ungleichungen machen nur Sinn für reelle Zahlen (und deren Teilmengen, z.B. Q). Einfache Regeln für Abschätzungen x ≤ y, a ≤ b =⇒ x + a ≤ y + b x ≤ y, 0 ≤ a =⇒ ax ≤ ay x ≤ y, a < 0 =⇒ ay≤ax (Vorzeichen!) 1 1 0 < x ≤ y =⇒ 0 < ≤ y x Mit Hilfe von Ungleichungen lassen sich Intervalle und Schranken definieren. Definition: Intervall Vor.: Seien a, b ∈ IR, a < b. Dann heißt die Menge [a, b] := {x ∈ IR|a ≤ x ≤ b} abgeschlossenes Intervall mit den Randpunkten a, b. Analog definiert man offene Intervalle (]a, b[:= {x ∈ IR|a < x < b}) und (links-/rechtsseitig) halboffene Intervalle (]a, b] := {x ∈ IR|a < x ≤ b}, [a, b[:= {x ∈ IR|a ≤ x < b}). Sonderfälle stellen −∞, ∞ ( ± -unendlich) dar (] − ∞, a] := {x ∈ IR|x ≤ a}, IR ≡] − ∞, +∞[). Intervalle machen nur Sinn für reelle Zahlen. Definition: ε-Umgebung Sei ε > 0 (und ε sehr klein), dann heißt das Intervall Kε (a) := {x ∈ IR|x ∈ ]a − ε, a + ε[ } ε-Umgebung des Punktes a ∈ IR. Definition: Schranke Eine Menge S ⊂ IR heißt nach oben beschränkt, falls ein b ∈ IR existiert, so daß S ⊆ ] − ∞, b]. 8 Formal schreibt man: ”. . . , falls ∃ b ∈ IR 3 S ⊆ ] − ∞, b]”. b heißt obere Schranke. Analog: nach unten beschränkt, untere Schranke S ⊂ IR heißt beschränkt, falls ∃ a, b ∈ IR, a < b, 3 S ⊆ [a, b]. Diese Schranken müssen nicht scharf sein. Definition: Supremum, Infimum Ist S ⊂ IR nach oben beschränkt, so heißt die kleinste obere Schranke d ∈ IR von S das Supremum d := sup S Analog definiert man die größte untere Schranke g ∈ IR von S als Infimum g := inf S Wichtig: Supremum d und Infimum g brauchen der Menge S selbst nicht anzugehören, jedoch kommen ihnen die Elemente von S beliebig nahe: Sei ε > 0 beliebig gewählt (d.h. für jedes ε), dann gibt es stets ein x ∈ S mit d − ε < x ≤ d (sonst wäre d − ε Supremum). Beispiele sup[a, b] = sup[a, b[= b, inf{x ∈ Q + |x2 > 2} = √ 2, inf{1 + n1 , n ∈ IN} = 1 Die Existenz von Supremum und Infimum ist nicht selbstverständlich, sondern eine Grundannahme (Axiom) der reellen Zahlen: Vollständigkeitsaxiom: Jede nach oben beschränkte Menge reeller Zahlen hat ein Supremum. Man zeigt daraus die Existenz eines Infimums für eine nach unten beschränkte Menge S durch inf S = − sup{−x|x ∈ S}. 1.5 Betrag Definition: Sei a ∈ IR, dann definiert man den Betrag von a, i.Z. |a|, durch ½ a, falls a ≥ 0 |a| := −a, falls a < 0 . Rechenregeln für Beträge folgen unmittelbar aus der Definition (i) −|a| ≤ a ≤ |a|, | − a| = |a| ¯ a ¯ |a| ¯ ¯ (ii) |a · b| = |a| · |b|, ¯ ¯ = b |b| 9 (iii) Dreiecksungleichung: |a + b| ≤ |a| + |b| Man zeigt dies durch: −|a| ≤ a ≤ |a|, −|b| ≤ b ≤ |b| ⇒ −(|a| + |b|) ≤ a + b ≤ |a| + |b| ⇒ |a + b| ≤ ||a| + |b|| = |a| + |b| . (iv) |a − b| ist der Abstand der zu a und b gehörenden Punkte auf der Zahlengeraden; damit lautet eine andere Darstellung der εUmgebung Kε (a) := {x ∈ IR| |x − a| < ε } . Rechenbeispiel Man bestimme alle x ∈ IR mit 3 2 > . |x − 9| x + 2 Systematisches (!) Lösungsvorgehen: • Nenner 6= 0 ⇒ x 6= 9, x 6= −2. • Damit sind 3 Teilmengen zu untersuchen: M1 := {x|x < −2}, M2 := {x| − 2 < x < 9}, M3 := {x|x > 9} 10 1.6 Vollständige Induktion, Summen, Produkte Vollständige Induktion Dies ist neben den (bereits besprochenen) direkten und indirekten Techniken eine dritte Beweistechnik, mit der man Aussagen A(n) für eine Menge M von diskreten Objekten zeigt: M = {n ∈ IN ∧ n ≥ n0 | A(n) ist wahr } . Das Grundschema lautet wie folgt: Es sei A(n) eine Aussage über eine natürliche Zahl n. Gelingt es zu zeigen (1) Induktionsanfang: A(n0 ) ist richtig (2) Induktionsschritt: Aus der Annahme, A(n) für n ≥ n0 sei richtig (Induktionsvoraussetzung), folgt auch, daß A(n + 1) richtig ist. Dann ist A(n) richtig ∀ n ∈ IN ∧ n ≥ n0 . Beispiel: Summenformel Beh.: 1+2+...+n = n(n + 1) , 2 n ∈ IN . Bew.: 1 Induktionsanfang für n = 1: 1 = · (1 + 1) = 1 2 Induktionsschritt n → n + 1: 1 + 2 + . . . + n + (n + 1) Ind.vor. = n(n + 1) (n + 1)(n + 2) + (n + 1) = ; 2 2 das ist die zu beweisende Formel für n + 1. Beispiel: Bernoulli-Ungleichung Beh.: (1 + h)n ≥ 1 + nh, falls h ≥ −1 . Bem.: Sinnvoll für schnelle Abschätzungen. 11 ¤ Begriff der Rekursion Eng mit der vollständigen Induktion verknüpft ist die (Definition durch) Rekursion, mit der man Größen An festlegt ∀ n ∈ IN0 : 1. Definiere A0 ; 2. Setze Ak , k ≤ n, als bekannt voraus u. drücke An+1 durch die Ak aus. Rekursionen sind ein effizientes Werkzeug, um mathematische Modelle im Maschinenbau zu formulieren (vgl. Roboter). Es gibt Ein- und Mehrtermrekursionen. Beispiel für rekursive Definitionen: Fakultäten Man definiert n! (n ∈ IN0 ) durch 0! := 1, (n + 1)! := n!(n + 1) So gilt etwa 6! = 1 · 2 · 3 · 4 · 5 · 6 = 720, 9! = 362880 → sehr schnelles Wachstum Definition: Summen- und Produktsymbole am + am+1 + . . . + an =: n X ak k=m oder rekursiv m X n+1 X ak := am , à ak := k=m n Y k=m am · am+1 · · · an =: n X ! ak + an+1 k=m ak , ak ∈ IR ∀ k ∈ IN0 . k=m Definitionsgemäß sind n−j X ak := 0, k=n n−j Y ak := 1 für j ≥ 1. k=n Eine Summe oder ein Produkt sind unabhängig vom Summationsindex n X ak = n X ai i=m k=m Definition: Binomialkoeffizienten µ ¶ n! n(n − 1) · · · (n − k + 1) n := = k k!(n − k)! k! Aus der Definition folgen direkt die Sonderfälle µ ¶ µ ¶ n n = = 1, 0 n µ ¶ µ ¶ µ ¶ µ ¶ n(n − 1) n n n n = = n, = = 1 n−1 2 n−2 2 12 und die Rekursionsformel (Verifikation durch Nachrechnen/Induktion) µ ¶ µ ¶ µ ¶ n+1 n n = + k k−1 k Definition: Permutation A sei endliche Menge mit unterscheidbaren Elementen a1 , . . . , an . Eine Permutation von A definiert eine bijektive Abbildung, die jedem Element ai einen Platz j in der Aufzählung zuordnet: z.B. {a1 , a2 , . . . , an } oder {a2 , a1 , . . . , an } oder . . . Es gibt n! verschiedene Permutationen (Bew. mit vollst. Induktion). Definition und Eigenschaften der n-te Potenz Man definiert (rekursiv) an (a ∈ IR, n ∈ IN0 ) durch a0 := 1 (für a 6= 0, sonst a1 := a), 1 an+1 := an · a sowie a−n := n (a 6= 0) a Aus der Definition leiten wir (i.a. mit vollst. Induktion) die folgenden Rechenaussagen ab: Gegeben seien x, y ∈ IR, n, m ∈ IN. Es gilt (i) xn xm = xn+m (ii) (xn )m = xn·m (iii) (xy)n = xn y n ; µ ¶n x xn für y 6= 0 gilt: = n y y Weiter gelten die folgenden Ungleichungen (iv) 0 < x < y ⇒ 0 < xn < y n (v) n ≥ 2 ∧ x ∈ ]0, 1[ ⇒ xn < x < 1, (vi) m > n ∧ x ∈ ]0, 1[ ⇒ xm < xn , n ≥ 2 ∧ x > 1 ⇒ 1 < x < xn m > n ∧ x > 1 ⇒ xm > x n Elementare Formeln (Beweis jeweils mittels vollst. Induktion) (A) Geometrische Summenformel n 1 − q n+1 X qi = 1−q i=0 n+1 13 , falls q 6= 1 , falls q = 1 (B) Binomische Formel ¶ n µ X n (a + b) = an−k bk , k n a, b ∈ IR , 0 ≤ n ∈ ZZ k=0 (C) Lotto µ Eine Menge aus n Elementen besitzt n k ¶ Möglichkeiten, k- elementige Teilmengen auszuwählen. µ ¶ 49 Lotto: = 13.983.816 6 Definition und Eigenschaften der n-ten Wurzel Definition mit Fallunterscheidung: Die Idee ist, Potenzieren und Wurzelziehen als inverse Operationen einzuführen. 1. Zu (x ∈ IR ∧ x ≥ 0) und (n ∈ IN) ist die n-te Wurzel von x jene eindeutig bestimmte Zahl y ≥ 0, deren n-te Potenz gleich x ist: y= √ n 1 mit x =: x n yn = x 2. Zu (x ∈ IR ∧ x < 0) und (n ∈ IN ∧ n ungerade) ist die n-te Wurzel von x jenes eindeutig bestimmte y < 0, dessen n-te Potenz gleich x ist: √ 1 y = n x =: x n mit y n = x Aus der Definition leiten wir (mittels Induktion) wieder einige Rechenregeln ab 1. 2. Beispiel √ n xy = √ √ n x n y; √ n q n √ m ½ xn √ nm x= x |x| = p 3 √ 5 x; √ n ¡√ ¢m n x für n ungerade für n gerade 72 · 71/3 = 142/3 14 xm = 1.7 Komplexe Zahlen C Motivation √ Die Definition von n x verlangt eine Fallunterscheidung bzgl. dem Vor√ zeichen von x. Dies folgt aus der Tatsache, daß n x als Umkehrabbildung der n-ten Potenz definiert wurde. Dies ist eine unbefriedigende Situation. Ausweg Vergrößerung des Zahlenbereiches (Fachbegriff: Zahlenkörper) Intuitive Definition Da x2 + 1 = 0 in IR keine Lösung besitzt, definiert man als neues Symbol √ i := −1 (i heißt ”imaginäre Einheit”) mit i2 = −1 . Zahlen, die diese imaginäre Einheit enthalten, heißen komplexe Zahlen C . Man schreibt sie als C := {z|z = a + ib mit a, b ∈ IR}. Anschauliche Darstellung Erweiterung des Zahlenstrahls zur Zahlenebene (Abb. 5) a heißt Realteil von z (i.Z. a = Re z), b Imaginärteil von z (i.Z. b = Im z) und z̄ := a − ib heißt die zu z konjugiert komplexe Zahl. Def. der Grundoperationen: Summe/Differenz und Multiplikation Sei z := a + ib und w := u + iv. Dann definiert man z ± w = (a + ib) ± (u + iv) := (a ± u) + i(b ± v) z · w = (a + ib) · (u + iv) := (au − bv) + i(av + bu) Add./Subtr./Multipl. werden formal wie gewohnt ausgeführt mit i2 = −1. 15 Einbeziehung der Division z a + ib T rick z · w̄ (a + ib)(u − iv) (au + bv) + i(bu − av) = = = = w u + iv w · w̄ (u + iv)(u − iv) u2 + v 2 bu − av au + bv = +i 2 2 2 u +v u + v2 Der Trick macht den Nenner reell! Zwischenbemerkungen (i) Wir haben mit C neue Zahlen gefunden, in denen analoge Operationen durchführbar sind wie in IR. (ii) Jedes x ∈ IR läßt sich in C einbetten durch x = x + i0, IR ist also echte Untermenge von C . (iii) Nachteil: Da wir uns in einer Ebene bewegen, ist eine >, <Anordnung nicht mehr möglich. (iv) Eine komplexe Zahl z = a + ib läßt sich auch auffassen als ein Punkt in der Ebene mit den Koordinaten (a, b). Spezialfälle: a ∈ IR → (a, 0), i → (0, 1) (v) Potenzen komplexer Zahlen sind analog definierbar. (vi) Es gelten für die konjugiert komplexen Zahlen die folgenden Rechengesetze: z + w = z + w, z · w = z · w, ³z´ z = , w w 1 1 Re z = (z + z), Im z = (z − z) 2 2i Beispiele Betrag komplexer Zahlen Der Betrag erlaubt für komplexe Zahlen zumindest die Angabe der Entfernung vom Ursprung, wenn schon kein direkter Größenvergleich 16 möglich ist (also schwächere Aussage). (Abb. 6) Definition: Betrag Für z = a + ib heißt |z| := √ a 2 + b2 = √ z · z ∈ IR+ 0 der Betrag von z. Für den Betrag gelten die folgenden Rechenregeln: • |z| ≥ 0 , |z| = 0 ⇔ √ a 2 + b2 = 0 ⇔ z = 0 • |wz| = |w| |z|, |w/z| = |w|/|z| für z 6= 0, |z| = |z|, |z − w| = |w − z| • −|z| ≤ Re z ≤ |z|, −|z| ≤ Im z ≤ |z| • Dreiecksungleichung: |z + w| ≤ |z| + |w|, |z − w| ≥ |z| − |w| Verallgemeinerung auf n Summanden: ¯ ¯ n n ¯X ¯ X ¯ ¯ z |zk | ≤ ¯ k¯ ¯ ¯ k=1 k=1 Beispiele (i) Kreis um z0 mit Radius r: Kr (z0 ) := {z ∈ C | |z − z0 | ≤ r} (ii) Bestimme alle z mit |z + 1| = |z − 1|. (ii) w := 3 + 4i, z := 4 + 3i ¯w¯ √ ¯ ¯ → ¯ ¯ = 1 , |w + z| = |7 + 7i| = 7 · 2 = 9.899 ≤ |w| + |z| = 2 · 5 z 17 Polarform einer komplexen Zahl (Abb. 7) Idee Statt durch zwei Koordinaten kann man den Punkt z in der Zahlenebene auch durch den Abstand |z| vom Nullpunkt und den Winkel ϕ festlegen. Dazu definieren wir im rechtwinkligen Dreieck 4(0az) (ad hoc) den Sinus- und den Cosinus durch sin ϕ := Gegenkathete b Ankathete a = , cos ϕ := = . Hypothenuse |z| Hypothenuse |z| Den Winkel ϕ kann man im Gradmaß (deg, z.B. 0◦ . . . 360◦ ) oder im Bogenmaß (rad, z.B 0 . . . 2π) messen (Vorsicht bei Taschenrechnereinstellung!!). Bogenmaß gibt die Länge des Kreisbogens des Einheitskreises (Kreis mit Radius 1) an. Der Zusammenhang zwischen einem Winkel ϕ, gemessen in rad (ϕ1 ), und dem gleichen Winkel, gemessen in deg (ϕ2 ), lautet 2π ϕ1 = ϕ2 . 360 Wir arbeiten in der Regel im Bogenmaß! Beachte: Der Winkel ϕ ist nicht eindeutig, da cos ϕ = cos(ϕ + 2nπ), sin ϕ = sin(ϕ + 2nπ), n ∈ ZZ . Definition: Polarform Die Polarform ist die Darstellung einer komplexen Zahl durch Betrag und Winkel in der Form z = a+ib = |z| cos ϕ+i|z| sin ϕ = r(cos ϕ+i sin ϕ) mit r := |z| , ϕ := arg z Dabei heißt ϕ das Argument (oder die Phase) von z. Für z = 0 ist arg z nicht erklärt. 18 Als Hauptwert (= Normierung) von arg z bezeichnet man solche ϕ, für die gilt: ϕ ∈ ] − π, π]. Euler führte die folgende Abkürzung ein (Zusammenhang mit eFunktion später): eiϕ := cos ϕ + i sin ϕ Beispiel 1+i = √ ⇒ z = |z|eiϕ ³ π´ π 2 · cos + i sin 4 4 Multiplikation in Polardarstellung Mit z = |z|(cos ϕ + i sin ϕ) ∈ C und w := |w|(cos ψ + i sin ψ) ∈ C gilt zw = |z||w| [(cos ϕ cos ψ − sin ϕ sin ψ) + i(cos ϕ sin ψ + sin ϕ cos ψ)] = |z||w| [cos(ϕ + ψ) + i sin(ϕ + ψ)] Die letzte Umformung ergab sich aus den Additionstheoremen (Schule; Beweis später). Wiederholtes Anwenden der Multiplikation ergibt Formel von Moivre (cos ϕ + i sin ϕ)n = cos(nϕ) + i sin(nϕ) , n ∈ IN Die Formel vereinfacht insbesondere das Wurzelziehen, da gilt: ³ ϕ ϕ ´n ϕ=2π cos + i sin = cos ϕ + i sin ϕ =⇒ n n¶ µ n 2π 2π cos + i sin = cos 2π + i sin 2π = 1 n n 2πk Die ωk := cos 2πk n + i sin n , k = 0, 1, . . . , n − 1, heißen n-te Einheitswurzeln, da ωkn = 1. Diese sind alle Lösungen der Gleichung z n = 1 mit ϕ ∈ [0, 2π[ und liegen mit gleichen Abständen auf dem Einheitskreis. Wir wollen alle Wurzeln! (Abb. 8) 19 Die n-ten Wurzeln z n = a einer beliebigen komplexen Zahl a = |a|(cos α + i sin α) ∈ C berechnen sich dann zu µ ¶ p α + 2πk α + 2πk n z = |a| cos + i sin , k = 0, 1, . . . , n − 1 . n n 20 2 Vektoren und Vektorräume 2.1 Kartesisches Koordinatensyst. u. Vektoren im IR2 Konstruktion: Kartesisches Koordinatensystem Gegeben sei eine Ebene E, ein Nullpunkt 0 und zwei aufeinander senkrecht stehende Zahlengeraden (die x, y-Achsen bzw. x1 , x2 -Achsen). (Abb. 9) Jeder Punkt P0 ∈ E wird durch seine Koordinaten (x0 , y0 ) bzw. (x10 , x20 ) eindeutig charakterisiert. Umgekehrt gibt es zu jedem Zahlentupel (x10 , x20 ) ∈ IR2 genau einen Punkt P0 ∈ E. Der Raum ½µ 2 IR := x1 x2 ¶¯ ¾ ¯ ¯ xi ∈ IR , i = 1, 2 ¯ ist die Menge aller reellen, zweielementigen Zahlentupel. Definition: Vektor ∈ IR2 Ein Vektor µ ~x := x1 x2 ¶ ∈ IR2 ist definiert als die komponentenweise Differenz der Koordinaten zweier Punkte. (Abb. 10) 21 Bemerkungen Der Abstand zweier Punkte ergibt sich als Betrag des Verbindungsvektors, definiert analog dem Betrag in C . Man beachte die Ähnlichkeit mit den komplexen Zahlen! Der Richtungspfeil entscheidet über das Vorzeichen. Bei dieser Definition muß der Vektor nicht am Nullpunkt starten! Definition: Graph Es lassen sich Teilmengen des IR2 (z.B. Lösungsmengen von Gleichungen) als Punktemengen in E veranschaulichen. Der Graph einer Funktion f : I → IR , I ⊆ IR, ist die Punktemenge Gf := {(x, y)| x ∈ I, y = f (x)} = {(x, f (x))| x ∈ I} in der mit einem kartesischen Koordinatensystem versehenen Ebene E. Man bezeichnet den Graphen auch als die Kurve y = f (x). (Abb. 11) Bemerkung Wichtig in Mathematik: Bezeichnung der Achsen; wichtig in Technik/Physik . . . : Bezeichnung der Achsen und Einheiten Bemerkung Für die Darstellung einer Kurve im IR2 ist eine explizite Darstellung nett, aber nicht erforderlich. Allgemeiner lautet die Darstellung einer Kurve C ⊂ E C := {(x, y)| F (x, y) = 0} und F (x, y) = 0 heißt Gleichung der Kurve C. 22 Beispiele für Graphen von Funktionen • Geradengleichung Die Gerade y = mx + d durch die Punkte A := (a1 , a2 ) und B := (b1 , b2 ) hat die Gleichung (b2 − a2 )(x − a1 ) − (b1 − a1 )(y − a2 ) = 0 . • Kreisgleichung Der Kreis um A := (a1 , a2 ) mit dem Radius r hat die Gleichung (vgl. Pythagoras, rechtwinkliges Dreieck, c2 = a2 + b2 ) (x − a1 )2 + (y − a2 )2 = r2 ⇐⇒ (x − a1 )2 + (y − a2 )2 − r2 = 0 • Trigonometrische Funktionen sin, cos (Abb. 12) Definitionsgemäß gilt im rechtwinkligen Dreieck a c sin α = , cos α = . b b Außerdem gilt der Satz von Pythagoras: a2 + c2 = b2 . Man leitet daraus für beliebige Dreiecke zwei typische Sätze ab: (Abb. 13) 23 – Cosinussatz: a2 = b2 + c2 − 2bc cos α – Sinussatz: sin α sin β sin γ = = a b c Beweisidee: hc = b sin α, hc = a sin β. Die Graphen y = sin x und y = cos x der Sinus- und der Cosinusfunktion kann man punktweise aus der Definition ”berechnen” (gebe im rechtwinkligen Dreieck b und α vor und konstuiere c und b): (Abb. 14) Es gilt nach Konstruktion: cos(−α) = cos α sin(−α) = − sin α (gerade Funktion), (ungerade Funktion). Drehungen von Koordinatensystem und Ebene Drehungen beschreibt man mit der Rechte-Hand-Regel. • Drehung des Koordinatensystems, die Ebene bleibt fest Ein in der Ebene fester Punkt P habe im ursprünglichen Koordinatensystem die Koordinaten (x0 , y0 ) und in einem um den Winkel α gedrehten Koordinatensystem die Koordinaten (u0 , v0 ). (Abb. 15) 24 Es gilt: x0 = u0 cos α − v0 sin α y0 = u0 sin α + v0 cos α ⇐⇒ u0 = +x0 cos α + y0 sin α v0 = −x0 sin α + y0 cos α Beweis: x0 = 0S − RS cos α = 0S/u0 RS = T Q , ⇒ sin α = T Q/v0 x0 = u0 cos α − v0 sin α , y0 = . . . • Drehung der Ebene, das Koordinatensystem bleibt fest Das ursprüngliche x − y−Koordinatensystem bleibt fest, der Punkt P mit den Ausgangskoordinaten (x0 , y0 ) wird um den Winkel α gedreht und ergibt den neuen Punkt P 0 mit den Koordinaten (u0 , v0 ) Vorsicht, aufpassen!! (Abb. 16) Es gilt (Beweis ähnlich wie zuvor): u0 = x0 cos α − y0 sin α , v0 = x0 sin α + y0 cos α . Beispiel Wir untersuchen den Punkt (x0 , y0 ) = (1, 0) und betrachten eine Drehung um α = π/2. Dreht sich das Koordinatensystem um α, während die Ebene und somit der in ihr fixierte Punkt festbleiben, so gilt u0 = y0 = 0, v0 = −x0 = −1 . Dreht sich die Ebene und damit der in ihr fixierte Punkt, während das Koordinatensystem fest bleibt, so gilt u0 = −y0 = 0, v0 = x0 = 1 . 25 (Abb. 17) Grundlegende Rechenoperationen für Vektoren im IR2 Definition analog den komplexen Zahlen, die Definitionen sind konsistent mit der Vektordefinition. Definition • (Komponentenweise) Addition zweier Vektoren µ ¶ µ ¶ µ ¶ x1 y1 x1 + y1 ~x + ~y = + := x2 y2 x2 + y2 • Multiplikation eines Vektors ~x ∈ IR2 mit einem Skalar λ ∈ IR µ ¶ µ ¶ x1 λx1 λ~x = λ := x2 λx2 λ > 1 ergibt Streckung, 0 < λ < 1 ergibt Stauchung, λ < 0 ergibt Richtungsumkehr. Diese Definitionen erlauben das Aufstellen von ”Vektorketten” (Abb. 18) 26 µ ¶ µ ¶ µ ¶ µ ¶ x1 q1 − p1 y1 r1 − p1 ~x = := , ~y = := , x2 q2 − p2 y2 r2 − p2 µ ¶ µ ¶ x1 + y 1 (q1 − p1 ) + (r1 − p1 ) ~x + ~y = = x2 + y 2 (q2 − p2 ) + (r2 − p2 ) Weiter folgen aus den Definitionen die Rechenregeln ~a + ~0 = ~a , insbesondere ~a + (−~a) = ~0 ~a +~b = ~b +~a (Kommutativgesetz) ~a + (~b +~c) = (~a +~b) +~c (Assoziativgesetz) sowie für die Multiplikation mit Skalaren λ, η ∈ IR λ(η~a) = (λη)~a λ(~a +~b) = λ~a + λ~b (λ + η)~a = λ~a + η~a Anwendung: Darstellung einer Geraden mit Vektoren Die Darstellung geschieht mittels des Aufpunktes ~a und des Richtungsvektors ~b; damit lautet die Geradengleichung ~x = ~a + λ~b , λ ∈ IR , ~x,~a,~b ∈ IR2 . Aus der ”Schule” kennt man (?) die Formel y = mx + k; wie hängt das zusammen? Man schreibt formal ¶ µ ¶ µ ¶ µ µ ¶¶ µ ¶ µ 0 x x1 x 1 = = = +x · ; k mx + k x2 y m | {z } | {z } ~a ~b x übernimmt die Funktion von λ. Eine Gerade – und damit der Zahlenstrahl bzw. IR – ist also als Unterstruktur im IR2 enthalten. (Abb. 19) 27 Längen und Abstände Die Länge eines Vektors nennt man seinen Betrag (analog C ) und berechnet ihn mittels des Pythagoras zu ¯µ ¶¯ ¯ a1 ¯ q ¯ = a2 + a2 |~a| = ¯¯ 1 2 a2 ¯ Aus der Definition folgen die Rechenregeln |λ~a| = |λ||~a| , insbesondere |~a| = | −~a| |~a +~b| ≤ |~a| + |~b| (Dreiecksungleichung) Einheitsvektoren Einheitsvektoren sind Vektoren vom Betrag 1. Zu jedem Vektor ~a 6= ~0 gehört der Einheitsvektor in Richtung ~a ~a0 = 1 ~a |~a| Einheitsvektoren ~ei in Richtung der positiven xi -Achse (i = 1, 2) sind µ ¶ µ ¶ 1 0 ~e1 = , ~e2 = . 0 1 (~e1 ,~e2 ) heißt kartesische Basis, (0,~e1 ,~e2 ) charakterisiert das Koordinatensystem vollständig. Folgende Schreibweisen sind äquivalent µ ¶ a1 ~a = ⇐⇒ ~a = a1 ·~e1 + a2 ·~e2 a2 (Abb. 20) Jeder Vektor des IR2 ist als Linearkombination der Basisvektoren darstellbar. Es gibt nicht nur diese eine Basis. 28 Winkel zwischen zwei Vektoren (Abb. 21) Beide Vektoren trägt man von einem gemeinsamen Punkt P aus ab; der kleinere der beiden positiv gemessenen Winkel bezeichnet man mit < ) (~a,~b) und 0 ≤ < ) (~a,~b) ≤ π. Mit der Definition des Winkels gilt (siehe Skizze): < ) (~a,~b) = < ) (~b,~a) ½ 0 , falls λ > 0 < ) (~a, λ~a) = π, falls λ < 0 < ) (−~a,~b) = π − < ) (~a,~b) Man nennt ~a orthogonal zu ~b (i.Z. ~a ⊥ ~b), wenn gilt < ) (~a,~b) = π/2. Das Skalarprodukt zweier Vektoren Das Skalarprodukt (= innere Produkt) ~a · ~b zweier Vektoren ~a und ~b ist definiert durch ( |~a| · |~b| · cos < ) (~a,~b), falls ~a 6= ~0 ∧ ~b 6= ~0 ~a ·~b := 0 , falls ~a = ~0 ∨ ~b = ~0 und ist ein Skalar. Aus der Definition folgt unmittelbar die wichtige Eigenschaft ~a ·~ei = |~a| cos < ) (~a,~ei ) = ai , i = 1, 2 . Das Skalarprodukt mit einem Basisvektor ergibt die Komponente von ~a in Richtung dieses Basisvektors (gilt analog für Skalarprodukt von ~a und ~b). Außerdem gilt ~e1 ·~e2 = 0 , ~e1 ·~e1 = ~e2 ·~e2 = 1 . Eine solche Basis nennt man orthonormal. 29 Rechenregeln, die unmittelbar aus der Definition folgen: ~a ·~b = ~b ·~a (Kommutativgesetz) ~ ~ (λ~a) · b = ~a · (λb) (für λ ∈ IR) ~a ·~b = 0 ⇔ ~a orthogonal zu ~b (Orthogonalitätstest) √ |~a| = ~a ·~a Weitere wichtige Rechenregeln mit kurzer Herleitung: • Unter Verwendung der Zerlegung ~a = a1 · ~e1 + a2 · ~e2 erhält man sofort die folgenden Gesetze zur einfachen Berechnung von ~a · ~b und cos < ) (~a,~b) (Winkelmessung): ~a ·~b = (a1 ·~e1 + a2 ·~e2 ) · (b1 ·~e1 + b2 ·~e2 ) = a1 b1 + a2 b2 ~a ·~b a1 b1 + a2 b2 q cos < ) (~a,~b) = =q , falls ~a,~b 6= ~0 2 2 2 2 |~a| · |~b| a1 + a2 b1 + b2 ai cos < ) (~a,~ei ) = q , i = 1, 2 (Richtungscosinus) 2 2 a1 + a2 • Distributivgesetz: (~a +~c) ·~b = ~a ·~b +~c ·~b Beweis: Für ~b = ~0 erfüllt; für ~b 6= ~0 sei o.E. ~b = λ~e1 , λ > 0 (Koordinatensystem so orientiert, daß x1 −Achse parallel zu ~b); dann folgt mit oben hergeleiteten Eigenschaften (~a +~c) ·~b = λ(a1 + c1 ). • Herleitung des Cosinussatzes: (Abb. 22) ~a = ~b −~c und α = < ) (~b,~c). Damit gilt a2 = |~a|2 = |~b−~c|2 = (~b−~c)(~b−~c) = ~b·~b+~c ·~c −2~b·~c = b2 +c2 −2bc cos α 30 2.2 Verallgemeinerung: das Vektorraumkonzept Wir betrachten Vektoren im IRn : ¯ ¯ x 1 ¯ .. ¯ n IR := ~x = . ¯ xi ∈ IR, i = 1, . . . , n ¯ xn ¯ und definieren Vektoraddition ~x + ~y und skalare Multiplikation λ~x komponentenweise, λ ∈ IR, ~x,~y ∈ IRn . Im vorangegangenen Unterkapitel behandelten wir den Sonderfall n = 2. Im nächsten Unterkapitel wenden wir den Formalismus beispielhaft auf n = 3, d.h. den IR3 , an. Die Gesetze, die für die Vektoren gelten sollen, fassen wir in einem Axiomsystem zusammen, das die innere Struktur von IRn festlegt. Definition: Vektorraum (IRn , +, ·) heißt Vektorraum über IR, wenn für alle ~x,~y ,~z ∈ IRn und für alle λ, µ ∈ IR die folgenden Gesetze der Additions (A) und skalaren Multiplikation (S) gelten: (A1) (A2) (A3) (A4) (~x + ~y ) + ~z ~ ∃ 0 ∈ IRn 3 ~x + ~0 ∀~x ∈ IRn ∃ − ~x 3 ~x + (−~x) ~x + ~y = = = = ~x + (~y + ~z) Assoziativ ~0 + ~x = ~x Nullelement ~0 Inverse ~y + ~x Kommutativ (S1) (S2) (S3) (S4) (λ + µ)~x λ(~x + ~y ) λ(µ~x) 1~x = = = = λ~x + µ~x λ~x + λ~y (λµ)~x ~x Distributivgesetz 1 Distributivgesetz 2 Neutrales Element Wegen (A2) existiert das Nullelement und wegen (A3) das inverse Element in IRn . (S4) sichert Existenz des neutralen Elements bzgl. Multiplikation mit Skalar. Bemerkung Wegen (A1-A4) ist der Vektorraum abgeschlossen bzgl. der Addition, (IRn , +) bildet eine sog. kommutative (=Abelsche) Gruppe. Außerdem herrscht auch Abgeschlossenheit bzgl. der skalaren Multiplikation. Vektoren sind ab jetzt stets Elemente eines Vektorraumes (=: V.R.). Bemerkung Alle Mengen mit der Struktur (A1-A4,S1-S4) heißen Vektorraum. Beispiele sind IRn über IR oder C n über IR (letzteres heißt: ~x ∈ C n , λ ∈ IR). 31 Definition: Unterraum Ein Untervektorraum oder Unterraum U ist eine Teilmenge eines Vektorraums mit den Eigenschaften (T1) (T2) (T3) ~0 ∈ U ~x,~y ∈ U ⇒ ~x + ~y ∈ U ~x ∈ U, λ ∈ IR ⇒ λ~x ∈ U Also: Führt man Vektorraumoperationen mit Elementen eines Untervektorraumes aus, so erhält man als Ergebnis wieder ein Element von U . U ist selbst wieder ein V.R. Frage: Wie konstruiert man Unterräume? Definition: Lineare Abhängigkeit Die Vektoren ~a1 , . . . ,~an heißen linear abhängig, wenn einer von ihnen (o.E. ~an ) als Linearkombination der anderen darstellbar ist, also z.B. ∃ λi , i = 1, . . . , n − 1, 3 ~an = n−1 X λi~ai i=1 Dann ist ~an überflüssig.Existieren keine solchen λi ∈ IR, so heißen die {ai |i = 1, . . . , n} linear unabhängig. Beispiel Im IR2 sind maximal 2 Vektoren linear unabhängig. 2 Vektoren sind linear abhängig, wenn sie auf einer Geraden liegen. Definition: lineare Hülle Seien ~a1 , . . . ,~ak Vektoren des IRn , i.a. k ≤ n. Die Menge aller Linearkombinationen λ1 a1 + . . . + λk ak heißt der von ~a1 , . . . ,~ak erzeugte (= aufgespannte) Teilraum von IRn (auch: lineare Hülle) und wird mit span {~a1 , . . . ,~ak } bezeichnet. Beh.: span {~a1 , . . . ,~ak } ist Unterraum des IRn Bew.: Zeige (T1 - T3) Zu (T1): Für λ1 = . . . = λk = 0 ist ~0 ∈ span{~a1 , . . . ,~ak }. zu (T2): P ~x ∈ span{~a1 , . . . ,~ak } ⇒ ∃ λ1 , . . . , λk 3 ~x = ki=1 λi~ai . P ~y ∈ span{~a1 , . . . ,~ak } ⇒ ∃ µ1 , . . . , µk 3 ~y = ki=1 µi~ai . P Damit ist ~x + ~y = ki=1 (λi + µi )~ai ∈ span{~a1 , . . . ,~ak } nach Definition. zu (T3): P P analog: µ~x = µ ki=1 λi~ai = ki=1 (µλi )~ai ∈ span{~a1 , . . . ,~ak } 32 Frage Wieviele Vektoren ~ai brauche ich mindestens, um einen V.R. aufzuspannen → Frage nach der Basis und der Dimension. Beachte ai ∈ IR ist i−te Komponente von ~a, ~ai ∈ IRn ist i−ter Vektor irgend einer Menge von Vektoren. Definition: Basis Die Vektoren ~b1 , . . . ,~bk bilden eine Basis eines (Teil-)Raumes U , falls (i) U = span {~b1 , . . . ,~bk } (ii) ~b1 , . . . ,~bk sind linear unabhängig Die ~bi sind genau dann linear unabhängig, falls die Gleichung k X xi~bi = ~0 i=1 nur die triviale Lösung ~x = ~0 besitzt. Eine Basis ist also linear unabhängig und erzeugend. Definition: Dimension Die Anzahl k der Basisvektoren von U heißt Dimension von U : k = dim U . Kanonische Basis des IRn ~e1 = 1 0 .. . 0 , ~e2 = 0 1 .. . , . . . ,~en = 0 0 0 .. . ∈ IRn 1 bilden die kanonische Basis (= kartesisches Koordinatensystem) des IRn und IRn = span {~e1 , . . . ,~en }. Man nennt ~ei den i−ten Einheitsvektor, da |~ei | = 1, i = 1, . . . , n. Jeder Vektor ~x ∈ IRn hat damit die folgende Darstellung: ~x = n X i=1 33 xi~ei Skalarprodukt und Betrag Motiviert durch die Zerlegung ~a = a1 · ~e1 + . . . + an · ~en definiert man das euklidische Skalarprodukt (= innere Produkt) ~a ·~b zweier Vektoren ~a und ~b bezüglich der kanonischen Basis analog dem im IR2 durch ~a ·~b = (a1 ·~e1 + . . . + an ·~en ) · (b1 ·~e1 + . . . + bn ·~en ) n X := a1 b1 + . . . + an bn = ai bi i=1 Die kanonische Basis ist bzgl. dieses Skalarproduktes orthonormal: ½ 1 i=j ~ei ·~ej = δij := , i, j ∈ {1, . . . , n} . 0 i 6= j Den zugehörigen Betrag (also die Länge eines Vektors) definiert man durch v u n √ uX a2i |~a| := ~a ·~a = t i=1 Beispiel 4 1 ~ ~a := 5 2 , b := 6 3 √ √ ⇒ |~a| = 1 + 4 + 9 = 14 , ~a ·~b = 1 · 4 + 2 · 5 + 3 · 6 = 32 Rechenregeln Für alle ~x,~y ,~z ∈ IRn und alle α ∈ IR gilt: ~x · ~y = ~y · ~x α(~x · ~y ) = (α~x) · ~y = ~x · (α~y ) ~x · ~x > 0 ∀ ~x 6= ~0 , |~x| = 0 ⇔ ~x = ~0 ~x · (~y + ~z) = ~x · ~y + ~x · ~z |α~x| = |α| · |~x| |~x · ~y | ≤ |~x| · |~y | |~x + ~y | ≤ |~x| + |~y | (Cauchy-Schwarzsche Ungleichung) (Dreiecksungleichung) 34 Hauptsätze über Basen • Jede Basis des IRn besteht aus genau n Vektoren. • Ist U Teilraum des IRn , so existiert in U eine Basis ~b1 , . . . ,~bk mit k ≤ n; alle Basen von U haben die gleiche Dimension. • Sind ~v1 , . . . ,~vs , s < k, linear unabhängig in U , so lassen sie sich zu einer Basis von U ergänzen. • Sei U = span {w ~ 1, . . . , w ~ m }, m > k, und k = dim U . Dann läßt sich aus den w ~ i eine k−elementige Basis von U auswählen. • Steinitzscher Austauschsatz: Sei B := {~b1 , . . . ,~bn } Basis von IRn , sei S ⊂ IRn eine linear unabhängige Menge; dann gibt es eine Teilmenge T ⊆ B so, daß (B\T ) ∪ S eine Basis von IRn ist. Man veranschaulicht sich die Hauptsätze besonders einfach für den Fall n = 2 (Skizzen). Definition Eine Basis B := {~b1 , . . . , ~bn } ⊂ IRn heißt orthogonal, wenn die Basisvektoren paarweise orthogonal sind: ~bi ·~bj = 0 für i 6= j . Eine Basis B := {~b1 , . . . , ~bn } heißt orthonormal, wenn die Basisvektoren zusätzlich auf 1 normiert sind: ~bi ·~bj = δij , i, j ∈ {1, . . . , n} . Jeder Vektor ~b läßt sich auf 1 normieren durch ~ ~b → ~b0 := b |~b| Verallgemeinerung der Komponentendarstellung In die Komponentendarstellung geht die Basis mit ein. Dies war bislang (mehr oder weniger stillschweigend) die kanonische Basis: Ein Vektor ~x ∈ IRn hat damit die Komponentendarstellung x 1 n X ~x = xi~ei = ... . i=1 xn Bezüglich einer Basis B := {~b1 , . . . , ~bn } habe der gleiche Vektor ~x die Darstellung p1 n X ~x = pi~bi = ... , i=1 pn hier ist die neue Basis mit anzugeben. 35 B 2.3 Kartesisches Koordinatensyst.u. Vektoren im IR3 Definition in naiver Analogie zum IR2 : Gegeben sei ein Raum R, ein Nullpunkt 0 und drei aufeinander senkrecht stehende Zahlengeraden (die x, y, z−Achse bzw. x1 , x2 , x3 Achse). (Abb. 23) Jeder Punkt P0 ∈ R wird durch seine Koordinaten (x0 , y0 , z0 ) (bzw. (x10 , x20 , x30 )) eindeutig charakterisiert. Umgekehrt gibt es zu jedem Zahlentupel (x10 , x20 , x30 ) ∈ IR3 genau ein Punkt P0 ∈ R. Der Raum ¯ x1 ¯¯ 3 ¯ IR := x2 ¯ xi ∈ IR , i = 1, 2, 3 x3 ¯ ist die Menge aller reellen, dreielementigen Zahlentupel. Man beachte Bei dieser Definition legen wir durch die Erwähnung der Koordinaten-Achsen explizit bereits die kanonische Basis zu Grunde. Die Komponentendarstellung erfolgt bzgl. dieser speziellen Basis. Erst dadurch erhält man die Eindeutigkeit. Definition der Grundoperationen analog dem IR2 • (Komponentenweise) Addition zweier Vektoren, Multiplikation eines Vektors ~x ∈ IR3 mit einem Skalar λ ∈ IR x1 + y 1 λx1 ~x + ~y := x2 + y2 , λ~x := λx2 x3 + y 3 36 λx3 • Damit ist der IR3 ein Vektorraum (Nachweis mit Komponentenschreibweise). Es gilt etwa ~a + ~0 = ~a, ~a +~b = ~b +~a, ~a + (~b +~c) = (~a +~b) +~c, . . . sowie λ(η~a) = (λη)~a, (λ + η)(~a +~b) = λ~a + η~a + λ~b + η~b, . . . • Darstellung einer Geraden im Raum: ~x = ~a + λ~b , λ ∈ IR , ~x,~a,~b ∈ IR3 . • Skalarprodukt und Betrag: Man definiert wieder ~a ·~b := a1 b1 + a2 b2 + a3 b3 ¯ ¯ ¯ a1 ¯ q ¯ ¯ |~a| := ¯¯ a2 ¯¯ = a21 + a22 + a23 ¯ ¯ a 3 mit den Rechenregeln aus Kap. 2.2, also etwa |λ~a| = |λ||~a|, |~a +~b| ≤ |~a| + |~b|, . . . Bzgl. dieses Skalarproduktes ist die kanonische Basis (= kartesisches Koordinatensystem) wieder orthonormal. 0 0 1 ~e1 = 1 , ~e3 = 0 , ~ei ·~ej = δij 0 , ~e2 = 0 1 0 • Einheitsvektor zu einem Vektor ~a ~a0 = 1 ~a |~a| Basiswechsel Als einfaches Beispiel betrachten wir neben der kanonischen Basis eine zweite orthonormale Basis 0 0 1 ~b1 = 0 , ~b2 = −1 , ~b3 = 0 , ~bi ·~bj = δij 1 0 0 Man sieht: • Zahl der Basisvektoren der Basis E := {~e1 ,~e2 ,~e3 } und B := {~b1 ,~b2 ,~b3 } ist gleich. • Aus ~b1 = ~e1 und ~b3 = ~e3 folgt nicht ~b2 = ~e2 . 37 ~ zum Punkt P Für einen Beispiel(orts-)vektor ~z = 0P ~z = 3~e1 + 4~e2 + 7~e3 gilt mit Einsetzen ~e1 = 1 ·~b1 + 0 ·~b2 + 0 ·~b3 ~e2 = 0 ·~b1 − 1 ·~b2 + 0 ·~b3 ~e3 = 0 ·~b1 + 0 ·~b2 + 1 ·~b3 ~z = 3~e1 + 4~e2 + 7~e3 = 3~b1 − 4~b2 + 7~b3 Bezüglich der ursprünglichen kanonischen Basis E besitzt ~z die Komponentendarstellung 3 ~z = 4 , 7 E bezüglich der neuen Basis B besitzt ~z die Komponentendarstellung 3 ~z = −4 , 7 B Dabei zeigt aber der Vektor ~z trotz des Basiswechsels vom Nullpunkt ausgehend unverändert auf denselben Punkt P im Raum. In der Praxis unterdrückt man oft die explizite Angabe der Basis (”Ist doch klar ...”). Die Komponentendarstellung braucht also stets die Kenntnis der Basis. Um Punkte im Raum zu lokalisieren, ist zudem die Angabe des Nullpunktes erforderlich. Typische Basiswechsel sind Drehungen des Koordinatensystems um den Winkel α ∈ IR, z.B. (vgl. Kap. 2.1) ~e1 = cos α ·~b1 − sin α ·~b2 + 0 ·~b3 ~e2 = sin α ·~b1 + cos α ·~b2 + 0 ·~b3 ~e3 = 0 ·~b1 + 0 ·~b2 + 1 ·~b3 (Unübersichtliche Schreibweise, das machen wir bald besser!) Definition: Ebene im Raum als neues Element Gegeben sei zwei Vektoren ~a,~b, die nicht auf einer Geraden liegen, und ~ . Beide Vektoren ~a,~b trägt man ein Punkt P mit (Orts-)Vektor ~c = 0P von dem gemeinsamen Punkt P aus ab. Eine Ebene E durch den Aufsprungpunkt ~c, in der die Vektoren ~a,~b ganz enthalten sind, lautet in Parameterdarstellung E = {~x ∈ IR3 |~x = ~c + λ~a + µ~b; λ, µ ∈ IR} . 38 λ~a + µ~b heißt Linearkombination aus ~a und ~b. Damit ist die Ebene ein zweidimensionaler Unterraum des IR3 , sie wird aufgespannt von den Basisvektoren ~a,~b. ”Nicht auf einer Gerade liegen” bedeutet, daß 6 ∃ λ ∈ IR 3 1 ·~a = λ~b 1 ·~a − λ~b 6= 0 ∀ λ ∈ IR , ⇒ also sind die Vektoren ~a,~b linear unabhängig. Die Zweidimensionalität des Unterraumes sieht man sehr schön durch die Umformung der Ebenengleichung ~y := (~x −~c) = λ~a + µ~b . Die Ebene ist die lineare Hülle der Vektoren ~a,~b. (Abb. 24) Winkel zwischen zwei Vektoren Mit der Ebenendefinition läßt sich jetzt der Winkel zwischen zwei Vektoren analog dem IR2 definieren. Beide Vektoren trägt man von einem gemeinsamen Punkt P aus ab; sie spannen eine Ebene auf. In dieser Ebene bezeichnet man den kleineren der beiden positiv gemessenen Winkel mit < ) (~a,~b) und 0 ≤ < ) (~a,~b) ≤ π. Man definiert den Winkel jetzt über das Skalarprodukt (früher: Def. des Skalarprodukts über den Winkel) ~a ·~b cos < ) (~a,~b) := , |~a| · |~b| falls ~a 6= ~0 ∧ ~b = 6 ~0 . Außerdem gilt mit der Zerlegung ~a = a1 ·~e1 + a2 ·~e2 + a3 ·~e3 wieder cos < ) (~a,~b) = ~a ·~b =q |~a| · |~b| a 1 b1 + a 2 b2 + a 3 b3 q , 2 2 2 2 2 2 a1 + a2 + a3 b1 + b2 + b3 ai cos < ) (~a,~ei ) = q a21 + a22 + a23 , i = 1, 2, 3 39 falls ~a,~b 6= ~0 (Richtungscosinus) Wählt man das Koordinatensystem so, daß die von ~a,~b aufgespannte Ebene mit der x1 − x2 -Ebene zusammenfällt, so ergibt sich wieder genau die Definition für den IR2 . Definition: Vektorprodukt zweier Vektoren Dies ist eine Spezialität des IR3 und nicht auf den IRn übertragbar! ~c := ~a × ~b heißt Vektorprodukt (=Kreuzprodukt, äußeres Produkt) der Vektoren ~a und ~b, falls gilt: • ~c ⊥ ~a, ~c ⊥ ~b, also ~c orthogonal sowohl zu ~a als auch ~b. • Länge (= Betrag) von ~c = Fläche des von ~a und ~b aufgespannten Parallelogramms: |~c| = |~a| · |~b| sin < ) (~a,~b) • ~a,~b,~c bilden ein Rechtssystem (Abb. 25) Bemerkungen • Forderung des Rechtssystems erzwingt, daß ~a ×~b = −~b ×~a. • Das Ergebnis des Vektorproduktes ist ein Vektor. • Vektorprodukt nur im IR3 definiert, das Skalarprodukt hingegen in IRi , i = 2, 3, . . . , n • Sind 2 Vektoren ~a,~b linear abhängig (d.h. sie liegen auf einer Geraden) ⇒ ~a ×~b = 0 Aus der Definition folgt unmittelbar ~ei ×~ei = ~0 , i = 1, 2, 3 ~e1 ×~e2 = ~e3 , ~e2 ×~e3 = ~e1 , ~e3 ×~e1 = ~e2 40 (Abb. 26) Aus der Definition folgt auch ein erster Satz von Rechenregeln ~a ×~b = −~b ×~a (nicht kommutativ) λ(~a ×~b) = (λ~a) ×~b = ~a × (λ~b) (für λ ∈ IR) ~a ×~b = ~0 ⇔ ~a = ~0 ∨ ~b = ~0 ∨ ~a parallel zu ~b |~a ×~b|2 = |~a|2 · |~b|2 − (~a ·~b)2 (Parallelitätstest) (da sin2 ϕ = 1 − cos2 ϕ) Weitere Rechenregeln ergeben sich nach kurzen Beweisen: • Distributivgesetze: (~a +~b)×~c = ~a ×~c +~b×~c , ~a ×(~b+~c) = ~a ×~b+~a ×~c • Vektorprodukt ist nicht assoziativ: z.B. (~e1 ×~e2 ) ×~e2 6= ~e1 × (~e2 ×~e2 ) • Vektorprodukt in Komponentenschreibweise a1 b1 a2 b3 − a3 b2 a2 × b2 = a3 b1 − a1 b3 a3 b3 a1 b2 − a2 b1 • Graßmannscher Entwicklungssatz ~a × (~b ×~c) = (~a ·~c)~b − (~a ·~b)~c Achtung: (~a ·~c), (~a ·~b) sind Skalare, also einfacher zu rechnen! • Lagrangesche Identität ~ = (~a ·~c)(~b · d) ~ − (~b ·~c)(~a · d) ~ (Skalare!) (~a ×~b) · (~c × d) Die Idee der Beweise ist stets gleich: Zerlege jeden Vektor in Komponenten (z.B. ~a = a1~e1 + a2~e2 + a3~e3 ) und nutze Info aus ”Kreuzprodukt der Einheitsvektoren” und ”Skalar mal Kreuzprodukt” (s.o.). Beweise vereinfachen sich, falls man Koord.syst. speziell wählt so, daß z.B. ~a = a1~e1 . 41 Beispiel Gegeben seien 3 Punkte im Raum: A = (1, 2, 3), B = (−2, 0, 4) und C = (−1, −1, 2); berechne die Fläches des Dreiecks ABC. 1 ~ ~ · |AB × AC| 2 1 ~ − 0A) ~ × (0C ~ − 0A)| ~ = · |(0B 2 ¯ ¯ ¯ ¯ −3 −2 ¯ 1√ 1 ¯¯ = · ¯ −2 × −3 ¯¯ = 75 = 4.3301 . . . 2 ¯ 2 ¯ 1 −1 F = Vektorprodukt-Volumenberechnung (IR3 ), Spatprodukt Gegeben seien 3 lin. unabh. Vektoren ~a,~b,~c mit gleichem Startpunkt. Diese spannen ein Parallelepiped auf. (Abb. 27) |V | = |F | · h h = |~c| cos α |F | = |~a ×~b| ⇒ |V | = |~a ×~b| · |~c| cos α = |(~a ×~b) ·~c| Definition: Spatprodukt [~a,~b,~c] := ~a · (~b ×~c) Einsatz des Spatproduktes als Testfunktion • ~a,~b,~c sind linear unabhängig, also nicht parallel zu einer Ebene ⇔ [~a,~b,~c] 6= 0 • (~a,~b,~c) bilden ein Rechtssystem ⇔ [~a,~b,~c] > 0 42 Komponentendarstellung des Spatproduktes [~a,~b,~c] = a1 (b2 c3 − b3 c2 ) + a2 (b3 c1 − b1 c3 ) + a3 (b1 c2 − b2 c1 ) Beispiel Gegeben sei ein dreibeiniges Stativ, die Füße sind am Boden verankert. An der Spitze S greift die Last (=Kraft) F~ an mit 0 F~ = 60 · 1 N . −1 Die Beine weisen von S ausgehend in die Richtungen der Einheitsvektoren 1 1 1 1 ~a = ~e1 , ~b = √ −1 , ~c = √ 1 . 2 11 0 −3 (Abb. 28) Welche Reaktionskräfte (Zug- oder Druckkräfte) entstehen in den Verankerungspunkten A, B, C? 43 2.4 Geraden- und Ebenendarstellungen im IR3 2.4.1 Verschiedene Geradendarstellungen Parameterdarstellung oder Punkt-Richtungs-Gleichung ~x = ~a + λ~b , λ ∈ IR , ~x,~a,~b ∈ IR3 . (Abb. 29) Zwei-Punkte-Gleichung (hier auch komponentenweise) ergibt sich daraus durch ~b → ~c −~a ~x = ~a + λ(~c −~a) ⇐⇒ xi = ai + λ(ci − ai ) , λ, xi , ai , ci ∈ IR , i = 1, 2, 3 . Man beachte, welche der Vektoren Ortsvektoren sind! Koordinatengleichungen einer Geraden durch Auflösen nach λ und Gleichsetzen (d.h. Elimination von λ) x1 − a1 x2 − a2 x3 − a3 =λ= = , falls ai 6= ci c1 − a1 c2 − a2 c3 − a3 und Sonderfälle. Die Koordinatengleichungen sind parameterfrei. Man kann umgekehrt aus den parameterfreien Koordinatengleichungen wieder die parameterbehafteten Formen der Zwei-Punkte-Gleichung und PunktRichtungs-Gleichung gewinnen durch xi − ai λ := . ci − a i Abstand eines Punktes P von einer Geraden g im IR3 (Abb. 30) 44 Der Lotvektor ergibt sich zu ~s = 1 ~ b × (~a ×~b) , 2 ~ |b| sein Betrag ist der Abstand d d = |~s| = |~a ×~b| |~b| Wie kommt man auf den Lotvektor und den Abstand? (i) Orthogonale Zerlegung von ~a in Komponente parallel und Komponente senkrecht zu ~b à ! ~b ~b ~a ·~b ~ ~a ·~b ~ ~ab = ~a · · = · b , ~s = ~a⊥ = ~ a −~ a = ~ a − ·b b b |~b| |~b| |~b|2 |~b|2 ~ (ii) Formaler Test ergibt: ~a⊥ ab ·~a⊥ b · b = 0 und ~ b =0 (iii) Jetzt nutzt man den Graßmannschen Entwicklungssatz ~u × (~v × w) ~ = (~u · w)~ ~ v − (~u ·~v )w ~ Abstand einer Geraden g1 von einer Geraden g2 im IR3 (Abb. 31) Fall 1: d= ~ ×~v | |AB , |~v | 45 falls ~u k ~v Man nimmt in diesem Fall einen beliebigen Punkt A auf g1 und berechnet wie oben den Abstand zu g2 . Fall 2: d= ~ u,~v ]| |[AB,~ , |~u ×~v | falls ~u ×~v 6= 0 In diesem Fall beachtet man, daß der Abstandsvektor d~ senkrecht auf ~ in Rich~u und senkrecht auf ~v steht und damit die Komponente von AB tung von ~n := ~u ×~v darstellt, also ¯ ¯ ~ u,~v ]| ¯ ¯ |[AB,~ ~ u ×~ v ~ · ¯= d = ¯¯AB ¯ |~u ×~v | |~u ×~v | Bemerkung Damit schneiden sich zwei nicht parallele Gerade genau dann (in einem ~ u,~v ] = 0. Punkt), wenn d = 0, d.h. [AB,~ Beispiel Gegeben sei die Gerade g1 durch die Punkte 2 ~ = 4 0A −1 5 ~ = 4 0D 0 und sowie die Gerade g2 durch die Punkt-Richtungs-Form 1 0 ~ + λ~v . : ~x = 1 + λ 1 =: 0A −3 5 g2 Man berechne den Abstand der beiden Geraden. 46 2.4.2 Verschiedene Ebenendarstellungen Parameterdarstellung der Ebene E ~x = ~c + λ~a + µ~b , λ, µ ∈ IR , ~x,~a,~b,~c ∈ IR3 . (Abb. 32) Man erhält daraus die Drei-Punkte-Gleichung in Vektor- und Komponentenschreibweise ~x = ~c + λ(~r −~c) + µ(~q −~c) ⇐⇒ xi = ci + λ(ri − ci ) + µ(qi − ci ) , λ, µ, xi , ai , bi , ci , qi , ri ∈ IR , i = 1, 2, 3 . 47 Man beachte, welche der Vektoren Ortsvektoren sind! Nun gibt es auch wieder parameterfreie Darstellungen der Ebene. Dazu definiert man einen Vektor senkrecht auf der Ebene (z.B. unnormierter Normalenvektor ~n := ~b ×~a) und einen speziellen (Auf-)Punkt P , ~ ). Für jeden Punkt Px der Ebene muß jetzt der in der Ebene liegt (~c := 0P gelten: ~ x − 0P ~ ) · ~n = (~x −~c) · (~b ×~a) = (~x −~c) · ~n = 0 P~Px ⊥ ~n ⇔ P~Px · ~n = (0P oder in Komponentendarstellung n1 x1 + n2 x2 + n3 x3 = e := 3 X ci ni i=1 Durch Normalenvektor ~n und Aufpunkt P bzw. ~c ist die Ebene vollständig definiert. Abstand eines Punktes D von der Ebene ~ parDer Abstand ergibt sich als Betrag der Vektorkomponente von DP allel zu ~n ¯ ¯ ~ ¯ ¯ ~ n ~ · ¯ = |DP · ~n| d = ¯¯DP ¯ |~n| |~n| Hesse-Normalform der Ebene E Normiere |~n| = 1 und multipliziere parameterfreie Ebenendarstellung ggf. mit −1 durch (~n ändert dann die Richtung!), so daß n1 x1 + n2 x2 + n3 x3 = e , n21 + n22 + n23 = 1 , e ≥ 0. ~ · ~n|. In diesem Fall gilt für den Abstand d = |DP Eigenschaften der Hesse-Normalform (wichtig!): • Trägt man ~n in beliebigem Punkt Px ∈ E an, so weist er vom Nullpunkt weg. • e ist der Abstand der Ebene vom Nullpunkt ~ · ~n| • Ein beliebiger Punkt D hat von E den Abstand d = |e − 0D (Beweisidee: Verschiebe Ebene parallel in Nullpunkt) • Falls 0 6∈ E, so gilt ~ · ~n > 0 e − 0D ⇐⇒ 0, D liegen auf derselben Seite von E 48 Beachte Beim Rechnen mit Ebenen kommt dem Normalenvektor eine besondere Bedeutung zu, denn dabei handelt es sich nur um einen Vektor, während die Ebene von zwei Vektoren aufgespannt wird. Schnittgerade g zweier Ebenen E1 , E2 Gegeben seien zwei nichtparallele Ebenen in der Form n1 x1 + n2 x2 + n3 x3 = e1 : E1 m1 x1 + m2 x2 + m3 x3 = e2 : E2 Das Vektorprodukt ~n × m ~ ist parallel zu beiden Ebenen, zeigt somit in Richtung der Schnittgeraden. Kennt man jetzt noch einen Punkt A auf der Schnittgeraden, so gilt ~ + λ(~n × m) ~x = 0A ~ Winkel zweier sich schneidender Ebenen E1 , E2 Der Winkel ist gleich dem Winkel, den die Normalenvektoren der Ebenen einschließen, d.h. cos ϕ = cos < ) (E1 , E2 ) = |~n · m| ~ , |~n| · |m| ~ 0≤ϕ≤ π 2 Winkel zwischen Ebene E und Gerade g (Abb. 33) Ebene mit Normalenvektor ~n, Gerade mit Richtungsvektor ~b: ϕ= π −< ) (~b,~n) 2 ⇒ 49 sin ϕ = |~n ·~b| |~n| · |~b| Abschlußbeispiel In einem kartesischen Koordinatensystem sind die Punkte O := (0, 0, 0), A := (3, 2, 2), B := (1, 1, 1), C := (0, 1, 2) und P := (p1 , 0, 2) mit p1 ∈ IR gegeben. 1. Durch die Punkte O, A und B ist eine Ebene E bestimmt. Geben Sie die Gleichung der Ebene in Normalform an. 2. Man bestimme den Abstand d des Punktes C von der Ebene E. 3. Man bestimme das Volumen V der Pyramide mit den Eckpunkten O, A, B und C. 4. Man gebe eine Parameterdarstellung der Geraden g durch die Punkte C und P an. Für welche Werte der Variablen p1 ist der Schnittwinkel ϕ zwiπ schen der Geraden g und der Ebene E gleich ? (sin π/6 = 1/2) 6 50 3 Lineare Gleichungssysteme 3.1 Matrizen im IRn 3.1.1 Motivierendes Beispiel und Definitionen Ziel ist die Lösung eines linearen Gleichungssystems mit zwei Gleichungen für zwei Unbekannte x1 , x2 , also im IR2 : µ ¶ µ ¶ 2x1 + 3x2 = 5 x1 13/7 =⇒ = −x1 + 2x2 = −1 x2 3/7 oder allgemeiner und dann in übersichtlicherer Schreibweise ¶ µ ¶ ¶µ µ x1 b1 a11 x1 + a12 x2 = b1 a11 a12 = ⇐⇒ x2 b2 a21 x1 + a22 x2 = b2 a21 a22 | {z } | {z } | {z } =:A ~x ~b ⇐⇒ A~x = ~b mit der Koeffizientenmatrix A ∈ IR2×2 und den Vektoren ~x,~b ∈ IR2 = IR2×1 . Man definiert µ ¶ µ ¶ a11 a12 ~s1 := , ~s2 := , ~z1 := (a11 , a12 ) , ~z2 := (a21 , a22 ) a21 a22 ~s1 ,~s2 heißen Spaltenvektoren und ~z1 ,~z2 Zeilenvektoren. ~x und ~b sind hier Spaltenvektoren. Weiter führt man ein die transponierten Vektoren (Spaltenvektor → Zeilenvektor, Zeilenvektor → Spaltenvektor) µ ¶ a11 T T ~z1 := (a11 , a12 ) = , ~s1T = (a11 , a21 ) , . . . a12 Konvention Das Vektorsymbol ~a stellt (für uns ab jetzt) immer einen Spaltenvektor dar, daraus gewinnt man ggf. durch ~a T einen Zeilenvektor. Bislang spielte der Unterschied zwischen Spalten- und Zeilenvektor keine Rolle. Übertragung auf den IRn (n Gleichungen in n Unbekannten) erfolgt streng analog: b1 x1 a11 . . . a1n .. .. .. = .. ⇔ A~x = ~b, ~x,~b ∈ IRn , A ∈ IRn×n . . . . | xn an1 . . . ann {z } | {z } =:A ~x bn | {z } ~b Man betrachte stets die zugehörige passende Dimensionerung: (n × n)(n × 1) → (n × 1) 51 Form einer allgemeinen Matrix a11 . . . a1m .. ∈ IRn×m A := ... . an1 . . . anm Spezielle Matrizen im IRn A := diag(α1 , . . . , αn ) := α1 0 .. . 0 0 ... 0 . . . . . . .. . .. .. . . 0 . . . 0 αn E:= E n×n := diag(1, . . . , 1) heißt Einheitsmatrix. Bemerkung Die Multiplikation erfolgt stets nach dem Schema ”Zeilenvektor mal Spaltenvektor”. Beispiel für Matrix-Vektor-Multiplikation: 1 2 0 0 1 0 1 0 0 2 = 1 0 0 7 3 0 0 1 0 4 5 2 29 3 Beachte Bisher stellen Matrizen nur eine neue, übersichtliche Schreibweise ohne zusätzliche Funktionalität dar. 3.1.2 Idee: Äquivalenz von Matrizen und linearen Abbildungen Definition: lineare Abbildung Eine Abbildung f : IRn → IRn heißt linear, falls (i) ∀~x,~y ∈ IRn : f (~x + ~y ) = f (~x) + f (~y ) (ii) ∀~x ∈ IRn , λ ∈ IR : f (λ~x) = λf (~x) Beispiele linearer Abbildungen im IR2 : µ ¶ µ ¶ µ ¶ x1 λx1 x1 7→ = diag(λ, λ) (Skalierung), x2 λx2 x2 µ µ x1 x2 x1 x2 ¶ µ 7→ ¶ µ 7→ x2 x1 ¶ µ = 0 1 1 0 cos α − sin α sin α cos α ¶µ ¶µ x1 x2 x1 x2 52 ¶ (Spiegelung an der Geraden x1 = x2 ) ¶ (Drehung um Winkel α) und allgemeiner: µ x1 x2 ¶ µ 7→ a11 x1 + a12 x2 a21 x1 + a22 x2 ¶ = A~x Bemerkung Bei allen durch Matrizen definierten Operationen bleibt der Nullpunkt erhalten. Satz • Zu jeder linearen Abbildung f : IRn → IRn gibt es bzgl. der kanonischen Basis {~e1 , . . . ,~en } genau eine Matrix A ∈ IRn×n mit f (~x) = A~x , A = (f (~e1 ), . . . , f (~en )) • Umgekehrt: Jede n × n Matrix A definiert eine lineare Abbildung f mit f (~x) = A~x. Beweis ”⇒”: P P ~x ∈ IRn ⇒ ~x = ni=1 xi~ei ; f : IRn → IRn linear ⇒ f (~x) = ni=1 xi f (~ei ); definiere nun ~si := f (~ei ), i = 1, . . . , n, und A := (~s1 , . . . ,~sn ) ⇒ f (~x) = A~x mit A eindeutig festgelegt. ”⇐”: Gegeben sei A := (~s1 , . . . ,~sn ), zu prüfen sind die Linearitätsbedingungen: A (~x + λ~y ) = n X i=1 (xi + λyi )~si = n X i=1 n X xi~si + (λyi )~si = A~x + λA~y i=1 3.1.3 Hintereinanderausführung ←→ Matrizenmultiplikation Multiplikation von n × n−Matrizen Man führt zwei lineare Abbildungen f : IRn → IRn und g : IRn → IRn hintereinander aus: (f ◦ g)(~x) := f ( g(~x) ) Die zugehörige Matrizendarstellung lautet, falls A mit f und B mit g identifiziert wird: x1 x1 x1 x1 . . . f .. g . 7−→ B .. 7−→ A B .. = C .. xn xn xn xn 53 Durch komponentenweise Betrachtung erhält man für das Produkt der Matrizen die folgende Rechenregel (”Matrix mal Spalte”): ³ ´ C = A · B = (~a1 , . . . ,~an ) · (~b1 , . . . ,~bn ) = A~b1 , . . . , A~bn b11 b1n .. = A ... , . . . , A . bn1 bnn Formal schreibt man auch cij = n X aik bkj k=1 Beispiel Eigenschaften der Multiplikation von n × n−Matrizen • Nicht kommutativ: i.a. AB 6= BA • Assoziativ: (AB)C = A(BC) • Existenz eines neutralen Elementes: AE = EA = A Multiplikation von nichtquadratischen Matrizen Derartige Aufgabenstellungen ergeben sich z.B. bei der Hintereinanderausführung von linearen Abbildungen g : IRn → IRp und f : IRp → IRm : (f ◦ g)(~x) := f ( g(~x) ) , f ◦ g : IRn → IRm Man beachte, daß hier die ”Übergabedimension” p stimmen muß! Gleiches gilt auch für die zugehörigen Matrizen, falls A mit f und B mit g identifiziert wird: A ∈ IRm×p , B ∈ IRp×n , C = A · B ∈ IRm×n mit b11 . . . b1n a11 . . . a1p .. .. · .. C = A · B = ... . . . bp1 . . . bpn am1 . . . amp a11 . . . a1p b11 a11 . . . a1p .. .. .. , . . . , .. = ... . . . . am1 . . . amp bp1 am1 . . . amp 54 b1n .. . bpn Sonderfälle: Vektoren als einspaltige oder einzeilige Matrizen x1 ~x = ... ∈ IRn = IRn×1 , ~xT = (x1 , . . . , xn ) ∈ IR1×n xn Nach den Regeln der Matrizenmultiplikation ergibt sich ~x ∈ IRn , ~y ∈ IRm , A ∈ IRn×m ⇒ ~xT Ay ∈ IR = IR1×1 Rechenregeln für Matrizenmultiplikation Seien A, B, . . . Matrizen geeigneter Dimension, dann gilt (A1 + A2 )B A(B1 + B2 ) A(BC) E m×m A AB = = = = i.a. 6= A1 B + A2 B AB1 + AB2 (AB)C AE n×n = A ; A ∈ IRm×n (distributiv) (distributiv) (assoziativ) (Einheitselemente) BA (i.a. nicht kommutativ) Definition: Transponierte einer Matrix Der Matrix A ∈ IRn×m ist die transponierte Matrix AT ∈ IRm×n zugeordnet, deren i−te Zeile aus den Koeffizienten der i−ten Spalte von A besteht: a11 . . . a1m a11 . . . an1 .. ∈ IRn×m ⇒ AT = .. .. ∈ IRm×n A = ... . . . an1 . . . anm a1m . . . anm Rechenregeln für Transponierte Seien A, B ∈ IRn×m Matrizen, dann gilt (A + B)T (λA)T (AT )T (AB)T = = = = AT + B T λAT A B T AT Matrizenbeweise kann man immer durch Ausmultiplizieren der Komponenten führen. Definition: symmetrische und schiefsymmetrische Matrizen A ∈ IRn×n heißt symmetrisch, falls AT = A; sie heißt schiefsymmetrisch, falls AT = −A. 55 Beispiel Gegeben seien die drei Matrizen 1 µ ¶ −1 4 0 1 3 A = ∈ IR4×1 , B = ∈ IR2×3 , C = 2 ∈ IR3×1 0 3 2 4 1 1 Man berechne effizient A(BC)T . 3.1.4 Invertierbare n × n−Matrizen Definition: Inverse einer n × n−Matrix Eine n × n−Matrix A hat eine Inverse A−1 , falls gilt AA−1 = A−1 A = E Satz Die Inverse einer Matrix A ∈ IRn×n ist eindeutig bestimmt. Kriterien für die Existenz einer Inversen A−1 existiert ⇐⇒ die Spaltenvektoren von A sind linear unabhängig In Kürze lernen wir: A−1 existiert für A ∈ IRn×n ⇐⇒ Determinante det A 6= 0 56 Beispiel (nur im IR2 !) µ ¶ a b A= , det A = ad − bc 6= 0 , c d A −1 1 = det A µ d −b −c a ¶ Falls eine Inverse A−1 existiert, so heißt A nichtsingulär. Beispiel Inverse nur theoretisch interessant Die numerische Lösung eines linearen Gleichungssystems A~x = ~b durch explizite Berechnung von A−1 und Matrizenmultiplikation bzw. Matrix-Vektor-Multiplikation ~x = A−1 (A~x) = A−1 b ist ein schwerer Kunstfehler. Rechenregeln für invertierbare Matrizen AA−1 = A−1 A = E n×n (A−1 )−1 = A (AB)−1 = B −1 A−1 (folgt aus Eindeutigkeit der Inversen) (AT )−1 = (A−1 )T und AT ist genau dann invertierbar, wenn A invertierbar ist. Bemerkung: Die letzte Regel erhält man durch (AT )−1 AT = E = E T = (AA−1 )T = (A−1 )T AT . Bemerkung: Man beachte die Änderung der Reihenfolge bei (AB)−1 . Reversible Multiplikation mit einer nichtsingulären Matrix Die Multiplikation eines linearen Gleichungssystems A~x = ~b, A ∈ IRn×m ,~x ∈ IRm ,~b ∈ IRn , mit einer nichtsingulären Matrix C ∈ IRn×n ist ohne Informationsverlust möglich, die Operation kann mit C −1 rückgängig gemacht werden: A~x = ~b → CA~x = C~b → C −1 CA~x = A~x = ~b = C −1 C~b 57 3.1.5 Analyse linearer Funktionen Grundlegende Eigenschaften von Funktionen • f injektiv, falls: ~x 6= ~y ⇒ f (~x) 6= f (~y ) oder indirekt: f (~x) = f (~y ) ⇒ ~x = ~y • f surjektiv, falls: zu jedem ~b ∈ IRn existiert ein ~a ∈ IRn mit f (~a) = ~b • f bijektiv, falls: f injektiv und surjektiv Zusammenhang zwischen A−1 und der linearen Abb. f : IRn → IRn Hilfssatz 1 Sei f : IRn → IRn linear mit zugehöriger Matrix A, dann gilt: falls A−1 existiert ⇒ f ist bijektiv Beweis: • f injektiv: seien ~x,~y ∈ IRn mit A~x = A~y ⇒ A−1 A~x = A−1 A~y ⇒ E~x = E~y ⇒ ~x = ~y • f surjektiv: sei ~b ∈ IRn gegeben, wähle ~a := A−1~b ⇒ A~a = AA−1~b = ~b Hilfssatz 2 Sei f : IRn → IRn linear mit zugehöriger Matrix A, dann gilt: f bijektiv ⇒ es existiert A−1 Kern und Bild einer linearen Abbildung Gegeben sei eine lineare Abbildung f : IRn → IRm bzw. A ∈ IRm×n . Man definiert • den Kern der Matrix A (bzw. der Abb. f ): Ker A := {~x ∈ IRn | A~x = ~0} bzw. Ker f := {~x ∈ IRn | f (~x) = ~0} • das Bild der Matrix A: Bild A := {~y ∈ IRm | ∃~x ∈ IRn 3 A~x = ~y } Bild f := {~y ∈ IRm | ∃~x ∈ IRn 3 f (~x) = ~y } 58 bzw. Die Größe des Kerns ist ein Maß dafür, wieviel Ausgangsinformation bei der Abbildung verloren geht. Kern-Bild-Satz dim (Ker A) + dim (Bild A) = dim IRn = n dim (Ker f ) + dim (Bild f ) = dim IRn = n Für endlich dimensionale Vektorräume ist die Dimension des Bild- also nie größer als die des Urbildraumes. Interpretation: Wenn man mit den Originaldaten etwas macht, wird man oft Information verlieren, höchstens aber die Originalinformation behalten. Hilfssatz 3 (wichtig!) Sei f : IRn → IRm linear mit zugehöriger Matrix A ∈ IRm×n , dann gilt: f injektiv f surjektiv ⇔ dim (Bild f ) = dim IRn ⇔ dim (Ker f ) = 0 ⇔ Ker f = {~0} ⇔ dim (Ker f ) = dim IRn − dim IRm ≥0 n = m ⇒ (f injektiv ⇔ f surjektiv ⇔ f bijektiv ) Für quadratische Matrizen genügt es also, den Kern der Matrix A zu berechnen, um Aussagen zur Existenz von A−1 machen zu können. Satz Sei n = m. Dann sind Kern und Bild von A ∈ IRn×n Teilräume des IRn . Rangbegriffe für Matrizen Spaltenrang der Matrix A := Zahl der linear unabh. Spalten von A Zeilenrang der Matrix A := Zahl der linear unabh. Zeilen von A Rang der Matrix A ∈ IRm×n := rg A Satz := Spaltenrang von A = Zeilenrang von A Folgender Satz liefert für A ∈ IRm×n einen Zusammenhang zwischen Bild und Rang dim (Bild A) = rg A Für eine n × n Matrix sind die folgenden Aussagen äquivalent: • A−1 existiert • A~x = ~0 ⇒ ~x = ~0 • rg A = n 59 3.2 Lösung linearer Gleichungssysteme 3.2.1 Zeilenraum und Spaltenraum Sei A ∈ IRm×p mit den Zeilenvektoren ~z1 , . . . ,~zm ∈ IR1×p und den den Spaltenvektoren ~a1 , . . . ,~ap ∈ IRm×1 . Definitionen Spaltenraum von A := span {~a1 , . . . ,~ap } p X m×1 = {w ~ ∈ IR |w ~ := λi~ai ; λi ∈ IR} i=1 m = {w ~ ∈ IR | w ~ := A~x; ~x ∈ IRp } m X 1×p Zeilenraum von A := {~v ∈ IR |~v := λi~zi ; λi ∈ IR} = {~v ∈ IR 1×p i=1 T |~v := ~y A; ~y ∈ IRm } Satz Für alle A ∈ IRm×p und alle invertierbaren Matrizen Q ∈ IRm×m , P ∈ IRp×p gilt: A und QA haben denselben Zeilenraum, A und AP denselben Spaltenraum. Beweis: für Spaltenraum, Zeilenraum dann analog: Wegen A~x = (AP )(P −1~x) = AP · ~x 0 mit ~x 0 = P −1~x liegt nach Definition jedes Element des Spaltenraumes von A im Spaltenraum von AP und umgekehrt (da P bijektive Abbildung). Bemerkung Die Dimension des Spaltenraumes ist nach Def. gleich dem Spaltenrang; analog mit Zeilenrang. 3.2.2 Elementare Umformmatrizen (A) Skalierung Definition: D = diag (d1 , . . . , dn ) = d1 0 und di 6= 0 ∀ i ∈ {1, . . . , n} Anwendung: D~x : i−te Komp. von ~x mal di DA: i−te Zeile von A mal di AD: j−te Spalte von A mal dj Inverse: D−1 = diag (1/d1 , . . . , 1/dn ) 60 0 .. . dn n×n ∈ IR Determinante: det D = d1 · . . . · dn Beispiel: µ 2 0 0 3 ¶ µ ¶ µ ¶ 1 2 2 4 · = 7 8 21 24 Die nächsten zwei Umformmatrizen unterscheiden sich von der Einheitsmatrix E = diag (1, . . . , 1) ∈ IRn×n nur in wenigen Elementen, die wir als Extraelemente listen: (B) Vertauschung von Zeilen/Spalten Definition: P (i, j) mit den Extraelementen P (i, j)ii = 0 , P (i, j)ji = 1 , Beispiel: P (i, j)ij = 1 P (i, j)jj = 0 P (2, 3) ∈ IR4×4 : P (2, 3) = 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 Anwendung: P (i, j)~x : i−te Komp. von ~x mit j−ter Komp. vertauscht P (i, j)A: i−te Zeile von A mit j−ter Zeile vertauscht AP (i, j): j−te Spalte von A mit i−ter Spalte vertauscht Inverse: P (i, j)−1 = P (i, j) Determinante: det P (i, j) = −1 Beispiel: 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 1 4 7 3 2 5 8 2 3 6 9 1 = 1 7 4 3 2 8 5 2 3 9 6 1 (C) Addition des Vielfachen einer Zeile/Spalte zu einer anderen Definition: Beispiel: Nij (α) mit dem Extraelement (Nij (α))ij = α 1 0 7 0 0 1 0 0 4×4 N13 (7) ∈ IR : N13 (7) = 0 0 1 0 0 0 0 1 61 Anwendung: Nij (α)~x : α mal j−te Komp. von ~x zu i−ter Komp. addiert Nij (α)A: α mal j−te Zeile von A zu i−ter Zeile addiert ANij (α): α mal i−te Spalte von A zu j−ter Spalte addiert Inverse: Nij (α)−1 = Nij (−α) Determinante: det Nij (α) = +1 3.2.3 Gauß-Jordan-Verfahren für invertierbare Matrizen Sei A ∈ IRn×n und es existiere A−1 , sei ~b ∈ IRn . Man sucht nun die Lösung ~x ∈ IRn von A~x = ~b (sowie ggf. die explizite Form von A−1 ). Sei Q eine elementare Umformmatrix. A~x = ~b (QA)~x = Q~b ⇔ Damit ändert sich am ~x nichts, wenn ch auch die rechte Seite ~b genauso umforme. Erläuterung an Zahlenbeispiel (nicht die Zahlen, sondern die Operationen sind wichtig): Operationen 1 2 1 1 0 A1 = N31 (−1)N21 (−2)A 0 1 0 2 A2 = N32 (− 3 )A1 0 1 0 A3 = N13 (−1)N23 (2)A2 0 1 0 A4 = N12 ( 23 )A3 0 1 0 A5 = diag (1, − 31 , 31 )A4 0 ~b A E 2 3 4 1 0 0 1 0 5 0 1 0 0 2 6 0 0 1 2 3 4 1 0 0 −3 −6 −3 −2 1 0 −2 −1 2 −1 0 1 2 3 4 1 0 0 −3 −6 −3 −2 1 0 1 2 0 3 4 −3 1 3 2 2 2 0 0 3 3 −1 −3 0 5 − 43 − 13 2 1 2 0 3 4 −3 1 3 4 1 10 2 0 0 −9 3 9 3 2 −3 0 5 − 43 − 13 1 0 3 4 − 23 1 3 2 10 4 1 0 0 −9 3 9 3 1 2 4 − 1 0 − 53 9 9 3 4 1 2 1 0 1 − 3 9 9 3 E ~x A−1 Merkregel Zuerst annulliert man spaltenweise die Elemente unterhalb der Diagonale, dann oberhalb der Diagonale. Zum Schluß skaliert man die Diagonale. 62 Insgesamt ergibt sich: Q = diag (1, − 13 , 13 ) · N12 ( 23 ) · N13 (−1)N23 (2) · N32 (− 32 ) · N31 (−1)N21 (−2) und QA = E ⇒ Q = A−1 wg. Eindeutigkeit, A−1~b = ~x und A−1 E = A−1 . Der Algorithmus wendet quasi A−1 implizit auf ~b an, ohne im Regelfall A−1 explizit zu bilden! Numerisch viel stabiler!! Obere Dreiecksform Durch elementare Zeilenumformungen bringt man A auf obere Dreiecksform A2 . Alle Umformungen werden synchron auf den Vektor ~b (und in unserem Beispiel E) angewendet. Die Umformung bis zum Erreichen von A2 bezeichnet man als Vorwärtselimination. Die Zwischen-Matrix A2 hat obere Dreiecksform, hier kann man bereits durch sog. Rückwärtssubstitution die Lösung von A~x = ~b ablesen. Ausgeschrieben lautet das Gleichungssystem dann nämlich: 1 · x1 + 2 · x2 + 3 · x 3 = 4 −3 · x2 − 6 · x3 = −3 3 · x3 = 4 Von unten nach oben (d.h. rückwärts) bestimmt man zuerst x3 , setzt das Ergebnis in die vorhergehende Zeile ein und bestimmt x2 aus Zeile 2, anschließend x1 aus der Zeile 1. Rangbestimmung An A2 sieht man auch, daß die Matrix A den Rang 3 hat. Da somit A−1 existiert, ist das Gleichungssystem A~x = ~b eindeutig lösbar. LU-Zerlegung Nij (α) mit i > j sind untere Dreiecksmatrizen (lower triangular). Das Produkt zweier unterer Dreiecksmatrizen ist wieder eine untere Dreiecksmatrix (i.Z. L1 · L2 = L3 ), schematisch ∗ 0 ∗ 0 ∗ 0 .. . . .. . . .. . . = . · . . . . . ∗ ... ∗ ∗ ... ∗ ∗ ... ∗ Wir betrachten wieder unser Beispiel: 2 A2 = N32 (− ) · N31 (−1)N21 (−2)A ⇐⇒ 3 ³ 2 ´ LA2 = N21 (2)N31 (1)N32 ( ) A2 = A 3 A2 ist obere Dreiecksmatrix (upper triangular), daher A=LU. 63 Zeilenvertauschung Während des Eliminationsprozesses kann es passieren, daß das sog. Pivotelement gleich Null ist. Dann wird eine Zeilenvertauschung nötig; dies entspricht der Multiplikation mit einer Matrix P (i, j). Faßt man alle Vertauschungsmatrizen in einer Matrix P zusammen und führt die Vertauschungen (formal) zu Beginn aus, so ergibt sich folgende Struktur für die Gauß-Zerlegung P A = LU Bemerkung Gelegentlich kann auch eine Spaltenvertauschung nötig werden, dies entspricht der Multiplikation mit einer Matrix P (i, j) von rechts. Beachte, daß dabei auch die Komponenten von ~x umnummeriert werden, denn A~x = ~b −→ A(P (i, j)P (i, j)−1 )~x = (AP (i, j))(P (i, j)−1~x) = (AP (i, j))(P (i, j)~x) = ~b . 3.2.4 Gauß-Jordan-Verfahren für allgemeine n × n−Matrizen Der gleiche Algorithmus läßt sich auch auf beliebige, invertierbare oder nichtinvertierbare n × n−Matrizen anwenden. Beispiel (Skalierung der 1. Zeile am Anfang) 1 0 2 1 0 2 3 0 6 A = 2 1 4 −→ 0 1 0 −→ 0 1 0 0 0 0 0 5 0 3 5 6 A hat den Rang 2, d.h. nur 2 linear unabhängige Spaltenvektoren; eine Inverse ex. nicht. 64 Tabellarische Zusammenstellung für A~x = ~b, A ∈ IRn×n , ~x,~b ∈ IRn ~b = ~0, rgA = n: nur triviale Lösung ~x = ~0 ~b = ~0, rgA = r < n: Lösung mit n − r Parametern ~b 6= ~0, rgA = n: genau eine Lösung ~x ~b 6= ~0, n > r = rgA = rg(A,~b): Lösung mit n − r Parametern ~b 6= ~0, n > r = rgA < rg(A,~b): keine Lösung Die Regeln sind unmittelbar an dem Gauß-Algorithmus ablesbar. Beispiel Überlegung zur generellen Lösbarkeit Geg. sei A~x = ~b mit A = (~a1 , . . . ,~an ). Falls A~x = x1~a1 + . . . + xn~an = ~b lösbar ist ⇒ ~b ∈ span {~a1 , . . . ,~an }, d.h. dim span {~a1 , . . . ,~an } = dim span {~a1 , . . . ,~an ,~b}. Also: A~x = ~b hat keine Lösung, falls rg(A) < rg(A,~b). Betrachtung des homogenen Systems: ~b = ~0 Das homogene System A~x = ~0 hat stets mindestens die Lösung ~x = ~0, die Lösungsmenge von A~x = ~0 ist Ker(A). 65 Satz Man betrachte das inhomogenen System A~y = ~b 6= ~0. Es gilt Allgemeine inhomogene Lösung ~y = spezielle inhomogene Lösung w ~ + allgemeine homogene Lösung ~x Erläuterung: Sei w ~ eine spezielle Lösung des inhomogenen Systems: Aw ~ = ~b. Ist weiter ~x ∈ Ker(A) irgendeine Lösung des homogenen Systems, so löst w ~ + ~x das inhomogene System, denn: A(w ~ + ~x) = ~b + ~0 = ~b. Sei ~v eine weitere Lösung des inhomogenen Systems: A~v = ~b. Dann definiert man ~z := ~v − w ~ und es folgt: A~z = A(~v − w) ~ = ~b −~b = ~0 ⇒ ~z ∈ Ker(A) . Dies zeigt den obigen Satz, also ~y = w ~ + Ker(A). ¤ Zeilenstufenform Durch Gaußelimination mit ggf. Spaltenvertauschung ist stets die folgende Zeilenstufenform der Matrix erreichbar (schematisch) : A → A0 r A' n-r (Abb. 34) Die letzten n − r Zeilen sind identisch 0. Die mit ”∗ ” gekennzeichneten Einträge sind beliebig, dürfen also auch alle oder z.T. gleich Null sein. Kennzeichen der Zeilenstufenform: In jeder Zeile stehen vor einem Nicht-Null-Element ¥ nur Nullen. Von oben nach unten gelesen, rückt jedes weitere ¥ in jeder der ersten r Zeilen mindestens um eine Position nach rechts. Alle Zeilen(vektoren), die keine Nullzeilen(vektoren) sind, sind linear unabhängig. 66 Lösungsverfahren für A0~x = ~0: Die zu den Spalten ohne jedes ¥ gehörenden Variablen sind die freien Variablen und werden nacheinander mit λ1 , λ2 , . . . , λn−r bezeichnet. Beachte ggf. wg. Spaltenvertauschung auch Variablenvertauschung. Man bringt die λ0 s auf die rechte Seite und berechnet die verbleibenden abhängigen Variablen durch Rückwärtssubstitution. Beispiel A ~x = 0 1 −4 2 0 0 1 −1 −1 ~x = ~0 0 0 0 0 0 0 0 0 67 → λ 1 = x3 λ 2 = x4 Rangbestimmung Aus der Zeilenstufenform kann man unmittelbar den Rang einer Matrix A ablesen: Rang ist die Zahl der Zeilen von A, die keine Nullzeilen sind. Wertung Gauß-Algorithmus (mit Pivot-Techniken) ist zentral in heutiger Datenverarbeitung. 3.2.5 Determinante einer n × n−Matrix Zu jeder n × n−Matrix A ∈ IRn×n definiert man induktiv die Determinante: Definition: Determinante (1) Für n = 2 definiert man µ ¶ a b A= ⇒ c d ¯ ¯ a b det A := ¯¯ c d ¯ ¯ ¯ := ad − bc ¯ (2) Für n ≥ 3 erhält man durch Entwicklung nach der 1. Spalte ¯ ¯ ¯ a11 . . . a1n ¯ n ¯ ¯ ¯ .. ¯ := X(−1)j+1 a · det A det A := ¯ ... ¯ j1 j1 . ¯ ¯ j=1 ¯ an1 . . . ann ¯ Aji ∈ IRn−1×n−1 bezeichnet diejenige Restmatrix, die sich (ohne weitere Umformungen) aus A ∈ IRn×n ergibt, indem man die j−te Zeile und die i−te Spalte in A streicht. Beispiel Entsprechend erhält man bei der Entwicklung nach der i−ten Spalte von A n X det A = (−1)j+i aji · det Aji j=1 Aus den unten gelisteten Eigenschaften folgt, daß zu jeder n×n−Matrix A ∈ IRn×n genau eine Funktion det existiert mit det : IRn×n −→ IR A 7−→ det A 68 Damit ist eine Determinante immer eine reelle Zahl! Man nennt dies auch den Determinanten-Entwicklungssatz, wenn man die Determinante über ein homogenes Polynom (s.u.) definiert. Achtung: nur Theorie, niemals so praktisch berechnen! Eigenschaften von Determinanten Sei A ∈ IRn×n , dann gilt (1) det A = det AT , damit sind Spalten- und Zeilenaussagen äquivalent. Statt nach der ersten Spalte kann man auch nach der ersten Zeile entwickeln. (2) det ist linear bzgl. jeder Spalte (Zeile) von A. Bsp: det à := det (~a1 ,~a2 + λ~c,~a3 ) = det (~a1 ,~a2 ,~a3 ) + λ det (~a1 ,~c,~a3 ) (3) det En = 1 (En := E ∈ IRn×n ) (4) Spaltenvertauschung in A impliziert Vorzeichenwechsel in der Determinante. (5) Hat A zwei gleiche Zeilen oder gleiche Spalten, so gilt: det A = 0 (folgt aus (4)). (6) Die Determinante des Produkts zweier Matrizen ist gleich dem Produkt der Determinaten dieser Matrizen: det (AB) = det A · det B (7) Die Determinante einer Matrix ändert nicht ihren Wert, falls zur i−ten Spalte der Matrix das λ−fache der j−ten Spalte addiert wird (folgt unmittelbar aus 6. Regel unter Verwendung der Eigenschaften der Elementarmatrizen). (8) Wichtige Formalie, insbesondere zur Eigenwertberechnung! Bezeichnet γn die Menge aller Permutationen von {1, . . . , n} und definiert man für π ∈ γn das Vorzeichen von π durch sign (π) = +1(−1), falls π (un-)gerade Permutation, 69 so läßt sich det A darstellen als homogenes Polynom der Form X det A = sign (π) · a1π(1) · a2π(2) · . . . · anπ(n) π∈γn (auch alternative Def.möglichkeit der Determinante, macht oft Beweise leichter). Tatsächliche Berechnung von det A Wende auf A ∈ IRn×n das Gauß-Jordan-Verfahren an und beachte, daß gilt P A = LU : ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ã11 . . . ã1n ¯ ¯ . −1 .. = det P · det L · ¯ . .. ¯ ¯ 0 ãnn ¯ ¯ ¯ ¯ det A = ¯ ¯ ¯ a11 . . . a1n .. .. . . an1 . . . ann ¯ ¯ n ¯ Y ¯ −1 ãii ¯ = det P · det L · ¯ i=1 ¯ Daraus ergibt sich die folgende Bemerkung: Verschwindet ein Diagonalelement (Rang r < n, keine n lin. unabh. Spaltenvektoren), so ist die Determinante gleich Null: rgA = r < n ⇒ det A = 0 Damit ist auch der Satz gezeigt: det A 6= 0 ⇔ A−1 existiert. Detaillierte Anwendung des Determinanten-Entwicklungssatzes exemplarisch für 1. Gauß-Schritt ohne Pivotsuche: a11 a12 . . . a1n a11 a12 . . . a1n a21 a22 . . . a2n 1. Gaußschritt 0 ã22 . . . ã2n −→ A= . .. .. .. .. .. . .. . . . . 0 an1 an2 . . . ann Det.-Entw.satz ⇒ det A = a11 · det A11 ã22 . . . ã2n .. .. A11 := . . ãn2 . . . ãnn mit n−1×n−1 ∈ IR ãn2 . . . ãnn Die Restmatrix A11 ergibt sich durch Streichen der 1. Spalte und 1. Zeile. 70 Um das Vorzeichen der Determinante der Ausgangsmatrix bestimmen zu können, muß man bei der Gaußzerlegung genau über die Multiplikationen mit den elementaren Umformmatrizen buchhalten! Anwendungsformeln 1 = det En = det (AA−1 ) ⇒ det (A−1 ) = 1 det A Ähnlichkeitstransformation: B := S −1 AS mit rg S = n ⇒ det B = 1 · det A · det S = det A, det S die Determinante ändert sich unter ÄT nicht (wichtig für Basiswechsel). Blockzerlegung: Sei F ∈ IRp×p , A ∈ IRn×n , D ∈ IRp−n×p−n mit p > n und A invertierbar (d.h. A−1 existiert). Für F gebe es die folgende Zerlegung µ ¶ A B F := ⇒ det F = det A · det (D − CA−1 B) C D 3.2.6 Gauß-Jordan-Verfahren für nichtquadratische m × p−Matrizen a11 . . . a1p x1 b1 .. .. .. = .. , . . . . am1 . . . amp xp bm geg: A,~b , ges: ~x m < p : Mehr Unbekannte als Gleichungen, System unterbestimmt Transformation auf Zeilenstufenform und Lösungsbestimmung exakt gleich wie im Fall der quadratischen nichtinvertierbaren Matrizen. Der Rangbegriff besteht unverändert weiter, Inverse und Determinanten existieren nicht. m > p : Weniger Unbekannte als Gleichungen, System überbestimmt Es existiert keine Lösung im hier besprochenen klassischen Sinn. Allerdings sucht man häufig dasjenige ~x, für das gilt ¯ ¯ ¯ ¯ ¯A~x −~b¯ = min! , für das also der Fehler möglichst klein wird. Es handelt sich hier um das Problem der linearen Ausgleichsrechnung: viele Messungen,um in 71 einem linearen Modell wenige Unbekannte (=Parameter) trotz Meßfehler möglichst gut zu bestimmen. 3.2.7 Abschließendes Beispiel Gegeben sei die Matrix A und der Vektor ~b mit 0 1 1 4 1 1 0 1 −1 0 A := , ~b := 0 −4 −4 0 4 0 1 2 β α α, β ∈ IR. a) Man löse das lineare Gleichungssystem A~x = ~b in Abhängigkeit von α und β. b) In Abhängigkeit von β bestimme man die Determinante von A. 72 73 4 Eigenwerte und Eigenvektoren Beispiel für Herkunft Schwingung der Membran einer Trommel, Diskretisierung der Membran Für Schwingungen eines ein-/zwei-/drei-dimensionalen Teilchenverbundes (Teilchen über Federn gekoppelt) in der Mechanik gilt: n X d 2 yi mi 2 = − qij yj dt mit yi = yi (t) j=1 Ansatz: plitude Schwingungsbewegung mit unbekannter Frequenz und Am1 yi = √ ui eiωt . mi Einsetzen ergibt 2 ui ω = n X √ j=1 qij . mi mj Mit den Abkürzungen ~x := (U1 , . . . , un )T , λ := ω 2 , aij := √ qij , A = (aij ) mi mj erhält man die algebraische Beziehung A~x = λ~x , ein sogenanntes Eigenwertproblem. Typische Anwendungen von EW, EV: Transformationen auf Hauptachsensysteme, Lösung spezieller Differentialgleichungen (Systeme linearer Differentialgleichungen mit konstanten Koeffizienten), Stabilitätsuntersuchungen 4.1 Eigenwert- und Eigenvektordefinition Idee Wann wirkt eine Matrix A vergleichbar zu einem Skalar? Definition Sei A ∈ C n×n Matrix, ~x ∈ C n Vektor. ~x 6= ~0 heißt Eigenvektor (EV) zum Eigenwert (EW) λ ∈ C , falls gilt A~x = λ~x Umformumg ergibt (A − λE)~x = ~0 , 74 wir suchen also eine nichttriviale Lösung ~x eines speziellen linearen Gleichungssystems, nämlich den Kern der Matrix A − λE Dies ist äquivalent dazu, daß (A − λE) singulär ist, also det(A − λE) = 0 Man benutzt diese Gleichung zur Bestimmung der EWs λ. Das führt auf den Begriff des charakteristischen Polynoms PA (λ) := det(A − λE) Satz λ ∈ C ist EW von A ⇐⇒ λ NST von PA (λ) ist. Beispiel zur Veranschaulichung Betrachte die Matrix µ A := 3 1 −1 1 ¶ ∈ IR2×2 und suche die EWs und EVs! Zuerst berechnen wir det(A − λE) und erhalten µ ¶ 3−λ 1 0 = det(A − λE) = det = (3 − λ)(1 − λ) + 1 = 0 −1 1 − λ Wir erhalten das charakteristische Polynom in λ. Umformen ergibt 0 = (3 − λ)(1 − λ) + 1 = (λ − 2)2 → λ1,2 = 2 λ = 2 ist also zweifacher EW; Einsetzen in A − λE zur Probe ergibt µ ¶ 1 1 A − 2E = ⇒ singuläre Matrix −1 −1 Wir berechnen jetzt den EV ~x aus ½ x1 + x2 = 0 (A − 2E)~x = ~0 ⇒ −x1 − x2 = 0 ⇒ x2 = −x1 µ ⇒ ~x = α +1 −1 ¶ , 0 6= α ∈ IR Insgesamt ergibt sich: µ Ein doppelter EW (=NST) λ = 2, ein zugehöriger EV ~x = α 75 +1 −1 ¶ . Welche Fälle wären für eine reelle 2 × 2-Matrix möglich gewesen? (1) λ1 6= λ2 , λ1 , λ2 ∈ IR. Zu jedem EW gibt es einen durch genau einen EV ~xi aufgespannten Lösungsraum. (2) λ1 = λ2 ∈ IR (algebraische Vielfachheit 2); der Eigenraum wird durch einen Vektor aufgespannt (geometrische Vielfachheit 1) → siehe Bsp. oben. (3) λ1 = λ2 ∈ IR (algebraische Vielfachheit 2); der Eigenraum wird durch zwei Vektoren aufgespannt (geometrische Vielfachheit 2) (4) λ1 ∈ C , λ2 = λ̄1 ∈ C . Definition und Bemerkung Sei A ∈ C n×n . Die Vielfachheit ki des i-ten EW λi (also der Nullstelle von det(A − λE)) heißt algebraische Vielfachheit des EW λi . V (λi ) := {~x ∈ C n |(A−λi E)~x = ~0} = Kern(A−λi E) heißt Eigenraum zum EW λi . Die Dimension des Eigenraumes V (λi ) heißt geometrische Vielfachheit des EW λi . Geometrische und algebraische Vielfachheit stimmen i.a. nicht überein. Man kann zeigen: Geometrische Vielfachheit ≤ algebraische Vielfachheit. 4.2 Werkzeug: Polynome Die zentrale Bedeutung des charakteristischen Polynoms erfordert eine genauere Zusammmenstellung der Eigenschaften von Polynomen. Definition Eine Funktion p : IR → IR heißt reelles Polynom vom Grad n, wenn es Zahlen a0 , a1 , . . . , an ∈ IR gibt so, daß p(x) = n X ai xi , an 6= 0 i=0 p(x) = 0 ∀ x ∈ IR ist das Nullpolynom. Bemerkung 1 Definition analog erweiterbar auf komplexe Polynome: ai ∈ C , x ∈ C . 76 Bemerkung 2 Die Funktionen p0 (x) := x0 , p1 (x) := x1 , . . . , pn (x) := xn bilden die Basis eines (n + 1)-dimensionalen Vektorraums, d.h. Πn := span{x0 , x1 , . . . , xn } Man überprüft zum Beweis die VR-Axiome: Nullelement: p0 (x) = 0 , n n X X Inverses Element: p(x) = ai xi ⇒ −p(x) = −ai xi i=0 i=0 Eindeutigkeit Die Koeffizienten ai sind eindeutig festgelegt, es gibt kein anderes Polynom p̂(x) mit Koeffizenten b0 , b1 , . . . , bn so, daß p(x) = p̂(x). Man verifiziert diese Aussage, indem man p und p̂ an n + 1 verschiedenen Stellen auswertet und vergleicht → eindeutig bestimmtes Gleichungssystem. Dabei handelt es sich eigentlich um den Spezialfall einer Interpolationsaufgabe, denn p(x) = n X i=0 ai xi = n X bi xi = p̂(x) ⇔ n n X X c i xi = 0 (ai − bi )xi =: i=0 i=0 i=0 Soll dies an mindestens n + 1 unterschiedlichen Stellen xi gelten, so erhält man als Lösung nur das Nullpolynom (d.h. c0 = c1 = . . . = cn = 0), da folgendes homogene System eine eindeutige Lösung hat 1 x0 . . . xn0 c0 0 1 x1 . . . x n c 1 0 1 .. .. .. = .. . . . . 1 xn . . . xnn cn 0 Interpolationsaufgabe allgemein Gegeben seien Stützstellen xj ∈ IR, j = 0, . . . , n und Stützwerte yj ∈ IR, j = 0, . . . , n. Gesucht ist ein p ∈ Πn 3 p(xj ) = yj , j = 0, . . . , n. Das Tupel (xj , yj ) wird oft als Stützpunkt bezeichnet. Die Interpolationsaufgabe ist äquivalent zu folgendem linearen Gleichungssystem der Ordnung n + 1 zur Bestimmung der Koeffizienten a0 , . . . , an : y0 a0 1 x0 x20 . . . xn0 1 x1 x2 . . . x n a 1 y 1 1 1 .. .. .. = .. . . . . 1 xn x2n . . . xnn 77 an yn Die Determinante des Systems ist nach Vandermonde 1 x0 x20 . . . xn0 n Y n 1 x1 x2 . . . x n Y 1 1 det . = (xj − xi ) .. .. . i=0 j=i+1 1 xn x2n . . . xnn und somit von Null verschieden genau dann, wenn alle Stützstellen voneinander verschieden sind. Dann ist die Lösung eindeutig. Einordnung Einfachste Art der Interpolation, gut nur für wenige Stützpunkte. Bemerkung 3 Ein Polynom n-ten Grades mit ≥ n + 1 unterschiedlichen Nullstellen xi ist das Nullpolynom. p ∈ Πn hat höchstens n reelle Nullstellen. Bemerkung 4 Nullstellen für h ∈ Π2 direkt angebbar über Formel für ax2 + bx + c = 0, für h ∈ Π3 über die Cardano-Formeln (länglich), für h ∈ Π4 in manchen Fällen über spezielle Transformationstechniken, für Πn , n ≥ 5, gibt es i.a. keine expliziten Formeln (Satz von Abel, hier iterative Nullstellenbestimmung auf Rechner). Vielfachheit von Polynomnullstellen Sei p ∈ Πn , dann kommt die Nullstelle b in p mit Vielfachheit k , d.h. k-fach, vor, falls p(x) = (x − b)k g(x) , g(b) 6= 0, k ≤ n, g ∈ Πn−k Die Vielfachheit von Polynomnullstellen spielt die entscheidende Rolle bei der Bestimmung der algebraischen Vielfachheit von Eigenwerten. Fundamentalsatz der Algebra Jedes komplexe (und damit auch jedes reelle) Polynom n-ten Grades p(x) – welches nicht das Nullpolynom ist – hat genau n NST bi ∈ C , wenn jede Nullstelle entsprechend ihrer Vielfachheit gezählt wird. p(x) läßt sich eindeutig in ein Produkt von Linearfaktoren zerlegen p(x) = n X a i xi = a n i=0 n Y (x − bi ) , bi ∈ C . i=1 Dabei gelte: ai ∈ IR oder ai ∈ C . Ist die echt komplexe Zahl bi ∈ C \IR Nullstelle, so ist auch die konjugiert komplexe Zahl b̄i ∈ C Nullstelle des Polynoms. 78 Die komplexen Nullstellen ergeben sich als Lösungen von quadratischen Gleichungen p(x) = an (x − b1 )l1 · · · (x − br )lr · m Y (x2 + ci x + di )ki , i=1 r X li + 2 i=1 m X ki = n , i=1 wobei b1 , . . . , br ∈ IR die reellen NST bezeichnen. Beispiel: 0 = x2 + 1 = 1 · x2 + 0 · x + 1 = (x − i)(x + i) , 0 = 3x5 + 6x3 + 3x = 3x(x2 + 1)2 = 3x(x − i)(x − i)(x + i)(x + i) 4.3 Eigenschaften von Eigenwerten und -vektoren Grundlegendes Theorem Sei A ∈ C n×n Matrix, dann gilt (1) Es existieren genau n EWs λ1 , . . . , λn nach Vielfachheit in C (nicht in IR!) gezählt. (2) EVs zu verschiedenen EWs sind linear unabhängig (l.u.) (3) Mit ~x EV ist auch α~x EV, 0 6= α ∈ IR. Herleitung zum Verständnis wichtig Zu (1): Das EW-Kriterium det(A − λE) = 0 liefert das charakteristische Polynom p(λ) = a0 + a1 λ + . . . + an λn . Der Fundamentalsatz der Algebra besagt, daß ein Polynom vom Grad n genau n NST in C besitzt, der Vielfachheit nach gezählt. Zu (2): Seien λ1 , λ2 verschiedene EWs mit zugehörigen EVs ~x1 ,~x2 . Zum Nachweis von ”l.u.” betrachten wir α1~x1 + α2~x2 = ~0 Z.z. ist α1 = α2 = 0. Einsetzen in EW-Gleichung ergibt 0 = A~0 = A(α1~x1 + α2~x2 ) = α1 λ1~x1 + α2 λ2~x2 Das ergibt insgesamt zwei Bestimmungsgleichungen für α1 , α2 ¾ α1~x1 + α2~x2 = ~0 | · (−λ2 ) ⇒ α1 (λ1 − λ2 ) ~x1 = ~0 | {z } α1 λ1~x1 + α2 λ2~x2 = ~0 6=0 ⇒ α1 = 0 ⇒ α2 = 0 Zu (3): Einsetzen in Def.gleichung und Ausklammern. 79 Referenzbeispiel Gegeben sei A := 1 4 0 0 0 2 −3 α −1 6 ; α, β ∈ IR. 0 3 β 0 0 2 Man gebe in Abhängigkeit von α, β die Eigenwerte und Eigenvektoren von A an. 80 Analyse: • Falls α 6= 1, 2, 3, sind alle Eigenvektoren linear unabhängig. • Jeder Eigenvektor hängt von einem (Skalierungs-)Parameter ti 6= 0 ∈ IR ab. Ein gültiger Eigenvektor darf nicht Null sein. • Für z.B. α = 1 muß man ~x1 und ~x4 komplett neu berechnen: ~x1 und ~x4 sind die EV zu dem EW λ1 , λ4 und diese sind jetzt gleich (λ1 = λ4 = 1) 0 0 1 1 ~x1 = t1 , ~x4 = t4 0 0 0 0 81 Diese Eigenvektoren sind jetzt nicht mehr linear unabhängig. Die geometrische Vielfachheit ist 1. • Analog erhält man im Fall α = 2 für ~x2 und ~x4 – für β = −6/7: x4 =: t2 ⇒ x3 = −βt2 −2β − 3 0 ⇒ ~x2 = ~x4 = t2 −β 1 ⇒ x = −2βt − 3t2 , 1 2 0 1 + t5 0 0 x2 =: t5 Die bislang nicht untersuchte Beziehung 4x1 − x3 + 6x4 = 0 ist in diesem Fall auch erfüllt. Für den zweifachen algebraischen Eigenwert existiert ein zweidimensionaler Lösungsraum, dessen Elemente linear unabhängig von den Eigenvektoren zu den anderen Eigenwerten sind und der die geometrische Vielfachheit 2 besitzt. – für β 6= −6/7: Eine Lösung ergibt sich nur für x1 = x3 = x4 = 0 und sie lautet 0 1 ~x2 = ~x4 = t2 0 0 Der Lösungsraum besitz die geometrische Vielfachheit 1. • Der Fall α = 3 bringt nichts Neues mehr. ¤ Umformungen: Motivation aus der Praxis Ziel ist es, eine möglichst allgemeine quadratische Matrix so zu vereinfachen/transformieren, daß man EWs und EVs mit moderatem Aufwand ablesen kann. Dies bildet dann auch die Grundlage für die Entwicklung numerischer Verfahren. Für Matrizen der Dimension ≥ 5 ist eine analytische Eigenwertberechnung in endlich vielen Schritten i.a. nicht möglich (Satz von Abel; Eigenwertberechnung und Bestimmung der Nullstellen des charakteristischen Polynoms sind äquivalent). Daher arbeiten auch die numerischen Algorithmen, die hier zur Anwendung kommen, i.a. iterativ. Der Iterationsaufwand hängt stark von der Form der zu behandelnden Matrix ab. 82 Jede Matrix A ∈ C n×n läßt sich in endlich vielen Schritten auf obere Hessenbergform transformieren Matrizen von spezieller Form lassen sich häufig noch weiter vereinfachen (z.B. Tridiagonalform), bevor der (teure) iterative Teil der Eigenwertbestimmung beginnt. Frage: Welche Umformungen zulässig? Satz: Umformungen Sei A ∈ C n×n Matrix, dann gilt (1) Sei B ∈ C n×n mit det B 6= 0. A und B −1 AB haben dieselben EWs; ~x ist EV von A ⇔ B −1~x ist EV von B −1 AB. So werden Umformungen bei der EW-/EV-Berechnung durchgeführt. Man beachte den Unterschied zum GaußAlgorithmus. Beachte: EV mittransformiert → ggf. Rücktransformation (2) Ist ~x EV von A zum EW λ, dann ist ~x auch EV von p(A) := n X αi Ai + α0 E i=1 zum EW p(λ) := n X αi λi + α0 i=1 Dies überprüft man durch Hintereinanderausführen der Def. (3) A−1 existiert, wenn alle EW 6= 0; ~x ist EV von A zum EW λ ⇔ ~x ist EV von A−1 zum EW 1/λ. 83 Dies gilt, da: µ ¶ 1 1 −1 1 A~x = λ~x ⇒ A~x = ~x ⇒ A A~x = ~x = A−1~x λ λ λ (4) A und AT haben gleiche EW, aber i.a. verschiedene Eigenräume. Dies gilt, da: det(AT − λE) = det(A − λE)T = det(A − λE) Definition: Ähnlichkeitstransformation Sei det B 6= 0, A, B ∈ C n×n , dann bezeichnet man den Übergang A −→ B −1 AB als Ähnlichkeitstransformation. Beispiel Satz Vor.: Sei A ∈ C n×n . A habe n linear unabhängige EVs ~x1 , . . . ,~xn zu nicht notwendig verschiedenen EWs λ1 , . . . , λn . Beh.: Dann bringt die Transformationsmatrix B := (~x1 , . . . ,~xn ) (EVs als Spalten!) die Matrix A auf Diagonalform, d.h. es gilt (wenn Reihenfolge von ~xi und λi übereinstimmt) A → B −1 AB = diag(λ1 , . . . , λn ) =: D . Bew.: AB = (A~x1 , . . . , A~xn ) = (λ1~x1 , . . . , λn~xn ) = BD ¤ Bem.: Eine solche Matrix A heißt diagonalähnlich. Nach obigem Satz gilt zudem λ EW von A ⇔ λ EW von D ~x EV von A ⇔ B −1~x EV von D und die algebraische ist gleich der geometrischen Vielfachheit. Vorsicht: Diagonalisierung ist nicht immer möglich; man beachte genau die Voraussetzung des Satzes! 84 Wozu braucht man die Diagonalisierung (1. Anwendung)? Ein wichtige Anwendung sind Hauptachsentransformationen in der Mechanik. Man bestimmt dabei ausgewählte Koordinatenachsen, in denen die Bewegung eines mechanischen Systems besonders einfach darstellbar ist. Mehr dazu in einem eigenen Unterkapitel. ¤ Wozu braucht man die Diagonalisierung (2. Anwendung)? Satz Die Aussage über die Diagonalisierbarkeit der Matrizen läßt sich auch über die Dimension der Eigenräume charakterisieren: Die Matrix A habe r verschiedene EWs, dann gilt A diagonalisierbar ⇔ r X dim V (λi ) = n , i=1 algebraische und geometrische Vielfachheit müssen für jeden Eigenwert übereinstimmen. Wichtiger ist fast die Umkehrung dieses Satzes über die Diagonalähnlichkeit. Satz Wenn A ∈ C n×n diagonalähnlich einer Matrix D ist, dann stimmen für jeden EW algebraische und geometrische Vielfachheit überein, die EWs sind genau die Diagonalelemente von D und die EVs sind die Spaltenvektoren der Transformationsmatrix B. 85 Wozu braucht man die Diagonalisierung (3. Anwendung)? Ob eine Matrix diagonalähnlich ist, kann man testweise durch die Anwendung elementarer Umformungen aus Kap. 3.2.2 in einem Gaußähnlichen (ggf. iterativen) Algorithmus untersuchen. Klappt es, hat man auf diese Weise ohne Wurzelziehen bei Polynomen (komplexe Wurzeln möglich!) alle EWs und EVs bestimmt und so die Matrix vollständig charakterisiert. Der Hauptunterschied: Die elementaren Matrizen werden von rechts und ihre Inverse von links auf die Ausgangsmatrix angewendet; wieder wählt man aber die Matrizen so, daß z.B. spaltenweise ausgewählte Elemente von A zu Null werden. ¤ Definition wichtiger Matrixtypen a11 · · · a1m a11 · · · an1 .. ∈ IRn×m ⇒ AT = .. .. ∈ IRm×n A = ... . . . an1 · · · anm a1m · · · anm a11 · · · a1m ā11 · · · ān1 .. ∈ C n×m ⇒ AH = .. .. ∈ C m×n A = ... . . . an1 · · · anm ā1m · · · ānm AT ∈ IRn×n heißt die zu A transponierte, AH ∈ C n×n die zu A hermitesch konjugierte (=transponierte und konjugiert komplexe) Matrix. Falls A = AT ∈ IRn×n , so heißt A (reell) symmetrisch, falls A = −AT ∈ IRn×n , so heißt A (reell) schief-symmetrisch, falls A = AH ∈ C n×n , so heißt A hermitesch. Falls A = AH ∈ C n×n und ~xH A~x > 0 ∀~x ∈ C n ∧ ~x 6= ~0, dann heißt A positiv definit und ~xH A~x heißt quadratische Form. Wenn A ∈ IRn×n und A−1 = AT , dann heißt A (reell) orthogonal und es gilt: AAT = AT A = E. Wenn A ∈ C n×n und A−1 = AH , dann heißt A unitär und es gilt: AAH = AH A = E. Wenn A ∈ C n×n und AAH = AH A, dann heißt A normal. Also ist z.B. jede hermitesche und jede unitäre Matrix normal. 86 Satz und Definition Sei det B 6= 0, A, B ∈ C n×n und B H = B −1 (B unitär), dann bezeichnet man den Übergang A −→ C := B H AB als unitäre Ähnlichkeitstransformation. Es gilt: A = AH denn: ⇔ C = CH , C H = (B H AB)H = B H AH B HH = B H AB = C. Interpretation Unitäre Ähnlichkeitstransformationen erhalten die spezielle Matrixstruktur und sind numerisch stabil durchführbar. Satz (Bew. über Gauß-ähnliche Umformung) Wenn A = AH ∈ C n×n , dann ∃ X ∈ C n×n so, daß gilt (1) X H = X −1 (2) X H AX = diag (λ1 , . . . , λn ) =: D (3) λi ∈ IR , i = 1, . . . , n Gilt zudem A = AT ∈ IRn×n , dann kann auch X reell gewählt werden. Hermitesche Matrizen haben nur reelle EWs, reell-symmetrische Matrizen haben reelle EVs. Satz Sei A = AH ∈ C n×n , dann gilt A positiv definit ⇔ λi > 0 , i = 1, . . . , n Bemerkung: Ein Beispiel für eine orthogonale Transformationsmatrix ist die GivensRotation Rij (ϕ), i 6= j. 87 1 0 ... 1 rii rij 1 .. . 1 rji rjj 1 ... 0 1 mit rii = cos(ϕ), rij = sin(ϕ), rji = − sin(ϕ), rjj = cos(ϕ). (Rij (ϕ)~x)i = xi cos ϕ + xj sin ϕ (Rij (ϕ)~x)j = −xi sin ϕ + xj cos ϕ sowie Rij (ϕ)−1 = Rij (−ϕ) = Rij (ϕ)T , det(Rij (ϕ)) = 1 . Ohne die Forderung nach einer orthogonalen Transformationsmatrix könnte man die gleichen Umformmatrizen wie bei der Gauß-Elimination zur Lösung linearer Gleichungssysteme verwenden. So aber bleibt von den drei ursprünglichen Typen nur die Matrix P (i, j) der Zeilen/Spaltenvertauschung übrig. 4.4 Schursches Lemma, Hauptvektoren Wir wollen eine allgemeine quadratische Matrix (ggf. iterativ) auf eine möglichst einfache Struktur transformieren, anhand der sich EWs und EVs schnell bestimmen lassen. Dieses Wissen bildet die Grundlage für die Entwicklung numerischer Verfahren. Definition: Eine Matrix A = (aµν ) ∈ C n×n heißt obere Dreiecksmatrix, falls aµν = 0 für µ > ν. A heißt strikte obere Dreiecksmatrix, falls aµν = 0 für µ ≥ ν (die Diagonale entfällt auch). Satz: Schursches Lemma Zu jeder Matrix A ∈ C n×n existiert eine unitäre Matrix B ∈ C n×n , B −1 = B H , so, daß C := B H AB eine obere Dreiecksmatrix ist und daß in der Diagonale von C die EWs stehen. ¤ 88 Beachte: C und A haben die gleichen EWs. Bemerkung: Eine nicht so starke, aber einfacher zu beweisende Variante des Satzes sagt lediglich, daß es ein B gibt mit C := B −1 AB. Warum ist die obere Dreiecksform einer Matrix wichtig? Bildet man das charakteristische Polynom einer oberen/unteren Dreiecksmatrix A, so lautet dieses n Y det(A − λE) = (akk − λ) k=1 Die Hauptdiagonalelemente sind genau die EWs. Satz: (folgt aus Schurschem Lemma) Eine Matrix A ∈ C n×n ist normal ⇐⇒ ∃ B ∈ C n×n , B −1 = B H , 3 B H AB = diag (λ1 , . . . , λn ) , wobei die λi die EWs von A sind. Normale Matrizen sind also genau die unitär diagonalähnlichen. ¤ Damit wissen wir jetzt, wann eine unitäre Ähnlichkeitstransformation der Matrix A zu einer Diagonalmatrix führen kann. Es folgt auch sofort, daß dann der i-te Spaltenvektor von B EV zum EW λi von A ist und daß algebraische und geometrische Vielfachheit jedes EW übereinstimmen. Definition: Hauptvektor Ein Vektor ~v ∈ C n heißt Hauptvektor der Stufe k zum EW λ der Matrix A ∈ C n×n , falls (A − λE)k~v = ~0 (A − λE)k−1~v 6= ~0 ∧ Beispiel Jeder EV ~x ist Hauptvektor der Stufe k = 1 (A − λE)~x = ~0 ∧ (A − λE)0~x = ~x 6= ~0 Satz Sei ~v ∈ C n Hauptvektor der Stufe k zum EW λ der Matrix A ∈ C n×n , dann sind ~v , (A − λE)~v , (A − λE)2~v , . . . (A − λE)k−1~v stets k linear unabhängige Hauptvektoren der Stufen k, k − 1, . . . , 1. 89 Satz Zu jedem k-fachen EW λ der Matrix A ∈ C n×n gibt es k linear unabhängige Hauptvektoren, d.h. dim{~x ∈ C n | (A − λE)k ~x = ~0} = k . Zu diesen HVs gehören auch die linear unabhängigen EVs, deren Zahl die geometrische Vielfachheit bestimmt. Anwendung der obigen Sätze • λ einfacher EW der Matrix A ∈ C n×n → es existiert nur ein EV. • λ k-facher EW von A ∈ C n×n mit nur einem EV ~v1 → es gibt k linear unabhängige Hauptvektoren ~v1 , . . . ,~vk (k-dimensionale Basis). Eine spezielle Basis aus linear unabhängigen HVs läßt sich wie folgt berechnen (A − λE)~v1 = ~0 (EW, EV) (A − λE)~v2 = ~v1 .. . (A − λE)~vk = ~vk−1 • Hat man etwa einen dreifachen EW mit zwei linear unabhängigen EVs ~v1 , ~v2 , so erhält man den fehlenden HV wie oben, allerdings setzt man statt ~v1 in der Bestimmungsgleichung an und bestimmt die freien Konstanten α1 , α2 aus der Forderung nach linearer Unabhängigkeit der ~vi . 90 Beispiel Satz Die Hauptvektoren zu paarweise verschiedenen EWs einer Matrix A ∈ C n×n sind linear unabhängig. Damit gibt es zu jeder Matrix A ∈ C n×n genau n linear unabhängige Hauptvektoren (also eine Basis des C n ). Wichtige Konsequenz der Existenz einer EV-/HV-Basis ist die Existenz spezieller Matrixstrukturen: • Block-Diagonal-Normalform: A ∈ C n×n habe r paarweise verschiedene EWs λi mit der VielP fachheit ki ( ri=1 ki = n). Falls die Spalten der Transformationsmatrix P ∈ C n×n (nach EWs sortiert) aus irgendeiner Basis von Hauptvektoren bestehen, so gilt A1 0 k ×k .. P −1 AP = , Ai ∈ C i i . 0 Ar • Obere Dreiecksform: (wichtigster Fall für Anwendung) Vorstufe der Jordan-Normalform; anwenden des Schurschen Lemmas auf die Ai λi . . . ? . .. Ai → . .. 0 91 λi • Jordan-Normalform, einfachster Fall Weiter Transformation der oberen Dreiecksmatrizen, bis im einfachsten Fall gilt λi 1 0 ... ... Ai → J := ... 1 0 λi • Jordan-Normalform, allgemeiner Fall Zu einer beliebigen Matrix A ∈ C n×n existiert eine zu A ähnliche Matrix J und eine unitäre Transformationsmatrix S (mit S −1 = S H → HVs normieren!) der Form J1 0 n×n ... S −1 AS → J := , ∈C Ji = 0 Ji,1 Jm 0 .. . 0 k ×k ∈C i i. Ji,ni Dabei ist ki die algebraische Vielfachheit des i-ten EW λi und ni seine geometrische Vielfachheit. Jedes Ji,j hat die Gestalt λi 1 0 .. .. . . Ji,j := .. . 1 0 λi Frage Wie baue ich eine Transformation auf Jordan-Normalform auf, wenn nur ein EV ~v1 zum mehrfachen EW λ existiert? A~v1 = λ~v1 Sei S = (~v1 , . . . ,~vn ) Transformationsmatrix mit unbekannten Vektoren ~v2 , . . . ,~vn , so ist S −1 AS = J ⇔ AS = SJ 1 0 .. .. . . ⇔ A(~v1 , . . . ,~vn ) = (~v1 , . . . ,~vn ) .. . 1 0 λ = (λ~v1 ,~v1 + λ~v2 , . . . ,~vn−1 + λ~vn ) λ Dies ist genau obiges Gleichungssystem zur Bestimmung der HVs! ¤ 92 Beispiel, reloaded µ A= 3 1 −1 1 ¶ −→ λ1 = λ2 = 2 Frage Wie kommt man allgemein auf die Feinstruktur der Jordanblöcke zum mehrfachen gleichen EW? Antwort am Beispiel: Betrachtet wird folgendes EW-/EV-Problem 3 1 0 0 0 0 −1 1 A~x = λ~x mit A = ∈ IR4×4 1 3 1 1 −1 −1 −1 1 Das EW-Kriterium p(λ) = det(A − λE) = 0 mit p(λ) = (2 − λ)4 liefert den vierfachen EW λ1,2,3,4 = 2; algebraische Vielfachheit = 4. Da die Matrix nicht symmetrisch ist, wären auch komplexe EWs möglich gewesen. 93 Die geometrische Vielfachheit = 2. Weil die Dimension des Eigenraumes 2 ist, hat die Jordan-Normalform also zwei Jordankästchen zum Eigenwert 2. Es gibt zwei Möglichkeiten: 1 Kästchen der Größe 1 und eines der Größe 3 oder 2 Kästchen der Größe 2. Wir bilden (A − 2E)2 = 0 ∈ IR4×4 ⇒ (A − 2E)3 = (A − 2E)4 = 0 Mit V := C 4 gilt für eine beliebige Matrix G ∈ C 4×4 der Dimensionssatz 4 = dimC (V ) = dimC ker(G) + rg G . Die Anzahl ms der Jordan-Kästchen der Größe s: ms = 2as − as−1 − as+1 , 94 und Ausrechnen ergibt p~2 = 1 0 −1 0 , p~4 = 0 0 1 0 . Zur Erinnerung Mit p~1 , p~3 sind auch Linearkombinationen davon EVs !! Referenzbeispiel 1 0 −2 Gegeben sei die Matrix A := 1 −1 −1 . 2 0 −3 Sie besitzt den dreifachen Eigenwert λ1/2/3 = −1; zu diesem Eigenwert berechne man den zugehörigen Eigenraum. Anschließend gebe man die Jordan-Normalform J von A an und bestimme eine zugehörige Transformationsmatrix S aus Eigen-/Hauptvektoren. 95 Wichtig: Der EV, der zum HV gehört (das ist hier ~v3 = α~v1 + β~v2 ), muß in der Basis vertreten sein. Dies gilt auch für den HV. Dafür fliegt entweder ~v1 oder ~v2 raus; welcher ist Geschmackssache. ¤ 4.5 Hauptachsentransformationen 4.5.1 Erweiterung: Skalarprodukt und Norm im IRn Das euklidische (Skalar)Produkt zweier Vektoren ~x,~y ∈ IRn ist definiert als IRn × IRn → IR , y1 n .. X T xi yi =: h~x,~y i2 (~x,~y ) − 7 → ~x ~y = (x1 , . . . , xn ) . = i=1 yn und ergibt sich damit als Produkt zweier spezieller Matrizen, nämlich der Vektoren ~x,~y , nach den Regeln der Matrixmultiplikation. Definition: Skalarprodukt im IRn allgemein Eine Abbildung h , i : IRn × IRn → IR heißt Skalarprodukt, wenn sie linear, symmetrisch und positiv definit ist, d.h. 96 • Linear: h~a,~b + λ~ci = h~a,~bi + λh~a,~ci , λ ∈ IR, ~a,~b,~c ∈ IRn • Symmetrisch: h~a,~bi = h~b,~ai • Positiv definit: ~a 6= ~0 ⇒ h~a,~ai > 0 , ~a = ~0 ⇒ h~a,~ai = 0 Bei dem bekannten Produkt ~xT ~y von Vektoren handelt es sich um ein spezielles Skalarprodukt, gekennzeichnet durch den Index ”2”. Jedes Skalarprodukt induziert eine Längenmessung, enthält aber selbst zusätzlich Winkelinformation. Definition: eukidische Norm Euklidische Länge eines Vektors k~xk2 := p h~x,~xi2 = qP n 2 i=1 xi = |~x|. Normdefinition im IRn allgemein Liegt ein Skalarprodukt vor, so induziert (= legt fest) dieses eine sog. Norm durch die Definition p k · k := h·, ·i und man kann die nachfolgend gelisteten Eigenschaften unter Zuhilfenahme der Skalarprodukteigenschaften beweisen. Anderenfalls kann man auch die Norm k · k : IRn → IR definieren als eine Abbildung, die die folgenden 3 Eigenschaften erfüllt: • Linear: kλ~xk = |λ| · k~xk , • Positiv definit: k~xk ≥ 0 , • Dreiecksungleichung: λ ∈ IR (k~xk = 0 ⇔ ~x = ~0) k~x + ~y k ≤ k~xk + k~y k Die übliche Längendefinition bei Vektoren durch k · k2 ist eine spezielle Norm. Abschätzungen Cosinussatz im IR2 : Sei α der Winkel zwischen ~x und ~y , dann gilt im IR2 ~xT ~y = k~xk2 k~y k2 cos α ≤ k~xk2 k~y k2 , da | cos α| ≤ 1 , Analogie im IRn : Cauchy-Schwarz’sche Ungleichung Sei ~x,~y ∈ IRn , dann gilt |h~x,~y i| ≤ k~xkk~y k 97 ~x, ~y ∈ IR2 . Beweis: h~x,~y i . Dann gilt wegen der Positivh~y , ~y i Definitheit und der Linearität des Skalarproduktes Sei o.E. ~y 6= ~0 und man definiere λ := 0 ≤ h~x − λ~y ,~x − λ~y i h~x,~y ih~x,~y i h~x,~y ih~x,~y i = h~x,~xi − 2 + h~y , ~y i h~y ,~y i 2 h~x,~y i = kxk2 − k~y k2 ¤ Bemerkung Bei der Definition der Norm über das Skalarprodukt zeigt man die Dreiecksungleichung elegant mit der Cauchy-Schwarz’schen Ungleichung k~x + ~y k2 = C.S.U. ≤ h~x + ~y ,~x + ~y i = h~x,~xi + 2h~x,~y i + h~y , ~y i k~xk2 + 2k~xkk~y k + k~y k2 = (k~xk + k~y k)2 Das Rechnen mit Skalarprodukten ist praktisch wichtig! ¤ Bemerkung zur Abstandsmessung Weitere wichtige Normen sind k~xk∞ := max {|xi |} 1≤i≤n oder k~xkp := à n X !1/p |xi |p , p ∈ IN . i=1 Normen lassen sich zur Abstandsmessung heranziehen über die Abstandsdefinition d(~x, ~y ) := k~x − ~y k . 98 Beispiel y y 1 -1 y 1 x 1 1 -1 1 -1 x -1 -1 1 x -1 Definition: Orthogonalität Zwei Vektoren ~x und ~y heißen orthogonal oder aufeinander senkrecht stehend, wenn h~x,~y i = 0 Man sagt, die Vektoren ~v1 , . . . ,~vr ∈ IRn , r ≤ n, bilden ein Orthogonalsystem, wenn sie paarweise aufeinander senkrecht stehen, d.h. h~vi ,~vj i = 0 , i 6= j . Wiederum ist h~x,~y i2 = ~xT ~y ein wichtiger Spezialfall, aber der Begriff der Orthogonalität greift weiter. Satz Bilden die Vektoren ~v1 , . . . ,~vr ∈ IRn , r ≤ n, ein Orthogonalsystem, so sind die Vektoren linear unabhängig. Umkehrung gilt nicht! Beweis: Z.z. ist r X αi~vi = 0 ⇒ αi = 0 , i = 1, . . . , r i=1 Wichtiger (!) Trick: Multipliziere die Gleichung nacheinander mit allen ~vj im Sinne des Skalarproduktes → 0 = h~vj , r X αi~vi i = αj h~vj ,~vj i ⇒ αj = 0 i=1 ¤ 99 Definition Die Vektoren ~v1 , . . . ,~vn ∈ IRn bilden eine Orthonormalbasis des IRn (Abk. ONB), falls die folgenden 2 Eigenschaften erfüllt sind • ~v1 , . . . ,~vn sind paarweise orthogonal (d.h. bilden Orthogonalsystem und sind damit linear unabhängig) • k~vi k = 1 , i = 1, . . . , n Bemerkung Die einfachste ONB des IRn ist das kartesische System ~e1 , . . . ,~en . Bemerkung Ist A = AT ∈ IRn×n positiv definit, so wird durch h~y ,~xi := ~y T A~x ebenfalls ein Skalarprodukt definiert. Denn es gilt Dieses Skalarprodukt wird mit h~y ,~xiA bezeichnet und induziert auch eine (unübliche, aber wichtige) Orthogonalität. 4.5.2 Gram-Schmidt- Orthogonalisierung Ziel ist der Umbau einer beliebigen Basis eines (Unter-)Vektorraumes in eine ONB mit dem Verfahren nach Gram-Schmidt. Satz Seien ~a1 , . . . ,~ar linear unabhängige Vektoren des IRn , n ≥ r, dann existieren orthonormale Vektoren ~c1 , . . . ,~cr mit span {~a1 , . . . ,~ar } = span {~c1 , . . . ,~cr } . Die zugehörige Rechenkonstruktion spiegelt auch wesentliche Teile des Beweises wider. Im 1. Schritt konstruiert man ein orthogonales System ~b1 , . . . ,~br (wesentlicher Schritt). Wir zeigen das Vorgehen für o.E. r = 3. • Setze ~b1 := ~a1 mit k~b1 k 6= 0. 100 • Konstruiere ~b2 aus ~b1 und ~a2 so, daß h~b1 ,~b2 i = 0. Dazu macht man den Ansatz ~a2 − µ12~b1 =: ~b2 und bestimmt µ12 ∈ IR so, daß die folgende Gleichung erfüllt ist h~b1 ,~b2 i = h~b1 ,~a2 − µ12~b1 i = 0 ⇒ µ12 = h~b1 ,~a2 i h~b1 ,~b1 i Als Ergebnis sind ~b1 und ~b2 orthogonal. Man schneidet also von ~a2 den nichtorthogonalen Anteil ab. • Konstruiere ~b3 aus ~b1 ,~b2 ,~a3 so, daß h~b1 ,~b3 i = 0 und h~b2 ,~b3 i = 0 −→ zweiparametriger Ansatz: ~b3 = ~a3 − µ13~b1 − µ23~b2 , µ13 , µ23 ∈ IR Aus der Forderung h~b2 ,~b3 i = 0 erhält man h~b2 ,~a3 − µ13~b1 − µ23~b2 i = h~b2 ,~a3 i − µ13 h~b2 ,~b1 i −µ23 h~b2 ,~b2 i = 0 | {z } =0 und es ergibt sich µ23 = h~b2 ,~a3 i h~b2 ,~b2 i Analog erhält man aus der Forderung h~b1 ,~b3 i = 0 ⇒ µ13 = h~b1 ,~a3 i h~b1 ,~b1 i Damit sind ~b1 ,~b2 ,~b3 orthogonal. Im 2. Schritt erfolgt die Normierung auf ”1” durch ~ci = ~bi , k~bi k i = 1, 2, 3 . Vollständige Induktion liefert die Aussage für beliebiges r ≤ n: ~bk = ~ak − k−1 ~ X hbj ,~ak i j=1 h~bj ,~bj i ·~bj , ~ck = ~bk , k~bk k k = 1, . . . , r . ¤ Beispiel Die linear unabhängigen Vektoren 1 1 −2 1 ~a1 = und ~a2 = 0 0 0 1 101 und ~a3 = 1 0 −1 2 4.5.3 Quadratische Form und Hauptachsentransformation Grundvoraussetzung A ∈ IRn×n symmetrisch (A = AT ) bzw. A ∈ C n×n hermitesch (A = AH ) Die verwendete Norm ist i.a. die übliche euklidische Norm. Wie bereits erwähnt, sind alle EWs symmetrischer (hermitescher) Matrizen reell. Sei nämlich λ EW von A, dann gilt λk~xk22 = λ(~xH ~x) = ~xH (λ~x) = ~xH (A~x) = ~xH (AH ~x) = (A~x)H ~x = (λ~x)H ~x = λ̄k~xk22 Satz Ist A symmetrisch (hermitesch), so sind die EVs zu verschiedenen EWs orthogonal (unitär), d.h. für λ1 6= λ2 EW gilt: h~v1 ,~v2 i2 = ~v1H ~v2 = 0 Beweis: Da die EWs reell sind, gilt λ1~v1H ~v2 = (A~v1 )H ~v2 = ~v1H (A~v2 ) = λ2~v1H ~v2 ⇒ ~v1H ~v2 = 0 , da λ1 6= λ2 ¤ 102 Bemerkung Orthogonale (unitäre) Matrizen sind längenerhaltend, denn H H 2 kA~xk22 = (A~x)H (A~x) = ~xH A | {zA} ~x = ~x ~x = k~xk2 =E Folgerung Ist A symmetrisch und besitzt A genau n verschiedene EWs, dann stehen alle EVs aufeinander senkrecht. Damit gibt es eine Ähnlichkeitstransformation von A auf Diagonalform mit einer orthogonalen Transformationsmatrix Q, d.h. Q−1 AQ = QT AQ = D = diag (λ1 , . . . , λn ) Wieso ist dabei eigentlich Q orthogonal? Satz (o.Bew.) Für reelle, symmetrische Matrizen sind algebraische und geometrische Vielfachheit eines Eigenwertes gleich. Diese Aussage ist wichtig, gibt es dann doch eine Basis des IRn aus Eigenvektoren. Definition: quadratische Form/Polynom Eine Funktion p : IRn → IR der Form p(~x) := α0 +~aT ~x + ~xT A~x mit A = AT ∈ IRn×n , ~a ∈ IRn heißt quadratisches Polynom in den Variablen ~x = (x1 , . . . , xn ). Für α0 = 0, ~a = ~0 heißt p quadratische Form. Ist zusätzlich A Diagonalmatrix, so heißt p rein quadratisch. 103 Beispiel Hauptachsentransformation – Vorbereitung Sei Basis des IRn gegeben (z.B. ~e1 , . . . ,~en ) und sei q(~x) = ~xT A~x Darstellung der quadratischen Form bzgl. dieser Basis. Übergang zu einer anderen Basis B = (~b1 , . . . ,~bn ) durch Substitution à n X ! xi~ei = ~x = B~y = n X yi~bi i=1 i=1 Dabei sind y1 , . . . , yn die Koordinaten des ursprünglichen Vektors im neuen Koordinatensystem, x1 , . . . , xn waren die Koordinaten im alten Koordinatensystem; der Vektor selbst bleibt dabei unverändert. Ausführen ergibt q(~x) = q(B~y ) = (B~y )T A(B~y ) = ~y T (B T AB)~y =: q̃(~y ) Idee Transformation einer Matrix/eines Modellsystems in ein Koordinatensystem, in dem es eine möglichst einfache Form annimmt (vgl. Trägheitstensor). Definition: Hauptachsensystem Als Hauptachsensystem einer quadratischen Form q(~x) = xT A~x (bzw. einer symmetrischen Matrix A = AT ) bezeichnet man eine Orthonormalbasis B = (~b1 , . . . ,~bn ) , falls q im neuen Koordinatensystem rein quadratisch ist, d.h. auch, daß B T AB eine Diagonalmatrix ist. 104 Hauptachsentransformation – Satz und Konstruktion Zu jeder quadratischen Form q(~x) = xT A~x bzw. jeder reell-symmetrischen Matrix A = AT ∈ IRn×n gibt es mindestens ein Hauptachsensystem. Man bestimmt dieses wie folgt: Zu jedem der verschiedenen EWs λi bestimmt man eine Orthonormalbasis (~bi1 , . . .~biki ) von (A − λi E)~x = ~0 , i = 1, . . . , r Zusammensetzen der Teilbasen in der angegebenen Reihenfolge ergibt ein Hauptachsensystem B = (b11 , . . .~b1k1 , . . . ,~br1 , . . .~brkr ) B ist nach Konstruktion orthonormal (d.h. auch B T = B −1 ). Damit gilt B T AB = B −1 AB = diag (λ1 , . . . , λ1 , . . . , λr , . . . , λr ) =: D | {z } | {z } k1 −f ach kr −f ach und damit auch q(~x) = q(B~y ) = λ1 y12 + . . . + λr yn2 . Bemerkung Die Bestimmung einer orthogonalen Matrix B so, daß B T AB Diagonalform hat, heißt auch orthogonale Diagonalisierung der Matrix A. Die Vektoren der Orthonormalbasis, d.h. die Spalten von B, sind die neuen Achsen. Beispiel Die Rotationsenergie eines starren Körpers lasse sich in kartesischen Koordinaten schreiben als 10 8 8 1 T 1 T ~ T= ω ~ J~ω = ω ~ 8 10 8 ω 2 2 8 8 10 105 Kennt man umgekehrt die Form des Körpers und somit die ursprüngliche Lage der Hauptachsen, so läßt die ONB einen Rückschluß auf die augenblickliche Orientierung zu. ¤ 106 4.5.4 Quadriken = Hyperflächen 2. Ordnung Definition: Quadrik Als Quadrik oder Hyperfläche 2. Ordnung bezeichnet man die Menge aller Punkte (= Spitzen der Vektoren, die vom Nullpunkt ausgehen) ~ := (x1 , . . . , xn ) ∈ IRn , 0X die die folgende Gleichung erfüllen p(~x) := α0 +~aT ~x + ~xT A~x = 0 mit A = AT ∈ IRn×n , ~a ∈ IRn Man sagt, die Quadrik liege in Normalform vor, wenn ~xT A~x rein quadratisch ist und die verbleibende Verschiebung α0 +~aT ~x durch quadratische Ergänzung nicht weiter eliminiert werden kann. Damit lautet die Quadrik z.B. ~x̂T diag (λ1 , . . . , λn )~x̂ = α̂0 , α̂0 ∈ {0, 1} . Man bringt Quadriken durch Übergang auf neue Koordinaten auf Normalform. Klassifikation der Quadriken in IR2 und IR3 Sei n = 2, dann unterscheidet man nach Transformation auf Normalform insgesamt 9 Fälle ((x, y)=(x ˆ 1 , x2 )): Für λ1 6= 0 , λ2 6= 0 (also rg A = 2) erhält man mit den Konstanten a 6= 0, b 6= 0, p 6= 0 x2 y 2 + −1 a2 b2 x2 y 2 + +1 a2 b2 x2 y 2 − −1 a2 b2 x2 + a2 y 2 2 2 2 x −a y = 0 Ellipse, evtl. Kreis = 0 leere Menge = 0 Hyperbel = 0 Punkt = 0 Geradenpaar mit Schnittpunkt Für λ1 6= 0 , λ2 = 0 (also rg A = 1) erhält man mit a 6= 0, p 6= 0 x2 − 2py = 0 Parabel x2 − a2 = 0 paralleles Geradenpaar x2 + a2 = 0 leere Menge 2 Gerade x = 0 x = 0 Analog unterscheidet man im Fall n = 3 nach Transformation auf Normalform insgesamt 17 Fälle ((x, y, z)=(x ˆ 1 , x2 , x3 )). Eine vollständige Übersicht findet sich auf den HM1-Seiten im WWW (quadriken.pdf). 107 y y x x y y -a x a x y y x x rg (A)=2 rg (A)=1 Hier seien nur ein paar wichtige Beispiele genannt: x2 y 2 z 2 + + −1 = 0 a2 b2 c2 x2 y 2 z 2 + − −1 = 0 a2 b2 c2 x2 y 2 − − 2pz = 0 a2 b2 x2 y 2 + −1 = 0 a2 b2 x2 − 2py = 0 x 2 = 0 Ellipsoid, evtl. Kugel, rg A = 3 (3 EWs 6= 0) einschaliges Hyperboloid, rg A = 3 hyperbolisches Paraboloid, rg A = 2 (2 EWs 6= 0) elliptischer Zylinder, rg A = 2 parabolischer Zylinder, rg A = 1 (1 EW 6= 0) Ebene, rg A = 1 108 Transformation einer Quadrik auf Normalenform Vorgehen in 2 Schritten: Hauptachsentransformation und quadratische Ergänzung. Wir führen dies vor an folgendem Referenzbeispiel, der Bestimmung von Typ und Normalform von q(x, y, z) = −x2 − y 2 + z 2 + 6xy + 2xz + 2yz − 12x + 4y − 10z − 11 = 0. Wir schreiben zuerst das System in symmetrischer Standardform, um durch die Existenz einer symmetrischen Matrix A = AT nachzuweisen, daß es sich überhaupt um eine Quadrik handelt. Anschließend folgt die Hauptachsentransformation des quadratischen Anteils mit dem Hauptachsensystem B = (~b1 , . . . ,~bn ) Die EWs von A sind λ1 = 3 , λ2 = −4 , Die zugehörigen normierten EVs lauten 109 λ3 = 0 . Die Quadrik hat also nach der Transformation die allgemeine Form n X i=1 λi yi2 + n X γi yi + α0 = 0 , γi ∈ IR . i=1 Mit der anschließenden Substitution (= quadratischen Ergänzung) ( yi , falls λi = 0 γi zi = yi + , falls λi 6= 0 2λi werden die linearen Terme – soweit möglich – wegtransformiert. Diese Substitution bewirkt einer Verschiebung des bereits gedrehten Koordinatensystems an einen anderen Ursprung! Dies entspricht einer Transformation ~z = ~y + d~ . 110 4.5.5 Positiv definite Matrizen Definition Eine quadratische Form q(~x) := ~xT A~x bzw. die zugehörige symmetrische Matrix A = AT ∈ IRn×n heißt positiv (negativ) definit, wenn aus ~x 6= ~0 stets folgt q(~x) > 0 (q(~x) < 0). Sie heißt positiv (negativ) semidefinit, falls q(~x) ≥ 0 (q(~x) ≤ 0) und indefinit, falls q sowohl positive wie auch negative Werte annehmen kann. Satz (a) D := diag (d1 , . . . , dn ) ist positiv definit ⇐⇒ di > 0 ∀ i (b) A = AT positiv definit ⇐⇒ für A sind alle EWs λi > 0 (c) A = AT positiv definit ⇐⇒ W T AW positiv definit für irgendein W ∈ IRn×n , det W 6= 0. Beweis: (a) q(~x) = ~xT D~x = P di x2i > 0 ∀ xi ⇔ di > 0 (wähle spezielle ~x) (c) A pos. def. ⇒ ~xT (W T AW )~x = (W ~x)T A(W ~x) > 0; Umkehrung analog (b) Hauptachsentransformation Notwendige (!!) Bedingung Für symmetrische Matrizen gilt A = AT pos. definit =⇒ aii > 0 , i = 1, . . . , n Man zeigt dies, indem man speziell ~x = ~ei wählt. 111 5 Stetigkeit und Differenzierbarkeit 5.1 Folgen und Grenzwerte 5.1.1 Metrischer Raum und Abstandsfunktion Definition Es sei X eine Menge und d : X × X → IR eine Funktion mit den Eigenschaften 1. d(x, y) ≥ 0 ∀ x, y ∈ X sowie d(x, y) = 0 ⇔ x = y 2. d(x, y) = d(y, x) ∀ x, y ∈ X 3. d(x, z) ≤ d(x, y) + d(y, z) ∀ x, y, z ∈ X (Dreiecksungleichung). Dann heißt (X, d) metrischer Raum, die Funktion d heißt Metrik auf X. Skalarpordukt −→ Norm −→ Abstand Beispiel Eine große Klasse von Abstandsfunktionen leitet sich aus Normen her d(~x,~y ) := k~x − ~y k . Beispiele für X bilden der IRn oder der C n . Weiteres Beispiel für metrischen Raum Sei X ∈ IR, C , sei Y beliebige Menge. Sei B(Y, X) := {f : Y → X | f beschränkt} und d∞ (f, g) := supy∈Y {|f (y) − g(y)|}. (B(Y, X), d∞ (f, g)) ist metrischer Raum. 5.1.2 Folgen und Grenzwerte Vorbemerkung: Wesentlich ist, daß im betrachteten Raum eine Abstandsfunktion erklärt ist; dann erst kann man präzise sagen, ob zwei Punkte nahe beisammen liegen. Einfache akademische Beispiele für Folgen 112 Definitionen (1) Ist n0 ∈ ZZ, dann sei ZZn0 := {n ∈ ZZ : n ≥ n0 } (2) Folge: Ist X nichtleere Menge, dann heißt jede Abbildung φ : ZZn0 −→ X n 7−→ an eine Folge von Elementen aus X mit Anfangsindex n0 . Wir schreiben {an } oder genauer {an }n∈ZZn0 . (3) Teilfolge: Ist {an }n∈ZZn0 eine Folge und ϕ : ZZn0 → ZZn0 eine streng monoton wachsende Abbildung, d.h. n < m ⇒ ϕ(n) < ϕ(m), dann heißt die Folge φ̃ : ZZn0 −→ X n 7−→ aϕ(n) eine Teilfolge von {an }n∈ZZn0 . Beispiel: Gegeben sei die Folge a4 , a5 , a6 , a7 , a8 , a9 , . . .. Durch bn = aϕ(n) mit ϕ(n) := 2n + 1 gewinnt man daraus die Teilfolge b2 = a5 , b3 = a7 , b4 = a9 , . . .. (4) ε−Umgebung: Sei (X, d) metrischer Raum, a ∈ X, ε > 0. Uε (a) := {x ∈ X | d(x, a) < ε} heißt offene Kugelumgebung von a mit Radius ε oder kurz ε−Umgebung. Im 1-dim. Fall entspricht dies Kε (a) (vgl. Kap. 1). U ⊂ X heißt Umgebung von a, falls es (irgend)ein ε > 0 gibt so, daß Uε (a) ⊂ U . (5) Beschränkt: Teilmenge S ⊂ X des metrischen Raumes (X, d) heißt beschränkt, wenn es ein 0 < r ∈ IR und x0 ∈ X gibt so, daß y ∈ Ur (x0 ) (6) Grenzwert: ∀y ∈ S . Sei (X, d) metrischer Raum, {an }n∈ZZn0 Folge in X. a ∈ X heißt Grenzwert (Limes) der Folge {an }, falls gilt: Wählt man ein beliebiges ε ∈ IR, ε > 0 und hält es dann fest, dann gibt es immer einen Index (=Zahl) nε ∈ ZZn0 so, daß d(an , a) ≤ ε ∀ n ≥ nε ; dies gilt insbesondere für beliebig kleines ε. Man schreibt: a = limn→∞ an oder auch ”an → a für n → ∞”. 113 (7) Konvergent: Sei (X, d) metrischer Raum; Folge {an } ⊂ X heißt konvergent, falls {an } einen Grenzwert hat; sonst divergent. {an } ⊂ IR heißt Nullfolge, falls {an } gegen Null konvergiert. Im IR3 mit dem üblichen (euklidischen) Abstand d2 ist Uε (a) wirklich eine Kugel mit Radius ε. Beispiel: Folge divergiert, Teilfolge konvergiert an = (−1)n divergiert, bn := a2n = (−1)2n = 1 konvergiert Sätze, die für allgemeine Folgen gelten: Sei (X, d) metrischer Raum, {an } ⊂ X. (1) Der Grenzwert einer konvergenten Folge ist eindeutig, d.h. sind a, b ∈ X und limn→∞ an = a und limn→∞ an = b ⇒ a = b. (2) Konvergiert die Folge {an }, dann ist sie auch notwendigerweise beschränkt. (3) Konvergiert die Folge {an } gegen a, dann konvergiert auch jede Teilfolge gegen a. Die folgenden Sätze gestatten oft eine Zerlegung von neuen komplizierten Folgen in bereits bekannte Folgen. Sätze, die für Folgen reeller oder komplexer Zahlen gelten: Sei o.E. X = IR, seien {an } ⊂ IR und {bn } ⊂ IR konvergente Folgen mit a = limn→∞ an , b = limn→∞ bn , a, b ∈ IR. (1) limn→∞ (an ± bn ) = a ± b (2) limn→∞ (can ) = ca, limn→∞ (c + an ) = c + a ∀ c ∈ IR. (3) limn→∞ (an · bn ) = a · b √ √ (4) limn→∞ |an | = |a|, limn→∞ an = a 114 (5) Ist eine weitere Folge {cn } ⊂ IR beschränkt und gilt a = 0 (d.h. {an } Nullfolge), dann ist limn→∞ (cn · an ) = 0 (6) Ist a 6= 0, dann gibt es n0 ∈ IN 3 an 6= 0 ∀ n ≥ n0 und 1 1 = , n→∞,n≥n0 an a lim bn b = n→∞,n≥n0 an a lim Wichtige Warnung Aus der Existenz von limn→∞ (an ± bn ), . . . folgt nicht die Konvergenz der einzelnen Folgen {an } ⊂ IR und {bn } ⊂ IR; die Umkehrung der obigen Aussagen gilt also nicht! Sätze, die für Folgen reeller Zahlen gelten: Sei X = IR, seien {an } ⊂ IR und {bn } ⊂ IR konvergente Folgen mit a = limn→∞ an , b = limn→∞ bn , a, b ∈ IR; (1) Gilt an ≤ bn ∀n ≥ n0 , dann ist a ≤ b. Die Grenzwertbildung erhält die schwache Ungleichung. (2) Gilt an < bn ∀ n ≥ n0 , dann ist a ≤ b. Die Grenzwertbildung erhält nicht die starke Ungleichung. Beispiel: an := 0, bn := 1/n. (3) Sei {cn } ⊂ IR weitere Folge. Es gelte an ≤ cn ≤ bn ∀n ≥ n0 sowie a = b. Dann ist auch {cn } konvergent mit a = limn→∞ cn . Dieses sog. Vergleichskriterium ist wichtige Methode, um Informationen über den noch unbekannten (möglichen) Grenzwert einer neuen Folge zu bekommen, indem man die Folgenglieder cn zwischen Glieder bereits bekannter konvergenter Folgen einschließt. (4) Wichtiges Konvergenzkriterium: Eine monotone Folge {an } ⊂ IR ( d.h. entweder an ≤ an+1 ∀ n für monoton wachsend oder an ≥ an+1 ∀ n für monoton fallend) ist genau dann konvergent, wenn sie beschränkt ist. Beachte: {an } monoton wachsend 115 ⇔ {−an } monoton fallend Beispiel Gegeben sei die rekursiv definierte Folge bk+1 = 1 − 0, k ∈ IN. 3 , 2bk + 5 b1 = Man zeigt durch Induktion, daß diese Folge monoton wächst und bk ∈ [0, 1] ∀k ∈ IN, also beschränkt ist. Damit konvergiert die Folge. Sätze, die für Folgen im IRp , C p gelten: Sei (K p , d2 ) mit K = IR, C metrischer Raum, p ∈ IN, {~xn } ⊂ K p Folge. © ª (1) {~xn } := (x1,n , . . . , xp,n )T konvergiert genau dann gegen ~x := (x1 , . . . , xp )T ∈ K p , wenn komponentenweise Konvergenz vorliegt: lim xi,n = xi , n→∞ i = 1, . . . , p (2) Seien {~xn }, {~yn } ⊂ K p zwei konvergente Folgen mit Grenzwerten ~x, ~y ∈ K p und {βn } ⊂ K konvergente Folge mit Grenzwert β ∈ K, so gilt: lim (~xn + ~yn ) = ~x + ~y , lim (βn · ~xn ) = β · ~x n→∞ n→∞ Definition der Cauchy-Folge Sei (X, d) metrischer Raum, {an } ⊂ X Folge; {an } heißt Cauchy-Folge, wenn es zu jeder Wahl von ε > 0 ein nε ∈ IN gibt so, daß d(an , am ) ≤ ε ∀ n, m ≥ nε . (X, d) heißt vollständig, wenn jede Cauchy-Folge in X konvergiert. 116 Sätze allgemein über Cauchy-Folgen in metrischen Räumen Sei (X, d) metrischer Raum. (1) Jede Cauchy-Folge in X ist beschränkt. (2) Jede konvergente Folge in X ist eine Cauchy-Folge. (3) Eine Cauchy-Folge {an } ⊂ X konvergiert genau dann, wenn {an } eine konvergente Teilfolge enthält. Bemerkung Teilsatz (2) zusammen mit der Vollständigkeitsdef. liefert das (leichter zu prüfende) Cauchy’sche Konvergenzkriterium: In einem vollständigen metrischen Raum (X, d) konvergiert {an } genau dann, wenn {an } Cauchy-Folge. Damit kann man die Existenz eines Grenzwertes zeigen, ohne diesen explizit zu kennen. Bemerkung Der IRn , C n zusammen mit d2 , d∞ sind vollständige metrische Räume. Bemerkung Konvergenzuntersuchungen sind in der Praxis wichtig für die numerischen Näherungslösungen, die ein Iterationsverfahren produziert. 5.2 Stetige Funktionen einer Variable Wir untersuchen reellwertige Funktionen einer reellen Veränderlichen. Diese haben die allgemeine Form f : I ⊆ IR → IR . Die Zuordnung x 7−→ f (x) kann z.B. geschehen durch – eine explizite Rechenvorschrift (z.B. y := f (x) = 3x), – eine implizite Gleichung (z.B. y 3 − xy − 3 = 0), – eine Differentialgleichung oder eine Tabelle. 117 Erste Idee Übertrage den Grenzwertbegriff von Folgen auf Funktionen. Sei dazu I ⊆ IR ein Intervall, a ∈ I und f : I \ {a} → IR eine gegebene Funktion. Frage: Wie verhalten sich die Funktionswerte f (x), wenn sich x der Stelle a nähert? Definition: Grenzwert (wichtig: ”jede Zahlenfolge”) f (x) besitzt für x gegen a den rechtsseitigen (bzw. linksseitigen) Grenzwert c+ (bzw. c− ), d.h. µ ¶ + − lim f (x) = c bzw. lim f (x) = c , x→a+ x→a− falls für jede Zahlenfolge {xk }k∈IN0 aus I mit xk → a, xk > a (bzw. xk < a) und für alle k die Zahlenfolge {f (xk )}k∈IN0 gegen c+ (bzw. c− ) strebt. f (x) hat den Grenzwert c (i.Z. limx→a f (x) = c), falls c+ = c− =: c, also rechts- und linksseitiger Grenzwert übereinstimmen. Nächste Idee Die Funktion f ist dadurch ausgezeichnet, daß sie den Grenzpunkt xk → a ”gutmütig” mitträgt, also dort nicht springt. Definition: Stetigkeit Eine Funktion f : I → IR heißt stetig in x0 ∈ I, falls lim f (x) = f (x0 ) . x→x0 f heißt stetig, falls f stetig in jedem x0 ∈ I. Ist x0 Randpunkt vo I, so ist x → x0 nur als einseitige Annäherung (einseitiger Grenzwert) zu verstehen. Anschaulich Eine Funktion heißt stetig, wenn ich sie beim Zeichnen ohne Absetzen des Zeichenstiftes durchzeichnen kann. Beispiele für stetige Funktionen: y = sin x, y = xn für unstetige Funktionen: y = 1/(x2 − 1), Pole für ±1; Treppenfunktion Bemerkung: a, c, c+ , c− ∈ {+∞, −∞} ist möglich. 118 Intuitiv heißt eine Funktion f : I → IR also stetig im Punkt x0 ∈ I, wenn eine kleine Änderung von x0 auch nur eine kleine Änderung des Funktionswertes zur Folge hat. Diese intuitive Beschreibung läßt sich überführen in eine allgemeinere formale Definition. Definition Sei X ⊆ IR, Y ⊆ IR und f : X → Y , dann heißt f stetig im Punkt x0 ∈ X, wenn es zu jedem ε > 0 ein δε = δε (x0 ) > 0 gibt so, daß |f (x0 ) − f (x)| ≤ ε ∀ x ∈ X mit |x0 − x| ≤ δε (x0 ) . f : X → Y heißt stetig, wenn f stetig ist in jedem Punkt x ∈ X. Bemerkung Die Stetigkeitsdefinition greift unmittelbar auf die Definition des Grenzwertes zurück. Bemerkung Für Stetigkeit ist also die Existenz von f (x0 ) notwendig, die Existenz des Grenzwertes limx→x0 f (x) allein reicht nicht. Dementsprechend ist f (x) := 1/x2 in x = 0 unstetig, obwohl limx→0± f (x) = +∞. Hingegen ist eine Funktion, die für x → ∞ selbst gegen Unendlich geht, stetig, z.B. lim x2 = ∞ x→∞ Beispiele Rechenregeln für stetige Funktionen (1) Sind f, g : I → IR, I ⊆ IR, stetige Funktionen und λ ∈ IR, so sind auch f + g , f · g , λ · f stetige Funktionen; ist überdies g(x) 6= 0 ∀ x ∈ I, so ist auch f g stetige Funktion. 119 (2) Hintereinanderausführung stetiger Funktionen: Sind f : I → IR und g : D → IR mit g(D) ⊆ I stetig, dann ist auch (f ◦ g)(x) := f (g(x)) stetig. Eigenschaften stetiger Funktionen: (1) Jede auf dem abgeschlossenen Intervall I := [a, b] stetige Funktion ist beschränkt. Abgeschlossenheit ist wichtig, da sonst Pole möglich sind (vgl. z.B. f (x) = 1/x auf ]0, 1]). (2) Jede auf dem abgeschlossenen Intervall I := [a, b] stetige Funktion nimmt dort ihr Maximum und Minimum an; Extremwerte können auch an den Intervallenden angenommen werden. (3) Zwischenwertsatz: Sei f : [a, b] → IR stetige Funktion und f (a) < 0, f (b) > 0 ⇒ existiert mindestens eine Nullstelle x? ∈ ]a, b [ mit f (x? ) = 0. es (4) Folgerung aus Zwischenwertsatz: Jedes Polynom von ungeradem Grad (x, x3 , x5 , . . .) hat mindestens eine Nullstelle. 120 Definition: lokales Maximum f : I → IR hat ein lokales Maximum in x0 , falls ∃ δ > 0 so, daß ∀ x ∈ Kδ (x0 ) ∧ I mit Kδ (x0 ) := {x ∈ IR| |x − x0 | < δ} gilt: f (x) ≤ f (x0 ). Analoges gilt für ein lokales Minimum. 5.3 Stetige Funktionen mehrerer Veränderlicher Wir verallgemeinern den bislang nur für den eindimensionalen Fall eingeführten Stetigkeitsbegriff auf den mehrdimensionalen Fall von reellwertigen Funktionen mehrerer reeller Veränderlicher der Form f : D ⊂ IRn → IR . Die Argumente bilden einen reellwertigen Vektor, der Funktionswert ist ein reellwertiger Skalar. Beispiele für solche Funktionen Elliptisches Paraboloid: x2 + y 2 − z = 0 ⇔ z = f (x, y) = x2 + y 2 , f : U ⊂ IR2 → IR Determinante: det A : IRn×n → IR Die Zuordnung ~x 7−→ f (~x) kann wieder z.B. geschehen durch – eine explizite Rechenvorschrift (z.B. z := f (x, y) = 3xy), – eine implizite Gleichung (z.B. z 3 − xz − y = 0), – eine Differentialgleichung oder eine Tabelle. Beachte: Niveauflächen und partielle Funktionen Während im eindimensionalen Fall die Definitionsbereiche D sehr einfach sind (Intervalle), können sie im mehrdimensionalen Fall äußerst komplizierte Formen annehmen. Daher erweist es sich als sinnvoll, f auf gezielt gewählten Teilbereichen von D zu untersuchen. Dazu gehören • Niveauflächen von f zum konstanten Niveau c ∈ IR Nc := {~x ∈ D| f (~x) = c} . Schreibt man die Bedingung um zu g(~x) := f (~x) − c = 0 , so erkennt man, daß sich Niveauflächen numerisch durch Nullstellensuche bestimmen lassen. 121 y D x • Alle zu einer Koordinatenachse parallelen Geraden, die D treffen. Man erhält damit die partiellen Funktionen von f xi 7→ f (a1 , . . . , ai−1 , xi , ai+1 , . . . , an ) , (a1 , . . . , an ) ∈ D konstant Partielle Funktionen zeichnen die (oft willkürlich gewählten Koordinatenachsen) aus! Beispiel Man betrachte z = f (x, y) = x2 + y 2 ; die Niveauflächen sind die Kreise x2 + y 2 = c. Außerdem eingezeichnet ist y = a2 . Die zugehörige partielle Funktion lautet x 7→ x2 +a22 und ist eine nach oben verschobene Parabel. y z y=a2 c x y x Der Preis solcher meist effizienter durchführbarer Untersuchungen ist eine häufig unvollständige Kenntnis der zu untersuchenden Funktion. Definitionen (1) Beschränktheit, ε-Umgebung, Grenzwert und Konvergenz wurden allgemein für einen metrischen Raum (X, d) definiert. Hier ist z.B. X = IRn und z.B. d = d2 , d∞ . (2) Stetigkeit: Sind (IRn , dX ) und (IRm , dY ) metrische Räume und f : D ⊆ IRn → IRm eine Funktion, dann heißt f im Punkt ~x0 ∈ D ⊆ IRn stetig, wenn es zu jeder Wahl von ε > 0 ein δε = δε (~x0 ) > 0 gibt so, daß dY (f (~x0 ), f (~x)) ≤ ε ∀~x ∈ D mit dX (~x0 ,~x) ≤ δε (~x0 ) . 122 f : IRn → D ⊆ IRm heißt stetig, wenn f stetig ist in jedem Punkt ~x ∈ D. (3) Gleichmäßige Stetigkeit: Sind (IRn , dX ) und (IRm , dY ) metrische Räume und f : D ⊆ IRn → IRm eine Funktion, dann heißt f in D gleichmäßig stetig (keine lokale Def.!), wenn es zu jeder Wahl von ε > 0 ein δε gibt so, daß dY (f (~x0 ), f (~x)) ≤ ε ∀~x,~x0 ∈ D mit dX (~x0 ,~x) ≤ δε . (δε ist also unabhängig von ~x0 ,~x). Bemerkungen (1) Das Neue ist, daß man sich aus allen Richtungen dem zu untersuchenden Punkt ~x0 nähern kann. (2) Intuitiv heißt eine Funktion f stetig im Punkt ~x0 ∈ D, wenn eine kleine Änderung von ~x0 auch nur eine kleine Änderung des Funktionswertes zur Folge hat. (3) Ist ~x0 Randpunkt vo D, so ist ~x → ~x0 nur als Annäherung aus D heraus (und nicht aus einer ganzen Umgebung) zu verstehen. Im Fall n = 1 entspricht dies dem einseitigen Grenzwert. (4) Die allgemeine Stetigkeitsdefinition greift unmittelbar auf die Definition des Grenzwertes zurück. (5) Für Stetigkeit ist die Existenz von f (~x0 ) notwendig, die Existenz des Grenzwertes limk→∞ f (~xk ) mit ~xk → ~x0 allein reicht nicht. Beachte Die Stetigkeit von f (x, y) im Punkt (x0 , y0 ) ergibt sich noch nicht aus der Stetigkeit der partiellen Funktionen x 7→ f (x, y0 ) und y 7→ f (x0 , y)! Das ist ein häufig anzutreffender Irrtum!! Gegenbeispiel: 2xy 2 f (x, y) := x2 + y 4 0 , falls x > 0 , falls x ≤ 0 Sowohl x 7→ f (x, 0) = 0 als auch y 7→ f (0, y) = 0 sind stetig, ebenso übrigens t 7→ f (tu, tv) = (2tuv 2 )/(u2 + t2 v 4 ) (also wenn man sich dem Nullpunkt auf einer Geraden nähert). Dagegen ist f (x, y) für y > 0 und x = y 2 konstant 1 (Annäherung an Null auf Parabel). Daher ist f unstetig in (0, 0). 123 Definitionen: offen, abgeschlossen, kompakt • Sei D ⊆ IRn . ~a ∈ D heißt innerer Punkt, falls ∃ ε > 0 so, daß Uε (~a) ⊂ D (also ganz enthalten ist). • D heißt offen, wenn jeder Punkt von D innerer Punkt ist. • ~b ∈ IRn heißt Randpunkt von D, falls zu jedem ε > 0 die Kugelumgebung Uε (~b) sowohl mindestens einen zu D gehörenden Punkt als auch mindestens einen nicht zu D gehörenden Punkt enthält. Die Menge aller Randpunkte von D bezeichnen wir mit ∂D und nennen sie Rand von D. Der Randpunkt muß nicht zu D gehören. • ~b ∈ IRn heißt Häufungspunkt von D, falls zu jedem ε > 0 die Kugelumgebung Uε (~b) mindestens einen Punkt ~c ∈ D enthält. • Gehört jeder Häufungspunkt von D auch selbst zu D, so heißt D abgeschlossen. Dann gehört insbesondere der Rand ∂D zu D. • Ist D abgeschlossen und beschränkt, so heißt D kompakt. • D heißt zusammenhängend, wenn sich zwei beliebige Punkte ~x, ~y ∈ D stets durch eine stetige Kurve verbinden lassen, die ganz in D verläuft. 124 Sätze/Rechenregeln Ziel ist es, wie bei Funktionen einer Veränderlichen bei der Untersuchung einer neuen Funktion f auf Stetigkeitsaussagen für Teilbausteine zurückgreifen zu können. Man will nach Möglichkeit die direkte Anwendung der allgemeinen Stetigkeitsdefinition vermeiden. Spezialfall: Für x0 ∈ IR = IR1 wird D zu einem Intervall oder einer Menge von Intervallen. Es seien ~x0 ∈ D ⊆ IRn , f1 , f2 : D → IR stetig in ~x0 , g1 : IRn → IRm , g2 : IRm → IRk stetige Funktionen und λ ∈ IR. • Die Hintereinanderausführung (g2 ◦ g1 )(~x) := g2 (g1 (~x)) ist stetig. • f1 + λf2 stetig in ~x0 , d.h. die stetigen Funktionen bilden einen Vektorraum. • f1 · f2 stetig in ~x0 . f1 /f2 stetig in ~x0 , falls f2 (~x0 ) 6= 0. • Jedes stetige g : D ⊆ IRn → IRm bildet kompakte Mengen auf kompakte und damit beschränkte Mengen ab; g nimmt auf g(D) seine Extremwerte an (ggf. auch auf dem Rand von g(D)). • Zwischenwertsatz: Sei D ⊆ IRn zusammenhängend und f : D → IR stetig. Dann ist f (D) ein Intervall. Gilt weiter f (~x1 ) < f (~x2 ) für zwei feste Punkte ~x1 , ~x2 ∈ D, dann hat die Gleichung f (~x) = γ für jedes γ ∈ [f (~x1 ), f (~x2 )] (mindestens) eine Lösung. Definition ~x0 ∈ D heißt lokale (=relative) Maximal- (bzw. Minimal-)Stelle von f , falls ∃ r > 0 3 f (~x0 ) ≥ f (~x) ( bzw. f (~x0 ) ≤ f (~x)) ∀~x ∈ Ur (~x0 ) ⊆ D . ~x0 ∈ D heißt globale (=absolute) Maximal- (bzw. Minimal-)Stelle von f , falls f (~x0 ) ≥ f (~x) ( bzw. f (~x0 ) ≤ f (~x)) ∀~x ∈ D . Bemerkung In der Praxis ist man froh, wenn man eine relative Extremalstelle (Maximum bzw. Minimum) findet. Es gibt heute keine Techniken, um in praxisrelevanten Fällen absolute Extrema zuverlässig zu suchen! 125 5.4 Ableitung bei Funktionen einer Variablen 5.4.1 Grundlagen Wir rekapitulieren kurz die Idee des klassischen Ableitungsbegriffes für eine Funktion f : I ⊆ IR → IR . Dabei werden bei dem aus der Schule bekannten Stoff einige Details herausgearbeitet. Idee Man approximiert eine Funktion f (x) lokal in einer Umgebung von x0 linear, d.h. durch eine Gerade p(x) = a0 + a1 x. Mit nur zwei Freiheitsgraden a0 , a1 ist man relativ unflexibel, mehr als eine lokale Approximation kann man nicht erwarten. Man sucht also zu einer gegebenen Funktion f eine neue, andere (einfachere) Funktion, die in einer ganzen Umgebung eines Punktes x0 möglichst gut mit der Ausgangsfunktion übereinstimmt. y=f(x) Sekanten x0 x Als erstes fordert man Übereinstimmung zwischen f und p bei x0 ⇒ p(x0 ) = f (x0 ) ⇒ p(x) = a1 (x − x0 ) + f (x0 ) , a1 noch frei. Als nächstes fordert man, daß der absolute Fehler d(x) := f (x) − p(x) in der Nähe von x0 möglichst klein wird. Dies ist für stetiges f und für jedes a1 der Fall, die Forderung ist zu schwach: lim d(x) = lim (f (x) − p(x)) = lim (f (x) − f (x0 ) − a1 (x − x0 )) = 0 . x→x0 x→x0 x→x0 Man kann mehr verlangen. So soll d(x) nach Möglichkeit schneller gegen Null gehen als (x − x0 ): d(x) f (x) − f (x0 ) − a1 (x − x0 ) = lim = 0. x→x0 x − x0 x→x0 x − x0 lim 126 Existiert ein solches a1 , dann heißt f differenzierbar in x0 . Beispiel f (x) = x2 , x0 = 1 x2 − 1 = lim (x + 1) = 2 x→1 x − 1 x→1 ⇒ a1 = lim Definition Eine Funktion f : I → IR, I ⊆ IR offen, heißt differenzierbar in x0 ∈ I, falls der folgende Grenzwert existiert f (x) − f (x0 ) . x→x0 x − x0 a1 := lim Der Differentialquotient a1 ist Grenzwert des Differenzenquotienten. Bemerkung Es reicht also nicht, daß nur die einseitigen Grenzwerte existieren. Die Offenheit von I (oder zumindest die Existenz einer offenen Umgebung von x0 ) ist wesentlich für die Existenz des Differentialquotienten. Bezeichnungen ¯ ¯ d a1 = a1 (x0 ) =: f (x0 ) =: f (x)¯¯ dx x=x0 0 µ ¶ d f (x0 ) . =: dx d ist ein Operator, dx also quasi eine Vorschrift, wie aus einer Funktion f (x) eine neue Funktion f 0 (x) zu generieren ist. Wertet man diese neue Funktion an der Stelle x0 aus, so erhält man gerade die Steigung f 0 (x0 ) der Tangente an f im Punkt (x0 , f (x0 )). Beispiel 2 f (x) = x , ¯ ¯ d f (x)¯¯ = 2. dx x=x0 =1 d f (x) = 2x, dx Da im Differenzenquotienten meist x ≈ x0 , definiert man h := x − x0 und erhält als alternative Definition für den Differentialquotienten f (x + h) − f (x) , h h→0 f 0 (x) := lim f 0 (x0 ) = f 0 (x)|x=x0 . Beispiele f (x) = xn , n ∈ Q (x1/2 = f (x) = sin x ⇒ f 0 (x) = cos x , f (x) = ex ⇒ f 0 (x) = ex , √ x) ⇒ f 0 (x) = nxn−1 f (x) = cos x ⇒ f 0 (x) = − sin x 1 f (x) = ln x ⇒ f 0 (x) = , x > 0 x 127 Erweiterung des Ableitungsbegriffes Wenn f (x) − f (x0 ) −→ +∞ bzw. − ∞ für x → x0 , x − x0 so sagt man, f habe in x0 die Ableitung +∞ bzw. −∞. Existiert f 0 (x+ 0 ) := f (x) − f (x0 ) x→x0 ,x>x0 x − x0 lim bzw. f 0 (x− 0 ) := f (x) − f (x0 ) , x→x0 ,x<x0 x − x0 lim so heißt der Grenzwert rechts- bzw. linksseitige Ableitung von f in x0 . Ist f auf einem abgeschlossenen oder halbabgeschlossenen Intervall definiert, dann bedeutet Differenzierbarkeit in einem Randpunkt, daß die entsprechende einseitige Ableitung existiert. Satz Ist f : I → IR differenzierbar in x0 ∈ I, so ist f dort auch stetig; Umkehrung gilt nicht. Beweis: Differenzierbarkeit bedeutet definitionsgemäß f (x) − f (x0 ) −f 0 (x0 ) = 0 x→x0 x − x0 lim Wegen ⇒ lim f (x)−f (x0 )−f 0 (x0 )·(x−x0 ) = 0. x→x0 lim f 0 (x0 ) · (x − x0 ) = 0 folgt x→x0 lim f (x) = f (x0 ). lim f (x) − f (x0 ) = 0, also x→x0 x→x0 Das die Umkehrung nicht gilt, zeigt folgendes Gegenbeispiel: f (x) = |x| ⇒ ¯ |h| f (x0 + h) − f (x0 ) ¯¯ = ±1 = lim lim ¯ h h→0± h h→0± x0 =0 Für x = 0 liegt Stetigkeit, aber keine Differenzierbarkeit vor. Rechenregeln zur Differentiation Sei I ⊆ IR offen, f, g : I → IR seien differenzierbar, λ ∈ IR, dann gilt (1) f ± g, λf sind differenzierbar mit (f (x) ± g(x))0 = f 0 (x) ± g 0 (x) , (λ · f (x))0 = λf 0 (x) (2) Produktregel f · g ist differenzierbar mit (f (x) · g(x))0 = f 0 (x) · g(x) + f (x) · g 0 (x) 128 ¤ (3) Quotientenregel f /g ist differenzierbar für g(x) 6= 0 mit µ f (x) g(x) ¶0 f 0 (x)g(x) − f (x)g 0 (x) = g(x)2 (4) Kettenregel Die Hintereinanderausführung f ◦ g zweier Funktionen ist differenzierbar mit (f ◦ g)0 (x) = f 0 (g(x)) · g 0 (x) oder in Kurzform d(f ◦ g) df dg = · dx dg dx Beweisstrategie: stets über Grunddefinition der Ableitung Beispiele Polynome sind überall differenzierbar: p(x) = n X ai x i ⇒ 0 p (x) = n X i=1 i=0 Einfache Anwendung der Kettenregel: ½ f (x) = x4 2 4 h(x) = (x + 3x) ⇒ g(x) = x2 + 3x ⇒ i · ai xi−1 (äußere Funktion) (innere Funktion) h0 (x) = 4(x2 + 3x)3 · (2x + 3) Kompliziertere Anwendung der Kettenregel: Es wird solange nachdifferenziert, solange in der Klammer nicht nur das bloße Argument x steht (h ◦ g ◦ f )(x)0 = h(g(f (x)))0 = h0 (g(f (x))) · g 0 (f (x)) · f 0 (x) z = sin2 (ecos(3x) ) ⇒ ´ ³ ´ ³ 0 cos(3x) cos(3x) cos(3x) · (−3 sin(3x)) z = 2 sin(e ) cos(e ) · e 129 Höhere Ableitungen Wir können die Frage nach der linearen Approximation auch für die Ableitung stellen ⇒ höhere Ableitungen. Rekursive Definition: f (0) (x) := f (x) f (1) (x) := f 0 (x) = f (n) .. . ³ (x) := f (n−1) d (f (x)) dx ´0 d ³ (n−1) ´ (x) = f (x) dx Bemerkung Eine differenzierbare Funktion ist nicht automatisch mehrfach differenzierbar, siehe z.B. f (x) := x · |x| ⇒ f 0 (x) = 1 · |x| + |x| · 1 = 2|x| → nicht diff.bar! 5.4.2 Zentrale Sätze mit Anwendungen Satz: notwendige Bedingung für Extremum Sei f : I → IR diff.bar in x0 und ∃ δ > 0 so, daß Kδ (x0 ) ⊆ I, d.h. a < x0 < b. Hat f in x0 ein lokales Extremum (Maximum oder Minimum), so gilt: f 0 (x0 ) = 0 Im Inneren eines Intervalls ist eine waagrechte Tangente also notwendig für ein lokales Maximum der Funktion y = f (x). Wichtig Die Umkehrung gilt nicht! f 0 (x0 ) = 0 ist notwendige, aber nicht hinreichende Bedingung für Extremum. Gegenbeispiel: Für y = f (x) = x3 gilt im Punkt x = 0: f (0) = f 0 (0) = 0 und trotzdem ist dort kein Extremum. Satz von Rolle: Sei f : [a, b] → IR stetig mit f (a) = f (b) und diff.bar in ]a, b[, dann existiert mindestens ein x0 ∈ ]a, b[ mit f 0 (x0 ) = 0. 130 Daraus folgt: f ist entweder konstant oder hat mindestens ein Extremum. Satz gilt, da stetige Funktion auf [a, b] Minimum und Maximum annimmt. Bemerkung Läßt man die Forderung f (a) = f (b) fallen, dann existiert mindestens ein x0 ∈ ]a, b[, in dem die Tangente parallel ist zur Sekante. Dies führt auf den 1. Mittelwertsatz der Differentialrechnung: Sei f : [a, b] → IR stetig und diff.bar in ]a, b[, dann existiert mindestens ein x0 ∈ ]a, b[ mit f (b) − f (a) f 0 (x0 ) = b−a Beweis: Satz von Rolle, angewendet auf die Testfunktion h(x) = f (x)−(x−a) f (b) − f (a) ⇒ h(a) = f (a), h(b) = f (a) ⇒ h0 (x0 ) = 0 b−a Diesen Satz gibt es noch in einer anderen Formulierung: Sei f : [x, x + h] → IR stetig und diff.bar in ]x, x + h[, dann existiert mindestens ein θ ∈ ]0, 1[ mit hf 0 (x + θh) = f (x + h) − f (x) Das ist ein Spezialfall der allgemeineren Taylorformel: Satz (Taylorformel, Taylorpolynom) Es sei n ∈ IN, f : I = [a, b] → IR eine n−mal stetig differenzierbare Funktion und es existiere f (n+1) (x) ∀x ∈]a, b[. 131 Für x0 , x0 + h ∈ I definiert man das n−te Restglied Rn : I × I → IR durch die Gleichung f (x0 + h) = n X f (k) (x0 ) k=0 k! hk + Rn (x0 , x0 + h) =: Tn f (x) + Rn (x0 , x0 + h) Tn f (x) heißt Taylorpolynom vom Grad n. Schlömilch-Restglied: Für jedes p ∈ IN, 1 ≤ p ≤ n + 1, und jedes Paar x0 , x0 + h ∈ I existiert ein ϑ ∈ ]0, 1[ so, daß Rn (x0 , x0 + h) = hn+1 (1 − ϑ)n+1−p f (n+1) (x0 + ϑh) n! p Lagrange-Restglied: Speziell für p = n + 1 gilt Rn (x0 , x0 + h) = hn+1 (n+1) f (x0 + ϑh) (n + 1)! Cauchy-Restglied: Speziell für p = 1 gilt Rn (x0 , x0 + h) = hn+1 (1 − ϑ)n f (n+1) (x0 + ϑh) n! Beispiel: sin(a + x) = sin(a) + x · cos(a) − x2 x3 x4 · sin(a) − · cos(a) + · sin(a + ϑx) 2 6 24 Betrachte den Fall x = 0.1, dann ist der Fehler ≤ 4.2 · 10−6 unabhängig vom Entwicklungspunkt a. Bedeutung: Eine komplizierte Funktion wird durch ein einfaches Polynom mit guter Genauigkeit angenähert. Beispiel (3 + x)2 , die um x0 = −1 Gegeben sei für x > −3 die Funktion f (x) := ln 4 entwickelt wird. Mittels Restgliedabschätzung entscheide man, welchen Grad n das Taylorpolynom Tn f (x) mindestens haben muss, um f (0) bis auf einen absoluten Fehler von 0.1 zu approximieren. Mit dem Lagrange-Restglied Rn (x0 , x0 + h) = hn+1 (n+1) f (x0 + ϑh) (n + 1)! 132 erhält man mit x0 = −1 und h = x − x0 = 0 − (−1) = 1 schrittweise f 0 (x) = + 4 · 2(3 + x) 2 = ⇒ f 0 (−1) = 1 4(3 + x)2 (3 + x) 2 f 00 (x) = − ⇒ f 00 (−1) = −1/2 (3 + x)2 4 f 000 (x) = + ⇒ f 000 (−1) = 1/2 (3 + x)3 ¯ 2 ¯ ¯ ¯ 1 2 ¯ ¯≤ 1 = 1 > 1 |R1 (−1, 0)| = ¯− · 2 2 (3 − 1 + ϑ) ¯ 2 · 2 4 10 ¯ 3 ¯ ¯1 ¯ 4 ¯≤ 1 < 1 |R2 (−1, 0)| = ¯¯ · 3 6 (3 − 1 + ϑ) ¯ 12 10 Das heißt, es reicht das Taylorpolynom 2. Grades 1 T2 f (x) = (x + 1) − (x + 1)2 4 und es gilt |f (0) − T2 f (0)| ≤ ⇒ f (0) = ln 9 1 3 ≈ 1− = 4 4 4 1 . 12 Anwendung: Entwicklung von Näherungsformeln Nach Einstein beträgt die ”relativistische” Masse und Energie eines Teilchens m0 m= p , 1 − (v/c)2 E = mc2 , Ekin := mc2 − m0 c2 v ¿ 1. c Hier macht es Sinn, den Wurzelterm um x0 = 0 zu entwickeln Im Normalfall gilt: f (x) := √ f 0 (x) = 1 1 − x2 x 3/2 (1 − x2 ) ¡ ¢ x2 00 2 −3/2 f (x) = 3 + 1 − x 5/2 (1 − x2 ) x3 x f 000 (x) = 15 +9 7/2 5/2 (1 − x2 ) (1 − x2 ) ¢ ¡ x4 x2 2 −5/2 f 0000 (x) = 105 + 90 + 9 1 − x 9/2 7/2 (1 − x2 ) (1 − x2 ) Damit erhält man als leichter einsetzbare Näherungsformel m0 2 3 ³ v ´2 m0 2 Ekin ≈ v + · · v (+ Terme höherer Ordnung) 2 4 c 2 133 2. (= Verallgemeinerter) Mittelwertsatz der Differentialrechnung: Vor.: Seien f, g : [a, b] → IR diff.bar auf ]a, b[ sowie g 0 (x) 6= 0 ∀x ∈ ]a, b[. Beh.: Dann gilt g(a) 6= g(b) und es existiert eine Zwischenstelle ξ ∈ ]a, b[ mit f (b) − f (a) f 0 (ξ) = 0 g(b) − g(a) g (ξ) Regeln von L’Hospital Ziel ist die Behandlung unbestimmter Ausdrücke der Form f (x) g(x) x→x− 0 lim −→ 0 +∞ , 0 +∞ Analog für x → x+ 0. Voraussetzung: Seien f, g : ]a, b[→ IR diff.bar sowie g 0 (x) 6= 0 ∀ x ∈ ]a, b[. Weiter gelte f (x), g(x) x→a+ −→ 0 bzw. f (x), g(x) x→a+ −→ ∞ Behauptung: f 0 (x) f (x) , so existiert auch lim und es 0 + + x→a g (x) x→a g(x) µ ¶ f (x) f 0 (x) f 00 (x) lim = lim 0 = lim = ... x→a+ g(x) x→a+ g (x) x→a+ g 00 (x) Existiert der Grenzwert lim gilt: Tips und Tricks: • g 0 (x) 6= 0 muß nur in kleinem Intervall [a, a + δ[ erfüllt sein. 134 • Aussagen gelten auch für x → ±∞. Man führt die Fälle durch Substitution z := 1/x, z → 0 auf bekannte Fälle zurück. • f (x)g(x) habe Form 0 · ∞ ⇒ f (x)g(x) = f (x)/(1/g(x)) hat Form 0/0. • f (x) − g(x) habe Form ∞ − ∞ ⇒ f (x) − g(x) = f (x)g(x) · ((1/g(x) − 1/f (x)) = [f (x)g(x)]/g(x) − [f (x)g(x)]/f (x) hat Form ∞/∞ in jedem Summanden. Bsp. für Form 0/0: sin x cos x = lim =1 x→0 x x→0 1 µ µ µ ¶ ¶ ¶ 1 1 sin x − x cos x − 1 = lim = lim = • lim − x→0 x cos x + sin x x→0 x sin x µ ¶x→0 x sin x − sin x lim =0 x→0 2 cos x − x sin x • lim 135