14 Skalarprodukt — Abstände und Winkel Um Abstände und Winkel zu definieren benötigen wir einen neuen Begriff. Zunächst untersuchen wir die Länge eines Vektors v . Wir schreiben dafür kvk und sprechen auch von der Norm von v . (14.1) Beispiele. 1.) v ∈ R2 : Mit dem Satz des Pythagoras gilt p 2.) v ∈ R3 : Wir setzen w = (v1 , v2 , 0). Wie in 1.) bekommt man kwk = v12 + v22 . Das Dreieck mit den Ecken 0, w und v hat einen rechten Winkel in w . Mit dem Satz des Pythagoras folgt .................................................................................. .................................................................................. .................................................................................. Diese Beobachtung kann man verallgemeinern und bekommt die Definition. Für v ∈ Rn heißt die reelle Zahl v u n q uX 2 t kvk := vi = v12 + · · · + vn2 i=1 die Norm oder die Länge von v . Man kann kvk (genauer: kvk2 ) auch durch ein Produkt von Matrizen ausdrücken: v1 2 2 2 kvk = v1 + · · · + vn = v1 . . . vn ... = v T v. vn Ab sofort werden Vektoren stets als Spaltenvektoren vorgestellt. Sie werden also als Elemente von Rn×1 aufgefasst. Der zugehörige Zeilenvektor wird v T ∈ R1×n geschrieben. Man spricht auch vom transponierten Vektor. Der Ausdruck v T v ist streng genommen eine 1 × 1-Matrix, wird aber schlicht als Zahl behandelt. Später werden wir auch Matrizen transponieren. 68 Beispiel. v = 1 2 ! =⇒ Es gilt .................................................................................... .................................................................................... .................................................................................... Was ist die Transponierte eines Zeilenvektors? Um den Abstand zweier Vektoren v, w zu bestimmen, ermittelt man kv − wk. Machen Sie sich anhand einer Skizze klar, dass das sinnvoll ist! Unsere Beobachtungen kombiniert mit dem Distributivgesetz für die Matrizenmultiplikation erlauben folgende Rechnung. kv − wk2 = (v − w)T (v − w) = (v T − wT )v − (v T − wT )w = v T v − wT v − v T w + wT w = kvk2 + kwk2 − (wT v + v T w). Für den letzten Ausdruck findet man .................................................................................... .................................................................................... .................................................................................... Wir extrahieren daraus den entscheidenden Begriff für diesen Abschnitt. (14.2) Definition. Die Abbildung · : Rn × Rn → R; (v, w) 7→ v · w := v T w = n X vi wi = v1 w1 + · · · + vn wn i=1 heißt Skalarprodukt (oder inneres Produkt) auf Rn . Wir halten die wichtigsten Eigenschaften des Skalarprodukts fest. 69 (14.3) Das Skalarprodukt ist bilinear, d. h. linear in beiden Argumenten; symmetrisch, d. h. ∀v, w ∈ Rn : v · w = w · v ; positiv definit, d. h. ∀v ∈ Rn : v · v ≥ 0 und v · v = 0 ⇐⇒ v = 0. Beweis. (1) folgt direkt aus der Matrizendarstellung des Skalarprodukts v · w = v T w . (2) haben wir oben schon gezeigt. (3) ist klar. (14.4) Bemerkung. 1.) In der Gleichung λ(v · w) = (λv) · w kommen drei verschiedene Produkte vor! Welche? √ 2.) Für die Norm gilt kvk = v · v . Mit dem neuen Begriff liest sich das Ergebnis von oben so: kv − wk2 = kvk2 + kwk2 − 2(v · w). Der Satz des Pythagoras und seine Umkehrung implizieren die Aussage „ v steht senkrecht auf w genau dann, wenn v · w = 0“. Erneut ist das Anlass zu einer (14.5) Definition. Man sagt v, w ∈ Rn stehen senkrecht oder orthogonal, wenn v · w = 0. Allgemeiner definieren wir den (ungerichteten!) Winkel α = ^(v, w) zwischen v und w durch v·w mit α ∈ [0, π]. cos α = kvk kwk Auch diese Definition kann man durch eine elementare, geometrische Überlegung rechtfertigen. Wichtiger noch ist die Tatsache, dass diese Definition sinnvoll ist. Dies ergibt sich aus folgendem sehr bedeutendem Satz. (14.6) Ungleichung von Cauchy-Schwarz. Für alle v, w ∈ Rn gilt |v · w| ≤ kvk kwk . Dabei gilt Gleichheit genau dann, wenn v, w linear abhängig sind. v·w Eine Konsequenz dieses Satzes ist die Ungleichung −1 ≤ kvkkwk ≤ 1. Da das Intervall [−1, 1] der Wertebereich der Cosinus-Funktion ist, existiert der Winkel α in obiger Definition. Nun führen wir den Beweis für die Cauchy-Schwarz’schen Ungleichung. 70 Beweis (der Ungleichung von Cauchy-Schwarz). Der Fall w = 0 führt auf die trivialerweise wahre Aussage v · w = 0 = kvk 0. Wir können also w 6= 0 annehmen. Der Trick besteht darin, den folgenden Ausdruck für λ ∈ R zu betrachten und dann λ geschickt zu wählen. Dabei wird (14.3) mehrfach ohne Hinweis genutzt. 0 ≤ (v − λw) · (v − λw) = v · v − λ(v · w) − λ(w · v) + λ2 (w · w) v·w folgt = kvk2 + λ2 kwk2 − 2λ(v · w) mit λ = kwk2 !2 v · w v·w (v · w)2 (v · w)2 2 2 0 ≤ kvk2 + kwk − 2 (v · w) = kvk + − 2 kwk2 kwk2 kwk2 kwk2 (v · w)2 = kvk − mal kwk2 > 0 2 kwk 2 ⇐⇒ 0 ≤ kvk kwk2 − (v · w)2 2 Wurzelziehen auf beiden Seiten ergibt die erste Behauptung. Gilt Gleichheit, so ist v = λw mit dem oben gewählten λ, also sind v, w linear abhängig (auch im Fall w = 0). Sind v, w linear abhängig so gilt v = λw . Einsetzen zeigt, dass Gleichheit vorliegt. Wir formulieren die wichtigsten Eigenschaften der Norm. Manche davon sind uns schon im Zusammenhang mit dem absoluten Betrag reeller sowie komplexer Zahlen begegnet. (14.7) Für alle v, w ∈ Rn , λ ∈ R gilt (1) kvk ≥ 0; kvk = 0 ⇐⇒ v = 0 (2) kλvk = |λ| kvk (3) kv + wk ≤ kvk + kwk (Dreiecksungleichung) (4) kv − wk ≥ kvk − kwk. Beweis. (1) istpgenau die Eigenschaft „positiv aus (14.3). √ definit“ p √ (2) kλvk = (λv) · (λv) = λ2 (v · v) = λ2 v · v = |λ| kvk. (3) Wir betrachten die Quadrate der linken wie der rechten Seite der Ungleichung: kv + wk2 = (v + w) · (v + w) = kvk2 + kwk2 + 2v · w (kvk + kwk)2 = kvk2 + kwk2 + 2 kvk kwk . Mit der Cauchy-Schwarz’schen Ungleichung (14.6) folgt v · w ≤ kvk kwk, also kv + wk2 ≤ (kvk + kwk)2 Da beide Seiten positiv sind, kann man Wurzeln ziehen ohne die Ungleichung zu verändern (die Funktion x 7→ x2 ist monoton auf R≥0 ). Das ist die Behauptung. (4) folgt aus (3) wie in (2.9.5). 71 (14.8) Bemerkung. 1.) Aus der Dreiecksungleichung für die Norm kann man nun die Dreiecksungleichung für den Abstand herleiten. 2.) Mit (14.7.3) ist auch der Beweis von (9.8.4) erbracht. 3.) Man kann den Satz des Pythagoras mit dem Skalarprodukt beweisen. Das ist aber im Grunde eine Mogelpackung, denn das Skalarprodukt ist so gemacht, dass er gilt! Wir betrachten einige Anwendungen Physik: In der Schule haben Sie gelernt, Energie sei „Kraft × Weg“, also E = F s. Dabei wird nur die Komponente der Kraft in Richtung des Weges berücksichtigt. Eine Skizze zeigt: Die „richtige Formel“ lautet E = F~ · ~s . Die Energie ist das Skalarprodukt der beiden Vektoren! In der Statistik wird oft die Frage gestellt, ob Messgrößen korreliert 10 sind. Der Korrelationskoefizient κ dient dazu, das zu messen. Wir betrachten ein Beispiel: Sind Schuhgröße und Gewicht von Menschen korreliert? Dazu betrachten wir eine Menge von n Menschen und messen Schuhgröße si und Gewicht gi der i-ten Person. Die Ergebnisse fassen wir zu zwei Vektoren s0 und g 0 in Rn zusammen. Nun wird von jeder Komponente von s0 bzw. g 0 jeweils der Mittelwert subtrahiert, sodass wir die Vektoren s und g erhalten. Diese haben beide Mittelwert 0. Nun gilt κ := s·g ksk kgk (= cos(Zwischenwinkel)) Dividieren durch die Norm stellt sicher, dass die Größe nicht vom verwendeten Maßstab abhängt. Ist κ ≈ 1, so sind die Größen korreliert (die Vektoren s, g fast linear abhängig), gilt κ ≈ −1 so sind sie indirekt korreliert (und auch fast linear abhängig; zeigen aber in entgegengesetzte Richtungen). Im Fall κ ≈ 0 sind sie nicht korreliert (die Vektoren s, g fast orthogonal). Dazu können Sie ein Experiment machen: Zwei Personen würfeln n = 100 mal und notieren die Ergebnisse. Dann subtrahieren Sie jeweils den Mittelwert (sollte ungefähr 3.5 sein!) und berechnen κ (hier brauche Sie einen Rechner). Wenn das Ergebnis nicht nahe Null liegt, dann sind die beiden Personen „würfelkorreliert“! Ausgleichsgerade: Gesucht ist die Steigung m einer Gerade durch Null mit m · 2 = y1 m · 3 = y2 m · 4 = y3 10 Vorsicht, korreliert bedeutet nicht, dass die Größen wirklich voneinander abhängen. 72 Dieses lineare Gleichungssystem hat nur in Spezialfällen eine Lösung. Wenn die yi etwa Messgrößen sind, wird das nicht so sein. Trotzdem brauchen wir eine Lösung! Dazu versuchen wir den quadratischen Fehler zu minimieren: ! E 2 := (2m − y1 )2 + (3m − y2 )2 + (4m − y3 )2 = min Ableiten liefert die Bedingung 2 (2m − y1 )2 + (3m − y2 )3 + (4m − y3 )4 = 0. Auflösen nach m führt auf eine Näherungslösung für unser Gleichungssystem. 2 2y1 + 3y2 + 4y3 1 T m̄ = a y mit a = = 3 . 22 + 32 + 42 aT a 4 Im Fall y = (1, 1, 2)T ergibt sich z. B. m̄ ≈ 0.45. Skizzieren Sie das Ergebnis! Im Spaltenbild bedeutet die Aufgabe ein m zu finden mit m · a ≈ y . Es soll also m · a möglichst nahe bei y sein. Bei obiger Wahl von m̄ ist m̄ · a die Projektion von y auf die Gerade Ra. Das oben beschriebene Verfahren kann weitreichend verallgemeinert werden, und heißt dann Methode der kleinsten Quadrate. Beispiel. Eine Schülerin hat in ihren Mathe-Arbeiten den Notenvektor v = (1, 2, 2, 3, 1) erzielt. Sie möchte die Durchschnittsnote N berechnen und verfällt auf die Methode der kleinsten Quadrate. Sie überlegt: Ich möchte meine Daten durch eine einzige Zahl darstellen, die möglichst nahe an allen Noten liegt. Ich suche also N mit N (1, 1, 1, 1, 1) = v . Sie verwendet die obige Formel und erhält: 5 1X 1 (1, 1, 1, 1, 1) · v = vi = . . . . N̄ = (1, 1, 1, 1, 1) · (1, 1, 1, 1, 1) 5 i=1 Kommt der Lehrer auf dasselbe Ergebnis? Orthogonale Projektion: Wir greifen das Thema Projektion auf Ra aus dem obigen Abschnitt nochmal auf. Zu gegebenem x ∈ Rn suchen wir α ∈ R mit (x − αa) · a = 0. Dann heißt der Vektor αa die (orthogonale) Projektion von x auf die Gerade Ra. Wir rechnen a·x . 0 = (x − αa) · a = x · a − α(a · a) =⇒ α = a·a Beachten Sie, dass das genau dieselbe Formel ist wie für m̄ weiter oben. In Matrizenschreibweise sieht die Projektion so aus x 7→ 1 1 ! T T 2 a(a x) = 2 (aa )x kak kak Das ist nur deshalb möglich, weil die Matrizen zusammenpassen. Falsch wäre z. B. (aT x)a = aT (xa), denn das Produkt xa ist nicht definiert! Hieraus erhält man die Projektionsmatrix 1 T n×n , P = 2 (aa ) ∈ R kak 73 die die Abbildung darstellt. Beispiel. Wir untersuchen den Fall n = 2 und a = (1, 1). Die Matrix ergibt sich zu .................................................................................... .................................................................................... .................................................................................... Eine Skizze bestätigt, dass P die orthogonale Projektion auf die Gerade R(1, 1)T beschreibt. Die Hessesche Normalform Der Koordinatenform einer Ebene im R3 liegt auch das Skalarprodukt zugrunde. Wir betrachten ein Beispiel. Die Gleichung x − 2y + z = 0, die eine Ebene E definiert, kann man auch so schreiben x 1 −2 1 y = 0. z Das bedeutet, dass die Elemente von E genau diejenigen Vektoren sind, die auf w := (1, −2, 1)T senkrecht stehen. Um eine Parameterdarstellung für E zu finden, muss man zwei zu w orthogonale, linear unabhängige Vektoren finden, etwa (2, 1, 0)T und (0, 1, 2)T . Es gilt dann 2 0 E = R 1 + R 1 = Kern 1 −2 1 . 0 2 Nun betrachten wir F : x − 2y + z = 2. Auch F ist eine Ebene, die aber nicht durch 0 verläuft. Eine einfache Rechnung zeigt 2 2 0 2 F = 0 + R 1 + R 1 = 0 + Kern 1 −2 1 . 0 0 2 0 Man erkennt, dass auch F senkrecht zur Geraden Rw steht. Das zeigt, dass die Ebenen E und F parallel liegen. 74 Hieraus ergibt sich eine Methode um aus einer Parameterdarstellung eine Koordinatendarstellung zu finden. Gegeben ist eine Ebene F = t + Rr + Rs in R3 . Gesucht sind ein Vektor v ∈ R3 und eine Zahl c ∈ R mit F : v · x = c. Um v zu bestimmen muss das lineare Gleichungssystem rT v = 0 und sT v = 0 gelöst werden. Etwas ausführlicher ! v ! r1 r2 r2 1 0 . v2 = s1 s2 s2 0 v3 Tatsächlich genügt ein Lösungsvektor v 6= 0. Es gilt dann c = v · t. (14.9) Bemerkung. 1.) Diese Überlegungen gelten auch im R2 und können auf den Rn übertragen werden. 2.) Wer das Vektorprodukt (http://de.wikipedia.org/wiki/Kreuzprodukt) oder Kreuzprodukt kennt, kann im R3 (n = 3, sonst geht das nicht!) auch v = r × s rechnen. 3.) Ist t ein Punkt auf F , so gilt auch F : v · (x − t) = 0. (14.10) Beispiele. 1.) Bestimme eine Koordinatendarstellung der Geraden ! ! 1 2 g= +R in R2 . −1 3 Finde v ⊥ 2 3 ! , etwa v = 3 −2 ! . Setze c = 3 −2 ! · 1 −1 ! = 5. Es gilt g : 3x − 2y = 5. 2.) Bestimme eine Koordinatendarstellung der Ebene 1 2 0 E = 1 + R 1 + R 1 −2 −1 1 in R3 . Finde eine Lösung des linearen Gleichungssystems ! 2 1 −1 v = 0 etwa 0 1 1 .................................................................................. 75 .................................................................................. .................................................................................. Wir fragen nach dem Abstand d(y, E) des Punktes y ∈ R3 von der Ebene E . Definition. Sei A ⊆ Rn eine nichtleere Teilmenge und y ∈ Rn . d(y, A) := inf ky − ak ; a ∈ A heißt Abstand des Punktes y ∈ R3 von der Menge A. Bemerkung. Die Menge ky − ak ; a ∈ A ist nichtleer und nach unten beschränkt (Schranke?). Wegen der Vollständigkeit der reellen Zahlen existiert das Infimum in obiger Definition, also auch der Abstand. Wir betrachten die Ebene F : v ·(x−t) = 0 in Koordinatendarstellung und den Punkt y ∈ R3 . Anschaulich erwarten wir, dass die orthogonale Projektion ȳ ∈ F derjenige Punkt in F ist, der von y den kleinsten Abstand besitzt. Wir bestimmen zunächst ȳ : Dazu subtrahieren wir ein noch unbekanntes α-faches von v von y so, dass ȳ = y − αv ∈ F . Es gilt dann 0 = v · (ȳ − t) = v · (y − αv − t) = v · (y − t) − α(v · v) Daraus erhält man v 1 1 · (y − t) . α= 2 v · (y − t) =⇒ ky − ȳk = kαvk = 2 v · (y − t) kvk = kvk kvk kvk Der folgende Satz zeigt, dass unsere anschauliche Betrachtung richtig war. v · (y − t) . (14.11) d(y, F ) = ky − ȳk = kvk Beweis. Sei x ∈ F \ {ȳ} beliebig. Wir müssen zeigen,dass ky − ȳk < ky − xk, dann ist ky − ȳk sogar Minimum der Menge ky − ak ; a ∈ F , und unsere Behauptung gezeigt. Anschaulich ist klar, dass v senkrecht auf ȳ − x steht. Wir rechnen das nach: v · (x − ȳ) = v · (x − t − (ȳ − t)) = v · (x − t) − v · (ȳ − t) = 0 + 0 = 0. Damit gilt 2 ky − xk2 = y − ȳ − (x − ȳ) = (y − ȳ) − (x − ȳ) · (y − ȳ) − (x − ȳ) = (y − ȳ) · (y − ȳ) + (x − ȳ) · (x − ȳ) − 2(y − ȳ) · (x − ȳ) = ky − ȳk2 + kx − ȳk2 − 2αv · (x − ȳ) = ky − ȳk2 + kx − ȳk2 . Wegen x 6= ȳ gilt kx − ȳk2 > 0 und somit ky − ȳk < ky − xk. 76 (14.12) Definition. Gegeben sei ein Vektor v ∈ Rn \ {0} und d ∈ R. Die Menge H = {x ∈ Rn ; v · x = d} heißt Hyperebene in Rn . Die Darstellung H : v · x = d heißt Hessesche Normalform von H , wenn gilt kvk = 1 und d ≥ 0. (14.13) Bemerkung. 1.) Im R2 sind Hyperebenen genau die Geraden, im R3 sind es die Ebenen. 2.) Die Hessesche Normalform ist einfach eine spezielle Koordinatendarstellung von H . 3.) Nach unserer Definition von Hyperebenen existiert immer eine Hessesche Normalform. Nämlich ! ±d ±1 v ·x= so dass ± d ≥ 0. H: kvk kvk 4.) Man sagt auch 1 kvk v ist der Einheitsvektor in Richtung v . Er hat die Norm 1. 5.) Unsere Vorüberlegungen einschließlich (14.11) gelten für alle Hyperebenen. Mit Hilfe der Hesseschen Normelform kann man den Abstand eines Punkte von einer Hyperebenen einfach berechnen. (14.14) Satz. Sei H : v · x = d eine Hyperebene in Hessescher Normalform. (1) Im Fall d = 0 ist H ein Untervektorraum der Dimension n − 1. (2) Bis auf den Fall d = 0 und H : (−v) · x = 0 ist die Hessesche Normalform von H eindeutig bestimmt. (3) Für y ∈ Rn gilt d(y, H) = |v · y − d|. falls 1 (4) Sei ε das Vorzeichen von v · y − d, d. h. ε = −1 falls 0 falls v·y−d>0 v ·y −d < 0. v·y−d=0 Im Fall d = 0 bedeutet ε = 1, dass y und v auf derselben Seite von H liegen; ε = −1, dass sie auf verschiedenen Seiten liegen. Im Fall d 6= 0 bedeutet ε = −1, dass y und 0 auf derselben Seite von H liegen; ε = 1, dass sie auf verschiedenen Seiten liegen. Natürlich bedeutet ε = 0 in beiden Fällen y ∈ H . Beweis. (1) H = Kern(v T ) ist ein Untervektorraum von Rn . Es hat Bild(v T ) = R1×1 die Dimension 1. Die Dimensionsformel (13.6) zeigt die Behauptung. (2) ohne Beweis. (3) folgt aus den Vorbetrachtungen mit (14.11). Man beachte, dass wir kvk = 1 vorausgesetzt haben. 77 (4) Wir greifen auf die Darstellung der orthogonalen Projektion ȳ vor (14.11) zurück: y = ȳ + αv mit α = v · (y − t) = v · y − d mit einem beliebiges t ∈ F . Im Fall d = 0 sind y und v auf derselben Seite von H genau dann, wenn α > 0. Im Fall d 6= 0 gilt α = −d < 0 falls y = 0. Den Rest macht man sich an Hand einer Skizze klar. √ (14.15) Beispiele. 1.) Für g : 3x − 2y = 5 gilt (3, 2) = 13, also ist die Hesse 3 2 5 Normalform g : √ x − √ y = √ . Es gilt z. B. 13 13 13 3 5 2 5 1 1 d (0, 0), g = √ und d (2, 1), g = √ 2 − √ − √ = − √ = √ . 13 13 13 13 13 13 Es liegen 0 und (2, 1) auf der selben Seite. 2.) E : x1 − x2 + x3 = −2. Man findet v = √1 (−1, 1, −1) 3 und d = 2, also −1 1 −1 2 E : √ x1 + √ x2 + √ x3 = √ 3 3 3 3 78