Vertiefung Lineare Algebra 1 Schriftliche Unterlagen zur Vorlesung im Wintersemester 2015/16 Franz Pauer c 2016 I NSTITUT F ÜR M ATHEMATIK , U NIVERSIT ÄT I NNSBRUCK ⃝ KAPITEL 1 Mehr über lineare Funktionen In diesem Kapitel sei K ein Körper. §1. Der Graph einer linearen Funktion Satz 1 : Seien V1 , . . . ,Vℓ Vektorräume über K. Dann wird das kartesische Produkt V1 × · · · ×Vℓ = {(x1 , . . . , xℓ ) | x1 ∈ V1 , . . . , xℓ ∈ Vℓ } mit der komponentenweisen Addition (x1 , . . . , xℓ ) + (y1 , . . . , yℓ ) := (x1 + y1 , . . . , xℓ + yℓ ) und der komponentenweisen Skalarmultiplikation c(x1 , . . . , xℓ ) := (cx1 , . . . , cxℓ ) mit c ∈ K ein Vektorraum und heißt der Produktraum von V1 , . . . ,Vℓ . Wenn (v11 , . . . , v1n1 ), . . . , (vℓ1 , . . . , vℓnℓ ) Basen von V1 , . . . ,Vℓ sind, dann ist ((v11 , 0, . . . , 0), . . . , (v1n1 , 0, . . . , 0), . . . . . . , (0, . . . , 0, vℓ1 ), . . . , (0, . . . , 0, vℓnℓ )) eine Basis von V1 × · · · ×Vℓ , insbesondere gilt dimK (V1 × · · · ×Vℓ ) = dimK (V1 ) + · · · + dimK (Vℓ ) . Beweis: Es ist leicht zu zeigen, dass V1 × · · · ×Vℓ mit der komponentenweisen Addition und Skalarmultiplikation ein Vektorraum ist. Wir beweisen daher nur, dass ((v11 , 0, . . . , 0), . . . , (0, . . . , 0, vℓnℓ )) eine Basis von V1 × · · · ×Vℓ ist. Wir schreiben x1 ∈ V1 , . . . , xℓ ∈ Vℓ als Linearkombinationen der Basen (v11 , . . . , v1n1 ), . . . , (vℓ1 , . . . , vℓnℓ ): n1 nℓ i=1 i=1 x1 = ∑ d1i v1i , . . . , xℓ = ∑ dℓi vℓi . Dann ist (x1 , . . . , xℓ ) = (x1 , 0, . . . , 0) + · · · + (0, . . . , 0, xℓ ) n1 nℓ i=1 i=1 = ∑ d1i (v1i , 0, . . . , 0) + · · · + ∑ dℓi (0, . . . , 0, vℓi ) , 1 2 1. MEHR ÜBER LINEARE FUNKTIONEN also ((v11 , 0, . . . , 0), . . . , (0, . . . , 0, vℓnℓ )) ein Erzeugendensystem von V1 × · · · ×Vℓ . Um die lineare Unabhängigkeit zu zeigen, seien c11 , . . . , cℓnℓ ∈ K mit n1 nℓ i=1 i=1 ∑ c1i(v1i, 0, . . . , 0) + · · · + ∑ cℓi(0, . . . , 0, vℓi) = (0, . . . , 0) . Dann ist n1 nℓ i=1 i=1 ( ∑ c1i v1i , . . . , ∑ cℓi vℓi ) = (0, . . . , 0) , also n1 nℓ i=1 i=1 ∑ c1iv1i = 0 , . . . , ∑ cℓivℓi = 0 . Da (v11 , . . . , v1nℓ ), . . . , (vℓ1 , . . . , vℓnℓ ) Basen von V1 , . . . ,Vℓ sind, folgt c11 = · · · = cℓnℓ = 0, was zu zeigen war. Satz 2 : Es seien V und W Vektorräume über K. Eine Funktion f : V → W ist genau dann linear, wenn der Graph von f ein Untervektorraum des Produktraums V ×W ist. Wenn f linear ist und und (v1 , ..., vn ) eine Basis von V ist, dann hat der Graph von f die Basis ((v1 , f (v1 )), ..., (vn , f (vn ))). Insbesondere ist dimK (Graph( f )) = dimK (V ) . Beweis: Nach Definition ist Graph( f ) = {(v, f (v)) | v ∈ V } ⊂ V ×W . Seien u, w ∈ V und c ∈ K. Wenn f linear ist, dann ist 0V ×W = (0V , 0W ) = (0V , f (0V )) ∈ Graph( f ), (u, f (u))+(w, f (w)) = (u+w, f (u)+ f (w)) = (u+w, f (u+w)) ∈ Graph( f ) und c(w, f (w)) = (cw, c f (w)) = (cw, f (cw)) ∈ Graph( f ), also Graph( f ) ein Untervektorraum von V ×W . Wenn umgekehrt Graph( f ) ein Untervektorraum von V ×W ist, dann sind (u, f (u)) + (w, f (w)) = (u + w, f (u) + f (w)) ∈ Graph( f ) und c(w, f (w)) = (cw, c f (w)) ∈ Graph( f ), somit f (u + w) = f (u) + f (w) und f (cw) = c f (w), also f linear. Wenn f linear ist, dann ist auch die Funktion F : V → Graph( f ) , x 7→ (x, f (x)) , linear und hat die Umkehrfunktion Graph( f ) → V , (x, f (x)) 7→ x. Daher ist F ein Isomorphismus und (F(v1 ), ..., F(vn )) eine Basis von Graph( f ). Beispiel 3 : Es sei k eine reelle Zahl und f die lineare Funktion f : R −→ R, z 7−→ kz. Dann ist Graph(f) = {(z, kz)|z ∈ R} = {z(1, k)|z ∈ R} = R(1, k) ⊆ R × R 3 1. MEHR ÜBER LINEARE FUNKTIONEN die Gerade durch (0, 0) und (1, k). Beispiel 4 : Es seien a, b reelle Zahlen und g die lineare Funktion g : R2 −→ R, (x, y) 7−→ ax + by. Dann ist Graph(g) = {(x, y, ax+by) | x, y ∈ R} = {x·(1, 0, a)+y·(0, 1, b) | x, y ∈ R} = = R(1, 0, a) + R(0, 1, b) ⊆ R2 × R die Ebene durch (0, 0, 0), (1, 0, a) und (0, 1, b). §2. Bild und Kern einer linearen Funktion In diesem Abschnitt seien V und W Vektorräume über K und f : V −→ W eine lineare Funktion. Definition 5 : Die Menge Bild( f ) := { f (v) | v ∈ V } ⊆ W heißt Bild von f und die Menge Kern( f ) := {v ∈ V | f (v) = 0W } ⊆ V heißt Kern von f . Satz 6 : Bild( f ) ist ein Untervektorraum von W , Kern( f ) ist ein Untervektorraum von V . Die Dimension des Bildes von f heißt Rang von f (Schreibweise rg( f )). Beweis: Da f linear ist, ist 0V ∈ Kern( f ). Für u, v ∈ Kern( f ) und c ∈ K folgt aus f (u + v) = f (u) + f (v) = 0W auch u + v ∈ Kern( f ), sowie aus f (cu) = c f (u) = 0W auch cu ∈ Kern( f ). Daher ist Kern( f ) ein Untervektorraum von V . Analog zeigt man, dass Bild( f ) ein Untervektorraum von W ist. Satz 7 : Sei A ∈ K m×n und L(A, 0) := {x ∈ K n×1 | Ax = 0} der Lösungsraum des durch A definierten Systems homogener linearer Gleichungen. Fasst man die Matrix A als lineare Funktion A : K n×1 → K m×1 , x 7→ Ax , auf, dann ist Kern(A) = L(A, 0) und Bild(A) = K ⟨A−1 , . . . , A−n ⟩, der Spaltenraum von A. Beweis: Es ist Kern(A) = {x ∈ K n×1 | Ax = 0} = L(A, 0) und Bild(A) = = { Ax | x ∈ K n×1 } = { ∑ni=1 xi A−i | x1 , . . . xn ∈ K } = K ⟨A−1 , . . . , A−n ⟩. 4 1. MEHR ÜBER LINEARE FUNKTIONEN Satz 8 : Seien V,W endlich-dimensionale Vektorräume über K, f : V → W eine K-lineare Funktion und r := rg( f ). Dann gibt es eine Basis (v1 , . . . , vn ) von V so, dass (1) ( f (v1 ), . . . , f (vr )) eine Basis von Bild( f ) und (2) (vr+1 , . . . , vn ) eine Basis von Kern( f ) ist. Insbesondere gilt dimK (V ) = dimK (Bild( f )) + dimK (Kern( f )) . Ergänzt man die Basis ( f (v1 ), . . . , f (vr )) von Bild( f ) zu einer Basis (w1 , . . . , wm ) von W , dann ist 1 0 ... .. .. . . 0 . . ∈ K m×n . . Dr := . . 1 0 .. . (nur an den Stellen (1, 1), . . . , (r, r) stehen Einsen und sonst Nullen) die Matrix von f bezüglich der Basen (v1 , . . . , vn ) und (w1 , . . . , wm ). Beweis: Sei (w1 , . . . , wr ) eine Basis von Bild( f ). Dann kann man Urbilder v1 , . . . , vr ∈ V von w1 , . . . , wr unter f wählen. Sei (u1 , . . . , us ) eine Basis von Kern( f ). Dann ist (v1 , . . . , vr , u1 , . . . , us ) ein Erzeugendensystem von V , weil für y ∈ V aus r r r i=1 i=1 i=1 f (y) = ∑ ai wi = ∑ ai f (vi ) = f ( ∑ ai vi ) folgt, dass z := y − ∑ri=1 ai vi ∈ Kern( f ) ist. Daher ist y = z + ∑ri=1 ai vi eine Linearkombination von (v1 , . . . , vr , u1 , . . . , us ). Wir zeigen noch, dass (v1 , . . . , vr , u1 , . . . , us ) linear unabhängig ist. Seien dazu c1 , . . . , cr , d1 , . . . , ds ∈ K mit r s i=1 j=1 ∑ ci vi + ∑ d j u j = 0 . Dann ist 0 = f (∑ri=1 ci vi + ∑sj=1 d j u j ) = ∑ri=1 ci f (vi ) = ∑ri=1 ci wi . Da (w1 , . . . , wr ) linear unabhängig ist, sind alle ci gleich 0. Dann ist ∑sj=1 d j u j = 0, und aus der linearen Unabhängigkeit von u1 , . . . , us folgt d1 = · · · = ds = 0. Also ist (v1 , . . . , vr , u1 , . . . , us ) die gesuchte Basis von V . Insbesondere ist r + s = n. 5 1. MEHR ÜBER LINEARE FUNKTIONEN §3. Systeme linearer Gleichungen in koordinatenfreier Form Definition 9 : Ein System linearer Gleichungen in koordinatenfreier Form ist eine Aufgabe: • Gegeben sind eine lineare Funktion f : V → W und ein Vektor y ∈ W . • Gesucht ist eine gute Beschreibung“ der Menge ” L( f , y) := f −1 ({y}) = {x ∈ V | f (x) = y} aller Vektoren x ∈ V , für die f (x) = y ist. Die Menge L( f , y) heißt Lösungsmenge des durch f und y gegebenen Systems linearer Gleichungen. Ihre Elemente heißen Lösungen dieses Systems. Das durch f und y gegebene System linearer Gleichungen heißt homogen, wenn y = 0W ist, ansonsten inhomogen. Die Lösungsmenge eines homogenen Systems linearer Gleichungen ist L( f , 0) = Kern( f ) . Satz 10 : Sei f : V → W K-linear, y ∈ W und z ∈ L( f , y) (insbesondere ist L( f , y) nicht leer). Dann ist L( f , y) = z + Kern( f ) ein affiner Unterraum von V mit Aufpunkt z und parallelem Untervektorraum Kern( f ). Das durch f und y gegebene System lösen“bedeutet daher: finde ” (irgend)ein Urbild z von y unter f und (irgend)eine Basis von Kern( f ). Falls V endlichdimensional ist, gilt weiters dimK (L( f , y)) = dimK (V ) − rg( f ) . Beweis: Sei v ∈ Kern( f ). Dann ist f (z + v) = f (z) + f (v) = y + 0 = y, also z + v ∈ L( f , y). Sei x ∈ L( f , y). Dann ist f (x − z) = f (x) − f (z) = y − y = 0, also x − z ∈ Kern( f ) und x = z + (x − z) ∈ {z + v | v ∈ Kern( f )}. Nach Satz 8 ist dimK (Kern( f )) = dimK (V ) − rg( f ) . Beispiel 11 : Fasst man eine Matrix A ∈ K m×n als eine lineare Funktion f : K n×1 → K m×1 , x 7→ Ax , auf, dann ist L( f , y) = L(A, y). Beispiel 12 : Sei C( R , R ) := { f | f : R → R stetig}, C1 ( R , R ) := { f | f : R → R stetig differenzierbar} und D : C1 ( R , R ) → C( R , R ) , f 7→ f ′ , 6 1. MEHR ÜBER LINEARE FUNKTIONEN wobei f ′ die Ableitung der Funktion f bezeichnet. Dann sind C( R , R ) und C1 ( R , R ) mit der punktweisen Addition und Skalarmultiplikation Vektorräume über R , und die Funktion D ist R -linear. Der Unterraum Kern(D) besteht aus allen konstanten Funktionen. Eine Funktion f ∈ C1 ( R , R ) heißt Stammfunktion von g ∈ C( R , R ), wenn D f = g ist. Wenn f eine Stammfunktion von g ist, dann ist die Menge aller Stammfunktionen von g L(D, g) = f + Kern(D). Beispiel 13 : Sei C( R , R ) := { f | f : R → R stetig}, C2 ( R , R ) := { f | f : R → R 2-mal stetig differenzierbar}, a, b ∈ R und D2 + aD + b : C2 ( R , R ) → C( R , R ) , f 7→ f ′′ + a f ′ + b f , wobei f ′′ die zweite Ableitung der Funktion f bezeichnet. Dann sind C( R , R ) und C2 ( R , R ) mit der punktweisen Addition und Skalarmultiplikation Vektorräume über R , und die Funktion D2 + aD + b ist R -linear. Den Unterraum Kern(D2 + aD + b) nennt man die Lösungsmenge der homogenen linearen Differentialgleichung y′′ + ay′ + by = 0. Wenn f ∈ L(D2 + aD + b, g) ist, dann ist L(D2 + aD + b, g) = f + Kern(D2 + aD + b). Definition 14 : Es sei V ein Vektorraum v = (v1 , . . . , vn ) eine Basis von V und c ∈ K n×1 eine Spalte mit n Zeilen. Wir verwenden im Weiteren die Schreibweise n vc := ∑ ci vi . i=1 Satz 15 : Seien V,W Vektorräume über K der Dimensionen n, m mit Basen v , w , sei f : V → W K-linear mit Matrix A := M( f , v, w) ∈ K m×n und y = wb ∈ W . Dann bildet der Koordinaten-Isomorphismus V → K n×1 , vc 7→ c , L( f , y) auf L(A, b) ab und Kern( f ) auf L(A, 0). Beweis: Es ist vc ∈ L( f , y) genau dann wenn w(Ac) = wb, also c ∈ L(A, b) ist. 7 1. MEHR ÜBER LINEARE FUNKTIONEN Nach Satz 15 kann für f : V → W und y ∈ W das System linearer Gleichungen ( f , y) wie folgt gelöst werden: (1) Wähle Basen v , w von V,W . (2) Berechne die Matrix A := M( f , v, w) und die Koordinatenspalte b von y bezüglich w . (3) Berechne die Lösungsmenge L(A, b). Wenn L(A, b) leer ist, dann ist auch L( f , y) leer. Wenn z ∈ L(A, b) und (u1 , . . . , us ) eine Basis von L(A, 0) ist, dann ist vz ∈ L( f , y) und (vu1 , . . . , vus ) eine Basis von Kern( f ). Im Schulunterricht entsprechen Systeme linearer Gleichungen in koordinatenfreier Form gewissen Textaufgaben“. ” Beispiel 16 : ( Interpolation von 3 gegebenen Funktionswerten durch Po” lynomfunktionen, deren Grad höchstens 4 ist“.) Wir bezeichnen mit x die identische Funktion von R nach R und mit 1 die konstante Funktion, die jede reelle Zahl auf 1 abbildet. Man kann zeigen, dass die Potenzfunktionen 1, x, x2 , x3 , x4 linear unabhängig sind. Es sei V der von diesen erzeugte Untervektorraum des Vektorraums aller Polynomfunktionen. Wir suchen alle Polynomfunktionen p ∈ V mit p(−1) = 2, p(1) = 1 und p(2) = 1 . Sei W := R 3 , f : V −→ W , q 7−→ (q(−1), q(1), q(2)) , und y := (2, 1, 1) ∈ W . Die Funktion f ( Auswertungsfunktion“) ist linear. ” Wir wählen die Basis v := (1, x, x2 , x3 , x4 ) von V und die Standardbasis w := (e1 , e2 , e3 ) von W = R 3 . Dann ist 1 −1 1 −1 1 2 A := M( f , v, w) := 1 1 1 1 1 und b := 1 . 1 2 4 8 16 1 Man berechnet mit dem Gauß-Verfahren 4 −4 −2 3 0 1 − 1 2 1 + R 2 + R 5 . L(A, b) = 6 0 −1 0 −1 0 0 Daher ist 4 1 1 L( f , y) = { − x + x2 + 3 2 6 +c(−2 + x + 2x2 − x3 ) + d(−4 + 5x2 − x4 ) | c, d ∈ R } . 8 1. MEHR ÜBER LINEARE FUNKTIONEN Satz 17 : Sei V ein endlich-dimensionaler Vektorraum über K und Z ein affiner Unterraum von V . Dann ist Z die Lösungsmenge eines Systems linearer Gleichungen, d.h. es gibt eine lineare Funktion f : V → W und einen Vektor y ∈ W mit Z = L( f , y) . (Dann ist Z durch f und y in impliziter Form“ gegeben). ” Wenn der affine Unterraum Z durch einen Aufpunkt p und eine Basis (u1 , . . . , uk ) des parallelen Untervektorraums gegeben ist, dann kann ein solches System linearer Gleichungen auf die folgende Weise berechnet werden: Ergänze (u1 , . . . , uk ) zu einer Basis (u1 , . . . , uk , uk+1 , . . . , un ) von V . Setze f : V −→ K n−k , n ∑ ciui 7−→ (ck+1, ck+2, . . . , cn) i=1 und y := f (p). Beweis: Seien f und y wie im Satz definiert. Dann ist Kern( f ) = =K < u1 , . . . , uk > und p ∈ L( f , y). Nach Satz 10 ist Z = L( f , y). KAPITEL 2 Interpolation und Regression §1. Interpolationsaufgaben Wir betrachten die folgenden Interpolationsaufgaben: Gegeben sind • Funktionen f1 , . . . , fn von R nach R, • paarweise verschiedene reelle Zahlen x1 , . . . , xm ∈ R und • reelle Zahlen y1 , . . . , ym ∈ R. Gesucht sind reelle Zahlen c1 , . . . , cn so, dass die Funktion f := ∑ni=1 ci fi die Bedingungen f (x1 ) = y1 , f (x2 ) = y2 , . . . , f (xm ) = ym erfüllt. r y1 r r y2 r y3 y4 x1 x2 x3 x4 Durch die Funktionen f1 , . . . , fn wird der Typ“ der Interpolationsaufga” be vorgegeben. Die reellen Zahlen x1 , . . . , xm heißen Stützstellen, die reellen Zahlen y1 , . . . , ym (Funktions-)Werte der Interpolationsaufgabe. Die gesuchte Funktion f heißt interpolierende Funktion. Wir suchen also eine Funktion f des vorgegebenen Typs so, dass die Funktionswerte von f in den Stützstellen die vorgegebenen Werte der Interpolationsaufgabe sind. Anders formuliert: Wir suchen Zahlen c1 , . . . , cn so, dass f1 (x1 )c1 + f2 (x1 )c2 + . . . + fn (x1 )cn = y1 f1 (x2 )c1 + f2 (x2 )c2 + . . . + fk (x2 )cn = y2 .. .. .. . . . f1 (xm )c1 + f2 (xm )c2 + . . . + fk (xm )cn = ym ist. Das ist ein System von n c1 , . . . , cn . In Matrizenform: f1 (x1 ) . . . f1 (x2 ) . . . . .. .. . f1 (xm ) . . . linearen Gleichungen mit m Unbekannten y1 c1 fk (x1 ) fk (x2 ) c2 y2 · . = . . .. . .. .. ym cn fk (xm ) 9 10 2. INTERPOLATION UND REGRESSION Beispiel 18 : ( Lineare Interpolation“). ” Wenn f1 die konstante Funktion 1 (also die Funktion, die jeder Zahl die Zahl 1 zuordnet) und f2 die Identität (also die Funktion, die jeder Zahl sich selbst zuordnet) ist, dann suchen wir eine Funktion f := c1 f1 + c2 f2 mit ( f (xi ) =) c1 + c2 xi = yi , 1 ≤ i ≤ n . Die Aufgabe, Zahlen c1 und c2 mit den Eigenschaften c1 + c2 x1 = y1 .. .. .. . . . c1 + c2 xm = ym zu finden, ist ein System von n linearen Gleichungen mit zwei Unbekannten. In Matrizenform y1 1 x1 ( ) y2 1 x2 c1 . . · .. .. c2 = ... . ym 1 xm Beispiel 19 : (Interpolation durch Polynomfunktionen). Für 1 ≤ i ≤ k sei fi : R −→ R, z 7−→ zi−1 , die (i − 1)-te Potenzfunktion. Dann ist die gesuchte Funktion f eine Polynomfunktion f : R −→ R, z 7−→ c1 + c2 z + . . . + cn zn−1 . Wir suchen reelle Zahlen c1 , c2 , . . . , cn mit der Eigenschaft, dass c1 + x1 c2 + . . . + x1k−1 cn = y1 .. .. .. . . . n−1 c1 + xm c2 + . . . + xm cn = ym ist, müssen also ein System von m Gleichungen mit n Unbekannten lösen. In Matrizenform: 1 x1 . . . x1n−1 c1 y1 1 x . . . xn−1 c2 y2 2 2 · . = . . .. .. .. .. . . . . .. .. n−1 cn ym 1 xm . . . xm Ist m = n = 3 ( Interpolation mit drei Stützstellen durch eine quadra” tische Funktion “), dann hat diese Interpolationsaufgabe für jede Vorgabe von y1 , y2 , y3 genau eine Lösung, weil die Matrix 1 x1 x12 2 1 x2 x 2 2 1 x3 x3 invertierbar ist (ihre Determinante ist (x1 − x2 )(x2 − x3 )(x3 − x1 )). 11 2. INTERPOLATION UND REGRESSION §2. Systeme linearer Gleichungen ohne Lösung und Regression Es seien A ∈ Rm×n und b ∈ Rm×1 . Das durch A und b gegebene System linearer Gleichungen hat genau dann eine Lösung, wenn es eine Spalte c ∈ Rn×1 mit A · c = b , also ∑ni=1 ci A−i = b, gibt. Das ist genau dann der Fall, wenn b ein Element des Spaltenraumes von A ist. Wir bezeichnen den Spaltenraum von A mit U, dieser ist ein Untervektorraum von Rm×1 . Wenn b nicht in U liegt, gibt es keine Lösung. Ist man der Meinung, dass es eine Lösung geben sollte, aber vielleicht b nicht exakt bestimmt wurde (z.B. durch Runden oder durch Messfehler), kann man b durch b′ ∈ U so ersetzen, dass der Abstand von b zu b′ möglichst klein ist. Wählen wir den durch das Standardskalarprodukt auf Rm×1 definierten Abstand, bedeutet das, dass m ∑ (bi − b′i)2 i=1 ( die Summe der Fehlerquadrate“) möglichst klein sein soll. (Für positive ” reelle Zahlen r und s ist r ≤ s genau dann, wenn r2 ≤ s2 ist. Daher ist Abstand von b zu b′ genau dann minimal, wenn sein Quadrat minimal ist). Für b′ muss daher der Fußpunkt des Lotes von b auf den Untervektorraum U gewählt werden und dann das Gleichungssystem A · z = b′ anstatt von A · z = b gelöst werden. Hat man das Gleichungssystem durch eine Interpolationsaufgabe wie im vorigen Abschnitt erhalten und gibt es keine Lösung (also keine interpolierende Funktion des vorgegebenen Typs), dann nennt man die Vorgangsweise wie oben Regression“. ” Mit den Bezeichnungen des vorigen Abschnittes ist Ai j = f j (xi ) und bi = yi , 1 ≤ i ≤ m, 1 ≤ j ≤ n. Für die gesuchte Funktion f = ∑ni=1 ci fi soll f (xi ) = b′i = y′i , 1 ≤ i ≤ m, sein, also der Abstand ∥( f (x1 ), f (x2 ), . . . , f (xm ))T − (y1 , . . . , ym )T ∥ von der Spalte der berechneten Funktionswerte “ zur Spalte der gemesse” ” nen Funktionswerte“ möglichst klein sein. Bei linearer Interpolation“ ist U die von ” 1 x1 . 1 := .. und x := ... 1 xm erzeugte Ebene in Rm×1 . Wir verwenden die Bezeichnungen y1 y := ... und y′ := Fußpunkt des Lotes von y auf U . ym Wir berechnen nun y′ : 12 2. INTERPOLATION UND REGRESSION • y′ = c2 x + c1 1 ∈ U und • die Gerade durch y und y′ steht normal auf der von x und 1 erzeugten Ebene U. Also ist • ⟨c2 x + c1 1 − y, x⟩ = 0 und • ⟨c2 x + c1 1 − y, 1⟩ = 0. Daraus erhalten wir das folgende System von zwei linearen Gleichungen mit zwei Unbekannten c1 und c2 : • c2 ⟨x, x⟩ + c1 ⟨1, x⟩ = ⟨x, y⟩ • c2 ⟨x, 1⟩ + c1 ⟨1, 1⟩ = ⟨1, y⟩ Als Lösung erhalten wir ⟨1, 1⟩.⟨x, y⟩ − ⟨1, x⟩.⟨1, y⟩ ⟨x, x⟩.⟨1, y⟩ − ⟨1, x⟩.⟨x, y⟩ c2 = und c1 = . 2 ⟨1, 1⟩.⟨x, x⟩ − ⟨1, x⟩ ⟨1, 1⟩.⟨x, x⟩ − ⟨1, x⟩2 Wenn ⟨−, −⟩ das Standard-Skalarprodukt ist, dann ist ⟨x, y⟩ = ∑m i=1 xi yi , m m m 2 ⟨1, x⟩ = ∑i=1 xi , ⟨1, y⟩ = ∑i=1 yi , ⟨1, 1⟩ = m, ⟨x, x⟩ = ∑i=1 xi und ⟨y, y⟩ = 2 ∑m i=1 yi , daher c2 = und c1 = m m m ∑m i=1 xi yi − (∑i=1 xi )(∑i=1 yi ) m 2 2 m ∑m i=1 xi − (∑i=1 xi ) m m m 2 (∑m i=1 xi )(∑i=1 yi ) − (∑i=1 xi )(∑i=1 xi yi ) . m 2 2 m ∑m i=1 xi − (∑i=1 xi ) Wir haben damit die Funktion f : R −→ R, z 7−→ c2 z + c1 , so bestimmt, dass der (euklidische) Abstand vom n-Tupel der gegebenen (gemessenen oder gerundeten) ungenauen Funktionswerte (y1 , . . . , ym ) zum n-Tupel der berechneten Funktionswerte ( f (x1 ), . . . , f (xm )) möglichst klein ist, also 2 ∑m i=1 (yi − (c2 xi + c1 )) möglichst klein ist. Der Graph dieser Funktion heißt Regressionsgerade oder Trendlinie der Punkte (x1 , y1 ), (x2 , y2 ), . . . , (xm , ym ). Man rechnet leicht nach, dass 1 m 1 m f ( ∑ xi ) = ∑ yi m i=1 m i=1 ist. Das Paar der arithmetischen Mittel von (x1 , . . . , xm ) und (y1 , . . . , ym ) liegt also immer auf der Regressionsgeraden. KAPITEL 3 Mehr über Geometrie §1. Strahlensatz Satz 20 : ( Strahlensatz“) ” Es seien Z1 , Z2 zwei verschiedene, einander im Punkt 0 schneidende Geraden in V , v1 , v2 Punkte auf Z1 \ {0} und w1 , w2 Punkte auf Z2 \ {0}. Dann gibt es c, d ∈ K \ {0} so, dass v2 = cv1 und w2 = dw1 ist. Mit L1 bzw. L2 bezeichnen wir die Geraden durch die Punkte v1 und w1 bzw. v2 und w2 . Dann gilt: (1) L1 und L2 sind genau dann parallel, wenn c = d ist. (2) Wenn L1 und L2 parallel sind, dann ist v2 − w2 = c(v1 − w1 ). Z1 v2 v1 0 w1 L1 w2 L2 Z2 A BBILDUNG 1. Strahlensatz Beweis: (1) Der zu L1 bzw. L2 parallele Untervektorraum ist K(v1 − w1 ) bzw. K(cv1 − dw1 ). Weil die Geraden Z1 und Z2 verschieden sind, sind die Vektoren v1 und w1 linear unabhängig. Daher ist K(v1 − w1 ) genau dann gleich K(cv1 − dw1 ), wenn c = d ist. 13 14 3. MEHR ÜBER GEOMETRIE (2) Wenn L1 und L2 parallel sind, ist c = d und v2 − w2 = cv1 − cw1 = c(v1 − w1 ) . Satz 21 : Es seien V ein Vektorraum über einem Körper K und Z1 = p1 + U1 , Z2 = p2 +U2 affine Unterräume von V mit Aufpunkten p1 , p2 und parallelen Untervektorräumen U1 , U2 . Wenn Z1 und Z2 parallel sind, dann ist Z1 ⊆ Z2 oder Z2 ⊆ Z1 oder Z1 ∩ Z2 = 0. / Beweis: Wir nehmen o.E.d.A. an, dass U1 ⊆ U2 ist. Wenn Z1 ∩ Z2 nicht leer ist, dann gibt es ein p ∈ Z1 ∩ Z2 . Daher ist Z1 = p +U1 ⊆ p +U2 = Z2 . §2. Affine Hülle Es sei K ein Körper und V ein Vektorraum über K. Definition 22 : Es seien I eine endliche Menge und (vi )i∈I eine Familie in V . Eine Linearkombination ∑i∈I ci vi von (vi )i∈I heißt affine Kombination von (vi )i∈I , wenn ∑i∈I ci = 1 ist. Die Menge aller affinen Linearkombinationen von (vi )i∈I heißt affine Hülle von (vi )i∈I . Beispiel 23 : Die affine Hülle von zwei Vektoren v1 und v2 ist ein Punkt, wenn v1 = v2 ist, bzw. die Gerade {c1 v1 + c2 v2 | c1 , c2 ∈ K, c1 + c2 = 1} = {v1 + c(v2 − v1 ) | c ∈ K}, wenn v1 ̸= v2 ist. Satz 24 : (1) Es seien M ein affiner Unterraum von V und (vi )i∈I eine endliche Familie in M. Dann ist die affine Hülle von (vi )i∈I in M enthalten. (2) Die affine Hülle einer Familie (vi )i∈I in V ist ein affiner Unterraum von V . Der dazu parallele Untervektorraum wird von (vi − v j )i∈I, i̸= j erzeugt, wobei j ∈ I beliebig gewählt werden kann. (3) Die affine Hülle von (vi )i∈I ist der (bezüglich Inklusion) kleinste affine Unterraum, der alle vi , i ∈ I, enthält. Beweis: (1) Sei p ∈ M, U der zu M parallele Untervektorraum und (ci )i∈I eine Familie in K mit ∑i∈I ci = 1. Zu vi gibt es ui ∈ U so, dass vi = p + ui , 15 3. MEHR ÜBER GEOMETRIE i ∈ I. Dann ist ∑ civi = ∑ ci(p + ui) = (∑ ci)p + ∑ ciui = p + ∑ ciui ∈ M . i∈I i∈I i∈I i∈I i∈I (2) Sei j ∈ I und M := v j + K ⟨vi − v j ; i ∈ I, i ̸= j⟩. Dann ist (vi )i∈I eine Familie in M und nach (1) ist ihre affine Hülle in M enthalten. Sei umgekehrt (di )i∈I eine Familie in K. Dann ist v j + ∑ di (vi − v j ) = ∑ di vi + 1 − ∑ di v j i∈I i̸= j i∈I i̸= j i∈I i̸= j eine affine Linearkombination von (vi )i∈I . Daher ist jedes Element von M in der affinen Hülle von (vi )i∈I enthalten. (3) Folgt aus (1) und (2). Definition 25 : Affine Unterräume von V heißen kollinear bzw. koplanar, wenn sie alle in einer Geraden bzw. Ebene in V enthalten sind. Satz 26 : (1) Drei Punkte v1 , v2 , v3 ∈ V sind genau dann kollinear, wenn die Vektoren v2 − v1 und v3 − v1 linear abhängig sind. (2) Vier Punkte v1 , v2 , v3 , v4 ∈ V sind genau dann koplanar, wenn die Vektoren v2 − v1 , v3 − v1 und v4 − v1 linear abhängig sind. (3) Zwei Geraden p1 + Kv1 und p2 + Kv2 sind genau dann koplanar, wenn die Vektoren p1 − p2 , v1 und v2 linear abhängig sind. Beweis: Die ersten zwei Aussagen folgen aus Satz 24, (2). Der zur affinen Hülle von (p1 , p2 , p1 + v1 , p2 + v2 ) parallele Untervektorraum wird von p1 − p2 , v1 und v2 erzeugt. Satz 27 : Zwei verschiedene koplanare Geraden schneiden einander in genau einem Punkt oder sie sind parallel. Beweis: Seien M1 und M2 verschiedene koplanare Geraden und E die Ebene, die beide enthält. Wenn M1 und M2 nicht parallel sind, dann ist U1 ∩U2 = 16 3. MEHR ÜBER GEOMETRIE {0} und U1 + U2 = U1 ⊕ U2 ist der zu E parallele Untervektorraum. Wegen p1 , p2 ∈ E ist p1 − p2 ∈ U1 ⊕ U2 , daher gibt es eindeutig bestimmte Vektoren u1 ∈ U1 , u2 ∈ U2 so, dass p1 − p2 = u1 + u2 ist. Somit ist M1 ∩ M2 = {p1 − u1 } = {p2 + u2 }. §3. Polytope und Schwerpunkte Es seien K = Q oder R und V ein Vektorraum über K. Definition 28 : Es seien I eine endliche Menge und (vi )i∈I eine Familie in V. Eine Linearkombination ∑ ci vi von (vi )i∈I heißt konvexe Linearkombinatii∈I on von (vi )i∈I , wenn ∑ ci = 1 und ci ≥ 0 für alle i ∈ I ist. i∈I Die Menge der konvexen Linearkombinationen von (vi )i∈I heißt konvexe Hülle von (vi )i∈I . Die konvexe Hülle zweier Vektoren v1 , v2 heißt Strecke zwischen v1 und v2 . Die konvexe Hülle dreier nicht kollinearer Punkte v1 , v2 , v3 heißt Dreieck mit Eckpunkten v1 , v2 , v3 . Eine Teilmenge von V heißt Polytop, wenn sie die konvexe Hülle einer endlichen Familie in V ist. Es sei I := {1, . . . , n} , c1 , . . . , cn ∈ R ≥0 und ∑ ci = 1. Für cn ̸= 1 ist i∈I n ∑ civi = (1 − cn) i=1 ( n−1 ) ci ∑ 1 − cn vi + cn vn = (1 − cn )w + cn vn , i=1 ci wobei w := ∑n−1 i=1 1−cn vi in der konvexen Hülle H von (v1 , . . . , vn−1 ) liegt. Daraus folgt: Für n ≥ 3 ist die konvexe Hülle von (v1 , . . . , vn ) die Vereinigung aller Strecken zwischen vn und den Elementen von H. Beispiel 29 : Eine Teilmenge von R ist genau dann ein Polytop, wenn sie ein abgeschlossenes Intervall ist. ( ) Satz 30 : Es seien P die konvexe Hülle einer Familie w j j∈J in V und (vi )i∈I eine Familie in P. Dann ist die konvexe Hülle von (vi )i∈I in P enthalten. Beweis: Für (alle)i ∈ I ist der Vektor vi eine konvexe Linearkombination ∑ c ji w j von w j j∈J . j∈J 17 3. MEHR ÜBER GEOMETRIE Sei ∑ di vi eine konvexe Linearkombination von (vi )i∈I . Dann ist i∈I ( ) ∑ divi = ∑ ∑ dic jiw j = ∑ ∑ dic ji i∈I i∈I j∈J j∈J wj i∈I mit ∑ di c ji ≥ 0, für alle j ∈ J, und i∈I ∑ ∑ dic ji j∈J i∈I ) ( ) ( = ∑ di i∈I ∑ c ji j∈J = ∑ di = 1 . i∈I Daher ist ∑ di vi ∈ P . i∈I Definition 31 : Es sei (vi )i∈I eine endliche Familie in V . Der Schwerpunkt von (vi )i∈I ist 1 vi . # (I) ∑ i∈I Der Schwerpunkt von (v1 , v2 ) heißt Mittelpunkt der Strecke zwischen v1 und v2 . Satz 32 : Es seien u, v, w drei nicht kollineare Punkte in V . Die Gerade durch u bzw. v bzw. w und den Mittelpunkt der Strecke zwischen den anderen zwei Punkten heißt Schwerlinie des Dreiecks mit Eckpunkten u, v, w durch u bzw. v bzw. w. Die drei Schwerlinien sind paarweise verschieden und schneiden einander im Schwerpunkt 31 (u + v + w) von (u, v, w) . Beweis: Da u, v, w nicht kollinear sind, sind nach Satz 26 die Vektoren v − u und w − u linear unabhängig. Also sind auch v − u und 1 1 1 (v − u) + (w − u) = (v + w) − u 2 2 2 linear unabhängig, nach Satz 26 sind daher u, v, 12 (v + w) nicht kollinear. Somit liegt v nicht auf der Schwerlinie durch u . Daher sind die Schwerlinien durch u und durch v verschieden und die drei Schwerlinien haben höchstens einen Schnittpunkt. Wegen ( ) ( ) 1 2 1 1 2 1 1 (u + v + w) = u + (v + w) = v + (u + w) = 3 3 3 2 3 3 2 ) ( 1 2 1 = w+ (u + v) 3 3 2 liegt der Schwerpunkt auf allen Schwerlinien. 18 3. MEHR ÜBER GEOMETRIE §4. Affine Räume Definition 33 : Es seien (G, ⋆) eine Gruppe mit neutralem Element e und M eine Menge. Eine Funktion G × M −→ M , (s, m) 7−→ s · m , ist eine Operation der Gruppe G auf der Menge M, wenn gilt: für alle m ∈ M ist e · m = m und für alle s,t ∈ G und alle m ∈ M ist (s ⋆ t) · m = s · (t · m). Beispiel 34 : Die Funktion Sn × {1, 2, . . . , n} → {1, 2, . . . , n} , (σ , i) 7→ σ (i) , ist eine Operation der Permutationsgruppe Sn auf der Menge {1, 2, . . . , n}. Definition 35 : Sei V ein Vektorraum über einem Körper K, A eine Menge und V × A → A , (v, a) 7→ v · a , eine Operation der Gruppe (V, +) auf A. (Also: Für alle a ∈ A, v, w ∈ V ist 0 · a = a und (v + w) · a = v · (w · a). A zusammen mit dieser Operation ist ein affiner Raum über V , wenn es für alle Elemente a, b ∈ A genau einen Vektor v ∈ V gibt mit v · a = b. Die Elemente von A heißen dann Punkte, die Elemente von V Vektoren des affinen Raums. Satz 36 : Sei A ein affiner Raum über V und a ∈ A. Die Funktion V −→ A , v 7−→ v · a , ist bijektiv. (Nach Wahl eines Nullpunktes“ kann ein affiner Raum als Vek” torraum betrachtet werden). Beweis: Folgt aus der Definition. Beispiel 37 : Sei V ein Vektorraum, p ∈ V und U ein Untervektorraum von V . Dann ist der affine Unterraum p +U mit U × (p +U) −→ p +U (v, p + u) 7−→ p + (u + v) , ein affiner Raum über U. Insbesondere ist jeder Vektorraum ein affiner Raum (über sich selbst). Beispiel 38 : Sie E die Zeichenebene oder der Anschauungsraum und T (E) der Vektorraum der Translationen von E. Dann ist E mit T (E) × E −→ E , (t, x) 7−→ t(x) , 19 3. MEHR ÜBER GEOMETRIE ein affiner Raum über T (E). Möchte man in der Zeichenebene keinen Nullpunkt“ wählen, kann man ” sie als affinen Raum betrachten. Dann muss man zwischen Punkten (∈ E) und Vektoren (∈ T (E)) unterscheiden. Punkte können dann nicht addiert werden, aber Vektoren können addiert werden und auf Punkten wirken“. ” Sind P und Q Punkte von E und P ̸= Q, dann gibt es genau eine Trans⃗ bezeichnet. Die lation in T (E), die P auf Q abbildet. Sie wird häufig mit PQ Menge ⃗ |t ∈ R } ⊆ T (E) {t PQ ⃗ in T (E). Die Gerade durch P und ist die Gerade durch 0T (E) = idE und PQ ” Q in E“ ist dann als ⃗ {(t PQ)(P) |t ∈ R } ⊆ E ⃗ ⃗ definiert. Wegen (PQ)(P) = Q und (0 · PQ)(P) = idE (P) = P sind P und ⃗ Q Punkte dieser Geraden. Die Translation PQ wird als Richtungsvektor“ ” dieser Geraden bezeichnet.