Approximation, Interpolation, Regression - Grundlagen und Beispiele Klaus-R. Löffler Inhaltsverzeichnis 1 Vorbemerkungen 1.1 Der Anforderungsrahmen dieser Darstellung . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Sprech- bzw. Notationsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Ganzrationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 2 2 Interpolation 2.1 Das Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Die Lösungsidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Das Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Verfahrensvariante - Aufbau der interpolierenden Funktion in n Schritten . . 2.4.1 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Lösung eines Gleichungssystems als alternatives Verfahren zur Ermittlung der lierenden Funktion ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Lineares Interpolieren bei Tabellenwerken . . . . . . . . . . . . . . . . . . . . 3 3 3 4 4 4 5 3 Approximation mit Methoden der Analysis 3.1 Das Problem . . . . . . . . . . . . . . 3.2 Das Verfahren . . . . . . . . . . . . . . 3.2.1 Beispiele . . . . . . . . . . . . . 3.3 Die praktische Nutzung . . . . . . . . 3.3.1 Ein Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . interpo. . . . . . . . . . . . . . . 4 Approximation mit Methoden der linearen Algebra 4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Der Euklidische Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Die Cauchy-Schwarzsche Ungleichung . . . . . . . . . . . . . . . . . . . 4.1.3 Die Norm im Euklidischen Vektorraum . . . . . . . . . . . . . . . . . . 4.1.4 Der Abstand im Euklidischen Vektorraum . . . . . . . . . . . . . . . . . 4.1.5 Linearkombination, Erzeugendensystem und Basen . . . . . . . . . . . . 4.2 Anwendungen des Approximationssatzes . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Die Aussage des Approximationssatzes . . . . . . . . . . . . . . . . . . . 4.2.2 Beispiele zur Approximation . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Anhang mit schulüblichen Standardlösungen der raumgeometrischen Aufgaben 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 6 . . . . . 6 6 6 7 9 9 . . . . . . . . . . 10 10 10 11 11 12 12 13 13 13 16 1 Vorbemerkungen 1 Vorbemerkungen 1.1 Der Anforderungsrahmen dieser Darstellung Dies ist kein Hochschultext. Die folgenden Darstellungen beschränken sich hinsichtlich ihrer Tiefe soweit wie meine Leistungkurse, die ich - damals noch mit sechs Wochenstunden - am Anfang der 90igerJahre des letzten Jahrhunderts am Leichlinger Gymnasium unterrichtet habe. Allerdings dürfte der Stoffumfang doch soweit den damals und vor allem in der Gegenwart üblichen deutlich überschreiten, dass der Text auch für den Hochschulanfänger in Teilen interessant sein könnte. Die für die beschriebenen Verfahren benötigten Voraussetzungen reichen in der Analysis bis zum Satz von Taylor, in der linearen Algebra bis zum Approximieren in Euklidischen Vektorräumen aus einem Unterraum endlicher Dimension heraus. Da der Mathematikunterricht mittlerweile wohl in den seltensten Fällen so weit geht, wird die Herleitung der benötigten Sätze jeweils zumindest skizziert. 1.2 Sprech- bzw. Notationsweisen In dieser Darstellung wird - soweit nicht durch Nachlässigkeit verhindert - deutlich zwischen Funktionen und den Werten von Funktionen unterschieden. So ist hier f (x) keine Funktion1 , sondern stets der Wert der Funktion f an der Stelle x. Wo es der Übersicht dient (und häufig parallel zum ausgeschriebenen Text), werden Quantoren verwendet: ^ A(x) :⇔ Alle Elemente der Menge M haben die Eigenschaft A() x∈M _ A(x) :⇔ Mindestens ein Element der Menge M hat die Eigenschaft A() x∈M Die folgenden Standardbezeichnungen werden für Zahlenmengen verwendet: • N = {0, 1, 2, 3, . . .} ist die Menge der natürlichen Zahlen, • N∗ = {1, 2, 3, . . .} (= N \ {0}) ist die Menge der positiven ganzen Zahlen, • Z = {0, −1, 1, −2, 2, . . .} ist die Menge der ganzen Zahlen, • Q ist die Menge der rationalen Zahlen, also der Zahlen, die sich als Quotient aus einer ganzen und einer positiven ganzen Zahl darstellen lassen, • R ist die Menge der reellen Zahlen. Der Buchstabe p als Funktionsbezeichnung wird - versehen mit einem entsprechenden Index - zur Bezeichnung der Potenzfunktionen verwendet: Für jede natürliche Potenzfunktion, V VZahl n ist pn die n die jeder reellen Zahl die n-te Potenz dieser Zahl V zuordnet: n∈N x∈R pn (x) = x . Die Nullfunktion wird hier mit o bezeichnet: x∈R o(x) = 0 . 1.3 Ganzrationale Funktionen Eine Funktion f wird als ganzrational bezeichnet, wenn sie sich als Linearkombination von Potenzfunktionen P schreiben lässt, wenn es also eine natürliche Zahl n und reelle Zahlen a1 , a2 , . . . , an gibt mit f = ni=0 pi . 1 In anderem Zusammenhang kann allerdings f (x) sehr wohl eine Funktion sein, wenn nämlich f nicht wie hier als Wertemenge reelle Zahlen, sondern eine Menge von Funktionen hat. 2 2 Interpolation Der höchste Wert unter den Indizes 0, 1, 2, . . . , n, für den ai verschieden von null ist, heißt Grad der ganzrationalen Funktion. Wenn alle Koeffizienten ai verschwinden, die Funktion also den konstanten Wert 0 hat, wird ihr ergänzend der symbolische Grad −∞ zugeordnet. Die folgenden Eigenschaften von ganzrationalen Funktionen sind unmittelbar klar oder algebraisch leicht nachtzuprüfen: • Bezeichnet man mit γ(f ) den Grad der ganzrationalen Funktion f , so gilt für alle von der Nullfunktion verschiedenen ganzrationalen Funktionen f1 und f2 : γ(f1 + f2 ) ≤ γ(f1 ) − γ(f2 ) ∧ γ(f1 · f2 ) = γ(f1 ) + γ(f2 ) • Ist f eine von o verschiedene ganzrationale Funktion und die reelle Zahl a eine Nullstelle von f , so kann man x − a im Funktionsterm von f ausklammern, genauer: Es gibt dann eine ganzrationale Funktion g mit γ(g) = γ(f ) − 1 und f = (p1 − a · p0 ) · g. • Eine ganzrationale Funktion f vom Grade n − 1 (n ∈ N∗ ) kann höchstens n Nullstellen haben. • Nehmen zwei ganzrationale Funktionen höchstens (n − 1)-ten Grades (n ∈ N∗ ) an mindestens n verschiedenen Stellen jeweils den gleichen Wert an, so handelt es sich um die gleichen Funktionen. Ein besonderer Charme der ganzrationalen Funktionen liegt in ihrer Abgeschlossenheit bezüglich Addition und Multiplikation2 und vor allem darin, dass ihre Funktionswerte an jeder Stelle einfach und nur unter Verwendung der Grundrechenarten (ohne Division) zu berechnen sind. Bei allen hier beschriebenen Verfahren zur Approximation von Funktionen werden jeweils zur Näherung ganzrationale Funktionen verwendet. 2 Interpolation Abweichend von der im Titel dieser Zusammenstellung angegebenen Reihenfolge soll als erstes Verfahren die Interpolation durch ganzrationale Funktionen behandelt werden, da hier die wenigsten mathematischen Grundlagen benötigt werden. 2.1 Das Problem Zu einer gegebenen positiven ganze Zahl n und n Punktepaaren (xi , yi ), (1 ≤ i ≤ n) wird eine ganzrationale Funktion möglichst kleinen Grades gesucht, auf deren Graphen die Punkte mit den Koordinaten (xi |yi ), (1 ≤ i ≤ n) liegen. Da es zu den grundlegenden Eigenschaften der Funktionen gehört, dass es zu jeder Stelle nur genau einen Funktionswert gibt, muss zusätzlich vorausgesetzt werden, dass die Stellen xi paarweise verschieden3 sind. Die Stellen x1 , x2 , . . . , xn werden als Stützstellen bezeichnet. 2.2 Die Lösungsidee Man konstruiert die gesuchte Funktion als Summe von n Funktionen, von denen die i-te Funktion an der Stelle xi den gewünschten Funktionswert yi hat und an jeder anderen Stützstelle den Funktionswert 0 hat. Da eine reelle Zahl a genau dann Nullstelle einer ganzrationale Funktion f ist, wenn sich der Faktor x − a aus dem Funktionsterm von f ausklammern lässt, braucht man in dem Produkt (x − x1 )(x − x2 )(x − x3 ) . . . (x − xn ) ja zunächst einmal aus dem Funktionsterm nur den Faktor x − xi wegzulassen. Den gewünschten Funktionswert an der Stelle xi erreicht man dann mit einer Division 2 3 Die ganzrationalen Funktionen bilden mit der Addition und Multiplikation einen Ring mit Einselement d.h. aus xi = xj folgt i = j 3 2 Interpolation durch (xi − x1 )(xi − x2 )(xi − x3 ) . . . (xi − xn ), wobei natürlich der i-te Faktor wieder weggelassen werden muss. Damit die zu diesem Funktionsterm gehörende Funktion schon einmal an der Stelle xi den Funktionswert 1, sodass nur noch eine Multiplikation mit yi erfolgen muss, um zu der gewünschten Funktion zu gelangen. 2.3 Das Verfahren Für jedes i ∈ {1, 2, 3, . . . , n} definiert man die Funktion fi also durch ^ (x − x1 )(x − x2 ) . . . (x − xi−1 )(x − xi+1 )(x − xi+2 ) . . . (x − xn ) fi (x) := yi (xi − x1 )(xi − x2 ) . . . (xi − xi−1 )(xi − xi+1 )(xi − xi+2 ) . . . (xi − xn ) x∈R P Mit f := ni=1 fi hat man dann die interpolierende Funktion. Da jede der Summandenfunktionen fi den Grad n − 1 hat, kann der Grad von f nicht mehr als n − 1 betragen. 2.3.1 Beispiele (1) Die vorgegebene Stützpunktmenge sei {(1|4), (2|9), (3|12)}. (x − 2)(x − 3) x2 − 5x + 6 ·4= · 4 = 2x2 − 10x + 12 (1 − 2)(1 − 3) 2 (x − 1)(x − 3) x2 − 4x + 3 f2 (x) = ·9= · 9 = −9x2 + 36x − 27 (2 − 1)(2 − 3) −1 x2 − 3x + 2 (x − 1)(x − 2) · 12 = · 12 = 6x2 − 18x + 12 f3 (x) = (3 − 1)(3 − 2) 2 f (x) = f1 (x) + f2 (x) + f3 (x) = −x2 + 8x − 3 f1 (x) = (2) Gesucht wird die interpolierende Funktion mit den Stützstellen 0, 1, 2, 3 zu p4 , also der Potenzfuntion vierten Grades. Die Stützpunkte haben dann die Koordinaten (0|0), (1|1), (2|16), (3|81); somit ergibt sich der folgende Funktionsterm: x(x − 2)(x − 3) x(x − 1)(x − 3) x(x − 1)(x − 2) ·1+ · 16 + · 81 1 · (−1) · (−2) 2 · 1 · (−1) 3·2·1 1 27 x(x − 2)(x − 3) − 8x(x − 1)(x − 3) + x(x − 1)(x − 3) 2 2 f (x) = 0 + = 2.4 Verfahrensvariante - Aufbau der interpolierenden Funktion in n Schritten Hierbei wird im i-ten Schritt (1 ≤ i ≤ n) eine Funktion vom Grade i konstruiert, deren Graph durch die ersten i Stützpunkte verläuft. Dabei ist f1 die konstante Funktion, deren Graph - eine Parallele zur x-Achse - durch den ersten Stützpunkt verläuft. Beim Übergang von fi−1 zu fi (2 ≤ i ≤ n) wird die Funktion nur durch Zufügen eines Summanden so abgewandelt, dass nun auch der i-te Stützpunkt zum Graphen gehört. Der Graph wird gewissermaßen an den ersten i− Stützpunkten festgehalten und dann so verbogen, dass er auch den den i-ten Stützpunkt verlauft. Sind also die Stützpunkte (xi |yi ) (1 ≤ i ≤ n) gegeben, so setzt man ^ f1 (x) = y1 x∈R ^ x∈R f2 (x) = f1 (x) + x − x1 (y2 − f1 (x2 )) x2 − x1 4 2 Interpolation ^ f3 (x) = f2 (x) + x∈R (x − x1 )(x − x2 ) (y3 − f2 (x3 ) (x3 − x1 )(x3 − x2 ) .. . Qn−1 i=1 (x − xi ) (yn − fn−1 (xn )) fn (x) = fn−1 (x) + Qn−1 (x − x ) n i i=1 x∈R ^ Dieses Verfahren ist vor allem auch dann nützlich, wenn zu einem Teil der Stützstellen bereits interpolierende Funktion vorliegt, also zum Beispiel, wenn noch eine weitere Stützstelle hinzukommt, nachdem für die vorhandenen bereits die Rechnung abgeschlossen war. Das folgende Beispiel zeigt eine weitere Situation, in der so vorgegangen werden kann: 2.4.1 Anwendungsbeispiel Zur Stützpunktmenge {(1|2), (3|10), (5|26), (7|48)} soll die zugehörige interpolierende ganzrationale Funktion f höchstens dritten Grades bestimmt werden. Da die ersten drei Stützpunkte auf dem Graphen der Funktion p2 + p0 liegen, gewinnt man die gesuchte Funktion mit ^ f (x) = x2 + 1 + (x − 1)(x − 3)(x − 5) (48 − 50) (7 − 1)(7 − 3)(7 − 5) f (x) = x2 + 1 − (x − 1)(x − 3)(x − 5) 24 x∈R ^ x∈R Das (z.B. in der Schule übliche) Ausmultiplizieren der Klammern mit anschließendem Zusammenfassen nach Potenzen von x ist überflüssig, solange die Formel lediglich zur Berechnung von Werten der Interpolationsfunktion verwendet werden soll. 2.5 Lösung eines Gleichungssystems als alternatives Verfahren zur Ermittlung der interpolierenden Funktion ? Da bei gegebener Stützpunktmenge {(x1 |y1 ), (x2 |y2 ), . . . , (xn |yn )} mit paarweise verschiedenen xi die gesuchte interpolierende keinen Grad größer als n hat, sind die Koeffizienten ai des zuP Funktion i eindeutig bestimmt. Es ist daher von vornherein klar, dass das lineare a x gehörigen Polynoms n−1 i i=0 (n, n)-Gleichungssystem a0 + a1 x1 + a2 x21 + a3 x31 + . . . + an xn1 = y1 a0 + a1 x2 + a2 x22 + a3 x32 + . . . + an xn2 = y2 a0 + a1 x3 + a2 x23 + a3 x33 + . . . + an xn3 = y3 .. . a0 + a1 xn + a2 x2n + a3 x3n + . . . + an xnn = yn eindeutig lösbar ist. Die Systemdeterminante ist die sog. Vandermondsche Determinante, deren Wert Q (x − xj ) bequem zu berechnen ist. Doch dann ist ja für jeden der Koeffizienten noch eine Deteri i>j minante zu berechnen, und erst nach der letzten Berechnung können z.B. weitere Werte der Interpolationsfunktion bestimmt werden. Dagegen liefert das oben angegebene Verfahren4 unmittelbar eine Formel, mit der man alle benötigten weiteren Werte der Interpolationsfunktion berechnen kann. 4 Das Verfahren wird nach dem Mathematiker Lagrange auch als Lagrangesches Verfahren bezeichnet 5 3 Approximation mit Methoden der Analysis 2.6 Lineares Interpolieren bei Tabellenwerken In der Zeit vor den elektronischen Rechnern erfolgte der Zugriff auf Werte der elementaren Funktionen (sin, cos, exp, log) mit Hilfe von Büchern, die mit möglichst kleiner Schrittlänge Wertetabellen dieser Funktionen enthielten. Sollte nun ein Wert an einer Stelle benötigt werden, die die z.B. noch eine Dezimale mehr als die Tabelle enthielt, wurde interpoliert: Waren die benachbarten Stellen a und b, deren Werte g(a) und g(b) angegeben waren, so bestimmte man einen Ersatz für den Wert an einer Stelle x zwischen a und b folgendermaßen: Mit einem eindeutig bestimmten reellen Parameter r zwischen 0 und 1 hat x eine Darstellung x−a x = a + r · (b − a), (somit r = ) b−a als Näherungswert für f (x) berechnete man dann f (x) ≈ f (a) + r(f (b) − f (a)) . Als Ersatzfunktion zu g mit einem möglichst guten Näherungswert bei x ∈]a; b[ wurde also die lineare Funktion f mit den Stützpunkten {(a|f (a)), (b|f (b))} verwendet. 3 Approximation mit Methoden der Analysis 3.1 Das Problem Vorgelegt sei eine Funktion g über einem abgeschlossenen Intervall [a; b], wobei hier nur der Spezialfall a = 0 behandelt werden soll5 . Dabei mögen zwar Funktionswert und Werte der Ableitungsfunktionen an der Stelle 0 sehr einfach, an anderen Stellen aber nur aufwendig oder gar nicht elementar zu berechnen sein. Gesucht werden ganzrationale Funktionen f , deren Werte sich als Näherungswerte für g verwenden lassen. 3.2 Das Verfahren Legt man an den Graphen einer Funktion g an der Stelle 0 des Differezierbarkeitsbereichs von g die Tangente an, so kann die zugehörige lineare Funktion an Stellen in der Nähe von 0 häufig als brauchbare Ersatzfunktion verwendet werden. Diese lineare Funktion stimmt in Funktionswert und erster Ableitung bei 0 mit den entsprechenden Werten der zu approximierenden Funktion überein. Wählt man die approximierende Funktion f so, dass zusätzlich die Werte weiterer Ableitungen von f und g bei 0 übereinstimmen, so ist zu erwarten, dass noch ein besseres Näherungsverhalten zu erreichen ist, da - anschaulich gesprochen - die Anschmiegung des Graphen der Näherungsfunktion besser wird. Die k-te Ableitung der Potenzfunktion pi ist i · (i − 1) P· (i − 2) . . . (i − k + 1)pi−k . Die k-te Ableitung der ganzrationalen Funktion h = ni=0 ai pi hat an der Stelle x den Wert h(k) (x) = n X i · (i − 1) · (i − 2) . . . (i − k + 1)xi−k . i=k Wegen hat: 0i−k = 0 für i > k verschwinden bei 0 jeweils alle außer dem ersten Summanden, so dass man h(k) (0) = k · (k − 1) · (k − 2) . . . 1 · ak · 1 = k! · ak Hat man also eine n-mal differenzierbare Funktion g, so hat die ganzrationale Funktion h die im Funktionswert und den ersten n Ableitungen an der Stelle 0 mit g übereinstimmt, die Darstellung n X g (i) (0) i h(x) = x . i! i=0 5 Die für eineallgemeine Betrachtung erforderlichen Ergebnisse erhält man durch eine einfache Verschiebung des Graphen in Richtung der positiven x-Achse. 6 3 Approximation mit Methoden der Analysis 3.2.1 Beispiele Die folgenden beiden Beispiele verdeuten optisch den Schmiegecharakter der approximierenden Funktion √ 1. Für g(x) := x + 1 erhält man −1 3 1 000 , g 00 (x) = √ g 0 (x) = √ 3 , g (x) = √ 5, 2 x+1 4 x+1 8 x+1 also wegen (g(0), g 0 (0), g 00 (0), g 000 (0)) = (1, 12 , − 14 , 38 ) : h(x) = 1 + 21 x − 18 x2 + 1 3 16 x 2. Für g = sin ergibt sich wegen sin0 = cos, cos0 = − sin, sin(0) = 0, cos(0) = 1 für die Näherungsfunktionen dritten und fünften Grades: h3 (x) = x − x3 6 , h5 (x) = x − x3 6 + x5 120 . 7 3 Approximation mit Methoden der Analysis Die beiden Beispiele legen nahe, dass sich die Näherungsfunktion, deren Funktionswerte ja einfach zu berechnen sind, in einem gar nicht so kleinen Intervall um 0 recht gut als Ersatzfunktion verwenden lässt. Es sieht auch so aus, als würde die Näherungsfunktion mit zunehmendem Grad auch immer besser und für ein größeres Intervall zu verwenden. Dass dies nicht in allen Fällen so ist, zeigt das folgende Beispiel. 3. Die durch ^ x∈R∗ g(x) := exp(− 1 ), g(0) := 0 x2 definierte Funktion ist an der Stelle 0 beliebig oft differenzierbar; alle Ableitungen bei 0 haben den Wert 0. Alle Näherungsfunktionen beliebig hoher Ordnung haben als Graphen also die xAchse. 8 3 Approximation mit Methoden der Analysis 3.3 Die praktische Nutzung Um das Verfahren zu verwenden, um an einer Stelle b ∈ R einen Ersatzwert h(b) für den exakten Funktionswert innerhalb einer vorgegebenen Fehlerschranke zu berechnen, braucht man eine Abschätzung für |h(b) − g(b)|. Eine solche Abschätzung lässt sich bei gegebenen Voraussetzungen mit Hilfe des Satzes von Taylor 6 gewinnen, der folgendes besagt: Wenn mit b ∈ R+ , n ∈ N∗ die Funktion g über dem Intervall [0; b] n + 1 mal differenzierbar ist, dann n+1 (ξ) gibt es eine Stelle ξ ∈]0; b[ mit g(b) − h(b) = g(n+1)! bn+1 . 3.3.1 Ein Anwendungsbeispiel √ Mithilfe einer ganzrationalen Näherungsfunktion soll der Wert e mit einem Fehler < 10−6 berechnet werden. Anwendung des Satzes von Taylor auf g(x) = exp(x) über dem Intervall [0; 12 ] liefert wegen √ exp(i) = exp; e = exp( 12 ): n X 1 i _ 1 1 exp(ξ) 1 hn (x) = x; · ( )n+1 g( ) − hn ( ) = i! 2 2 (n + 1)! 2 1 i=0 ξ∈]0; 2 [ Aufgrund der strengen der Exponentialfunktion und wegen e < 4 hat man p p Motononie exp(ξ) < exp( 12 ) = (e) < (4) = 2 und wegen 81 · 27 = 5160960 > 106 √ 1 exp(ξ) 1 8 1 | e − h7 ( )| = ·( ) < < 10−6 ; 2 8! 2 8! · 27 6 √ e≈ 7 X i=0 1 i! · 2i Ein ausführlicher Beweis dieses Satzes liegt als spezieller Themenartikel vor. 9 4 Approximation mit Methoden der linearen Algebra 4 Approximation mit Methoden der linearen Algebra 4.1 Grundlagen 4.1.1 Der Euklidische Vektorraum Der hier zugrunde gelegte Bereich ist ein euklidischer Vektorraum, also eine Menge V , in der eine Addition erklärt ist, so dass (V, +) eine kommutative Gruppe ist. In V ist auch eine Multiplikation von reellen Zahlen mit Elementen von V erklärt, wobei für alle Elemente ~a, ~b ∈ V und alle reellen Zahlen r, s die folgenden Eigenschaften vorliegen: • 1 · ~a = ~a • r · (~a + ~b) = r · ~a + r · ~b • (r + s) · ~a = r · ~a + s · ~b • (rs) · ~a = r · (s · ~a) Mit den genannten Eigenschaften ist V (zusammen mit der Addition in V und der Multiplikation mit reellen Zahlen) ein Vektorraum7 . Die Elemente werden als Vektoren bezeichnet. Wie auch bei der Multiplikation zweier reeller Zahlen wird der Malpunkt bei der Multiplikation einer reellen Zahl mit einem Vektor meistens weggelassen. Eine nichtleere Teilmenge U von V wird als Untervektorraum von V oder kürzer als Unterraum von V bezeichnet, wenn sie bezüglich der Operationen Addition und Multiplikation mit reellen Zahlen einen Vektorraum bildet8 . Speziell ein Euklidischer Vektorraum liegt vor, wenn in einem Vektorraum V zusätzlich noch ein inneres Produkt (oder Skalarprodukt) erklärt ist, also eine Abbildung, die jedem Paar (~a, ~b) von Vektoren eindeutig eine reelle Zahl - notiert als ~a ∗ ~b - zuordnet, wobei für alle ~a, ~b, ~c und alle reellen Zahlen r die folgenden Eigenschaften erfüllt sein müssen: • ~a ∗ ~a ≥ 0; = 0 ⇔ ~a = ~o • ~a ∗ ~b = ~b ∗ ~a • r(~a ∗ ~b) = (r~a) ∗ ~b • ~a ∗ (~b + ~c) = ~a ∗ ~b + ~a ∗ ~c Beispiele Euklidischer Vektorräume (1) Zur positiven ganzen Zahl n betrachte man V := Rn , also die Menge der geordneten n-Tupel (ai )ni=1 reeller Zahlen mit folgenden Definitionen: a) (ai )ni=1 + (bi )ni=1 := (ai + bi )ni=1 b) r(ai )ni=1 := (rai )ni=1 P c) (ai )ni=1 ∗ (bi )ni=1 := ni=1 ai bi (2) Zu einem abgeschlossenen Intervall [a; b] betrachte man die Menge V der auf [a; b] definierten stetigen reellwertigen Funktionen mit folgenden Definitionen der Verknüpfungen: V V a) f,g∈V x∈[a;b] (f + g)(x) := f (x) + g(x) 7 8 Üblich ist auch die Bezeichnung Linearer Raum. Um eine nichtleere Menge U als Unterraum von V nachzuweisen, genügt es zu zeigen, dass U bezüglich der beiden Vektorraumoperationen abgeschlossen ist. 10 4 Approximation mit Methoden der linearen Algebra b) V c) V r∈R V f,g∈V f ∈V V x∈[a;b] (rf )(x) Rb f ∗ g := a := r(f (x)) f (t)g(t)dt Dieser Funktionenraum wird nachfolgend mit C[a; b] bezeichnet. Zwei Vektoren heißen (zueinander) orthogonal, wenn ihr Skalarprodukt den Wert 0 hat. Beispiele: 1 2 (1) V = R3 , ~a = 1 , ~b = 2 ; ~a ∗ ~b = 2 − 2 − 4 = 0 4 −1 (2) V = C[1; 2], ~a = p1 , ~b = p2 − 37 p0 ; ~a ∗ ~b = 2 Z 1 5 5 1 4 5 2 2 =4−5− + =0 x(x − )dx = x − x 2 4 4 4 4 1 2 1 4.1.2 Die Cauchy-Schwarzsche Ungleichung Im Euklidischen Vektorraum erfüllen alle Vektoren ~a, ~b die folgende Ungleichung: (~a ∗ ~b)2 ≤ (~a ∗ ~a)(~b ∗ ~b), die als Cauchy-Schwarzsche Ungleichung (oder kürzer als Cauchysche Ungleichung) bezeichnet wird. Zum Nachweis darf man sich auf den Fall ~b 6= ~o beschränken. Aufgrund der Eigenschaften des Skalarprodukts gilt 0 ≤ (~a + λ~b) ∗ (~a + λ~b) = ~a ∗ ~a − 2λ~a ∗ ~b + λ2~b ∗ ~b, woraus sich durch Einsetzen von λ := chung ergibt. ~a∗~b ~b∗~b durch Zusammenfassen und Ordnen die behauptete Unglei- 4.1.3 Die Norm im Euklidischen Vektorraum √ Da für jedes Element ~a eines Euklidischen Vektorraums ~a ∗ ~a nicht negativ ist, existiert stets ~a ∗ ~a. Dieser Wert wird als ||~a|| notiert und als Norm von ~a bezeichnet. Von einer Norm in einem Vektorraum V spricht man, wenn die folgenden Eigenschaften für alle reellen Zahlen r und alle Vektoren ~a, ~b erfüllt sind: (1) ||~a|| ≥ 0 ; = 0 ⇔ ~a = ~o (2) ||r~a|| = |r| ||~a|| (3) ||~a + ~b|| ≤ ||~a|| + ||~b|| (Summenungleichung) Ein Vektor heißt normiert, wenn seine Norm 1 beträgt. Beispiele: 1 √ √ √ √ (1) V = R3 , ~a = 1 ; ||~a|| = ~a ∗ ~a = 1 + 1 + 16 = 18 = 3 · 2 . 4 √ Der Vektor 2 2 ||~a|| ist normiert. 11 4 Approximation mit Methoden der linearen Algebra (2) V = C[1; 2], ~a = 3p2 + 2p1 ; s Z ||~a|| = ||(3p2 + 2p1 || = s 2 (9x4 + 12x3 + 4x2 )dx 1 r = Der Vektor q 15 1652 288 32 9 4 + 48 + − −3− = 5 3 5 3 r = 9 5 4 x + 3x4 + x3 5 3 2 1 1652 . 15 ~a ist normiert. Eine unmittelbare Folgerung aus (3) in einem normierten Vektorraum V ist die Differenzenungleichung ^ | ||~a|| − ||~b|| | ≤ ||~a − ~b|| ~a,~b∈V 4.1.4 Der Abstand im Euklidischen Vektorraum Jede Norm in einem Vektorraum, also auch die Norm im Euklidischen Vektorraum V , induziert dort eine Abstandsfunktion δ durch die folgende Definition: ^ δ(~a, ~b) := ||~b − ~a|| . ~a,~b∈V Von einer Abstandsfunktion in einer Menge M spricht man allgemein, wenn diese jedem Paar a, b von Elementen aus M eine nichtnegative reelle Zahl zuordnet, wobei für alle a, b, c ∈ M gilt: (1) δ(a, b) = 0 ⇔ a = b (2) δ(a, b) = δ(b, a) (3) δ(a, c) ≤ δ(a, b) + δ(b, c) (Dreiecksungleichung) Die Gültigkeit der Dreiecksungleichung im Euklidischen Vektorraum folgt unmittelbar aus der Summenungleichung. 4.1.5 Linearkombination, Erzeugendensystem und Basen • Ist (~aP a2 , . . . , ~an ) eine Folge von Vektoren und sind r1 , r2 , . . . , rn reelle Zahlen, dann bezeichnet 1, ~ man ni=1 ri~a1 als Linearkombination von ~a1 , ~a2 , . . . , ~an . • Die Menge aller Linearkombinationen von Vektoren der Folge (~a1 , ~a2 , . . . , ~an ) wird als lineare Hülle von (~a1 , ~a2 , . . . , ~an ) bezeichnet und als < ~a1 , ~a2 , . . . , ~an > notiert. • Sind ~a1 , ~a2 , . . . , ~an Elemente eines Vektorraums V , dann ist < ~a1 , ~a2 , . . . , ~an > ein Unterraum von V . • Ist (~a1 , ~a2 , . . . , ~an ) eine Folge von Vektoren mit der Eigenschaft, dass sich jedes Element des Vektorraums als Linearkombination von ~a1 , ~a2 , . . . , ~an darstellen lässt, wird (~a1 , ~a2 , . . . , ~an ) als ein Erzeugendensystem des Vektorraums bezeichnet. • Eine Folge (~a1 , ~a2 , . . . , ~an ) von Vektoren heißt linear unabhängig, wenn sich keiner der Vektoren ~ai als Linearkombination der anderen Vektoren darstellen lässt9 . 9 Äquivalent dazu ist, dass die einzege Möglichkeit der Darstellung des Nullvektors als Linearkombination triviale ist, also die, bei der für alle i ∈ {1, 2, 3, . . . , n} ri den Wert 0 hat. 12 Pn i=1 ri~ai die 4 Approximation mit Methoden der linearen Algebra • Ein linear unabhängiges Erzeugendensystem eines Vektorraums V wird als Basis von V bezeichnet10 . 11 • Sind (~ai )ni=1 und (~bi )m i=1 Basen des gleichen Vektorraums, so gilt n = m . Diesen Wert n nennt man die Dimension des Vektorraums. • Die Basis (~a1 , ~a2 , . . . , ~an ) eines Euklidischen V Vektorraums heißt normiert, wenn jeder Vektor dieser Basis normiert ist, also wenn gilt: i∈{1,2,...,n} ||~ai || = 1. • Die Basis (~a1 , ~a2 , . . . , ~an ) eines Euklidischen Vektorraums heißt V orthogonal, wenn die Vektoren der Basis parweise zueinander orthogonal sind, also wenn gilt: i,j∈{1,2,...,n} (i 6= j ⇒ ~ai ∗~aj = 0). • Zu jeder Basis (~a1 , ~a2 , . . . , ~an ) eines Euklidischen Vektorraums V gibt es eine orthogonale und normierte (kurz: orthonormierte) Basis (~b1 , ~b2 , . . . , ~bn ) von V , wobei gilt: ^ ~bi ∈< ~a1 , ~a2 , . . . , ~ai > . i∈{1,2,3,...,n} Die Ermittlung der orthonormierten Basis (~bi )n1 aus einer vorgelegten Basis (~ai )n1 kann mit Hilfe des Schmidtschen Orthonormierungsverfahrens erfolgen, dessen ausführliche Darstellung in einem eigenen Themenartikel vorliegt. 4.2 Anwendungen des Approximationssatzes 4.2.1 Die Aussage des Approximationssatzes Es sei U ein Vektorunterraum eines Euklidischen Vektorraumes V , ~z sei ein Element von V . Der Vektor ~z soll aus dem Unterraum U heraus optimal approximiert werden, d.h. es wird ein Vektor ~y aus U mit der Eigenschaft gesucht, dass für alle ~x aus U gilt: ||~y − ~z|| ≤ ||~x − ~z||. Eine Lösung dieser Aufgabe bietet der Approximationssatz, der folgendes besagt: Ist (~bi )n1 eine orthonormale Basis von U , so erhält man den gesuchten Vektor als ~y = n X (~z ∗ ~bi )~bi . i=1 Der (einfache) Beweis wird ein einem eigenen Themenartikel zum Approximationssatz gegeben. Da in der Regel die für U vorliegende Basis noch nicht orthogonal und normiert ist, besteht ein wesentlicher Teil bei der Bestimmung des optimal approximierenden Vektors in der Orthonormierung der Basis von U . 4.2.2 Beispiele zur Approximation Die folgenden Anwendungsbeispiele müssen teilweise erst transformiert bzw. umformuliert werden, um den Approximationssatz anwenden zu können: 1. Beispiele aus der Raumgeometrie; die angegebenen Koordinaten12 in den Aufgabenstellungen13 beziehen sich immer auf die kanonische Basis des Raumes R3 . 10 Äquivalent dazu ist die Minimalität des Erzeugendensystems, also die Eigenschaft, dass die durch Entfernen eines Gliedes verbleibende Folge (ai ) kein Erzeugendensystem mehr ist. 11 Das ist eine Folgerung aus dem Austauschsatz von Steinitz, dessen Formulierung und Beweis in einem eigenen Themenartikel vorliegen. 12 Unter dem Koordinatentripel eines Punktes wird hier das Tripel aus den Koeffizienten verstanden, mit denen der zugehörige Ortsvektor in der kanonischen Basis dargestellt wird. 13 Schulübliche Standardlösungen werden in einem Anhang angegeben. 13 4 Approximation mit Methoden der linearen Algebra a) Von einem Punkt P des Raumes wird das Lot auf eine Gerade g gefällt. Man bestimme den Fußpunkt F des Lotes. Dabei ist die Gerade durch einen Punkt A (mit Ortsvektor ~a) und einen Richtungsvektor d~ gegeben. Lösung: Bei einer Verschiebung um den Vektor −~a geht P über in den Punkt P 0 mit dem ~ Ortsvektor p~ − ~a; der Unterraum U =< d~ > hat die ONB ( 1~ d). ||d|| Der p~0 optimal approximierende Vektor ist dann f~0 = (p~0 ∗ p~0 ∗d~ 1 ~ 1 ~ ~ d) ||d|| ~ d = d∗ ~ d~ ||d|| ~ d. (~ p − ~a) ∗ d~ ~ d. Ergebnis : f~ = ~a + d~ ∗ d~ b) Von einem Punkt P des Raumes wird das Lot auf eine Ebene e gefällt. Man bestimme den Fußpunkt F des Lotes. Dabei ist die Ebene durch einen Punkt A und zwei (linear unabhängige) Richtungsvektoren d~1 , d~2 gegeben. Lösung: Bei einer Verschiebung um den Vektor −~a geht P über in den Punkt P 0 mit dem Ortsvektor p~ − ~a; der Unterraum U =< d~1 , d~2 > habe die ONB (~b1 , ~b2 ). Der p~0 optimal approximierende Vektor ist dann f~0 = (p~0 ∗ ~b1 )~b1 + (p~0 ∗ ~b2 )~b2 . Ergebnis : f~ = ~a + (~ p − ~a) ∗ ~b1 )~b1 + (~ p − ~a) ∗ ~b2 )~b2 . 2. Approximation einer Funktion Man approximiere eine vorgelegte Funktion f über dem Intervall [a; b] durch eine Funktion aus einer vorgegebenen Klasse. Beispiel: • Man approximiere über dem Intervall [−1; 1] die Funktion mit der Gleichung g(x) = durch eine ganzrationale Funktion dritten Grades. √ x+1 Orthonormieren des Unterraums U der Potenzfunktionen höchstensR3.Grades < p0 , p1 , p2 , p3 > V V 1 (mit n∈N x∈R pn (x) = xn ) und dem Skalarprodukt f ∗ g := 12 −1 f (t)g(t)dt ergibt als orthonormierte Basis (~b1 , ~b2 , ~b3 , ~b3 ) von U : √ √ √ ~b1 = p0 , ~b2 = 3p1 , ~b3 = 5 (p0 − 3p2 ), ~b4 = 7 (−3p1 + 5p3 ) . 2 2 Mit den Skalarprodukten Z 1 1p 2√ h ∗ ~b1 = (x + 1)dx = 2 2 −1 3 Z p 1 1 2√ x · (x + 1)dx = h ∗ ~b2 = 2 2 −1 15 Z 22 √ 1 1 2 p ~ x · (x + 1)dx = 2 h ∗ b3 = 2 −1 105 Z 1 1 3 p 26 √ ~ h ∗ b4 = x · (x + 1)dx = 2 2 −1 315 ergibt sich als optimaler approximierender Vektor f 7 5 f = (−3p1 ∗ g + 5p3 ∗ g)(−3p1 + 5p3 ) + (p0 ∗ g − 3p2 ∗ g)(p0 − 3p2 ) 4 4 +3(p1 ∗ g)p1 + (p0 ∗ f )p0 √ und nach Zusammenfassung f = 2 63 (7p3 − 9p2 + 21p1 + 45p0 ). 14 4 Approximation mit Methoden der linearen Algebra • Man finde eine Linearkombination der Funktionen sin, cos und exp, welche die Funktion mit dem konstanten Wert 1 über dem Intervall [−π; π] optimal approximiert. 3. Regression a) Lineare Regression: Zu n Paaren reeller Zahlen (xi ; yi ) mit paarweise verschiedenen xi (i ∈ {1, 2, 3, . . . , n}) wird P eine lineare Funktion f gesucht, für die ni=1 (f (xi ) − yi )2 minimal ist. Lösung: Die lineare Funktion f hatP eine Funktionsgleichung der Form f (x) = mx + c. Zu minimieren ist somit der Ausdruck ni=1 (mxi + c − yi )2 . Mit ~y := (y1 , y2 , . . . , yn )T , ~x := (x1 , x2 , . . . , xn )T , ~e = (1, 1, . . . , 1)T sollen m und c so bestimmt werden, dass ||m~x + c~e − ~y || minimal ist; es ist also der Vektor ~y des Raumes Rn aus dem Unterraum U mit U =< ~e, ~x > heraus zu approximieren. P Orthonormieren der Basis (~e, ~x) zu (~b1 , ~b2 ) ergibt mit x := n1 ni=1 xi : Pn ~b0 = ~e1 , ~b1 = √1 ~e, ~b0 = ~x − (~b1 ∗ ~x)~b1 = ~x − i=1 xi ~e = ~x − x~e 1 2 n n n X ||~b2 ||2 = ~x ∗ ~x − 2x~x ∗ ~e + x2~e ∗ ~e = x2i − 2nx2 + nx2 = ||~x||2 − nx2 i=1 ~b1 = √1 ~e, n 1 ~b2 = p (~x − x~e) ||~x||2 − nx2 Der Vektor f~, der ~y aus dem Untervektorraum U heraus optimal approximiert, errechnet 1 Pn ~ ~ ~ ~ sich als (~y ∗ b1 )b1 + (~y ∗ b2 )b2 , also mit y := n i=1 yi n 1X ~y ∗ ~x − x~y ∗ ~e ~y ∗ ~x − x~y ∗ ~e ~y ∗ ~x − x~y ∗ ~e ~ f= yi~e + (~x − x~e) = y − x ~e + ~x 2 − nx2 2 − nx2 n ||~ x || ||~ x || ||~x||2 − nx2 i=1 15 4 Approximation mit Methoden der linearen Algebra P Wegen ~y ∗ ~e = ni=1 yi = ny ergibt sich ~y ∗ ~x − nxy ~y ∗ ~x − nxy ~ ~e + ~x f = y− x 2 2 ||~x|| − nx ||~x||2 − nx2 Ergebnis: Die gesuchte Funktion hat die Gleichung f (x) = mx + c mit ~y ∗ ~x − nxy m= , c = y − mx. ||~x||2 − nx2 b) Regression k-ten Grades: Zu n Paaren reeller Zahlen (xi ; yi ) mit paarweise verschiedenen x i (i ∈ {1, 2, 3, . . . , n}) wird P eine ganzrationale Funktion f k−ten Grades gesucht, für die ni=1 (f (xi ) − yi )2 minimal ist. P Lösungsweg: Die Funktion f hat eine Funktionsgleichung der Form f (x) = ki=0 ai xi . P Zu minimieren ist somit der Ausdruck ni=1 (a0 + a1 xi + a2 x2i + . . . + ak xki − yi )2 . Mit ~y := (y1 , y2 , . . . , yn )T , d~i := (xi1 , xi2 , . . . , xin )T , (i = 0, 1, 2, . . . k) ist also der Vektor ~y des Raumes Rn aus dem Unterraum U mit U =< d~0 , d~1 , . . . d~k > heraus zu approximieren. 4.3 Anhang mit schulüblichen Standardlösungen der raumgeometrischen Aufgaben Zu a: Der gesuchte Fußpunkt sei F mit dem Ortsvektor f~. Da F auf g liegt, lässt sich sein Ortsvektor in der Form f~ = ~a + r · d~ darstellen. Aus f~ − p~ = ~a + r · d~ − p~ ∧ F P ⊥ g, also (f~ − p~) ∗ d~ = 0 folgt (r · d~ + ~a − p~) ∗ d~ = 0, also r = (~ p−~a)∗d~ ~ d~ . d∗ Ergebnis: f~ = ~a + (~ p−~a)∗d~ ~ ~ d~ d. d∗ Zu b: Der gesuchte Fußpunkt sei F mit dem Ortsvektor f~. Da F in e liegt, lässt sich sein Ortsvektor in der Form f~ = ~a + s · d~1 + s · d~2 darstellen. Da P F senkrecht zur Ebene verläuft, und die zur Ebene orthogonale Richtung durch das Kreuzprodukt von d~1 und d~2 angegeben wird, gibt es einen Parameter r mit f~ = r(d~1 × d~2 ). Bildung des Skalarprodukts mit d~1 × d~2 ergibt r(d~1 × d~2 ) ∗ (d~1 × d~2 ) = ~a ∗ (d~1 × d~2 ), Ergebnis : f~ = ~a ∗ (d~1 × d~2 ) (d~1 × d~2 ). (d~1 × d~2 ) ∗ (d~1 × d~2 ) Stand 2016-04-14 16 also r = ~a∗(d~1 ×d~2 ) (d~1 ×d~2 )∗(d~1 ×d~2 ) .