Approximation, Interpolation, Regression

Werbung
Approximation, Interpolation, Regression
- Grundlagen und Beispiele
Klaus-R. Löffler
Inhaltsverzeichnis
1 Vorbemerkungen
1.1 Der Anforderungsrahmen dieser Darstellung . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Sprech- bzw. Notationsweisen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Ganzrationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
2
2
2
2 Interpolation
2.1 Das Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Die Lösungsidee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Das Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Verfahrensvariante - Aufbau der interpolierenden Funktion in n Schritten . .
2.4.1 Anwendungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Lösung eines Gleichungssystems als alternatives Verfahren zur Ermittlung der
lierenden Funktion ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Lineares Interpolieren bei Tabellenwerken . . . . . . . . . . . . . . . . . . . .
3
3
3
4
4
4
5
3 Approximation mit Methoden der Analysis
3.1 Das Problem . . . . . . . . . . . . . .
3.2 Das Verfahren . . . . . . . . . . . . . .
3.2.1 Beispiele . . . . . . . . . . . . .
3.3 Die praktische Nutzung . . . . . . . .
3.3.1 Ein Anwendungsbeispiel . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
interpo. . . . .
. . . . .
.
.
.
.
.
4 Approximation mit Methoden der linearen Algebra
4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Der Euklidische Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Die Cauchy-Schwarzsche Ungleichung . . . . . . . . . . . . . . . . . . .
4.1.3 Die Norm im Euklidischen Vektorraum . . . . . . . . . . . . . . . . . .
4.1.4 Der Abstand im Euklidischen Vektorraum . . . . . . . . . . . . . . . . .
4.1.5 Linearkombination, Erzeugendensystem und Basen . . . . . . . . . . . .
4.2 Anwendungen des Approximationssatzes . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Die Aussage des Approximationssatzes . . . . . . . . . . . . . . . . . . .
4.2.2 Beispiele zur Approximation . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Anhang mit schulüblichen Standardlösungen der raumgeometrischen Aufgaben
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
6
.
.
.
.
.
6
6
6
7
9
9
.
.
.
.
.
.
.
.
.
.
10
10
10
11
11
12
12
13
13
13
16
1 Vorbemerkungen
1 Vorbemerkungen
1.1 Der Anforderungsrahmen dieser Darstellung
Dies ist kein Hochschultext. Die folgenden Darstellungen beschränken sich hinsichtlich ihrer Tiefe soweit wie meine Leistungkurse, die ich - damals noch mit sechs Wochenstunden - am Anfang der 90igerJahre des letzten Jahrhunderts am Leichlinger Gymnasium unterrichtet habe. Allerdings dürfte der
Stoffumfang doch soweit den damals und vor allem in der Gegenwart üblichen deutlich überschreiten,
dass der Text auch für den Hochschulanfänger in Teilen interessant sein könnte.
Die für die beschriebenen Verfahren benötigten Voraussetzungen reichen in der Analysis bis zum
Satz von Taylor, in der linearen Algebra bis zum Approximieren in Euklidischen Vektorräumen aus
einem Unterraum endlicher Dimension heraus. Da der Mathematikunterricht mittlerweile wohl in den
seltensten Fällen so weit geht, wird die Herleitung der benötigten Sätze jeweils zumindest skizziert.
1.2 Sprech- bzw. Notationsweisen
In dieser Darstellung wird - soweit nicht durch Nachlässigkeit verhindert - deutlich zwischen Funktionen und den Werten von Funktionen unterschieden. So ist hier f (x) keine Funktion1 , sondern stets
der Wert der Funktion f an der Stelle x.
Wo es der Übersicht dient (und häufig parallel zum ausgeschriebenen Text), werden Quantoren verwendet:
^
A(x) :⇔ Alle Elemente der Menge M haben die Eigenschaft A()
x∈M
_
A(x) :⇔ Mindestens ein Element der Menge M hat die Eigenschaft A()
x∈M
Die folgenden Standardbezeichnungen werden für Zahlenmengen verwendet:
• N = {0, 1, 2, 3, . . .} ist die Menge der natürlichen Zahlen,
• N∗ = {1, 2, 3, . . .}
(= N \ {0}) ist die Menge der positiven ganzen Zahlen,
• Z = {0, −1, 1, −2, 2, . . .} ist die Menge der ganzen Zahlen,
• Q ist die Menge der rationalen Zahlen, also der Zahlen, die sich als Quotient aus einer ganzen
und einer positiven ganzen Zahl darstellen lassen,
• R ist die Menge der reellen Zahlen.
Der Buchstabe p als Funktionsbezeichnung wird - versehen mit einem entsprechenden Index - zur
Bezeichnung der Potenzfunktionen verwendet: Für jede natürliche
Potenzfunktion,
V
VZahl n ist pn die
n
die jeder reellen Zahl die n-te Potenz dieser Zahl
V zuordnet: n∈N x∈R pn (x) = x .
Die Nullfunktion wird hier mit o bezeichnet: x∈R o(x) = 0 .
1.3 Ganzrationale Funktionen
Eine Funktion f wird als ganzrational bezeichnet, wenn sie sich als Linearkombination von Potenzfunktionen
P schreiben lässt, wenn es also eine natürliche Zahl n und reelle Zahlen a1 , a2 , . . . , an gibt
mit f = ni=0 pi .
1
In anderem Zusammenhang kann allerdings f (x) sehr wohl eine Funktion sein, wenn nämlich f nicht wie hier als
Wertemenge reelle Zahlen, sondern eine Menge von Funktionen hat.
2
2 Interpolation
Der höchste Wert unter den Indizes 0, 1, 2, . . . , n, für den ai verschieden von null ist, heißt Grad der
ganzrationalen Funktion. Wenn alle Koeffizienten ai verschwinden, die Funktion also den konstanten
Wert 0 hat, wird ihr ergänzend der symbolische Grad −∞ zugeordnet.
Die folgenden Eigenschaften von ganzrationalen Funktionen sind unmittelbar klar oder algebraisch
leicht nachtzuprüfen:
• Bezeichnet man mit γ(f ) den Grad der ganzrationalen Funktion f , so gilt für alle von der
Nullfunktion verschiedenen ganzrationalen Funktionen f1 und f2 :
γ(f1 + f2 ) ≤ γ(f1 ) − γ(f2 )
∧
γ(f1 · f2 ) = γ(f1 ) + γ(f2 )
• Ist f eine von o verschiedene ganzrationale Funktion und die reelle Zahl a eine Nullstelle von f ,
so kann man x − a im Funktionsterm von f ausklammern, genauer:
Es gibt dann eine ganzrationale Funktion g mit γ(g) = γ(f ) − 1 und f = (p1 − a · p0 ) · g.
• Eine ganzrationale Funktion f vom Grade n − 1 (n ∈ N∗ ) kann höchstens n Nullstellen haben.
• Nehmen zwei ganzrationale Funktionen höchstens (n − 1)-ten Grades (n ∈ N∗ ) an mindestens n
verschiedenen Stellen jeweils den gleichen Wert an, so handelt es sich um die gleichen Funktionen.
Ein besonderer Charme der ganzrationalen Funktionen liegt in ihrer Abgeschlossenheit bezüglich Addition und Multiplikation2 und vor allem darin, dass ihre Funktionswerte an jeder Stelle einfach und
nur unter Verwendung der Grundrechenarten (ohne Division) zu berechnen sind. Bei allen hier beschriebenen Verfahren zur Approximation von Funktionen werden jeweils zur Näherung ganzrationale
Funktionen verwendet.
2 Interpolation
Abweichend von der im Titel dieser Zusammenstellung angegebenen Reihenfolge soll als erstes Verfahren die Interpolation durch ganzrationale Funktionen behandelt werden, da hier die wenigsten
mathematischen Grundlagen benötigt werden.
2.1 Das Problem
Zu einer gegebenen positiven ganze Zahl n und n Punktepaaren (xi , yi ), (1 ≤ i ≤ n) wird eine ganzrationale Funktion möglichst kleinen Grades gesucht, auf deren Graphen die Punkte mit den Koordinaten
(xi |yi ), (1 ≤ i ≤ n) liegen. Da es zu den grundlegenden Eigenschaften der Funktionen gehört, dass
es zu jeder Stelle nur genau einen Funktionswert gibt, muss zusätzlich vorausgesetzt werden, dass die
Stellen xi paarweise verschieden3 sind. Die Stellen x1 , x2 , . . . , xn werden als Stützstellen bezeichnet.
2.2 Die Lösungsidee
Man konstruiert die gesuchte Funktion als Summe von n Funktionen, von denen die i-te Funktion an
der Stelle xi den gewünschten Funktionswert yi hat und an jeder anderen Stützstelle den Funktionswert
0 hat. Da eine reelle Zahl a genau dann Nullstelle einer ganzrationale Funktion f ist, wenn sich
der Faktor x − a aus dem Funktionsterm von f ausklammern lässt, braucht man in dem Produkt
(x − x1 )(x − x2 )(x − x3 ) . . . (x − xn ) ja zunächst einmal aus dem Funktionsterm nur den Faktor x − xi
wegzulassen. Den gewünschten Funktionswert an der Stelle xi erreicht man dann mit einer Division
2
3
Die ganzrationalen Funktionen bilden mit der Addition und Multiplikation einen Ring mit Einselement
d.h. aus xi = xj folgt i = j
3
2 Interpolation
durch (xi − x1 )(xi − x2 )(xi − x3 ) . . . (xi − xn ), wobei natürlich der i-te Faktor wieder weggelassen
werden muss. Damit die zu diesem Funktionsterm gehörende Funktion schon einmal an der Stelle xi
den Funktionswert 1, sodass nur noch eine Multiplikation mit yi erfolgen muss, um zu der gewünschten
Funktion zu gelangen.
2.3 Das Verfahren
Für jedes i ∈ {1, 2, 3, . . . , n} definiert man die Funktion fi also durch
^
(x − x1 )(x − x2 ) . . . (x − xi−1 )(x − xi+1 )(x − xi+2 ) . . . (x − xn )
fi (x) :=
yi
(xi − x1 )(xi − x2 ) . . . (xi − xi−1 )(xi − xi+1 )(xi − xi+2 ) . . . (xi − xn )
x∈R
P
Mit f := ni=1 fi hat man dann die interpolierende Funktion. Da jede der Summandenfunktionen fi
den Grad n − 1 hat, kann der Grad von f nicht mehr als n − 1 betragen.
2.3.1 Beispiele
(1) Die vorgegebene Stützpunktmenge sei {(1|4), (2|9), (3|12)}.
(x − 2)(x − 3)
x2 − 5x + 6
·4=
· 4 = 2x2 − 10x + 12
(1 − 2)(1 − 3)
2
(x − 1)(x − 3)
x2 − 4x + 3
f2 (x) =
·9=
· 9 = −9x2 + 36x − 27
(2 − 1)(2 − 3)
−1
x2 − 3x + 2
(x − 1)(x − 2)
· 12 =
· 12 = 6x2 − 18x + 12
f3 (x) =
(3 − 1)(3 − 2)
2
f (x) = f1 (x) + f2 (x) + f3 (x) = −x2 + 8x − 3
f1 (x) =
(2) Gesucht wird die interpolierende Funktion mit den Stützstellen 0, 1, 2, 3 zu p4 , also der Potenzfuntion vierten Grades.
Die Stützpunkte haben dann die Koordinaten (0|0), (1|1), (2|16), (3|81); somit ergibt sich der folgende Funktionsterm:
x(x − 2)(x − 3)
x(x − 1)(x − 3)
x(x − 1)(x − 2)
·1+
· 16 +
· 81
1 · (−1) · (−2)
2 · 1 · (−1)
3·2·1
1
27
x(x − 2)(x − 3) − 8x(x − 1)(x − 3) + x(x − 1)(x − 3)
2
2
f (x) = 0 +
=
2.4 Verfahrensvariante - Aufbau der interpolierenden Funktion in n Schritten
Hierbei wird im i-ten Schritt (1 ≤ i ≤ n) eine Funktion vom Grade i konstruiert, deren Graph durch
die ersten i Stützpunkte verläuft. Dabei ist f1 die konstante Funktion, deren Graph - eine Parallele
zur x-Achse - durch den ersten Stützpunkt verläuft. Beim Übergang von fi−1 zu fi (2 ≤ i ≤ n) wird
die Funktion nur durch Zufügen eines Summanden so abgewandelt, dass nun auch der i-te Stützpunkt
zum Graphen gehört. Der Graph wird gewissermaßen an den ersten i− Stützpunkten festgehalten
und dann so verbogen, dass er auch den den i-ten Stützpunkt verlauft. Sind also die Stützpunkte
(xi |yi ) (1 ≤ i ≤ n) gegeben, so setzt man
^
f1 (x) = y1
x∈R
^
x∈R
f2 (x) = f1 (x) +
x − x1
(y2 − f1 (x2 ))
x2 − x1
4
2 Interpolation
^
f3 (x) = f2 (x) +
x∈R
(x − x1 )(x − x2 )
(y3 − f2 (x3 )
(x3 − x1 )(x3 − x2 )
..
.
Qn−1
i=1 (x − xi )
(yn − fn−1 (xn ))
fn (x) = fn−1 (x) + Qn−1
(x
−
x
)
n
i
i=1
x∈R
^
Dieses Verfahren ist vor allem auch dann nützlich, wenn zu einem Teil der Stützstellen bereits interpolierende Funktion vorliegt, also zum Beispiel, wenn noch eine weitere Stützstelle hinzukommt,
nachdem für die vorhandenen bereits die Rechnung abgeschlossen war. Das folgende Beispiel zeigt eine
weitere Situation, in der so vorgegangen werden kann:
2.4.1 Anwendungsbeispiel
Zur Stützpunktmenge {(1|2), (3|10), (5|26), (7|48)} soll die zugehörige interpolierende ganzrationale
Funktion f höchstens dritten Grades bestimmt werden. Da die ersten drei Stützpunkte auf dem
Graphen der Funktion p2 + p0 liegen, gewinnt man die gesuchte Funktion mit
^
f (x) = x2 + 1 +
(x − 1)(x − 3)(x − 5)
(48 − 50)
(7 − 1)(7 − 3)(7 − 5)
f (x) = x2 + 1 −
(x − 1)(x − 3)(x − 5)
24
x∈R
^
x∈R
Das (z.B. in der Schule übliche) Ausmultiplizieren der Klammern mit anschließendem Zusammenfassen
nach Potenzen von x ist überflüssig, solange die Formel lediglich zur Berechnung von Werten der
Interpolationsfunktion verwendet werden soll.
2.5 Lösung eines Gleichungssystems als alternatives Verfahren zur Ermittlung der
interpolierenden Funktion ?
Da bei gegebener Stützpunktmenge {(x1 |y1 ), (x2 |y2 ), . . . , (xn |yn )} mit paarweise verschiedenen xi die
gesuchte interpolierende
keinen Grad größer als n hat, sind die Koeffizienten ai des zuP Funktion
i eindeutig bestimmt. Es ist daher von vornherein klar, dass das lineare
a
x
gehörigen Polynoms n−1
i
i=0
(n, n)-Gleichungssystem
a0 + a1 x1 + a2 x21 + a3 x31 + . . . + an xn1 = y1
a0 + a1 x2 + a2 x22 + a3 x32 + . . . + an xn2 = y2
a0 + a1 x3 + a2 x23 + a3 x33 + . . . + an xn3 = y3
..
.
a0 + a1 xn + a2 x2n + a3 x3n + . . . + an xnn = yn
eindeutig
lösbar ist. Die Systemdeterminante ist die sog. Vandermondsche Determinante, deren Wert
Q
(x
−
xj ) bequem zu berechnen ist. Doch dann ist ja für jeden der Koeffizienten noch eine Deteri
i>j
minante zu berechnen, und erst nach der letzten Berechnung können z.B. weitere Werte der Interpolationsfunktion bestimmt werden. Dagegen liefert das oben angegebene Verfahren4 unmittelbar eine
Formel, mit der man alle benötigten weiteren Werte der Interpolationsfunktion berechnen kann.
4
Das Verfahren wird nach dem Mathematiker Lagrange auch als Lagrangesches Verfahren bezeichnet
5
3 Approximation mit Methoden der Analysis
2.6 Lineares Interpolieren bei Tabellenwerken
In der Zeit vor den elektronischen Rechnern erfolgte der Zugriff auf Werte der elementaren Funktionen
(sin, cos, exp, log) mit Hilfe von Büchern, die mit möglichst kleiner Schrittlänge Wertetabellen dieser
Funktionen enthielten. Sollte nun ein Wert an einer Stelle benötigt werden, die die z.B. noch eine
Dezimale mehr als die Tabelle enthielt, wurde interpoliert: Waren die benachbarten Stellen a und b,
deren Werte g(a) und g(b) angegeben waren, so bestimmte man einen Ersatz für den Wert an einer
Stelle x zwischen a und b folgendermaßen:
Mit einem eindeutig bestimmten reellen Parameter r zwischen 0 und 1 hat x eine Darstellung
x−a
x = a + r · (b − a), (somit r =
)
b−a
als Näherungswert für f (x) berechnete man dann f (x) ≈ f (a) + r(f (b) − f (a)) .
Als Ersatzfunktion zu g mit einem möglichst guten Näherungswert bei x ∈]a; b[ wurde also die lineare
Funktion f mit den Stützpunkten {(a|f (a)), (b|f (b))} verwendet.
3 Approximation mit Methoden der Analysis
3.1 Das Problem
Vorgelegt sei eine Funktion g über einem abgeschlossenen Intervall [a; b], wobei hier nur der Spezialfall
a = 0 behandelt werden soll5 . Dabei mögen zwar Funktionswert und Werte der Ableitungsfunktionen
an der Stelle 0 sehr einfach, an anderen Stellen aber nur aufwendig oder gar nicht elementar zu
berechnen sein. Gesucht werden ganzrationale Funktionen f , deren Werte sich als Näherungswerte für
g verwenden lassen.
3.2 Das Verfahren
Legt man an den Graphen einer Funktion g an der Stelle 0 des Differezierbarkeitsbereichs von g
die Tangente an, so kann die zugehörige lineare Funktion an Stellen in der Nähe von 0 häufig als
brauchbare Ersatzfunktion verwendet werden. Diese lineare Funktion stimmt in Funktionswert und
erster Ableitung bei 0 mit den entsprechenden Werten der zu approximierenden Funktion überein.
Wählt man die approximierende Funktion f so, dass zusätzlich die Werte weiterer Ableitungen von
f und g bei 0 übereinstimmen, so ist zu erwarten, dass noch ein besseres Näherungsverhalten zu
erreichen ist, da - anschaulich gesprochen - die Anschmiegung des Graphen der Näherungsfunktion
besser wird.
Die k-te Ableitung der Potenzfunktion pi ist i · (i − 1)
P· (i − 2) . . . (i − k + 1)pi−k .
Die k-te Ableitung der ganzrationalen Funktion h = ni=0 ai pi hat an der Stelle x den Wert
h(k) (x) =
n
X
i · (i − 1) · (i − 2) . . . (i − k + 1)xi−k .
i=k
Wegen
hat:
0i−k
= 0 für i > k verschwinden bei 0 jeweils alle außer dem ersten Summanden, so dass man
h(k) (0) = k · (k − 1) · (k − 2) . . . 1 · ak · 1 = k! · ak
Hat man also eine n-mal differenzierbare Funktion g, so hat die ganzrationale Funktion h die im
Funktionswert und den ersten n Ableitungen an der Stelle 0 mit g übereinstimmt, die Darstellung
n
X
g (i) (0) i
h(x) =
x .
i!
i=0
5
Die für eineallgemeine Betrachtung erforderlichen Ergebnisse erhält man durch eine einfache Verschiebung des Graphen
in Richtung der positiven x-Achse.
6
3 Approximation mit Methoden der Analysis
3.2.1 Beispiele
Die folgenden beiden Beispiele verdeuten optisch den Schmiegecharakter der approximierenden Funktion
√
1. Für g(x) := x + 1 erhält man
−1
3
1
000
, g 00 (x) = √
g 0 (x) = √
3 , g (x) = √
5,
2 x+1
4 x+1
8 x+1
also wegen (g(0), g 0 (0), g 00 (0), g 000 (0)) = (1, 12 , − 14 , 38 ) :
h(x) = 1 + 21 x − 18 x2 +
1 3
16 x
2. Für g = sin ergibt sich wegen sin0 = cos, cos0 = − sin, sin(0) = 0, cos(0) = 1 für die Näherungsfunktionen dritten und fünften Grades:
h3 (x) = x −
x3
6 ,
h5 (x) = x −
x3
6
+
x5
120 .
7
3 Approximation mit Methoden der Analysis
Die beiden Beispiele legen nahe, dass sich die Näherungsfunktion, deren Funktionswerte ja einfach zu berechnen sind, in einem gar nicht so kleinen Intervall um 0 recht gut als Ersatzfunktion
verwenden lässt. Es sieht auch so aus, als würde die Näherungsfunktion mit zunehmendem Grad
auch immer besser und für ein größeres Intervall zu verwenden. Dass dies nicht in allen Fällen
so ist, zeigt das folgende Beispiel.
3. Die durch
^
x∈R∗
g(x) := exp(−
1
), g(0) := 0
x2
definierte Funktion ist an der Stelle 0 beliebig oft differenzierbar; alle Ableitungen bei 0 haben
den Wert 0. Alle Näherungsfunktionen beliebig hoher Ordnung haben als Graphen also die xAchse.
8
3 Approximation mit Methoden der Analysis
3.3 Die praktische Nutzung
Um das Verfahren zu verwenden, um an einer Stelle b ∈ R einen Ersatzwert h(b) für den exakten Funktionswert innerhalb einer vorgegebenen Fehlerschranke zu berechnen, braucht man eine Abschätzung
für |h(b) − g(b)|. Eine solche Abschätzung lässt sich bei gegebenen Voraussetzungen mit Hilfe des
Satzes von Taylor 6 gewinnen, der folgendes besagt:
Wenn mit b ∈ R+ , n ∈ N∗ die Funktion g über dem Intervall [0; b] n + 1 mal differenzierbar ist, dann
n+1 (ξ)
gibt es eine Stelle ξ ∈]0; b[ mit g(b) − h(b) = g(n+1)!
bn+1 .
3.3.1 Ein Anwendungsbeispiel
√
Mithilfe einer ganzrationalen Näherungsfunktion soll der Wert e mit einem Fehler < 10−6 berechnet
werden. Anwendung des Satzes von Taylor auf g(x) = exp(x) über dem Intervall [0; 12 ] liefert wegen
√
exp(i) = exp; e = exp( 12 ):
n
X
1 i _
1
1
exp(ξ)
1
hn (x) =
x;
· ( )n+1
g( ) − hn ( ) =
i!
2
2
(n
+
1)!
2
1
i=0
ξ∈]0; 2 [
Aufgrund der strengen
der Exponentialfunktion und wegen e < 4 hat man
p
p Motononie
exp(ξ) < exp( 12 ) = (e) < (4) = 2 und wegen 81 · 27 = 5160960 > 106
√
1
exp(ξ) 1 8
1
| e − h7 ( )| =
·( ) <
< 10−6 ;
2
8!
2
8! · 27
6
√
e≈
7
X
i=0
1
i! · 2i
Ein ausführlicher Beweis dieses Satzes liegt als spezieller Themenartikel vor.
9
4 Approximation mit Methoden der linearen Algebra
4 Approximation mit Methoden der linearen Algebra
4.1 Grundlagen
4.1.1 Der Euklidische Vektorraum
Der hier zugrunde gelegte Bereich ist ein euklidischer Vektorraum, also eine Menge V , in der eine
Addition erklärt ist, so dass (V, +) eine kommutative Gruppe ist. In V ist auch eine Multiplikation
von reellen Zahlen mit Elementen von V erklärt, wobei für alle Elemente ~a, ~b ∈ V und alle reellen
Zahlen r, s die folgenden Eigenschaften vorliegen:
• 1 · ~a = ~a
• r · (~a + ~b) = r · ~a + r · ~b
• (r + s) · ~a = r · ~a + s · ~b
• (rs) · ~a = r · (s · ~a)
Mit den genannten Eigenschaften ist V (zusammen mit der Addition in V und der Multiplikation
mit reellen Zahlen) ein Vektorraum7 . Die Elemente werden als Vektoren bezeichnet. Wie auch bei der
Multiplikation zweier reeller Zahlen wird der Malpunkt bei der Multiplikation einer reellen Zahl mit
einem Vektor meistens weggelassen.
Eine nichtleere Teilmenge U von V wird als Untervektorraum von V oder kürzer als Unterraum von V
bezeichnet, wenn sie bezüglich der Operationen Addition und Multiplikation mit reellen Zahlen einen
Vektorraum bildet8 .
Speziell ein Euklidischer Vektorraum liegt vor, wenn in einem Vektorraum V zusätzlich noch ein inneres
Produkt (oder Skalarprodukt) erklärt ist, also eine Abbildung, die jedem Paar (~a, ~b) von Vektoren
eindeutig eine reelle Zahl - notiert als ~a ∗ ~b - zuordnet, wobei für alle ~a, ~b, ~c und alle reellen Zahlen r
die folgenden Eigenschaften erfüllt sein müssen:
• ~a ∗ ~a ≥ 0; = 0 ⇔ ~a = ~o
• ~a ∗ ~b = ~b ∗ ~a
• r(~a ∗ ~b) = (r~a) ∗ ~b
• ~a ∗ (~b + ~c) = ~a ∗ ~b + ~a ∗ ~c
Beispiele Euklidischer Vektorräume
(1) Zur positiven ganzen Zahl n betrachte man V := Rn , also die Menge der geordneten n-Tupel
(ai )ni=1 reeller Zahlen mit folgenden Definitionen:
a) (ai )ni=1 + (bi )ni=1 := (ai + bi )ni=1
b) r(ai )ni=1 := (rai )ni=1
P
c) (ai )ni=1 ∗ (bi )ni=1 := ni=1 ai bi
(2) Zu einem abgeschlossenen Intervall [a; b] betrachte man die Menge V der auf [a; b] definierten
stetigen reellwertigen Funktionen mit folgenden Definitionen der Verknüpfungen:
V
V
a) f,g∈V x∈[a;b] (f + g)(x) := f (x) + g(x)
7
8
Üblich ist auch die Bezeichnung Linearer Raum.
Um eine nichtleere Menge U als Unterraum von V nachzuweisen, genügt es zu zeigen, dass U bezüglich der beiden
Vektorraumoperationen abgeschlossen ist.
10
4 Approximation mit Methoden der linearen Algebra
b)
V
c)
V
r∈R
V
f,g∈V
f ∈V
V
x∈[a;b] (rf )(x)
Rb
f ∗ g :=
a
:= r(f (x))
f (t)g(t)dt
Dieser Funktionenraum wird nachfolgend mit C[a; b] bezeichnet.
Zwei Vektoren heißen (zueinander) orthogonal, wenn ihr Skalarprodukt den Wert 0 hat.
Beispiele:
 


1
2
(1) V = R3 , ~a =  1  , ~b =  2  ; ~a ∗ ~b = 2 − 2 − 4 = 0
4
−1
(2) V = C[1; 2], ~a = p1 , ~b = p2 − 37 p0 ;
~a ∗ ~b =
2
Z
1 5
5
1 4 5 2 2
=4−5− + =0
x(x − )dx =
x − x
2
4
4
4 4
1
2
1
4.1.2 Die Cauchy-Schwarzsche Ungleichung
Im Euklidischen Vektorraum erfüllen alle Vektoren ~a, ~b die folgende Ungleichung:
(~a ∗ ~b)2 ≤ (~a ∗ ~a)(~b ∗ ~b),
die als Cauchy-Schwarzsche Ungleichung (oder kürzer als Cauchysche Ungleichung) bezeichnet wird.
Zum Nachweis darf man sich auf den Fall ~b 6= ~o beschränken. Aufgrund der Eigenschaften des Skalarprodukts gilt
0 ≤ (~a + λ~b) ∗ (~a + λ~b) = ~a ∗ ~a − 2λ~a ∗ ~b + λ2~b ∗ ~b,
woraus sich durch Einsetzen von λ :=
chung ergibt.
~a∗~b
~b∗~b
durch Zusammenfassen und Ordnen die behauptete Unglei-
4.1.3 Die Norm im Euklidischen Vektorraum
√
Da für jedes Element ~a eines Euklidischen Vektorraums ~a ∗ ~a nicht negativ ist, existiert stets ~a ∗ ~a.
Dieser Wert wird als ||~a|| notiert und als Norm von ~a bezeichnet. Von einer Norm in einem Vektorraum
V spricht man, wenn die folgenden Eigenschaften für alle reellen Zahlen r und alle Vektoren ~a, ~b erfüllt
sind:
(1) ||~a|| ≥ 0 ; = 0 ⇔ ~a = ~o
(2) ||r~a|| = |r| ||~a||
(3) ||~a + ~b|| ≤ ||~a|| + ||~b||
(Summenungleichung)
Ein Vektor heißt normiert, wenn seine Norm 1 beträgt.
Beispiele:
 
1
√
√
√
√
(1) V = R3 , ~a =  1  ; ||~a|| = ~a ∗ ~a = 1 + 1 + 16 = 18 = 3 · 2 .
4
√
Der Vektor
2
2
||~a|| ist normiert.
11
4 Approximation mit Methoden der linearen Algebra
(2) V = C[1; 2], ~a = 3p2 + 2p1 ;
s
Z
||~a|| = ||(3p2 + 2p1 || =
s
2
(9x4
+
12x3
+
4x2 )dx
1
r
=
Der Vektor
q
15
1652
288
32 9
4
+ 48 +
− −3− =
5
3
5
3
r
=
9 5
4
x + 3x4 + x3
5
3
2
1
1652
.
15
~a ist normiert.
Eine unmittelbare Folgerung aus (3) in einem normierten Vektorraum V ist die Differenzenungleichung
^
| ||~a|| − ||~b|| | ≤ ||~a − ~b||
~a,~b∈V
4.1.4 Der Abstand im Euklidischen Vektorraum
Jede Norm in einem Vektorraum, also auch die Norm im Euklidischen Vektorraum V , induziert dort
eine Abstandsfunktion δ durch die folgende Definition:
^
δ(~a, ~b) := ||~b − ~a|| .
~a,~b∈V
Von einer Abstandsfunktion in einer Menge M spricht man allgemein, wenn diese jedem Paar a, b von
Elementen aus M eine nichtnegative reelle Zahl zuordnet, wobei für alle a, b, c ∈ M gilt:
(1) δ(a, b) = 0 ⇔ a = b
(2) δ(a, b) = δ(b, a)
(3) δ(a, c) ≤ δ(a, b) + δ(b, c)
(Dreiecksungleichung)
Die Gültigkeit der Dreiecksungleichung im Euklidischen Vektorraum folgt unmittelbar aus der Summenungleichung.
4.1.5 Linearkombination, Erzeugendensystem und Basen
• Ist (~aP
a2 , . . . , ~an ) eine Folge von Vektoren und sind r1 , r2 , . . . , rn reelle Zahlen, dann bezeichnet
1, ~
man ni=1 ri~a1 als Linearkombination von ~a1 , ~a2 , . . . , ~an .
• Die Menge aller Linearkombinationen von Vektoren der Folge (~a1 , ~a2 , . . . , ~an ) wird als lineare
Hülle von (~a1 , ~a2 , . . . , ~an ) bezeichnet und als < ~a1 , ~a2 , . . . , ~an > notiert.
• Sind ~a1 , ~a2 , . . . , ~an Elemente eines Vektorraums V , dann ist < ~a1 , ~a2 , . . . , ~an > ein Unterraum
von V .
• Ist (~a1 , ~a2 , . . . , ~an ) eine Folge von Vektoren mit der Eigenschaft, dass sich jedes Element des
Vektorraums als Linearkombination von ~a1 , ~a2 , . . . , ~an darstellen lässt, wird (~a1 , ~a2 , . . . , ~an ) als
ein Erzeugendensystem des Vektorraums bezeichnet.
• Eine Folge (~a1 , ~a2 , . . . , ~an ) von Vektoren heißt linear unabhängig, wenn sich keiner der Vektoren
~ai als Linearkombination der anderen Vektoren darstellen lässt9 .
9
Äquivalent dazu ist, dass die einzege Möglichkeit der Darstellung des Nullvektors als Linearkombination
triviale ist, also die, bei der für alle i ∈ {1, 2, 3, . . . , n} ri den Wert 0 hat.
12
Pn
i=1
ri~ai die
4 Approximation mit Methoden der linearen Algebra
• Ein linear unabhängiges Erzeugendensystem eines Vektorraums V wird als Basis von V bezeichnet10 .
11
• Sind (~ai )ni=1 und (~bi )m
i=1 Basen des gleichen Vektorraums, so gilt n = m . Diesen Wert n nennt
man die Dimension des Vektorraums.
• Die Basis (~a1 , ~a2 , . . . , ~an ) eines Euklidischen
V Vektorraums heißt normiert, wenn jeder Vektor
dieser Basis normiert ist, also wenn gilt: i∈{1,2,...,n} ||~ai || = 1.
• Die Basis (~a1 , ~a2 , . . . , ~an ) eines Euklidischen Vektorraums heißt
V orthogonal, wenn die Vektoren
der Basis parweise zueinander orthogonal sind, also wenn gilt: i,j∈{1,2,...,n} (i 6= j ⇒ ~ai ∗~aj = 0).
• Zu jeder Basis (~a1 , ~a2 , . . . , ~an ) eines Euklidischen Vektorraums V gibt es eine orthogonale und
normierte (kurz: orthonormierte) Basis (~b1 , ~b2 , . . . , ~bn ) von V , wobei gilt:
^
~bi ∈< ~a1 , ~a2 , . . . , ~ai > .
i∈{1,2,3,...,n}
Die Ermittlung der orthonormierten Basis (~bi )n1 aus einer vorgelegten Basis (~ai )n1 kann mit Hilfe des Schmidtschen Orthonormierungsverfahrens erfolgen, dessen ausführliche Darstellung in
einem eigenen Themenartikel vorliegt.
4.2 Anwendungen des Approximationssatzes
4.2.1 Die Aussage des Approximationssatzes
Es sei U ein Vektorunterraum eines Euklidischen Vektorraumes V , ~z sei ein Element von V . Der Vektor
~z soll aus dem Unterraum U heraus optimal approximiert werden, d.h. es wird ein Vektor ~y aus U mit
der Eigenschaft gesucht, dass für alle ~x aus U gilt: ||~y − ~z|| ≤ ||~x − ~z||.
Eine Lösung dieser Aufgabe bietet der Approximationssatz, der folgendes besagt: Ist (~bi )n1 eine orthonormale Basis von U , so erhält man den gesuchten Vektor als
~y =
n
X
(~z ∗ ~bi )~bi .
i=1
Der (einfache) Beweis wird ein einem eigenen Themenartikel zum Approximationssatz gegeben. Da in
der Regel die für U vorliegende Basis noch nicht orthogonal und normiert ist, besteht ein wesentlicher
Teil bei der Bestimmung des optimal approximierenden Vektors in der Orthonormierung der Basis
von U .
4.2.2 Beispiele zur Approximation
Die folgenden Anwendungsbeispiele müssen teilweise erst transformiert bzw. umformuliert werden, um
den Approximationssatz anwenden zu können:
1. Beispiele aus der Raumgeometrie; die angegebenen Koordinaten12 in den Aufgabenstellungen13
beziehen sich immer auf die kanonische Basis des Raumes R3 .
10
Äquivalent dazu ist die Minimalität des Erzeugendensystems, also die Eigenschaft, dass die durch Entfernen eines
Gliedes verbleibende Folge (ai ) kein Erzeugendensystem mehr ist.
11
Das ist eine Folgerung aus dem Austauschsatz von Steinitz, dessen Formulierung und Beweis in einem eigenen Themenartikel vorliegen.
12
Unter dem Koordinatentripel eines Punktes wird hier das Tripel aus den Koeffizienten verstanden, mit denen der
zugehörige Ortsvektor in der kanonischen Basis dargestellt wird.
13
Schulübliche Standardlösungen werden in einem Anhang angegeben.
13
4 Approximation mit Methoden der linearen Algebra
a) Von einem Punkt P des Raumes wird das Lot auf eine Gerade g gefällt. Man bestimme
den Fußpunkt F des Lotes. Dabei ist die Gerade durch einen Punkt A (mit Ortsvektor ~a)
und einen Richtungsvektor d~ gegeben.
Lösung: Bei einer Verschiebung um den Vektor −~a geht P über in den Punkt P 0 mit dem
~
Ortsvektor p~ − ~a; der Unterraum U =< d~ > hat die ONB ( 1~ d).
||d||
Der p~0 optimal approximierende Vektor ist dann f~0 = (p~0 ∗
p~0 ∗d~
1 ~ 1 ~
~ d) ||d||
~ d = d∗
~ d~
||d||
~
d.
(~
p − ~a) ∗ d~ ~
d.
Ergebnis : f~ = ~a +
d~ ∗ d~
b) Von einem Punkt P des Raumes wird das Lot auf eine Ebene e gefällt. Man bestimme
den Fußpunkt F des Lotes. Dabei ist die Ebene durch einen Punkt A und zwei (linear
unabhängige) Richtungsvektoren d~1 , d~2 gegeben.
Lösung: Bei einer Verschiebung um den Vektor −~a geht P über in den Punkt P 0 mit dem
Ortsvektor p~ − ~a; der Unterraum U =< d~1 , d~2 > habe die ONB (~b1 , ~b2 ).
Der p~0 optimal approximierende Vektor ist dann f~0 = (p~0 ∗ ~b1 )~b1 + (p~0 ∗ ~b2 )~b2 .
Ergebnis : f~ = ~a + (~
p − ~a) ∗ ~b1 )~b1 + (~
p − ~a) ∗ ~b2 )~b2 .
2. Approximation einer Funktion
Man approximiere eine vorgelegte Funktion f über dem Intervall [a; b] durch eine Funktion aus
einer vorgegebenen Klasse.
Beispiel:
• Man approximiere über dem Intervall [−1; 1] die Funktion mit der Gleichung g(x) =
durch eine ganzrationale Funktion dritten Grades.
√
x+1
Orthonormieren
des Unterraums U der Potenzfunktionen höchstensR3.Grades < p0 , p1 , p2 , p3 >
V
V
1
(mit n∈N x∈R pn (x) = xn ) und dem Skalarprodukt f ∗ g := 12 −1 f (t)g(t)dt ergibt als
orthonormierte Basis (~b1 , ~b2 , ~b3 , ~b3 ) von U :
√
√
√
~b1 = p0 , ~b2 = 3p1 , ~b3 = 5 (p0 − 3p2 ), ~b4 = 7 (−3p1 + 5p3 ) .
2
2
Mit den Skalarprodukten
Z
1 1p
2√
h ∗ ~b1 =
(x + 1)dx =
2
2 −1
3
Z
p
1 1
2√
x · (x + 1)dx =
h ∗ ~b2 =
2
2 −1
15
Z
22 √
1 1 2 p
~
x · (x + 1)dx =
2
h ∗ b3 =
2 −1
105
Z
1 1 3 p
26 √
~
h ∗ b4 =
x · (x + 1)dx =
2
2 −1
315
ergibt sich als optimaler approximierender Vektor f
7
5
f = (−3p1 ∗ g + 5p3 ∗ g)(−3p1 + 5p3 ) + (p0 ∗ g − 3p2 ∗ g)(p0 − 3p2 )
4
4
+3(p1 ∗ g)p1 + (p0 ∗ f )p0
√
und nach Zusammenfassung f =
2
63 (7p3
− 9p2 + 21p1 + 45p0 ).
14
4 Approximation mit Methoden der linearen Algebra
• Man finde eine Linearkombination der Funktionen sin, cos und exp, welche die Funktion
mit dem konstanten Wert 1 über dem Intervall [−π; π] optimal approximiert.
3. Regression
a) Lineare Regression:
Zu n Paaren reeller Zahlen (xi ; yi ) mit paarweise
verschiedenen xi (i ∈ {1, 2, 3, . . . , n}) wird
P
eine lineare Funktion f gesucht, für die ni=1 (f (xi ) − yi )2 minimal ist.
Lösung: Die lineare Funktion f hatP
eine Funktionsgleichung der Form f (x) = mx + c. Zu
minimieren ist somit der Ausdruck ni=1 (mxi + c − yi )2 .
Mit ~y := (y1 , y2 , . . . , yn )T , ~x := (x1 , x2 , . . . , xn )T , ~e = (1, 1, . . . , 1)T sollen m und c so
bestimmt werden, dass ||m~x + c~e − ~y || minimal ist; es ist also der Vektor ~y des Raumes Rn
aus dem Unterraum U mit U =< ~e, ~x > heraus zu approximieren.
P
Orthonormieren der Basis (~e, ~x) zu (~b1 , ~b2 ) ergibt mit x := n1 ni=1 xi :
Pn
~b0 = ~e1 , ~b1 = √1 ~e, ~b0 = ~x − (~b1 ∗ ~x)~b1 = ~x − i=1 xi ~e = ~x − x~e
1
2
n
n
n
X
||~b2 ||2 = ~x ∗ ~x − 2x~x ∗ ~e + x2~e ∗ ~e =
x2i − 2nx2 + nx2 = ||~x||2 − nx2
i=1
~b1 = √1 ~e,
n
1
~b2 = p
(~x − x~e)
||~x||2 − nx2
Der Vektor f~, der ~y aus dem Untervektorraum
U heraus optimal approximiert, errechnet
1 Pn
~
~
~
~
sich als (~y ∗ b1 )b1 + (~y ∗ b2 )b2 , also mit y := n i=1 yi
n
1X
~y ∗ ~x − x~y ∗ ~e
~y ∗ ~x − x~y ∗ ~e
~y ∗ ~x − x~y ∗ ~e
~
f=
yi~e +
(~x − x~e) = y − x
~e +
~x
2 − nx2
2 − nx2
n
||~
x
||
||~
x
||
||~x||2 − nx2
i=1
15
4 Approximation mit Methoden der linearen Algebra
P
Wegen ~y ∗ ~e = ni=1 yi = ny ergibt sich
~y ∗ ~x − nxy
~y ∗ ~x − nxy
~
~e +
~x
f = y− x
2
2
||~x|| − nx
||~x||2 − nx2
Ergebnis: Die gesuchte Funktion hat die Gleichung f (x) = mx + c mit
~y ∗ ~x − nxy
m=
, c = y − mx.
||~x||2 − nx2
b) Regression k-ten Grades:
Zu n Paaren reeller Zahlen (xi ; yi ) mit paarweise verschiedenen x
i (i ∈ {1, 2, 3, . . . , n}) wird
P
eine ganzrationale Funktion f k−ten Grades gesucht, für die ni=1 (f (xi ) − yi )2 minimal
ist.
P
Lösungsweg: Die Funktion f hat eine Funktionsgleichung der Form f (x) = ki=0 ai xi .
P
Zu minimieren ist somit der Ausdruck ni=1 (a0 + a1 xi + a2 x2i + . . . + ak xki − yi )2 .
Mit ~y := (y1 , y2 , . . . , yn )T , d~i := (xi1 , xi2 , . . . , xin )T , (i = 0, 1, 2, . . . k) ist also der Vektor ~y
des Raumes Rn aus dem Unterraum U mit U =< d~0 , d~1 , . . . d~k > heraus zu approximieren.
4.3 Anhang mit schulüblichen Standardlösungen der raumgeometrischen Aufgaben
Zu a: Der gesuchte Fußpunkt sei F mit dem Ortsvektor f~. Da F auf g liegt, lässt sich sein Ortsvektor
in der Form f~ = ~a + r · d~ darstellen. Aus
f~ − p~ = ~a + r · d~ − p~
∧
F P ⊥ g, also (f~ − p~) ∗ d~ = 0
folgt (r · d~ + ~a − p~) ∗ d~ = 0, also r =
(~
p−~a)∗d~
~ d~ .
d∗
Ergebnis: f~ = ~a +
(~
p−~a)∗d~ ~
~ d~ d.
d∗
Zu b: Der gesuchte Fußpunkt sei F mit dem Ortsvektor f~. Da F in e liegt, lässt sich sein Ortsvektor
in der Form f~ = ~a + s · d~1 + s · d~2 darstellen. Da P F senkrecht zur Ebene verläuft, und die zur
Ebene orthogonale Richtung durch das Kreuzprodukt von d~1 und d~2 angegeben wird, gibt es
einen Parameter r mit f~ = r(d~1 × d~2 ). Bildung des Skalarprodukts mit d~1 × d~2 ergibt
r(d~1 × d~2 ) ∗ (d~1 × d~2 ) = ~a ∗ (d~1 × d~2 ),
Ergebnis : f~ =
~a ∗ (d~1 × d~2 )
(d~1 × d~2 ).
(d~1 × d~2 ) ∗ (d~1 × d~2 )
Stand 2016-04-14
16
also r =
~a∗(d~1 ×d~2 )
(d~1 ×d~2 )∗(d~1 ×d~2 )
.
Herunterladen