Vorlesungsskript - Goethe

Werbung
Mathematik für Biophysiker
Skript zur Vorlesung gehalten im Sommersemester 2015
Joachim Reinhardt
Institut für Theoretische Physik, Goethe-Universität Frankfurt am Main
1 Einleitung
Die Vorlesung “Mathematik für Biophysiker” ist Teil des Bachelor-Studiengangs Biophysik an der
Goethe-Universität. Die Studienordnung sieht dafür nur eine einsemestrige Vorlesung mit 2 Semesterwochenstunden und einstündiger Übung vor. In Anbetracht der großen Rolle, die die Mathematik für
die Naturwissenschaften spielt, ist der geringe Mathematikanteil im Biophysikstudium bedauerlich. Es
bleibt aber zu hoffen, dass Sie zusätzliche mathematische Fähigkeiten “nebenbei” erwerben werden,
insbesondere im Vorlesungszyklus “Theoretische Physik”.
Dieses Skript zur Vorlesung behandelt im Wesentlichen folgende Themen:
Differential- und Integralrechnung von Funktionen mehrerer Veränderlicher
Vektorräume
lineare Operatoren
Eigenwertprobleme
Fourieranalyse
Zwei weitere in der Modulbeschreibung aufgeführte Themen konnten wegen des knappen Zeitrahmens
nicht mehr behandelt werden: Funktionentheorie und Variationsrechnung.
Jedenfalls ist klar, dass die vorliegende Vorlesung nicht die Zeit bietet, allgemeine mathematische Grundlagen zu wiederholen. Es wird deshalb der Stoff der Schulmathematik vorausgesetzt:
Elementare Mathematik (Mengen, Zahlen, Folgen und Reihen, Gleichungen, die Standardfunktionen, elementare Algebra und Geometrie, ...)
Differential- und Integralrechnung in einer Dimension
Vektoralgebra
Ebenso wird der Stoff der Vorlesung “Theoretische Physik 1” vorausgesetzt, auch wenn es zu einigen
Wiederholungen im Bereich der Vektoranalysis kommt.
Es ist klar, dass es sich hier nicht um eine “vollwertige” Mathematikvorlesung handeln kann. Charakteristisch hierfür wäre eine axiomatische Vorgehensweise, mit exakten Definitionen der Grundbegriffe,
genauer Formulierung mathematischer Sätze sowie strenger Beweisführung. Die vorliegende Vorlesung
muss hingegen auf mathematische Strenge und Subtilitäten verzichten und sich darauf beschränken, das
Handwerkszeug (oder Teile davon) vorzustellen, das für die Behandlung konkreter Probleme im Biophysikstudium benötigt wird. Auf subtilere Fragen von Existenz, Konvergenz, Eindeutigkeit etc. muss
notgedrungen weitgehend verzichtet werden.
1
Das vorliegende Skript erhebt keinen Anspruch auf Vollständigkeit oder Originalität und kann kein Lehrbuch ersetzen. Es sollen nur die Rolle einer Gedächtnisstütze für die Vorlesungsteilnehmer spielen.
Literatur
Das Thema der Mathematik für Physiker oder allgemein für Naturwissenschaftler wird in zahlreichen
Lehrbüchern mit verschiedenem Anspruchsgrad dargestellt. Eine ganze Reihe von Werken sind in Form
von Ebooks verfügbar, die für Studierende der Goethe-Universität kostenlos zugänglich sind (diese sind
in der untenstehenden Liste mit einem Stern (∗) gekennzeichnet. Man kann sie online am Bildschirm
lesen und meist auch (kapitelweise) in PDF-Form herunterladen. Voraussetzung ist der Zugang aus dem
Campusnetz oder (alternativ) das Einloggen über den Account der Universitätsbibliothek. Im folgenden
sind einige nützliche Bücher zum Thema zusammengestellt. Sie sind zur Vorlesungsergänzung, zum
Nachschlagen und zum Teil auch zum Selbststudium geeignet.
• Markus Otto: Rechenmethoden für Studierende der Physik im ersten Jahr (∗)
Spektrum Akademischer Verlag, 2011, 380 S.
Inhalt: Vektorrechnung, Lineare Algebra, Differentialrechnung, Integration (mehrfach), Differentialgleichungen, Komplexe Zahlen, Vektoranalysis, Fourieranalysis, Partielle Dgln, Anwendungen
in Mechanik+Edynamik
Wie der Titel sagt: eine gut verständlich “einfache” Einführung ohne Zugangshürden, thematisch
nicht sehr umfangreich.
• Thoralf Räsch: Mathematik der Physik für Dummies
Wiley-VCH, 2011, 431 S.
Inhalt: Eindimensionale Analysis, Lineare Algebra, Fourieranalysis, Differentialgleichungen,
mehrdimensionale Analysis
Wie der Titel sagt: Ein besonders verständliches, flott und teilweise etwas plakativ geschriebenes
aber durchaus brauchbares Anfängerbuch.
• Lothar Papula: Mathematik für Ingenieure und Naturwissenschaftler (∗)
Vieweg+Teubner Verlag / GWV Fachverlage GmbH, Wiesbaden, 2009, 12. Auflage
Band 1, 827 S.
Inhalt: Vektoralgebra, Funktionen und Kurven, Differentialrechnung, Integralrechnung, Potenzreihenentwicklung, Komplexe Zahlen und Funktionen
Band 2, 12. Aufl. 2009, 795 S.
Inhalt: Lineare Algebra, Fourier-Reihen, D+I in mehreren Dimensionen, Gewöhnliche Differentialgleichungen, Fouriertransformation, Laplacetransformation
Band 3, 5. Aufl. 2008, 834
Inhalt: Vektoranalysis, Wahrscheinlichkeitsrechnung, Statistik
Verständlich geschrieben, sehr ausführlich und “ingenieurmäßig” anwendungsorientiert, mit vielen Beispielen und Übungen
• Helmut Fischer, Helmut Kaul: Mathematik für Physiker (∗)
Teubner Studienbücher
Band 1: Grundkurs
Inhalt: Grundlagen, Vektorrechung, Analysis einer Veränderlichen, Lineare Algebra, Analysis
mehrerer Variabler, Vektoranalysis, Elementare Funktionentheorie
(Band 2: Gewöhnliche und partielle Differentialgleichungen, mathematische Grundlagen der
Quantenmechanik 3. Aufl. 2008, 752 S.)
2
Diese Bücher sind in der Bibliothek (Bibliothekszentrum Niederursel) als “Semesterausleihe” in
100 Exemplaren verfügbar.
• Klaus Jänich: Mathematik – Geschrieben für Physiker (∗)
Springer
Band 1: 2. Aufl. 2005, 556 S.
Eindimensionale Analysis, Lineare Algebra
Band 2: 2. Aufl. 2010, 384 S.
Vektoranalysis etc.
Eine verständlich geschriebene und ausführliche Einführung. Trotzdem versucht der Autor, dem
Leser einen Eindruck der Denkweise eines “richtigen” Mathematikers zu vermitteln.
• Hans Kerner, Wolf von Wahl: Mathematik für Physiker (∗)
Springer, 2007, 568 S.
Inhalt: Analysis (ein- und mehrdimensional), Lineare Algebra, Differentialgleichungen, Differentialformen, Distributionen, Funktionentheorie, Funktionalanalysis
Mathematisch anspruchsvoller.
• Siegfried Großmann: Mathematischer Einführungskurs für die Physik (∗)
Teubner, 10. Aufl. 2012, 407 S.
Inhalt: Vektoren, Vektorfunktionen, Felder, Integration, Vektorintegration, Integralsätze, Krummlinige Koordinaten, Gewöhnliche Differentialgleichungen, Randwertprobleme
Aus der Sicht eines theoretischen Physikers geschrieben, ohne übertriebene mathematische Pedanterie.
• K.F. Riley, M.P. Hobson: Essential mathematical methods for the physical sciences (∗)
Cambridge Univ. Press, 2011, 829 S.
Inhalt: Vektorräume, Vektoranalysis, Fourierreihen und -transformationen, Differential- und Integralgleichungen, Funktionentheorie, Wahrscheinlichkeitsrechnung.
Umfangreich, verständlich geschrieben.
Das folgende sehr umfangreiche Buch ist eine Mischung aus Lehrbuch und Formelsammlung und eignet
sich gut zum Nachschlagen:
• G.B. Arfken, H.J. Weber: Mathematical methods for physicists
Academic Press, 2005, 6th ed., 1182 S.
Als umfassende mathematische Formelsammlung ist zu empfehlen
• H. Stöcker: Taschenbuch mathematischer Formeln und moderner Verfahren
Harri Deutsch, 2007, 4. Aufl., 903 S.
Zusätzlich sind auch die bekannten Lehrbuchreihen der Theoretischen Physik zu empfehlen, da dort
meist auch die mathematischen Grundlagen eingeführt werden.
Auch im Internet sind zahlreiche Skripten zur Mathematik-Einführung zu finden, siehe z.B.
http://www.physik-skripte.de/#2.
3
2 Grundlagen
2.1 Zahlen
Bei den Zahlen handelt es sich um die vielleicht wichtigsten Objekte der Mathematik. Es gibt eine ganze
Reihe von unterschiedlichen Zahlentypen und ihre mathematisch strenge Beschreibung ist erstaunlich
anspruchsvoll.
Intuitiv unmittelbar anschaulich sind die natürlichen Zahlen, wie sie beim Abzählen von Gegenständen
usw. auftreten. Sie werden in der Menge N = {1, 2, 3, . . .} mit unendlich vielen Elementen zusammengefasst. Natürliche Zahlen lassen sich addieren und multiplizieren, d.h. für jedes Paar von Zahlen x, y ∈ N
sind die Summe x + y ∈ N und das Produkt x y ∈ N definiert. Schon etwas weniger intuitiv ist die Zahl
Null die, aus Indien kommend in Europa erst vor etwa 700 Jahren eingeführt wurde. Sie wird oft auch
zu den natürlichen Zahlen gerechnet (laut DIN-Norm 5473 gehört die Null zur Menge N), besser ist es
jedoch, separat die Menge N0 = N ∪ {0} = {0, 1, 2, 3, . . .} zu definieren.
Die nächste Erweiterung ist die Menge der ganzen Zahlen Z = {. . . , −2, −1, 0, 1, 2, . . .}, die auch die
negativen Zahlen enthält. Diese werden benötigt, wenn man beliebige lineare Gleichungen vom Typ
a + x = b mit a, b ∈ N nach x auflösen will.
Sollen auch Gleichungen vom Typ a x = b gelöst werden, dann werden zusätzlich die gebrochenen Zahlen
x = b/a mit a, b ∈ N benötigt. Diese bilden die Menge der rationalen Zahlen Q, für die die bekannten
Regeln der Bruchrechnung gelten.
Die rationalen Zahlen liegen dicht auf der Zahlengeraden: In jeder noch so kleinen Umgebung einer
rationalen Zahl liegen (unendlich viele) andere rationale Zahlen. Dennoch gibt es überall noch “Lücken”
zwischen ihnen. Eine neue Art von Zahlen, die selbst keine Brüche sind, lässt sich durch Folgen von
rationalen Zahlen q1 , q2 , q3 , . . . konstruieren. Eine solche Folge von Zahlen heisst konvergent (im Sinne
von Cauchy) mit dem Grenzwert q̄, wenn man zu jedem beliebig kleinen ε > 0 immer einen Index n
finden kann sodass |qi − q̄| < ε für alle i > n. Es lässt sich zeigen, dass sich dieser Grenzwert q̄ nicht
immer durch einen Bruch ausdrücken lässt; ist dies nicht möglich, so spricht man von einer irrationalen
Zahl. Rationale und irrationale Zahlen zusammen bilden die Menge der reellen Zahlen R.
Irrationale Zahlen treten z.B. auf beim Lösen von algebraischen Gleichungen zweiten oder höheren
√ Gra2 = 2, also x = 2. Jeder
des (Nullstellen von Polynomen). Das einfachste Beispiel ist die
Gleichung
x
√
kennt wahrscheinlich den elementaren Beweis, dass der Ansatz 2 = p/q mit p, q ∈ N zu einem Widerspruch führt. Es gibt aber auch noch andere irrationale Zahlen, die nicht als Nullstellen von Polynomen
auftreten. Diese werden als transzendente Zahlen bezeichnet. Bekannteste Beispiele sind die Kreiszahl
π = 3.1415 . . . und die Eulersche Zahl e = 2.7182 . . .
Auf eine letzte Erweiterung des Zahlenbegriffs stößt man ebenfalls beim Versuch, algebraische Gleichun√
gen zu lösen. Die Gleichung x2 + 1 = 0 wird gelöst durch x = i mit der imaginären Einheit i = −1.
Darauf aufbauend lassen sich Zahlen z = x + iy mit x, y ∈ R konstruieren, die zusammen die Menge
der komplexen Zahlen C bilden. Wie C.F. Gauß in seiner Doktorarbeit bewiesen hat (Fundamentalsatz
der Algebra) besitzt ein Polynom nten Grades immer genau n Nullstellen (manche können mehrfach
vorkommen), vorausgesetzt, man lässt auch komplexe Lösungen zu.
Im Gegensatz zu den anderen Zahlenarten liegen die komplexen Zahlen nicht auf einer Zahlengeraden
sondern in der zweidimensionalen komplexen Ebene. Als Konsequenz daraus haben die komplexen Zahlen eine Eigenschaft verloren: Sie sind nicht mehr geordnet, d.h. es lässt sich keine Ordnungsrelation
z1 < z2 definieren.
4
Die verschiedenen angesprochenen Zahlenmengen entstehen jeweils durch die Erweiterung des
Vorgängertyps. Dementsprechend ist die alte Zahlenmenge immer in der neuen enthalten und es gilt
folgende Kette:
N⊂Z⊂Q⊂R⊂C.
Mathematisch betrachtet bilden die reellen und die komplexen Zahlen einen Körper (englisch: field).
Auf die definierenden Eigenschaften (die Körperaxiome) gehen wir hier nicht näher ein. Sie beinhalten
im wesentlichen die jedem vertrauten Rechenregeln der Addition und Multiplikation von Zahlen und die
Tatsache, dass zu jedem a eine negative Zahl −a und eine reziproke Zahl a−1 = 1/a (für a 6= 0) existiert.
Nicht so vertraut ist das zusätzliche Vollständigkeitsaxiom. Es hat die harmlos klingende Form:
Jede nichtleere nach oben beschränkte Teilmenge eines geordneten Körpers, A ⊂ K besitzt in
K eine kleinste obere Schranke.
Die kleinste obere Schranke, auch als Supremum s = sup A bezeichnet, hat die Eigenschaft, dass keines
der Elemente von A größer als s ist, x ≤ s für alle x ∈ A. Weiterhin darf es keinen anderen Wert s′ <
s geben, der auch eine obere Schranke ist, d.h. es muss ein x ∈ A geben mit x > s′ . Dabei muss das
Supremum s selbst zwar in K aber nicht notwendig in A liegen. Falls dies doch der Fall ist, wird das
Supremum auch Maximum genannt, s = max A.
Der Körper R der reellen Zahlen erfüllt dieses Vollständigkeitsaxiom, während dies für die rationalen
Zahlen Q wegen der “Löcher” an den Stellen der irrationalen Zahlen nicht der Fall ist. Für die Analysis ist die Vollständigkeit wichtig, denn erst durch diese Eigenschaft ist die Existenz von Grenzwerten
sichergestellt.
2.2 Vektoralgebra
Definition von Vektoren
Anschaulich betrachtet ist ein Vektor ~a eine gerichtete Größe, bestimmt durch seinen Betrag a = |~a| und
seine Richtung ~e = ~a/a. Der Physiker oder Ingenieur stellt ihn durch einen Pfeil dar.
Der Mathematiker definiert einen Vektor abstrakt, als Elements eines Vektorraums V (auch linearer Raum
genannt), der gewissen Axiomen genügt. V besteht aus einer Menge von Vektoren ~a,~b, . . . für die eine
Addition “+” sowie eine Multiplikation “·” mit Zahlen definiert sind. (V, +) bildet eine kommutative
(abelsche) Gruppe, d.h. es gilt
Für alle
Für alle
Für alle
Für alle
Für alle
~a,~b ∈ V folgt ~a +~b ∈ V
~a ∈ V gilt ~a +~0 = ~a
~a ∈ V existiert ein Vektor −~a sodass ~a + (−~a) = ~0
~a,~b ∈ V gilt ~a +~b = ~b +~a
~a,~b,~c ∈ V gilt ~a + (~b +~c) = (~b +~a) +~c
Abgeschlossenheit bzgl. Addition
Existenz eines Nullvektors
Inverses Element
Kommutativität
Assoziativität
Die zusätzlich definierte Multiplikation verknüpft die Vektoren mit Elementen eines Körpers K, in der
Praxis handelt es sich dabei um die reellen Zahlen R oder die komplexen Zahlen C. Dabei gelten die
folgenden Gesetze
Für alle
Für alle
Für alle
Für alle
Für alle
~a ∈ V und α ∈ K folgt α · ~a ∈ V
~a ∈ V existiert eine Zahl 1 ∈ K sodass 1 ·~a ∈ V
~a ∈ V und α , β ∈ K gilt α · (β ·~a) = (α · β ) · ~a
~a,~b ∈ V und α ∈ K gilt α · (~a +~b) = α ·~a + α ·~b
~a ∈ V und α , β ∈ K gilt (α + β ) ·~a = α ·~a + β ·~a
5
Abgeschlossenheit bzgl. Multiplikation
Einselement des Zahlenkörpers
Assoziativität
Distributivität 1
Distributivität 2
Das Multiplikationszeichen · wird gewöhnlich nicht hingeschrieben.
Lineare Abhängigkeit
N
Ein Satz von n Vektoren ~a1 , . . . ,~an heisst linear abhängig, wenn aus ∑ αi ~ai =~0 folgt dass alle αi = 0 sind.
i=1
Anschaulich: Keiner der Vektoren ~ai lässt sich als eine Linearkombination der anderen n − 1 Vektoren
ausdrücken.
Lässt sich jeder Vektor ~a ∈ V durch eine Linearkombination einer Menge von Vektoren {~vi | i = 1 . . . n}
darstellen, also
n
~a = ∑ ai ~vi ,
i=1
dann heisst diese Menge ein Erzeugendensystem von ~V .
Eine Basis eines Vektorraums ist eine Menge von linear unabhängigen Vektoren ~vi die ein minimales
Erzeugendensystem bilden. (D.h.: wird einer der Vektoren weggenommen, dann verliert das System
diese Eigenschaft.)
Die Dimension eines Vektorraums:
dim V = n
ist die Anzahl der Elemente einer Basis von V . Das ist unabhängig von der speziellen Wahl der Basis.
Die Dimension kann auch Unendlich sein (Beispiel: Der Hilbertraum in der Quantenmechanik). Jeder
Vektorraum endlicher Dimension n kann eindeutig auf den Raum Rn abgebildet werden (Isomorphie).
Komponentendarstellung
Die Basiszerlegung erlaubt es, einen Vektor durch ein n-Tupel von Zahlen darzustellen. (Anmerkung:
Aus typographischen Gründen verzichten wir darauf, Vektoren in Spaltenform zu schreiben.)
~a = (a1 , . . . , an ) .
Dies ist eine Kurzschreibweise für
~a = a1~v1 + . . . + an~vn
wobei die ~vi eine Basis bilden. Am gebräuchlichsten ist die Verwendung einer Orthonormalbasis von
cartesischen Einheitsvektoren ~ei mit der Länge eins, die alle aufeinander senkrecht stehen (s.u.),
1
i= j
mit
für
Kronecker-Delta
δi j =
~ei · ~e j = δi j
0
i 6= j
Explizit: ~e1 = (1, 0, . . . , 0) , ~e2 = (0, 1, . . . , 0) , ~en = (0, 0, . . . , 1). Diese Vektoren werden auch als “kanonische Basis” bezeichnet.
Multiplikation von Vektoren: Das Skalarprodukt
Das Skalarprodukt ordnet zwei Vektoren eine reelle Zahl zu: V ×V → R .
Geometrische Definition: ~a ·~b = a b cos θ .
Hierbei sind a und b die Längen der Vektoren ~a und ~b und θ ist der Winkel zwischen den Vektoren.
6
Eigenschaften des Skalarprodukts:
~a ·~a ≥ 0 wobei ~a ·~a = 0 nur für ~a = ~0
~a ·~b = ~b ·~a
(~a +~b) ·~c = ~a ·~c +~b ·~c
(α ~a) ·~b = ~a · (α~b) = α ~a ·~b für α ∈ R
Positivität
Kommutativität
Distributivität
Homogenität
√
a = |~a| = ~a ·~a
Die Norm eines Vektors (auch “Länge” oder “Betrag” genannt) ist definiert als
Für Vektoren gilt die Dreiecksungleichung
|~a +~b| ≤ a + b .
Komponentenschreibweise des Skalarprodukts
In cartesischen Komponenten gilt
3
~a ·~b = ∑ ai bi .
i=1
Für den Betrag (euklidische Norm) eines Vektors ergibt sich demnach
s
3
√
a = |~a| = ~a ·~a = ∑ a2i .
i=1
Multiplikation von Vektoren: Das Vektorprodukt
Das Vektorprodukt (auch Kreuzprodukt oder äußeres Produkt) ordnet zwei Vektoren einen dritten zu:
V ×V → V .
Achtung: Das Vektorprodukt ist in dieser Form nur im dreidimensionalen Raum definiert.
Geometrische Definition: ~c = ~a ×~b
Betrag von ~c: Flächeninhalt des von ~a und ~b aufgespannten Parallelogramms, also c = ab sin θ .
Richtung von ~c: Senkrecht zur Ebene, die von ~a und ~b aufgespannt
wird, so dass ~a, ~b und ~c ein rechtshändiges System bilden.
®
c
b sin q
®
.. q
b
®
a
Eigenschaften des Vektorprodukts:
~a ×~b = −~b ×~a
Antikommutativität
~
~
(~a + b) ×~c = ~a ×~c + b ×~c
Distributivität
(α ~a) ×~b = ~a × (α~b) = α ~a ×~b für α ∈ R . Homogenität
Für die Vektorprodukte der cartesischen Einheitsvektoren folgt aus der
geometrischen Definition sofort

 ~e1 × ~e2 = ~e3
~e × ~e3 = ~e1
und
~ei × ~ei = ~0 für i = 1, 2, 3 .
 2
~e3 × ~e1 = ~e2
®
e3
®
e2
...
Diese verschiedenen Beziehungen lassen sich kompakt in einer einzigen Gleichung vereinigen:
3
~ei × ~e j =
∑ εi jk ~ek
k=1
7
®
e1
mit dem “Epsilon-Symbol” oder “Levi-Civita-Tensor”


 +1 falls (i, j, k) eine zyklische Permutation von (1,2,3) ist
−1 falls (i, j, k) eine antizyklische Permutation von (1,2,3) ist
εi jk =


0 sonst
Das heißt konkret: ε123 = ε231 = ε312 = +1 und ε132 = ε321 = ε213 = −1. Sind mindestens zwei der
Indizes gleich, dann hat das Epsilon-Symbol den Wert Null.
Komponentenweise Berechnung des Vektorprodukts
~a ×~b =
3
∑ ck ~ek
3
mit
ck =
k=1
∑ εi jk ai b j
also
i, j=1
Dies lässt sich auch als Determinante schreiben
~e1 ~e2 ~e3 ~a ×~b = a1 a2 a3 .
b1 b2 b3 
 c1 = a2 b3 − a3 b2
c = a3 b1 − a1 b3 .
 2
c3 = a1 b2 − a2 b1
Das Spatprodukt
Aus einem Satz von drei Vektoren ~a, ~b und ~c lässt sich durch kombinierte Anwendung des Vektor- und Skalarprodukts eine skalare
Größe berechnen. Man definiert das Spatprodukt als
®
c
®
b
q
V (~a,~b,~c) = (~a ×~b) ·~c .
j
®
a
V ist positiv (negativ) wenn das Vektortripel ~a,~b,~c ein rechtshändiges (linkshändiges) System bildet.
Geometrisch handelt es sich beim Betrag von V um das Volumen des von den drei Vektoren aufgespannten Spats (d.h. der schiefwinkligen Version eines Quaders, auch als Parallelepiped oder deutsch
Parallelflach bezeichnet).
(~a ×~b) ·~c = ~a · (~b ×~c) .
Es gilt
Die Komponenten-Schreibweise des Spatprodukts lautet
a1 a2 a3 3
(~a ×~b) ·~c = ∑ ai b j ck εi jk = b1 b2 b3 .
c1 c2 c3 i, j,k=1
Dies lässt sich z.B. komponentenweise nachprüfen und folgt auch aus folgender nützlichen Formel für
Produkte des Epsilon-Symbols
3
∑ εi jk εlmk = δil δ jm − δimδ jl .
k=1
Rechenregel für das doppelte Vektorprodukt (“Entwicklungssatz”)
~a × (~b ×~c) = ~b (~a ·~c) −~c (~a ·~b) .
8
2.3 Differentialrechnung in einer Dimension
Funktionen
Allgemein betrachtet ist eine Funktion f eine Abbildungsvorschrift die jedem Punkt aus einem Definitionsbereich x ∈ D einen Funktionswert y = f (x) in einem Zielbereich (Bildbereich) B zuordnet. Man
schreibt
f :D→B
,
x 7→ y = f (x) .
Hier bezeichnen der Pfeil → die Abbildung zwischen den Mengen insgesamt und der Pfeil 7→ die konkrete Zuordnung zwischen einzelnen Punkten. Wir befassen uns zunächst mit eindimensionalen reellen
Funktionen, also D ⊂ R und B ⊂ R.
Für den Definitionsbereich D ∈ R gibt es verschiedene Möglichkeiten. Häufig ist D ein vorgegebenes
kontinuierlich zusammenhängendes Intervall. Dabei unterscheidet man zwischen offenen Intervallen D =
[a, b], also a < x < b und geschlossenen Intervallen D = (a, b), also a ≤ x ≤ b, die die Randpunkte mit
enthalten. Der Definitionsbereich kann sich auch ins Unendliche erstrecken, z.B. D = R (die ganze reelle
Zahlengerade).
Man kann zwischen verschiedenen Arten von Abbildungen (Funktionen) unterscheiden.
(1) Die Abbildung f : D → B heisst surjektiv (Abbildung von D “auf” B) wenn jeder Punkt in
B als Funktionswert vorkommt. Formal:
Zu jedem y ∈ B gibt es (mindestens) ein x ∈ D mit f (x) = y.
(2) Die Abbildung heisst injektiv, wenn niemals zwei verschiedene Punkte in D auf denselben
Punkt in B abgebildet werden. Formal:
Aus f (x1 ) = f (x2 ) folgt x1 = x2 .
(3) Die Abbildung heisst bijektiv oder eineindeutig wenn sie sowohl surjektiv wie auch injektiv
ist.
Mit bijektiven Abbildungen lässt sich am besten arbeiten, denn sie haben die schöne Eigenschaft, dass
sie eindeutig umkehrbar sind. Es existiert also die Umkehrfunktion f −1 : B → D , y 7→ x = f −1 (y) .
Eine Komposition von Funktionen h = g ◦ f (“g nach f ”), wird von rechts nach links durch Hintereinanderausführung “abgearbeitet” und bedeutet h(x) = g( f (x)) oder
h = g◦ f : D → B ,
x 7→ g( f (x)) .
Die Komposition von Funktion und Umkehrfunktion führt auf die identische Abbildung:
f −1 ◦ f = id ≡ II
mit id(x) = x .
Stetigkeit
Definition: Eine Funktion y = f (x) sei auf einem Intervall I ∈ R definiert. Sie heißt stetig im Punkt x0 ∈ I wenn man zu jeder beliebig
kleinen positiven Zahl ε eine positive (von x0 und ε abhängige) Zahl
δ finden kann mit der Eigenschaft:
Für alle x ∈ I mit |x − x0 | < δ gilt | f (x) − f (x0 )| < ε .
Die Funktion heißt stetig im Intervall I wenn sie in jedem x0 ∈ I stetig
ist.
9
Anschaulich: Man kann beliebig “hereinzoomen” ohne das die Kurve “abreisst”.
Gegenbeispiele: Sprungstellen, Pole, unendlich schnelle Oszillationen (z.B. sin(1/x) bei x = 0).
Die Eigenschaft der Stetigkeit ist robust gegenüber vielen Operationen. So liefert die algebraische Verknüfung oder die Komposition (ineinander Einsetzen) von stetigen Funktionen wieder eine stetige Funktion.
Differenzierbarkeit
Die Ableitung einer Funktion f (x) an der Stelle x0 ist als Grenzwert des Differenzenquotienten definiert:
∆ f df
f (x0 + ∆x) − f (x0 )
(x0 ) = lim
.
= lim
∆x→0 ∆x x0
∆x→0
dx
∆x
Andere Schreibweisen:
df
dx (x0 )
≡ f ′ (x0 ) ≡ fx (x0 ) ≡
dy
dx |x=x0
.
Geometrisch: Die Ableitung gibt die Steigung der Funktion an (Winkel der Tangente im Punkt x0 bezogen auf die x-Achse).
Eine Funktion heisst im Punkt x0 ∈ I differenzierbar, wenn dieser
Grenzwert existiert. Differenzierbarkeit impliziert Stetigkeit, aber
nicht umgekehrt.
0
0
Häufig ist es wichtig, dass sich Funktionen hinreichend “anständig” verhalten. Dafür definiert man: Eine
Funktion gehört zur Klasse C1 , also f ∈ C1 , wenn sie (in einem Bereich) differenzierbar ist und eine stetige Ableitung f ′ besitzt. C1 -Funktionen heissen “stetig differenzierbar” oder auch “glatt”. Die Bedingung
lässt sich weiter verschärfen: Cn : n-fach stetig differenzierbar, C∞ : unendlich oft differenzierbar.
Rechenregeln für die Ableitung:
d
(α f (x) + β g(x)) = α f ′ (x) + β g′ (x) mit konstanten α , β ∈ R
dx
d
f (x)g(x) = f ′ (x)g(x) + f (x)g′ (x)
dx
d f (x)
f ′ (x)g(x) − f (x)g′ (x)
=
dx g(x)
(g(x))2
d
f (g(x)) = g′ (x) f ′ (y)|y=g(x)
dx
1
d −1
f (x) = ′ −1
dx
f ( f (x))
Linearität
Produktregel
Quotientenregel
Kettenregel
Ableitung der Umkehrfunktion
Ableitungen höherer Ordnung
d ′
d2 f
f ′ (x0 + ∆x) − f ′ (x0 )
′′
(x
)
≡
f
(x
)
=
f
(x)
=
lim
0
0
∆x→0
dx2
dx
∆x
oder mit dem Differenzenquotienten zweiter Ordnung
f (x0 + ∆x) − 2 f (x0 ) + f (x0 − ∆x)
d2 f
(x0 ) = lim
.
∆x→0
dx2
(∆x)2
Die Ableitung zweiter Ordnung hängt mit der Krümmung zusammen: f ′′ (x0 )
Die Ableitung beliebiger Ordnung wird rekursiv definiert: f (n) (x) =
10
> 0 : konvex
< 0 : konkav
d (n−1)
(x)
dx f
.
.
Mittelwertsatz der Differentialrechnung
Ist eine Funktion f (x) stetig in einem abgeschlossenen Intervall [a, b] und überall differenzierbar im
Inneren des Intervalls, dann gibt es mindestens eine Stelle c ∈ (a, b) an der gilt
f ′ (c) =
f (b) − f (a)
.
b−a
Die Taylorentwicklung
Mehrfach differenzierbare Funktionen lassen sich durch Polynome annähern.
Satz von Taylor
Für eine n + 1-fach differenzierbare Funktion f (x) gilt in der Umgebung des “Entwicklungspunktes” x0
f (x) = Pn (x) + Rn (x)
mit dem Taylorpolynom nter Ordnung
Pn (x) =
n
=
f ′ (x0 )
f ′′ (x0 )
f (n) (x0 )
(x − x0 ) +
(x − x0 )2 + . . . +
(x − x0 )n
1!
2!
n!
f (k) (x0 )
(x − x0 )k
k!
f (x0 ) +
∑
k=0
und dem Restglied (nach Lagrange, es gibt auch andere Formeln)
Rn (x) =
f (n+1) (ξ )
(x − x0 )n+1 mit einem (nicht genau bekannten) ξ ∈ (x0 , x) .
(n + 1)!
Das Polynom ist so konstruiert, dass im Punkt x0 der Funktionswert selbst und auch alle Ableitungen
von f (x) und Pn (x) bis zur nten Ordnung übereinstimmen. Im Grenzfall n → ∞ wird das Taylorpolynom
zur unendlichen Taylorreihe
✎
f (x) =
✍
∞
∑
k=0
f (k) (x0 )
(x − x0 )k .
k!
☞
✌
Eine solche Potenzreihe besitzt einen Konvergenzradius r. In der Umgebung |x − x0 | < r von x0 stimmt
die Funktion f (x) mit der Taylorreihe überein. Der Konvergenzradius kann unendlich sein. In der Nähe
von x0 lässt sich die Reihe oft schon nach wenigen Termen in guter Näherung abbrechen, d.h. die Funktion f (x) wird durch das Taylorpolynom Pn (x) mit vernachlässigtem Restglied approximiert.
Siehe auch das Kapitel “Reihen”.
2.4 Integration in einer Dimension
Unbestimmtes Integral
Das unbestimmte Integral einer Funktion f (x) ist eine Funktion F(x) deren Ableitung gleich f (x) ist,
also
dF(x)
= f (x)
dx
Man schreibt
F(x) =
Z
11
dx f (x) .
F(x) heisst Stammfunktion von f (x). Die Stammfunktion ist nur bis auf eine Konstante C bestimmt.
Bestimmtes Integral
Das Riemannsche Integral einer Funktion f (x) im Intervall a ≤ x ≤ b
ist als Grenzwert der Riemannschen Summe definiert:
✎
Z b
✍
N
dx f (x) = lim
N→∞
a
∑ f (ξk )∆x
k=1
☞
✌
mit der Zerlegung des Intervalls [a, b] in N Teilbereiche mit den
Randpunkten
b−a
, k = 0, . . . , N .
N
ξk ist ein Punkt innerhalb des kten Intervalls, ξk ∈ [xk−1 , xk ], z.B. der Mittelpunkt. (Bei der Zerlegung
können auch ungleich große Intervalle ∆xk gewählt werden, vorausgesetzt dass gilt lim ∆k → 0.) Die
xk = a + k∆x
∆x =
wobei
N→∞
Funktion f wird also durch eine Abfolge von immer feiner unterteilten Stufenfunktionen approximiert
und es werden die Flächen aller Rechtecke zur Gesamtfläche unter der Kurve aufsummiert.
In den meisten Fällen konvergiert der Wert der Riemannschen Summe für N → ∞ zu einem eindeutig bestimmten Grenzwert (der allerdings auch unendlich sein kann). Die Mathematiker kennen jedoch
auch Funktionen, bei dem dieses Verfahren nicht funktioniert. Im Rahmen der “Maßtheorie” wurden
verfeinerte Integraldefinitionen entwickelt, die auf eine größere Klasse von Funktionen anwendbar sind,
insbesondere das Lesbegue-Integral. Darauf können wir hier nicht eingehen.
Hauptsatz der Differential- und Integralrechnung
Integration und Differentiation sind zueinander inverse Operationen. Diese Aussage hat zwei Formen,
nämlich erstens
Z x
d
dx
a
dx′ f (x′ ) = f (x) .
Das bestimmte Integral mit oberer Grenze x ist also eine Stammfunktion.
Ebenso gilt für jede Stammfunktion F der Funktion f
Z b
dx f (x) =
a
Z b
dx
a
dF
= F(b) − F(a) .
dx
Rechenregeln der Integration
Z b
dx (α f (x) + β g(x)) = α
a
Z b
a
Z b
a
Z b
a
dx f (x) + β
a
a
Z b
Z b
dx f (x) = −
dx f (x) =
Z a
Z c
Z b
dx g(x) Linearität
a
dx f (x)
Richtungsumkehr
b
dx f (x) +
a
Z b
c
b
dx f (x)
dx f ′ (x)g(x) = f (x)g(x) −
a
dx g′ (x) f (g(x)) =
Z g(b)
Z b
a
Intervallzerlegung
dx f (x)g′ (x)
dy f (y)
Partielle Integration
Variablensubstitution y = g(x)
g(a)
12
In der letzten Gleichung kann man (wenn kein Mathematiker zusieht) formal “das Differential kürzen”
dy
dx = dy.
dx
Mittelwertsatz der Integralrechnung
Ist eine Funktion f (x) in einem Intervall [a, b] stetig, dann gibt es mindestens eine Stelle c ∈ [a, b] sodass
gilt
Z b
a
dx f (x) = (b − a) f (c) .
Anschaulich: Die Fläche unter der Kurve ist gleich der Fläche eines Rechtecks, das die Kurve schneidet.
Uneigentliche Integrale
Wenn sich bei einem bestimmten Integral eine oder beide Integrationsgrenzen bis ins Unendliche erstrecken, spricht man von einem uneigentlichen Integral. Ein solches wird durch einen Grenzübergang
definiert, nämlich
Z ∞
dx f (x) = lim
Z B
B→∞ a
a
dx f (x) .
Ob das Integral “existiert”, d.h. ob dieser Limes zu einem wohldefinierten und endlichen Resultat führt,
hängt vom Verhalten der Funktion f (x) im Unendlichen ab. Eine Möglichkeit, im konkreten Fall die Existenzfrage zu klären besteht darin, dass man f (x) mit einer abfallenden Potenzfunktion 1/xn vergleicht.
Solche Potenzfunktionen fallen im Unendlichen mit wachsendem n immer schneller ab. Die Grenze zwischen integrierbar/nicht integrierbar bildet der Wert n = 1.
Daraus ergeben sich folgende Kriterien: Wenn f (x) im “Innenbereich”, d.h. in einem Intervall [a, b]
integrierbar ist und darüber hinaus für x > b die Potenzfunktion eine “Majorante” für den Betrag von
f (x) ist, nämlich
| f (x)| ≤
d
xn
mit n > 1 und d ∈ R , d > 0
dann fällt der Integrand schnell genug ab und das Integral existiert. Gilt hingegen für x > b
f (x) >
d
xn
oder
f (x) < −
d
xn
mit n ≤ 1
so existiert das unbestimmte Integral nicht. Allerdings ist das Konvergenzkriterium nicht in allen Fällen
anwendbar. Insbesondere kann es im Fall oszillierender Funktionen geschehen, dass sich positive und
negative Beiträge gegenseitig wegheben sodass das Integral existiert obwohl der Betrag des Integranden
eigentlich zu langsam abfällt (n ≤ 1). Dies kommt z.B. bei der Fourier-Integration vor.
13
3 Ergänzungen zur eindimensionalen Integration
3.1 Parameterintegrale
Sei f (x, u) eine Funktion die nicht nur von x sondern auch noch von einer zweiten kontinuierlichen
Variablen u abhängt. Durch Integration über x (zunächst einmal in einem festen Intervall [a, b]) entsteht
eine neue Funktion des “Parameters” u
φ (u) =
Z b
dx f (x, u) .
a
Solche Parameterintegrale treten in den Anwendungen sehr häufig auf. Unter recht milden Voraussetzungen ist φ (u) eine stetige und differenzierbare Funktion. Wir berechnen ihre Ableitung:
Rb
R
dx f (x, u + ∆u) − ab dx f (x, u)
=
dx f (x, u) = lim
∆u→0
∆u
a
Z b
f (x, u + ∆u) − f (x, u)
= lim
dx
∆u→0 a
∆u
Z b
f (x, u + ∆u) − f (x, u)
?
dx lim
=
∆u→0
∆u
a
Z b
∂ f (x, u)
dx
=
.
∂u
a
Hier tritt unter dem Integral die partielle Ableitung nach u auf. Sie wird genauso berechnet wie die
gewöhnliche Ableitung, mit der Nebenbedingung, dass bei der Bildung des Differenzenquotienten die
andere Variable, also x, konstant gehalten wird.
d φ (u)
du
d
du
Z b
a
Die obige Formel impliziert, dass die Differentiation nach dem Parameter “unter das Integral gezogen”
werden kann. Natürlich ist unsere Umformung kein Beweis; man hat zu zeigen, dass der Grenzübergang
∆u → 0 und die Integration vertauscht werden dürfen. Die Mathematiker beweisen, dass die Formel
gilt wenn (1) die Funktion f (x, u) im interessierenden Bereich stetig ist und (2) die partielle Ableitung
∂ f (x, u)/∂ u dort existiert und ebenfalls in beiden Variablen stetig ist.
Die Formel lässt sich noch verallgemeinern. Wenn eine oder beide Integralgrenzen ebenfalls von u
abhängen gilt die allgemeine Formel von Leibniz
✗
d φ (u)
=
du
✖
b(u)
Z
dx
db(u)
da(u)
∂ f (x, u)
+ f (b(u), u)
− f (a(u), u)
.
∂u
du
du
a(u)
✔
✕
Die Zusatzterme entsprechen der Differentiation eines Integrals nach seiner Grenze unter Berücksichtigung der Kettenregel. Die Leibnizsche Formel zur Parameterdifferentiation lässt sich auch auf Integrale anwenden, die sich bis ins Unendliche erstrecken (uneigentliche Integrale). Da hier ein weiterer
Grenzprozess involviert ist, gelten verschärfte Bedingungen (gleichmäßige Konvergenz, siehe AnalysisLehrbücher). Meistens (aber eben nicht immer) ist der Integrand “gutmütig” und die naive Vertauschung
von Parameterdifferentiation und Integration ist zulässig.
Beispiel
Als ein Beispiel für den Nutzen der Parameterdifferentiation als Rechentrick zur Arbeitsersparnis beim
Integrieren berechnen wir die Momente der Gaußschen Verteilungsfunktion (Glockenkurve). Zu berech-
14
nen sind die Integrale
φn (a) =
Z∞
2
dx xn e−ax
−∞
n∈N.
Die ungeraden Momente verschwinden offensichtlich, φ1 = φ3 = . . . = 0, wegen der Antisymmetrie des
Integranden. Das “Normierungsintegral” (n = 0) sei bekannt:
r
√
π
= a−1/2 π .
φ0 (a) =
a
Nun fällt auf, dass die Differentiation dieser Funktion nach dem Parameter a gemäß der Leibnizschen
Formel gerade zum zweiten Moment führt, denn
d
da
Z∞
−ax2
dx e
=
Z∞
−∞
−∞
d −ax2
dx
e
=−
da
Z∞
2
dx x2 e−ax .
−∞
Also folgt
φ2 (a) = −
√
√
d
d
1
φ0 (a) = − a−1/2 π = a−3/2 π .
da
da
2
Offensichtlich geht das so weiter:
φ4 (a) = −
d
1 d −3/2 √
1 3 −5/2 √
a
a
φ2 (a) = −
π=
π.
da
2 da
22
Damit lautet der allgemeine Ausdruck für das gesuchte Integral (mit n = 2k, k = 1, 2, . . .)
φ2k (a) =
1 · 3 · . . . · (2k − 1) √
π.
2k ak+1/2
Dieses ziemlich komplizierte Resultat konnte dank der Parameterdifferentiation mit geringem Rechenaufwand erzielt werden.
3.2 Einige durch Integrale definierte spezielle Funktionen
Im Gegensatz zur Differentiation können Integrale häufig nicht “analytisch gelöst” werden, d.h. die
Stammfunktion kann nicht durch die elementaren Standardfunktionen ausgedrückt werden.
Dies kann als Anlass zur Definition neuer Funktionen genommen werden, die dann in ihren Eigenschaften analysiert und als “spezielle Funktionen” ins Standardrepertoire der Mathematik aufgenommen
werden. Die unabhängige Variable der neuen Funktion f (x) kann dabei entweder als Integralgrenze auftreten oder als Parameter unter dem Integral. Wir betrachten einige Vertreter aus beiden Klassen, werden
aber nicht näher auf Eigenschaften der Funktionen eingehen.
3.2.1
Variable Integrationsgrenze
Die Fehlerfunktion:
2
erf(x) = √
π
Zx
2
du e−u
0
Sie spielt eine zentrale Rolle in der Wahrscheinlichkeitsrechnung und Statistik.
15
F(ϕ |m) =
Das Elliptische Integral (erster Art):
Zϕ
dθ p
1
1 − m sin2 θ
Die Funktion tritt z.B. in der Mechanik bei der Pendelbewegung auf.
Ei(x) =
Das Exponentialintegral:
Zx
du
−∞
0
eu
u
Anmerkung: Hier tritt eine Besonderheit auf: Es handelt sich um ein uneigentliches Integral, da zum
einen die untere Integrationsgrenze im Unendlichen liegt (das ist harmlos, da die Exponentialfunktion
für u → −∞ schnell abfällt) und zum anderen im Fall x > 0 der Integrand nicht beschränkt ist. Bei u = 0
liegt wegen des Faktors 1/u eine Singularität (Unendlichkeitsstelle) in Form eines Pols erster Ordnung
vor. Spaltet man (für x > 0) das untersuchte Integral in zwei Teile auf
Ei(x) =
Z0
−∞
eu
du +
u
Zx
du
eu
u
0
dann findet man, dass die beiden Teilintegrale einzeln betrachtet divergieren, nämlich
Z0
−∞
eu
du = −∞
u
Zx
und
du
eu
= +∞
u
0
denn in der Nähe von u = 0 lässt sichR die Exponentialfunktion durch eu ≃ 1 approximieren und das verbleibende Integral divergiert wegen du(1/u) = ln u an der oberen bzw. unteren Grenze logarithmisch.
Wegen des Vorzeichenwechsels der Funktion 1/u ist eines der Teilintegrale negativ unendlich, das andere
positiv unendlich. Dies eröffnet die Möglichkeit, für das Gesamtintegral einen endliche Wert zu erhalten,
da sich die beiden Unendlichkeiten gegeneinander “wegheben”.
Nach Cauchy definiert man das Hauptwertintegral über eine Funktion f (u) mit einem Pol an der Stelle
u0 ∈ (a, b) als
P
Z b
a
Zb
uZ0 −ε
du f (u)
du f (u) +
du f (u) ≡ − du f (u) = lim
Z b
ε →0
a
u0 +ε
a
Das funktioniert nur, wenn man dasselbe ε in beiden Teilintegralen benutzt. In vielen Fällen, so auch
beim Exponentialintegral, existiert dieser Grenzwert und es ergibt sich ein endliches Resultat. Salopp
gesagt erlaubt das Hauptwertintegral “über Singularitäten hinwegzuintegrieren”. Man muss jedoch vorsichtig sein; ob das klappt hängt von der genauen Art der Singularität ab.
3.2.2
Parameterintegrale
Neuartige Funktionen können auch durch Parameterintegrale definiert werden. Bekannte Beispiele:
Die Gammafunktion:
Γ(x) =
Z∞
du e−u ux−1
für
x>0
0
Dies ist eine der wichtigsten speziellen Funktionen die in vielen Anwendungen vorkommt. Für ganzzahlige Argumente stimmt sie mit der (um eins verschobenen) Fakultät überein Γ(n) = 1 · 2 · 3 · . . . · (n −√1) =
(n − 1)!. Für halbzahlige Argumente ergibt sich ein Zusammenhang mit der Kreiszahl Pi: Γ( 12 ) = π .
16
Die Besselfunktion (erster Art):
1
Jn (x) =
π
Zπ
0
d θ cos(nθ − x sin θ )
n∈N
Es gibt eine ganze Familie unterschiedlicher Besselfunktionen. In manchen Anwendungsgebieten sind
sie ähnlich wichtig wie die trigonometrischen Funktionen, mit denen sie auch gewisse Ähnlichkeiten
aufweisen.
3.3 Die Deltafunktion
Die Deltafunktion δ (x) ist ein sehr nützliches Rechenhilfsmittel. Sie beschreibt den Grenzfall einer unendlich stark lokalisierten räumlichen Verteilung, z.B. eine Punktmasse in der Mechanik oder eine Punktladung (z.B. ein Elektron) in der Elektrodynamik. Mit ihrer Hilfe lassen sich kontinuierlich verteilte und
diskrete Objekte auf einheitliche Weise durch eine Dichteverteilung beschreiben.
Mathematisch handelt es sich bei δ (x) um eine “verallgemeinert Funktion” zu deren konsistenter Beschreibung von Mathematikern wie Sergei Sobolev und Laurent Schwartz ein eigener Formalismus, die
Distributionentheorie, entwickelt wurde. In allgemeinen Gebrauch gelangte die Deltafunktion in den
1920er Jahren als P.A.M. Dirac sie in der Quantentheorie benutzte.
★
✥
✧
✦
Wir definieren die Delta“funktion” durch folgende beiden Eigenschaften:
1) δ (x − x0 ) = 0 für alle x 6= x0 .
2) Für alle stetigen Funktionen f (x) gilt das (verallgemeinerte) Integral
(
f (x0 ) für x0 ∈ (a, b)
Rb
dx f (x) δ (x − x0 ) =
0
für x0 ∈
/ (a, b)
a
Als Spezialfall ergibt sich
Zb
a
dx δ (x − x0 ) =
(
1 für x ∈ (a, b)
0 für x ∈
/ (a, b)
Mathematisch handelt es sich bei δ eigentlich nicht um eine Funktion sondern um ein Funktional, also
einer Abbildungsvorschrift, die jedem Mitglied f aus einem (genauer zu spezifizierenden) “Raum von
Funktionen” einen Zahlenwert, nämlich f (x) zuordnet.
Diese Definition ist etwas “blutleer”; man würde sich sich einen anschaulich/konstruktiven Zugang zur
Deltafunktion wünschen. Dazu betrachten wir eine abzählbare Folge von Funktionen δn (x), die im Grenzfall n → ∞ zum obigen Resultat führt. Wir könnten sie als Prä-Deltafunktionen bezeichnen. Es gibt eine
Vielzahl von solchen möglichen Darstellungen der Deltafunktion.
Wir betrachten als Beispiel zunächst die besonders einfache, allerdings nicht sehr elegante (weil unstetige) Darstellung durch Kastenfunktionen. Ohne Beschränkung der Allgemeinheit wählen wir x0 = 0.

x < −1/2n

 0
n für −1/2n ≤ x ≤ +1/2n
δn (x) =


0
x > 1/2n
Offenbar gilt für alle n
R∞
−∞
dx δn (x) = 1
sowie
17
δn (x) = 0 für n > 1/2|x| .
Diese Kastenfunktion wird im Grenzfall n → ∞ unendlich schmal und unendlich hoch, bei konstanter
Fläche. Bei Multiplikation mit einer “Testfunktion” f (x) ergibt sich
Z∞
dx f (x) δ (x) =
−∞
Z∞
lim
n→∞
−∞
dx f (x) δn (x) = lim n
n→∞
+1/2n
Z
dx f (x)
−1/2n
1
= f (0) .
= lim f (ξn ) n 2
n→∞
2n
Hier liegt ξn laut Mittelwertsatz im Intervall (−1/2n, +1/2n). Der Grenzwert ergibt sich wegen der
angenommenen Stetigkeit der Funktion f (x).
Wesentlich bei dieser Konstruktion ist es, erst das Integral zu bilden und danach den Grenzübergang.
Eigentlich läge es nahe zu schreiben
δ (x) = lim δn (x)
n→∞
aber eine Grenzfunktion als Limes der Funktionenfolge δn (x) existiert im strengen Sinne nicht. Deshalb sollte man eigentlich auch statt “Deltafunktion” das Wort “Deltadistribution” verwenden. Dieser
Sprachgebrauch hat sich aber (zumindest unter Physikern) nicht durchgesetzt.
Auf die genaue Gestalt der Prä-Deltafunktionen δn (x) kommt es nicht an; es gibt dafür viele Möglichkeiten. Zwei andere (diesmal stetige) Darstellungen der Deltafunktion sind
n
2 2
δn (x) = √ e−n x ,
π
δn (x) =
1
sin(nx)
=
πx
2π
Z+n
dt eixt .
−n
n
-1/2n
1/2n
Drei Darstellungen der Deltafunktion.
✬
✩
Eigenschaften der Deltafunktion
1) δ (−x) = δ (x)
(gerade Funktion)
2) x δ (x) = 0 ,
3) f (x) δ (x) = f (0) δ (x) ,
4) δ (ax) =
✫
1
δ (x)
|a|
,
a∈R.
✪
18
Zum Beweis von 4) betrachten wir den Fall a > 0. Mit der Substitution y = ax ergibt sich
Z∞
−∞
1
dx f (x)δ (ax) =
a
Z∞
dy f
−∞
y
a
δ (y) =
1
f (0) .
a
Für a < 0 gilt entsprechend mit y = −|a|x
Z∞
−∞
1
dx f (x)δ (−|a|x) =
−|a|
✎
Z−∞
+∞
y 1
δ (y) =
dx f −
f (0) .
|a|
|a|
☞
Als Verallgemeinerung von 4) gilt die Formel
N
δ (x − xi )
.
5) δ (g(x)) = ∑ ′
i=1 |g (xi )|
✍
✌
Hier ist g(x) eine stetig differenzierbare Funktion mit einer Anzahl von einfachen Nullstellen bei xi , i =
1, . . . , N. Offenbar kommt es nur auf die Umgebungen der Nullstellen an (überall sonst gilt ja δ (g(x)) =
0). Die Funktion lässt sich dort durch ihr lineares Taylorpolynom approximieren
g(x) = g(xi ) + g′ (xi )(x − xi ) + . . . ≃ g′ (xi )(x − xi )
wegen g(xi ) = 0. Damit lässt sich Formel 4) anwenden. Jede der N Nullstellen liefert einen solchen
Summanden.
Beispiel: Das Argument der Deltafunktion sei ein quadratisches Polynom mit reellen Nullstellen bei x1 und x2 , also g(x) = (x − x1 )(x − x2 ). Mit g′ (x) = 2x − x1 − x2 ergibt sich
g′ (x1 ) = x1 − x2 und g′ (x2 ) = x2 − x1 . Folglich:
1
δ (x − x1 ) + δ (x − x2 ) .
|x1 − x2 |
Liegt eine doppelte (quadratische) Nullstelle vor, x1 = x2 , dann divergiert dieser Ausdruck. δ (x2 ) ist
nicht definiert.
δ ((x − x1 )(x − x2 )) =
Die Deltafunktion lässt sich auch differenzieren und integrieren.
✓
Zb
✏
Man definiert als Ableitung der Deltafunktion eine neue Distribution δ ′ (x − x0 ) mit der Eigenschaft
dx f (x) δ ′ (x − x0 ) =
a
✒
(
− f ′ (x0 )
0
für x0 ∈ (a, b)
für x0 ∈
/ (a, b)
✑
Durch partielle Integration geht dies in die definierende Gleichung für die Deltafunktion δ (x − x0 ) über.
Alternativ kann man diese auch entsprechend der Leibnizschen Formel nach x0 differenzieren.
δ ′ (x − x0 ) ist eine ungerade Funktion. Sie kann dargestellt werden durch δ ′ (x − x0 ) = lim δn′ (x − x0 ) mit
n→∞
den differenzierbaren Varianten der Funktionenfolgen δn (x − x0 ). (Für die nicht differenzierbare Kastenfunktion funktioniert dies nicht.)
Das Integration über die Deltafunktion ergibt
19
✗
Zx

x < x0
 0
′
′
dx δ (x − x0 ) =
1/2 für x = x0

1
x > x0
−∞
✖
= Θ(x − x0 ) .
✔
✕
Dies ist die Einheits-Sprungfunktion (nach dem englischen Mathematiker Oliver Heaviside auch Heavisidefunktion genannt). Der Wert am Punkt x = x0 ist zunächst nicht eindeutig definiert, er wurde aus
Symmetriegründen etwas willkürlich auf den Wert 1/2 definiert.
✟
☛
Nach dem Hauptsatz der Differentialrechnung ist die Deltafunktion die Ableitung der Sprungfunktion:
d
Θ(x − x0 ) = δ (x − x0 ) .
✡dx
✠
Auch die Sprungfunktion lässt sich durch einen
Grenzübergang aus einer Folge stetiger Funktionen
konstruieren:
Θ(x) = lim Θn (x) .
n→∞
Die Funktionen Θn (x) sind die Stammfunktionen der Prä-Deltafunktionen δn (x) gemäß
Θn (x) =
Zx
dx′ δn (x′ ) .
−∞
Die Verallgemeinerung der Deltafunktion auf mehrdimensionale Räume ist naheliegend:
Z
d 3 r f (~r) δ 3 (~r −~r0 ) = f (~r0 ) .
In cartesischen Koordinaten kann man schreiben
δ 3 (~r −~r0 ) = δ (x − x0 ) δ (y − y0 ) δ (z − z0 ) .
Abschließend sei betont:
• Deltafunktionen sind keine “richtigen” Funktionen sondern Distributionen. Sie haben nur eine wirkliche Bedeutung, wenn sie unter einem Integral stehen.
• Die Multiplikation von Deltafunktionen (bezüglich der selben Variablen) ist nicht immer zulässig, denn
das Produkt δ (x − x1 )δ (x − x2 ) ist bei x1 = x2 kein sinnvoller Ausdruck: Das Quadrat der Deltafunktion führt zu einem unendlichen Resultat. Nach der Rechenregel f (x)δ (x) = f (0)δ (x) würde ja folgen
δ (x)δ (x) = δ (0)δ (x) und δ (0) ist nicht definiert.
20
4 Folgen und Reihen
Der Umgang mit dem Unendlichen ist ein zentrales Anliegen der Mathematik. Dies geschieht auch beim
Konzept der Folgen und Reihen. Reihen haben zahlreiche praktische Anwendungen, insbesondere in
Form der Reihenentwicklung von Funktionen (Potenzreihen, Fourier-Reihen, ...). Wir beginnen zunächst
– ohne allzu große mathematische Strenge – mit einigen allgemeinen Bemerkungen zum Thema Folgen
und gehen dann zu Reihen über.
4.1 Folgen
Eine Folge ist eine abzählbare geordnete Menge von unendlich vielen reellen (oder auch komplexen)
Zahlen a1 , a2 , a3 , . . . . Besonders wichtig sind solche Folgen, die gegen einen Grenzwert konvergieren.
Das entscheidende Kriterium für die Konvergenz wurde von Cauchy formuliert:
✎
Eine Folge konvergiert, wenn für jedes reelle ε > 0 eine Zahl N ∈ N existiert sodass gilt
|am − an | < ε für alle m, n > N.
✍
☞
✌
Das heisst also, weit genug ”rechts” in der Folge liegen alle Folgenglieder nahe beieinander, wobei man
die Obergrenze des Abstands beliebig klein wählen kann. Wegen der Vollständigkeit des Zahlenkörpers
besitzt die Folge dann einen Grenzwert a = lim an gegen den die Cauchy-Folge konvergiert. Das
n→∞
Cauchy-Kriterium in der oben angegebenen Form ist anwendbar ohne dass man den Grenzwert a kennen
muss. Alternativ kann man als Kriterium auch “|an − a| < ε für alle n > N” verwenden.
Drei Fälle sind bei Folgen möglich: Die Folge kann gegen einen endlichen Grenzwert konvergieren, z.B.
1, 12 , 13 , 41 . . . → 0 oder divergieren (gegen Unendlich gehen), z.B. 1, 2, 3, 4, . . . → ∞. Es ist aber auch ein
“unbestimmtes” Verhalten möglich, z.B. 1, 2, 1, 2, . . ..
Funktionenfolgen
In Erweiterung des Begriffs der Zahlenfolge an kann man Funktionenfolgen f1 , f2 , f3 , . . . einführen, wobei für jedes n ∈ N eine Funktion fn : D → R vorliegt, die auf einem Definitionsbereich D ∈ R jedem
x ∈ D als Funktionswert eine reelle Zahl fn (x) zuordnet. Interessant ist die Frage, ob eine solche Folge
zu einer Grenzfunktion
f (x) = lim fn (x)
n→∞
konvergiert. Naheliegend ist es zunächst, die Konvergenz punktweise zu untersuchen. Man nimmt sich
einen festen Wert x vor; dann bilden die einzelnen Funktionswerte fn (x) für verschiedene n eine gewöhnliche Zahlenfolge, auf die sich das Cauchy-Kriterium anwenden lässt, was (falls konvergent) als Grenzwert eine Zahl f (x) liefert. Das lässt sich separat für jedes x ∈ D untersuchen. Allerdings gibt es Fragestellungen, bei denen eine solche lokale Betrachtung nicht ausreicht. Man definiert deshalb den strengeren Begriff der gleichmäßigen Konvergenz.
Eine Funktionenfolge fn konvergiert gleichmäßig gegen eine Grenzfunktion f , wenn für jedes
reelle ε > 0 eine Zahl N ∈ N existiert sodass gilt | fn (x) − f (x)| < ε für alle n > N und für alle
x ∈ D.
Entscheidend ist hier der letzte Teil: Überall in D, also unabhängig vom Wert x, muss das Kriterium mit
derselben Zahl N erfüllt werden. Dadurch wird ausgeschlossen, dass die Konvergenz in Teilbereichen
besonders langsam und an einer Stelle sogar “unendlich langsam” erfolgt.
21
Ein beliebtes Beispiel für punktweise aber nicht gleichmäßige Konvergenz ist die Folge von Dreiecksfunktionen auf dem Einheitsintervall D = [0, 1]
2n
 2
1
4n x
0 ≤ x ≤ 2n



1
fn (x) =
4n2 n1 − x
für 2n
≤ x ≤ n1



1
0
n ≤x≤1
fn(x)
1/2n 1/n
1
x
Es handelt sich um Funktionen, die überall stetig, aber an zwei Stellen nicht differenzierbar sind.
Offenbar konvergiert diese Funktionenreihe überall in D punktweise gegen die Nullfunktion f (x) = 0,
denn das Cauchy-Kriterium ist erfüllt: Bei gegebenem x = x0 gilt fn (x0 ) = 0 wenn n > N = 1/x0 . Die
Reihe ist aber nicht gleichmäßig konvergent. Betrachtet man nämlich das gesamte Intervall, dann findet
man immer eine Stelle, nämlich xmax = 1/2n, an der die Funktion den Wert fn (xmax ) = 2n annimmt.
Die Differenz | fn (x) − f (x)| wird also für große n keineswegs kleiner als jedes ε , sondern nimmt sogar
beliebig große Werte an: Keine gleichmäßige Konvergenz.
Diese Diskussion mag übertrieben spitzfindig klingen, aber tatsächlich ist die gleichmäßige Konvergenz
die Voraussetzung für die Gültigkeit vieler mathematischer Sätze und Operationen. So zeigt unsere Dreiecksfunktion beispielsweise, dass man den Grenzübergang lim nicht unter ein Integral ziehen darf: Für
n→∞
das Integral über die Dreiecksfunktionen (Fläche unter dem Dreieck) finden wir nämlich sofort
Z 1
0
dx fn (x) = 1
für alle n
.
Das bedeutet aber
1 = lim
Z ∞
n→∞ 0
dx fn (x) 6=
Z ∞
0
dx lim fn (x) = 0
n→∞
wenn man den Grenzübergang im Sinne der punktweisen Konvergenz vornimmt
Für eine detaillierte Diskussion, unter welchen Bedingungen Grenzprozessen vertauschbar sind und welche Rolle die gleichmäßige Konvergenz dabei spielt müssen wir auf die mathematische Literatur verweisen, z.B. Jänich: Mathematik 2, Kapitel 24. Grob gesprochen gilt bei gleichmäßiger Konvergenz einer
Funktionenfolge fn
lim
n→∞
Z
dx fn (x) =
Z
dx lim fn (x)
n→∞
wenn alle fn (x) integrierbar sind. Weiterhin gilt
lim
n→∞
d
d fn (x)
=
lim fn (x)
dx
dx n→∞
wenn die Funktionen stetig differenzierbar sind (Klasse C1 ) und neben fn auch die Funktionenreihe
gleichmäßig konvergiert. Bei nur punktweiser Konvergenz ist die Vertauschbarkeit nicht garantiert.
22
d fn
dx
4.2 Reihen
Gegeben sei eine Zahlenfolge an . Wir betrachten nun die Summe sk der ersten k Elemente dieser Folge:
k
sk =
∑ an .
n=1
Diese Partialsummen selbst bilden auch wieder eine unendliche Folge: s1 , s2 , s3 , . . .. Es liegt nahe, das
Konvergenzverhalten auch für die Folge der Partialsummen zu untersuchen. Wenn ein Grenzwert existiert, heisst die unendliche Reihe
∞
s = lim sk =
k→∞
∑ an
n=1
konvergent. Die Frage, ob eine vorliegende Reihe konvergiert, ist nicht immer einfach zu beantworten.
Eine notwendige Bedingung muss jedoch auf jeden Fall erfüllt sein: die an müssen eine Nullfolge bilden,
also lim an = 0. Andernfalls ist die Grenzwertbedingung für die Partialsummen sk nicht erfüllbar. Es gibt
n→∞
jedoch kein allgemeines Kriterium für Konvergenz, das universell auf jede Reihe anwendbar wäre.
Ein besonders wichtiges Beispiel ist die geometrische Reihe, bei der jeder nachfolgende Term mit einem
Faktor q ∈ R multipliziert wird. Diese Reihe lässt sich bekanntlich elementar aufsummieren:
✎
∞
1
∑ q = 1+ q+ q + q + ... = 1− q .
n=0
✍
2
n
3
q0
☞
✌
Diese Summe beginnt bei n = 0 mit = 1. Ein formaler Beweis dieser Formel lässt sich leicht formulieren. Man multipliziert mit 1 − q und zieht diesen Faktor unter die Summe:
∞
(1 − q) ∑ qn =
n=0
∞
∑ (1 − q)qn = (1 − q) + (1 − q)q + (1 − q)q2 + (1 − q)q3 + . . .
n=0
= (1 − q) + (q − q2 ) + (q2 − q3 ) + (q3 − q4 ) + . . .
?
= 1 + (−q + q) + (−q2 + q2 ) + (−q3 + q3 ) + . . . = 1 .
Hier heben sich die aufeinanderfolgenden Potenzterme paarweise weg und nur die 1 bleibt übrig. Diese
scheinbar simple Rechnung zeigt aber, dass eine Reihe etwas anderes ist als eine endliche Summe. Denn
das notwendige Konvergenzkriterium lim an = lim qn = 0 ist nur erfüllt, wenn q der Bedingung |q| < 1
n→∞
n→∞
genügt, andernfalls divergiert die geometrische Reihe und die vermeintlich gerade bewiesene Formel
ist nicht gültig, obwohl die rechte Seite eine ganz harmlose Funktion ist (außer beim Wert q = 1). Der
Beweis der Formel scheint für jedes q zu gelten, aber das trügt: Für eine nicht konvergente Reihe sind
viele bei endlichen Summen ganz harmlose Operationen einfach nicht erlaubt, etwa das Umordnen und
Kombinieren von Summanden!
Wir betrachten nun zwei Kriterien, die auf der geometrischen Reihe basieren und oft (aber nicht immer)
erlauben festzustellen, ob eine Reihe konvergiert.
Das Quotientenkriterium (D’Alembert)
Eine Reihe ist absolut konvergent, wenn es eine Zahl q < 1 und ein N ∈ N gibt, sodass für das
Verhältnis
aufeinander folgender Terme gilt
a n+1 ≤ q für alle n > N .
an
a n+1 Die Reihe ist divergent im Fall ≥1 .
an
23
Hierbei bezeichnet absolute Konvergenz ist eine besonders starke Form der Konvergenz:
∞
∞
Zusätzlich zu
∑ an
konvergiert auch
∑ |an | .
n=1
n=1
Der Beweis des Quotientenkriteriums beruht auf dem Vergleich mit der geometrischen Reihe, die im Fall
der Konvergenz eine Majorante (obere Schranke) bildet und selbst konvergent ist. Der Fall q = 1 erlaubt
keine Aussage.
a n+1 Das Quotientenkriterium ist etwas subtil: die naheliegende einfachere Forderung < 1 wäre nicht
an
korrekt. Ein Gegenbeispiel ist die harmonische Reihe
∞
1
1
1
1
∑ n = 1+ 2 + 3 + 4 + ... .
n=1
a n
n+1 < 1 aber nicht . . . < q < 1. Tatsächlich stellt sich heraus dass die harmoHier findet man =
an
n+1
nische Reihe divergiert, wenn auch sehr langsam.
Das Wurzelkriterium (Cauchy)
Eine Reihe ist absolut konvergent, wenn es eine Zahl q < 1 und ein N ∈ N gibt, sodass gilt
p
n
|an | ≤ q für alle n > N.
p
Die Reihe ist divergent im Fall n |an | ≥ 1 .
Auch hier beruht der Beweis auf dem Vergleich mit der geometrischen Reihe. Das Wurzelkriterium ist
“schärfer” als das Quotientenkriterium, aber schwieriger in der Handhabung.
Bei der Untersuchung des asymptotischen Verhaltens eines von n abhängigen Ausdrucks ist es nützlich,
folgende “Rangordnung des Anwachsens” zu kennen:
nc
≪
dn
≪
n!
≪
nn
;
mit beliebigen Zahlen c, d > 1. Damit ist gemeint, dass das Verhältnis eines weiter links stehenden zu
einem weiter rechts stehenden Term im Grenzfall n → ∞ gegen Null geht.
Alternierende Reihen
Von einer alternierenden Reihe spricht man, wenn die Summanden abwechselnd positiv und negativ sind,
sgn an+1 = −sgn an . Alternierende Reihen “konvergieren besser” als Reihen mit nur positiven (oder nur
negativen) Gliedern, da sich die aufeinanderfolgende Terme gegenseitig teilweise wegheben. Tatsächlich
gilt hier das sehr einfache
Leibnizkriterium
Jede alternierende Reihe ist konvergent, vorausgesetzt, dass die Summanden eine monoton
fallende Nullfolge bilden, lim an = 0 mit |an+1 | < |an | für alle n .
n→∞
Allerdings ist hier eine gewisse Vorsicht geboten: Wenn die Konvergenz einer Reihe nur auf dem gegenseitigen Wegheben von Termen beruht, ist nicht garantiert, dass alle Manipulationen die für endliche
Summen zulässig sind (Umordnen der Summanden, Multiplikation von Reihen miteinander, gliedweise
Differentiation und Integration) bei einer solchen Reihe zu korrekten Resultaten führen. Auf der sicheren
Seite ist man hier nur bei Reihen, die auch absolut konvergieren.
Ein Beispiel einer konvergenten aber nicht absolut konvergenten Reihe ist die alternierende harmonische
Reihe
∞
1 1 1
1
∑ (−1)n+1 n = 1 − 2 + 3 − 4 ∓ . . . = ln 2 .
n=1
24
Diese Reihe konvergiert zum genannten endlichen Wert, hingegen wird sie zur harmonischen Reihe und
divergiert, wenn man die Beträge aufsummiert.
Potenzreihen
Wie schon bei den Folgen kann man auch bei den Reihen von Zahlen zu Funktionen übergehen. Bei
Funktionenreihen sind die (unendlich vielen) Summanden der Reihe nicht einfache Zahlen an sondern
Funktionen. Man führt einen (unendlichen) Satz von “Basisfunktionen” ϕn (x) ein und bildet damit Reihen der Art
∞
g(x) =
∑ cn ϕn(x)
n=0
mit zugehörigen reellen (später auch komplexen) “Entwicklungskoeffizienten” cn . Für die Wahl der Basisfunktionen gibt es viele Möglichkeiten; wir kommen im Kapitel “Fourierzerlegung” darauf zurück.
Eine wichtiges Beispiel ist die Potenzreihenentwicklung bei der als Basis die Potenzfunktionen ϕn (x) =
(x − x0 )n verwandt werden. Eine allgemeine Potenzreihe hat somit die Form
∞
g(x) =
∑ cn (x − x0)n
n=0
mit einer Folge von Koeffizienten cn und dem “Entwicklungspunkt” x0 ∈ R.
Dadurch wird eine Funktion g(x) definiert, vorausgesetzt dass die Reihe konvergiert. Bei x = x0 ist die
Konvergenz trivial, g(x0 ) = c0 , doch was geschieht bei anderen Werten von x? Offenbar kommt es auf das
Verhalten der Entwicklungskoeffizienten cn an. Um zu entscheiden, ob die Reihe konvergiert, benutzen
wir das Quotientenkriterium. Es gilt
a c (x − x )n+1 c n+1 n+1 n+1
0
=
=
|x − x0 |
n
an
cn (x − x0 )
cn
✓
✏
Daraus lässt sich ein Konvergenzradius r berechnen
1
r=
cn+1 .
lim cn ✒
n→∞
✑
Die Potenzreihe konvergiert für |x − x0 |/r < 1, also im Bereich x0 − r < x < x0 + r und divergiert außerhalb dieses Intervalls. Über das Verhalten an den Randpunkten ist keine Aussage möglich. Für den
Konvergenzradius r gibt es drei Möglichkeiten. Er kann verschwinden, r = 0, d.h. die Reihe konvergiert
nur (trivial) am Entwicklungspunkt. Eine solche Reihe ist natürlich nutzlos, der Fall tritt glücklicherweise in der Praxis selten auf. Am günstigsten ist ein unendlich großer Konvergenzradius r = ∞, d.h. die
Reihe konvergiert überall. Viele Potenzreihen besitzen aber einen endlichen Konvergenzradius r.
Ein anderer Ausdruck für den Konvergenzradius kann aus dem Wurzelkriterium gewonnen werden:
p
n
|an | =
p
n
|cn | |x − x0 | −→
r=
lim
n→∞
1
p
n
|cn |
.
Natürlich stellt sich auch bei Funktionenreihen, z.B. den Potenzreihen, wie schon bei den Funktionenfolgen die Frage nach der Art der Konvergenz: punktweise oder gleichmäßig.
25
Die Taylorreihe
Das Ziel der Taylorentwicklung einer Funktion f (x) ist es, die Funktion durch eine Potenzreihe auszudrücken, was mehrere Vorteile haben kann. Zum einen ist der Umgang mit Potenzen einfach und die
Potenzreihe kann benutzt werden, um die Eigenschaften der Funktion zu untersuchen und Manipulationen an ihr vorzunehmen. Weiterhin kann man die unendliche Reihe bei einem n = N abbrechen und die
Taylorreihe durch das resultierende Taylorpolynom PN (x) ersetzen, das eine Näherung für die Funktion
f (x) liefert.
Unter der Voraussetzung, dass die Funktion f (x) im Punkt x0 unendlich oft differenzierbar ist, lässt sich
eine einfache Vorschrift für die Bestimmung der Koeffizienten cn der Potenzreihe angeben: Gefordert
wird, dass sämtliche Ableitungen der Funktionen f (x) und g(x) an der Stelle x = x0 übereinstimmen.
Gliedweises Differenzieren der Reihe liefert
∞
dg
= ∑ k ck (x − x0 )k−1 → c1 bei x = x0 ,
dx
k=1
d2g
dx2
dng
dxn
∞
∑ (k − 1)k ck (x − x0 )k−2
=
k=2
···
→ 2 c2 bei x = x0 ,
∞
∑ (k − n + 1)(k − n + 2) · · · k ck (x − x0)k−n
=
k=n
→
n! cn bei x = x0 ,
Die Forderung d n g/dxn = d n f /dxn bei x0 liefert
cn =
1 dn f
(x0 )
n! dxn
✎
☞
was zur Taylorreihe für die Funktion f (x) führt:
∞
1 dn f
(x ) (x − x0 )n .
f (x) = ∑
n 0
n!
dx
n=0
✍
✌
Hier wurde etwas unpräzise die Funktion f (x) mit ihrer Taylorentwicklung g(x) gleichgesetzt, was
natürlich nur im Konvergenzbereich der Reihe sinnvoll ist. Will man dies mathematisch genauer untersuchen, dann definiert man
f (x) = PN (x) + RN (x) ,
wobei PN (x) das Taylorpolynom Nter Ordnung ist:
N
PN (x) =
1 dn f
∑ n! dxn (x0 ) (x − x0)n .
n=0
Die Differenz zwischen der Funktion f (x) und ihrem Taylorpolynom wird als Restglied Nter Ordnung
RN (x) bezeichnet. Entscheidend ist natürlich, wie groß dieses Restglied ist. Seinen Wert kennt man im
allgemeinen nicht genau. Es lassen sich aber Restgliedabschätzungen herleiten. Eine davon, die auf Lagrange zurückgeht (es gibt auch andere Versionen), hat folgende Form:
RN (x) =
d N+1 f
1
(ξ ) (x − x0 )N+1 .
(N + 1)! dxN+1
Dieser Ausdruck sieht aus wie der nächste (also der N + 1 te) Summand der Taylorreihe, aber mit einem
Unterschied: Die Ableitung wird nicht am Entwicklungspunkt x0 berechnet, sondern an einer Stelle ξ ,
26
die irgendwo zwischen x0 und x liegt: x0 < ξ < x. Die genaue Position von ξ lässt sich nicht vorausberechnen. Dennoch ist die Restgliedabschätzung nützlich um festzustellen, ob im konkreten Fall “die
Taylorreihe gegen die Funktion f (x) konvergiert”.
Dass die beiden Funktionen tatsächlich übereinstimmen, dass also das Restglied gegen Null geht,
lim RN (x) = 0, ist nicht selbstverständlich. Funktionen für die dies gilt heißen analytische Funktionen.
N→∞
Notwendige (aber nicht hinreichende) Bedingung dafür ist, dass f (x) überall unendlich oft differenzierbar sein muss. Glücklicherweise erweisen sich die meisten der “elementaren Funktionen” als analytisch,
zumindest in Teilbereichen von R.
Einige Taylorreihen
1) Exponentialfunkion
ex =
∞
xn
1
1
∑ n! = 1 + x + 2 x2 + 6 x3 + . . .
Konvergenzradius r = ∞ .
n=0
2) Sinus
∞
sin x =
x2n+1
1
1
∑ (−1)n (2n + 1)! = x − 6 x3 + 120 x5 ∓ . . .
Konvergenzradius r = ∞ .
n=0
3) Cosinus
∞
cos x =
x2n
1
1
∑ (−1)n (2n)! = 1 − 2 x2 + 24 x4 ∓ . . .
Konvergenzradius r = ∞ .
n=0
4) Logarithmus
∞
ln(1 + x) =
xn
∑ (−1)n+1 n
n=1
1
1
= x − x2 + x3 ∓ . . .
2
3
Konvergenzradius r = 1 .
5) Arcustangens
∞
arctan x =
x2n+1
1
1
∑ (−1)n 2n + 1 = x − 3 x3 + 5 x5 ∓ . . .
Konvergenzradius r = 1 .
n=0
6) Binomialfunktion
(1 + x)α =
∞
α (α − 1) · · · (α − n + 1) α
α (α − 1) 2
x = 1 + αx +
x + ...
n!
2
n=0
∑
für
α ∈R.
Konvergenzradius r = 1.
Die Abbildungen zeigen für verschiedene Funktionen f (x) (durchgezogen, rot) jeweils die ersten fünf
Taylorpolynome (gestrichelt), immer bezogen auf den Entwicklungspunkt x0 = 0.
27
f (x) = exp(x)
f (x) = sin(x)
f (x) = ln(1 + x)
f (x) =
√
1+x
Der Translationsoperator
Schreibt man die Taylorreihe in der Form
∞
f (x + ∆x) =
1 dn f
∑ n! dxn (x)∆xn
n=0
dann fällt auf, dass die rechte Seite an die Potenzreihenentwicklung der Exponentialfunktion ea∆x um
∆x = 0 erinnert, wobei allerdings anstatt der Potenzen an die Ableitungen d f n /dxn auftreten. Identifiziert
man nun a mit dem Ableitungsoperator d/dx, dann lässt sich die Taylorentwicklung sehr kompakt als
d
f (x + ∆x) = e∆x dx f (x) = Û(∆x) f (x)
schreiben. Hier wurde der Translationsoperator eingeführt
d
Û (∆x) = e∆x dx ,
der, angewandt auf eine Funktion f (x), eine Verschiebung (Translation) der Position um die Strecke ∆x
bewirkt. Die Exponentialfunktion eines Operators wird dabei gerade durch ihre Potenzreihenentwicklung
definiert
d
e∆x dx =
∞
∆xn d n
.
n
n=0 n! dx
∑
28
Das Objekt Û ist ein linearer Differentialoperator unendlich hoher Ordnung! Das Arbeiten mit solchen
Operatoren ist etwas ungewohnt und ihre Eigenschaften müssen auch mathematisch näher untersucht
werden. Im Rahmen der Funktionalanalysis werden die mathematischen Eigenschaften von Operatoren
wie Û genau untersucht. In manchen Anwendungen erweist sich diese Konstruktion als sehr nützlich,
insbesondere in der Quantenmechanik.
Ein Anwendungsbeispiel für die Taylorreihe: Das Pendel
Ein Pendel der Länge ℓ mit Auslenkungswinkel ϕ genügt der Bewegungsgleichung
ℓϕ̈ = −g sin ϕ .
Die Beschleunigung ist also gleich der Komponente der Gravitationskraft tangential an den Kreis r =
ℓ = const. Dies ist eine nichtlineare Differentialgleichung. Taylorentwicklung des Sinus führt auf
g1 3
ϕ + ...
l6
r
g
mit der Abkürzung ω0 =
. Für kleine Auslenkungen ϕ ≪ 1 kann man die rechte Seite vernachlässiℓ
gen und man erhält die lineare Bewegungsgleichung eines harmonischen Oszillators mit Kreisfrequenz
2π
ω0 und Schwingungsperiode T =
. Bei großen Auslenkungen macht sich die Nichtlinearität des Sinus
ω0
bemerkbar. Die Beschleunigung ist geringer als beim harmonischen Oszillator, sodass sich die Bewegung
verlangsamt und die Periodenlänge vergrößert.
ϕ̈ + ω02 ϕ =
Durch zweimalige Integration der Bewegungsgleichung lässt sich ein Ausdruck für die Schwingungsdauer finden (Für die etwas längliche Zwischenrechnung siehe Mechanik-Lehrbücher):
T=
4
ω0
Z π /2
0
dα
p
1 − k2 sin2 α
mit der Abkürzung k = sin(ϕ0 /2), wobei ϕ0 den maximalen Auslenkungswinkel bezeichnet. Dieses Integral ist nicht elementar lösbar. Da es öfters auftritt, wurde es als neue eigenständige Funktion eingeführt,
das “vollständige elliptische Integral” mit der Bezeichnung K. Damit lautet die Schwingungsdauer
T=
4
K(k)
ω0
was natürlich bei fehlendem Wissen über K(k) das Problem nicht wirklich löst.
Einen Zugang bei nicht zu großen Amplituden erhält man über die Taylorentwicklung des Integranden
und anschließende Vertauschung von Summation und Integration. Für die binomische Funktion f (x) =
(1 + x)a mit a = −1/2 gilt die Taylorentwicklung
1
1 1 1
1
3
−
− − 1 + . . . = 1 − x + x2 + . . .
(1 + x)−1/2 = 1 + − x +
2
2!
2
2
2
8
Nach Substitution von x = −k2 sin2 α liefert dies für die Schwingungsdauer
4
T=
ω0
Z π /2
0
1
3
d α 1 + k2 sin2 α + k4 sin4 α + . . . .
2
8
29
Der Integraltabelle entnimmt man (alternativ lassen sich die Integrale auch recht einfach “per Hand”
durch partielle Integration lösen):
Z π /2
1
π /2 π
1
α − sin(2α ) = ,
d α sin2 α =
0
2
4
4
0
Z π /2
3
π /2 3π
1
1
.
d α sin4 α =
α − sin(2α ) + sin(4α ) =
0
8
4
32
16
0
Damit ergibt sich für die Periodenlänge
T=
2π 9 4
k + ... .
1 + 41 k2 + 64
ω0
Man sieht also deutlich, wie sich die Pendelschwingungen mit wachsender Amplitude verlangsamen.
Allzu groß ist der Effekt allerdings nicht, den die Taylorreihe liefert (k kann ja maximal 1 werden).
Eine Untersuchung des exakten Resultats ergibt hingegen, dass die tatsächliche Schwingungsdauer bei
Amplituden, die sich dem oberen Umkehrpunkt ϕ0 = π nähern, unendlich groß wird. Dieses Verhalten
lässt sich an den ersten Termen der nur langsam konvergierenden Taylorentwicklung nicht erkennen.
Die Schwingungsperiode des Pendels in Einheiten von 2π /ω0 als Funktion des Schwingungsamplitude ϕ0 . Das exakte Resultat
(durchgezogene Linie) wird mit den ersten
zwei Taylorpolynomen verglichen.
Dass T divergiert wird klar, wenn man ϕ0 = π und damit k = 1 in den Integralausdruck einsetzt:
4
T=
ω0
Z π /2
0
dα
4
p
=
2
ω0
1 − sin α
Z π /2
dα
0
cos α
.
Der Cosinus geht an der oberen Integrationsgrenze gegen Null, das heisst der Integrand hat dort eine Singularität und das Integral divergiert dort, T → ∞. Das sieht man am Besten wieder mit Hilfe einer Taylorentwicklung, und zwar um den Punkt π /2: cos α = cos(π /2) −R(α − π /2) sin(π /2) + . . . = −(α − π /2).
dα
In der Nähe der oberen Grenze hat das Integral damit die Form π /2−
α und divergiert dort logarithmisch.
Physikalisch beruht die Singularität darauf, dass am oberen Umkehrpunkt nicht nur die Geschwindigkeit
verschwindet (das ist die Definition eines Umkehrpunkts), sondern dass auch die Pendelbeschleunigung
dort mit wachsender Auslenkung ϕ0 immer kleiner wird. Im Grenzfall ϕ0 → π = 1800 kommt die Bewegung dadurch schliesslich ganz zum Stillstand (labiles Gleichgewicht). Das funktioniert natürlich nur
bei einem starren Pendel! Ein Fadenpendel würde bei zu großen Auslenkungen einfach “abstürzen”.
30
5 Vektorwertige Funktionen einer Variablen (Raumkurven)
Wir betrachten Funktionen, die von einer einzelnen
reellen Variablen abhängen, deren Funktionswerte
jedoch (dreidimensionale) Vektoren sind. Mathematisch gesprochen sind das Abbildungen der Art
f : I ⊂ R −→ R3
,
f
IR
IR
C
y
®
r
I
u1
u 7→ ~r(u)
3
z
P
u
u2
x
wobei I ein Intervall auf der reellen Zahlengeraden sein soll. Wenn wir die unabhängige Variable mit u
bezeichnen, gilt also I = [u1 , u2 ] mit der Untergrenze u1 und der Obergrenze u2 . Das Intervall kann sich
auch ins Unendliche erstrecken (u1 = −∞ und/oder u2 = ∞). Jedem Parameterwert u ∈ I wird ein Punkt
P im Bildraum zugeordnet.
Geometrisch handelt es sich bei vektorwertigen Funktionen einer reellen Variablen um Raumkurven~r(u),
bei denen der Ortsvektor ~r ∈ R als Funktion eines Kurvenparameters u gegeben ist. Der Einfachheit
halber geben wir der Funktion hier keinen eigenen Namen und schreiben einfach~r(u). In Komponentenschreibweise lautet die Funktion
3
~r(u) = x1 (u), x2 (u), x3 (u) = ∑ xi (u)~ei .
i=1
Die ~ei sind die drei (konstanten) cartesischen Basisvektoren.
Bei der Wahl des Kurvenparameters u besteht große Freiheit. In der Mechanik betrachtet man die Bewegung von Objekten auf Bahnkurven (Trajektorien) als Funktion der Zeit t. Es ist daher naheliegend,
die Zeit auch als Kurvenparameter zu verwenden, also~r =~r(t) zu schreiben. In der Geometrie spielt die
Zeit keine Rolle, als “natürlichen” Kurvenparameter benutzt man hier häufig die Bogenlänge s, also die
Länge der Kurve gemessen ab einem (willkürlich wählbaren) Bezugspunkt. Man kann auch einfach eine
der cartesischen Koordinaten als Kurvenparameter benutzen, z.B. x, und die beiden anderen Koordinaten als deren Funktion angeben: ~r(x) = (x, y(x), z(x)). Es gibt noch viele weitere Möglichkeiten, wobei
nur sichergestellt sein muss, dass zu jedem Punkt der Kurve genau ein Parameterwert gehört. Durch
Transformation (“Reparametrisierung”) der Art ũ = g(u) mit einer monoton anwachsenden differenzierbaren Funktion g(u) kann man zu einem neuen Kurvenparameter ũ übergehen, ohne dass sich dadurch an
den Eigenschaften der Kurve etwas ändert. Die parametrisierte Kurve besitzt eine (willkürlich wählbare)
Durchlaufrichtung, entsprechend anwachsendem Parameter u.
Beispiel: Ein Kreis in der x-y-Ebene
Möglichkeit 1: Kurvenparameter u = ϕ (Azimutalwinkel) ~r(ϕ ) = (R cos ϕ , R sin ϕ , 0) für 0 ≤ ϕ < 2π
Anstatt des Winkels ϕ kann man auch die Bogenlänge s = Rϕ verwenden.
Möglichkeit √
2: Kurvenparameter u = x
~r(x) = (x, ± R2 − x2 , 0) für −R ≤ x ≤ R In dieser Formulierung setzt sich der Kreis aus zwei separat
beschriebenen Teilkurven (Halbkreise) zusammen.
Physikalische Objekte können nicht sprunghaft ihre Position wechseln, daher sind die physikalischen
Trajektorien stetige Raumkurven. Der Begriff der Stetigkeit lässt sich unmittelbar von eindimensionalen
auf vektorwertige Funktionen übertragen. Die strenge mathematische Definition der Stetigkeit lautet:
Eine Funktion ~r(u) heißt stetig im Punkt u0 wenn zu jeder reellen Zahl ε > 0 eine
Zahl δ (ε ) existiert sodass aus |u − u0 | < δ für den Abstand der Punkte auf der Kurve
folgt |~r(u) −~r(u0 )| < ε .
31
Es ist plausibel und kann leicht gezeigt werden, dass eine vektorwertige Funktion genau dann stetig ist,
wenn die einzelnen Funktionen xi (u) in der Komponentendarstellung jede für sich stetig sind.
Differentiation vektorwertiger Funktionen
®
Die Ableitung einer vektorwertigen Funktion definiert man wie im eindimensionalen Fall über den Limes des Differenzenquotienten:
Dr
®
r (u)
~r(u + ∆u) −~r(u)
d~r
= lim
.
du ∆u→0
∆u
®
r (u+Du)
d~r
ein Vektor, der tangential an der Kurve liegt, denn im
Wie die Abbildung zeigt, ist die Ableitung
du
Limes ∆u → 0 geht die Sekante in die Tangente über (vorausgesetzt, dass diese existiert).
Bei konstanten Basisvektoren ~ei gilt für die Komponentendarstellung des Ableitungsvektors
d~r dx1 dx2 dx3 =
,
,
du
du du du
d.h. es werden einfach die Komponentenfunktionen separat differenziert.
Auch Ableitungen höherer Ordnung bieten keine Schwierigkeit, sie werden rekursiv definiert:
dn
d d n−1
~
r(u)
=
~
r(u)
.
dun
du dun−1
Die Rechenregeln der Vektordifferentiationen bieten keine Überraschungen. Es gilt die Linearität
d~a d~b
d
+
~a(u) +~b(u) =
du
du du
und verschiedene Versionen der Produktregel:
d
d~a
df
~a + f
,
f (u)~a(u) =
du
du
du
d~b
d~a ~
d
· b +~a ·
,
~a(u) ·~b(u) =
du
du
du
d~b
d~a ~
d
× b +~a ×
.
~a(u) ×~b(u) =
du
du
du
Der Beweis kann über den Differenzenquotienten geführt werden, oder einfacher in Komponentendarstellung.
Die Bogenlänge
Wir betrachten “glatte” (das heisst stetig differenzierbare) Kurven. Um ein Maß für die Länge einer Kurve zu finden, wird die
Kurve durch einen Polygonzug angenähert. Beginnend in einem
vorgegebenen Bezugspunkt wählt man einen Satz von Stützpunkten bei diskreten Werten un des Kurvenparameters.
u2
u0
...
u1
Ohne Beschränkung der Allgemeinheit kann man diese Zerlegung z.B. äquidistant wählen, also
un = u0 + n ∆uN
,
n = 0, . . . , N
wobei
32
∆uN =
u − u0
.
N
uN=u
Der Kurvenparameter läuft also über das Intervall [u0 , u], welches in N gleichgroße Teilbereiche zerlegt
wird. Die Länge des resultierenden Polygonzugs ist die Summe der Längen der einzelnen Verbindungsgeraden:
N−1
LN (u, u0 ) =
N−1
∑ |~r(uk+1 ) −~r(uk )| = ∑
k=0
k=0
|~r(uk+1 ) −~r(uk )|
∆uN .
∆uN
|~r(uk+1 ) −~r(uk )|
Im Limes N → ∞ geht ∆uN → 0 und der Differenzenquotient wird zur Ableitung
→
∆uN
d~r . Gleichzeitig verwandelt sich die Riemannsche Summe für LN (u, uo ) in ein Integral über den Kurdu uk
venparameter, die Bogenlänge
☞
✎
Z u
d~r ′
s(u, u0 ) =
′ du .
u0 du
✍
✌
Die Bogenlänge ist eine monoton anwachsende Funktion des Kurvenparameters u. Eine Änderung des
Bezugspunkts u0 führt nur zur Verschiebung des Werts der Bogenlänge um eine Konstante.
Anmerkung: Mathematisch ist der ausgeführte Grenzübergang nicht ganz trivial. Man kann stetige Kurven konstruieren, die so stark “verknäult” sind, dass sie keine Bogenlänge besitzen. Solche Kurven werden als “nicht rektifizierbar” bezeichnet. Sie kommen in den Anwendungen zum Glück selten vor.
Häufig wird das Differential der Bogenlänge benutzt, dass man auch als das Längenelement ds bezeichnet:
r
d~r √
d~r d~r
·
du = du .
ds = |d~r| = d~r · d~r =
du du
du
Damit lautet die Bogenlänge einer Kurve zwischen Anfangspunkt P1 und Endpunkt P2 einfach
s(2, 1) =
Z 2
ds .
1
Differentialgeometrie von Raumkurven
Raumkurven besitzen eine Reihe von intrinsischen geometrischen Eigenschaften, die nicht von der
gewählten Parametrisierung (und ebensowenig vom benutzten Koordinatensystem) abhängen. Um die
Geometrie einer Kurve besser verstehen zu können, werden wir als Hilfsmittel das begleitende Dreibein
einführen, dessen Orientierung im Raum etwas über die lokalen Eigenschaften der Kurve aussagt. In
diesem Zusammenhang werden auch die Kenngrößen Krümmung und Torsion auftreten.
Man beginnt mit der Definition des Tangenten-Einheitsvektors. Dieser entsteht, wenn man den Ableitungsvektor d~r/du auf Eins normiert:
✎
~T = d~r/du = d~r/du = d~r .
|d~r/du| ds/du ds
✍
☞
✌
In der letzten Version wird die Bogenlänge als Kurvenparameter verwendet, der Tangentenvektor ist dann
wegen |d~r/ds| = 1 automatisch normiert.
Ändert sich der Tangentenvektor entlang einer Kurve, dann ist diese gekrümmt. Dementprechend definiert man
33
Krümmung:
☞
✎
d~T κ = oder auch
ds ✌
✍
d 2~r κ = 2 .
ds
Man benutzt auch den Krümmungsradius, definiert als ρ = 1/κ mit der Einheit “Länge”. Der Betrag der
Ableitung des Tangentenvektors gibt Auskunft über die Größe der Krümmung, aber auch die Richtung
der Ableitung ist von Interesse. Man definiert den auf Eins normierten
Hauptnormalenvektor:
Dies führt sofort auf die
✎
~
~N = d T /ds .
|d~T /ds|
✍
✎
☞
☞
✌
d~T
1. Frenetsche Formel:
= κ ~N .
ds
✍
✌
®
Anschauliche Interpretation: Lokal lässt sich eine glatte Kurve durch
DT
®
~
einen Kreis mit dem Radius ρ annähern. N ist ein Einheitsvektor, der
T
vom Punkt auf der Kurve in Richtung des Kreismittelpunkts zeigt. Die
s
s+Ds
Vektoren ~T und ~N definieren eine Ebene, die sich lokal an die Kurve
®
“anschmiegt” und als Schmiegungsebene oder Oskulationsebene (lat.:
N
osculari = küssen) bezeichnet wird.
Man zeigt leicht, dass Tangentenvektor und Hauptnormalenvektor aufeinander senkrecht stehen, ~T ⊥ ~N, denn
~
~T · ~N = 1 ~T · d T = 1 1 d (~T · ~T ) = 1 1 d 1 = 0 .
κ
ds
κ 2 ds
κ 2 ds
Es kann vorkommen, dass sich die Oskulationsebene entlang der Kurve nicht ändert, dann hat man es
mit einer ebenen Kurve zu tun. Allgemein wird dies jedoch für Raumkurven nicht der Fall sein. Um dies
mathematisch zu formulieren, wird ein Vektor definiert, der auf der Oskulationsebene senkrecht steht:
.
Binormalenvektor:
✞
☎
~ ~ ~
✝B = T × N . ✆
®
T
Falls der Einheitsvektor ~B(s) seine Richtung ändert, dann “schraubt”
sich die Kurve aus der Ebene hinaus in die dritte Dimension. ~T , ~N, ~B
bilden ein (rechtshändiges) System von drei Einheitsvektoren. Zusammen werden sie als das begleitende Dreibein bezeichnet.
Um ein Maß für die Verwindung der Kurve zu finden, kann man den
Binormalenvektor differenzieren:
®
B
®
N
d~B d~T ~ ~ d~N
d~N ~ d~N
=
×N+T ×
= κ ~N × ~N + ~T ×
=T×
.
ds
ds
ds
ds
ds
Diese Ableitung ist ein Vektor der offenbar senkrecht auf ~T steht und auch senkrecht auf ~B, denn
d~B
d~B ~ 1 d ~ ~
·B =
(B · B) = 0. Daher ist
zwangsläufig proportional zu ~N, dem dritten Vektor des begleids
2 ds
ds
tenden Dreibeins. Die Proportionalitätskonstante wird als Torsion τ bezeichnet. Es gilt die
2. Frenetsche Formel:
✎
☞
d~B
= −τ ~N .
ds
✍
✌
Die Torsion ist also ein Maß für die dreidimensionale “Verwindung” einer Kurve; sie verschwindet (global) für ebene Kurven. Das Vorzeichen wurde so gewählt, dass sich für eine rechtshändige Schraubenlinie
34
eine positive Torsion ergibt. Manchmal wird auch ein Torsionsradius ρ definiert als das Reziproke der
Torsion: σ = 1/τ
Der Vollständigkeit halber kann man auch noch die Ableitung des Normalenvektors berechnen. Es ergibt
sich unter Benutzung von ~N = ~B × ~T und ~T = ~N × ~B:
✎
☞
d~N
= τ ~B − κ ~T
3. Frenetsche Formel:
ds
✍
✌
denn
d~B ~ ~ d~T
d~N
=
×T +B×
= −τ ~N × ~T + κ ~B × ~N = τ ~B − κ ~T .
ds
ds
ds
Die Größen κ und τ sind Skalare. Ihr Wert lässt sich gemäß den ersten beiden Frenetschen Formeln
berechnen als
κ = ~N ·
d~T
ds
und
τ = −~N ·
d~B
.
ds
Die Mathematiker beweisen folgenden interessanten Satz:
Kurven im dreidimensionalen Raum sind durch den Verlauf ihrer Krümmung und
Torsion, also durch die Angabe der Funktionen κ (s) und τ (s) in ihrer Form eindeutig
bestimmt.
Wobei gemeint ist, dass zwei Kurven die gleiche “Form” besitzen wenn sie durch geeignet gewählte
räumliche Drehungen und/oder Verschiebungen zur Deckung gebracht werden können. Besonders klar
wird das für den speziellen Fall einer Kurve mit konstanter Krümmung und verschwindender Torsion:
Durch κ = 1/R = const und τ = 0 wird ein Kreis vom Radius R beschrieben, unabhängig von dessen
Position und Orientierung im Raum.
Als physikalische Anwendung betrachten wir Geschwindigkeit ~v und Beschleunigung ~a einer Trajektorie
~r(t).
d~r ds d~r
=
= ṡ ~T = v ~T
dt
dt ds
d~r ds
= ṡ die Bahngeschwindigkeit bezeichnet. Für die Beschleunigung ~a ergibt
wobei v = |~v| = =
dt
dt
sich
~v =
~a =
2
~
~
d 2~r d~v
d ~
~T + v d T = v̇~T + v ds d T = v̇ ~T + v2 κ ~N = v̇ ~T + v ~N .
=
=
(v
T
)
=
v̇
dt 2
dt
dt
dt
dt ds
ρ
Bei den beiden Summanden handelt es sich um die Tangentialbeschleunigung und die Zentripetalbeschleunigung.
Beispiel: Differentialgeometrie der Schraubenlinie
Durch die Parametrisierung
~r(u) = (a cos u, a sin u, hu)
35
wird eine Schraubenlinie um die z-Achse definiert. Diese hat den Radius a und die Ganghöhe 2π h, d.h.
nach jeder Umdrehung (Anwachsen von u um 2π ) wächst der z-Wert um 2π h. Die Bogenlänge lässt sich
leicht berechnen. Es gilt
d~r p
p
d~r
= (−a sin u, a cos u, h) und = a2 sin2 u + a2 cos2 u + h2 = a2 + h2 = ρ
du
du
√
mit der Abkürzung ρ = a2 + h2 . Damit lässt sich die Bogenlänge ausrechnen
s(u) =
Z u
0
d~r Z u
du′ ρ = ρ u .
du ′ =
du
0
′
wobei als Bezugspunkt für die Bogenlänge der Punkt ~r(0) = (a, 0, 0) gewählt wurde. Nun können wir
den Tangenten-Einheitsvektor ~T berechnen:
~T = d~r = du d~r = 1 (−a sin u, a cos u, h) .
ds
ds du ρ
Die Ableitung des Tangentenvektors nach dem Kurvenparameter ist
d~T
1
= (−a cos u, −a sin u, 0) .
du
ρ
Für die Krümmung der Schraubenlinie ergibt sich ein konstanter Wert
d~T du d~T 1p
a
κ = =
= 2 a2 cos2 u + a2 sin2 u = 2 .
ds
ds du
ρ
ρ
Der Hauptnormalenvektor ~N entsteht durch Normierung der Ableitung des Tangentenvektors:
~N =
d~T
du
d~T
| du |
= −(cos u, sin u, 0) .
~N liegt in der x, y-Ebene und zeigt radial nach Innen, in Richtung des Lots auf die z-Achse. Der letzte
Vektor des begleitenden Dreibeins ist der Binormalenvektor:
~B = ~T × ~N = − 1 (−a sin u, a cos u, h) × (cos u, sin u, 0)
ρ
1
= − (a cos u · 0 − h sin u, h cos u + a sin u · 0, −a sin u sin u − a cos u cos u)
ρ
1
(h sin u, −h cos u, a) .
=
ρ
Schließlich wird noch die Ableitung des Binormalenvektors benötigt:
d~B
h
= (cos u, sin u, 0)
du
ρ
Damit lässt sich die Torsion berechnen:
τ = −~N ·
d~B du
h
d~B
h
= −~N ·
= 2 (cos u, sin u, 0) · (cos u, sin u, 0) = 2 .
ds
du ds
ρ
ρ
36
Neben der Krümmung ist also auch die Torsion konstant (proportional zu h). Das ist das Charakteristikum einer Schraubenlinie. Man prüft
leicht nach, dass die berechneten Vektoren des begleitenden Dreibeins
aufeinander senkrecht stehen, ~T · ~N = ~T · ~B = ~N · ~B, wie es aufgrund ihrer
Konstruktion ja auch sein muss.
Die Schraubenlinie und ihr begleitendes Dreibein sind nebenstehend abgebildet.
Die Oskulationsebene ist gegenüber der x-y-Ebene um einen Winkel θ
geneigt, der sich durch cos θ = ~B ·~ez = a/ρ berechnet. Daraus folgt θ =
arctan(h/a).
®
B
®
N
2ph
®
T
a
Beispiel: Die Krümmung einer ebenen Kurve
Wir betrachten eine Kurve in der x-y-Ebene, gegeben durch y = f (x), z = 0. Benutzt man
p die Koordinate x als Kurvenparameter, so gilt ~r(x) = (x, f (x), 0). Das Längenelement lautet ds = dx2 + dy2 =
p
1
df
dx
1 + f ′2 dx oder
=p
.
mit f ′ ≡
ds
dx
1 + f ′2
Der Tangentenvektor lautet
~T = d~r = dx d~r = p 1
(1 , f ′ , 0)
′2
ds ds dx
1+ f
mit der Ableitung
d~T
ds
=
=
=
1
dx d f′
p
,p
,0
ds dx
1 + f ′2
1 + f ′2
p
′ ′′
f ′′ 1 + f ′2 − f ′ √f f ′2 1
1
1
1+
f
p
2 f ′ f ′′ ,
,0
−
′2
′2
3/2
2 (1 + f )
1+ f
1 + f ′2
f ′′
1
′ ′′
′′
′2
′′ ′2
(− f ′ , 1, 0) .
−
f
f
,
f
(1
+
f
)
−
f
f
,
0
=
(1 + f ′2 )2
(1 + f ′2 )2
Damit ergibt sich für die Krümmung der ziemlich komplizierte Ausdruck
d~T | f ′′ | p ′2
| f ′′ |
κ = =
f
+
1
=
.
ds
(1 + f ′2 )2
(1 + f ′2 )3/2
Die Krümmung ist also nicht einfach durch die zweite Ableitung der Funktion gegeben,
√ sondern es gibt
einen Korrekturfaktor. Beispielsweise liefert diese Formel für einen Kreis f (x) = R2 − x2 nur wegen
des Nenners in der Formel tatsächlich die konstante Krümmung κ = 1/R, wie es sein muss.
37
6 Differential- und Integralrechnung für Funktionen mehrerer Variablen
Die Vektoranalysis befasst sich mit der Differential- und Integralrechnung für Funktionen mehrerer Variablen. Mathematisch handelt es sich bei solchen Funktionen um Abbildungen der Art (vgl. Kapitel
2.3)
f : D ⊂ Rm → B ⊂ Rn
, ~x 7→ ~y = ~f (~x)
wobei es sich beim Definitionsbereich D und dem Wertebereich B im “Bildraum” um kontinuierlich
zusammenhängende (beschränkte oder unendlich ausgedehnte) Bereiche im m- bzw. n-dimensionalen
Vektorraum handeln soll. Durch die Abbildungsvorschrift wird jedem Punkt (m-dimensionaler Vektor)
~x ∈ D ein Bildpunkt (n-dimensionaler Vektor) ~y = ~f (~x) zugeordnet. Durch die Pfeile deuten wir an,
dass es sich jeweils um mehrdimensionale vektorielle Größen handelt. In der Mathematik werden die
Vektorpfeile oft auch weggelassen.
Die gewöhnlichen Funktionen y = f (x) sind der eindimensionale Spezialfall, m = n = 1. Der Fall m = 1,
n = 3 wurde im Abschnitt “Raumkurven” bereits behandelt. Physikalisch besonders wichtig sind Felder
im dreidimensionalen Raum. Ein Feld liegt dann vor, wenn eine physikalische Größe an jedem Punkt im
Raum (oder in einem kontinuierlichen Teilbereich) einen Wert besitzt. Die wichtigsten Fälle sind:
m=3
,
n=1
Skalarfeld
φ (~r)
z.B. Dichte, Druck, Potential, ...
m=3
,
n=3
Vektorfeld
~a(~r)
z.B. Geschwindigkeit, Kraft, elektrische Feldstärke, ...
Die Stetigkeit einer Funktion kann ganz analog zum eindimensionalen Fall definiert werden.
Eine Funktion ~f (~r) heißt stetig im Punkt ~r0 wenn zu jeder reellen Zahl ε > 0 eine
Zahl δ (ε ) existiert sodass aus |~r −~r0 | < δ folgt |~f (~r) − ~f (~r0 )| < ε .
m
n
Die Abstände
p | . . . | werden mit der euklidischen Norm im R bzw. R berechnet, also z.B. für m = 3:
2
2
2
|~r −~r0 | = (x − x0 ) + (y − y0 ) + (z − z0 ) .
In mehreren Dimensionen ist der Stetigkeitsbegriff komplizierter als in einer Dimension. Man sieht man
einer Funktion nicht immer sofort an, ob sie stetig ist. Ein interessantes Gegenbeispiel ist folgende skalare
Funktion im zwei Dimensionen (m = 2, n = 1):
(
xy
falls x2 + y2 > 0
2
x + y2
.
f (x, y) =
0
falls x = y = 0
Der Wert für x = y = 0 wurde separat festgelegt, da die Definition dort einen unbestimmten Wert der
Art 0/0 liefert. Die Funktion f (x, y) ist am Ursprung nicht stetig. Je nachdem, aus welcher Richtung
man sich dem Ursprung nähert findet man verschiedene Grenzwerte. Lässt man z.B. zuerst y gegen Null
gehen und dann x so ergibt sich
xy lim lim 2
= lim 0 = 0 .
x→0 y→0 x + y2
x→0
Dasselbe ergibt sich auch im umgekehrten Fall, erst x → 0 und dann y → 0. Nähert man sich dem Ursprung jedoch z.B. auf der Diagonalen y = x so folgt
1
x2
= 6= f (0, 0) .
2
x→0 2x
2
lim f (x, y = x) = lim
x→0
38
In jedem noch so kleinen Abstand zum Ursprung finden sich alle Funktionswerte zwischen -1/2 und
+1/2. Am besten sieht man das bei Benutzung von Polarkoordinaten x = r cos ϕ , y = r sin ϕ : f (r, ϕ ) =
cos ϕ sin ϕ = 21 sin(2ϕ ). Am Ursprung (r = 0) ist die Funktion daher nicht stetig.
Die partielle Ableitung
Der Wert einer (zunächst skalaren) Funktion mehrerer Variablen f (~r) hängt von allen Komponenten des
Vektors ~r ab. Wählt man ein cartesisches Koordinatensystem, dann lässt sich die “Änderungsgeschwindigkeit” für jede der Raumrichtungen leicht einzeln berechnen. Man bildet den Differenzenquotienten im
Punkt~r = (x1 , x2 , . . . , xm ) entlang einer Geraden in Richtung der xi -Achse, wobei alle anderen Koordinaten konstant gehalten werden. Im Grenzfall infinitesimaler Abstände erhält man die partielle Ableitung
☞
✎
∂ f (x1 , . . . , xm )
f (x1 , . . . , xi + ε , . . . , xm ) − f (xa, . . . , xi . . . , xm )
= lim
.
ε
→0
∂ xi
ε
✍
✌
Es gibt also m verschiedene partielle Ableitungen erster Ordnung.
∂f
Eine nützliche Kurzschreibweise ist ∂i f ≡
. Im dreidimensionalen Raum benutzt man auch gerne die
∂ xi
noch knappere Schreibweise fx , fy und fz .
Für die partielle Ableitung gelten die “üblichen Rechenregeln” der Differentiation, wie das Distributivgesetz, die Produktregel und die Kettenregel.
Beispiel 1: f (~r) =~c ·~r mit konstantem ~c ∈ R3 .
∂f
∂
∂ xi
1 i= j
=
c1 x1 + c2 x2 + c3 x3 ) = ci . Beachte: Es gilt
= δi j =
(Kroneckersymbol) .
0 i 6= j
∂ xi ∂ xi
∂xj
q
Beispiel 2: f (~r) = r = x21 + x22 + x23 .
∂f
∂ 2
1
xi
=
(x1 + x22 + x23 )1/2 = (x21 + x22 + x23 )−1/2 2xi = .
∂ xi ∂ xi
2
r
Höhere Ableitungen lassen sich rekursiv definieren. So gibt es z.B. in zwei Dimensionen insgesamt vier
partielle Ableitungen zweiten Grades:
∂2 f
∂
∂f
∂2 f
∂
∂f
∂2 f
∂
∂f
∂2 f
∂
∂f
=
=
=
=
,
,
,
.
2
2
∂x
∂x ∂x
∂y
∂y ∂y
∂ y∂ x ∂ y ∂ x
∂ x∂ y ∂ x ∂ y
Die beiden gemischten Ableitungen stimmen aber “normalerweise” überein. Es gilt der Satz von
Schwarz:
Ist eine Funktion f (~x) in der✎
Umgebung eines Punkts☞
mindestens zweimal stetig
∂ ∂
∂ ∂
f=
f.
differenzierbar dann gilt dort
∂ xi ∂ x j
∂ x j ∂ xi
✍
✌
Für den Beweis wird benötigt, dass alle zweiten partiellen Ableitungen existieren und stetig sind.
Die totale Ableitung
Wenn das Argument der Funktion f (~r) von einem Parameter u abhängt, ~r = ~r(u), dann lässt sich die
Ableitung der Funktion nach dem Parameter u mittels der Kettenregel der Differentiation berechnen
m
d f (~r(u))
∂ f dxi
=∑
,
du
i=1 ∂ xi du
vorausgesetzt f ist stetig differenzierbar. Der Beweis kann über den Differenzenquotienten erfolgen.
Man schreibt auch kurz
39
✎
m
∂f
dxi
df = ∑
i=1 ∂ xi
✍
☞
✌
und nennt d f das vollständige oder totale Differential.
Der Gradient
Die totale Ableitung beantwortet die Frage, wie sich der Wert einer skalaren Funktion verändert, wenn
man sich entlang einer Kurve~r(s) bewegt. Dabei kommt es lokal nur auf die Richtung der Kurve an. Mit
dem Tangenten-Einheitsvektor ~T ergibt sich die
Richtungsableitung
✎
Hier wurde der Vektor
✎
m
m
df
∂ f dxi
∂f
=∑
=∑
Ti = ~∇ f · ~T
ds i=1 ∂ xi ds i=1 ∂ xi
✍
∂f
☞
☞
✌
∂f ∂f Gradient:
,
,
grad f = ~∇ f =
∂ x1 ∂ x2 ∂ x3 ✌
✍
eingeführt, mit dem vektoriellen Differentialoperator
☞
✎
∂
∂
∂
~∇ =
Nabla:
,
,
∂ x1 ∂ x2 ∂ x3 ✌
✍
Anmerkung: Nabla ist der antike Name für ein phönizisches Saiteninstrument (Harfe) in der Form eines
umgedrehten Delta-Symbols.
Die Richtungsableitung entsteht aus dem Skalarprodukt des Gradienten der Funktion mit dem TangentenEinheitsvektor ~T . Damit lässt sich der Gradientenvektor geometrisch interpretieren: Der Betrag des Gradienten gibt an, wie schnell sich die Funktion f (~r) ändert, seine Richtung zeigt in die Richtung des
steilsten Anstiegs, denn entlang einer Kurve in dieser Richtung ist d f /ds maximal.
Der Gradient hat noch eine zweite geometrische Interpretation. Dazu machen wir uns klar, dass eine
Funktion f (~r) zur impliziten Definition von Flächen benutzt werden kann. Durch die Gleichung
f (~r) = f (x, y, z) = const
wird eine Teilmenge aller Punkte im dreidimensionalen Raum definiert. Da die Gleichung erfüllt werden
muss, können nicht mehr alle Koordinaten frei gewählt werden: Die Zahl der Freiheitsgrade reduziert
sich von drei auf zwei. Wenn f eine hinreichend glatte Funktion ist, handelt es sich bei der entstehenden
Punktmenge um eine kontinuierliche zweidimensionale Fläche, die in den dreidimensionalen Raum eingebettet ist. Ein besonders
p simples Beispiel ist die Oberfläche einer Kugel mit Radius R, die durch die
Gleichung f (~r) = r = x2 + y2 + z2 = R definiert werden kann.
Ein skalares Feld φ (~r) kann daher visualisiert werden, indem man die “Aquiflächen” mit konstantem
Wert der Feldvariablen φ (~r) = const betrachtet. Da die Konstante verschiedene Werte annehmen kann,
handelt es sich dabei um eine ganze Schar von (unendlich vielen) solchen Flächen. Jeder Punkt ~r0 liegt
dabei auf genau einer solchen Fläche, definiert durch den konstanten Funktionswert φ (~r0 ). Beispiele:
Äquipotentialfläche, Äquitemperaturfläche usw.
Nun lässt sich zeigen:1
Der Gradient ~∇ f an der Stelle ~r0 ist die Flächennormale auf der Fläche mit konstantem Funktionswert
f (~r) = f (~r0 ) = const .
1 Mathematisch
macht es keinen Unterschied, ob es sich um ein skalares Feld oder eine implizite geometrische Flächendefinition handelt. Wir benutzen den Funktionsnamen f .
40
Beweis: Wir betrachten eine Kurve C1 die durch ~r0 geht und auf der
“Äquifläche” liegt. Der Funktionswert ändert sich also auf der Kurdf
=
ve nicht, sodass die Richtungsableitung verschwinden muss
ds
~∇ f · ~T1 = 0. Also steht der Gradient senkrecht auf dem Tangentenvektor ~T1 der Kurve. Das gleiche gilt auch für eine zweite Kurve
C2 mit einem Tangentenvektor ~T2 der in eine andere Richtung zeigt.
Die beiden Tangentenvektoren spannen die Tangentialebene an die
Fläche im Punkt ~r0 auf. Der Gradientenvektor steht somit senkrecht
auf der Tangentialebene, d.h. er zeigt in Richtung der Flächennormalen.
®
®
sf
C1
T2
®
C2
T1
r )=const
f(®
Für den Gradienten gilt die
Produktregel ~∇( f g) = (~∇ f ) g + f (~∇g) .
Die beiden früheren Beispiele für partielle Ableitungen lauten in Gradientenschreibweise:
Beispiel 1: ~∇(~c ·~r) =~c .
Die Äquiflächen sind Ebenen senkrecht zum Vektor ~c.
~∇ r = ~r =~er (radialer Einheitsvektor)
r
Die Äquiflächen sind konzentrische Kugelflächen um den Koordinatenursprung.
Beispiel 2:
®
®
®
®
sf = c
sf = er
Dieses Resultat gilt viel allgemeiner, nämlich für beliebige kugelsymmetrische f (r), d.h. Funktionen
deren Wert nur vom Betrag des Ortsvektors r = |~r| abhängt. Die Kettenregel der Differentation liefert:
3
3
~∇ f (|~r|) = ∑ ∂ f ~ei = ∑ d f ∂ r ~ei = d f ~∇ r = d f ~er .
dr
dr
i=1 dr ∂ xi
i=1 ∂ xi
Funktionen von zwei Variablen f (x, y)
Wir betrachten eine Funktion von zwei Variablen f (x, y). Diese kann unterschiedliche Bedeutungen haben. So kann sich um ein skalares Feld φ (x, y) im zweidimensionalen Raum R2 handeln. Alternativ kann
die Funktion zur expliziten Definition einer Fläche dienen, die durch die Gleichung
z = f (x, y)
inp
den dreidimensionalen Raum R3 eingebettet ist. Wieder als Beispiel die Kugeloberfläche: f (x, y) =
± R2 − x2 − y2 . Diese Beschreibung entsteht, indem man die implizite Flächendefinition r = R nach
der Variablen z auflöst.
Da die menschliche Vorstellung für dreidimenionale Probleme optimiert ist, kann eine solche Interpretation als Fläche auch allgemein zur Veranschaulichung zweidimensionaler Felder benutzt werden, selbst
wenn es sich bei f (x, y) nicht wirklich um eine räumliche Höhenkoordinate handelt.
41
In der Interpretation als Fläche wird die Funktion f (x, y) als “Gebirge” über der x-y-Ebene dargestellt.
Auskunft über die lokale Ausrichtung dieser Fläche erhält man durch Konstruktion der Tangentialebene.
Diese können wir so konstruieren, wie im Abschnitt über die Äquiflächen beschrieben. Wir betrachten
zwei Kurven, die in der Fläche verlaufen und sich im festen Punkt ~r0 = (x0 , y0 , f (x0 , y0 )) unter einem
endlichen Winkel schneiden. Für die erste Kurve wird x als Kurvenparameter verwendet, für die zweite
Kurve y:
C1 : ~r1 (x) = (x, y0 , f (x, y0 )) ,
C2 : ~r2 (y) = (x0 , y, f (x0 , y)) .
Es wird also in der x-z-Ebene die “Schnittfunktion” f (x, y0 ) und in der y-z-Ebene die Schnittfunktion f (x0 , y) betrachtet. Die Tangenten-Einheitsvektoren an diese Kurven lassen sich wie im Abschnitt
“Raumkurven” berechnen, mit dem Resultat
(0, 1, ∂∂ yf ) (1, 0, ∂∂ xf ) d~
r
∂
~
r
/
∂
x
∂
~
r
/
∂
y
d~
r
2
1
2
1
~T1 =
, ~T2 =
=
=r
=
=r
.
ds
∂ s/∂ x
ds
∂ s/∂ y
∂ f 2 ~r
0
1 + ∂x
1 + ∂∂ yf 2 ~r0
Diese beiden Vektoren spannen eine Ebene auf, die Tangentialebene, deren Orientierung im Raum durch
den Vektor der Flächennormalen ~n charakterisiert wird. (Wir verwenden den Kleinbuchstaben um eine
etwaige Verwechslung mit den Hauptnormalenvektoren ~N der Kurven zu vermeiden.) Die Flächennormale kann durch Bildung des Kreuzprodukts der Tangentenvektoren ~T1 und ~T2 berechnet werden. Da
diese nicht notwendig orthogonal sind, wird das Kreuzprodukt zunächst kein Einheitsvektor sein, wir
normieren es deshalb “per Hand”:
∂f
∂f
∂f
,
−
,
1
−
∂x
∂y
∂f
~n = const ~T1 × ~T2 = const’ − , − , 1 = r
.
∂x ∂y
~r0
∂f 2
∂ f 2 ~r
0
1 + ∂x + ∂y
®
n
®
T2
®
T1
Das Vorzeichen von ~n wurde willkürlich gewählt, der Vektor −~n ist ebenfalls eine Flächennormale. Handelt es sich um eine geschlossene Fläche, dann besitzt diese (normalerweise2 ) eine Innenseite und eine
Außenseite. In diesem Fall kann man eindeutig zwischen dem inneren und dem äußeren Normalenvektor
der Fläche unterscheiden.
Zum gleichen Resultat kann man schneller auch noch auf anderem Weg gelangen, nämlich durch Bildung
des Gradienten. Definiert man nämlich eine Funktion von drei Variablen F(x, y, z) = z − f (x, y) dann ist
2 Mathematisch
lassen sich auch “nicht orientierbare” Flächen konstruieren, die keine Unterscheidung zwischen Innen und
Außen erlauben. Bekanntestes Beispiel ist die “Kleinsche Flasche”.
42
deren Äquifläche zum Wert Null, also F(x, y, z) = 0, offenbar gerade die zu untersuchende Fläche. Nun
wissen wir, dass der Gradient von F
~∇F = − ∂ f , − ∂ f , 1
∂x ∂y
senkrecht auf dieser Äquifläche steht, was bis auf die noch fehlende Normierung mit dem oben berechneten Normalenvektor ~n übereinstimmt. Die Abbildung illustriert die Lage der Tangentialebene.
Eine Gleichung für die Tangentialebene lässt sich leicht angeben.
Jede Ebene lässt sich nämlich eindeutig durch ihren Normalenvektor
~n und einen beliebigen Bezugspunkt~r0 in der Ebene charakterisieren:
®
n
.
(~r −~r0 ) ·~n = 0 .
Die Gleichung besagt, dass der Abstandsvektor~r −~r0 senkrecht auf~n
stehen muss. Mit dem gerade hergeleiteten Ausdruck für den Normalenvektor ergibt sich, komponentenweise hingeschrieben, als Gleichung für die Tangentialebene:
∂f
∂ f (~r −~r0 ) · − , − , 1 = 0
∂x ∂y
~r0
z − z0 = (x − x0 )
also
Parameterdefinition einer Fläche
®
r0
®
O
r
∂ f ∂ f + (y − y0 ) .
∂ x ~r0
∂ y ~r0
Die Gelegenheit ist günstig, noch eine dritte Möglichkeit zur Definition von Flächen einzuführen, die
Parameterdefinition. Ganz analog zur Parameterdefinition einer Kurve im Raum als vektorwertige Funktion eines Parameters u, also ~r =~r(u) ergibt sich eine Fläche im Raum als eine vektorwertige Funktion
von zwei Parametern u, v:
~r =~r(u, v)
x = f (u, v)
y = g(u, v)
z = h(u, v)
oder komponentenweise
mit drei Komponentenfunktionen f (u, v), g(u, v), h(u, v). Meist wird wieder darauf verzichtet, den Funktionen eigene Namen zu geben und man schreibt einfach x(u, v), y(u, v), z(u, v).
Die früher diskutierte explizite Flächendefinition ist offenbar ein Spezialfall hiervon: Man verwendet als
Parameter die cartesischen Koordinaten u = x und v = y und die dritte Gleichung z = h(u, v) entspricht
dem früheren z = f (x, y). Dies ist jedoch nur eine von vielen möglichen Parametrisierungen. Wieder
am Beispiel der Kugeloberfläche betrachten wir eine alternative Parametrisierung mittels zweier Winkel:
Azimutalwinkel ϕ und Polarwinkel θ .
x = R sin θ cos ϕ
y = R sin θ sin ϕ
z = R cos θ
mit 0 ≤ ϕ < 2π
,
0≤θ ≤π
Nicht überraschend ist die Verwendung der Kugelkoordinaten r, θ , ϕ besonders gut geeignet zur Beschreibung einer Kugeloberfläche.
Zur Veranschaulichung der Parameterdefinition einer Fläche kann man sie mit einem Netz von Koordinatenlinien überziehen. Ein Satz von Koordinatenlinien L1 entsteht, wenn man in der Funktion ~r(u, v) den
43
ersten Parameter variieren lässt und den zweiten festhält. Als Funktion des ersten Parameters ergibt sich
dann eine Raumkurve. Analog entstehen Koordinatenlinien L2 wenn der erste Parameter festgehalten
wird.
L1 :
~r =~r(u, v = c1 ) ,
L2 :
~r =~r(u = c2 , v)
z
Beide Sätze von Kurven liegen per Konstruktion in der Fläche und
“spannen sie auf”. Vom Beispiel der Kugeloberfläche ist das Konzept
vertraut: Jeder Punkt liegt auf dem Schnittpunkt eines Längenkreises
(konstanter Parameter ϕ ) und eines Breitenkreis (konstanter Parameter θ ).
(Nur der Nord- und Südpol machen eine Ausnahme, da dort die Breite ϕ
nicht eindeutig definiert ist. Es ist eine mathematisch tiefschürfende Aussage, dass solche “singulären” Stellen bei jeder Parametrisierung der Kugeloberfläche auftreten.)
®
ej
q
r
®
eq
j
y
x
Durch partielle Differentiation nach den Parametern lassen sich Tangenten-Einheitsvektoren ~eu und ~ev
entlang der Koordinatenlinien bestimmen:
∂~r
~eu = ∂ u ∂~r ∂u
und
∂~r
~ev = ∂ v .
∂~r ∂v
Damit lässt sich schließlich auch wieder die Flächennormale ~n konstruieren:
~eu ×~ev
.
~n = ~eu ×~ev Extremwerte
Noch eine weitere Frage über den Verlauf einer zweidimensionalen Funktion f (x, y) lässt sich mittels der partiellen Ableitungen klären: Besitzt sie Extrema? Ein lokales Maximum liegt vor, wenn
f (x, y) > f (x0 , y0 ) für alle Punkte (x, y) in der Umgebung von (x0 , y0 ) gilt. Analog für ein Minimum.
Geometrisch betrachtet: Für stetig differenzierbare Funktionen f existiert überall eine Tangentialebene.
Eine notwendige und anschaulich offensichtliche Bedingung für ein Extremum lautet, dass die Tangentialebene horizontal verläuft, also
✎
∂f
= 0 und
∂x
✍
∂f
=0
∂y
☞
bei
✌
(x, y) = (x0 , y0 ) .
Eine solche Stelle heisst auch stationärer Punkt. Handelt es sich aber um ein Maximum oder ein Minimum? Für eindimensionale Funktionen g(x) liegen die Verhältnisse einfacher: Ein stationärer Punkt
mit g′ (x0 ) = 0 ist ein Maximum wenn für die zweite Ableitung g′′ (x0 ) < 0 gilt und ein Minimum wenn
g′′ (x0 ) > 0. In zwei Dimensionen gibt es aber mehrere unterschiedliche zweite Ableitungen.
Ohne Beweis geben wir das Kriterium an, das über den Charakter eines stationären Punkts in zwei
Dimensionen entscheidet. Die zweiten partiellen Ableitungen lassen sich in Matrixform anordnen, die
sogenannte Hesse-Matrix
 2

∂ f
∂2 f
 ∂ x2
∂ y∂ x 
.
H=
 ∂2 f
∂2 f 
∂ x∂ y ∂ y2
44
Entscheidend ist der Wert der Determinante dieser Matrix, nämlich
✎
☞
2 2
2
2
∂ f∂ f
∂ f
.
∆ = det H = 2 2 −
∂x ∂y
∂ x∂ y
✍
Dann gilt für einen kritischen Punkt:
✌
∂2 f
∂2 f
<
0
(und
damit
auch
< 0) ,
∂ x2
∂ y2
∂2 f
∂2 f
2) (x0 , y0 ) ist ein relatives Minimum wenn ∆ > 0 und 2 > 0 (und damit auch 2 > 0) ,
∂x
∂y
3) (x0 , y0 ) ist ein Sattelpunkt wenn ∆ < 0 ,
4) Im Fall ∆ = 0 ist eine nähere Untersuchung nötig.
1) (x0 , y0 ) ist ein relatives Maximum wenn ∆ > 0 und
Alle Ableitungen sind an der Stelle (x0 , y0 ) zu nehmen. Der Fall der Sattelfläche hat kein Gegenstück
bei eindimensionalen Funktionen. Es handelt sich dabei nicht um ein Extremum, da hier gleichzeitig in
einer Richtung ein Maximum und in einer anderen Richtung ein Minimum vorliegt.
Die differentialgeometrische Betrachtung kann natürlich nur Aussagen über lokale Extrema liefern. Wo
das globale Extremum liegt kann nur der Vergleich aller lokalen Extrema sagen; es ist keine generelle
Aussage möglich. Ebenso kann ein Extremum am Rand eines beschränkten Definitionsbereichs D liegen
ohne stationärer Punkt zu sein.
Die Abbildung zeigt zwei Beispiele für Funktionen mit einem Minimum bzw. einem Sattelpunkt im
x2 y2
Punkt (0, 0). Es handelt sich um ein elliptisches Paraboloid mit f (x, y) = 2 + 2 (links) und ein hypera
b
x2 y2
bolisches Paraboloid mit f (x, y) = 2 − 2 (rechts).
a
b
Taylorentwicklung in mehreren Dimensionen
Das Konzept der Potenzreihe lässt sich problemlos auch auf mehrdimensionale Räume übertragen. Beispielsweise hat ein “doppeltes” Polynom im Raum R2 die Form
N
PN (x, y) =
∑
k,l=0
ckl (x − x0 )k (y − y0 )l
mit reellen Koeffizienten ckl . Als “Bezugspunkt” wurde ~r0 = (x0 , y0 ) gewählt, dort ist PN (x0 , y0 ) = c00 .
Es handelt sich um eine Doppelsumme die sich über alle Kombinationen der Indizes k und l bis hin zu
45
einem Maximalwert erstreckt. Zur Verdeutlichung hier alle Terme bis zur dritten Ordnung:
PN (x, y) = c00 + c01 (y − y0 ) + c10 (x − x0 )
+ c20 (x − x0 )2 + c11 (x − x0 )(y − y0 ) + c02 (y − y0 )2
+ c30 (x − x0 )3 + c21 (x − x0 )2 (y − y0 ) + c12 (x − x0 )(y − y0 )2 + c03 (y − y0 )3
+ ... .
Hier wurden die Terme so angeordnet, dass in jeder Zeile Terme mit gleicher “Gesamtpotenz” k + l (also
linear, quadratisch, kubisch etc.) stehen.
Anmerkung: Man beachte, dass es sich bei PN (x, y) nicht um das Produkt zweier Potenzreihen handelt.
In diesem Fall hätte man
PNa (x)PNb (y) =
N
∑ ak (x − x0)k
k=1
N
l
=
b
(y
−
y
)
0
∑ l
l=1
N
∑
k,l=1
ak bl (x − x0 )k (y − y0 )l .
Das ist offensichtlich nur ein Spezialfall des allgemeinen Polynoms, nämlich ckl = ak bl . Im allgemeinen
lassen sich die ckl nicht in dieser Weise faktorisieren.
Wie in der eindimensionalen Differentialrechnung kann man nun zu einer Funktion f (x, y) ein Polynom
PN (x, y) so konstruieren, dass es in der Umgebung eines Punkts ~r0 möglichst wenig von der Funktion
abweicht
f (x, y) = PN (x, y) + RN (x, y)
wobei das Restglied RN (x, y) diese Abweichung angibt. Wie im eindimensionalen Fall wird das Taylorpolynom im Grenzfall N → ∞ zur unendlichen Taylorreihe.
Das Konstruktionsprinzip für PN (x, y) das zur Taylorreihe führt lautet wieder: Die Koeffizienten ckl
werden so angepasst, dass alle Ableitungen von Funktion f und Polynom PN bis zur gewünschten
Ordnung im Punkt ~r0 übereinstimmen. Natürlich bezieht sich das jetzt auf die partiellen Ableitungen
∂ k+l
f (x, y). Wir schreiben die entsprechenden Terme bis zur kubischen Ordnung hin:
∂ xk ∂ yl
h
∂f
∂fi
+ (y − y0 )
f (x, y) = f (x0 , y0 ) + (x − x0 )
∂x
∂y 0
h
2
∂ f
∂2 f
∂2 f i
1
(x − x0 )2 2 + 2(x − x0 )(y − y0 )
+ (y − y0 )2 2
+
2!
∂x
∂ x∂ y
∂y 0
3f
3f
3 i
∂
∂
∂3 f
1h
3∂ f
+
+
(y
−
y
)
(x − x0 )3 3 + 3(x − x0 )2 (y − y0 ) 2 + 3(x − x0 )(y − y0 )2
0
3!
∂x
∂x ∂y
∂ x∂ 2 y
∂ y3 0
+ ... .
Entscheidend ist hier, dass die partiellen Ableitungen auf der rechten Seite am festen Punkt~r0 = (x0 , y0 )
berechnet werden, dass es sich also um konstante Zahlen handelt. Um die Formel übersichtlich zu halten
wurde dies nur durch den Index 0 angedeutet. Die Übereinstimmung der partiellen Ableitungen bei~r =~r0
auf der linken und rechten Seite prüft man leicht gliedweise nach.
Die Potenzreihe auf der rechten Seite lässt sich noch kompakter schreiben. Bei genauerer Betrachtung
der eckigen Klammern fällt auf, dass dort binomische Ausdrücke stehen: a + b, (a + b)2 = a2 + 2ab + b2 ,
(a + b)3 = a3 + 3a2 b + 3ab2 + b3 . Hierbei sind a und b Differentialoperatoren, nämlich a = (x − x0 )∂ /∂ x
und b = (y − y0 )∂ /∂ y. Kürzen wir noch ab ∆x = x − x0 und ∆y = y − y0 dann lässt sich die Taylorreihe
46
in zwei Dimensionen schreiben als
∂
1 ∂
1 ∂
∂ ∂ 2 ∂ 3 f +
∆x + ∆y
∆x + ∆y
f +
f + ... .
f (x, y) = f (x0 , y0 ) + ∆x + ∆y
0
0
0
∂x
∂y
2!
∂x
∂y
3!
∂x
∂y
Natürlich sollen hier beim Ausmultiplizieren die Ableitungen nur auf die Funktion f (x, y) wirken, nicht
auf ∆x, ∆y. Diese Formel lässt sich sogar ganz problemlos von 2 auf m Dimensionen erweitern:
∞
1m
∂ n
f (x1 , . . . , xm ) = ∑
∆x
f
(x
,
.
.
.
,
x
)
i
1
m
∑ ∂ xi
~r0
n!
n=0
i=1
oder noch kürzer mit dem Nabla-Operator
✎
☞
∞
n
1
∆~r · ~∇ f (~r)
f (~r0 + ∆~r) = ∑
~r0
n=0 n!
✍
✌
Wem dies noch immer nicht genügt: Es geht sogar noch kompakter! Die rechte Seite hat nämlich die
∞
1
Form der Potenzreihenentwicklung der Exponentialfunktion eu = ∑ un . Diese Formel gilt zunächst
n=0 n!
für Zahlen u ∈ R. Nichts hindert uns jedoch daran, stattdessen für u den Differentialoperator aus der
letzten Gleichung einzusetzen. Das führt auf
~
f (~r0 + ∆~r) = e ∆~r · ∇ f (~r0 ) .
Die Exponentialfunktion ist dabei einfach durch ihre Reihenentwicklung definiert. Konvergenzfragen wollen wir hier nicht diskutieren (siehe Lehrbücher). Es sei nur angemerkt, dass solche Reihen
tatsächlich mathematisch “Sinn machen”.
Exponentialfunktionen von Operatoren treten in der Physik garnicht selten auf, insbesondere in der Quantenmechanik. In unserer Formel handelt es sich um den räumlichen Verschiebungs- oder Translationsoperator
~
Û (∆~r) = e ∆~r · ∇ .
Der Grund für den Namen ist klar: Die Anwendung des Operators Û(∆~r) auf eine Funktion an einer
Stelle liefert den Funktionswert an einer um ∆~r verschobenen Position. Bei Û(∆~r) handelt es sich um
einen linearen Operator Û ( f + g) = Û f + Ûg.
Beispiel: Funktionen von zwei Variablen f (x, y)
Aus den luftigen Höhen mathematischer Abstraktion noch einmal zurück zum konkreten Fall einer Funktion von zwei Variablen f (x, y). Wir machen uns die geometrische Bedeutung der niedrigsten Terme in
der Taylor-Entwicklung klar. In der “nullten” Ordnung der Taylorentwicklung um den Punkt~r0 wird die
Funktion f (~r) einfach durch den konstanten Wert f (~r0 ) ersetzt. In der ersten Ordnung (lineare Näherung)
liefert die Taylorreihe die Funktion
f1 (~r) = f (~r0 ) + ∆~r · ~∇ f0
Betrachtet man wieder die Einbettung in den dreidimensionalen Raum im Sinne von z = f (x, y) so wird
klar, dass diese Funktion eine Ebene beschreibt, die durch den Punkt~r0 geht:
z − z0 = (x − x0 )∇x f 0 + (y − y0 )∇y f 0 .
Wie bereits früher diskutiert, handelt sich um die Tangentialebene an die Fläche f (x, y). Geht man zur
zweiten Ordnung der Taylorentwicklung, so kommen quadratische Terme in (x − x0 )2 , (y − y0 )2 und (x −
47
x0 )(y − y0 ) hinzu, die man geometrisch als (elliptische oder hyperbolische) Paraboloide interpretieren
kann.
p
Als konkretes Beispiel betrachten wir die Funktion f (x, y) = R2 + x2 + y2 , ein rotationssymmetrisches
Hyperboloid. Betrachten wir zunächst das zugehörige eindimensionale Problem. Wird die Variable y auf
einen festen Wert gesetzt, z.B. y = 0, dann reduziert sich das Problem auf eine Funktion von einer Variablen g(x) = f (x, 0) mit einer eindimensionalen Taylorreihenentwicklung. Die linke Abbildung zeigt
für den Parameter R = 1 die niedrigsten Taylorpolynome bis zur vierten Ordnung um den Entwicklungspunkt x0 = 1. Die Taylorentwicklung erster Ordnung liefert eine Gerade, nämlich die Tangente an die
Funktion im Punkt x0 . In zweiter Ordnung entsteht eine Parabel, danach ein kubisches Polynom usw. Wie
man sieht stimmen alle Näherungen in der nahen Umgebung von x0 sehr gut mit der Funktion überein
und mit wachsener Ordnung des Polynoms wird der Gültigkeitsbereich der Näherung größer. Man sieht
abar auch, das die Taylorreihe keine Zauberformel ist. Bei näherer Untersuchung stellt sich heraus, das
die vorliegende Potenzreihe einen endlichen Konvergenzradius r besitzt. Im Bereich x0 − r < x < x0 + r
geht die Abweichung des Polynoms PN (x) vom korrekten Funktionswert f (x) für N → ∞ gegen Null.
Außerhalb dieses Intervalls, also für |x − x0 | > r, divergiert die Reihe hingegen und liefert kein sinnvolles
√
Ergebnis. Eine nähere Untersuchung liefert für das vorliegende Beispiel den Konvergenzradius r = 2
(dieser Wert hängt vom gewählten Entwicklungspunkt x0 ab.)
Die rechte Abbildung zeigt die zweidimensionale Funktion f (x, y) in räumlicher Darstellung (rote
Fläche). Die blaue Fläche ist die Näherung erster Ordnung im Entwicklungspunkt (x0 , y0 ) = (1, 0). Man
erkennt, dass es sich wirklich um die Tangentialebene in diesem Punkt handelt. Das Taylor-Polynom
zweiter Ordnung ist grün dargestellt. Es handelt sich um ein Paraboloid, dass sich sich im Entwicklungspunkt mit seiner Krümmung der Funktion f (x, y) anschmiegt. Der Schnitt durch das rechte Bild bei y = 0
führt auf das linke Bild.
48
Kurvenintegrale über Vektorfelder
Wir betrachten nun Vektorfelder, also Funktionen des Typs R3 → R3 .
Gegeben seien ein Vektorfeld ~a(~r) und eine Raumkurve C die den
Anfangspunkt ~ra stetig mit dem Endpunkt ~re verbindet. Berechnet
werden soll ein Integral entlang der Kurve bei dem an jeder Stelle die
Projektion
des Vektorfelds in Tangentenrichtung der Kurve gebildet
Z
wird:
C
® ®
a( r )
®
C
re
®
ra
d~r ·~a(~r).
Physikalische Motivation hierfür ist der Zusammenhang zwischen Arbeit, Kraft und Weg, infinitesimal
~ Will man die Arbeit berechnen, die eine Kraft auf einen Körper ausübt, der
geschrieben: dW = ~
F · dr.
sich entlang einer Trajektorie bewegt, dann ist ein solches Kurvenintegral zu berechnen:
Wea =
Z ~re
~ra
d~r · ~F(~r) .
Ein solches Kurvenintegral lässt sich als Grenzfall einer Riemannschen Summe schreiben:
Z
N−1
C
d~r ·~a(~r) = lim
N→∞
∑ ∆~rk ·~a(~rk ) .
k=0
Wie bei der Bogenlänge wurde eine Zerlegung der Kurve in N Teilintervalle ∆~rk =~rk+1 −~rk vorgenommen, mit |∆~rk | → 0 für N → ∞.
Zur praktischen Berechnung gibt es verschiedene Alternativen, die das Kurvenintegral auf gewöhnliche
eindimensionale Integrale zurückführen.
Möglichkeit 1: Rückführung auf drei eindimensionale Integral entlang der Koordinatenachsen:
Z
C
d~r ·~a(~r) =
Z xe
xa
dx a1 (~r) +
Z ye
ya
dy a2 (~r) +
Z ze
za
dz a1 (~r) .
Hier ist im ersten Integral einzusetzen a1 (x, y(x), z(x)), d.h. x wird als Kurvenparameter verwendet. Entsprechend nimmt man im zweiten Integral a2 (x(y), y, z(y)) und im dritten a3 (x(z), y(z), z). Bei gekrümmten Kurven kann es vorkommen, dass die Funktionen y(x) u.s.w. mehrdeutig sind. Dann muss man das
Integral in Teilbereiche aufteilen, in denen die Funktion jeweils monoton verläuft.
Möglichkeit 2: Parametrisierung von C mittels eines Kurvenparameters u, also~r =~r(u), wobei~r(ua ) =~ra
und~r(ue ) =~re :
Z
C
d~r ·~a(~r) =
Z ue
du
ua
d~r
·~a(~r(u)) ,
du
was ein ganz normales eindimensionales Integral ist.
Konservative Vektorfelder
Für eindimensionale Integral gilt der “Fundamentalsatz der Analysis” wonach Integration und Differentiation zueinander inverse Operationen sind, die sich gegenseitig aufheben. Das bestimmte Integral über
die Ableitung einer Funktion φ (x) liefert demnach die Differenz zwischen den Funktionswerten an den
Integralgrenzen:
Z xe
dx
xa
dφ
= φ (xe ) − φ (xa ) .
dx
49
Diese Formel lässt sich direkt auf Kurvenintegrale ausweiten, wenn man
die eindimensionale
Ableitung durch den
☞Gradienten ersetzt:
✎
Z ~re
✍ ~ra
C
d~r · ~∇φ = φ (~re ) − φ (~ra ) .
✌
e
C1
C2
C3
a
d φ (~r(u)) ~
d~r
Beweis: Wir benutzen die totale Ableitung
= ∇φ ·
und schreiben das Kurvenintegral in ein
du
du
Integral über u zwischen ua und ue um, also
Z ~re
~ra
d~r · ~∇φ =
Z ue
ua
d~r ~
· ∇φ =
du
du
Z ue
du
ua
dφ
= φ (~re ) − φ (~ra ) .
du
Das Ergebnis des Integrals hängt also nur vom Anfangs- und Endpunkt ab, jedoch nicht vom Weg dazwischen! Ein Vektorfeld mit dieser Eigenschaft wird als konservativ bezeichnet. Grund dafür ist der
Zusammenhang mit der Energieerhaltung in der Mechanik.
Wegen der großen Bedeutung konservativer Felder geben wir drei Eigenschaften an, die sie besitzen.
Folgende drei Aussagen sind zueinander äquivalent:
✬
(1) Das Kurvenintegral
Z ~re
C ~ra
d~r ·~a ist wegunabhängig.
✩
(2) Das Vektorfeld lässt sich als Gradient einer skalaren Funktion schreiben: ~a = ~∇φ .
(3) Das Feld ist wirbelfrei: ~∇ ×~a = 0.
✫
✪
Der dritte Punkt wird weiter unten erläutert.
Wir haben bereits gezeigt, dass aus (2) die Wegunabhängigkeit (1) folgt. Nun beweisen wir die umgekehrte Richtung (1) → (2). Wegen der vorausgesetzten Wegunabhängigkeit existiert überall im Raum
eine eindeutig definierte Funktion
φ (~r) =
Z ~r
~ra
d~r ′ ·~a(~r ′ ) .
Geht man zu einem Nachbarpunkt ~r + ∆~r dann ändert sich der Wert dieser Funktion gemäß
Z ~r+∆~r Z ~r Z ~r+∆~r
∆φ = φ (~r + ∆~r) − φ (~r) =
−
d~r ′ ·~a(~r ′ ) =
d~r ′ ·~a(~r ′ ) .
~ra
~ra
~r
Betrachtet man dicht benachbarte Punkte (∆~r → ~0) dann lässt sich die linke Seite durch den ersten Term
der Potenzreihenentwicklung in ∆~r nähern ∆φ ≃ ~∇φ · ∆~r (vergleiche den Abschnitt “Taylorentwicklung
in mehreren Dimensionen”). Für die rechte Seite lässt sich der Mittelwertsatz der Integralrechnung anwenden. Es gibt einen Wert ~r ′′ ∈ [~r,~r + ∆~r] sodass gilt ∆φ = ∆~r ·~a(~r ′′ ) ≃ ∆~r ·~a(~r). Im letzten Schritt
wurde angenommen, dass das Vektorfeld ~a(~r) eine stetige Funktion ist und sich im untersuchten Bereich nur geringfügig ändert. Gleichsetzen der linken und rechten Seite liefert ~∇φ · ∆~r = ~a(~r) · ∆~r. Da ∆~r
beliebig gewählt werden kann folgt daraus ~a = ~∇φ , das Vektorfeld ist also ein Gradientenfeld.
50
Nachdem nun die Äquivalenz von (1) und (2) bewiesen ist betrachten wir noch die Eigenschaft der Wirbelfreiheit (3). Dazu betrachten wir ein beliebiges stetig differenzierbares Vektorfeld ~a(~r) und definieren
✎
☞
∂a
∂a
∂a
∂ a2 ∂ a3 ∂ a1 1
2
−
−
−
~e1 +
~e2 +
~e3
Rotation: rot ~a = ~∇ ×~a =
∂
x
∂
x
∂
x
∂
x
∂
x
∂
x
2
3
3
3
1
2
✍
✌
~
Der Differentialoperator ∇ wird also wie ein Vektor behandelt und es wird formal ein Kreuzprodukt mit
dem zweiten Vektor ~a gebildet.
3
Beispiel: Um zu zeigen, dass der Name “Rotation” gerechtfertigt ist, betrachten wir als Beispiel ein typisches Wirbelfeld, nämlich die Geschwindigkeitsverteilung ~v(~r) der Punkte eines starren Körpers, der sich
~ um eine Achse durch den Koordinatenursprung dreht. In der Mechamit der Winkelgeschwindigkeit ω
~ ×~r. Komponentenweise
nik wird gezeigt, dass die Rotationsgeschwindigkeit gegeben ist durch ~v(~r) = ω
hingeschrieben bedeutet dies
~e1 ~e2 ~e3 ~ ×~r = ω1 ω2 ω3 = (ω2 z − ω3 y)~e1 + (ω3 x − ω1 z)~e2 + (ω1 y − ω2 x)~e3 .
~v = ω
x
y
z Damit folgt für die Rotation
~e1
~e2
~e3
~∇ ×~v = ∂ /∂ x
∂
/
∂
y
∂
/∂ z
ω2 z − ω3 y ω3 x − ω1 z ω1 y − ω2 x
= 2ω1 ~e1 + 2ω2 ~e2 + 2ω3 ~e3 = 2ω
~ .
~ ×~r =
Betrachtet man z.B. eine Drehung um die z-Achse
so ist ~v = ω
ω −y~e1 + x~e2 = ω r⊥ − sin ϕ ~e1 + cos ϕ ~e2 = ω r⊥~eϕ . Der azimutale
Einheitsvktor ~ep
ϕ liegt in der x-y-Ebene tangential am Kreis mit dem
Abstand r⊥ = x2 + y2 von der z-Achse.
Nun beweisen wir die Äquivalenz der Aussagen (2) und (3).
(2) → (3) Behauptung: Gradientenfelder sind wirbelfrei, also
✞
✝
rot grad φ = ~0
~∇ × ~∇φ = ~0 .
oder
☎
✆
∂ ∂φ
∂ ∂φ
−
= 0 usw.
Beweis: ~∇ × ~∇φ 1 =
∂ x2 ∂ x3 ∂ x3 ∂ x2
Es wurde der Satz von Schwarz (Vertauschbarkeit der partiellen Ableitungen) benutzt. Die Rechnung
entspricht genau dem Beweis der Aussage, das das Kreuzprodukt eines Vektors mit sich selbst Null
ergibt.
(3) → (2) Wirbelfreie Felder sind Gradientenfelder. Zu zeigen ist: Wenn
~∇ ×~a gilt, dann muss ein skalares Feld φ existieren mit der Eigenschaft
~a = ~∇φ .
z
Zum Beweis konstruieren wir φ als ein Linienintegral über das Vektorfeld
für folgenden speziellen dreiteiligen Weg von~ra nach~r
C : (xa , ya , za ) → (x, ya , za ) → (x, y, za ) → (x, y, z)
siehe Abbildung (dort wurde der Einfachheit halber ~ra = ~0 gesetzt). Wir
untersuchen also die Funktion
φ (~r) =
Z
C
′
′
d~r ·~a(~r ) =
Z x
xa
′
′
dx ax (x , ya , za ) +
Z y
ya
51
′
′
dy ay (x, y , za ) +
Z z
za
dz′ az (x, y, z′ ) .
®
r
.
y
.
x
Zu zeigen ist, dass der Gradient dieser Funktion mit dem Vektorfeld ~a übereinstimmt. Wir berechnen den
Gradienten komponentenweise:
∂φ
∂z
∂φ
∂y
= az (x, y, z)
= ay (x, y, za ) +
∂
∂y
Z z
Z z
za
dz′ az (x, y, z′ ) = ay (x, y, za ) +
∂
= ay (x, y, za ) + dz′ ′ ay (x, y, z′ )
∂z
za
= ay (x, y, za ) + ay (x, y, z) − ay (x, y, za ) = ay (x, y, z)
Im vorletzten Schritt wurde die Wirbelfreiheit ~∇ ×~a benutzt:
Komponente des Gradienten folgt analog:
Z y
Z z
za
dz′
∂
az (x, y, z′ )
∂y
∂
∂
az (x, y, z′ ) = ′ ay (x, y, z′ ). Für die x∂y
∂z
Z
z
∂ ay
∂ az
= ax (x, ya , za ) + dy
(x, y′ , za ) + dz′
(x, y, z′ )
∂
x
∂
x
ya
za
Z z
Z y
∂
a
∂ ax
x
= ax (x, ya , za ) + dy′ ′ (x, y′ , za ) + dz′ ′ (x, y, z′ )
∂y
∂z
za
ya
= ax (x, ya , za ) + ax (x, y, za ) − ax (x, ya , za ) + ax (x, y, z) − ax (x, y, za )
= ax (x, y, z) .
Damit ist die Behauptung ~a = ~∇φ bewiesen.
∂φ
∂x
′
Mathematische Anmerkung:
Normalerweise ist das skalare Feld φ bei gegebenem Vektorfeld ~a eindeutig bestimmt (bis auf eine additive Konstante). Das gilt jedoch nur, wenn der Definitionsbereich D einfach zusammenhängend ist, so dass sich alle Wege C
mit gleichem Anfangs- und Endpunkt stetig ineinander überführen lassen, ohne auf ein “Hindernis” zu stoßen. Ist
der Bereich D mehrfach zusammenhängend (hat also “Löcher”) dann muss dies nicht mehr stimmen. Dasselbe gilt
auch für die Wegunabhängigkeit des Linienintegrals bei verschwindender Rotation. Auch diese Aussage ist nur für
einfach zusammenhängende Bereiche gesichert. (Siehe z.B. S. Großmann, Mathematischer Einführungskurs für
die Physik, Teubner, 2012, Kap. 6.2.5.)
Betrachten wir als einfaches Gegenbeispiel das Vektorfeld
y x p
ρ = x2 + y2 .
mit
~a(~r ) = − 2 , 2 , 0
ρ ρ
Man prüft leicht nach, dass dieses Feld
rotationsfrei ist ~∇ ×~a = ~0 . Dennoch
R
stellt sich heraus, dass das Integral C d~r · ~a zwischen zwei Punkten davon
abhängen kann, auf welchem Weg C man vom Anfangspunkt zum Endpunkt
gelangt. Das Integral über die beiden skizzierten Kurven C1 und C2 führt zu unterschiedlichen Ergebnissen! Grund dafür ist das Verhalten des Vektorfelds bei
ρ = 0, also auf der z-Achse. Hier verschwindet der Nenner und das Feld divergiert. Deshalb ist der Definitionsbereich D der Funktion ~a(~r ) nicht der ganze
Raum R3 sondern es fehlt ein Teil, nämlich die z-Achse. Topologisch betrachtet ist D ein mehrfach zusammenhängender Bereich: Es kommt darauf an, ob
eine Kurve “links herum” oder “rechts herum” an der z-Achse vorbeiläuft (oder
diese sogar mehrfach umrundet). Ein Übergang zwischen diesen verschiedenen
Klassen von Kurven durch kontinuierliche Verformung ist nicht möglich: dabei würde notwendig eine intermediäre Kurve auftreten, die genau durch die
Singularität hindurchläuft, was nicht zulässig ist.
y
C1
C2
*
x
Dieses Problem macht sich auch bemerkbar, wenn man das Vektorfeld als Gradientenfeld schreiben will ~a(~r ) =
52
~∇φ (~r ). Man bestätigt sofort, dass diese Gleichung durch die “Potentialfunktion”
φ (~r ) = arctan
y
x
erfüllt wird. Der inverse Tangens ist aber bekanntliche eine mehrdeutige Funktion.
Die Divergenz
Ableitungen eines Vektorfelds ~a(~r) können auf verschiedene Arten gebildet werden. Bei der Rotation
wirkt der Differentialoperator ~∇ in Form eines Kreuzprodukts auf des Vektorfeld, des Resultat ist auch
wieder ein Vektorfeld. Aus der Vektoralgebra ist bekannt, dass sich Vektoren aber auch per Skalarprodukt
multiplizieren lassen. Für den Nablaoperator führt dies auf die Definition
☞
✎
∂ a1 ∂ a2 ∂ a3
Divergenz: div~a = ~∇ · ~a =
+
+
.
∂ x1 ∂ x2 ∂ x3 ✌
✍
Auch die Divergenz hat eine anschauliche geometrische Interpretation, die schon durch den Namen angedeutet wird: Besitzt ein Feld in einem Raumbereich eine nichtverschwindende positive Divergenz, dann
besteht dort eine “Quelle” aus der etwas “herausfließt”. Entsprechend enthält ein Bereich mit negativer
Divergenz eine “Senke” in der etwas verschwindet. Am anschaulichsten ist dies für Strömungen von
Gasen oder Flüssigkeiten, wobei man als Vektorfeld die Geschwindigkeitsverteilung betrachtet.
Beispiel: Die Divergenz eines beliebigen kugelsymmetrischen Felds ~a = f (r)~r lautet mit Produkt- und
Kettenregel
∂
∂
∂
( f x) + ( f y) + ( f z)
∂x
∂y
∂z
∂r ′
∂x ∂r ′
∂y ∂r ′
∂z
f x+ f
+
f y+ f
+
f z+ f
=
∂x
∂x ∂y
∂y ∂z
∂z
2
y
z
r
x ′
f x + f + f ′y + f + f ′z + f = f ′ + 3 f = r f ′ + 3 f .
=
r
r
r
r
In zwei Spezialfällen findet man einen konstanten Wert der Divergenz. Für den Fall ~a =~r, also f (r) = 1,
ergibt sich ~∇ ·~a = 3. Für den Fall ~a = r~r3 , also f (r) = 1/r3 folgt verschwindende Divergenz: ~∇ ·~a = 0.
Im zweiten Fall ist aber zu beachten, dass bei r = 0 eine Singularität vorliegt. An dieser Stelle hat das
Feld eine unendlich große positive Divergenz. (Anmerkung: Man beachte, dass das Wort “Divergenz”
zwei ganz unterschiedlichen Bedeutungen hat. Es bezeichnet einmal die hier definierte Ableitung eines
Vektorfelds und andererseits das Unendlichwerden einer Funktion.)
~∇ ·~a =
✞
☎
Ein wichtiges Resultat der Vektoranalysis ist folgende Gleichung
div rot ~a = ~∇ · (~∇ ×~a) = 0 .
✝
✆
Beweis : ~∇ · (~∇ ×~a) = ~∇ · (∂y a3 − ∂z a2 )~e1 + (∂z a1 − ∂x a3 )~e2 + (∂x a2 − ∂y a1 )~e3
= ∂x (∂y a3 − ∂z a2 ) + ∂y (∂z a1 − ∂x a3 ) + ∂z (∂x a2 − ∂y a1 )
= ∂x ∂y a3 − ∂x ∂z a2 + ∂y∂z a1 − ∂y∂x a3 + ∂z ∂x a2 − ∂z ∂y a1 = 0
wobei die Vertauschbarkeit der partiellen Ableitungen benutzt wurde (Satz von Schwarz).
Diese Gleichung ist das Gegenstück zur Formel rot grad φ = ~∇ × (~∇φ ) = ~0.
Für Divergenz und Rotation eines Produkts von skalaren und Vektorfeldern gilt die Produktregel in der
53
gewohnten Form:
~∇ · (φ~a) = ~∇φ ·~a + φ ~∇ ·~a ,
~∇ × (φ~a) = ~∇φ ×~a + φ ~∇ ×~a ,
wie man durch komponentenweises Hinschreiben leicht beweist. Für die Rotation eines Kreuzprodukts
von Vektorfeldern ~∇ × (~a ×~b) gibt es aber keine ähnlich einfache Formel!
Der Laplace-Operator
Eine besonders einfache und wichtige Kombination von partiellen Ableitungen zweiter Ordnung ergibt
sich aus
✎
∂2
∂2
∂2
∆φ = div grad φ = ~∇ · ~∇φ = 2 φ + 2 φ + 2 φ .
∂x
∂y
∂z
✍
✌
∂2
∂2
+
eingeführt, der den Namen
∂ x2 ∂ y2 ∂ z2
Laplace-Operator trägt. Es handelt sich um einen linearen Differentialoperator zweiter Ordnung.
Hier wurde der quadrierte Nabla-Operator ∆ = ~∇2 =
54
∂2
☞
+
7 Krummlinige Koordinaten
7.1 Koordinatentransformationen
Viele Probleme weisen spezielle Symmetrieeigenschaften auf und lassen sich einfacher behandeln, wenn
man daran angepasste Koordinaten verwendet. Liegt beispielsweise sphärische Symmetrie vor, dann
empfiehlt sich die Verwendung von Kugelkoordinaten. Wir betrachten die Einführung neuer Koordinaten zunächst ganz allgemein und diskutieren anschließend die beiden wichtigsten Beispiele, nämich
Zylinderkoordinaten und Kugelkoordinaten.
Der Übergang von den cartesischen Koodinaten (x, y, z) oder äquivalent (x1 , x2 , x3 ) zu neuen Koordinaten
(q1 , q2 , q3 ) erfolgt durch einen Satz von drei Transformationsgleichungen
q1 = q1 (x1 , x2 , x3 )
q2 = q2 (x1 , x2 , x3 )
q3 = q3 (x1 , x2 , x3 )
x1 = x1 (q1 , q2 , q3 )
x2 = x2 (q1 , q2 , q3 )
x3 = x3 (q1 , q2 , q3 )
oder invertiert
wobei wieder darauf verzichtet wird, den Funktionen eigene Namen zu geben. Wir fordern, dass die
Transformationsgleichungen invertierbar sind, dass also jedem Tripel von Koordinatenwerten im einen
System eindeutig ein Tripel im anderen System zugeordnet wird. Allerdings kann es in der Praxis vorkommen, dass einzelne singuläre Stellen existieren an denen diese Bedingung verletzt wird. Hierauf muss
man dann besonderes Augenmerk richten. Außerdem fordern wir, dass die Transformationsfunktionen
hinreichend oft differenzierbar sind.
Geometrische Interpretation: Wir betrachten den Koordinatenvektor ~r als Funktion der neuen Koordinaten
~r =~r(q1 , q2 , q3 ) = x1 (q1 , q2 , q3 ), x2 (q1 , q2 , q3 ), x3 (q1 , q2 , q3 ) ,
In dieser Form sieht man der Transformationsgleichung wegen der Abhängigkeit von drei unabhängigen
Koordinaten nicht viel an. Einfacher wird es, wenn man die Zahl der Freiheitsgrade reduziert. Werden
zwei der drei Koordinaten festgehalten, dann bleibt jeweils nur noch eine unabhängige Variable qi übrig
(i = 1, 2, oder 3). Geometrisch werden auf diese Weise drei Raumkurven definiert, jeweils mit qi als
Kurvenparameter. Es entstehen die
Koordinatenlinien
x3
L1 : ~r =~r(q1 , q2 = c2 , q3 = c3 )
L3
®
eq
L2 : ~r =~r(q1 = c1 , q2 , q3 = c3 )
L3 : ~r =~r(q1 = c1 , q2 = c2 , q3 )
F2
3
e®q
L1
Diese Linien sind im Spezialfall cartesischer Koordinaten einfach Geraden parallel zu den Achsen des Koordinatensystems.
Im Allgemeinen wird es sich aber um gekrümmte Kurven handeln, weshalb man von krummlinigen Koordinaten spricht.
e®q
1
F1
2
F3
L2
x1
x2
Wird nur eine der drei Koordinaten qi festgehalten, dann verbleibt ein vektorwertige Funktion von zwei
Variablen, was geometrisch der Parameterdarstellung einer zweidimensionalen Fläche im dreidimensio-
55
nalen Raum entspricht. Auf diese Weise entstehen die drei Koordinatenflächen
F1 : ~r =~r(q1 = c1 , q2 , q3 )
F2 : ~r =~r(q1 , q2 = c2 , q3 )
F3 : ~r =~r(q1 , q2 , q3 = c3 )
Man erkennt sofort: Jede Koordinatenlinie entsteht durch den Schnitt zweier Koordinatenflächen, also
L1 = F2 ∩ F3 , L2 = F1 ∩ F3 und L3 = F2 ∩ F3 . Ein Raumpunkt ~r wird beschrieben als Schnittpunkt von
drei Koordinatenflächen Fi . Die drei Konstanten ci sind gerade die Koordinatenwerte des Punkts im neuen
Koordinatensystem: ~r =~r(q1 = c1 , q2 = c2 , q3 = c3 ). Natürlich liegt der Punkt ~r auch im Schnittpunkt
von drei Koordinatenlinien.
Von Interesse ist die Richtung der Koordinatenlinien in einem Punkt. Diese Richtung erfährt man durch
Bildung der Tangenten-Einheitsvektoren ~T , in diesem Fall also der
Koordinaten-Einheitsvektoren:
✎
∂~r/∂ qi
~eqi =
|∂~r/∂ qi |
✍
☞
für
✌
i = 1, 2, 3
Den im Nenner stehenden Normierungsfaktor bezeichnet man als
☞
✎
∂~r ∂~r
Skalenfaktor:
hi = = hi ~eqi .
sodass gilt
∂ qi
∂ qi
✍
✌
Im Gegensatz zu den cartesischen Einheitsvektoren ~e1 , ~e2 , ~e3 handelt es sich bei den Vektoren ~eqi in
krummlinigen Koordinaten um variable Einheitsvektoren, ihre Richtung ist also im Allgemeinen ortsabhängig. Die drei Einheitsvektoren ~eqi in einem Punkt können ein Orthogonalsystem bilden, müssen
dies aber nicht. Ist diese Bedingung erfüllt, dann spricht man von einem orthogonalen Koordinatensystem. Die wichtigsten in den Anwendungen vorkommenden krummlinigen Koordinatensysteme erweisen
sind sich als orthogonal, was den Umgang mit ihnen vereinfacht.
Beispiel 1: Zylinderkoordinaten
z
Die Zylinderkoordinaten (ρ , ϕ , z) eines Punkts P sind wie folgt
definiert:
ρ : Abstand des Punkts P von der z-Achse
ϕ : Winkel zwischen der x-Achse und der Projektion
von P auf die x-y-Ebene (Azimutalwinkel)
z : Cartesische z-Koordinate (Länge der Projektion von
P auf die z-Achse)
®
ez
®
ej
z
®
er
®
r
j
r
y
x
Die Transformationsgleichungen lauten

 x = ρ cos ϕ
y = ρ sin ϕ

z = z
⇐⇒
p

x2 + y2 , 0 ≤ ρ < ∞

 ρ =
y
, 0 ≤ ϕ < 2π
ϕ = arctan

x

z = z
, −∞ < z < +∞
Eine Besonderheit tritt auf der z-Achse auf, also bei x = y = 0: Wegen der Unbestimmtheit von x/y =
0/0 lässt sich hier der Winkel ϕ aus der inversen Transformationsgleichung nicht ermitteln und kann
beliebige Werte annehmen. In der anderen Richtung ist die Transformation jedoch eindeutig: Zu jeder
Kombination (ρ , ϕ , z) gehört genau ein Punkt (x, y, z).
56
Die Koordinatenlinien in Zylinderkoordinaten sind:
L1 (ϕ und z const) : Radial gerichteter Strahl in Höhe z mit Azimutalrichtung ϕ
L2 (ρ und z const) : Konzentrischer Kreis in Höhe z mit Radius ρ
L3 (ρ und ϕ const) : Parallele zur z-Achse im Abstand ρ unter dem Azimutalwinkel ϕ
Die Koordinatenflächen sind:
F1 (ρ = const) : Zylindermantel mit Radius ρ
F2 (ϕ = const) : Halbebene, ausgehend von der z-Achse unter dem Azimutalwinkel ϕ
F3 (z = const) : Ebene parallel zur x-y-Ebene, um z verschoben
Die Koordinaten-Einheitsvektoren (auch Basisvektoren genannt), ausgedrückt durch ihre cartesischen
Komponenten (also ihre Zerlegung bezüglich ~e1 , ~e2 , und ~e3 ) lauten
~eρ
=
~eϕ
=
(cos ϕ , sin ϕ , 0)
∂~r/∂ ρ
= (cos ϕ , sin ϕ , 0) ,
=q
|∂~r/∂ ρ |
cos2 ϕ + sin2 ϕ
(−ρ sin ϕ , ρ cos ϕ , 0)
∂~r/∂ ϕ
= (− sin ϕ , cos ϕ , 0) ,
=q
|∂~r/∂ ϕ |
ρ 2 sin2 ϕ + ρ 2 cos2 ϕ
~ez = (0, 0, 1) .
Die drei Skalenfaktoren lauten:
hρ = 1, hϕ = ρ und hz = 1.
Man sieht sofort, dass die drei Koordinaten-Einheitvektoren in jedem Punkt ein orthogonales Dreibein
bilden: ~eqi · ~eq j = δi j . Bei den Zylinderkoordinaten handelt es sich also um ein orthogonales Koordinatensystem.
z
z
z
®
ez
®
er
®
ej
z
j
j
r
j
y
y
x
x
r = const
y
x
j = const
z = const
Zum Abschluss berechnen wir die Zerlegung von Geschwindigkeit und Beschleunigung eines Teilchen,
das sich auf einer Trajektorie ~r(t) bewegt, bezüglich der Basisvektoren in Zylinderkoordinaten. Dazu
57
wird die Zeitableitung der Basisvektoren benötigt. Die Kettenregel liefert
d~eρ
dt
=
∂~eρ d ρ ∂~eρ d ϕ ∂~eρ dz
+
+
= (− sin ϕ , cos ϕ , 0)ϕ̇ =~eϕ ϕ̇ ,
∂ ρ dt
∂ ϕ dt |{z}
∂ z dt
|{z}
=0
=0
d~eϕ
∂~eϕ d ϕ
=
= (− cos ϕ , − sin ϕ , 0)ϕ̇ = −~eρ ϕ̇
dt
∂ ϕ dt
d~ez
= 0.
dt
Damit ergibt sich folgende Zerlegung für den Ortsvektor, die Geschwindigkeit und die Beschleunigung
in Zylinderkoordinaten:
~r = ρ ~eρ + z~eρ ,
~v = ~r˙ = ρ̇ ~eρ + ρ ~e˙ρ + ż~ez + z~e˙z
= ρ̇ ~eρ + ρ ϕ̇ ~eϕ + ż~ez ,
~a = ~r¨ = ~v˙ = ρ̈ ~eρ + ρ̇ ~e˙ρ + ρ̇ ϕ̇ ~eϕ + ρ ϕ̈ ~eϕ + ρ ϕ̇ ~e˙ϕ + z̈~ez + ż~e˙z
= ρ̈ ~eρ + ρ̇ ϕ̇ ~eϕ + ρ̇ ϕ̇ ~eϕ + +ρ ϕ̈ ~eϕ + ρ ϕ̇ (−ϕ̇ ~eρ ) + z̈~ez
= (ϕ̈ − ρ ϕ̇ 2)~eρ + (ρ ϕ̈ + 2ρ̇ ϕ̇ )~eϕ + z̈~ez .
Beim zweiten Term der Radialbeschleunigung handelt es sich um die Zentripetalbeschleunigung
−ρ ϕ̇ 2 ~eρ . Die beiden Summanden des Winkelbeschleunigung lassen sich zusammenfassen zu
1 d 2 ρ ϕ̇ ~eϕ .
ρ dt
Beispiel 2: Kugelkoordinaten
z
®
Definition der Kugelkoordinaten (r, θ , ϕ ) eines Punkts P:
er
®
ej
r : Abstand des Punkts P vom Koordinatenursprung O
θ : Polarwinkel (Winkel zwischen dem Ortsvektor ~r
und der z-Achse)
ϕ : Azimutalwinkel (wie bei Zylinderkoordinaten)
®
eq
r
q
j
y
x
Die Transformationsgleichungen lauten

 x = r sin θ cos ϕ
x = r sin θ sin ϕ

z = r cos θ
⇐⇒
p

x2 + y2 + z2
r
=


p


x2 + y2
θ = arctan

z


 ϕ = arctan y
x
, 0≤r<∞
, 0≤θ ≤π
, 0 ≤ θ < 2π
Auch hier ist wieder der Azimutalwinkel auf der z-Achse undefiniert. Zusätzlich ist am Ursprung O auch
noch der Polarwinkel θ unbestimmt.
Man beachte den Unterschied zu den in der Geographie benutzten Koordinaten: Dort wird statt des Polarwinkels
die geographische Breite θ̃ = π2 − θ mit dem Wertebereich − π2 ≤ θ̃ ≤ π2 benutzt.
58
Die Koordinatenlinien in Kugelkoordinaten sind:
L1 (θ und ϕ const) : Strahl auf dem Kegelmantel mit Öffnungswinkel θ
L2 (r und ϕ const) : Halbkreis mit Radius r (“Längenkreis”)
L3 (r und θ const) : Kreis um die z-Achse parallel zur x-y-Ebene (“Breitenkreis”)
Die Koordinatenflächen sind:
F1 (r = const) : Kugeloberfläche mit Radius r
F2 (θ = const) : Kegelmantel mit Öffnungswinkel θ
F3 (ϕ = const) : Halbebene unter dem Azimutalwinkel ϕ (wie F2 bei Zylinderkoordinaten)
Die Ableitungen des Ortsvektors nach den Kugelkoordinaten lauten
∂~r
∂r
∂~r
∂θ
∂~r
∂ϕ
= (sin θ cos ϕ , sin θ sin ϕ , cos θ ) ,
= (r cos θ cos ϕ , r cos θ sin ϕ , −r sin θ ) ,
= (−r sin θ sin ϕ , r sin θ cos ϕ , 0) .
∂~r ∂~r ∂~r Für die Skalenfaktoren ergibt sich hr = = 1, hθ = = r und hϕ = = r sin θ .
∂r
∂θ
∂ϕ
Damit folgen die Koordinaten-Einheitsvektoren
~er = (sin θ cos ϕ , sin θ sin ϕ , cos θ ) ,
~eθ
~eϕ
= (cos θ cos ϕ , cos θ sin ϕ , − sin θ ) ,
= (− sin ϕ , cos ϕ , 0) .
Die Berechnung der Skalarprodukte zeigt, dass diese Vektoren wieder ein orthogonales Dreibein bilden,
so dass auch die Kugelkoordinaten orthogonale Koordinaten sind.
z
z
z
®
er
®
q
r
q
®
eq
j
ej
j
y
x
j
y
y
x
x
r = const
q
q = const
j = const
Betrachten wir wieder die Bewegung eines Teilchens auf einer Trajektorie ~r(t). Für die Zeitableitungen
59
der Basisvektoren gilt
∂~er
∂~er
θ̇ +
ϕ̇ = (cos θ cos ϕ , cos θ sin ϕ , − sin θ )θ̇ + (− sin θ sin ϕ , sin θ cos ϕ , 0)ϕ̇
∂θ
∂ϕ
= θ̇ ~eθ + sin θ ϕ̇ ~eϕ ,
d~er
dt
=
d~eθ
dt
= (− sin θ cos ϕ , − sin θ sin ϕ , − cos θ )θ̇ + (− cos θ sin ϕ , cos θ cos ϕ , 0)ϕ̇
= −θ̇ ~er + cos θ ϕ̇ ~eϕ
d~eϕ
= (− cos ϕ , − sin ϕ , 0)ϕ̇ = − sin θ ϕ̇ ~er − cos θ ϕ̇ ~eθ .
dt
Damit lassen sich Geschwindigkeit und Beschleunigung in Kugelkoordinaten ausdrücken. Man findet
nach einigen Rechenschritten
~r = r~er ,
~v = ṙ~er + rθ̇ ~eθ + rϕ̇ sin θ ~eϕ ,
~a = (r̈ − rθ̇ 2 − rϕ̇ 2 sin2 θ )~er + (2ṙθ̇ + rθ̈ − rϕ̇ 2 sin θ cos θ )~eθ
+(2ṙϕ̇ sin θ + 2rϕ̇ θ̇ cos θ + rϕ̈ sin θ )~eϕ .
Im Spezialfall einer planaren Bewegung in der x-y-Ebene, also θ =
Ergebnis zu
π
2
und θ̇ = 0, vereinfacht sich das
~v = ṙ~er + rϕ̇ ~eϕ ,
~a = (r̈ − rϕ̇ 2 )~er + (2ṙϕ̇ + rϕ̈ )~eϕ .
In diesem speziellen zweidimensionalen Fall stimmen Zylinder- und Kugelkoordinaten überein (es ist
ρ = r).
7.2 Differentialoperatoren für krummlinige orthogonale Koordinaten
Um krummlinige Koordinaten in der Vektoranalysis verwenden zu können, müssen die Differentialoperatoren transformiert werden. Naiv könnte man vermuten, dass es genügt, den Nabla-Operator durch
∂
∂
∂ ~∇ = ∂ , ∂ , ∂
,
,
→
zu ersetzen. Das wäre aber zu einfach gedacht. Das kor∂ x1 ∂ x2 ∂ x3
∂ q1 ∂ q2 ∂ q3
rekte Ergebnis ist komplizierter und muss für die drei Operationen Gradient, Rotation und Divergenz
separat berechnet werden.
Der Gradient:
Als Ausgangspunkt betrachten wir das totale Differential einer (skalaren) Funktion φ (~r), also d φ =
~∇φ · d~r. Der Wert d φ gibt an, um wieviel sich der Funktionswert bei einer Verschiebung d~r des Ortsvektors verändert und hängt somit nicht vom verwendeten Koordinatensystem ab. Ausgedrückt durch die
transformierten Koordinaten lautet die Verschiebung gemäß Kettenregel
d~r =
∂~r
∂~r
∂~r
dq1 +
dq2 +
dq3
∂ q1
∂ q2
∂ q3
= h1 ~eq1 dq1 + h2~eq2 dq2 + h3~eq3 dq3
1 ∂~r
benutzt wurde. Da diese drei Vektohi ∂ qi
ren den Raum R3 aufspannen, lässst sich jeder Vektor als Linearkombination in dieser Basis ausdrücken.
wobei die Definition der Koordinaten-Einheitsvektoren ~eqi =
60
Für den Gradienten kann man also ansetzen
~∇φ = ∇q φ ~eq + ∇q φ ~eq + ∇q φ ~eq .
1
1
2
2
3
3
Für das totale Differential ergibt sich somit allgemein
3 3
d φ = ∑ ∑ hi ∇q j φ ~eqi · ~eq j dqi .
i=1 j=1
Wir betrachten ab jetzt nur den Spezialfall orthogonaler Koordinatensysteme. Dann gilt ~eqi · ~eq j = δi j
und das Resultat für das totale Differential vereinfacht sich zu
d φ = h1 ∇q1 φ dq1 + h2 ∇q2 φ dq2 + h3 ∇q3 φ dq3 .
Andererseits gilt aber auch nach der Kettenregel der Differentiation
dφ =
∂φ
∂φ
∂φ
dq1 +
dq2 +
dq3 .
∂ q1
∂ q2
∂ q3
Gleichsetzen dieser beiden Resultate und Koeffizientenvergleich liefert als Formel für den
Gradienten in krummlinigen Koordinaten:
✎
~∇φ =~eq 1 ∂ φ +~eq 1 ∂ φ +~eq 1 ∂ φ
1
2
3
h1 ∂ q1
h2 ∂ q2
h3 ∂ q3
✍
oder auch
1 ∂φ
∇qi φ =
.
hi ∂ qi
☞
✌
Als spezielle Anwendung betrachten wir das Beispiel die drei Funktionen φ = qi , d.h. der Wert der
Koordinate Nummer i selbst definiert die zu differenzierende Funktion. Dann folgt
~∇qi = 1 ~eq .
hi i
Wie nicht anders zu erwarten, zeigt der Gradient in Richtung des Tangentenvektors an die Koordinatenlinie, denn dies ist die Richtung, in der die Koordinate qi anwächst.
Die Rotation:
Zu berechnen ist rot ~a ≡ ~∇ ×~a mit dem Vektorfeld ~a = aq1 ~eq1 + aq2 ~eq2 + aq3 ~eq3 . Wegen der Linearität
dieser Operation kann man die drei Summanden getrennt
behandeln. Wirbetrachten den ersten Summan
~
~
den, formen diesen trickreich um ∇ × aq1 ~eq1 = ∇ × (aq1 h1 ) ( h11 ~eq1 ) und benutzen die Produktregel
~∇ × ( f ~v) = ~∇ f ×~v + f ~∇ ×~v, also
1
1
~
~∇ × aq ~eq
~
~eq
= ∇ aq1 h1 × ~eq1 + aq1 h1 ∇ ×
1
1
h1
h1 1
1
= ~∇ aq1 h1 × ~eq1 + aq1 h1 ~∇ × ~∇q1
| {z }
h1
rot grad q1 =0
=
1 1 ∂
1 ∂
1 ∂
aq1 h1 +~eq2
aq1 h1 +~eq3
aq1 h1 × ~eq1
~eq1
h1
h1 ∂ q1
h2 ∂ q2
h3 ∂ q3
Man sieht, warum der Faktor 1 = h1 /h1 eingeführt wurde: Mit diesem Trick ließ sich das Argument
unter der Rotation als Gradient schreiben, dessen Rotation dann verschwindet. Da die KoordinatenEinheitsvektoren nach Voraussetzung ein orthogonales Dreibein bilden gilt1
~eq1 × ~eq2 =~eq3
1 Die
, ~eq2 × ~eq3 =~eq1
, ~eq3 × ~eq1 =~eq2 .
Reihenfolge der Koordinaten sei so gewählt, dass dieses Dreibein rechtshändig ist.
61
Damit lässt sich das letzte Resultat umformen zu
~∇ × aq ~eq = 1 − 1 ∂ aq h1 ~eq + 1 ∂ aq h1 ~eq .
3
2
1
1
h1
h2 ∂ q2 1
h3 ∂ q3 1
Die analogen Ergebnisse für die beiden anderen Komponenten des Vektors ~a ergeben sich durch zyklisches Vertauschen der Koordinaten. Damit lautet die Formel für die
Rotation in krummlinigen Koordinaten:
1
∂
∂
∂
∂
~∇ ×~a = ~eq 1
aq h3 −
aq h2 +~eq2
aq h1 −
aq h3
1
h2 h3 ∂ q2 3
∂ q3 2
h1 h3 ∂ q3 1
∂ q1 3
1
∂
∂
+ ~eq3
aq h2 −
aq h1 .
h1 h2 ∂ q1 2
∂ q2 1
Dieses Resultat lässt sich auch kompakter in Form einer Determinante schreiben:
✛
✘
h1 ~eq
h
~
e
h
~
e
2 q2
3 q3 1
1
~∇ ×~a =
det ∂ /∂ q1 ∂ /∂ q2 ∂ /∂ q3 .
h1 h2 h3
aq1 h1 aq2 h2 aq3 h3 ✚
Die Divergenz:
Zu berechnen ist
✙
div ~a = ~∇ ·~a = ~∇ · aq1 ~eq1 + aq2 ~eq2 + aq3 ~eq3 .
Um dies durch Ableitungen nach den qi auszudrücken sind ziemlich trickreiche Umformungen erforderlich. Wir betrachten den ersten Summanden, benutzen die Tatsache, dass die Tangenten-Einheitsvektoren
ein orthogonales Dreibein bilden und verwenden wieder die Formel ~eqi = hi~∇qi :
~∇ · aq ~eq = ~∇ · aq ~eq ×~eq = ~∇ · aq h2 h3~∇q2 × ~∇q3 .
1
1
2
3
1
1
Die Produktregel für Divergenzen
~∇ · ( f ~v) = ~∇ f ·~v + f ~∇ ·~v
liefert
~∇ · aq ~eq = ~∇ aq h2 h3 · ~∇q2 × ~∇q3 + aq h2 h3 ~∇ · ~∇q2 × ~∇q3 .
1
1
1
1
Es stellt sich heraus, dass der zweiter Summand verschwindet. Dies sieht man bei Benutzung der Formel
für die Divergenz von Kreuzprodukten
~∇ · (~a ×~b) = ~b · (~∇ ×~a) −~a · (~∇ ×~b) .
Die hier auftretenden Vektoren ~a = ~∇q2 und ~b = ~∇q3 sind Gradienten der Koordinaten, so dass wieder
die Formel rot grad qi = 0 zum Zuge kommt. Es verbleibt
1
1
~∇ · aq ~eq
~eq2 ×~eq3 = ~∇ aq1 h2 h3 ·
~eq
= ~∇ aq1 h2 h3 ·
1
1
h2 h3
h2 h3 1
1 ∂
1
1
∂
= ~eq1
aq1 h2 h3 + Terme in ~eq2 und ~eq3 ·
~eq1 =
aq1 h2 h3 .
h1 ∂ q1
h2 h3
h1 h2 h3 ∂ q1
62
Damit ergibt sich schließlich für die
Divergenz in krummlinigen Koordinaten:
✎
☞
∂
∂
∂
1
~∇ ·~a =
aq h2 h3 +
aq h1 h3 +
aq h1 h2 .
h1 h2 h3 ∂ q1 1
∂ q2 2
∂ q3 3
✍
✌
Abschließend betrachten wir noch den
Laplace-Operator in krummlinigen Koordinaten:
1 ∂φ
1 ∂φ
1 ∂φ +~eq2
+~eq3
∆φ = ~∇ · (~∇φ ) = ~∇ · ~eq1
h1 ∂ q1
h2 ∂ q2
h3 ∂ q3
oder ausgeschrieben
✎
☞
1
∂ h2 h3 ∂ φ ∂ h1 h3 ∂ φ ∂ h1 h2 ∂ φ ∆φ =
+
+
.
h1 h2 h3 ∂ q1 h1 ∂ q1
∂ q2 h2 ∂ q2
∂ q3 h3 ∂ q3
✍
✌
Mit den hergeleiteten allgemeinen Formeln ist es nur noch Schreibarbeit, die Differentialoperatoren für
konkrete Beispiele von (orthogonalen) krummlinigen Koordinaten anzugeben.
✞
Beispiel Zylinderkoordinaten
Die Skalenfaktoren lauten
~∇φ
=
~∇ ·~a =
~∇ ×~a =
∆φ
=
Die Skalenfaktoren lauten
=
~∇ ·~a =
~∇ ×~a =
∆φ
=
✝
hρ = 1 , hϕ = ρ , hz = 1.
☎
✆
∂φ
∂φ
1 ∂φ
~eρ +
~eϕ +
~ez ,
∂ρ
ρ ∂ϕ
∂z
∂ aϕ
∂ az 1 ∂
ρ aρ +
+ρ
,
ρ ∂ρ
∂ϕ
∂z
∂a
∂ aρ ∂ aϕ 1 ∂ az
∂ az 1 ∂
ρ
~eρ +
−
~eϕ +
~ez ,
−ρ
ρ aϕ −
ρ ∂ϕ
∂z
∂z
∂ρ
ρ ∂ρ
∂ϕ
1 ∂ ∂ φ 1 ∂ 2φ ∂ 2φ
.
+ 2
ρ
+
ρ ∂ρ
∂ρ
ρ ∂ ϕ 2 ∂ z2
Beispiel Kugelkoordinaten
~∇φ
(ρ , ϕ , z)
✞
(r, θ , ϕ )
✝
hr = 1 , hθ = r , hϕ = r sin θ .
☎
✆
1 ∂φ
∂φ
1 ∂φ
~er +
~eθ +
~eϕ ,
∂r
r ∂θ
r sin θ ∂ ϕ
1 ∂ aϕ
1 ∂ 2 1
∂
,
sin θ aθ +
r ar +
2
r ∂r
r sin θ ∂ θ
r sin θ ∂ ϕ
∂ aθ ∂ ar ∂
1 ∂
1 ∂
1 ∂ ar
− sin θ
sin θ aϕ −
r aϕ ~eθ +
r aθ −
~er +
~eϕ ,
r sin θ ∂ θ
∂ϕ
r sin θ ∂ ϕ
∂r
r ∂r
∂θ
∂ 2φ
1
∂ 1
∂φ 1 ∂ 2 ∂φ .
r
+
sin
+
θ
r2 ∂ r
∂r
r2 sin θ ∂ θ
∂θ
r2 sin2 θ ∂ ϕ 2
63
8 Flächen- und Volumenintegration
Häufig ist man vor das Problem gestellt, Integrale über Bereiche mit mehr als einer Dimension zu berechnen. Vorgegeben ist eine Funktion f (~r) und gefragt wird nach dem Wert des Integrals dieser Funktion über eine vorgegebene Fläche (zweidimensional) oder ein vorgegebenes Volumen (dreidimensional)
im Raum. Die zu integrierende Funktion kann eine skalare Größe sein (Beispiel: Massendichte eines
Körpers) oder auch vektoriellen Charakter tragen (Beispiel: Flussintegral durch eine Fläche).
8.1 Flächenintegrale
Ebene Flächen
Am einfachsten ist ein Flächenintegral zu berechnen, wenn der Integrationsbereich eine ebene Fläche F
ist. Das Koordinatensystem lässt sich in diesem Fall so wählen, dass F in der x-y-Ebene liegt. Zunächst
soll der Fall des Integrals über eine skalare Funktion f (x, y) untersucht werden.
Das gesuchte Flächenintegral kann wie im eindimensionalen Fall über eine Riemannsumme definiert und
berechnet werden. Wir zerlegen die Fläche F in viele kleine Teilbereiche ∆Fk und summieren auf1 :
ZZ
N
∑ f (xk , yk )∆Fk .
N→∞
dF f (x, y) = lim
F
k=1
Hierbei ist (xk , yk ) ein Punkt im Inneren des Teilstücks ∆Fk (auf die genaue Position kommt es nicht an)
und es muss sichergestellt sein, dass die ∆Fk sich nicht überlappen und zusammen die Fläche überdecken:
F=
N
S
k=1
∆Fk und ∆Fi ∩ ∆Fj = 0 für i 6= j. Beim Grenzübergang N → ∞ nimmt man eine fortschreitende
Verfeinerung der Zerlegung vor, wobei die Größe aller Teilstücke gegen Null gehen muss (und zwar
nicht nur die Fläche sondern auch die Ausdehnung sowohl in x- wie in y-Richtung). Die Form der ∆Fk ist
bei dieser Definition des Flächenintegrals zunächst nicht vorgegeben. Man könnte Dreiecke, Sechsecke
usw. oder auch ein Gemisch verschiedener Formen verwenden. Eine Zerlegung in Rechtecke ist jedoch
am praktischsten, denn sie erlaubt sofort eine Rückführung auf die eindimensionale Integration.
Iterierte Integration
Wir nehmen zunächst an, dass die Fläche keine Löcher
oder Einbuchtungen aufweist oder, mathematisch ausgedrückt, dass F eine konvexe Form besitzt. Eine Punktmenge heisst konvex, wenn zu jedem Paar von Punkten
in der Menge auch deren Verbindungsgerade zur Menge
gehört. Dadurch wird impliziert, dass jede Gerade parallel
zur x- oder zur y-Achse den Rand von F höchstens zweimal schneidet. Der Rand von F lässt sich dann in einen
“unteren” und einen “oberen” Teil zerlegen und durch zwei
Kurven
y = ya (x)
und
y
DFk
yb(x)
ya(x)
xa
xb
x
y = yb (x)
beschreiben. Die Kurven sollen im Intervall xa ≤ x ≤ xb eindeutig definiert sein. Zur Sicherheit fordern
wir auch noch ihre die Stetigkeit.
1 Meistens
R
wird darauf verzichtet, mehrere Integralzeichen hinzuschreiben. Auch die Notation d 2 r findet Verwendung
64
Nun benutzen wir zur Zerlegung Rechtecke ∆Fk = ∆xk ∆yk . Dann ergibt sich im Grenzfall für das Flächenintegral
ZZ
dF f (x, y) =
ZZ
dxdy f (x, y) =
xa
F
F
Z xb
Z
dx
yb (x)
ya (x)
dy f (x, y) .
Es wird also bei festgehaltenem x-Wert eindimensional über vertikale Streifen in y-Richtung integriert.
Das x-abhängige Resultat dient dann als Integrand einer zweiten eindimensionalen Integration in yRichtung. Auf diese Weise ist das Flächenintegral auf eine zweifache iterierte Integration in jeweils einer
Dimension zurückgeführt. Es ist deshalb nicht notwendig, für Flächenintegrale neue Integrationsregeln
und -verfahren zu entwickeln!
Auf die Reihenfolge der Teilintegrationen kommt es nicht
an. Ebenso gut kann man den Rand in einen “linken” und
einen “rechten” Teil zerlegen, mit den Kurven
x = xa (y) und
dF f (x, y) =
Z yb
ya
F
Z
dy
DFk
xa(y)
x = xb (y)
mit ya ≤ y ≤ yb zerlegen, sodass das iterierte Integral lautet
ZZ
y
yb
xb (y)
xa (y)
xb(y)
ya
dx f (x, y) ,
x
es wird also zuerst über horizontale Streifen integriert.
Es lässt sich zeigen, das die beiden Versionen der iterierten Integration das gleiche Ergebnis liefern,
vorausgesetzt, dass das Flächenintegral existiert.
Besitzt die Fläche F eine kompliziertere nichtkonvexe Berandung, dann kann man den Integrationsbereich in mehrere Teile
zerlegen, die jedes für sich konvex sind. Das Gesamtintegral ist
dann einfach die Summe der Teilintegrale, denn wegen der Additivität der Integration gilt
ZZ
F1 ∪F2
dF f (x, y) =
ZZ
F1
dF f (x, y) +
ZZ
F2
F1
dF f (x, y) .
F2
Gekrümmte Flächen
Die Rechnung wird komplizierter, wenn der Integrationsbereich eine gekrümmte Fläche ist. Dabei gibt es verschiedene Möglichkeiten.
a) Explizite Darstellung der Fläche
Die Fläche wird durch Angabe einer Funktion z = z(x, y)
oder ~r = (x, y, z(x, y)) definiert. Das Flächenelement wird
dann aufgespannt durch die Verschiebungsvektoren
∂~r
∂z
d~r1 =
dx ,
dx = 1, 0,
∂x
∂x
∂~r
∂z
dy .
dy = 0, 1,
d~r2 =
∂y
∂y
z
®
dr2
®
dr1
y
dx
dy
x
Aus der Vektorrechnung ist bekannt, dass die Fläche eines von zwei Vektoren augespannten Parallelo65
gramms durch das Vektorprodukt berechnet wird. Das führt auf das Flächenelement
∂
z
∂z ∂z ∂z = − , − , 1 dxdy .
d ~F = d~r1 × d~r2 = 1, 0,
× 0, 1,
∂x
∂y
∂x ∂y
Diese Formel liefert den Betrag des Flächenelmente dF und auch die Richtung des Normalenvektors auf
der Fläche am Punkt (x, y, z). Beides zusammen wird durch das gerichtete Flächenelement ausgedrückt
s
∂ z 2 ∂ z 2
− ∂∂ xz , − ∂∂ yz , 1
d ~F = dF~n mit dF = 1 +
+
dxdy und ~n = r
2 2 .
∂x
∂y
1 + ∂∂ xz + ∂∂ yz
Dieser Ausdruck für den Normalenvektor ist uns bereits früher in Kapitel 6 begegnet.
Das Flächenintegral über eine skalare Funktion f (~r) lautet somit
s
ZZ
ZZ
∂ z 2 ∂ z 2
dxdy 1 +
dF f (~r) =
+
f (~r) .
∂x
∂y
F
F
Das Flussintegral über ein vektorielles Feld ~a(~r) lautet
s
ZZ
ZZ
∂ z 2 ∂ z 2
dxdy 1 +
d ~F ·~a(~r) =
+
~n ·~a(~r) .
∂x
∂y
F
F
Handelt es sich bei ~a(~r) um eine Stromdichte (Teilchen/Energie/Ladung... pro Fläche und Zeiteinheit),
dann hat ein solches Flussintegral die Bedeutung: Zahl der Teilchen (etc.) die pro Zeiteinheit durch die
Fläche F strömen. Dieser Wert hängt vom Einfallswinkel ab und ist am größten, wenn die Strömung
senkrecht auf die Fläche trifft sodass ~n ·~a maximal wird.
b) Parameterdarstellung der Fläche
Alternativ (und häufig bequemer) lässt sich das Flächenintegral auch über eine Darstellung der Fläche
durch eine Funktion ~r = ~r(u, v) mit den Parametern u und v berechnen. Das Flächenelement lautet in
diesem Fall
∂~r ∂~r
×
du dv
d ~F = d~ru × d~rv =
∂u ∂v
∂y ∂z ∂z ∂y ∂z ∂x ∂x ∂z ∂x ∂y ∂y ∂x
=
du dv .
−
,
−
,
−
∂u ∂v ∂u ∂v ∂u ∂v ∂u ∂v ∂u ∂v ∂u ∂v
Wird nur der Betrag des Flächenelements benötigt, dann lässt sich dieser mittels der Vektorumformung
(~A × ~B)2 = (~A × ~B) · (~A × ~B) = ~A · (~B × (~A × ~B)) = ~A2~B2 − (~A · ~B)2
übersichtlicher schreiben:
r ∂~r 2 ∂~r 2
∂~r ∂~r 2
dF =
−
du dv
·
∂u
∂v
∂u ∂v
Im Spezialfall orthogonaler Koordinatenlinien vereinfacht sich das Ergebnis weiter, da dann der zweite
Term unter der Wurzel entfällt:
d~r d~r dF = du dv = hu hv du dv (für orthogonale Koordinaten)
du dv
66
Beispiel: Kugeloberfläche
Wir berechnen die Oberfläche einer Kugel mit Radius r und benutzen für deren Parametrisierung naheliegenderweise die Kugelkoordinaten θ und ϕ . Die zugehörige Koordinatenfläche ist ja gerade eine
Kugel. Die benötigten Ableitungen finden sich im Kapitel “Krummlinige Koordinaten”, nämlich
∂~r
= hθ~eθ
∂θ
und
∂~r
= hϕ~eϕ
∂ϕ
mit hθ = r und hϕ = r sin θ .
Da die Koordinaten-Einheitsvektoren ~eθ und ~eϕ orthogonal sind, lautet das Flächenelement einfach
q
2
2
2
hθ ~eθ hϕ ~eϕ − hθ hϕ ~eθ ·~eϕ d θ d ϕ = hθ hϕ d θ d ϕ = r2 sin θ d θ d ϕ .
dF =
Die gesamte Kugeloberfläche berechnet sich dann aus der iterierten Integration
ZZ
dF =
Kugel
Z π
dθ
−π
Z 2π
d ϕ r2 sin θ = r2
0
Z π
d θ sin θ
−π
Z 2π
d ϕ = 2π r2
0
Z π
π
d θ sin θ = −2π r2 cos θ = 4π r2 .
−π
−π
8.2 Volumenintegrale
Ein typisches Beispiel aus der Mechanik ist die Berechnung der Gesamtmasse
ZZZM eines Körpers
ZZZ wenn seine Massendichte ρ (~r) überall im Volumen V des Körpers bekannt ist: M =
V
dV ρ (~r) ≡
d 3 r ρ (~r).
V
Hier sind dV und d 3 r zwei verschiedene Schreibweisen für das “Volumenelement”. Wir schreiben hier
der Deutlichkeit halber ein dreifaches Integralzeichen. Meist darauf verzichtet; die Dimension des Integrationsbereichs kann man ja auch am Differential ablesen.
Die Definition und Berechnung von Volumenintegralen verläuft
nach den gleichen Prinzipien wie beim ein- und zweidimensionalen Integral. Der Integrationsbereich, hier also das Volumen V ,
wird in N Teilvolumina ∆Vk zerlegt sodass gilt V =
N
[
Dvk
∆Vk wobei
k=1
∆Vi ∩ ∆V j = 0 für i 6= j. Diese Zerlegung wird dann immer weiter
verfeinert, so dass die Größe aller ∆Vk gegen Null geht (und zwar
in jeder Raumrichtung), während ihre Anzahl immer größer wird,
N → ∞, so dass sie zusammen das Volumen V ausschöpfen. Wie im
ein- und zweidimensionalen Fall wird das Integral als Grenzfall der
Riemannschen Summe definiert:
ZZZ
O
®
rk
N
dV f (~r) = lim
V
N→∞
∑ f (~rk )∆Vk
k=1
wo f (~rk ) ein Funktionswert aus einem (frei wählbaren) Punkt im Teilvolumen~rk ∈ Vk ist.
Im Rahmen einer sorgfältigen mathematischen Behandlung lässt sich zeigen: Das so definierte Integral
existiert und ist von der gewählten Zerlegung unabhängig, wenn f (~r) eine stetige Funktion ist und das
Volumen ein zusammenhängender Bereich mit glatter Oberfläche ist.
Iterierte Integration
Auf die genaue Wahl der ∆Vk kommt es also nicht an und man könnte sich viele verschiedene Arten
der Zerlegung überlegen. In der Praxis werden am besten Quader mit den Kanten parallel zu den cartesischen Achsenrichtungen verwendet. Auf diese Weise zerfällt das Integral wieder in drei ineinander
67
geschachtelte eindimensionale Integrale. Diese iterierte Integration nimmt folgende Form an:
Z xb Z yb (x) Z zb (x,y)
ZZZ
ZZZ
dz f (x, y, z)
.
dy
dx
dx dy dz f (x, y, z) =
dV f (~r) =
V
V
za (x,y)
ya (x)
xa
Hier wird zuerst über z integriert. Es handelt sich um ein normales eindimensionales Integral mit der Untergrenze za (x, y) und der Obergrenze zb (x, y), d.h. man muss durch geometrische Überlegungen feststellen, wo bei gegebenen Werten x und y die Grenzflächen des Volumens in z-Richtung liegen. Im zweiten
Schritt wird die so entstandene Funktion der Variablen x und y über y integriert, wobei die Grenzen ya (x)
und yb (x) angeben, wie weit sich das Volumen bei gegebenem Wert von x (aber beliebigem z) erstreckt.
Es verbleibt eine Funktion von x, die im dritten Schritt zwischen den Werten xa und xb integriert wird,
die die maximale Ausdehnung des Volumens in x-Richtung angeben.
Anschaulich betrachtet geschieht bei diesen drei Schritten Folgendes:
1. z-Integration: Aufsummation von Quadern mit Volumen dx dy dz zu Säulen mit der Grundfläche dx dy;
2. y-Integration: Aufsummation der Säulen in y-Richtung zu Scheiben der Dicke dx;
3. x-Integration: Aufsummation aller Scheiben.
Da es nicht auf die Reihenfolge ankommt, in der die drei Integrationen erfolgen, gibt es insgesamt sechs
verschiedene Möglichkeiten, die iterierte Integration durchzuführen. Abhängig von der Geometrie des
Volumens kann sich die Bestimmung der Integrationsgrenzen bei diesen Optionen als unterschiedlich
schwierig erweisen. Unter Umständen kann man sich durch eine günstige Wahl der Integrationsreihenfolge die Arbeit erleichtern.
Wir haben zunächst angenommen, dass das Volumen eine konvexe Form besitzt, dass also jede Gerade,
die V schneidet, genau einen Eintritts- und einen Austrittspunkt besitzt. Bei komplizierter geformten
Körpern muss dies nicht der Fall sein. Dann kann man das Volumen in mehrere disjunkte Teilbereiche
aufspalten, über die separat integriert wird. Die Teilintegrale werden am Schluss aufsummiert.
Krummlinige Koordinaten
Eine Volumenintegration lässt sich im Prinzip immer in cartesischen Koordinaten xi durchgeführen. Für
Volumina mit bestimmten geometrischen Symmetrien kann es jedoch vorteilhaft sein, krummlinige Koordinaten qi zu verwenden. Liegt zum Beispiel sphärische Symmetrie vor, dann ist man gut beraten, bei
der Integration Kugelkoordinaten zu verwenden.
Wir betrachten das Problem der Volumenintegration in krummlinigen Koordinaten allgemein. Dazu muss man berechnen, wie das Volumenelement dV im transformierten Koordinatensystem aussieht. Wir betrachten die Verschiebungsvektoren d~ri , die sich in einem gegebenen Raumpunkt
~r aus den (infinitesimalen) Koordinatenänderungen dqi , i = 1, 2, 3 ergeben. Die d~ri sind offenbar proportional zu den Koordinaten-Einheitsvektoren (also tangential zu den Koordinatenlinien):
d~r1 =
d~r2 =
d~r3 =
∂~r
dq1 = h1 ~eq1 dq1 ,
∂ q1
∂~r
dq2 = h2 ~eq2 dq2 ,
∂ q2
∂~r
dq3 = h3 ~eq3 dq3 .
∂ q3
L3
®
h3dq3 eq
3
®
h2dq2 eq
L1
®
2
h1dq1 eq
1
L2
Das Volumen, das von diesen drei Vektoren aufgespannt wird (es handelt sich um ein “Parallelepiped”),
68
erhält man durch Berechnung des Spatprodukts (siehe Vektorrechnung)
= d~r1 · d~r2 × d~r3 = (h1 ~eq1 dq1 ) · (h2 ~eq2 dq2 ) × (h1 ~eq3 dq3 )
dV
= h1 h2 h3 dq1 dq2 dq3 ~eq1 · ~eq2 × ~eq3 .
Handelt es sich um orthogonale Koordinaten, dann gilt ~eq1 ·~eq2 × ~eq3 = 1 (ein rechtshändiges Koordinatensystem vorausgesetzt) und das Volumenelement lautet einfach
✞
✝
dV = h1 h2 h3 dq1 dq2 dq3 .
also
ZZZ
dV f (~r) =
ZZZ
V
V
☎
✆
dq1 dq2 dq3 h1 h2 h3 f (q1 , q2 , q3 ) .
Das Volumenintgral in krummlinigen Koordinaten unterscheidet sich also vom cartesischen Fall durch
das Auftreten eines Gewichtsfaktors, der aus dem Produkt der drei Skalenfaktoren h1 h2 h3 besteht. Die
praktische Berechnung kann – genau wie bei cartesischen Koordinaten – durch iterierte Integration
bezüglich q1 , q2 , q3 (Reihenfolge beliebig) erfolgen.
Im allgemeinen Fall (nichtorthogonale Koordinaten) muss das Spatprodukt explizit berechnet werden:
dV =
∂~r ∂~r
∂~r
·
×
dq1 dq2 dq3 .
∂ q1 ∂ q2
∂ q3
In der Vektoralgebra wird gezeigt, dass sich das Spatprodukt als Determinante der drei auftretenden
Vektoren schreiben lässt. Damit ergibt sich
∂ x1 ∂ x2 ∂ x3 ∂ q1 ∂ q1 ∂ q1 ∂ x1 ∂ x2 ∂ x3 dq1 dq2 dq3 ≡ J dq1 dq2 dq3 .
dV = det ∂
q
∂
q
∂
q
2
2
2
∂x
∂ x2 ∂ x3 1
∂ q3 ∂ q3 ∂ q3
Die hier als Gewichtsfaktor auftretende und als J benannte Determinante wird als Funktionaldeterminante oder auch Jacobi-Determinante bezeichnet. Man schreibt auch in symbolisch abgekürzter Form
∂ (x1 , x2 , x3 ) .
J = det
∂ (q1 , q2 , q3 ) Die Formel für das Transformationsverhalten mehrdimensionaler Integral nimmt dann folgende Form
an:
ZZZ
ZZZ
∂ (x1 , x2 , x3 ) f (q1 , q2 , q3 ) .
dq1 dq2 dq3 det
dx1 dx2 dx3 f (x1 , x2 , x3 ) =
∂ (q1 , q2 , q3 ) V
V
Dies ist die dreidimensionale Verallgemeinerung der gewohnten eindimensionalen Formel für Variablentransformationen bei der Integration
Z
dx f (x) =
Z
dq
dx
f (q) ,
dq
dementsprechend wurde eine suggestive Schreibweise für die Funktionaldeterminante gewählt.
69
Die Transformationsformel ist nicht auf dreidimensional Volumenintegrale begrenzt sondern gilt entsprechend für beliebige Dimensionszahlen. Sollte sich die Jacobi-Determinante als negativ erweisen, so
ist ihr Betrag zu nehmen.
Für die beiden wichtigsten in der Praxis benötigten krummlinigen Koordinatensysteme (Zylinderkoordinaten und Kugelkoordinaten) sind die Volumenelemente hier abgebildet
r sinq dj
rdj dr
dr
r dq
dz
Das Produkt der Skalenfaktoren liefert in diesen beiden Fällen:
Zylinderkoordinaten:
dV = ρ d ρ d ϕ dz
Kugelkoordinaten:
dV = r2 sin θ dr d θ d ϕ
Beispiel: Volumen einer Kugel
Welchen Vorteil es bringen kann, an die Symmetrie eines Problems angepasste Koordinaten zu benutzen,
wird am Beispiel der Berechnung des Volumens einer Kugel deutlich.
a) Kugelkoordinaten
V
Z
=
dV =
Kugel
R3
Z R
dr
0
Z π
dθ
0
Z 2π
2
d ϕ r sin θ =
Z R
0
0
2
dr r ·
Z +1
−1
d cos θ ·
Z 2π
dϕ
0
4π 3
· 2 · 2π =
R
3
3
b) Cartesische Koordinaten
Die Kugeloberfläche wird durch die Bedingung x2 + y2 + z2 = R2 definiert. Dies führt zu vergleichsweise
komplizierten Integralgrenzen.
Z +R Z +√R2 −x2 Z √R2 −x2 −y2
Z +R Z +√R2 −x2
p
dx √
V=
dx √
dy √
dz =
dy 2 R2 − x2 − y2 .
=
−R
− R2 −x2
−
R2 −x2 −y2
−R
Es gilt folgende Integralformel:
Z
du
p
1 p
a2
u
a2 − u2 = u a2 − u2 + arcsin .
2
2
a
70
− R2 −x2
Damit ergibt sich
=
V
=
Z +R
−R
Z +R
−R
Z +R
√
+ R2 −x2
y
1 p 2
dx 2 y R − x2 − y2 + (R2 − x2 ) arcsin √
2
R2 − x2 −√R2 −x2
dx (R2 − x2 )(arcsin(+1) − arcsin(−1))
1 +R
π
dx (R2 − x2 )2 = π R2 x − x3 −R
2
3
−R
4π
2
= π R3 2 − R3
=
R3 .
3
3
=
8.3 Die Integralsätze von Stokes und Gauß
Die diesem Kapitel entwickelten Konzepte der Flächen- und Volumenintegration erlauben es, die sehr
wichtigen Integralsätze der Vektoranalysis zu formulieren.
Der Satz von Gauß
Gegeben sei ein differenzierbares Vektorfeld ~a(~r), das in einem Raumbereich V mit der (glatten) Oberfläche O(V ) definiert ist. Dann gilt für das Volumenintegral über die Divergenz des Vektorfelds
✎
ZZZ
✍
V
ZZ
dV ~∇ ·~a = d ~F ·~a ,
O(V )
☞
✌
wobei das Flächenelement in Richtung der äußeren Normalen zeigt. Der Kreis durch die Integralzeichen
soll dabei kenntlich machen, dass über eine geschlossene Fläche nämlich die Oberfläche des Volumens,
integriert wird. Die Mathematiker benutzen die Notation ∂ V für den Rand (also die Oberfläche) des
Volumens. Im Rahmen der Topologie wird gezeigt, dass ein Rand selbst keinen Rand besitzt. D.h. also:
die Oberfläche eines Volumens ist eine geschlossene Fläche. Sie kann aber aus mehreren disjunkten
Teilbereichen bestehen. Man denke an ein Volumen, das einen Hohlraum enthält. In diesem Fall existiert
zusätzlich zur äußeren Oberfläche auch noch eine innere Randfläche.
Der Satz von Gauß verknüpft ein dreidimensionales Integral über eine bestimmte Art von Ableitung (die
Divergenz) mit einem zweidimensionalen Integral, wobei die Ableitung wegfällt.
Der Satz von Stokes
Schließlich ist es auch möglich, eine zweidimensionale mit einer eindimensionalen Integration zu verknüpfen. Dies leistet der Satz von Stokes.
Gegeben sei ein differenzierbares Vektorfeld ~a(~r), das auf einer (ggf. gekrümmten) Fläche F definiert
ist, die von einer (glatten) Randkurve C (F) begrenzt wird. Dann gilt für das Flächenintegral über die
Rotation des Vektorfelds
✎
ZZ
✍
F
d ~F · (~∇ ×~a ) =
I
d~r · ~a .
C (F)
☞
✌
Die Kurve wird dabei – bezogen auf die Flächennormale – in mathematisch positiver Richtung (gegen
den Uhrzeigersinn) durchlaufen. Auch hier kann wieder die Notation ∂ F statt C (F) benutzt werden und
es gilt: Der Rand einer Fläche besteht aus einer (oder mehreren) geschlossenen Kurve.
Auch hier wird wieder ein höherdimensionales Integral über eine Ableitung einer Funktion mit einem eine Stufe niedrigerdimensionalen Integral über die Funktion selbst verknüpft. In gewisser Weise sind also
71
die Sätze von Gauß und Stokes höherdimensionale Varianten des Fundamentalsatzes der Analysis, wonach sich Integration und Differentiation gegenseitig aufheben. Eine dritte Variante hatten wir schon bei
Kurvenintegralen gefunden, wobei in diesem Fall die Ableitung durch den Gradienten gebildet wurde:
✎
Z ~re
✍
C ~ra
d~r · ~∇φ = φ (~re ) − φ (~ra ) ,
☞
✌
Hier wird gewissermaßen ein eindimensionales mit einem “nulldimensionalen” Integral verknüpft. Der
“Rand” der Kurve C besteht einfach aus ihren beiden Endpunkten ~ra und~re .
Man beachte einen wichtigen Unterschied zwischen den Sätzen von Gauß und Stokes. Der Zusammenhang zwischen dem Volumen V und seiner Oberfläche ∂ V = O(V ) ist eindeutig; kennt man die Oberfläche, dann kennt man auch das Volumen. Im Gegensatz dazu gibt es (im dreidimensionalen Raum!)
unendlich viele (gekrümmte) Flächen F, die alle dieselbe Randkurve ∂ F = C (F) besitzen! Man kann
von ihrem Rand nicht auf die Gestalt der Fläche zurückschließen.
Geometrische Definition der Divergenz und der Rotation
Die Sätze von Gauß und Stokes erlauben auch eine anschaulichere geometrische Definition der Operationen Divergenz und Rotation.
Die Divergenz
Wir betrachten ein Probevolumen ∆V . Besitzt das Vektorfeld stetige Ableitungen und wird das Probevolumen klein genug gewählt, dann lässt sich die Divergenz näherungsweise durch eine Konstante ersetzen
und vor das Volumenintegral ziehen:
ZZZ
∆V
dV ~∇ ·~a ≃ ~∇ ·~a
✎
ZZ
ZZZ
dV = ~∇ ·~a ∆V ≃ d ~F ·~a .
∆V
O(∆V )
☞
Im infinitesimalen Grenzfall ergibt sich für die Divergenz
ZZ
~∇ ·~a = lim 1 d ~F ·~a .
∆V →0 ∆V
O(∆V )
✍
✌
Die Divergenz gibt also die “Quellstärke” des Vektorfelds an, d.h. wieviel Fluß pro Volumen aus einem
Bereich herausströmt (oder, bei negativem Vorzeichen, hineinströmt).
Die Rotation
Wir betrachten drei kleine ebene Probeflächen ∆~Fi mit i = 1, 2, 3. Sie sollen so orientiert sein, dass ihr
Normalenvektor jeweils in Richtung einer der drei cartesischen Koordinatenachsen zeigt, also ∆~Fi =
∆Fi~ei . Im infinitesimalen Grenzfall kann man die Rotation des Vektorfelds auf der Fläche wieder vor das
Integral ziehen und für die drei Komponenten der Rotation folgt gemäß dem Satz von Stokes
✎
1
∆Fi →0 ∆Fi
~∇ ×~a = lim
i
✍
I
d~r · ~a .
C (∆Fi )
☞
✌
Die Rotation hat also die Interpretation der Flächendichte der Zirkulation des Vektorfelds. Mit Zirkulation wird dabei das Ringintegral des Vektorfelds über eine geschlossene Kurve bezeichnet. Die Rotation
gibt also an, ob das Feld Wirbel besitzt und wie stark sie sind.
Nun zum Abschluss noch die Beweise der Integralsätze.
72
Beweis des Gaußschen Satzes
Wir betrachten zunächst den Spezialfall eines konvex geformten Volumens V , da dies die Beweisführung vereinfacht. Wie
abgebildet benutzen wir ein cartesisches Koordinatensystem
und zerlegen die Oberfläche O(V ) = Fa ∪ Fb in eine obere
Teilfläche Fb und eine untere Teilfläche Fa (bezogen auf die
z-Richtung). Diese sollen durch zwei Funktionen za (x, y) und
zb (x, y) beschrieben werden (explizite Flächendefinition):
z = za (x, y)
Fa :
,
z
®
nb
dFb
®
dFa
na
z = zb (x, y) .
Fb :
V
Zu beweisen ist der Gaußsche Satz
ZZ
ZZZ
dV ~∇ ·~a = dF ~n ·~a
V
y
x
O(V )
Rxy
dxdy
mit ~∇ ·~a = ∂∂ax1 + ∂∂ay2 + ∂∂az3 . Wir behandeln die drei Summanden aus der Divergenz getrennt. Für den
dritten Summanden ergibt sich beispielsweise mittels einer iterierten Volumenintegration mit dem zIntegral an erster Stelle:
ZZZ
∂ a3
dV
∂z
V
Z
=
Z
∂ a3
dx dy dz
=
∂z
ZZ
=
Z
ZZ
dxdy
Rxy
Z zb (x,y)
dz
za (x,y)
∂ a3
∂z
dxdy [a3 (x, y, zb (x, y)) − a3 (x, y, za (x, y))] .
Rxy
Hier haben sich beim z-Integral Integration und Differentiation aufgehoben. Die verbleibende zweidimensionale Integration erstreckt sich (wegen der angenommenen Konvexität) über eine zusammenhängende Fläche Rxy , die der Projektion des Volumens V auf die x-y-Ebene entspricht.
Nun stellen wir einen Zusammenhang mit dem Integral über die Oberfläche O(V ) her. Zu einem Flächenelement dxdy in Rxy gehören wie abgebildet zwei Flächenelemente dFb und dFa auf der Oberfläche des
Volumens. Diese Flächenelemente liegen im allgemeinen nicht parallel zur x-y-Ebene sondern sind gegenüber dieser geneigt. Für den Neigungswinkel θb der oberen Fläche ergibt sich cos θb =~nb ·~e3 mit der
äußeren Flächennormalen ~nb . Entsprechend gilt für das untere Flächenelement cos θa = −~na ·~e3 .
Wegen des Neigungswinkels sind die beiden Flächenelemente dFa und dFb größer als ihre Projektion
dxdy. Es gilt der geometrische Zusammenhang
dxdy = cos θa dFa
und
dxdy = cos θb dFb .
Damit ergibt sich für das obere Flächenintegral
ZZ
dxdy a3 (x, y, zb (x, y)) =
Rxy
ZZ
dFb cos θb a3 (x, y, zb (x, y)) =
Fb
ZZ
dFb ~nb ·~e3 a3 (x, y, zb (x, y)
Fb
und für das untere Flächenintegral entsprechend
−
ZZ
dxdy a3 (x, y, za (x, y)) = −
Rxy
ZZ
dFa cos θa a3 (x, y, za (x, y)) =
Fa
ZZ
dFa ~na ·~e3 a3 (x, y, za (x, y))
Fa
oder zusammengefasst
ZZZ
V
dV
∂ a3
=
∂z
ZZ
ZZ
dxdy [a3 (x, y, zb (x, y)) − a3 (x, y, za (x, y))] = dF~n ·~e3 a3 (~r) .
O(V )
Rxy
73
Die Integration erstreckt sich hier über die gesamte Oberfläche des Volumens.
Ganz analog lässt sich für die anderen beiden Terme aus dem Gaußschen Satz vorgehen, indem man die
Reihenfolge der iterierten Integration und die Zerlegung der Oberfläche entsprechend anpasst. Dies führt
auf die beiden Gleichungen
ZZZ
∂ a1
dV
∂x
V
ZZZ
∂ a2
dV
∂y
V
ZZ
=
ZZ
dydz [a1 (xb (y, z), y, z) − a1 (xa (y, z), y, z)] = dF ~n ·~e1 a1 (~r) ,
Ryz
ZZ
=
O(V )
ZZ
dxdz [a2 (x, yb (x, z), z) − a2 (x, ya (x, z), z)] = dF~n ·~e2 a2 (~r) .
O(V )
Rxz
Die drei erhaltenen Resultate werden nun aufaddiert, mit dem Ergebnis
ZZZ
V
dV
∂a
1
∂x
+
ZZ
ZZ
∂ a2 ∂ a3 = dF ~n ·~e1 a1 +~n ·~e2 a2 +~n ·~e3 a3 = d ~F ·~a .
+
∂y
∂z
O(V )
O(V )
®
n2
V1
=
V2
®
n1
Für konvexes Volumen haben wir den Gaußschen Satz also bewiesen. Was geschieht, wenn das Integrationsvolumen komplizierter geformt und nicht konvex ist? In diesem Fall kann man das Volumen V
in einzelne Teile Vi zerlegen, von denen jeder für sich konvex ist. Auf der linken Seite des Gaußschen
Satzes steht dann einfach die Summe der einzelnen Volumenintegrale. Die rechte Seite sieht zunächst
komplizierter aus, da bei der Zerlegung des Volumens innere “Trennflächen” zwischen benachbarten
Teilen entstehen, wie in der Abbildung angedeutet. Bei der Integration über die Oberflächen der Teilvolumina treten also zusätzliche Beiträge von den Trennflächen auf. Diese heben sich aber paarweise
weg! Jede Trennfläche trägt ja zweimal bei, da sie zu zwei benachbarten Volumina Vi und V j gehört. Die
zugehörigen äußeren Flächennormalen zeigen aber in entgegengesetzte Richtungen ~ni = −~n j , also sind
die beiden Flächenintegrale entgegengesetzt gleich und addieren sich zu Null.
Also gilt bei einer Zerlegung von V in N konvexe Teilvolumina
ZZZ
V
N
dV ~∇ ·~a = ∑
i=1
ZZZ
Vi
N
ZZ
ZZ
dV ~∇ ·~a = ∑ dF ~n ·~a = dF~n ·~a .
i=1
O(Vi )
O(V )
Das vollendet den Beweis.
Beweisskizze des Stokesschen Satzes
Der Beweis des Satzes von Stokes in allgemeingültiger Form ist etwas aufwendig und soll hier nicht diskutiert werden. Wir begnügen
uns stattdessen mit einem einfach zu handhabenden Spezialfall: Bei
der Fläche, über die die Rotation ~∇ ×~a integriert wird, soll es sich
um eine Rechteckfläche handeln, die wir der Bequemlichkeit halber
auch noch in die x-y-Ebene legen. Die vier Ecken des Rechtecks
sollen wie abgebildet die folgenden Koordinaten haben: (xa , ya , 0),
(xb , ya , 0), (xb , yb , 0) und (xa , yb , 0) Die Flächennormale zeigt in zRichtung, was zum gerichteten Flächenelement d ~F = dxdy~e3 führt.
74
z
ya
yb
y
®
n
xa
C
xb
x
Daher trägt auf der linken Seite der Stokesschen Formel nur die z-Komponente der Rotation bei:
ZZ
F
d ~F · ~∇ ×~a =
ZZ
F
dF(~∇ ×~a)3 =
ZZ
dF
F
∂a
2
∂x
−
∂ a1 .
∂y
Die Flächenintegration führen wir als iterierte Integration über die Koordinaten x und y durch, wobei die
Reihenfolge der Einzelintegrationen so gewählt wird, dass sich die Ausdrücke vereinfachen:
ZZ
F
d ~F · ~∇ ×~a =
=
Z yb
y
Z ayb
ya
dy
Z xb
xa
dx
∂ a2
−
∂x
Z xb
dx
xa
Z yb
dy
ya
Z
dy a2 (xb , y) − a2 (xa , y) −
∂ a1
∂y
xb
xa
dx a1 (x, yb ) − a1 (x, ya ) .
Wieder hat sich eine der Integrationen mit der zugehörigen Differentiation weggehoben.
Nun betrachten wir die rechte Seite der Stokesschen Formel. Die Kurve C über die integriert wird besteht
aus den vier Geraden, die das Rechteck begrenzen. Damit ergibt sich
I
d~r · ~a =
C (F)
=
Z xb
xa
Z xb
xa
dx a1 (x, ya ) +
dx a1 (x, ya ) +
Z yb
ya
Z yb
ya
dy a2 (xb , y) +
dy a2 (xb , y) −
Z xa
xb
Z xb
xa
dx a1 (x, yb ) +
dx a1 (x, yb ) −
Z ya
yb
Z yb
ya
dy a2 (xa , y)
dy a2 (xa , y) ,
wobei im letzten Schritt die Integrationsgrenzen vertauscht wurden. Offenbar stimmen die beiden Resultate aus der Flächen- und der Linienintegration überein, d.h. für unser Rechteck haben wir die Gültigkeit
des Satzes von Stokes bewiesen. Es ist plausibel, dass dies nicht von der gewählten Lage des Rechtecks
abhängt, sondern für beliebige Orientierung im Raum gelten wird. Komplizierter geformte Flächen lassen
sich aus vielen rechteckig geformten “Kacheln” zusammensetzen, wobei sich sowohl beim Flächen- wie
beim Linienintegral die Summe der jeweiligen Einzelbeiträge ergibt. Wie beim Gaußschen Satz heben
sich nämlich die Linienintegrale über die zwei benachbarten Regionen gemeinsame Randlinie jeweils
paarweise weg, da sie in entgegengesetzer Richtung durchlaufen werden.
Interessant ist, dass der Stokessche Satz nicht auf ebene Flächen beschränkt ist sondern auch für beliebig
gekrümmte Flächen gilt! Solange diese die gleiche Randkurve C besitzen kommt immer der gleiche Wert
für das Flächenintegral der Rotation heraus, auch wenn sich die Fläche aus der Ebene “herauswölbt”!
75
9 Lineare Algebra
Anmerkung: Das Material dieses Kapitels lehnt sich in weiten Teilen an folgendes Buch an: K.F. Riley and M.P.
Hobson: Essential Mathematical Methods for the Physical Sciences, Cambridge University Press 2011
Die Lineare Algebra befasst sich mit den Eigenschaften von Vektorräumen und mit linearen Abbildungen
zwischen solchen Räumen. Besondere Schwerpunkte sind das Lösen linearer Gleichungssysteme und die
Behandlung von Eigenwertproblemen. Die wichtigsten Hilfsmittel sind Determinanten und Matrizen.
Es gibt zahlreiche Anwendungsbeispiele in der Physik, etwa bei der Beschreibung schwingender Systeme (gekoppelte Oszillatoren). Auch der Formalismus der Quantenmechanik basiert auf der Linearen
Algebra und ihrer Erweiterung zu unendlichdimensionalen Vektorräumen (Hilbertraumtheorie). Auch
wenn viele der interessantesten wissenschaftlichen Probleme nichtlinearer Natur sind, ist ein vertrauter
Umgang mit der Linearen Algebra unumgänglich.
9.1 Vektoren und Matrizen
An dieser Stelle setzen wir Grundkenntnisse der Vektoralgebra heraus, wie sie in Kapitel 2.1 kurz zusammengestellt sind.
Wir betrachten also einen linearen Raum, bestehend aus Vektoren ~a,~b, . . . ∈ V , die bezüglich der Addition
“+” eine kommutative Gruppe bilden und für die die Multiplikation mit (reellen oder komplexen) Zahlen
definiert ist.
Die Vektoren existieren zunächst als “abstrakte” Elemente eines Vektorraums V , für das praktische Rechnen mit ihnen ist es jedoch nützlich, mit ihrer Komponentendarstellung zu arbeiten. Dabei macht man
sich zunutze, dass jeder Vektorraum durch eine Basis “aufgespannt” werden kann gemäß
✎
n
~a = ∑ ai ~ei
✍
i=1
☞
✌
wobei n die Dimension des Raums ist und die Basis ei aus einem linear unabhängigen System von n
Vektoren besteht. Dabei muss man sich klarmachen, dass bei der Wahl der Basis eine große Freiheit
besteht. Es gibt eine unendliche Anzahl von “Erzeugendensystemen”, die als Basis dienen können. Ist
die Basis einmal gewählt, dann ist Zerlegung eines Vektors jedoch eindeutig, daher kann der Vektor
~a durch seine Komponentendarstellung, d.h. durch die Angabe des n-Tupels von Zahlen a1 , a2 , . . . , an
beschrieben werden. Bisher haben wir geschrieben ~a = (a1 , a2 , . . . , an ), was etwas salopp ist, da links ein
fester, eindeutig definierter Vektor steht, während die Zahlen ai (i = 1, . . . , n) auf der rechten Seite von
der gewählten Basis abhängen.
Das innere Produkt
Die in der Physik wichtigen Vektorräume besitzen als zusätzliche mathematische Strukture ein inneres
Produkt oder Skalarprodukt. Dadurch wird V zu einem euklidischen Vektorraum (im reellen Fall) oder zu
einem hermiteschen Vektorraum (im komplexen Fall). In diesem Kapitel werden wir auch auch komplexe
Vektorräume mit einbeziehen und benutzen eine Notation die sich vom “Punktprodukt” der Vektoralgebra unterscheidet. Das innere Produkt zweier Vektoren ~a und ~b wird als h~a |~bi bezeichnet ist eine Zahl
76
(reell oder komplex) mit den folgenden Eigenschaften
h~a |~bi = h~b |~ai∗
(1)
h~c | α~a + β~bi = α h~c |~ai + β h~c |~bi ,
(2)
(3)
h~a |~ai ≥ 0 wobei
h~a |~ai = 0
α , β ∈ R oder C Linearität
genau dann wenn ~a = ~0
Hierbei bezeichnet ∗ die Komplexkonjugation.
Eine Folgerung aus (1) und (2) ist die Gleichung
hα~a + β~b|~ci = α ∗ h~a |~ci + β ∗ h~b |~ci .
Wegen (1) ist das innere Produkt eines Vektors mit sich selbst eine reelle Zahl. Das ist die Voraussetzung
dafür, mittels des inneren Produkts eine Länge von Vektoren (auch als Betrag bezeichnet) zu definieren.
Das innere Produkt induziert eine Vektornorm gemäß
p
||~a || = h~a |~ai .
Die Verwendung doppelter senkrechter Striche ist in der Mathematik üblich zur Bezeichnung der Norm
und soll hier die in der Physik verwendete Schreibweise mit nur einem senkrechten Strich ersetzen. Die
Norm besitzt die Eigenschaften
(1)
||~a || ≥ 0 wobei
||~a || = 0 genau dann wenn ~a = ~0 ,
|| α~a || = |α | ||~a ||
(2)
α ∈ R oder C ,
Mit dem inneren Produkt lassen sich die Vektorkomponenten durch Projektion auf die Basisvektoren
bestimmen. Die Entwicklungskoeffizienten ai lassen sich aus dem linearen Gleichungssystem
n
h~e j |~ai = ∑ ai h~e j |~ei i i = 1, . . . , n
i=1
berechnen. Wenn es sich bei den ~ei um eine Orthonormalbasis handelt, mit der Eigenschaft
h~ei |~e j i = δi j ,
dann ergibt sich für die Vektorkomponenten einfach
ai = h~ei |~ai .
Das Skalarprodukt zwischen zwei Vektoren✎
lässt sich für eine Orthonormalbasis
in einfacher Form durch
☞
n
die Vektorkomponenten ausdrücken:
h~a |~bi = ∑ a∗i bi .
✍
i=1
Hier wurde h∑ ai~ei |~bi = ∑ a∗i h~ei |~bi benutzt.
i
✌
i
Ungleichungen
Für die Vektornorm gelten einige wichtige Ungleichungen:
Schwarzsche Ungleichung ,
(1)
|h~a|~bi| ≤ ||~a || ~b Dreiecksungleichung .
(2)
~a +~b ≤ ||~a || + ~b 77
(2) folgt leicht aus (1).
Beweis der Schwarzschen Ungleichung
Für die Gültigkeit der Ungleichung (1) gibt es einen ziemlich eleganten und trickreichen Beweis. Wir betrachten
die Norm einer bestimmten Linearkombination der Vektoren ~a und ~b und drücken diese unter Benutzung der
Linearität des inneren Produkts durch Produkte der Vektoren aus:
~a − λ~b = h~a − λ~b|~a − λ~bi = h~a |~ai − λ ∗ h~b |~ai − λ h~a |~bi + |λ |2h~b |~bi .
Hier ist λ ∈ C eine beliebige, frei wählbare komplexe Zahl. Das Produkt h~a |~bi kann komplex sein, mit einem
Betrag r und einem Phasenwinkel ϕ in der komplexen Ebene:
h~a |~bi = r eiϕ
mit r = |h~a |~bi| .
Nun wählen wir für den Parameter λ eine komplexe Zahl, deren Phasenwinkel den umgekehrten Wert −ϕ hat:
λ = x e−iϕ .
Im Ausdruck für die Norm der oben angesetzten Linearkombination heben sich die Phasenfaktoren dann gegenseitig weg. Es verbleibt eine reelle Funktion f (x), die nur von x, dem Betrag des Parameters λ abhängt, nämlich
2
2
~a − λ~b = ||~a || − 2rx + ~b x2 = f (x) .
Nun kommt die entscheidende Stelle im Beweisgang. Die untersuchte Vektornorm ist offenbar ein quadratisches
Polynom f (x) in der Variablen x. Fundamentale Eigenschaft jeder Norm ist ihre Positivität, also muss immer gelten
f (x) ≥ 0, unabhängig davon, welcher Wert für x gewählt wird. Ein beliebiges quadratisches Polynom kann aber
auch negativ werden. Damit dies nicht passiert, müssen die Koeffizienten des Polynoms eine bestimmte Bedingung
erfüllen. Betrachten wir den Wert des Polynoms bei x = 0. Dort ist die Funktion positiv, denn es gilt f (0) = ||~a ||2 ≥
0. Es muss aber verhindert werden, dass f (x) anderswo unter Null fällt. Anders ausgedrückt: Das Polynom darf
keine (reellen) Nullstellen besitzen. Wie lässt sich das verhindern? Dazu kann man einfach die explizite Formel
für die Lösung der quadratischen Gleichung f (x) = 0 verwenden:
v
u
u
r
r 2 ||~a ||2
x0 = 2 ± u
t 2 − 2 .
~ b ~b ~b Damit es keine reellen Nullstellen gibt muss der Radikand (die “Diskriminante” der quadratischen Gleichung)
negativ sein:
r 2 ||~a ||2
2 − 2 < 0
~ ~ b b also r < ||~a || ~b .
Wegen r = |h~a |~bi| ist damit die Schwarzsche Ungleichung bewiesen. Man bestätigt leicht, dass das Gleichheitszeichen erfüllt ist, wenn die beiden Vektoren “in die gleiche Richtung zeigen”.
Lineare Operatoren
Eine Abbildung zwischen zwei Vektorräumen (unter Umständen mit unterschiedlichen Dimensionen n
und m) lässt sich durch einen Operator  beschreiben:
 : K n → K m
sodass ~y = Â~x .
Hier steht K für den benutzen Zahlenkörper, also entweder R oder C. ~y ist das Bild von ~x und ~x ist das
Urbild von ~y.
78
✞
☎
Wir betrachten im folgenden lineare Operatoren mit der Eigenschaft
✝
Â(α~a + β~b) = α Â~a + β Â~b .
✆
Für diese Operatoren kann man neue Rechenregeln einführen. Man kann sie addieren, mit Zahlen multiplizieren und auch miteinander multiplizieren, wobei folgende Gleichungen gelten (für alle ~x ∈ V ):
(Â + B̂)~x = Â~x + B̂~x ,
(α Â)~x = λ (Â~x) ,
(ÂB̂)~x = Â(B̂~x) .
Die Multiplikation von Operatoren wird also durch deren Hintereinanderausführung definiert. Dabei ist
wichtig, dass diese Multiplikation im allgemeinen Fall nicht kommutativ ist, d.h. es kann vorkommen,
dass ÂB̂ 6= B̂ Â. Zwei Operatoren sind gleich, Â = B̂, wenn gilt Â~x = B̂~x für alle ~x ∈ V .
Durch diese Struktur bilden auch die linearen Abbildungen selbst einen Vektorraum! Es ist jedoch ein
abstrakter Raum, dessen Vektoren man sich nicht als Pfeile visualisieren kann. Die Dimension dieses
Raums hat den Wert n m.
Die bisherigen Überlegungen zu linearen Ableitungen bezogen sich nicht auf Koordinaten. Für das praktische Rechnen ist es jedoch jedoch nützlich, mit der Komponentendarstellung zu arbeiten. Zu diesem
Zweck führen wir zwei Basen ein:
Basis im Raum K n :
~e j , j = 1, 2, . . . n ,
~εi , i = 1, 2, . . . m .
m
Basis im Raum K :
Die Wirkung des Operators auf den Basisvektor ~e j liefert einen Vektor Â~e j im Raum K m , der sich sich
bezüglich der Basis ~εi entwicklen lässt:
n
Â~e j = ∑ ai j~εi
i=1
mit Entwicklungskoeffizienten ai j .
In dieser Basis lautet die Abbildung ~y = Â~x :
n
~y = Â ∑ x j~e j =
j=1
n
n
m
∑ x j Â~e j = ∑ x j ∑ ai j ~εi .
j=1
j=1
i=1
m
Koeffizientenvergleich mit ~y = ∑ yi~εi liefert die Matrixdarstellung der linearen Abbildung
✎
yi =
✍
n
∑ ai j x j
j=1
☞
,
✌
i=1
i = 1, 2, . . . , m .
Man beachte, dass hier die Indizes i und j gegenüber der Formel für die Abbildung der Basisvektoren
vertauscht sind.
Matrizen
Eine lineare Abbildung zwischen einem n-dimensionalen und einem m-dimensionalen Raum wird also
durch die Angabe von n · m (reellen oder komplexen) Zahlen vollständig beschrieben. Diese Zahlen
79
werden in einem rechteckigen Schema angeordnet:


a11 a12 . . . a1n
 a21 a22 . . . a2n 


A= .
..
..  .
..
 ..
.
.
. 
am1 am2 . . . amn
Dies ist eine m × n-Matrix mit m Zeilen und n Spalten. Wir benutzen für Matrizen Fettdruck und Großbuchstaben. Die Komponente in der iten Zeile und jten Spalte ist die Zahl (A)i j = ai j .
Die Rechenregeln für Operatoren übertragen sich sofort auf deren Matrixdarstellung, mit dem Resultat
(gültig für alle i = 1, . . . , m und j = 1, . . . , n)
(A + B)i j = ai j + bi j ,
(α A)i j = α ai j .
Bei der Multiplikation von Operatoren und somit auch von Matrizen muss man auf die Dimension der
Räume achten. Betrachten wir zwei lineare Operatoren B̂ : K n1 → K n2 und  : K n2 → K n3 . Das Produkt
der Operatoren ist eine Abbildung ÂB̂ : K n1 → K n3 , mit folgender Wirkung auf einen Vektor ~x:
(ÂB̂~x)i = (Â(B̂~x))i =
und andererseits ÂB̂~x i =
✎
Matrixmultiplikation
(AB)i j =
✍
n2
∑ aik bk j
k=1
n2
n2
n1
k=1
k=1
j=1
∑ aik (B̂~x)k = ∑ aik ∑ bk j x j
n1
∑ (AB)i j x j
. Der Koeffizientenvergleich liefert die Rechenvorschrift für die
j=1
☞
mit i = 1, . . . , n3 , j = 1, . . . , n1 .
✌
Hier kommt es also darauf an, dass die Zahl der Spalten von A übereinstimmt mit der Zahl der Zeilen
von B. Man spricht dann von kompatiblen Matrizen.
Betrachten wir als Beispiel das Produkt einer 2 × 2 und einer 2 × 3 Matrix:
a11 b11 + a12 b21 a11 b12 + a12 b22 a11 b13 + a12 b23
b11 b12 b13
a11 a12
=
a21 b11 + a22 b21 a21 b12 + a22 b22 a21 b13 + a22 b23
b21 b22 b23
a21 a22
Es bietet sich an, die Matrixschreibweise auch auf die Koordinatendarstellung der Vektoren anzuwenden.
Ein abstrakter Vektor ~x wird komponentenweise durch einen Spaltenvektor x in Form einer n × 1-Matrix
dargestellt:
 
x1
 x2 
 
x= . 
 .. 
xn
Zur Kennzeichnung von Spaltenvektoren benutzen wir ebenfalls Fettdruck x.
Damit lässt sich die Wirkung eines linearen Operators auf vier verschiedene Weisen hinschreiben:
  
 
y1
a11 a12 . . . a1n
x1
 y2   a21 a22 . . . a2n   x2 
n
  
 
~y = Â~x oder y = Ax oder yi = ∑ ai j x j oder  .  =  .
..
..   .. 
..
 ..   ..
.
.
.  . 
j=1
ym
80
am1 am2 . . . amn
xn
Der erste Ausdruck ist koordinatenunabhängig, die anderen hängen von der gewählten Basis ab.
Das Hinschreiben von Spaltenvektoren nimmt viel Platz in Anspruch. Deshalb schreibt man stattdessen
gerne den zugeordneten Zeilenvektor xT = (x1 x2 . . . xn ) oder äquivalent x = (x1 x2 . . . xn )T . Das “T ”
steht für “transponiert”. Beim Transponieren werden Zeilen und Spalten miteinander vertauscht. Man
beachte, dass wir hier in Übereinstimmung mit der Konvention bei der Matrixschreibweise die Einträge
nicht durch Kommata trennen, anders als in der der früheren Schreibweise ~x = (x1 , x2 , . . . , xn ) .
Die Basisvektoren haben die Komponentendarstellung ej = (0 0 . . . 1 . . . 0)T oder in der früheren
Schreibweise ~e j = (0, 0, . . . , 1, . . . , 0) . Die 1 steht an Position Nummer j.
Diese Basisvektoren werden wie folgt abgebildet
A ej = (a1 j a2 j . . . am j )T .
Damit sieht man: In der Spalte Nummer j der Matrix A steht das Bild des Basisvektors ~e j .
Null- und Einheitsmatrix
Besonders einfache spezielle Matrizen sind die Nullmatrix 0 und die Einheitsmatrix I (eine quadratische
n × n-Matrix)




0 0 ... 0
1 0 ... 0
 0 0 ... 0 
 0 1 ... 0 




0= . . .
,
I
=
 .. .. . . .. 

.
 .. .. . . .. 
. .
. .
0 0 ... 0
0 0 ... 1
Offensichtliche Eigenschaften sind 0 A = A 0 = 0 und I A = A I = A, wobei jeweils vorausgesetzt wird,
dass die Zeilen- und Spaltenzahlen “zusammenpassen”.
Transponierte Matrix
Die eben schon benutzte Transposition kann auf beliebige Matrizen angewandt werden. Sie besteht in
der Vertauschung von Zeilen und Spalten, also (AT )i j = a ji . Aus einer m × n-Matrix wird also eine
n × m-Matrix:




a11 a12 . . . a1n
a11 a21 . . . am1
 a21 a22 . . . a2n 
 a12 a22 . . . am2 




T
A= .
−→
A
=
 ..

..
..
.. . .
.. 
..
 ..


.
.
.
.
.
.
. 
am1 am2 . . . amn
✞
a1n a2n . . . amn
☎
Für die Transposition von Matrixprodukten gilt folgende Rechenregel:
✝
(A B)T = BT AT
✆
was man wie folgt beweist
n
((A B)T )i j = (A B) ji =
n
n
∑ a jk bki = ∑ (AT )k j (BT )ik = ∑ (BT )ik (AT )k j = (BT AT )i j .
k=1
k=1
k=1
Bei Transposition vertauscht sich also die Reihenfolge der Faktoren in einem Matrixprodukt. Das gilt
natürlich auch für Produkte von mehr als zwei Matrizen.
Komplexe Matrizen
In komplexen Vektorräumen (K = C) werden auch die Matrizen komplex sein. Dann gibt es als weitere
Operation die Komplexkonjugation einer Matrix
(A∗ )i j = a∗i j
81
Besondere Bedeutung hat die Kombination aus Komplexkonjugation und Transposition. Man definiert
die adjungierte oder hermitesch konjugierte Matrix durch
✞
✝
†
∗ T
A = (A )
✞
☎
✆
oder äquivalent
A† = (AT )∗
(A† )i j = a∗ji .
also komponentenweise:
☎
Für das Adjungieren von Matrixprodukten gilt dieselbe Rechenregel wie für die Transposition:
✝
(A B)† = B† A† .
✆
Inneres Produkt
Drückt man das innere Produkt zweier Vektoren h~a |~bi durch die Spaltenvektoren a und b aus, dann
nimmt es die Form an
 
b1
n
†
∗
∗  .. 
ha | bi = a b = (a1 . . . an )  .  = ∑ a∗i bi .
i=1
bn
Für reelle Vektoren entfällt die Komplexkonjugation, d.h. das Skalarprodukt lässt sich als ha | bi = aT b =
n
∑ ai bi schreiben.
i=1
Die Spur
Eine wichtige Kenngröße quadratischer Matrizen ist deren Spur, die als die Summer aller Diagonalelemente definiert ist:
✞
✝
Sp A = a11 + a22 + . . . + ann .
☎
✆
✞
☎
Die so definierte Größe erweist sich als unabhängig von der gewählten Basis (Beweis folgt später).
Für die Spur von Matrixprodukten gilt die Rechenregel
Der Beweis erfolgt durch komponentenweises Ausschreiben:
n
n
n
n
Sp(AB) = ∑ (AB)ii = ∑ ∑ ai j b ji
i=1
✝
Sp(AB) = Sp(BA) .
,
Sp(BA) =
∑ (BA) j j =
j=1
i=1 j=1
n
✆
n
∑ ∑ b ji ai j
j=1 i=1
was offensichtlich übereinstimmt. Allgemein ist die Spur eines Produkts von Matrizen invariant unter
zyklischer Vertauschung der Faktoren
Sp(ABC) = Sp(BCA) = Sp(CAB) usw.
9.2 Determinanten
Von zentraler Bedeutung für die Lineare Algebra ist der Begriff der Determinante. Die Determinante
ist (wie schon die Spur) nur für quadratische Matrizen definiert. Wir bezeichnen sie mit senkrechten
Strichen1
a11 . . . a1n det A = |A| = ... . . . ... .
an1 . . . ann 1 Ein
Nachteil dieser Notation ist, dass sie an Betragsstriche erinnert. Verwechslungsgefahr besteht aber nur selten. Manchmal schreibt man auch “det” vor die Matrix.
82
Ähnlich wie die Spur besteht die Determinante aus Produkten von n Elementen der Matrix, wobei jedoch
nicht nur ein Term sondern insgesamt n! Summanden auftreten, mit alternierenden Vorzeichen.
Die Laplace-Entwicklung
Die Definition der Determinante kann rekursiv erfolgen, d.h. eine Determinante n-ten Grades wird
zurückgeführt auf eine Summe über n Determinanten des Grades n − 1. Das wird solange wiederholt
bis man bei Determinanten ersten Grades angekommen ist, die einfach gleich der Zahl in der “1 × 1Matrix” gesetzt werden.
Nach Laplace schreibt man entweder
n
|A| = ∑ ai j ci j
Entwicklung nach der Spalte j
i=1
oder alternativ
n
|A| =
∑ ai j ci j
Entwicklung nach der Zeile i .
j=1
Hier wurden die Kofaktoren ci j eingeführt, bei denen es sich um Determinanten vom Grade n− 1 handelt,
die zusätzlich noch mit einem Vorzeichenfaktor versehen werden:
ci j = (−1)i+ j mi j .
Am Ende dieser Definitionskette stehen die Unterdeterminanten oder Minoren mi j . Bei mi j handelt es
sich um die Determinante n − 1-ten Gerades die entsteht, wenn man in der Matrix A die i-te Zeile und
die j-te Spalte streicht.
Am klarsten wird diese Konstruktion wohl durch ein Beispiel. Wir betrachten eine allgemeine 3 × 3Matrix und berechnen deren Determinante z.B. durch Entwicklung nach der ersten Zeile, i = 1, also
a11 a12 a13 |A| = a21 a22 a23 = a11 c11 + a12 c12 + a13 c13 = (−1)2 a11 m11 + (−1)3 a12 m12 + (−1)4 a13 m13 .
a31 a32 a33 Die hierbei benötigten Minoren lauten
a22 a23 a21 a23 m11 = , m12 = a32 a33 a31 a33 ,
a21 a22 .
m13 = a31 a32 Diese lassen sich natürlich auch wieder durch Laplace-Entwicklung berechnen. Zum Beispiel lautet die
Entwicklung von m11 nach der ersten Zeile2
a22 a23 = a22 (−1)2 |a33 | + a23 (−1)3 |a32 | = a22 a33 − a23 a32
usw.
m11 = a32 a33 Damit ergibt sich für die Determinante einer 3 × 3-Matrix das allgemeine Resultat
|A| = a11 a22 a33 − a11 a23 a32 + a12 a23 a31 − a12 a21 a33 + a13 a21 a32 − a13 a22 a31 .
2 Achtung:
An dieser Stelle führt die Notation der Determinante durch senkrechte Striche ausnahmsweise zu Verwechslungsgefahr. Mit |a33 | ist hier nicht der Betrag gemeint, sondern die Determinante der 1 × 1-Matrix, also |a33 | = a33 .
83
Dies ist das Resultat einer von 2n = 6 möglichen Berechnungen der Determinante nach der Methode von
Laplace. Denn alternativ hätten wir nach der zweiten oder der dritten Zeile entwickeln können, oder auch
nach einer der drei Spalten. Mit etwas Rechenarbeit überzeugt man sich, dass jeder dieser Rechenwege
zum gleichen Resultat führt. (Anmerkung: Für die sechs Terme aus denen sich die Determinante einer
33 × 3-Matrix zusammensetzt gibt es eine einfache geometrische Merkregel, die als “Sarrussche Regel”
bekannt ist.)
Analysieren wir nun dieses Resultat. In jedem Summanden treten n = 3 Elemente der Matrix als Faktoren
auf. Dabei trägt ein Faktor den Zeilenindex 1, ein weiterer den Zeilenindex 2 und der dritte den Zeilenindex 3. So, wie wir die Summe geordnet haben, treten die drei Faktoren sogar in dieser Reihenfolge auf.
Für die Spaltenindizes gilt das Entsprechende: Die Indexwerte 1, 2 und 3 treten in jedem Produkt genau
einmal auf. Die Vielfalt von Summanden entsteht dadurch, dass die Spaltenindizes permutiert werden.
Eine Menge von n unterschiedlichen Objekten (hier die Spaltenindizes) kann in n! verschiedenen Permutationen angeordnet werden, was zu 3! = 6 Summanden führt. Um die unterschiedlichen Vorzeichen zu
verstehen, betrachten wir die positiven und die negativen Summanden genauer. Das positive Vorzeichen
tritt auf, wenn die drei Spaltenindizes in der Reihenfolge (1,2,3), (2,3,1) oder (3,1,2) stehen, die negativen
Summanden weisen die Reihenfolge (1,3,2), (2,1,3), (3,2,1) auf. Man spricht hier von geraden Permutationen, die durch eine gerade Anzahl von paarweisen Vertauschungen aus der “natürlichen” Reihenfolge
(1,2,3) entstehen und ungeraden Permutationen mit einer ungeraden Anzahl von Vertauschungen.
Damit ergibt sich folgende Formel von G.W. Leibniz für die direkte Berechnung der Determinante einer
n × n-Matrix:
☛
|A| = ∑ sgn P a1π (1) a2π (2) . . . anπ (n) .
✡
P
✟
✠
Hier läuft die Summe über alle Permutationen P der Zahlen 1 bis n, also (1, 2, . . . n) → P =
(π (1), π (2), . . . , π (n)) und sgn P ist das gerade beschriebene Vorzeichen (Signum) der Permutation, also
sgn P = +1 für gerade und sgn P = −1 für ungerade Permutationen.
Die Leibniz-Formel für Determinanten lässt sich auch noch in einer anderen, äquivalenten Form als
n-fache Summe schreiben:
✎
|A| =
✍
n
∑
εi1 i2 ...in a1i1 a2i2 . . . anin .
i1 ,i2 ,...,in
☞
✌
Hier tritt das Epsilonsymbol vom Grade n auf, das in korrekter mathematischer Bezeichnung vollständig
antisymmetrischer Einheitstensor oder auch (nach dem italienischen Mathematiker Tullio Levi-Civita
(1873-1941)) Levi-Civita-Tensor heisst:


+1, falls (i1 , i2 , . . . , in ) eine gerade Permutation von (1, 2, . . . , n) ist,
εi1 i2 ...in = −1, falls (i1 , i2 , . . . , in ) eine ungerade Permutation von (1, 2, . . . , n) ist,


0,
wenn mindestens zwei Indizes gleich sind.
Man kann zeigen, dass die rekursive Definition der Determinante nach Laplace und die direkte Summenformel nach Leibniz auf das gleiche Resultat führen. Auf einen formalen Beweis verzichten wir hier.
Rechenregeln für Determinanten
Es gibt eine ganze Reihe von Rechenregeln, die bei der Arbeit mit Determinanten nützlich sind. Wir
zählen die wichtigsten hier auf:
Regel (1)
|AT | = |A|
Invarianz unter Vertauschung von Zeilen und Spalten
84
Beweis: Bei der Determinante der transponierten Matrix treten die Faktoren ai1 1 ai2 2 . . . ain n auf. Durch
Umsortieren der Faktoren können die Zeilenindizes in die natürliche Reihenfolge gebracht werden,
was zu einer Permutation der Spaltenindizes führt: a1 j1 a2 j2 . . . an jn . Das Signum der Permutation
( j1 , j2 , . . . , jn ) ist dasselbe wie das der Permutation (i1 , i2 , . . . , in ), da die Anzahl der Permutationen der
Zeilenindizes dieselbe ist wie die Anzahl der Permutationen der Spaltenindizes.
Regel (2)
Die Determinante wechselt das Vorzeichen, wenn zwei Zeilen oder
zwei Spalten miteinander vertauscht werden.
Beweis: Dies sieht man dem Epsilonsymbol an. Werden etwa die benachbarten Spalten 1 und Spalten
2 vertauscht, dann entspricht das der Vertauschung von i1 und i2 in der Leibniz-Formel und demgemäß
wird aus einer geraden Permutation eine ungerade, und umgekehrt. Genau dasselbe geschieht bei der
Vertauschung von Zeile 1 mit Zeile 2: Aus a1i1 a2i2 wird a2i1 a1i2 , was wie eben auf a1i2 a2i1 führt, wenn
man den Zeilenindex in aufsteigender Reihenfolge anordnet. Natürlich gilt diese Argumentation für jedes
Paar benachbarter Zeilen oder Spalten. Bei Vertauschen von zwei nicht benachbarten Zeilen oder Spalten
treten ebenfalls ungerade Permutationen auf, z.B. (123) → (132) → (312) → (321).
Regel (3)
|A| = 0 wenn zwei Zeilen oder zwei Spalten identisch sind.
Beweis: Dies folgt aus Regel (2). Sind die Zeilen/Spalten benachbart, dann ergibt sich bei Vertauschung
einerseits |A′ | = −|A|. Andererseits sind aber |A′ | und |A| identisch, also muss die Determinante Null
sein. Anfangs nicht benachbarte Zeilen/Spalten lassen sich mittels (2) durch Vertauschungen nebeneinander bringen.
Regel (4)
|A| → α |A| wenn alle Elemente einer Zeile oder einer Spalte mit einem
gemeinsamen Zahlenfaktor α multipliziert werden.
Beweis: Dies ist offensichtlich, da jeder der Produktterme in der Leibniz-Formel genau einen Faktor aus
jeder Zeile und aus jeder Spalte enthält.
Eine unmittelbare Folge aus Regel (4) ergibt sich, wenn man die ganze Matrix (also alle Elemente) mit
einem Faktor multipliziert:
✞
✝
|α A| = α n |A|
Regel (5)
☎
✆
Die Determinante bleibt unverändert, wenn das Vielfache einer Zeile (Spalte)
zu einer anderen Zeile (Spalte) addiert wird.
Beweis: Betrachten wir ohne Beschränkung der Allgemeinheit die Zeilen 1 und 2, addieren also a1i →
a1i + α a2i . Dann lautet die Leibniz-Formel
|A′ | = ∑ sgnP (a1i1 + α a2i1 )a2i2 . . . anin = ∑ sgnP a1i1 a2i2 . . . anin + α ∑ sgnP a2i1 a2i2 . . . anin = |A|
P
P
P
Der zweite Term entspricht einer Determinante mit zwei gleichen Zeilen und verschwindet deshalb
gemäß Rechenregel (3). Für Spalten funktioniert der Beweis ebenso.
Regel (6)
✞
✝
|A B| = |A| |B|
☎
✆
Produktsatz für Determinanten
n
Beweis: Die Produktmatrix C = A B mit cik = ∑ ai j b jk lässt sich als Matrix von Spaltenvektoren
schreiben:
j=1
n
C = c1 c2 . . . cn . Hier ist ck = ∑ b jk aj eine Linearkombination der Spaltenvektoren
j=1
85
aj = (a1 j a2 j . . . an j )T . Die Determinante einer Matrix von Spaltenvektoren (für Zeilenvektoren gilt dasselbe) ist linear bezüglich der einzelnen Vektoren, womit gemeint ist
|α a1 + β a2 b . . . z| = α |a1 b . . . z| + β |a2 b . . . z|
für die erste Spalte, usw. Dies folgt aus der Laplaceschen Entwicklungsformel. Für die Determinante der
Matrix C kann diese Linearität n mal angewandt werden, für jede Spalte einzeln. Dies führt auf
n
|C| =
∑
j1 , j2 ... jn =1
b j1 1 b j2 2 . . . b jn n |aj1 aj2 . . . ajn | .
Der letzte Term unter der Summe unterscheidet sich von der Determinante |A| = |a1 a2 . . . an | nur dadurch, dass die Reihenfolge der Spalten(vektoren) permutiert ist. Wird durch Vertauschen der Spalten
gemäß Determinantenregel (2) die natürliche Reihenfolge hergestellt, dann entsteht ein Vorfaktor, der
genau dem Signum der Permutation ( j1 , j2 , . . . jn ) entspricht. Also folgt wie behauptet
n
|A B| = |A|
∑
j1 , j2 ... jn =1
ε j1 j2 ... jn b j1 1 b j2 2 . . . b jn n = |A| |B|
Zur Vermeidung eines beliebten Fehlers ist es nützlich darauf hinzuweisen, dass es zwar eine Produktformel für Determinanten gibt, aber keine Additionsformel! Das heisst: |A + B| =
6 |A| + |B|. Die Determinantenbildung ist keine lineare Operation!
Das Gaußsche Eliminationsverfahren
Diese Rechenregeln erlauben es, eine Determinante in vielfältiger Weise umzuformen. Insbesondere
erlaubt es die Regel (5), Determinanten durch geschickte Kombination von Zeilen oder Spalten zu vereinfachen. Betrachten wir als Beispiel die Berechnung einer willkürlich gewählten Determinante vierter
Ordnung
1 1 2 2 1 1 2 2 1 3 2 1 3 2 3 4 9 8 1) 0 1 3 2 2) 4) 2 1 3) =
0 2 1=
= 2 8 5=
2 4 12 9 0 2 8 5 1 2 = 4−1 = 3 .
2 7 6 0 1 2
1 3 9 8 0 2 7 6
Hierbei wurde im Schritt 1) dreimal die Regel (5) angewendet: Das Dreifache der ersten Zeile wurde
von Zeile 2 subtrahiert, um eine 0 an die Position (2,1) zu bekommen. Analog wurde für die Zeilen
3 und 4 vorgegangen. In Schritt 2) wurde die Determinante nach der ersten Spalte entwickelt, wobei
dank der geschickten Vorverarbeitung nur ein Term auftritt. Die resultierende 3 × 3-Matrix wird ebenso
behandelt, d.h. in Schritt 3) wird das Doppelte der ersten Zeile von Zeile 2 und 3 subtrahiert, um NullEinträge zu produzieren. Nochmalige Anwendung der Entwicklungsformel führen auf eine trivial lösbare
2 × 2-Matrix.
Diese Vorgehensweise ist immer anwendbar und bietet die Möglichkeit, Determinanten hoher Ordnung
mit vergleichsweise geringem Aufwand zu berechnen, ohne alle n! Summanden berechnen zu müssen.
Das Rechenschema ist als Gaußsches Eliminationsverfahren bekannt. Es findet in der numerischen Mathematik Anwendung, wo routinemäßig mit sehr hochdimensionalen Matrizen gearbeitet wird. In Anbetracht von 1000! ≃ 102567 wird klar, dass eine direkte Berechnung der Determinante einer 1000 × 1000Matrix nach der Formel von Leibniz völlig unpraktikabel wäre.
Singuläre Matrizen
Eine Matrix, deren Determinante verschwindet, |A| = 0 wird als singulär bezeichnet. Diese Eigenschaft
86
spielt eine wichtige Rolle bei der Lösung linearer Gleichungssysteme. Eine Matrix A = (a1 a2 . . . an ) ist
dann singulär, wenn ihre Spaltenvektoren ai (oder genauso auch ihre Zeilenvektoren) ein linear abhängiges System bilden, wenn es also von Null verschiedene Koeffizienten ci gibt sodass gilt
c1 a1 + c1 a2 + . . . + cn an = 0 .
Nach den Rechenregeln (4) und (5) lassen sich die Spalten linearkombinieren ohne den Wert der Determinante zu verändern:
c1 |A| = |c1 a1 a2 . . . an | = . . . = |(c1 a1 + c2 a2 + . . . + cn an ) a2 . . . an | = |0 a2 . . . an | = 0 .
Für die Zeilen lässt sich genauso argumentieren. Man kann zeigen dass die folgenden drei Aussagen
zueinander äquivalent sind:
1) Eine Matrix ist singulär.
2) Ihre Spalten sind linear abhängig.
3) Ihre Zeilen sind linear abhängig.
Im dreidimensionalen Raum hat das Verschwinden der Determinante
eine direkte anschauliche Interpretation. Die Determinante einer aus
drei Vektoren a, b und c gebildeten Matrix entspricht gerade dem
Spatprodukt dieser Vektoren. Dessen Wert ist gleich dem Volumen
des von den Vektoren aufgespannten “Parallelepipeds”
a1 b1 c1 a2 b2 c2 = (a × b) · c = (ab sin ϕ )c cos θ = Vol(a, b, c) .
a3 b3 c3 ®
c
®
b
q
j
®
a
Dieses Volumen verschwindet, wenn die drei Vektoren in einer Ebene liegen, was gerade ihrer linearen
Abhängigkeit entspricht. Ein negatives Vorzeichen resultiert, wenn die drei Vektoren ein linkshändiges
System bilden.
Die inverse Matrix
Wenn man mit einer Matrix multiplizieren kann, ist es dann auch möglich durch eine Matrix zu teilen?
Anders gefragt: Lässt sich eine Matrixgleichung der Art P = A B nach B auflösen? Die Antwort lautet:
Für quadratische Matrizen ist dies tatsächlich möglich. Zu diesem Zweck definiert man die zu A inverse
Matrix A−1 durch die Gleichung3
✞
☎
−1
−1
✝A A = A A = I . ✆
Damit lässt sich das gestellte Problem formal lösen:
B = (A−1 A)B = A−1 (A B) = A−1 P .
Notwendige Voraussetzung für die Existenz der inversen Matrix ist, dass A eine nichtsinguläre Matrix
ist, dass also die Determinante nicht verschwindet |A| =
6 0. Dies entnimmt man sofort dem Produktsatz
für Determinanten, angewandt auf die Definitionsgleichung der inversen Matrix:
|A−1 A| = |A−1 | |A| = |I| = 1 also
|A−1 | =
3 Für
1
.
|A|
unendlichdimensionale Vektorräume kann die Komplikation auftreten, dass Linksinverse und die Rechtsinverse nicht
identisch sind.
87
Für singuläre Matrizen divergiert dieser Ausdruck und die Inverse existiert nicht; mindestens eines ihrer
Elemente müsste unendlich groß sein.
Es ist möglich, die inverse Matrix mit den Mitteln der Determinantentheorie explizit zu berechnen. Das
Resultat lautet:
✎
A
−1
✍
CT
=
|A|
☞
(A−1 )ik =
oder komponentenweise
✌
cki
.
|A|
Hierbei ist C die Matrix der im Zusammenhang mit der Entwicklungsformel für Determinanten eingeführten Kofaktoren. CT wird manchmal auch als Adjunkte der Matrix A bezeichnet und man spricht
vom Adjunktenverfahren zur Invertierung einer Matrix.
Beweis: Nach Multiplikation mit A von rechts und mit |A| lässt sich die Behauptung schreiben als
n
CT A = |A| I oder
∑ cki ak j = δi j |A|
.
k=1
Für i = j ist dies gerade die Entwicklungsformel der Determinante nach der iten Spalte. Im Fall i 6= j
betrachten wir eine modifizierte Matrix A′ , bei der die Spalte i durch die Spalte j ersetzt wird: a′ki =
ak j . Die Determinante dieser modifizierten Matrix verschwindet offenbar nach Regel (3), da sie ja zwei
identische Spalten besitzt:
|A′ | =
n
n
∑ c′ki a′ki =
∑ c′ki ak j = 0 .
k=1
k=1
Nun gilt aber c′ki = cki , da bei der Bildung des Kofaktors ja die (veränderte) ite Spalte der Matrix gestrichen wurde. Damit ist die Behauptung bewiesen.
Betrachten wir explizit den einfachen Spezialfall n = 2. Hier ist
a11 a12
,
|A| = a11 a22 − a12 a21
,
A=
a21 a22
C=
Die inverse Matrix lautet nach dem Adjunktenverfahren also
CT
1
a22 −a12
A−1 =
=
|A| a11 a22 − a12 a21 −a21 a11
was man auch sofort durch Multiplikation mit der Matrix A bestätigt.
★
✥
Für die inverse Matrix gelten folgende Rechenregeln:
(A−1 )−1 = A ,
(AT )−1 = (A−1 )T ,
(A† )−1 = (A−1 )† ,
✧
(A B)−1 = B−1 A−1 .
Die Beweise sind sehr einfach.
✦
88
a22 −a21
−a12 a11
.
9.3 Spezielle Matrizen
Es gibt verschiedene Typen von Matrizen mit speziellen Eigenschaften, die in den Anwendungen häufig
vorkommen. Wir betrachten die wichtigsten Fälle, wobei es sich immer um quadratische n × n-Matrizen
handeln wird.
Diagonalmatrizen
Bei einer Diagonalmatrix verschwinden alle Elemente deren Zeilen- und Spaltenindex sich unterscheiden:


a11 0 . . . 0
 0 a22 . . . 0 


A= .
..  = diag (a11 , a22 , . . . , ann ) ,
.. . .
 ..
. . 
.
0
. . . ann
0
sie besitzt also nur n statt n2 Elemente. Die Determinante und die Inverse einer Diagonalmatrix lassen
sich sofort angeben:
1 1
1 |A| = a11 a22 . . . ann und A−1 = diag
,
,...,
.
a11 a22
ann
Man könnte vermuten, dass es bei der Multiplikation einer Matrix mit einer Diagonalmatrix D nicht
darauf ankommt, ob dies von links oder von rechts erfolgt. Das stimmt jedoch nicht, man findet leicht
Gegenbeispiele. Im allgemeinen ist D A 6= A D. Das Gleichheitszeichen gilt nur, wenn entweder D = α I
ein Vielfaches der Einheitsmatrix ist oder wenn auch A eine Diagonalmatrix ist.
(Anti)Symmetrische Matrizen
Hierzu ist nicht viel zu sagen. Die Bedingung
AT = ±A
schränkt die Zahl der unabhängigen Elemente ein. Bei einer antisymmetrischen Matrix sind die n Diagonalelemente Null und es bleiben 21 (n2 − n) = 12 n(n − 1) Freiheitsgrade übrig. Bei einer symetrischen
Matrix sind es n Freiheitsgrade mehr, also 12 (n2 − n) + n = 12 n(n + 1).
Orthogonalmatrizen
Diese sind definiert durch die Bedingung
✞
✝A = A
T
−1
☎
✆ oder auch
AT A = A AT = I .
Komponentenweise hingeschrieben führt dies zu folgenden Beziehungen:
(AT A)i j =
(A AT )i j =
n
n
k=1
n
k=1
n
∑ (AT )ik (A)k j = ∑ aki ak j = δi j ,
∑ (A)ik (AT )k j = ∑ aik a jk = δi j .
k=1
k=1
Denkt man sich die Matrix A aus n Spalten- oder Zeilenvektoren aufgebaut, dann bedeuten diese Gleichungen die Orthogonalität der Spalten und die Orthogonalität der Zeilen.
Auch die zu A inverse Matrix ist orthogonal, denn (A−1 )T = (AT )T = A = (A−1 )−1 . Für die Determinante einer orthogonalen Matrix gibt es nur zwei Möglichkeiten:
|AT A| = |AT | |A| = |A|2 = |I| = 1 also
|A| = ±1 .
89
Die durch eine Orthogonalmatrix vermittelte lineare Abbildung hat eine wichtige geometrische Eigenschaft: Sie lässt das innere Produkt zwischen Vektoren und damit auch die Norm eines Vektors unverändert. Mit x′ = Ax und y′ = Ay ergibt sich
hy′ | x′ i = y′T x′ = (Ay)T (Ax) = yT AT Ax = yT A−1 Ax = yT x = hy | xi .
Dies gilt für reelle Vektoren. Für den komplexen Fall: siehe unten (unitäre Matrizen). Die wichtigste
Klasse orthogonaler Transformationen sind die Raumdrehungen.
Im zweidimensionalen Raum R2 hat die Drehmatrix eine besonders einfache Gestalt:
cos ϕ − sin ϕ
D(ϕ ) =
.
sin ϕ cos ϕ
Der Vektor x′ = D(ϕ )x ist um den Winkel ϕ gegen den Uhrzeigersinn “um die z-Achse” gedreht. Man
überzeugt sich leicht, dass es sich bei D um eine orthogonale Matrix handelt.
(Anti)Hermitesche Matrizen
In komplexen Vektorräumen muss man den Begriff der symmetrischen und der orthogonalen Matrizen
verallgemeinern. Dazu wird statt der transponierten Matrix AT die die adjungierte (oder hermitesch konjugierte) Matrix A† = (AT )∗ verwendet. Eine Matrix heisst (anti)selbstadjungiert oder (anti)hermitesch
wenn gilt
✞
☎
✝A = ±A ✆
†
Es gilt wieder (A−1 )† = ±A−1 . Jede Matrix kann durch
1
1
A = (A + A† ) + (A − A†)
2
2
in einen hermiteschen und einen antihermiteschen Anteil zerlegt werden.
Unitäre Matrizen
Dieser Begriff verallgemeinert den Begriff orthogonaler Abbildungen auf komplexe Vektorräume. Eine
unitäre Matrix genügt der Bedingung
✞
☎
†
−1
†
✝A = A
✆ oder auch A A = I .
Es gilt wieder: auch die inverse Matrix ist unitär: (A−1 )† = (A−1 )−1 .
Für die Determinante einer unitären Matrix gilt
|A† A| = |A† | |A| = |A|∗ |A| = 1 .
Deshalb ist die Determinante ein (womöglich komplexer) Phasenfaktor vom Betrag eins: |A| = eiϕ .
Unitäre Transformationen y = A x lassen die Norm eines Vektors in einem komplexen Vektorraum unverändert:
†
hy′ | x′ i = y′ x′ = (Ay)† (Ax) = y† A† Ax = y† A−1 Ax = y† x = hy | xi .
9.4 Lineare Gleichungssysteme
Eine wichtige und naheliegende Anwendung der Linearen Algebra ist das Lösen linearer Gleichungssysteme. Es geht also um die Frage: Welche Lösungen besitzt ein System von m linearen Gleichungen mit
90
n Unbekannten x1 , x2 . . . , xn der Form
a11 x1 + . . . + a1n xn = b1
a21 x1 + . . . + a2n x2 = b2
.....................
...
am1 x1 + . . . + amn xn = bm
✞
☎
A
x
=
b
✝
✆
oder in Matrixschreibweise
mit der m × n-Koeffizientenmatrix A und einem Spaltenvektor b. Dies ist ein inhomogenes lineares Gleichungssystem, das im Spezialfall b = 0 zu einem homogenen Gleichungssystem wird.
Nun stellt sich die Frage, ob das Gleichungssystem überhaupt lösbar ist, und wenn ja, ob eine eindeutige
Lösung existiert oder mehrere Lösungen. Entscheidend dafür ist natürlich die Struktur der Koeffizientenmatrix, und zwar eine Größe, die als der Rang der Matrix bezeichnet wird.
Der Rang einer Matrix
Für die Lösbarkeit des Gleichungssystems kommt es darauf an, ob die in den Koeffizienten steckende
Information “redundant” ist. Schreibt man z.B. dieselbe Gleichung mehrfach hin, dann entsteht dadurch
zwar auch ein Gleichungssystem, aber dieses enthält offenbar nicht mehr Information als eine einzige
Gleichung. Auf diese Weise wird man zur folgenden Definition geführt:
Der Rang R(A) einer Matrix A ist gleich der Zahl ihrer linear unabhängigen Zeilenvektoren u1 = (a11 a12 . . . a1n ) bis um = (am1 am2 . . . amn ).
Der Rang einer m × n- Matrix liegt naturgemäß zwischen 1 und m.
Man kann die Matrix auch in Spaltenvektoren aufteilen, was folgende alternative Definition nahelegt:
Der Rang R(A) einer Matrix A ist gleich der Zahl ihrer linear unabhängigen Spaltenvektoren v1 = (a11 a21 . . . am1 )T bis vn = (a1n a2n . . . amn )T .
Eine tiefergehende mathematische Betrachtung zeigt (siehe Lehrbücher), dass beide Definitionen den
gleichen Wert liefern. Es gibt noch eine dritte aquivalente Dimension (ebenfalls ohne Beweis):
Der Rang einer Matrix A ist gleich der Dimension r ihrer größten nicht-singulären
quadratischen r × r Untermatrix.
Nochmals anders ausgedrückt, ist der Rang R(A) die Dimension des Bildraums in K m , der von den
Vektoren A x (für alle x ∈ K n ) aufgespannt wird.
Mögliche Lösungen des Gleichungssystems
Wir betrachten das lineare System von m Gleichungen mit n Unbekannten und schreiben es nochmals in
einer anderen Form:
x1 v1 + x1 v1 + . . . + xn vn = b .
Die vi sind die n Spaltenvektoren (mit jeweils m Komponenten) aus denen sich die Matrix A zusammensetzt. Welche Lösungen dieses Gleichungssystems sind möglich?
1. Keine Lösung
Wenn der Vektor b nicht im linearen Raum liegt, der von den Vektoren vi , i = 1 . . . n aufgespannt wird,
dann besitzt das Gleichungssystem keine Lösung. Man denke etwa an das Gleichungssystem x1 + x2 =
0 , x1 + x2 = 1. Ein mathematisches Kriterium dafür, dass keine Lösung existiert lautet: Der Rang der
91
erweiterten m × (n + 1)-Matrix, bestehend aus den n + 1 Spaltenvektoren (v1 v2 . . . vn b) ist größer als
der Rang der Matrix A.
2. Genau eine Lösung
Das Gleichungssystem ist lösbar, wenn sich b als Linearkombination der vi ausdrücken lässt. Damit die
Lösung eindeutig ist, müssen die Vektoren vi linear unabhängig sein, das heisst also, dass der Rang der
Koeffizientenmatrix gleich der Zahl der Variablen sein muss r = n. Die Spaltenvektoren bilden dann eine
Basis und jeder Vektor b besitzt eine eindeutige Zerlegung in dieser Basis.
3. Unendlich viele Lösungen
Im Fall r < n sind die vi linear abhängig und es gibt Beziehungen der Art
c1 v1 + c2 v2 + . . . + cn vn = 0 .
Dann lassen sich Vielfache dieser Gleichung auf der linken Seite addieren, was die Komponenten des
Lösungsvektors x entsprechend verändert. Demnach besitzt das lineare Gleichungssystem im Fall r < n
unendlich viele Lösungen.
Einen wichtigen Spezialfall bilden homogene lineare Gleichungssysteme, also b = 0. Dann existiert immer eine Lösung, nämlich der Nullvektor x = 0. Dieses ist die einzige Lösung wenn r = n gilt. Nichttriviale Lösungen sind nur für r < n möglich,
✞ was bei☎einem n × n-Gleichungssystem erfordert, dass
die Koeffizientendeterminante verschwindet, |A| = 0 . Bei der Behandlung von Eigenwertproblemen
✝
✆
wird dies wichtig werden.
Im Fall eines unterbestimmten Gleichungssystems (weniger Gleichungen m als Unbekannte n) gibt es
nur zwei Möglichkeiten: Entweder die Gleichungen sind unverträglich und keine Lösung existiert, oder
es gibt eine unendliche Anzahl von Lösungen.
Lösungsmethoden für n lineare Gleichungen mit n Unbekannten
Wir betrachten den Fall, dass die Koeffizientenmatrix nichtsingulär ist, also |A| =
6 0.
Direkte Inversion
Eine offensichtliche Methode zur Lösung des Problems besteht im Anwenden der inversen Koeffizientenmatrix, also
x = A−1 b .
Die Matrixinvertierung ist rechnerisch aufwendig. Kennt man aber A−1 , dann kann die Lösung des Gleichungssystems für beliebige Inhomogenitäten b leicht durch einfache Matrixmultiplikation bestimmt
werden.
Die Cramersche Regel
Eine elegante Methode zur Lösung linearer Gleichungssysteme beruht auf der Berechnung von Determinanten. Die Cramersche Regel lautet
a11 . . . a1 i−1 b1 a1 i+1 . . . a1n ✎
☞
a21 . . . a2 i−1 b2 a2 i+1 . . . a2n ∆i
xi =
mit ∆i = .
..
..
..
..
.. .
..
|A|
.
.
.
.
. ✍
✌
an1 . . . an i−1 bn a2 i+1 . . . ann Bei der Konstruktion der Cramer-Determinante ∆i wird also die i te Spalte von A durch den Vektor b
ersetzt.
92
Beweis: Als Beispiel betrachten wir i = 1. Wir benutzen die Determinantenregel (5) und addiere zur
ersten Spalte die mit xk /x1 gewichteten Vielfachen der kten Spalten (k = 2 . . . n):
a11 + xx2 a12 + . . . + xxn a1n a12 . . . a1n b1 a12 . . . a1n 1
1
a21 + x2 a22 + . . . + xn a2n a22 . . . a2n 1 b2 a22 . . . a2n 1
x1
x1
|A| = ..
.. . .
.. = ∆1 .
..
.. . .
.. =
x
x
. . . . 1
1
.
.
.
.
an1 + x2 an2 + . . . + xn ann an2 . . . ann bn an2 . . . ann x1
x1
Hier wurde im zweiten Schritt das lineare Gleichungssystem benutzt. Für die anderen Spalten funktioniert die Rechnung genauso.
Das Gaußsche Eliminationsverfahren
Das Cramersche Verfahren ist zwar sehr elegant, aber wegen der zahlreichen zu berechnenden Determinanten nicht wirklich praxistauglich, zumindest nicht für große Matrizen. Ein wesentlich effizienteres
Verfahren geht auf Gauß zurück. Dabei werden durch geschicktes Kombinieren der Gleichungen einzelne Variablen aus diesen eliminiert, solange, bis nur noch eine übrig bleibt. Etwas genauer: Durch Bildung
geeigneter Linearkombinationen wird die Koeffizientenmatrix in eine Dreiecksmatrix (genauer gesagt:
eine obere Dreiecksmatrix) umgewandelt, so dass das Gleichungssystem die folgende Form annimmt:

   
ã11 ã12 . . . ã1n
x1
b̃1
 0 ã22 . . . ã21   x2   b̃2 

   
 ..
.. . .
..   ..  =  ..  .
 .
. .  .   . 
.
0
0 . . . ãnn
xn
b̃n
Die linke untere Hälfte der Koeffizientenmatrix enthält also nur Nullen. In dieser Form ist das Gleichungssystem sofort lösbar. Die Gleichung Nummer n ist entkoppelt und ihre Lösung steht sofort da:
xn = b̃n /ãnn . Diesen Wert setzt man in die vorletzte Gleichung ãn−1 n−1 xn−1 + ãn−1 n xn = b̃n−1 ein, löst
diese nach xn−1 auf, und so weiter.
Wie bringt man die Koeffizientenmatrix in Dreiecksform? Dazu darf man Operationen wie beim Umformen von Determinanten vornehmen: Multiplikation einer Zeile mit einer konstanten Zahl, Addition des
Vielfachen einer Zeile zu einer anderen Zeile, Vertauschung von Zeilen. Dabei muss jetzt jeweils auch
die rechte Seite des Gleichungssystems einbezogen werden. Um die Übersicht zu bewahren empfiehlt es
sich, den Spaltenvektor b an die Matrix anzuhängen und zu schreiben


a11 a12 . . . a1n b1
 a21 a22 . . . a2n b2 


 ..
..
..
.. 
.
.
 .
.
.
.
. 
am1 am2 . . . amn bn
Betrachten wir als konkretes Beispiel das 3 × 3-Gleichungssystem


   

1 1
1
x1
1
1 1
1 1
 −1 1 −2   x2  =  4 
 −1 1 −2 4 
also
2 1
1 2
2 1
1
2
x3
Um die Einträge in der ersten Spalte auf Null zu bringen wird (1) das 2fache der ersten Zeile von der
dritten subtrahiert, (2) die erste Zeile zur zweiten addiert und (3) die dritte Zeile mit 2 multipliziert und
93
dazu die zweite Zeile addiert. Der Kasten zeigt an, welcher Eintrag als nächster eliminiert wird:








1 1
1 1
1
1
1 1
1
1
1 1
1 1
1 1
 −1 1 −2 4  →  -1
2 −1 5  →  0 2 −1 5  .
1 −2 4  →  0
0 0 −3 5
0 −1 −1 0
2 1
1 2
0 -1 −1 0
Damit erhält man für die Komponenten des Lösungsvektors x3 = − 35 , sowie x2 = 21 (5 + x3 ) =
x1 = 1 − x2 − x3 = 1.
5
3
und
Ist der Rang r der Koeffizientenmatrix kleiner als n, dann werden im Zuge des Eliminationsverfahrens
auf der linken Seite Zeilen aufteten, die ganz aus Nullen bestehen. In diesem Fall gibt es zwei Alternativen: Ist die rechte Seite ebenfalls Null, dann gibt es unendlich viele Lösungen (die zugehörige Variable
kann beliebige Werte annehmen. Andernfalls liegt ein Widerspruch vor und das Gleichungssystem ist
überhaupt nicht lösbar.
Das Gaußsche Verfahrens – in Varianten, die noch auf geringe Rundungsfehler und hohe Rechengeschwindigkeit optimiert sind – gehört zu den wichtigsten Algorithmen der numerischen Mathematik.
Geometrische Interpretation
Zum besseren Verständnis linearer Gleichungssysteme empfiehlt sich eine geometrische Visualisierung,
was für n = 2 und n = 3 möglich ist. Bei zwei Variablen werden durch die beiden linearen Gleichungen
zwei Geraden in der x1 -x2 -Ebene definiert, die sich entweder in einem Punkt schneiden (eine Lösung)
oder parallel verlaufen (keine Lösung) oder identisch sind (unendlich viele Lösungen). In drei Dimensionen sind die Optionen etwas komplizierter. Jede der drei linearen Gleichungen
ai1 x1 + ai1 x2 + ai1 x3 = bi
definiert eine Ebene im dreidimensionalen Raum. Die Flächennormalen ni sind durch die Gradienten
der Funktion auf der linken Seite gegeben, also ni = (ai1 ai2 ai3 )T . Der Abstand di der Ebene i vom
Koordinatenursprung wird durch bi bestimmt. Um ihn zu bestimmen, fällen wir das Lot auf die Ebene,
d.h. wir schneiden eine Gerade der Gestalt r(u) = ni u mit der Ebene. Dies führt auf
di = q
bi
.
a2i1 + a2i3 + a2i3
Ist der Rang der Koeffizientenmatrix r = 3, also |A| =
6 0, dann sind die drei Normalenvektoren linear
unabhängig. Zwei der Ebenen schneiden sich in einer Graden und diese hat genau einen Schnittpunkt
mit der dritten Ebene, was die eindeutige Lösung des Gleichungssystems liefert.
Im Fall r = 2 sind die drei Vektoren ni linear abhängig, sie liegen also in einer Ebene. Wie aus der
nachfolgenden Abbildung klar wird, können dann die Schnittgeraden alle zusammenfallen, was zu einer
unendlichen Anzahl von Lösungen (auf der gemeinsamen Schnittgeraden) führt. Andernfalls haben die
drei Flächen keine gemeinsamen Punkte, d.h. das Gleichungssystem ist nicht lösbar.
Der Fall r = 1 ist eher trivial, denn dann zeigen die drei Normalenvektoren alle in eine Richtung, d.h.
alle Flächen sind parallel. Entweder sind sie identisch (unendlich viele Lösungen) oder getrennt (keine
Lösung).
94
Mögliche Fälle für die Lösung eines linearen Gleichungssystems in drei Dimensionen.
9.5 Eigenwertprobleme
Neben der Lösung linearer Gleichungssysteme stellen Eigenwertprobleme die wichtigste Anwendung
der Linearen Algebra dar. Es geht dabei zunächst um die Frage: Unter welchen Bedingungen lässt eine
lineare Abbildung ~y = Â~x die Richtung eines Vektors ~x unverändert? In Matrixdarstellung lautet die
Eigenwertgleichung
☎
✞
A
x
=
λ
x
✝
✆
mit (reellen oder komplexen) Zahlen λ . Diese Eigenwertgleichtung wird in der Regel mehrere unterschiedliche Lösungen besitzen. Wir benutzen den Index i zum Durchzählen4 dieser Eigenlösungen. Die
Eigenwerte heißen λi und die zugehörigen Lösungsvektoren sind die Eigenvektoren xi . Wir betrachten
zunächst einige allgemeine Eigenschaften der Eigenlösungen und gehen erst später auf die konkrete
Lösung der Eigenwertgleichung ein.
Eigenlösungen für hermitesche Matrizen
In den Anwendungen spielen Eigenwertprobleme mit symmetrischen (für reelle Vektorräume) oder mit
hermiteschen (für komplexe Vektorräume) Matrizen eine besonders wichtige Rolle. Sie besitzen folgende
Eigenschaften:
Die Eigenwerte λi einer hermiteschen Matrix sind reell.
Die Eigenvektoren xi einer hermiteschen Matrix sind orthogonal.
Beweis: Wir betrachten zwei Eigenlösungen A xi = λi xi und A xj = λ j xj . Adjungierung der ersten Gleichung liefert (A xi )† = (λi xi )† also xi† A† = λi∗ xi† . Diese Gleichung wird von rechts mit dem Eigenvektor
xj multipliziert. Da die Matrix hermitesch sein soll, kann man A† durch A ersetzen. Das resultiert in der
Gleichung xi† Axj = λi∗ xi† xj . Andererseits kann man die Eigenwertgleichung für λ j betrachten und diese von links mit xi† multiplizieren, also xi† Axj = λ j xi† xj . Die linken Seiten der beiden Gleichungen
stimmen überein, daher folgt durch Subtraktion
(λi∗ − λ j ) xi† xj = 0 .
Wählt man i = j dann ist der zweite Faktor die Norm des Vektors xi = hxi | xi i = xi† xi und somit
4 Der
Index wird hier hochgestellt, um eine Verwechslung mit den Vektorkomponenten zu vermeiden.
95
positiv. Damit folgt, dass die Eigenwerte reell sind:
λi∗ = λi
also
λi ∈ R .
Aus derselben Gleichung folgt auch die Orthogonalität von Eigenvektoren mit unterschiedlichen Eigenwerten (i 6= j):
(λi − λ j ) xi† xj = 0
also
xi† xj = hxi | xj i = 0 wenn λi 6= λ j .
Eine besondere Betrachtung erfolgt der Fall der sogenannten Entartung, bei dem mehrere Eigenlösungen mit dem gleichen Eigenwert λi = λ j auftreten. In diesem Fall bilden die Eigenvektoren mit gleichem
Eigenwert einen mehrdimensionalen linearen Unteraum des K n , denn alle Linearkombinationen dieser
Vektoren erfüllen ebenfalls die Eigenwertgleichung. Es ist dann möglich, eine Orthogonalbasis in diesem Unterraum zu konstruieren und die Basisvektoren als Eigenvektoren zu verwenden. (Die Wahl der
Basisvektoren ist dabei nicht eindeutig.) Folgt man dieser Prozedur, dann ist die Orthogonalität aller
Eigenvektoren auch im Fall von Entartung sichergestellt.
Im Fall eines reellen Vektorraums folgt die Orthogonalität der Eigenvektoren wenn die Matrix symmetrisch ist, AT = A. Alle Eigenwerte sind reell.
Eigenlösungen für unitäre Matrizen
Ein weiterer wichtiger Spezialfall sind unitäre Matrizen, also A† A = I. In diesem Fall gilt:
Die Eigenwerte λi einer unitären Matrix sind komplexe Zahlen mit dem Betrag |λi | = 1.
Die Eigenvektoren xi einer unitären Matrix sind orthogonal.
Beweis: Wir betrachten die Eigenlösung A xi = λi xi und wenden darauf die hermitesche Konjugation
an: xi† A† = λi∗ xi† . Diese Gleichung wird der Gleichung für eine zweite Eigenlösung A xj = λ j xj multipliziert (getrennt auf den beiden Seiten), mit dem Resultat xi† A† A xj = λi∗ λ j xi† xj . Mit A† A = I folgt
daraus
(1 − λi∗ λ j ) xi† xj = 0 also für i = j:
1 − |λi |2 = 0
und somit
|λi | = 1 .
Die Orthogonalität der Eigenvektoren folgt aus derselben Gleichung für (i 6= j), mit der Ausnahme des
Falls λi∗ λ j = 1.
Im reellen Fall folgt analog, dass die Eigenwerte orthogonaler Matrizen AT A = I die Bedingung λi2 = 1
erfüllen müssen und daher nur die beiden Werte λi = +1 oder λi = −1 annehmen können.
9.6 Einschub: Gram-Schmidt-Orthogonalisierung
Beim Eigenwertproblem mit entarteten Eigenwerten tritt das Problem auf, dass die zugehörigen Eigenvektoren zunächst nicht orthogonal sind. Es ist aber möglich, diese Vektoren “per Hand” zu orthogonalisieren. Die gebräuchliche Prozedur dafür ist das Orthogonalisierungsverfahren von Gram und Schmidt,
das leicht zu verstehen ist.
Gegeben sei ein System von m Vektoren v1 , . . . , vn (mit m ≤ n), die linear unabhängig aber nicht orthogonal zueinander sind. Durch Bildung geeigneter Linearkombinationen lässt sich daraus ein neues System
von Vektoren w1 , . . . , wm konstruieren, die denselben Raum aufspannen aber normiert und orthogonal
sind, für die also gilt hwi | w j i = δi j .
96
Man beginnt (willkürlich) mit Vektor v1 und normiert diesen, w1 = v1 / || v1 ||. Im nächsten Schritt nimmt
man (ebenfalls willkürlich) den Vektor v2 und subtrahiert davon den Anteil, der in Richtung von w1 zeigt.
Dies führt zu einem Vektor u2 der zu w1 orthogonal steht und anschliessend nur noch normiert werden
muss. Dieses Verfahren lässt sich für alle vi , i ≤ m wiederholen, wobei immer mehr Projektionsanteile
subtrahiert werden müssen. Die Konstruktionsformel lautet
ui = vi − hw1 | vi iw1 − hw2 | vi iw2 − . . . − hwi−1 | vi iwi−1
für
2≤i≤m.
Nach jedem Schritt muss noch normiert werden
wi =
ui
ui
.
=p
|| ui ||
hui | ui i
Das Verfahren ist für reelle und für komplexe Vektorräume anwendbar. Der erzeugte Satz von orthogonalisierten Vektoren ist nicht eindeutig, denn das Ergebnis hängt davon ab, in welcher Reihenfolge die
Vektoren “abgearbeitet” werden.
9.7 Ähnlichkeitstransformationen
Das der Linearen Algebra zugrunde liegende Konzept von Vektorräumen und linearen Abbildungen ist
zunächst geometrischer Natur. Die Vektoren als n-Tupel von Zahlen und die Matrizen kommen erst ins
Spiel, wenn man (willkürlich) eine Basis ~e1 , . . . ,~en wählt. Deshalb liegt es nahe zu untersuchen, was sich
beim Übergang zu einer anderen Basis ~e1 ′ , . . . ,~en ′ ändert.5 Zu diesem Zweck drücken wir die neuen
Basisvektoren als Linearkombinationen der alten aus:
n
~e j ′ = ∑ si j ~ei .
i=1
Damit lässt sich die berechnen, wie sich die Komponenten eines Vektors beim Übergang von einem
“Bezugssystem” zum anderen transformieren:
n
~x = ∑ xi ~ei =
i=1
n
n
n
j=1
j=1
i=1
∑ x′j ~e j ′ = ∑ x′j ∑ si j ~e j ′ .
Koeffizientenvergleich liefert
n
xi =
∑ si j x′j
oder in Matrixschreibweise
x = S x′ .
j=1
Die inverse Basistransformation existiert ebenfalls und wird durch die inverse Transformationsmatrix
vermittelt:
x′ = S−1 x .
Neben den Komponenten der Vektoren wird auch die Komponentendarstellung linearer Operatoren durch
einen Basiswechsel beeinflusst. Aus der basisunabhängigen Beziehung ~y = Â~x wird in Matrixschreibweise
y = Ax sowie y′ = A′ x′ .
5 Die verwendete Bezeichnung
suggeriert eine Orthonormalbasis, diese Eigenschaft wird hier aber nicht zwingend gefordert.
97
Unter Verwendung der Vektortransformation folgt
S y′ = A S x′
✞
oder
y′ = S−1 A S x′ .
☎
Daraus liest man das Transformationsgesetz für lineare Abbildungen ab:
✝A = S
AS . ✆
Eine solche Beziehung zwischen Matrizen wird als Ähnlichkeitstransformation bezeichnet. Da es sich bei
A und A′ um dasselbe geometrische Objekt (eine lineare Abbildung) handelt, nur in unterschiedlicher
Basisdarstellung, bestehen zwischen den beiden Matrizen viele Gemeinsamkeiten.
′
−1
(1) Die Determinante ist invariant unter Ähnlichkeitstransformation, denn
|A′ | = |S−1 A S| = |S−1 | |A| |S| = |A| |S−1 S| = |A| .
(2) Ebenso ist auch die Spur invariant, denn wegen der zyklischen Vertauschbarkeit unter der Spur folgt
Sp A′ = Sp (S−1 A S) = Sp (A S S−1) = Sp A .
Unitäre und orthogonale Ähnlichkeitstransformationen
Bisher wurde von der Basistransformation nur verlangt, dass sie umkehrbar (nicht-singulär)
war.
☎ Es
✞
−1
†
. Wie
ist jedoch vorteilhaft, zusätzlich die Unitarität der Transformationsmatrix zu fordern, ✝S = S ✆
früher gezeigt wurde, lassen unitäre Transformationen die Norm von Vektoren und ihre Skalarprodukte
invariant. Das heisst also: Beginnt man mit einer Orthonormalbasis ~ei , dann hat auch die neue Basis ~ei ′
diese Eigenschaft:
hei | ej i = δi j
←→
he′i | e′j i = δi j .
Handelt es sich um einen reellen Vektorraum, dann tritt die Orthogonalität ST = S−1 an die Stelle der
Unitarität.
Unitäre/orthogonale Ähnlichkeitstransformationen gehen “schonend” mit Matrizen um. Sind diese hermitesch oder unitär, dann behalten sie diese Eigenschaft auch nach der Transformation.
Wir beweisen dies für unitäre Transformationen. Die Rechnungen gelten auch für orthogonale Transformationen, es ist dann nur ()† durch ()T zu ersetzen.
(1) Hermitesche Matrizen A† = A bleiben hermitesch:
(A′ )† = (S−1 A S)† = (S† A S)† = S† A† S = S−1 AS = A′ .
(2) Unitäre Matrizen A† A = I bleiben unitär:
(A′ )† A′ = (S† A S)† (S† A S) = S† A† S S† AS = S† A† AS = S† S = I .
Für beliebige Transformationsmatrizen S wären diese Umformungen nicht möglich gewesen.
9.8 Lösung des Eigenwertproblems – Matrixdiagonalisierung
Bei der Eigenwertgleichung A x = λ x handelt es sich um ein System von n homogenen linearen Gleichungen, das auch in der Form
(A − λ I) x = 0
geschrieben werden kann. Zur Lösung kann auf die früheren Überlegungen zum Theme lineare Gleichungssysteme zurückgegriffen werden. Offenbar liegt hier der Fall eines Problems mit unendlich vielen
98
Lösungen vor: Wie für jedes homogene lineare Gleichungssystem gibt es eine uninteressante Lösung,
nämlich x = 0. Wie früher diskutiert, können weitere (und damit nichttriviale) Lösungen nur dann existieren, wenn die Matrix A − λ I singulär ist, wenn also ihre Determinante verschwindet
✞
✝
|A − λ I| = 0 .
☎
✆
Diese Gleichung wird als charakteristische Gleichung oder Säkulargleichung des Eigenwertproblems
bezeichnet. Erinnern wir uns an die Definition der Determinante als Summe über Produkte von jeweils n
Faktoren. Da in jedem der Faktoren λ linear vorkommt wird klar, dass es sich bei der Determinante um
ein Polynom vom Gerade n in der Variablen λ handelt:
Pn (λ ) = 0 .
Die Lösung des Eigenwertproblems basiert also auf der Bestimmung der Nullstellen eines Polynoms
(des “charakteristischen Polynoms”) vom Gerade n. Die Koeffizienten dieses Polynoms folgen aus der
Berechnung der Determinanten.
Nach dem Fundamentalsatz der Algebra gibt es n Lösungen λi , diese können jedoch teilweise übereinstimmen (Entartung) und sie können (auch für reelle Matrizen) teilweise komplex sein.
Matrixdiagonalisierung
Das Eigenwertproblem kann mit den im letzten Unterkapitel behandelten Basistransformationen in Verbindung gebracht werden. Wir nehmen an, dass die Matrix A einen Satz von n linear unabhängigen
Eigenvektoren xj besitzt. Diese Vektoren lassen sich als Basis des Vektorraums verwenden (anstelle der
n
~e j ′ im Abschnitt über Ähnlichkeitstransformationen): xj = ∑ si j ei . Mit ej = (0 . . . 1 . . . 0)T folgt für die
i=1
Komponentendarstellung dieser Vektoren xj = (s1 j s2 j . . . sn j )T und die Transformationsmatrix S lässt
sich spaltenweise aus diesen n Vektoren zusammensetzen:
S = (x1 x2 . . . xn ) das heisst
si j = (xj )i .
Wir berechnen nun die Matrixdarstellung der linearen Transformation  in der neuen Basis aus Eigenvektoren. Die Ähnlichkeitstransformation mittels S liefert nach etlichen Umformungen unter Benutzung
der Eigenwertgleichung
(A′ )i j = (S−1 A S)i j =
n
n
n
k=1 l=1
n
k=1 l=1
n
=
n
∑ ∑ (S−1)ik akl sl j = ∑ ∑ (S−1)ik akl (xj )l
n
∑ (S−1)ik (A xj)k = ∑ (S−1)ik λ j (xj )k = ∑ (S−1)ik λ j sk j
k=1
k=1
k=1
−1
= λ j (S S)i j = λ j δi j .
Das heisst: In der Basis seiner Eigenvektoren ist die Matrixdarstellung des linearen Operators  diagonal
und die Diagonalelemente sind gerade seine Eigenwerte:


λ1 0 . . . 0
 0 λ2 . . . 0 


A′ =  .
. .
.. . .
 ..
. .. 
.
0
0
. . . λn
Es ist noch zu klären, welche Eigenschaften die Transformationsmatrix S besitzt und insbesondere, ob sie
überhaupt invertierbar ist, wie oben angenommen. Für beliebige S ist dies nicht garantiert; es kann vorkommen, dass die Eigenvektoren keinen linear unabhängigen (und damit vollständigen, d.h. den ganzen
99
Vektorraum aufspannenden) Satz von n Eigenvektoren besitzen. Dann ist auch keine Diagonalisierung
möglich. Eine große Klasse von Matrizen ist jedoch diagonalisierbar. Eine hinreichende Bedingung ist,
dass die Eigenvektoren xi orthogonal aufeinander stehen. Dann lässt sich beweisen, dass die zugehörige
Transformationsmatrix S unitär und somit invertierbar ist:
n
(S† S)i j =
n
∑ (S† )ik sk j =
∑ s∗ki sk j =
k=1
k=1
n
∑ (xi )∗k (xj )k = hxi | xj i = δi j ,
k=1
wobei im letzten Schritt die Orthonormalität der Eigenvektoren vorausgesetzt wurde.
Damit ist die Diagonalisiertbarkeit von symmetrischen, hermiteschen, orthogonalen und unitären Matrizen sichergestellt.
Nebenbei liefert die Diagonalisierung eine wichtige Aussage über Spur und Determinante einer Matrix.
Wir hatten ja gezeigt, das diese Kenngrößen invariant sind unter Ähnlichkeitstransformationen, und somit
auch bei der Diagonalisierung ihren Wert beibehalten. Für Diagonalmatrizen ist die Berechnung von Spur
und Determinante aber trivial. Wir finden:
✎
☞
(1) Die Spur einer Matrix ist gleich der Summe ihrer Eigenwerte.
n
′
Sp A = Sp A = ∑ λi .
✍
✎
i=1
✌
☞
(2) Die Determinante einer Matrix ist gleich dem Produkt ihrer Eigenwerte.
′
n
|A| = |A | = ∏ λi .
✍
i=1
✌
100
10 Funktionenräume und Fourierzerlegung
Im Kapitel Lineare Algebra wurde ausführlich mit Vektorräumen gearbeitet. Der Physiker hat dabei
zunächst den dreidimensionalen euklidischen Ortsraum vor Augen, jedoch ist das mathematische Konzept des linearen Raums wesentlich umfassender, wie schon die Behandlung von Gleichungssystemen
mit n Unbekannten gezeigt hat. Es erlaubt sogar die Ausdehnung auf “abstrakte” Räume mit unendlich
großer Dimension, die sogenannten Hilberträume, die dem Formalismus der Quantenmechanik zugrunde liegen. Dies soll hier, ohne auf subtilere mathematische Fragen einzugehen, für Funktionenräume
untersucht werden.
10.1 Funktionen als Vektoren
Obwohl dies zunächst verblüffen mag, lassen sich auch Funktionen als Vektoren in einem “Funktionenraum” interpretieren. Vorgegeben sei ein (zunächst endliches) Intervall auf der reellen Zahlenachse,
[a, b] ∈ R. Betrachtet werden soll die “Gesamtheit aller Funktionen” f (x) auf diesem Bereich. Diese
Funktionen können reell oder komplex sein. Für praktische Zwecke wird man die Klasse der betrachteten Funktionen durch zusätzliche Forderungen einschränken. Wir wollen hier “vernünftige” Funktionen
betrachten, die auf [a, b] beschränkt und “fast überall” stetig sind (d.h. es gibt höchstens endlich viele
Unstetigkeitsstellen). Weitere mögliche Forderungen sind Differenzierbarkeit und Integrierbarkeit.
Man macht sich leicht klar, dass die Gesamtheit aller Funktionen mit bestimmten Eigenschaften jeweils einen linearen Raum V bilden. Die Addition von zwei Funktionen f (x) + g(x) liefert wieder eine
Funktion, ebenso ergibt die Multiplikation mit einer festen Zahl α ∈ K die neue Funktion α f (x). Für
diese Operationen gelten die üblichen Kommutativ-, Assoziativ- und Distributivgesetze der Addition
und Multiplikation. Der einzige Unterschied zu den “gewöhnlichen” Vektorräumen ist die Dimension
des Funktionenraums: Zu jedem endlichen Satz von Funktionen lassen sich noch weitere finden, die sich
nicht als Linearkombination der anderen ausdrücken lassen. Der Funktionenraum hat also die Dimension
unendlich, dimV = ∞.
In Anlehnung an die von Dirac in der Quantenmechanik eingeführten Schreibweise werden die Elemente eines Funktionenraums oft in folgender Form als sogenannte “Ket-Vektoren” geschrieben: | f i. Man
beachte, dass hier die Variable x nicht hingeschrieben werden muss, denn dieser Vektor bezeichnet die
Funktion als Ganzes, nicht ihren Zahlenwert an einer bestimmten Stelle!
Auch in unendlichdimensionalen Räumen gibt es den Begriff der Basis. Eine Basis ist ein unendlicher
Satz von linear unabhängigen Funktionen ϕ j (x), j = 1, 2, . . . mit der Eigenschaft der Vollständigkeit.
Das bedeutet: Jeder Vektor, d.h. jede Funktion f (x) ∈ V , lässt sich durch eine Linearkombination von
Basisvektoren ausdrücken:
✎
|fi =
✍
∞
∑ c j |ϕ j i
j=1
☞
✌
oder
✎
∞
f (x) = ∑ c j ϕ j (x)
✍
j=1
☞
✌
mit (reellen oder komplexen) konstanten Entwicklungskoeffizienten c j . Neu hieran ist nur, dass sich die
obere Summationsgrenze bis Unendlich erstreckt, es handelt sich also um eine Funktionenreihe deren
Konvergenzverhalten untersucht werden muss. Im Idealfall könnte man erwarten, dass die Reihe punktweise zum Wert der Funktion auf der linken Seite konvergiert, d.h. für alle x ∈ [a, b]. Es empfiehlt sich
allerdings, diese Forderung abzuschwächen. Man fordert stattdessen oft die Konvergenz im Mittel. Dafür
gibt es verschiedene Formulierungsmöglichkeiten. Wir fordern:
101
✎
lim
✍
Z b
n→∞ a
2
n
dx f (x) − ∑ c j ϕ j (x) = 0 .
j=1
☞
✌
Dieser Konvergenzbegriff lässt es zu, dass die Reihe nicht an jeder Stelle x ∈ [a, b] zum gewünschten
Wert konvergiert sondern nur fast überall. Abweichungen an einzelnen isolierten Punkten tragen nicht
zum Integral bei (sie sind “vom Maß Null”) und man spricht dann immer noch von Konvergenz der
Funktionenreihe. Bei den Fourier-Reihen wird uns dieses Phänomen begegnen.
Wie schon im endlichdimensionalen Fall, sind die in den Anwendungen wichtigen Funktionenräume
in der Regel euklidische bzw. hermitesche Räume. Das heisst, sie besitzen als zusätzliche Struktur ein
inneres Produkt (auch Skalarprodukt genannt). Ein solches kann über eine Integration definiert werden:
✎
✍
h f | gi =
Z b
a
dx f ∗ (x) g(x) .
☞
✌
Für reelle Vektorräume entfällt die Komplexkonjugation. Das so definierte Skalarprodukt besitzt die
gleichen Eigenschaften wie im endlichdimensionalen Fall (Positivität, Kommutativität, Distributivität,
Homogenität).
Die Norm eines Vektors wird wieder über das Skalarprodukt des Vektors mit sich selbst definiert:
☎
✞
p
|| f || = h f | f i .
✝
✆
Auf diese Weise wird klar, wie das oben formulierte Konvergenzkriterium zu verstehen ist: Die Norm
der Abweichung zwischen dem Funktionenvektor | f i und dem durch die Reihenentwicklung definierten
Funktionenvektor ∑∞j=1 c j |ϕ j i soll gegen Null gehen:
2
2
E Zb D
∞
∞
∞
∞
dx f (x) − ∑ c j ϕ j (x) → 0 .
| f i − ∑ c j |ϕ j i = f − ∑ c j ϕ j f − ∑ c j ϕ j =
a
j=1
j=1
j=1
j=1
Der Funktionenraum mit der oben definierten Norm trägt die mathematische Bezeichnung “Raum der
quadratintegrablen Funktionen über dem Intervall [a, b]” mit der Abkürzung L2 [a, b]. Lässt man die
gesamte reelle Achse als Definitionsbereich zu, dann spricht man von L2 (R) oder einfach L2 . Man sollte
sich klarmachen, dass es sich bei der eingeführten Norm (bzw. dem zugrunde liegenden inneren Produkt)
um eine subtile mathematische Konstruktion handelt! Nach den gültigen strengen Axiomen muss eine
Norm eigentlich die Eigenschaft der Positivität besitzen, d.h. nur der Nullvektor darf die Norm || 0 || =
0 besitzen. Wie schon besprochen ist dieses Kriterium hier aber nicht streng erfüllt! Für Funktionen,
die fast überall den Wert Null besitzen, aber an (eventuell sogar unendlich vielen) einzelnen Punkten
davon abweichen, hat das Integral ebenfalls den Wert Null. Streng betrachtet bezeichnet ein Vektor im
Funktionenraum L2 deshalb eine ganze Äquivalenzklasse von Funktionen, die sich auf Punktmengen vom
Maß Null voneinander unterscheiden können.
☛
Definieren wir noch den zentralen Begriff in der Theorie der Funktionenräume:
Ein Vektorraum V mit Skalarprodukt und zugehöriger Norm wird als Hilbertraum
H bezeichnet, wenn er die Eigenschaft der Vollständigkeit besitzt.
✡
✟
✠
Damit ist folgendes gemeint: Ein normierter Vektorraum V heisst vollständig, wenn jede Cauchy-Folge
von Vektoren |ψn i ∈ V innerhalb von V konvergiert. Wie im Kapitel 4 “Folgen und Reihen” diskutiert,
lautet das Kriterium hierfür:
Für jedes ε > 0 existiert eine natürliche Zahl N sodass gilt || ψm − ψn || < ε für alle m, n > N.
102
Die Hilberträume haben in der Regel die Dimension Unendlich, dim H = ∞. Man kann den Raum H “aufspannen” durch Einführung eines Satzes von unendlich vielen Basiszuständen. Das ist mit einem subtilen
mathematischen Punkt verbunden, denn es gibt verschiedene Arten von Unendlichkeit. Mit “abzählbar
unendlich” bezeichnet man die Mächtigkeit der Menge N der natürlichen Zahlen. Bekanntlich gibt es
aber auch den Begriff der “überabzählbaren Unendlichkeit”, z.B. die Mächtigkeit der Menge der reellen Zahlen R. Im Prinzip könnten beide Fälle für die Mächtigkeit der Menge von Basisvektoren eines
Hilbertraums auftreten. Man definiert folgenden Begriff:
✟
☛
Ein Hilbertraum H heisst separabel, wenn er eine abzählbare Basis |ϕ̂ j i, j = 1, 2, . . .
besitzt.
✡
✠
In diesem Fall lässt sich auch zeigen, dass jede Basis von H abzählbar ist. Alle in den Anwendungen
wichtigen Hilberträume besitzen diese Eigenschaft. In manchen Lehrbüchern wird die Separabilität sogar
mit zu den definierenden Eigenschaften von Hilberträumen gerechnet.
Die Existenz des Skalarprodukts erlaubt es im Funktionenraum, die Entwicklungskoeffizienten einer
Funktion f (x) durch Projektion auf die Basisfunktionen zu berechnen, im Prinzip genauso wie in endlichdimensionalen Vektorräumen. Besonders einfach wird das wieder, wenn man eine Orthonormalbasis
ϕ̂ j (x) verwendet, für die gilt
hϕ̂ j | ϕ̂k i =
Z b
a
dx ϕ̂ ∗j (x) ϕ̂k (x) = δik .
Das Hütchen über dem Funktionsnamen benutzen wir hier zur Kennzeichnung von Einheitsvektoren,
also ||ϕ̂i || = 1.
Dann ergibt sich für die Entwicklungskoeffizienten einfach
∞
hϕ̂ j | f i =
oder
✎
✍
cj =
Z b
a
∞
∑ ck hϕ̂ j | ϕ̂k i =
k=1
dx
ϕ̂ ∗j (x)
f (x) .
∑ ck δ jk = c j
k=1
☞
✌
Eine interessante Eigenschaft der Entwicklungskoeffizienten ergibt sich aus der Berechnung der Norm
eines Vektors, nämlich
|| f || = h f | f i =
Z b
a
dx | f (x)|2 =
∞
∑
j,k=1
c∗j ck hϕ̂ j | ϕ̂k i =
∞
∑
j,k=1
c∗j ck δ jk =
∞
∑ |c j |2 .
j=1
Diese Gleichung trägt den Namen Parseval-Relation. Man kann sie z.B. dazu benutzen zu überprüfen,
wie gut die Funktion f (x) durch die Funktionenreihe beschrieben wird, wenn man diese nach einer
endlichen Zahl n von Termen abbricht. Dann gilt offenbar
✎
n
∑ |c j |2 ≤ || f ||
✍
j=1
☞
✌
und die Differenz zwischen linker und rechter Seite zeigt an, wieviel zu einer exakten Repräsentation der
Funktion “fehlt”. Diese Relation wird auch als “Besselsche Ungleichung” bezeichnet.
Die Vollständigkeit des Funktionensystems ϕ̂ j (x) lässt sich sehr elegant formulieren, wenn man in die
Basisentwicklung einer Funktion f (x) den Integralausdruck für die Entwicklungskoeffizienten c j einsetzt
103
und die Reihenfolge von Summation und Integration vertauscht (wir nehmen an, dass solche Operationen
hier mathematisch zulässig sind):
Z b h ∞
i
i
∞ hZ b
∞
dy ϕ̂ ∗j (y) f (y) ϕ̂ j (x) =
dy ∑ ϕ̂ ∗j (y) ϕ̂ j (x) f (y) .
f (x) = ∑ c j ϕ̂ j (x) = ∑
j=1
j=1
a
a
j=1
Diese Gleichung soll für beliebige Funktionen f (x) aus dem Funktionenraum V gelten. Daraus lässt sich
schließen, dass es sich bei dem Klammerausdruck unter dem Integral um eine Deltafunktion (genauer:
“Deltadistribution”) handeln muss, die das Integral zusammenbrechen lässt:
✎
∞
∑
✍
j=1
ϕ̂ ∗j (y) ϕ̂ j (x)
= δ (x − y) .
☞
✌
Dies ist die Vollständigkeitsrelation für das Funktionensystem ϕ̂ j (x), eine für das Rechnen mit Funktionenreihen nützliche Gleichung.
Damit die Überlegungen dieses Abschnitts praktisch anwendbar werden, benötigt man konkrete Beispiele für Sätze von Basisfunktionen ϕ̂ j (x). Wir werden die beiden wichtigsten Fälle betrachten: Polynome
und trigonometrische Funktionen. Für den wichtigen aber mathematisch anspruchsvollen Beweis der
Vollständigkeit verweisen wir auf die mathematischen Lehrbücher.
10.2 Polynomentwicklung
Im Kapitel über die Potenzreihenentwicklung hatten wir bereits gesehen, wie sich Funktionen f (x) durch
unendliche Funktionenreihen ausdrücken lassen. Die Entwicklung erstreckte sich dabei über Potenzfunktionen (Monome) ψk (x) = xk , k ∈ N0 . Die damaligen Überlegungen bezogen sich auf Funktionen, die in
einem Punkt x0 unendlich oft differenzierbar waren. Die entstehende Potenzreihe konvergierte in einer
Umgebung dieses Punkts mit einem (endlichen oder unendlichen) Konvergenzradius r. Es gibt aber noch
eine andere Art von Potenzreihenentwicklung, bei der die Differenzierbarkeit von f (x) keine Rolle spielt
und die auch ein deutlich anderes Konvergenzverhalten aufweist.
Mathematische Grundlage ist der Satz von Weierstraß
Jede auf einem abgeschlossenen Intervall [a, b] ∈ R definierte und dort stetige
Funktion lässt sich durch eine Potenzreihe approximieren.
Das heißt also: Die Potenzfunktionen xk , k = 0, 1, 2, . . . bilden ein vollständiges Funktionensystem. Da
bei Weierstraß die Stetigkeit von f (x) genügt und von Differenzierbarkeit nicht die Rede ist, kann man
erwarten, dass es neben der Taylor-Reihe noch andere Arten der Approximation einer Funktion durch
Potenzreihen geben wird. Eine solche Approximationsmethode werden wir jetzt kennenlernen.
Ein technisch unangenehmer Aspekt bei der Benutzung der Potenzfunktionen als Basis des Funktionenraums besteht darin, dass sie nicht orthogonal sind: Das Integral von xn · xm über ein Intervall wird
normalerweise nicht verschwinden. Damit entfällt auch die Möglichkeit, die Entwicklungskoeffizienten
c j elegant durch Projektion auf die entsprechende Basisfunktion zu berechnen. Abhilfe kann hier das
im Kapitel Lineare Algebra diskutierte Orthogonalisierungsverfahren von Gram-Schmidt schaffen: Was
nicht orthogonal ist, wird orthogonal gemacht! Die Übertragung des Verfahrens vom endlichdimensionalen euklidischen Raum zum unendlichdimensionalen Hilbertraum der Funktionen bereitet keine Schwierigkeiten. Gegeben sei eine vollständiges aber nicht orthogonales und nicht normiertes Funktionensystem
ψk (x), k = 0, 1, . . .. Man beginnt mit dem Vektor |ψ0 i und normiert ihn:
|ϕ̂0 i = |ψ0 i/ || ψ0 || .
104
Im nächsten Schritt nimmt man |ψ1 i und subtrahiert davon den Anteil der “in Richtung von |ϕ̂0 i zeigt”:
|ϕ1 i = |ψ1 i − hϕ̂0 | ψ1 i |ϕ̂0 i ,
anschließend wird wieder normiert
|ϕ̂1 i = |ϕ1 i/ || ϕ1 || .
✞
☎
Das Verfahren wird für alle weiteren Vektoren der Basis wiederholt. Orthogonalisierung im nten Schritt:
✝
|ϕn i = |ψn i − hϕ̂0 | ψn i |ϕ̂0 i − hϕ̂1 | ψn i |ϕ̂1 i − . . . − hϕ̂n−1 | ψn i |ϕ̂n−1 i
✞
☎
und anschließend Normierung
✝
|ϕ̂n i = |ϕn i/||ϕn || .
✆
✆
Das unterscheidet sich in Nichts vom Vorgehen beim endlichdimensionalen Fall, muss aber jetzt unbegrenzt oft wiederholt werden (bzw. bis eine gewünschte Abbruchgrenze nmax erreicht ist).
Die Legendre-Reihe
Das Orthonormalisierungsverfahren ist mit einigem Rechenaufwand verbunden, aber prinzipiell nicht
schwierig. Wir betrachten jetzt die ersten Schritte bei der Orthogonalisierung der Potenzfunktionen
ψ0 (x) = 1 ,
ψ1 (x) = x ,
ψ2 (x) = x2
,...,
ψn (x) = xn
... .
Als Definitionsbereich ist es üblich, das Intervall [a, b] = [−1, +1] zu betrachten. Über die gesamte relle
Achse erstreckt würden die Normierungsintegrale natürlich divergieren.
Die erste normierte Basisfunktion ist
1
ϕ̂0 (x) = ψ0 (x)/ || ψ0 || = √
2
2
|| ψ0 || =
wegen
Z 1
−1
dx 1 = 2 .
Als nächstes folgt
ϕ1 (x) = ψ1 (x) − hϕ̂0 | ψ1 iϕ̂0 (x) = x −
Z
und normiert:
ϕ̂1 (x) =
r
3
x wegen
2
|| ϕ1 ||2 =
Z 1
−1
1
1 1
dy √ y √ = x
−1
2
2
| {z }
=0
dx x2 =
2
.
3
Etwas interessanter wird der nächste Schritt:
ϕ2 (x) = ψ2 (x) − hϕ̂0 | ψ2 iϕ̂0 (x) − hϕ̂1 | ψ2 iϕ̂1 (x)
Z 1 r 3 r 3
Z 1
1 2 1
2
dy
= x −
dy √ y √ −
y3
x
2
2
−1
−1
2
2
|
{z
}
=0
1
1 2 1
= x2 − √ √ = x2 − .
3
3
2
2
Nach Normierung wird dies zu
r
5 3 2 1
ϕ̂2 (x) =
x −
.
22
3
105
Hier ist also durch die Orthogonalisierung ein quadratisches Polynom mit zwei Summanden entstanden.
Der nächste Schritt liefert nach etwas längerer Rechnung das kubische Polynom
r
7 5 3 3 ϕ̂3 (x) =
x − x .
22
5
Die so kontruierten Polynome ϕ̃n (x) bilden eine Orthonormalbasis des Raums der stetigen Funktionen
über dem Intervall [−1, +1]. In der mathematischen Literatur hat sich leider eine etwas andere Normierung eingebürgert. Man definiert die Legendre-Polynome als
☞
✎
r
2
Pn (x) =
ϕ̂n (x) .
2n + 1
✍
✌
Die Legendre-Polynome können auch auf anderen Wegen konstruiert werden, beispielsweise als Lösungen einer bestimmten linearen Differentialgleichung zweiter Ordnung. Sie spielen in der mathematischen
Physik eine wichtige Rolle, beispielsweise in der Quantenmechanik bei der Berechnung von Wellenfunktionen für kugelsymmetrische Potentiale.
Eigenschaften der Legendre-Polynome:
Pn (x) ist ein Polynom nten Grades in dem entweder nur gerade Potenzen (x0 , x2 , x4 , . . .) oder nur ungerade
Potenzen (x1 , x3 , x5 , . . .) auftreten, je nachdem, ob n eine gerade oder ungerade Zahl ist. Dementsprechend sind die Legendre-Polynome abwechselnd symmetrische oder antisymmetrische Funktionen:
✞
✝
Pn (−x) = (−1)n Pn (x).
☎
✆
Man findet, dass Pn (x) genau n einfache Nullstellen im Intervall [−1, +1] besitzt.
✎
Z 1
☞
Die Normierung ist so gewählt, dass P(1) = 1 gilt. Die Orthogonalitätsrelation lautet
2
δn m .
dx Pn (x) Pm (x) =
2n
+
1
−1
✍
✌
Dementsprechend lautet die Entwicklung einer Funktion f (x) in ihre Legendre-Reihe
✎
∞
f (x) = ∑ cn Pn (x)
✍
n=0
☞
mit
✌
✎
2n + 1
cn =
2
✍
Z 1
−1
dx Pn (x) f (x) .
☞
✌
P0 (x) = 1
P1 (x) = x
P2 (x) =
P3 (x) =
P4 (x) =
1
2
2 (3x − 1)
1
3
2 (5x − 3x)
1
4
2
8 (35x − 30x + 3)
Die niedrigsten fünf Legendre-Polynome.
106
Es ist interessant, für verschiedene Funktionen die Legendre-Reihe mit der Taylor-Reihe zu vergleichen.
Bricht man nach n Summanden ab, dann liegen in beiden Fällen Näherungspolynome der Ordnung n vor,
die sich aber beträchtlich voneinander unterscheiden. Die Taylor-Reihe ist in der Regel in der Nähe des
Entwicklungspunkts x0 nicht zu schlagen. Für die Legendre-Entwicklung sind hingegen alle Punkte im
Intervall [−1, +1] gleichberechtigt.
Betrachten wir als Beispiel die harmlos aussehende Funktion f (x) = 1/(1 + x2 ). Deren Taylor-Reihe
um den Entwicklungspunkt x0 = 0 lautet 1 − x2 + x4 − x6 ± . . . Als eine Abwandlung der geometrischen
Reihe besitzt diese Reihe offenbar den Konvergenzradius r = 1. Dementsprechend schlecht konvergiert
sie an den Rändern des Intervalls.
Die Legendre-Reihe ist ab der Ordnung n = 4 innerhalb der Strichdicke von der exakten Funktion nicht
zu unterscheiden, während die Taylor-Reihe für |x| > 0.5 sehr schlecht konvergiert. In der Nähe des
Entwicklungspunkts x0 = 0 liefert die Taylor-Reihe hingegen eine ausgezeichnete Näherung und die
Legendre-Reihe weicht stärker von f (x) ab, wenn sie zu früh abgebrochen wird. Wie es sein muss,
approximiert der konstante n = 0-Term hier den Mittelwert der Funktion im ganzen Intervall.
Abbildung: Die Funktion f (x) = 1/(1 + x2 ) (durchgezogen) und ihre Approximationen (gestrichelt) bis zur Ordnung n = 6 durch die Taylor-Reihe (links) und die Legendre-Reihe (rechts). Im rechten Bild sind die n = 4- und
n = 6-Näherung von der durchgezogenen Kurve praktisch nicht zu unterscheiden.
Noch viel drastischer ist der Unterschied zwischen den beiden Reihenentwicklungen, wenn die Funktion nicht (überall) differenzierbar ist, sodass die Taylor-Reihe ihre Anwendbarkeit verliert. Betrachten
wir etwa eine Dreiecksfunktion f (x) = 1 − |x|, die an der Stelle x = 0 einen “Knick” hat und dort nicht
differenzierbar ist (die Ableitung macht einen Sprung). Während die Taylorentwicklung um x0 = 0 also
nicht existiert (oder für andere Entwicklungspunkte x0 6= 0 einfach eine Gerade mit konstanter Steigung
+1 oder −1 ist, die vom Knick in der Funktion nichts weiss), beschreibt die Legendre-Reihe die Dreiecksfunktion recht gut. Um den Knick gut zu beschreiben werden allerdings sehr viele Terme benötigt.
107
Abbildung: Die Dreiecksfunktion (durchgezogen)
und ihre Approximationen (gestrichelt) bis zur
Ordnung n = 6 durch die Legendre-Reihe.
10.3 Fourieranalyse
Es gibt eine weitere sehr wichtige Basis im Funktionenraum, nämlich die trigonometrischen Funktionen.
Für eine vollständige Basis benötigt man dabei zwei verschiedene Arten von Funktionen, nämlich den
Sinus und den Cosinus.
ϕns (x) = sin
2π nx
L
und
ϕnc (x) = cos
2π nx
L
mit n = 1, 2, . . .
und zusätzlich noch die Konstante ϕ0 (x) = 1. Der Faktor im Argument wurde so gewählt, dass die
Basisfunktionen eine Periodenlänge von L besitzen, also ϕns (x + L) = ϕns (x) und ϕnc (x + L) = ϕnc (x).
Die Mathematiker zeigen, dass auch diese Funktionen ein vollständiges System bilden, sodass sich eine große Klasse von Funktionen f (x) in folgender Form in eine sogenannte Fourier-Reihe entwickeln
lassen:
✎
☞
∞ 2π nx
2π nx a0
.
+ bn sin
f (x) = + ∑ an cos
2 n=1
L
L
✍
✌
Spezialfälle ergeben sich, wenn die Funktion symmetrisch ( f (−x) = f (x)) oder antisymmetrisch
( f (−x) = − f (x)) ist: Dann verschwinden entweder alle Sinus- oder alle Cosinusterme (bn = 0 oder
an = 0).
Es lässt sich zeigen, dass die Fourier-Reihe konvergiert, wenn die sogenannten Dirichlet-Bedingungen
erfüllt sind:
✗
✔
✖
✕
1) Die Funktion f (x) ist periodisch mit Periodenlänge L;
2) Sie ist fast überall (also ggf. bis auf eine endliche Zahl von Punkten) differenzierbar;
3) Sie ist über eine Periode absolut integrierbar, d.h. das Integral über | f (x)| konvergiert.
Unter diesen Bedingungen lässt sich beweisen (siehe Lehrbücher), dass die Reihe überall dort zum Funktionswert f (x) konvergiert, wo die Funktion stetig ist. Wegen der Periodizität genügt es, sich auf ein Intervall der Länge L zu beschränken, x ∈ [x0 , x0 + L], wobei die Wahl von x0 beliebig ist. Oft benutzt man
die Intervalle [−L/2, +L/2] oder [0, L]. Der Beweis der behaupteten Konvergenz überschreitet die Techniken der Hilbertraum-Theorie, denn hier geht es um punktweise Konvergenz, nicht um die Konvergenz
im Mittel im Sinn der L2 -Norm!
108
Die trigonometrischen Basisfunktionen sind orthogonal. Zum Beweis kann man die trigonometrischen
Relationen
1
cos α cos β =
cos(α + β ) + cos(α − β )
2
1
sin α sin β =
cos(α − β ) − cos(α + β )
2
1
sin α cos β =
sin(α + β ) + sin(α − β )
2
benutzen. Für das Produkt von zwei Cosinus-Funktionen findet man so
xZ0 +L
x0
2π nx
2π mx 1
dx cos
cos
=
L
L
2
xZ0 +L
2π (n + m)x
2π (n − m)x dx cos
+ cos
L
L
x0
Integriert man den Cosinus über eine oder mehrere volle Perioden, dann mittelt sich das Integral zu Null.
Dies ist hier der Fall, mit einer Ausnahme: Für n = m wird der zweite Term im Integranden zu cos 0 = 1
und dieses Integral liefert den Wert L. Eine Sonderrolle spielt der Fall n = m = 0: Dann trägt auch der
erste Cosinusterm bei und das Integral wird doppelt so groß:
✗
✔

xZ0 +L
L

2π nx
2π mx
für
n, m = 1, 2, . . .
δnm
dx cos
cos
=
2
 L
L
L
für
n=m=0
0
✖
x
✗
xZ0 +L
Ganz analog folgt
dx sin
✖
x0
2π mx L
2π nx
sin
= δnm
L
L
2
für
n, m = 1, 2, . . .
Für das gemischte Produkt von Sinus und Cosinus ergibt sich
xZ0 +L
x0
2π mx 1
2π nx
cos
=
dx sin
L
L
2
✗
xZ0 +L
✔
✕
✕
xZ0 +L
x0
2π (n + m)x
2π (n − m)x + sin
dx sin
L
L
✔
was für alle Kombinationen von n und m verschwindet:
dx sin
0
✖
x
2π mx
2π nx
cos
=0.
L
L
✕
Wegen der Orthogonalität lassen sich die Entwicklungskoeffizienten durch Projektion auf die Basisfunktionen berechnen. Es folgen die Fourierkoeffizienten
✗
an =
✖
2
L
xZ0 +L
dx cos
x0
2π nx
f (x)
L
✔
✕
,
✗
bn =
✖
2
L
xZ0 +L
dx sin
x0
2π nx
f (x) .
L
✔
✕
Diese erste Formel gilt auch für den Koeffizienten a0 , da der konstante Term in der Fourier-Reihe geschickterweise als a0 /2 angesetzt wurde.
Die Fourieranalyse lässt sich für verschiedenartige Zwecke einsetzen. Zunächst kann man Funktionen
f (x) entwickeln, die auf ein endliches Intervall der Länge L beschränkt sind, genauso wie bei der
109
Legendre-Reihe. In diesem Fall wird die Periodizität der Reihe außerhalb dieses Intervalls als “Zugabe” mitgeliefert. In vielen Anwendungen geht es aber um Funktionen, die tatsächlich periodisch sind,
insbesondere bei Schwingungs- und Wellenphänomenen in der Mechanik, Elektrodynamik usw. Dabei
kann es sich bei der unabhängigen Variablen x um eine Ortskoordinate oder auch um die Zeit handeln.
Zur Beschreibung solcher Fälle ist die Fourieranalyse (im Gegensatz zur Potenzreihenentwicklung) das
Mittel der Wahl.
Die Fourierkoeffizienten cn geben darüber Auskunft, wie hoch der Anteil an “Obertönen” der Schwingung ist. Nach dem oben hergeleiteten Parseval-Theorem gilt
✗
xZ0 +L
1
L
1
1 ∞
dx | f (x)|2 = |a0 |2 + ∑ |an |2 + |bn |2 .
4
2 n=1
✖0
x
✔
✕
Beispiele für Fourier-Reihen
Zunächst eine Vorbemerkung: Bei der Berechnung von Fourier-Koeffizienten sind folgende Beziehungen
für die trigonometrischen Funktionen nützlich:
sin(nπ ) = 0 ,
cos(nπ ) = (−1)n
,
sin((n + 21 )π ) = (−1)n
,
cos((n + 21 )π ) = 0 .
Beispiel 1: Parabel f (x) = x2 im Intervall [−L/2, +L/2]
Der niedrigste Fourierkoeffizient ist das Doppelte des Mittelwerts der Funktion:
2
a0 =
L
ZL/2
dx x2 =
−L/2
L2
2 1 3 L/2
=
x .
L 3 −L/2
6
Unter Benutzung der Integralformel (Beweis z.B. durch partielle Integration)
Z
x2
2
2x
− 3 sin(ax)
dx cos(ax)x2 = 2 cos(ax) +
a
a a
lauten die Entwicklungskoeffizienten der Cosinus-Terme mit der Abkürzung k =
2
L
an =
ZL/2
2π
(”Wellenzahl”)
L
dx cos(knx)x2
−L/2
L/2
x2
2 2 2x
−
cos(knx) +
sin(knx)
L (kn)2
kn (kn)3
−L/2
=
Mit cos(nπ ) = (−1)n und sin(nπ ) = 0 ergibt sich (n ≥ 1)
an =
2 2 L2
L2
n
(−1)n .
2
(−1)
=
L (kn)2
π 2 n2
Da f (x) eine gerade (d.h. symmetrische) Funktion ist, verschwinden alle Koeffizienten der Sinus-Terme,
bn = 0. Somit lautet die Fourier-Reihe für die Funktion f (x) = x2
f (x) =
=
∞
cos(knx)
L2 L2 ∞
a0
+ ∑ an cos(knx) =
+ 2 ∑ (−1)n
2 n=1
12 π n=1
n2
L2 L2 cos(kx) cos(2kx) cos(3kx)
+ 2 −
+
−
±
.
.
.
12 π
12
22
32
110
Die Abbildung zeigt (für L = 2) die Approximation von
f (x) = x2 durch die Fourier-Reihe bis zur Ordnung n = 6.
Die Reihe konvergiert schnell, abgesehen von den Rändern
des Intervalls x → ±L/2. Dort macht sich die Periodizität
bemerkbar. Die Fourier-Reihe approximiert nicht eine ins
Unendliche anwachsende Parabel, sondern eine “Girlande” von aneinander gehefteten Bögen, also eine Funktion,
die bei x = ±L/2 eine unstetige Ableitung besitzt. Deshalb
biegen alle Kurven an den Rändern ab und besitzen dort
eine horizontale Tangente, um glatt an das benachbarte Intervall anzuschließen.
Beispiel 2: Rechteckkurve
Die Dirichlet-Bedingungen lassen auch unstetige Funktionen zu. Betrachten wir als Beispiel dafür eine
Rechteckkurve mit einem Sprung bei x = 0:
(
0
für
−L/2 ≤ x < 0
f (x) =
1
für
0 ≤ x ≤ L/2
In diesem Fall ergibt sich für die Fourierkoeffizienten, wieder mit k =
a0 =
2
L
2π
:
L
ZL/2
dx = 1 ,
0
an =
2
L
ZL/2
dx cos(knx) =
0
bn
iL/2
2 1h
1
=
sin(knx)
sin(π n) − sin 0 = 0 ,
0
L kn
πn
ZL/2
iL/2
1
2
2 1h
1
=
dx sin(knx) =
=
− cos(knx)
− cos(π n) + cos 0 =
−(−1)n + 1
0
L
L kn
πn
πn
0
(
2
π n für n ungerade
.
=
0 für n gerade
Die Fourier-Reihe für die Rechteckfunktion lautet somit
1 2 ∞ sin(nkx)
f (x) =
+
∑
2 π n=1,3,...
n
1 2 sin(kx) sin(3kx) sin(5kx)
=
+
+
+
+ ... .
2 π
1
3
5
111
Die linke Abbildung zeigt die Approximationen der Rechteckfunktion für L = 2, wieder bis zur Ordnung
n = 6. Offenbar muss sich die Fourier-Reihe anstrengen, um das Sprungverhalten von f (x) zu beschreiben. Dies sieht man auch den Entwicklungskoeffizienten an, die nur sehr langsam mit n abfallen, nämlich
bn ∝ n1 . Die Rechteckfunktion enthält “starke Obertöne”.
Die Approximationsfunktionen sind (bei endlicher Anzahl von Summanden) per Konstruktion natürlich
überall stetig. An den Sprungstellen von f (x) werden sie aber mit wachsendem n immer steiler. Es lässt
sich allgemein zeigen, dass die Fourier-Reihe an Sprungstellen xs gegen den Wert in der Mitte der Lücke
1
lim f (xs − ε ) − f (xs + ε )
2 ε →0
konvergiert.
Sehr auffällig ist das Verhalten in der Nähe der Sprungstellen, wo es zu einem charakteristischen “Überschiessen” kommt, was als “Gibbs-Phänomen” bezeichnet wird. Wie die Aussschnittsvergrößerung in
der rechten Abbildung mit n = 50 und n = 200 Summanden zeigt, bilden sich schnelle Oszillationen
aus, deren Maximum den korrekten Funktionswert um knapp 9% übersteigt. Auch durch Hinzufügen
von mehr Summanden ändert sich daran nichts, nur die Position des Maximums rückt immer näher an
die Unstetigkeitsstelle heran. Dieses Verhalten in der Nähe von Sprungstellen ist eine prinzipielle Eigenschaft der Fourier-Reihe. Mathematisch handelt es sich um den Fall einer Reihe, die zwar konvergent
aber nicht gleichmäßig konvergent ist.6
Die komplexe Fourier-Reihe
Die Fourier-Entwicklung kann auch auf den Fall komplexer Funktionen erweitert werden. Als Basis
dienen dann die komplexen Exponentialfunktionen ϕn (x) = ei2π n x/L für ganze Zahlen n ∈ Z, d.h. n =
0, ±1, ±2, . . . . Die komplexe Fourier-Reihe lautet also
+∞
f (x) =
∑
cn ei2π n x/L .
n=−∞
Auch diese Funktion ist periodisch mit Periodenlänge L, denn es gilt ei2π n (x+L)/L = ei2π n x/L ei2π n =
ei2π n x/L und deshalb f (x + L) = f (x).
6 Das
Gibbs-Phänomen tritt übrigens auch bei der Beschreibung unstetiger Funktionen durch die Legendre-Reihe auf, liegt
also nicht an der Natur der trigonometrischen Funktionen.
112
Auch die komplexen Exponentialfunktionen bilden wieder ein Orthogonalsystem:
xZ0 +L
hϕn |ϕm i =
−i2π n x/L i2π m x/L
e
dx e
=
xZ0 +L
dx ei2π (m−n) x/L
x0
x0
L
ei2π (m−n) (x0 +L)/L − ei2π (m−n) x0 /L
i2π (m − n)
L
ei2π (m−n) x0 /L ei2π (m−n) − 1) = 0 für
i2π (m − n)
=
=
m 6= n
weil für jede ganze Zahl m − n gilt ei2π (m−n) = 1. Im Fall n = m hat das Integral wegen e0 = 1 den Wert
L, also gilt die Orthogonalitätsrelation
✗
xZ0 +L
dx e−i2π n x/L ei2π m x/L = L δnm .
0
✖
x
✗
✔
✕
✔
Für die Entwicklungskoeffizienten der komplexen Fourier-Entwicklung ergibt sich
cn =
✖
1
L
xZ0 +L
dx e−i2π nx/L f (x) .
x0
✕
Will man auf Eins normierte Basisfunktionen verwenden, so lauten diese ϕ̂n (x) =
Formel für die Entwicklungskoeffizienten cn entfällt in diesem Fall der Faktor 1/L
√1 ei2π n x/L
L
. In der
Mit der Eulerschen Formel für die komplexe Exponentialfunktion
eiα = cos α + i sin α
,
α ∈R
lässt sich ein Zusammenhang mit der früher betrachteten Form der Fourier-Reihe herstellen:
1
cn =
L
also
xZ0 +L
x0
2π nx
2π nx dx cos
f (x)
− i sin
L
L
☛
☛
✟
✟
1
1
und
cn = (an − ibn ) .
c−n = (an + ibn ) .
2
2
✡
✠
✡
✠
∗
Für reelle Funktionen f (x) = f (x) sind auch die Koeffizienten an und bn reell. Dann folgt ein Zusammenhang zwischen den komplexen Entwicklungskoeffizienten mit positivem und negativem n:
✞
✝
c−n = c∗n
☎
✆
für reelle
f (x) .
10.4 Die Fourier-Transformation
Abschließend werfen wir noch einen kurzen Blick auf den Übergang von der Fourier-Reihe zur FourierTransformation. Dabei geht es um die Verallgemeinerung des Konzepts der Entwicklung in eine Funktionenreihe für den Fall, dass die untersuchte Funktion f (x) nicht nur in einem beschränkten Intervall
[a, b] sondern auf der ganzen reellen Achse definiert und nicht (notwendig) periodisch ist.
113
Wir beginnen mit der Fourier-Reihe für eine im Intervall [−L/2, +L/2] definierte Funktion
f (x) =
1
L
ZL/2
2π nx
2 ∞
dy f (y) + ∑ cos
L n=1
L
ZL/2
2 ∞
dy f (y) + ∑
L n=1
ZL/2
ZL/2
2 ∞
dy f (y) + ∑
L n=1
ZL/2
−L/2
=
1
L
−L/2
=
1
L
−L/2
−L/2
ZL/2
−L/2
2π nx
2π ny
2 ∞
dy cos
f (y) + ∑ sin
L
L n=1
L
ZL/2
dy sin
2π ny
f (y)
L
−L/2
2π nx
2π ny
2π nx
2π ny
dy cos
cos
f (y) + sin
sin
f (y)
L
L
L
L
dy f (y) cos
−L/2
2π n
L
(y − x)
wobei die trigonometrischen Funktionen mittels der Beziehung
cos α cos β + sin α sin β = cos(β − α )
zusammengefasst wurden.
Nun soll der Grenzfall L → ∞ betrachtet werden. Wir setzen voraus, dass die Funktion f (x) im Unendlichen so schnell abfällt, dass das Integral
R∞
dy f (y) existiert. Wegen des Vorfaktors 1/L verschwindet
−∞
dann der konstante Term. Wir führen nun die Variable kn als Wellenzahl der nten harmonischen Schwingung ein:
kn =
2π n
L
∆k = kn+1 − kn =
und
2π
.
L
sodass sich die Fourier-Reihe für das unendliche Intervall schreiben lässt als
∞
1
f (x) = lim ∑ ∆k
L→∞
π
n=1
ZL/2
−L/2
dy f (y) cos(kn (y − x)) .
Mit wachsendem rücken die kn immer dichter zusammen und im Grenzfall L → ∞ wird daraus eine
kontinuierliche Variable k. Die Summe über unendlich viele diskrete Fourierkomponenten verwandelt
sich dabei in ein kontinuierliches Integral. Damit entsteht das Fourier-Integral
✓
f (x) =
✒
1
π
Z∞
Z∞
dk
−∞
0
dy f (y) cos(k(y − x)) .
✏
✑
Häufig ist es vorteilhaft, statt des Cosinus die komplexe Exponentialfunktion zu verwenden. Mit der
Eulerschen Formel ergibt sich
1
f (x) =
2π
Z∞
Z∞
dk
0
−∞
dy f (y) eik(y−x) + e−ik(y−x) .
Mit einem Trick lassen sich die beiden Summanden
unter Rdem Integral zusammenfassen. Dazu wird im
R∞
0
zweiten Term substituiert k → −k, mit der Folge 0 dk → −∞
dk. Das führt zu
1
f (x) =
2π
Z∞
−∞
dk
Z∞
dy f (y) eik(y−x) .
−∞
114
oder auch (Vertauschbarkeit der Integrationen vorausgesetzt)
1
f (x) =
2π
Z∞
dy
h Z∞
−∞
−∞
i
dk eik(y−x) f (y) .
Da diese Gleichung für alle Funktionen f (x) gelten muss schließen wir, dass das k-Integral eine Deltafunktion (Deltadistribution) liefert
✏
✓
Z∞
dk eik(y−x) = δ (y − x) .
✒
−∞
✑
Das Fourier-Integral lässt sich auch in der Form
1
f (x) =
2π
Z∞
−ikx
dke
dy f (y) eiky
−∞
−∞
✓
Z∞
✏
schreiben. Dies lässt sich in ein Paar von zwei Gleichungen aufspalten:
1
f (x) = √
2π
✒
✓
1
f˜(k) = √
2π
✒
Z∞
dk f˜(k) e−ikx ,
Z∞
dx f (x) eikx .
−∞
−∞
✑
✏
✑
Hier ist f˜(k) die Fouriertransformierte der Funktion f (x). Man beachte die vollkommene Symmetrie
zwischen den beiden Gleichungen, die sich in ihrer Struktur nur durch das Vorzeichen des Phasenfaktors
unterscheiden.
✞
Man schreibt auch in kompakter Form
✝
f˜(k) = F ( f (x))
und
f (x) = F −1 ( f˜(k)) ,
☎
✆
wobei es sich beim Operator F der Fouriertransformation und dem Operator F −1 der inversen Fouriertransformation um lineare Integraloperatoren handelt.
x und k, also die Ortskoordinate und die Wellenzahl, sind zueinander “konjugierte” Variablen. Genauso
gut lässt sich die Fouriertransformation auch auf Funktionen der Zeit t anwenden. Dann sind die konjugierten Variablen t und ω , die Zeit und die (Kreis)frequenz. Außer dieser Ersetzung ändert sich nichts an
der Form der Gleichungen.
Bei der Zerlegung in eine Fourier-Reihe wird eine periodische Funktion in eine Überlagerung harmonischer Schwingungen mit diskreten Frequenzen (bzw. Wellenzahlen) zerlegt. Die Fouriertransformation
zerlegt eine nichtperiodische Funktion in eine Überlagerung von Schwingungen mit kontinuierlich variierender Frequenz.
Rechenregeln für die Fouriertransformation
Es gibt eine ganze Reihe nützlicher Beziehungen für den Umgang mit Fouriertransformationen.
(a) Verschiebungssatz:
✞
✝
F ( f (x − x0 )) = eikx0 f˜(k) .
☎
✆
115
✟
☛
(b) Ähnlichkeitssatz:
1 k
.
F ( f (ax)) = f˜
a
a
✡
✠
(c) Faltungssatz:
✞
☎
√
F ( f ∗ g(x)) = 2π f˜(k) g̃(k) .
✝
✆
Hierbei ist die Faltung zweier Funktionen f und g durch eine Integration definiert
f ∗ g(x) =
☛
Z
Z ∞
−∞
dy f (y)g(x − y) .
(d) Parseval-Identität:
∞
✡−∞
2
dx | f (x)| =
Z ∞
−∞
2
dk | f˜(k)| .
Beweise
(a) Verschiebungssatz
✟
✠
Z
∞
1
√
dx e−ikx f (x − x0 )
setze x′ = x − x0
−∞
2π
Z ∞
1
′
√
=
dx′ eik(x +x0 ) f (x′ )
2π −∞
Z ∞
′
ikx0 1
= e √
dx′ eikx f (x′ ) = eikx0 f˜(k) .
2π −∞
F ( f (x − x0 )) =
(b) Ähnlichkeitssatz
Z
∞
1
√
dx eikx f (ax)
setze x′ = ax
2π −∞
Z
1 1 ∞ ′ i k x′ ′
1 k
√
.
dx e a f (x ) = f˜
a a
2π a −∞
F ( f (ax)) =
=
(c) Faltungssatz
F ( f ∗ g(x)) =
=
=
=
=
Z
Z
∞
∞
1
√
dx e−ikx
dy f (y)g(x − y)
−∞
2π −∞
Z ∞
Z ∞
1
√
dx eikx f (y)g(x − y)
setze x′ = x − y
dy
−∞
2π −∞
Z ∞
Z ∞
1
′
√
dx′ eik(x +y) f (y)g(x′ )
dy
−∞
2π −∞
Z
Z ∞
1 ∞
′
√
dy eiky f (y)
dx′ eikx g(x′ )
−∞
2π −∞
√
2π f˜(k) g̃(k) .
116
(d) Parseval-Identität
Z ∞
−∞
2
dx | f (x)|
=
=
=
=
∗ 1 Z ∞
1 Z∞
′
−ikx ˜
√
dk e
f (k)
dk′ e−ik x f˜(k′ )
dx √
−∞
2π −∞
2π −∞
Z
Z ∞
Z ∞
1 ∞
′
dk
dk′ f˜∗ (k) f˜(k′ )
dx e−i(k −k)x
2π −∞
−∞
−∞
Z ∞
Z
1 ∞
dk′ f˜∗ (k) f˜(k′ ) 2πδ (k′ − k)
dk
2π −∞
−∞
Z ∞
Z ∞
−∞
dk | f˜(k)|2 .
Hier wurde im vorletzten Schritt die Gleichung
Z∞
−∞
′
dx e−i(k −k)x = δ (k′ − k)
benutzt, die wir oben in reziproker Form (also mit vertauschten Variablen x ↔ k) kennengelernt hatten.
Schließlich gibt es eine wichtige Formel für die Fouriertransformation von Ableitungen einer Funktion:
Z ∞
d
d
1
F
dx eikx
f (x)
= √
f (x)
dx
dx
2π −∞
Z ∞ ∞
i
d ikx 1 h ikx
dx
e f (x) −
= √
f (x)
e
−∞
dx
−∞
2π
Z ∞
1
dx eikx f (x) = −ik f˜(k) .
= −ik √
2π −∞
Hier wurde partiell integriert, wobei die Randterme verschwinden, da f (x) im Unendlichen gegen Null
gehen soll. Die Erweiterung der Formel auf Ableitungen höherer Ordnung ist offensichtlich:
✟
☛
dn
n ˜
F
f (x) = (−ik) f (k) .
n
✡ dx
✠
Das Resultat ist insbesondere für die Lösung von Differentialgleichungen nützlich: Eine Differentialgleichung in der Variablen x verwandelt sich unter Fouriertransformation in eine einfacher zu lösende
algebraische Gleichung bezüglich der konjugierten Variablen k.
117
Herunterladen