Mathematik für Bauingenieure, Modul II

Werbung
Mathematik für Bauingenieure, Modul II
Dr. Theo Overhagen
Mathematik
Universität Siegen
I
Inhaltsverzeichnis
1 Analytische Geometrie
1.1 Der Vektorraum IRn . . . . . . . . .
1.2 Skalarprodukt, Gleichungsdarstellung
1.3 Kreuzprodukt . . . . . . . . . . . . .
1.4 Spatprodukt . . . . . . . . . . . . . .
1.5 Geraden und Ebenen im Raum . . .
.
.
.
.
.
1
1
3
3
4
5
2 Lineare Optimierung
2.1 Aufgabenstellung, Graphische Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Analytische Lösung, Simplexverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Transportprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
11
13
20
3 Funktionen mehrerer Variabler
3.1 Geometrische Veranschaulichung . . . . . .
3.2 Stetigkeit . . . . . . . . . . . . . . . . . . .
3.3 Partielle und totale Differenzierbarkeit . . .
3.4 Extrema von Funktionen mehrerer Variabler
3.5 Implizite Funktionen . . . . . . . . . . . . .
3.6 Bereichsintegrale . . . . . . . . . . . . . . .
3.7 Koordinatentransformationen . . . . . . . .
.
.
.
.
.
.
.
26
26
30
31
36
41
42
44
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
48
48
48
49
50
51
55
55
56
57
57
57
59
60
61
62
.
.
.
.
.
.
.
64
64
64
64
68
73
73
77
. . . . . . . .
einer Ebene
. . . . . . . .
. . . . . . . .
. . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Gewöhnliche Differentialgleichungen
4.1 Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Darstellung der komplexen Zahlen in der Gaußschen Zahlenebene . . . . . .
4.2 Definition der Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Beispiele von Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . .
4.3 Differentialgleichungen 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1 Richtungsfeld, Polygonzugverfahren . . . . . . . . . . . . . . . . . . . . . .
4.3.2 Exakte Differentialgleichungen, Integrierender Faktor . . . . . . . . . . . . .
4.3.3 Trennung der Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Definition und Struktur der Lösungsmenge . . . . . . . . . . . . . . . . . .
4.4.2 Lineare Differentialgleichungen 1. Ordnung . . . . . . . . . . . . . . . . . .
4.4.3 Lineare Differentialgleichungen 2. Ordnung . . . . . . . . . . . . . . . . . .
4.4.4 Lineare Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten
4.4.5 Spezielle Lösungsansätze für die partikuläre Lösung . . . . . . . . . . . . .
5 Einführung in die Statistik
5.1 Einführung . . . . . . . . . . . . . . . . . . .
5.2 Beschreibende Statistik . . . . . . . . . . . .
5.2.1 Häufigkeitsverteilung . . . . . . . . . .
5.2.2 Statistische Maßzahlen . . . . . . . . .
5.3 Zufallsvariable und ihre Verteilungen . . . . .
5.3.1 Zufallsvariable und Wahrscheinlichkeit
5.3.2 Diskrete Gleichverteilung . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INHALTSVERZEICHNIS II
5.4
5.3.3 Binomialverteilung . . . . . . .
5.3.4 Stetige Gleichverteilung . . . .
5.3.5 Normalverteilung . . . . . . . .
Einführung in die schließende Statistik
5.4.1 Stichproben, Schätzfunktionen
5.4.2 Konfidenzintervalle . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
79
80
81
81
83
INHALTSVERZEICHNIS III
Vorbemerkung
Das vorliegende Rumpfskript ist Fortsetzung des Skriptes für Modul 1. Es soll die Arbeit des Mitschreibens während der Vorlesung reduzieren und kann nicht die Vorlesung oder zusätzliche Arbeit mit
entsprechender Fachliteratur ersetzen.
Literatur
Die angegebene Literatur ist ein kleiner willkürlicher Ausschnitt aus der einschlägigen Literatur. Sie
ergänzt die in der Literaturliste des Skriptes zu Modul 1 angegebene Literatur. Jeder sollte (vor allem
unter den in der Uni-Bibliothek vorhandenen Büchern) herausfinden, welche Literatur für ihn geeignet
ist.
Beichelt: Stochastik für Ingenieure, Teubner Verlag, Stuttgart.
Beyer/Hackel/Pieper/Tiedge: Wahrscheinlichkeitsrechnung u. math. Statistik, Teubner Verlag,
Leipzig.
Burg/Haf/Wille: Höhere Mathematik für Ingenieure, Bd.1-3, Teubner, Stuttgart. ????
Dobner/Dobner: Gewöhnliche Differenzialgleichungen, Theorie und Praxis. Fachbuchverlag Leipzig
im Hanser Verlag, Leipzig.
Fischer: Stochastik einmal anders. Vieweg Verlag, Wiesbaden.
Timmann: Repetitorium der gewöhnlichen Differentialgleichungen, Binomi-Verlag, Springe.
Papula: Mathematik für Ingenieure und Naturwissenschaftler, Bd. 3, Vieweg, Braunschweig.
Sachs: Wahrscheinlichkeitsrechnung und Statistik f. Ing.-Studenten an Fachhochschulen. Fachbuchverlag Leipzig im Hanser Verlag, Leipzig.
1
1
1.1
Analytische Geometrie
Der Vektorraum IRn
Im Vorkurs-Skript §3.2 und im Skript zu Modul I wurden schon Vektoren eingeführt. Hier sollen nochmal
die wichtigsten Eigenschaften zusammengefaßt und ihre Anwendungen in der analytischen Geometrie
sowie der Zusammenhang zu den linearen Gleichungssystemen zusammengestellt werden.
Vektoren sind in der Mathematik allgemein Objekte, für die eine Addition und eine Multiplikation
mit Skalaren (Elementen eines Körpers) definiert sind, die bestimmten Rechenregeln genügen. Eine
entsprechende Menge von Vektoren nennt man Vektorraum.
Wir wollen uns hier auf n-Tupel reeller Zahlen (mit n ∈ IN) und auf reelle Skalare beschränken und
bezeichnen den zugehörigen Vektorraum mit IRn .
Definition 1.1.1 Für k ∈ IN, α1 , . . . , αk ∈ IR, ~a1 , . . . ,~ak ∈ IRn heißt
~b =
k
X
αi~ai
Linearkombination der Vektoren ~a1 , . . . ,~ak .
i=1
Kann man (mindestens) einen der Vektoren ~a1 , . . . ,~am als Linearkombination der anderen darstellen,
dann heißen die Vektoren linear abhängig und sonst linear unabhängig.
Satz 1.1.2 Folgende Aussagen sind äquivalent:
(a) Die Vektoren ~a1 , . . . ,~am sind linear unabhängig.
(b) Die Gleichung
m
X
αi~ai = ~0 gilt nur für α1 = α2 = . . . = αm = 0.
i=1
(c) Die Matrix mit den Spaltenvektoren ~a1 , . . . ,~am hat Rang m.
Im IRn kann es damit höchstens jeweils n linear unabhängige Vektoren geben.
Eine Menge von n linear unabhängigen Vektoren nennt man Basis des Vektorraums. Man kann jeden
Vektor des IRn als Linearkombination der Vektoren einer solchen Basis darstellen, und diese Darstellung
ist eindeutig. Damit kann man jede Basis als Koordinatensystem verwenden, nicht nur die Normalbasis
der
Koordinateneinheitsvektoren
~e1 := (1, 0, . . . , 0), . . . , ~en := (0, . . . , 0, 1).
Beispiele 1.1.3
(1) Eine Walze der Masse m rollt nur auf Grund ihres Eigengewichts auf einer schiefen Ebene mit
Neigungswinkel α. Welche Kraft drückt auf die Ebene und welche Kraft beschleunigt die Walze?
(2) Eine Straßenlampe der Masse m = 2, 446 kg hängt in der Mitte eines Haltedrahtes, der an den
Straßenseiten in gleicher Höhe an Masten befestigt ist. Die Masten sind 15 m voneinander entfernt
und die Lampe hängt 0, 6 m durch. Wie groß sind die Spannkräfte in den Drähten?
(3) Ein Schwimmer durchquert einen Fluß der Breite b. Die Geschwindigkeit des Flußwassers ist
konstant gleich ~v . Da der Schwimmer sich rechtwinklig zu den Ufern bewegen möchte, ist sein
Geschwindigkeitsvektor ~c schräg stromaufwärts gerichtet. Wie lange braucht der Schwimmer, wenn
|~c| konstant ist, und in welcher Richtung muß er schwimmen?
1. Analytische Geometrie
z
Den Abstand d(P, Q) zweier Punkte P = ~x und Q = ~y definieren
wir (analog zu den entsprechenden Formeln in der Ebene IR2 und
im Raum IR3 , die sich aus dem Satz des Pythagoras ergeben,)
durch
p
d(P, Q) = (x1 − y1 )2 + (x2 − y2 )2 + . . . + (xn − yn )2 .
2
✻
q
2
2
x2
0 + y 0 + z0
✒
z0
x0
Wir bezeichnen den Abstand von P und Q in Zukunft durch
q
✲
y
2
x2
0 + y0
❵
❵
x ☛
y0
|P − Q| = |~x − ~
y|
und den Abstand von P zum Ursprung ~0 mit |P | = |~x|.
Für beliebige ~x, ~y ∈ IRn und λ ∈ IR gilt
λ~x = |λ| · ~x
~x + ~y ≤ ~x + ~y und
(Dreiecksungleichung).
Ein Vektor ~x mit ~x = 1 heißt Einheitsvektor. Zum Beispiel ist für jedes ~x ∈ IRn mit ~x 6= ~0 der
~x
Vektor ~e := ein Einheitsvektor.
~x
~x · ~
y :=
n
X
xk yk heißt Skalarprodukt der beiden Vektoren ~x und ~y .
k=1
Für beliebige λ ∈ IR, ~x, ~y , ~z ∈ IRn gilt
λ~x · ~y = λ · ~x · ~y ,
~x + ~y · ~z = ~x · ~z + ~y · ~z ,
~x · ~y = ~y · ~x
und
Zwei Vektoren ~x, ~y 6= ~0 spannen ein Parallelogramm mit Diagonalen ~x + ~
y und ~x − ~y auf. Gilt ~x · ~y = 0, dann sind die Diagonalen
gleich lang, das Parallelogramm ist also ein Rechteck und die Vektoren ~x und ~
y sind zueinander orthogonal.
2
~x · ~x = ~x ≥ 0.
✗
✯
~x + y~
~y
~x − ~y
✲
⑦
~x
Seien nun e~x und e~y die zugehörigen Einheitsvektoren, λe~x die Projektion von e~y auf die von e~x aufgespannte Gerade, α der Winkel
zwischen ~x und ~
y , dann gilt λ = cos α bzw.
~x · ~y = ~x · ~y · cos α
(Satz von Schwarz).
~y
❨
e~y
❨
❵
✛
λe~x
☛ α
✲
✲
e~x
~x
1. Analytische Geometrie
1.2
3
Skalarprodukt, Gleichungsdarstellung einer Ebene
Eine Ebene im IR3 ist eine Punktmenge der Form
{(x1 , x2 , x3 ) ∈ IR3 ; a1 x1 + a2 x2 + a3 x3 = c}.
Mit Hilfe des Skalarprodukts kann man dies auch in der Form schreiben:
{~x ∈ IR3 ; ~a · ~x = c}
Der Vektor ~a ist zu der Parallelebene durch den Nullpunkt (d.h. mit c = 0) orthogonal und heißt
Normalenvektor der Ebene.
Analog nennt man eine (durch die lineare Funktion von n Variablen beschriebenen) Punktmenge
{(x1 , x2 , . . . , xn ) ∈ IR n ; a1 x1 + a2 x2 + . . . + an xn = c}
Hyperebene.
Im Fall n = 3 ist das eine Ebene, im Fall n = 2 eine Gerade.
Der Vektor ~a := (a1 , a2 , . . . , an ) heißt Normalenvektor der Hyperebene, die Darstellung
~a · ~x = c
Normalform.
Hyperebenen mit gleichem Normalenvektor und verschiedenem c sind zueinander parallel.
Ist ~a ein Einheitsvektor, dann heißt die Darstellung Hessesche Normalform. |c0 | ist der Abstand des
Nullpunktes von der Ebene, und das Vorzeichen gibt an, in welche Richtung, bezogen auf den Nullpunkt,
der Normalenvektor zeigt. Die Hessesche Normalform ist bis auf die Vorzeichen von ~a (bzw. c0 ) eindeutig
bestimmt.
Ganz analog erhält man aus der Hesseschen Normalform ~a0 · ~x = c0 zu jedem Punkt ~x1 ∈ IRn den
orientierten senkrechten Abstand zu der Ebene durch
d = ~a0 · ~x1 − c0 .
d ist positiv, wenn der Punkt ~x1 und der Nullpunkt auf verschiedenen Seiten der Hyperebene liegen,
und negativ, wenn sie auf der gleichen Seite liegen.
1.3
Kreuzprodukt
Speziell im IR3 kann man je zwei Vektoren ~a und ~b einen anderen Vektor ~z zuordnen:
Definition 1.3.1 Für ~a, ~b ∈ IR3 sei ~c der Vektor mit folgenden Eigenschaften:
(1) ~c ist orthogonal zu ~a und ~b.
(2) |~c| = |~a| · |~b| · sin α, und dabei ist α der von ~a und ~b eingeschlossene Winkel.
(3) ~a, ~b und ~c bilden (in dieser Reihenfolge) ein Rechtssystem.
~c heißt Vektorprodukt (oder Kreuzprodukt) von ~a und ~b. Schreibweise: ~c = ~a × ~b.
~c ist durch ~a und ~b eindeutig bestimmt und gleich dem Nullvektor, falls ~a = ~0 oder ~b = ~0 oder falls ~a
und ~b parallel sind.
1. Analytische Geometrie
4
Bemerkungen 1.3.2
(1) Sind die Vektoren ~a und ~b nicht gleich dem Nullvektor und nicht parallel, dann spannen sie ein
Parallelogramm auf, dessen Flächeninhalt gleich |~a × ~b| ist.
(2) Das Vektorprodukt ist nicht kommutativ, denn es gilt
~a × ~b = −~b × ~a,
d.h. Vertauschung der Vektoren erzeugt als Vektorprodukt einen Vektor, der dieselbe Länge, aber
entgegengesetzte Richtung wie das ursprüngliche Vektorprodukt hat.
(3) Für beliebiges λ ∈ IR gilt
(λ~a) × ~b = λ(~a × ~b).
(4) Für beliebige Vektoren ~a, ~b, ~c gilt
~a × (~b + ~c) = (~a × ~b) + (~a × ~c).
(5) Man erhält das Vektorprodukt in Komponentenschreibweise durch Berechnen der Determinante“
”
~e1 ~e2 ~e3 ~a × ~b = a1 a2 a3 .
b1 b2 b3 (6) Im allgemeinen gilt ~a × ~b × ~c 6= ~a × ~b × ~c.
Beispiele 1.3.3


 
 
5
2
3
~





(1) Berechne für ~a =
1 , b = −7 , ~c = 0 die Produkte ~a × ~b, ~b × ~c, ~a × ~b × ~c , ~a × ~b × ~c
−1
1
8
und zeige mit Hilfe des Skalarprodukts, daß ~a × ~b auf ~a und ~b jeweils senkrecht steht.
~ , die vom Massenpunkt immer in Rich(2) Auf einen Massenpunkt der Masse m wirke eine Kraft F
tung eines festen Punktes (z.B. des Nullpunktes) zeigt. Ist ~x der Ortsvektor des Massenpunktes,
~ = λ~x. (Beispiel: Gravitationskraft der Sonne auf die Erde). Bewegt sich der
dann gilt also F
Massenpunkt, dann wird sein Ort durch die Vektorfunktion ~x(t) in Abhängigkeit von der Zeit t
beschrieben. Ist diese Funktion zweimal stetig differenzierbar, dann folgt aus dem Newtonschen
Bewegungsgesetz
¨(t).
F~ = m · ~x
Da F~ und ~x parallel sind, ergibt Vektormultiplikation der Gleichung mit ~x(t)
¨(t) = ~x(t) × F
~ = ~x(t) × λ~x(t) = 0,
m · ~x(t) × ~x
und Integration nach t
m · ~x(t) × ~x˙ (t) = ~c
mit einem konstanten Vektor ~c. Die linke Seite heißt Drehimpuls des Massenpunktes bezüglich
des Nullpunktes. Damit ergibt sich: Der Drehimpuls des Massenpunktes bezüglich des Nullpunktes
ist konstant und die Bahnkurve liegt in einer Ebene senkrecht zu ~c.
1.4
Spatprodukt
Drei linear unabhängige Vektoren ~a, ~b, ~c ∈ IR3 spannen ein
Parallelepiped auf, d.h. einen Körper, der von 3 Paaren zueinander parallelen ebenen Seitenflächen begrenzt wird, die wiederum Parallelogramme sind. Einen solchen Körper nennt man
auch Spat. Das von ~a und ~b aufgespannte Parallelogramm hat die
Fläche |~a × ~b| und die zugehörige Höhe ergibt sich als Skalarprodukt von ~c mit dem Einheitsvektor in Richtung ~a ×~b. Als Volumen
ergibt sich damit
V = |(~a × ~b) · ~c|.
~a × ~b
✻
♣ ✍~c
h
♣♣
✶
~b
✲
~a
1. Analytische Geometrie
Definition 1.4.1 Seien ~a, ~b, ~c ∈ IR3 . Dann heißt
und ~c.
[~a ~b ~c] := (~a × ~b) · ~c
5
Spatprodukt von ~a, ~b
Bemerkungen 1.4.2
(1) Das Volumen des zugehörigen Spats ist der Betrag des Spatprodukts. Bilden die Vektoren ein
Rechtssystem, dann ist das Spatprodukt positiv, also gleich dem Volumen.
(2) Das Volumen des Spats, das aus dem Rechtssystem {~a, ~b, ~c} erzeugt ist, ist auch das Produkt der
Fläche ~b × ~c mit der Länge der zugehörigen Höhe, also gleich ~a · (~b × ~c). Da die Reihenfolge der
Multiplikationszeichen vertauscht werden kann, ist die Schreibweise des Spatprodukts gerechtfertigt.
(3) Da das Skalarprodukt kommutativ ist, gilt
(~b × ~c) · ~a = ~a · (~b × ~c).
Analog folgt
[~a ~b ~c] = [~b ~c ~a] = [~c ~a ~b],
d.h. das Spatprodukt ändert sich bei zyklischer Vertauschung nicht.
(4) Wegen ~a × ~b = −~b × ~a
(5) Wegen ~a × ~a = 0
[~a ~b ~c] = −[~b ~a ~c].
gilt
gilt
[~a ~a ~b] = [~b~a ~a] = [~a ~b ~a] = 0.
Beispiel 1.4.3 Eine Flüssigkeit fließt mit konstanter Geschwindigkeit ~v durch eine Parallelogrammfläche, die von den Vektoren ~a und ~b aufgespannt wird. Dann ist die Flüssigkeitsmenge, die in einer
~
Zeiteinheit durch das Parallelogramm
fließt,
gleich dem Volumen des Spats, das von den Vektoren ~a, b
~
und ~v aufgespannt wird, also gleich [~a b ~v ] .
1.5
Geraden und Ebenen im Raum
Die Lösungen ~x = (x1 , x2 , . . . , xn ) einer homogenen linearen Gleichung mit n Variablen
a1 x1 + a2 x2 + . . . + an xn = 0
kann man mit Hilfe des Skalarprodukts als Menge der Punkte im IRn interpretieren, deren Ortsvektoren
auf dem Vektor ~a = (a1 , . . . , an ) senkrecht stehen.
Eine Ebene im IR3 wird festgelegt
• durch drei Punkte ~x1 , ~x2 und ~x3 , die nicht auf einer gemeinsamen Geraden liegen, bzw.
• durch den Ortsvektor ~x1 eines Punktes und zwei linear unabhängige Richtungsvektoren ~r1 (=
~x2 − ~x1 ) und ~r2 (= ~x3 − ~x1 ).
Aus der Parameterdarstellung
~x = ~x1 + s · ~r1 + t · ~r2
erhält man mit Hilfe des Vektorprodukts sofort die Normalform
~a = ~r1 × ~r2
bzw. die Hessesche Normalform
und
~a
b
· ~x =
.
|~a|
|~a|
b = ~a · ~x1
~a · ~x = b
mit
1. Analytische Geometrie
6
Beispiel 1.5.1 (Abstand Punkt Ebene)
Die Ebene durch die drei Punkte (1, 0, 0), (0, 1, 0) und (0, 0, 1) hat die Parameterdarstellung
 
 
 
1
−1
−1





~x = 0 + s · 1 + t · 0  ,
s, t ∈ IR,
0
0
1
 
1
1
1
√ 1 · ~x − √ = 0.
und damit die Hessesche Normalform
3 1
3
√
Der Abstand des Punktes (3, 3, 4) von der Ebene ist d = 3 3.
Sei E1 die Ebene mit Parameter- bzw. Normalendarstellung
~x = ~x1 + s · ~r11 + t · ~r12
bzw.
a~1 · ~x = b1
~x = ~x2 + s · ~r21 + t · ~r22
bzw.
a~2 · ~x = b2 .
und die E2 die Ebene mit
• Die Ebenen sind gleich genau dann, wenn die Normalenvektoren ~a1 bzw. ~a2 linear abhängig sind
und die drei Vektoren ~x1 − ~x2 , ~r11 und ~r12 linear abhängig sind.
Die 2. Bedingung ist erfüllt, wenn das Spatprodukt [(~x1 − ~x2 ) ~r11 ~r12 ] Null ist.
• Die Ebenen sind parallel, wenn die Normalenvektoren ~a1 bzw. ~a2 linear abhängig sind und die drei
Vektoren ~x1 − ~x2 , ~r11 und ~r12 linear unabhängig sind.
• Die Ebenen schneiden sich in einer Geraden, wenn die Normalenvektoren ~a1 bzw. ~a2 linear unabhängig sind. Die Schnittgerade hat den Richtungsvektor ~a1 × ~a2 .
Der Schnittwinkel ist gleich dem Winkel, den die Normalenvektoren einschließen.
Beispiele 1.5.2
(1) Die Ebenen
und
haben die Normalen
 
 
 
1
1
0





E1 : ~x = 0 + s · 1 + t · 1
0
0
1
 
 
 
2
1
3
E2 : ~x = 2 + s · 2 + t ·  2 
1
1
−1
 
 
1
−4



a~1 = −1
bzw.
a~2 =
4 .
1
−4
     
1
2
−1
x~1 − x~2 = 0 − 2 = −2
0
1
−1
ist linear abhängig von den jeweiligen Richtungsvektoren, die Ebenen sind also gleich.
1. Analytische Geometrie
7
 
 
 
0
1
0
(2) Die Ebene
E3 : ~x = 1 + s · 1 + t · 1
0
0
1
hat zwar wieder einen parallelen (bzw. sogar gleichen) Normalenvektor wie E1 und E2 , aber
     
1
0
1
x~1 − x~3 = 0 − 1 = −1
0
0
0
ist nicht linear abhängig von den Richtungsvektoren, d.h. E3 ist parallel zu E1 und E2 .
(3) (Schnitt zweier Ebenen)
Die Ebenen mit der Gleichungsdarstellung
E1 :
−x +y −z
E2 : −5x +y +6z
=
=
0
14


 
−1
−5
haben die Normalen ~a1 =  1  bzw. ~a2 =  1 .
−1
6
Für den Schnittwinkel φ gilt
cos φ =
~a1 · ~a2
= 0,
|~a1 | · |~a2 |
die Ebenen stehen also senkrecht aufeinander.


7
Die Schnittgerade hat den Richtungsvektor ~r = ~a1 × ~a2 = 11.
4
Setzt man z.B.
 x = 0 in das Gleichungssystem ein, dann erhält man y = z = 2 und damit einen
0
Ortsvektor 2 der Schnittgeraden.
2
Den Schnittpunkt einer Ebenen mit einer Geraden erhält man z.B. durch Einsetzen der Parametergleichung der Geraden in die Normalform der Ebene.
Beispiel 1.5.3 (Schnittpunkt Ebene Gerade)
 
1
Gesucht ist der Fußpunkt des Lotes von dem Punkt 2 auf die Ebene
1

E : x − 2y + z − 7 = 0.

1

Ein Normalenvektor der Ebene ist −2, und daher hat die Lotgerade die Parameterdarstellung
1
 
 
1
1
~x = 2 + s · −2 .
1
1
1. Analytische Geometrie
−2 + 6s − 7 = 0,
Einsetzen in die Normalform der Ebene ergibt
8


5
3
1
also als Parameterwert des Schnittpunktes s0 = und den Schnittpunkt −2.
2
2
5
Um den Abstand eines Punktes P mit Ortsvektor ~y im IR3 von
einer Geraden g mit Parameterdarstellung
~x = ~x0 + s · ~r
q
h
zu bestimmen, betrachten wir das Parallelogramm, das von ~r und
~y − ~x0 aufgespannt wird.
Die Länge der Höhe zu der Seite ~r und damit der Abstand des
Punktes P von der Geraden sei h.
②
❖ ~r
P
y~ ✒ ▼
~y − ~x0
✿
~x0 + ~r
Der Flächeninhalt des Parallelogramms ist einerseits |~r × (~y − ~x0 )|,
andererseits |~r| · h.
1
Damit folgt
h=
· |~r × (~y − ~x0 )|.
|~r|
g
~x0
O
 
2
Beispiel 1.5.4 (Abstand Punkt Gerade) Der Punkt P mit Ortsvektor y~ = 1 hat zur Geraden
3
 
 
1
1



g : ~x = 2 + s 1
1
1
den Abstand
   
 
r
1
1 3
1    
1   14
h= √
1 × −1
=√
−1
=
.
3
3
3
1
2
−2
g1 , g2 seien zwei Geraden im IR3 mit Parameterdarstellung
~x = ~x1 + s · ~r1
bzw.
~x = ~x2 + s · ~r2 .
• Die Geraden sind identisch genau dann, wenn ~x1 − ~x2 und die beiden Richtungsvektoren ~r1 und
~r2 alle zueinander parallel sind.
• Die Geraden sind parallel genau dann, wenn die beiden Richtungsvektoren ~r1 und ~r2 parallel sind,
aber nicht ~x1 − ~x2 .
~r1 ~r1 Ihr Abstand ist dann
(~x1 − ~x2 ) − (~x1 − ~x2 ) ·
.
|~r1 | |~r1 |
• Die Geraden schneiden sich (in genau 1 Punkt), wenn die Richtungsvektoren linear unabhängig
sind und das lineare Gleichungssystem
~x1 + s · ~r1 = ~x2 + t · ~r2
lösbar ist.
1. Analytische Geometrie
• Sonst sind die beiden Geraden windschief.
9
Als Abstand von windschiefen Geraden bezeichnet man den kleinsten Abstand von Punkten auf
der einen Geraden zu Punkten auf der anderen Geraden. Für diese Punkte
~y1 = ~x1 + u~r1 ∈ g1 ,
~y2 = ~x2 + v~r2 ∈ g2
mit minimalem Abstand ist ~y1 − ~y2 senkrecht zu g1 und g2 , d.h. es gibt eine Zahl w ∈ IR mit
~y1 − ~y2 = w · (~r1 × ~r2 ).
~x1 + u~r1 − ~x2 − v~r2 = w · (~r1 × ~r2 )
mit 3 Gleichungen und den 3 Unbekannten u, v, w ergibt mit
d = w · (~r1 × ~r2 )
den gesuchten Abstand.
Lösen des linearen Gleichungssystems
Beispiele 1.5.5
(1) Bei den beiden Geraden
g1 :
 
 
1
1



~x = 1 + s · 2
0
1
und
g2 :
 
 
2
2



~x = 3 + s · 4
1
2
sind x~1 − x~2 und die Richtungsvektoren parallel, die Geraden sind also gleich.
(2) Die Gerade
g3 :
 
 
0
1
~x = 0 + s · 2
1
1
hat zwar wieder einen parallelen (bzw. sogar gleichen) Normalenvektor wie g1 und g2 , aber
 
1
x~1 − x~3 =  1 
−1
ist nicht parallel zu den Richtungsvektoren, d.h. g3 ist parallel zu g1 und g2 .
Ihr Abstand ist
 
 
 
 
1
1 1
1
1   1   1 √
 


√
1 ·√
2
2 =
21.
d= 1 −
3
6 1
6 1
−1
−1
(3) (Schnitt zweier Geraden)
Die Geraden
 
 
1
1
g1 : ~x = 1 + s · 2
0
1
und
g2 :
 
 
2
1
~x = 1 + s · 0
1
1
haben linear unabhängige Richtungsvektoren, und das lineare Gleichungssystem
 
     
1
1
2
1







s · 2 − t · 0 = 1 − 1
1
1
1
0
 
1

hat die Lösung s = 0, t = −1, die Geraden schneiden sich also im Punkt P 1.
0
1. Analytische Geometrie
(4) (windschiefe Geraden)
Die Geraden
g1 :
 
 
1
1
~x = 1 + s · 2
0
1
und
g3 :
 
 
2
1
~x = 3 + s · 0
2
1
haben linear unabhängige Richtungsvektoren, und das lineare Gleichungssystem
s · r~1 − t · r~2 = x~2 − x~1
hat keine Lösung (s, t). Die Geraden sind also windschief.
Das lineare Gleichungssystem
 
   
 
   
 
1
1
2
1
1
1
2
1 + s · 2 − 3 − t · 0 = w · 2 × 0 = w ·  0 
0
1
2
1
1
1
−2
1
1
hat die Lösung u = 1, t = − , w = und der Abstand von g1 und g3 ist
2
4
 
2
1   1 √
0
=
2.
d=
4
2
−2
10
11
2
Lineare Optimierung
2.1
Aufgabenstellung, Graphische Lösung
Beispiel 2.1.1 In einer Werkstatt werden zwei Fahrzeugtypen F1 und F2 instandgesetzt. Dazu sind
drei Arbeitsgänge A1 , A2 und A3 notwendig. Die erforderlichen Arbeitszeiten je Fahrzeugtyp und die
zur Verfügung stehende Gesamtarbeitszeit Z sind in folgender Tabelle aufgelistet:
A1
A2
A3
F1 F2 Z
4 8 96
8 4 120
6 0 78
Der Gewinn für ein Fahrzeug vom Typ F1 beträgt 12 Punkte, für ein Fahrzeug vom Typ F2 8 Punkte.
Wieviele Fahrzeuge von jedem Typ muß man annehmen, um den Gesamtgewinn zu maximieren?
Ist x1 die Anzahl der Fahrzeuge vom Typ F1 , x2 die Anzahl vom Typ F2 , dann ist der erzielte Gewinn
z(x1 , x2 ) := 12x1 + 8x2 .
Die diesbezügliche Funktion nennt man Zielfunktion des Problems.
Aus der Zeitaufwandstabelle ergeben sich Einschränkungen, die sogenannten Nebenbedingungen
≤
≤
≤
4x1 + 8x2
8x1 + 4x2
6x1
96
120 .
78
Weiter machen negative Mengen x1 und x2 keinen Sinn, d.h. es müssen die Nichtnegativbedingungen
x1 ≥ 0,
x2 ≥ 0
gelten. Bei unserem speziellen Beispiel müssen die Mengen auch noch ganzzahlig sein.
Definition 2.1.2 Sucht man Werte von Variablen x1 , . . . , xn , so daß die
Zielfunktion
z(x1 , . . . , xn ) :=
n
X
ci xi
(2.1)
i=1
maximal wird, wobei die
Nebenbedingungen
a11 x1
a21 x1
+
+
am1 x1 +
a12 x2 + . . . + a1n xn
a22 x2 + . . . + a2n xn
.....................
am2 x2 + . . . + amn xn
≤
≤
b1
b2
≤
bm
(2.2)
und die
Nichtnegativbedingungen
xi ≥ 0,
1 ≤ i ≤ n,
erfüllt sein müssen, dann nennt man das Problem lineares Optimierungsproblem.
(Die Koeffizienten aik , bi , ck , 1 ≤ i ≤ m, 1 ≤ k ≤ n, sind reelle Zahlen.)
(2.3)
2. Lineare Optimierung
12
Bemerkungen 2.1.3
(1) Als Nebenbedingungen können auch Gleichungen auftreten. Man spricht dann von einem Problem
mit gemischten Nebenbedingungen.
(2) Durch Multiplikation mit −1 kann man erreichen, daß die Zielfunktion und die Nebenbedingungen
in der obigen Form auftreten.


 
 
 
a11 . . . a1n
b1
x1
c1
 ..






.
.
.
.. , ~b :=  .. , ~x :=  ..  und ~c :=  ... 
(3) Wir setzen in Zukunft A :=  .
.
am1 . . . amn
bm
xn
cn
k
Für zwei Vektoren ~u und ~v im IR gelte ~u ≤ ~v genau dann, wenn für alle 1 ≤ i ≤ k gilt ui ≤ vi .
Dann erhält man das lineare Optimierungsproblem in der Form
z(~x) = ~c · ~x → max,
A~x ≤ ~b,
~x ≥ ~0.
Jedes ~x ∈ IRn , das die Nebenbedingungen A~x ≤ ~b erfüllt, heißt Lösung des linearen Optimierungsproblems.
Jede Lösung, die zusätzlich die Nichtnegativbedingungen ~x ≥ ~0 erfüllt, heißt zulässige Lösung.
Jede zulässige Lösung, für die die Zielfunktion den optimalen Wert annimmt, heißt optimale
Lösung.
(4) Ein lineares Optimierungsproblem kann viele optimale Lösung haben oder auch keine Lösung.
Um eine Vorstellung von der Lösungsmenge zu bekommen, betrachten wir nochmals unser Beispiel 2.1.1
und lösen es graphisch:
Wir führen ein Koordinatensystem ein und ordnen dem Vektor ~x den Punkt der Ebene mit Ortsvektor
~x zu. Da jede der Ungleichungen der Nebenbedingungen und der Nichtnegativbedingungen von allen
Punkten erfüllt wird, die in einer Halbebene liegen, ist die Menge der zulässigen Lösungen der Schnitt von
5 Halbebenen, nämlich dem Fünfeck mit den Ecken (0|0), (13|0), (13|4), (12|6), (0|12). Der Rand wird
von den Geraden gebildet, die sich ergeben, wenn man in den Ungleichungen das Ungleichungszeichen
durch das Gleichheitszeichen ersetzt.
x2
Die Punkte, für die die Zielfunktion jeweils gleich
einer Konstante z0 ist, liegen auf einer Geraden,
und alle diese Geraden sind zueinander parallel. Verschiebt man also eine dieser Geraden parallel, dann
wächst der Wert z0 in der einen Verschiebungsrichtung und nimmt in der anderen ab. Die optimalen Lösungen ergeben sich als Schnitt der Geraden
mit möglichst großem z0 -Wert mit der Menge der
zulässigen Lösungen. In unserem Beispiel ergibt sich
die optimale Lösung (12|6), und das ist eine Ecke des
Fünfeckes.
✻
12 ❛
z = 144 z = 192
g2
10
g3
8
6
❛
4
❛
g1
2
g5
❛
g4
2 4
z = 24
6 8
z = 72
❛
10 12 14
✲
x1
Für ein lineares Optimierungsproblem mit n Variablen ergibt sich analog die zulässige Lösungsmenge
(falls sie nicht leer ist), als Durchschnitt endlich vieler Halbräume, also als konvexes Polyeder, dessen
Rand von den Hyperebenen begrenzt wird, die durch die Nebenbedingungen und Nichtnegativbedingungen definiert sind. Die Menge der Punkte, für die die Zielfunktion konstant ist, entspricht einer weiteren
Hyperebene, und geeignetes Verschieben ergibt die optimalen Lösungen, falls sie existieren.
2. Lineare Optimierung
13
Ein Randpunkt des Polyeders ist dadurch ausgezeichnet, daß bei mindestens einer der Ungleichungen
die Gleichheit gilt. Ein zulässiger Lösungspunkt, bei dem in n linear unabhängigen Ungleichungen die
Gleichheit gilt, ist eine Ecke des Polyeders.
Gibt es also hinreichend viele Ungleichungen, dann liegt mindestens eine optimale Lösung in einer Ecke
des Polyeders, so daß man eigentlich nur die Zielfunktion an allen Ecken ausrechnen muß und dann
mit dem größten Wert eine optimale Lösung erhält. Für große Optimierungsprobleme ist diese Methode
aber zu aufwendig.
2.2
Analytische Lösung, Simplexverfahren
Um die Ergebnisse aus den Betrachtungen der Theorie der linearen Gleichungssysteme auf die lineare
Optimierung übertragen zu können, erzeugen wir aus dem linearen Optimierungsproblem mit Ungleichungen als Nebenbedingungen durch Einführen von m zusätzlichen Variablen ein lineares Optimierungsproblem, bei dem die Nebenbedingungen in Gleichungsform dargestellt werden:
Durch Einführen der neuen Schlupfvariablen x3 , x4 und x5 erhält man im Beispiel 2.1.1
z(x1 , x2 , x3 , x4 , x5 ) := 12x1 + 8x2 + 0x3 + 0x4 + 0x5 → max
4x1 +
8x1 +
6x1
8x2 + x3
4x2
+ x4
+ x5
xi ≥ 0,
=
96
= 120
=
78
i = 1, . . . , 5.
Wir betrachten nun speziell lineare Optimierungsproble der Form 2.1- 2.3 mit nichtnegativer rechter
Seite:
Definition 2.2.1 Das lineare Optimierungsproblem
z(x1 , . . . , xn+m ) :=
n+m
X
i=1
ci xi = c1 x1 + . . . + cn xn + cn+1 xn+1 + . . . + cn+m xn+m → max,
a11 x1 + a12 x2 + . . . + a1n xn + xn+1
a21 x1 + a22 x2 + . . . + a2n xn
+ xn+2
..
..
..
.
.
...............
.
+ xn+m
am1 x1 + am2 x2 + . . . + amn xn
xi ≥ 0,
1 ≤ i ≤ n + m,
bi ≥ 0,
=
=
..
.
b1
b2
..
.
(2.4)
= bm
1 ≤ i ≤ m,
heißt Standard-Maximum-Problem.
In Matrix-Schreibweise lautet das Standard-Maximum-Problem
z(~x) = ~c · ~x → max,

a11
 a21

mit A :=  .
 ..
...
...
a1n
a2n
..
.
am1 . . . amn

1 0 ... 0
0 1 . . . 0

,
..
..

.
.
0 0 ... 1
A~x = ~b,
~b ≥ ~0
~x ≥ ~0,



  
x1
c1
c1





.
.
.
 
 .. 
 ..   .. 
b1



  
 xn 
 cn  cn 
. 
~b := 


  
 .. , ~x := 
 xn+1  und ~c :=  cn+1  =  0 .



  
bm
 .. 
 ..   .. 
 . 
 .  .
xn+m
cn+m
0
2. Lineare Optimierung
Die Koeffizientenmatrix des Standard-Maximum-Problems

4 8 1 0
A = 8 4 0 1
6 0 0 0
14
in Beispiel 2.1.1 ist

0
0
1
mit Rang A = 3, d.h. maximal 3 Spaltenvektoren
sind linear unabhängig. Da die Matrix 5 Spal
5
tenvektoren hat, gibt es maximal
= 10 mögliche Kombinationen von je 3 linear unabhängigen
3
Spaltenvektoren, von denen in der Tat 9, d.h. alle bis auf die Kombination ~a2 ,~a3 ,~a4 linear unabhängig
sind. Wir nennen eine solche Kombination Basis.
Betrachten wir die Basis {~a1 ,~a2 ,~a3 }. Die zugehörigen Variablen x1 , x2 , x3 nennen wir Basisvariable.
Man kann das Gleichungssystem A · ~x = ~b so umformen, daß in jeder Gleichung genau eine der Basisvariablen auftritt, und zwar mit Koeffizient 1. In unserem Beispiel ergibt sich
x1
1
x5
6
1
x5
−
3
+ 2x5
+
x2
1
x4
4
− 2x4
+
x3
=
=
=
13
4 .
12
Definition 2.2.2 Gegeben sei das Standard-Maximum-Problem 2.4. Eine Menge von m linear unabhängigen Spaltenvektoren von A heißt Basis, die zugehörigen Variablen Basisvariablen, eine Darstellung des Gleichungssystems A · ~x = ~b, bei dem in jeder Gleichung genau eine der Basisvariablen
auftritt, und zwar mit Koeffizient 1, heißt Basisdarstellung, eine Lösung des Gleichungssystems, bei
der alle Nichtbasisvariable den Wert Null haben, Basislösung und eine Basislösung, bei der alle Basisvariablen nichtnegativ sind, zulässige Basislösung.
Bemerkungen 2.2.3
(1) Eine zulässige Basislösung kann höchstens m positive Komponenten besitzen.
(2) Jede zulässige Basislösung entspricht einer Ecke des Polyeders der zulässigen Lösungen.
Man erhält sofort
Satz 2.2.4 (Simplextheorem) Eine der zulässigen Basislösungen ist Lösung des Standard-MaximumProblems 2.4. Dabei ist eine zulässige Basislösung optimal, wenn in der Darstellung der Zielfunktion als
Funktion der Nicht-Basisvariablen xm+1 , . . . , xm+n
z = d0 + dm+1 xm+1 + . . . + dm+n xm+n
alle Koeffizienten der Nicht-Basisvariablen kleiner oder gleich Null sind.
2. Lineare Optimierung
15
Für Beispiel 2.1.1 erhält man
Basis
Basisdarst.
x3
x4
~a3 ,~a4 ,~a5
x5
z − 12x1 − 8x2 =
+ 8x2 − 23 x5 = 44
x3
x4 + 4x2 − 43 x5 = 16
z − 8x2
x1
x2
~a1 ,~a2 ,~a3
x3
z
x1
+ 2x5 = 156
+ 16 x5 = 13
+ 14 x4 − 13 x5 =
− 2x4
+ 2x4 − 23 x5 = 188
1
− 12
x3 + 16 x4 = 12
+ 12 x3
+ 13 x3
+ 12 x1
x5
z
x2
x4
x5
z
4
+ 2x5 = 12
+ 16 x3 −
x2
~a1 ,~a2 ,~a5
~a2 ,~a4 ,~a5
0
+ 16 x5 = 13
x1
~a1 ,~a3 ,~a4
+ 4x1 + 8x2 = 96
+ 8x1 + 4x2 = 120
+ 6x1
= 78
1
12 x4
=
6
− x4 =
6
+ 43 x4 = 192
+ 18 x3 = 12
+ 6x1 − 12 x3 = 72
+ 6x1
= 78
− 8x1
+ x3 = 96
zul.Basislösung Wert Ecke


0
 0 


 96 
0
(0|0)


120
78
 
13
0
 
44
156 (13|0)
 
16
0
 
13
4
 
12
188 (13|4)
 
0
0
 
12
6
 
0
192 (12|6)
 
0
6
 
0
12
 
0
96
(0|12)
 
72
78
Das Simplexverfahren ist ein Algorithmus, bei dem eine Ausgangslösung so lange verbessert wird,
bis eine optimale Lösung gefunden wird oder die Nichtlösbarkeit erkannt wird. Dabei geht man von
einer Ecke des Polyeders zu der benachbarten Ecke über, für die die Zielfunktion einen größeren Wert
hat. Der Übergang zu einer Nachbarecke entspricht dem Austausch einer der Basisvariablen durch eine
Nicht-Basisvariable.
Man wählt dabei die Nicht-Basisvariable xj , deren positiver Koeffizient dj in der Darstellung der Zielfunktion maximal ist.
Als Ausgangslösung kann man z.B. die zulässige Basislösung nehmen, bei der die Schlupfvariablen als
Basisvariablen gewählt werden.
Damit erhält man folgenden Lösungsalgorithmus.
Simplexverfahren:
x1
a11
a21
(1) Aufstellung des Ausgangstableaus .
..
x2
a12
a22
..
.
...
...
...
..
.
am2
d1
...
d2
amn
...
xn xn+1 xn+2
a1n
1
0
a2n
0
1
..
..
..
.
.
.
0
0
...
dn
0
0
. . . xn+m
b
...
0
b1
...
0
b2
..
..
..
.
.
.
1
am1
bm
...
0
−d0
2. Lineare Optimierung
16
(2) Optimalitätsprüfung:
Gilt für alle Koeffizienten der letzten Zeile di ≤ 0, 1 ≤ i ≤ n, dann ist die optimale Lösung erreicht
und das Verfahren endet. Sonst fährt man mit Schritt (3) fort.
(3) Nichtlösbarkeitsprüfung:
Sind die Nebenbedingungen widersprüchlich, dann existiert keine Lösung. Ist ein dj größer als Null
und alle aij in derselben Spalte kleiner oder gleich Null, dann ist die Zielfunktion auf der Menge
der zulässigen Lösungen nicht beschränkt. In beiden Fällen bricht das Verfahren ab. Sonst weiter
mit Schritt (4).
(4) Pivot-Wahl:
(a) Auswahl der auszutauschenden Nichtbasisvariablen:
Wähle Spalte l mit dl = max{dj , 1 ≤ j ≤ n}. Dann wird die Nichtbasisvariable xl neue
Basisvariable.
(b) Auswahl der auszutauschenden Basisvariablen:
bi
bk
Ermittle Zeile k mit
= min{ ; ail > 0}. akl wird Pivot, die Variable xn+k wird Nichtakl
ail
Basisvariable.
(5) Variablen-Austausch:
(a) Dividiere die k-te Zeile durch akl . Das neue a′kl wird 1.
(b) Addiere Vielfache der k-ten Zeile jeweils so zu den anderen Zeilen, daß das neue Element a′il
bzw. d′l in der l-ten Spalte Null wird.
(c) Vertausche die l-te und die (n + k)-te Spalte.
Weiter mit Schritt (2).
Bemerkungen 2.2.5
(1) Enthält die Spalte einer Nicht-Basisvariablen in der letzten (Zielfunktions-) Zeile den Wert 0, dann
tritt das Maximum an mehreren Polyeder-Ecken auf, d.h. die Lösung ist nicht eindeutig.
(2) Die Auswahl der Pivot-Spalte beruht auf der Idee, daß man bei Eliminierung des größten di die
Zielfunktion am meisten vergrößert.
(3) Die Auswahl der Pivot-Zeile gewährleistet, daß auch in dem neuen Tableau die neuen rechten
Seiten bk nichtnegativ sind.
bi
Die Quotienten
werden nur für die Zeilen berechnet, für die ail > 0.
ail
Gibt es mehrere kleinste“ positive Quotienten, dann kann man beliebig eine der entsprechenden
”
Zeilen auswählen.
2. Lineare Optimierung
Beispiel 2.2.6 Für Beispiel 2.1.1 ergibt sich
Durchlauf
x1
x2
x3
x4
x5
b
I
4
8
6
12
0
0
1
0
8
4
0
8
8
4
0
8
1
0
0
0
1
0
0
0
0
1
0
0
0
1
0
0
0
0
1
0
− 23
− 43
0
0
1
0
0
0
1
0
0
1
0
0
0
1
0
0
1
0
0
0
−2
2
− 13
96
120
78
0
44
16
13
−156
II
III
IV
1
4
0
−2
−1
1
− 12
1
2
1
6
1
− 12
− 13
1
6
− 43
Definition 2.2.7 Das lineare Optimierungsproblem
1
6
−2
1
6
2
3
1
0
0
0
bi
ail
24
15
13
11
2
4
12
4
13
−188
6
6
12
−192
z(x1 , . . . , xn ) :=
6
78
n
X
i=1
mit den Nebenbedingungen
a11 x1
a21 x1
+
+
am1 x1 +
a12 x2 + . . . + a1n xn
a22 x2 + . . . + a2n xn
.....................
am2 x2 + . . . + amn xn
xi ≥ 0, 1 ≤ i ≤ n, bk ≥ 0, 1 ≤ k ≤ m,
und
heißt Minimum-Problem.
In Matrix-Schreibweise lautet das Minimum-Problem
z(~x) = ~c · ~x → min,
A~x ≥ ~b,
~x ≥ ~0,
~b ≥ ~0.
ci xi → min
≥
≥
b1
b2
≥
bm
17
2. Lineare Optimierung
18
Satz 2.2.8 (Dualitätssatz der linearen Optimierung) Zu jedem Minimum-Problem
A~x ≥ ~b,
z(~x) = ~c · ~x → min,
~x ≥ ~0,
gibt es genau ein Maximum-Problem
z ∗ (~u) = ~b · ~u → max,
~u ≥ ~0,
AT ~u ≤ ~c,
mit der Eigenschaft:
(a) Der optimale Lösungswert von z ∗ ist gleich dem optimalen Wert von z.
(b) In den Endtableaus der beiden Probleme sind die Werte der Basisvariablen der einen Aufgabe bis
auf das Vorzeichen gleich den Werten der Nicht-Basisvariablen des anderen Problems.
Beispiel 2.2.9 Zu dem Minimum-Problem
z(x1 , x2 , x3 , x4 ) := 2x1 + x2 + 2x3 + x4 → min
≥
≥
≥
x1
+ x3
x1 + x2 + x3 + 2x4
x2 + x3 + x4
xi ≥ 0,
i = 1, . . . , 4.
bzw.
A~x ≥ ~b,
z(~x) = ~c · ~x → min,
~x ≥ ~0,
mit


1 0 1 0
A = 1 1 1 2 ,
0 1 1 1
 
2
1

~c = 
2 ,
1
 
10
~b = 20 ,
15
erhält man das duale Maximum-Problem
z ∗ (~u) = ~b · ~u → min,
AT ~u ≤ ~c,
10
20
15

1

0
mit AT = 
1
0
~u ≥ ~0,
bzw.
z ∗ (u1 , u2 , u3 ) := 10u1 + 20u2 + 15u3 → max
u1 +u2
u2 +u3
u1 +u2 +u3
2u2 +u3
ui ≥ 0,
≤
≤
≤
≤
i = 1, . . . , 3.
2
1
2
1
1
1
1
2

0
1

1
1
2. Lineare Optimierung
Mit dem Simplex-Verfahren erhält man
Durchlauf
u1
u2
u3
u4
u5
u6
u7
c
I
1
0
1
0
10
1
1
1
2
20
0
1
1
1
15
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
2
1
2
1
0
II
1
0
1
0
10
1
0
0
0
0
1
0
0
0
0
0
0
0
1
0
0
0
0
1
0
0
0
0
1
0
−0, 5
0, 5
0, 5
0, 5
5
−0, 5
0, 5
1
0, 5
10
0
0
1
0
0
1
0
0
0
0
1
0
−1
0
−10
0, 5
0, 5
−1
0, 5
0
0
1
0
0
0
0
1
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
1
0
0
0, 5
−0, 5
1
−0, 5
−10
−0, 5
−0, 5
−0, 5
0, 5
−10
−0, 5
−0, 5
0
0, 5
−5
−0, 5
−0, 5
0
0, 5
−5
1, 5
0, 5
1, 5
0, 5
−10
1, 5
0, 5
0
0, 5
−25
1, 5
0, 5
0
0, 5
−25
III
IV
ci
ail
2
1
2
0, 5
1, 5
1, 5
die Lösung
∗
zmax
= zmin = 25,
x1 = u4 = 0,
x2 = u5 = 0,
x3 = u6 = 10,
x4 = u7 = 5.
1
0
1
19
2. Lineare Optimierung
2.3
20
Transportprobleme
Ein Spezialfall der linearen Optimierung ist die lineare Transportoptimierung.
Beispiel 2.3.1 Drei Treibstofflager T1 , T2 , T3 beliefern vier Verbraucher P1 , P2 , P3 , P4 .
Die Lagerkapazitäten seien a1 = 200, a2 = 90, a3 = 120 und die Bedarfsmengen b1 = 30, b2 = 190,
b3 = 60 und b4 = 130.
P1 P2 P3 P4
T1 6 3 5 1
Die Entfernungen ergeben sich aus der Tabelle
.
T2 3 7 4 4
T3 5 2 3 1
(Gesamtkapazität und Gesamtbedarf stimmen in diesem Beispiel überein.)
Der Transport ist so zu organisieren, daß der Gesamtweg minimal ist, aber der Gesamtbedarf abgedeckt
wird.
Wir bezeichnen die Transportmenge von Lager Ti nach Verbraucher Pj mit xij . Es sollen keine negative
Transportmengen (d.h. in umgekehrter Richtung) auftreten. Dann ergibt sich folgender Verteilungsplan
P1 P2 P3 P4
a
T1 x11 x12 x13 x14 200
T2 x21 x22 x23 x24 90 .
T3 x31 x32 x33 x34 120
b 30 190 60 130 410
Allgemein ergibt sich
Definition 2.3.2 An m Versandstellen A1 , . . . , Am sei ein Gut in den positiven Mengen a1 , . . . , am
verfügbar, und es werde an n Bestimmungsorten B1 , . . . , Bn in den positiven Mengen b1 , . . . , bn benötigt.
m
n
X
X
Es gelte
ai =
bj . Die Transportkosten von Ai nach Bj betragen kij .
i=1
j=1
Die Bestimmung von Transportmengen xij ≥ 0 von Ai nach Bj mit minimalen Gesamtkosten, d.h. mit


m
n
X
X

K=
kij xij  → min,
i=1
j=1
unter den Nebenbedingungen in Form der
Versandbedingungen
m
X
xij = bj ,
1 ≤ j ≤ n,
xij = ai ,
1 ≤ i ≤ m.
i=1
und der Empfangsbedingungen
n
X
j=1
heißt ausgeglichenen Transportproblem.
2. Lineare Optimierung
21
Bemerkungen 2.3.3
(1) In der Praxis stimmen Gesamtkapazität und Gesamtbedarf oft nicht überein. Ein nichtausgeglichenes Transportproblem läßt sich aber durch Einführung zusätzlicher fiktiver Versandstellen bzw.
Bestimmungsorten mit extrem hohen Kosten in ein äquivalentes ausgeglichenes Transportproblem
umwandeln.
(2) Ein ausgeglichenes Transportproblem ist ein Minimum-Problem mit m · n Variablen und m + n
Nebenbedingungen, die schon in Form von Gleichungen vorliegen. Jede Variable kommt in den
Nebenbedingungen genau zweimal vor, und jedes Mal mit Koeffizient 1.
Wegen der Ausgeglichenheitsbedingung ist der Rang der Koeffizientenmatrix der m + n Nebenbedingungen gleich r = m + n − 1, d.h. eine der Gleichungen ist überflüssig, und man erhält
r = m + n − 1 Basisvariable und m · n − r (frei wählbare) Nicht-Basisvariable.
(3) Jedes ausgeglichene Transportproblem hat mindestens eine optimale Lösung.
Wir gewinnen eine optimale Lösung durch zwei Schritte:
Zuerst gewinnen wir eine zulässige Basislösung als Ausgangslösung.
Dann geben wir ein Verfahren an, mit dem man erkennen kann, ob die vorliegende Lösung optimal ist,
und das gegebenenfalls die Ausgangslösung verbessert.
Ausgangslösung mit Nord-West-Ecken-Regel
Beginnend mit dem Feld links oben (daher NW-Ecken-Regel) werden die Felder der Transportmatrix
so aufgefüllt, daß gerade noch die Nebenbedingungen erfüllt sind.
1. Schritt: x11 := min{a1 , b1 }.
2. Schritt: Für x11 = a1 setze x1j := 0, 2 ≤ j ≤ n, und b′1 := b1 − a1 . Für x11 = b1 setze xi1 := 0,
2 ≤ i ≤ m, und a′1 := a1 − b1 .
3. Schritt: Durch Schritt 1-2 sind die Transportmengen in der ersten Zeile bzw. ersten Spalte festgelegt.
Streiche diese und wende Schritt 1-2 auf das reduzierte Schema an (mit a′1 statt a1 bzw. b′1 statt b1 ).
Beispiel 2.3.4 Für Beispiel 2.3.1 ergibt sich
T1
T2
T3
b
P1 P2 P3 P4
a
30 170 0
0 200
0 20 60 10 90 .
0
0
0 120 120
30 190 60 130 410
Bemerkungen 2.3.5
(1) Bei dem Verfahren wählt man immer das Nord-West-Element und streicht anschließend eine Spalte
oder Zeile.
Es werden insgesamt n − 1 Spalten und k Zeilen (mit 0 ≤ k ≤ m − 1) gestrichen und dabei jeweils
1 Element ausgewählt, d.h. mit den verbleibenden m − k Elementen der letzten Spalte insgesamt
n − 1 + k + (m − k) = n + m − 1.
Oder es werden insgesamt m − 1 Zeilen und k Spalten (mit 0 ≤ k ≤ n − 1) gestrichen und
dabei jeweils 1 Element ausgewählt, d.h. mit den verbleibenden n − k Elementen der letzten Zeile
insgesamt m − 1 + k + (n − k) = n + m − 1.
Die Werte der nicht ausgewählten Elemente sind Null, die der ausgewählten sind nichtnegativ,
d.h. wir haben eine zulässige Basislösung gefunden, wobei die ersteren die Nicht-Basisvariablen
und die letzteren die Basisvariable sind.
2. Lineare Optimierung
22
(2) Es gibt eine Vielzahl von weiteren Verfahren zur Gewinnung einer Anfangslösung, z.B. die auf”
steigende Indexmethode“ oder die Vogelsche Approximationsmethode“. Sie sind rechentechnisch
”
aufwendiger als die Nord-West-Ecken-Methode, liefern aber oft schon Lösungen, die der optimalen Lösung näher liegen (da die Nord-West-Ecken-Methode die Transportkosten überhaupt nicht
berücksichtigt).
Potentialmethode zur Gewinnung einer optimalen Lösung
Wir fassen Kosten- und Verteilungstabelle in einer Tabelle zusammen. Zuerst sei es wieder an unserem
Beispiel 2.3.1 demonstriert:
Jedes Feld wird nochmal in 4 Felder unterteilt, wobei links oben die Kosten kij und rechts unten die
Liefermenge xij eingetragen werden. Der Vollständigkeit halber kennzeichnen wir im Feld links unten,
ob es sich um eine Basisvariable handelt oder nicht.
P1
T1
T2
T3
P2
P3
P4
a
6
3
5
1
BV 30 BV 170
0
0
3
7
4
4
0 BV
20 BV 60 BV
10
5
2
3
1
0
0
0 BV 120
b
30
190
60
200
90
.
120
130
410
Wir suchen nun Potentiale u1 , . . . , um , v1 , . . . , vn ∈ IR mit
ui + vj = kij
für alle i, j,
für die xij Basisvariable ist.
Da es r = m + n − 1 Basislösungen und m + n Potentiale gibt, ist das System unterbestimmt, man
kann also ein Potential frei wählen, z.B. u1 = 0, und die anderen Werte lassen sich daraus sukzessive
(eindeutig) berechnen. Dabei müssen auch Basisvariable berücksichtigt werden, deren Wert Null ist.
Ist ~xB eine zulässige Basislösung, ~x eine beliebige zulässige Lösung, dann gilt für die Kosten
K(~x) =
=
m X
n
X
i=1 j=1
m X
n
X
kij xij =
m X
n
m
n
X
X
X
(kij − ui − vj )xij +
ui ai +
vj bj
i=1 j=1
∗
kij
xij + K0 =
i=1 j=1
= kij − ui − vj ,
Damit erhält man
j=1
∗
kij
xij + K0
i=1 j=1
xij Nicht-Basisvariable
mit
∗
kij
i=1
m X
n
X
K0 =
m
X
i=1
ui ai +
n
X
vj bj =
j=1
xij
m X
n
X
kij xij = K(~xB ).
i=1 j=1
Basisvariable
2. Lineare Optimierung
23
Satz 2.3.6 (Optimalitätskriterium) Sei ~xB eine zulässige Basislösung des Transportproblems mit
Kostenmatrix (kij ) und ui , vj Lösungen des linearen Gleichungssystems
ui + vj = kij ,
xij Basisvariable.
Sind alle Elemente der modifizierten Kostenmatrix
∗
kij
:= kij − ui − vj
nichtnegativ, dann ist ~xB eine optimale zulässige Basislösung und K(~xB ) Kostenminimum.
Wir fügen in unserem Beispiel die Potentiale in eine zusätzliche Spalte bzw. Zeile ein:
P1
T1
T2
T3
P3
P4
a
6
3
5
1
BV 30 BV 170
0
0
3
7
4
4
0 BV
20 BV 60 BV
10
5
2
3
1
0
0
0 BV 120
b
v
P2
30
6
190
3
60
0
130
u
0
200
4
90
1
.
120
410
0
∗ und tragen
Für die Felder der Nicht-Basisvariablen xij = 0 berechnen wir die modifizierten Kosten kij
diese Werte in die freien Felder des Schemas ein:
P1
T1
T2
T3
P3
P4
a
6
3
5 5
1
1
BV 30 BV 170
0
0
3 −7
7
4
4
0 BV
20 BV 60 BV
10
5 −2
2 −2
3 2
1
0
0
0 BV 120
b
v
P2
30
6
190
3
60
0
130
u
0
200
4
90
1
.
120
410
0
∗ gibt, ist die Anfangslösung (mit den Kosten
Da es Felder mit negativen modifizierten Kosten kij
K = 1230) also nicht optimal.
Zur Gewinnung einer verbesserten zulässigen Basislösung tauschen wir wie bei der Simplexmethode eine
∗ , gegen eine Basisvariable aus.
Nicht-Basisvariable, und zwar die Variable mit kleinstem kij
Sei xlk diese Nicht-Basisvariable.
Wir konstruieren nun einen Verschiebekreis, d.h. einen geschlossenen Weg, der aus Teilen in Zeilenbzw. Spaltenrichtung besteht und dessen Ecken (außer der Anfangsecke) Basislösungen sind:
2. Lineare Optimierung
24
Vom Ausgangsfeld F1 = (lk) wählt man in derselben Zeile (Spalte) eine Basisvariable xlj (bzw. xik )
im Feld F2 , die in ihrer Spalte (bzw. Zeile) eine weitere Basisvariable im Feld F3 hat. In F3 ändert
man wieder die Richtung zu einem Feld F4 usw. Nach endlich vielen Schritten kehrt man wieder zum
Ausgangsfeld F1 zurück, hat also einen geschlossenen Weg (Verschiebekreis) konstruiert.
Die Felder auf diesem Weg kennzeichnet man abwechselnd mit + und −, beginnend mit + für F1 . Weiter bestimmt man das kleinste xij der mit − gekennzeichneten Felder. Wir wollen diesen Wert mit x∗
bezeichnen.
Addiert man zu jedem xij in einem mit + gekennzeichneten Feld x∗ und subtrahiert von jedem xij in
einem mit − gekennzeichneten Feld x∗ , dann verändern sich weder die Zeilensummen noch die Spaltensummen. Die Nicht-Basisvariable xlk = 0 wird zur Basisvariablen xlk = x∗ und die Basisvariable in dem
mit − gekennzeichneten Feld mit xpq = x∗ wird zur Nicht-Basisvariablen xpq = 0.
Aus der Konstruktion ergibt sich, daß die Kosten für die neue Basislösung (im Falle x∗ > 0) kleiner
sind, daß man also eine bessere Basislösung gefunden hat.
Für unser Beispiel ergibt sich der Verschiebekreis
(21) → (22) → (12) → (11)
x∗ = 20,
und
also eine neue Basislösung
P1
T1
T2
T3
P2
P3
P4
a
6
3
5
1
BV 10 BV 190
0
0
3
7
4
4
BV 20
0 BV 60 BV
10
5
2
3
1
0
0
0 BV 120
b
30
190
60
130
u
200
90
.
120
410
v
∗ ergibt
mit den Kosten K = 1090. Neuberechnung der Potentiale und der kij
P1
T1
T2
T3
P3
P4
a
6
3
5 −2
1 −6
BV 10 BV 190
0
0
3
7
7
4
4
BV 20
0 BV 60 BV
10
5 5
2
5
3
2
1
0
0
0 BV 120
b
v
P2
30
6
190
3
60
7
130
u
0
200
90
120
−3
−6
.
410
7
Die Lösung ist also nicht optimal. Es ergibt sich der Verschiebekreis
(14) → (24) → (21) → (11) → (14)
und
x∗ = 10.
x14 wird Basisvariable und x24 oder x11 wird Nicht-Basisvariable. Wir wählen x24 als Nicht-Basisvariable
∗ die Lösung
und erhalten wieder mit Neuberechnung der Potentiale und kij
2. Lineare Optimierung
P1
T1
T2
T3
P2
P4
a
6
3
5 −2
1
BV
0 BV 190
0 BV
10
3
7
7
4
4
6
BV 30
0 BV 60
0
5 −1
2 −1
3 −4
1
0
0
0 BV 120
b
30
v
P3
6
190
3
60
7
130
25
u
0
200
90
−3
0
120
410
1
mit den Kosten K = 1030, die wieder nicht optimal ist. Es ergibt sich der Verschiebekreis
(33) → (34) → (14) → (11) → (21) → (23) → (33)
und
x∗ = 0.
x33 wird Basisvariable und x11 Nicht-Basisvariable. Wir erhalten mit Neuberechnung der Potentiale und
∗ die Lösung
kij
P1
T1
T2
T3
P3
P4
a
6
4
3
5 2
1
0 BV 190
0 BV
10
3
7
3
4
4
2
BV 30
0 BV 60
0
5 3
2 −1
3
1
0
0 BV
0 BV 120
b
v
P2
30
2
190
3
60
3
130
u
0
200
1
90
0
120
410
1
mit den Kosten K = 1030, die nicht optimal ist.
Es ergibt sich der Verschiebekreis
(32) → (34) → (14) → (12) → (32)
x∗ = 120.
und
x32 wird Basisvariable und x34 Nicht-Basisvariable. Wir erhalten mit Neuberechnung der Potentiale und
∗ die Lösung
kij
P1
T1
T2
T3
P3
P4
a
6
3
3
5 1
1
0 BV
70
0 BV 130
3
7
4
4
4
3
BV 30
0 BV 60
0
5 3
2
3
1
1
0 BV 120 BV
0
0
b
v
P2
30
3
mit den Kosten K = 910, die optimal ist.
190
3
60
4
130
1
u
0
200
0
90
120
410
−1
26
3
Funktionen mehrerer Variabler
3.1
Geometrische Veranschaulichung
In den Anwendungen treten meist Funktionen von mehreren reellen Variablen auf. Zum Beispiel hängt
die kinetische Energie E eines Körpers von seiner Masse m und seiner Geschwindigkeit v ab. Es gilt
E = 12 mv 2 . Rotiert der Körper zusätzlich um eine feste Achse, dann hängt E auch noch von der
Winkelgeschwindigkeit ω und dem Trägheitsmoment J des Körpers bezüglich dieser Achse ab, E ist also
Funktion der 4 Variablen m, v, ω und J. Wir wollen nun die bisherigen Überlegungen der Differentialund Integralrechnung auf solche Funktionen mehrerer Variabler übertragen.
Ein wichtiges Hilfsmittel zum Verständnis der Funktionen war ihr Bild in einem kartesischen Koordinatensystem, in dem die unabhängige Variable x und die abhängige Variable y = f (x) dargestellt werden.
Analog läßt sich eine Funktion f (x, y) zweier unabhängiger Variabler darstellen, indem man in den Raum
ein 3-dimensionales kartesisches Koordinatensystem (mit jeweils zueinander senkrechten) x-Achse, yAchse und z-Achse legt und die Funktion durch die Fläche“ {(x, y, z); z = f (x, y), (x, y) ∈ D} (mit
”
einer geeigneten Punktmenge D der (x, y)-Ebene) darstellt.
Allgemein bezeichnen wir die Menge aller geordneten Paare, Tripel oder allgemein n-Tupel, als 2-, 3bzw. n-dimensionalen reellen Raum IR2 , IR3 bzw. IRn . Der 2-dimensionale Raum heißt auch
Ebene.
n
Ein 
n-Tupel
 bezeichnen wir wieder als Vektor ~x = (x1 , x2 , . . . , xn ) im IR . Als Darstellung ist auch
x1
 x2 
 
~x =  .  üblich.
 .. 
xn
Mit der Abstandsdefinition kann man den Begriff der Umgebung verallgemeinern:
Uǫ (P0 ) := {P ∈ IRn ; |P − P0 | < ǫ}
heißt ǫ-Umgebung von P0 .
2
Eine ǫ-Umgebung von x~0 im IR ist also eine offene Kreisscheibe mit Mittelpunkt x~0 und Radius ǫ, eine
ǫ-Umgebung im IR3 die entsprechende offene Kugel.
In vielen Fällen beschreibt man Punktmengen im IRn durch Ungleichungen.
Beispiel 3.1.1
z
(1) Die Menge der Punkte
✻4
D1 :={(x, y, z) ∈ IR3 ; 1 ≤ x ≤ 3, 0 ≤ y ≤ 3,
1 ≤ z ≤ 4}
ist ein Quader. Die Randpunkte gehören zu der Menge, sie ist also abgeschlossen. Da der größte Abstand
von Punkten der Menge zum Nullpunkt kleiner als 6
ist, ist die Menge auch beschränkt.
1
1
x3
☛
y
③
3
3. Funktionen mehrerer Variabler
z
(2) Die Menge der Punkte
27
✻
4
Z :={(x, y, z) ∈ IR3 ; −R ≤ x ≤ R,
p
p
− R2 − x2 ≤ y ≤ R2 − x2 , 1 ≤ z ≤ 4}
ist ein gerader Kreiszylinder. Die Randpunkte gehören zu der Menge, sie ist also abgeschlossen. Da der größte Abstand
von Punkten
√
der Menge zum Nullpunkt nicht größer als 16 + R2 ist, ist die
Menge auch beschränkt.
1
✲
y
R
x✠
Das kartesische Koordinatensystem ist manchmal relativ ungeeignet zur Beschreibung von Flächen oder
Funktionen. Wir führen daher zwei weitere Möglichkeiten für ein Koordinatensystem ein:
z
P′
1. Jeder Punkt
der (x, y)-Ebene (außer dem Nullpunkt) läßt sich
umkehrbar eindeutig durch den Abstand r0 vom Nullpunkt und
den Winkel φ0 , den der Verbindungsstrahl vom Nullpunkt zu P ′
mit der positiven x-Achse einschließt und der von der x-Achse aus
gegen den Uhrzeigersinn gemessen wird, beschreiben. Damit kann
man jeden Punkt P des Raums mit den kartesischen Koordinaten (x0 , y0 , z0 ) (außer den Punkten der z-Achse) durch die drei
Zylinderkoordinaten r0 , φ0 und z0 beschreiben.
x0 = r0 · cos φ0 ,
Offensichtlich gilt
bzw.
q
r0 = x20 + y02
und
y0 = r0 · sin φ0 ,

y0

arctan


x0


π




2
y0
φ0 = arctan x + π
0



3π




2


y

arctan 0 + 2π
x0
z0
✻
❜P
y0
φ0
✣ r0
x0
✲
y
❜
x✢
P′
(0 ≤ r, 0 ≤ φ0 < 2π)
für x0 > 0, y0 > 0
für x0 = 0, y0 > 0
für x0 < 0
.
für x0 = 0, y0 < 0
für x0 > 0, y0 < 0
Betrachtet man nur die Ebene und ersetzt die kartesischen Koordinaten x und y durch r und φ,
dann nennt man die Koordinaten r, φ Polarkoordinaten.
Die Menge aller Punkte mit einem festen x-Wert, d.h. {(x, y, z); x = x0 , y, z ∈ IR}, ist eine Ebene
im Raum parallel zur (y, z)-Ebene. Analog gilt das für die Mengen mit festem y- bzw. z-Wert.
Bei Zylinderkoordinaten gilt: Die Mengen mit
• festem r-Wert r0 bilden einen nach oben und unten unbeschränkten geraden Kreiszylinder
mit Radius r0 und der z-Achse als Achse,
• festem φ-Wert φ0 eine Halbebene senkrecht zur (x, y)-Ebene durch die Gerade φ = φ0 , die
durch die z-Achse berandet wird.
3. Funktionen mehrerer Variabler
• festem z-Wert z0 eine Ebene parallel zur (x, y)-Ebene.
z
z
✻
z
✻
z0
r0
③
✲
y
✯
x✠
φ0
③
28
✻
✻
✲
y
✲
y
x✠
x✠
Beispiele 3.1.2
(1) Der Zylinder aus dem vorigen Beispiel wird in Zylinderkoordinaten beschrieben durch die
Ungleichungen
0 ≤ r ≤ R, 0 ≤ φ < 2π, 1 ≤ z ≤ 4.
z
(2) Legt man einen geraden Kreiskegel mit Grundkreisradius R
und Höhe h so, daß die Spitze im Ursprung liegt und die
Kegelachse gleich der z-Achse ist, dann wird er in Zylinderkoordinaten beschrieben durch
0 ≤ r ≤ R,
0 ≤ φ < 2π,
✻
h
h
· r ≤ z ≤ h.
R
x✠
2. Sei P ein beliebiger Punkt P des Raums (außer dem Nullpunkt)
und P ′ die Projektion auf die (x, y)-Ebene. P läßt sich umkehrbar eindeutig durch den Abstand r0 vom Nullpunkt, den
Winkel φ0 , den der Verbindungsstrahl vom Nullpunkt zu P ′
mit der positiven x-Achse einschließt und der von der x-Achse
aus gegen den Uhrzeigersinn gemessen wird, und den Winkel θ,
den der Strahl vom Nullpunkt zu P mit der positiven z-Achse
einschließt und der von der z-Achse aus in Richtung des Uhrzeigersinns gemessen wird, beschreiben. Damit kann man jeden
Punkt des Raums mit den kartesischen Koordinaten (x0 , y0 , z0 )
(außer dem Nullpunkt) durch die drei Kugelkoordinaten r0 ,
φ0 und θ0 beschreiben. Offensichtlich gilt
x0 = r0 · cos φ0 · sin θ0 ,
z
R
✲
y
✻
z0 ♣
θ0 ❫
r0
❜P
φ0 r sin θ
0
✣0
x0
x✢
y0 = r0 · sin φ0 · sin θ0 , z0 = r0 · cos θ0 ,
r0 cos θ0✲
y0
y
♣❜
P′
(0 ≤ r, 0 ≤ φ0 < 2π, 0 ≤ θ ≤ π)
3. Funktionen mehrerer Variabler
29
bzw.
q
r0 = x20 + y02 + z02 ,

y0

arctan


x0


π




2
y0
φ0 = arctan x + π
0



3π




2


y

arctan 0 + 2π
x0
für x0 > 0, y0 > 0
für x0 = 0, y0 > 0
für x0 < 0
,
θ0 = arccos
z0
.
r0
für x0 = 0, y0 < 0
für x0 > 0, y0 < 0
Oft wird der Winkel θ ersetzt durch den Winkel θ ∗ zwischen dem Verbindungsstrahl vom Nullpunkt
zu P und seiner Projektion. Dann gilt θ ∗ = π2 − θ und
x0 = r0 · cos φ0 · cos θ0∗ ,
y0 =r0 · sin φ0 · cos θ0∗ ,
z0 = r0 · sin θ0∗ ,
π
π
(0 ≤ r, 0 ≤ φ0 < 2π, − ≤ θ ∗ ≤ ).
2
2
Beispiel 3.1.3 Die Kugel mit Mittelpunkt im Nullpunkt und Radius R wird in Kugelkoordinaten
beschrieben durch die Ungleichungen
0 ≤ r ≤ R, 0 ≤ φ < 2π, 0 ≤ θ ≤ π.
Wir betrachten Funktionen f (x, y) zweier reeller Veränderlicher. Jedem Paar (x, y) ordnen wir einen
Punkt der (x, y)-Ebene in einem räumlichen kartesischen Koordinatensystem zu. Dann stellt die Menge
der Punkte
{(x, y, z); x, y ∈ IR, z = f (x, y)}
die Funktion grafisch dar. Man kann nun auf verschiedene Weise versuchen, diese Fläche durch eine
ebene Zeichnung zu beschreiben:
(1) Eine Darstellung durch Parameterlinien erhält man, wenn man auf der Fläche die Linien
{(x0 , y, z); y ∈ IR, z = f (x0 , y)} und {(x, y0 , z); x ∈ IR, z = f (x, y0 )} hervorhebt. Sie sind das
Bild des Netzes in der (x, y)-Ebene, das durch x = x0 bzw. y = y0 beschrieben wird. Dabei wählt
man die Werte der Parameter x0 und y0 möglichst mit festem Abstand.
(2) Schneidet man die Fläche mit der Ebene z = z0 , dann erhält man die zugehörige Höhenlinie
(oder Niveaulinie) als Menge aller Punkte (x, y, z0 ) im Raum mit f (x, y) = z0 . Die Projektion
einer Höhenlinie auf die (x, y)-Ebene heißt Isoquante. Wählt man für z0 Werte in gleichmäßigem
Abstand, dann erhält man eine relativ aussagefähige Darstellung der Fläche in der Ebene.
Analog zu der Darstellung durch die Isoquanten kann man die Fläche durch Schnitte parallel zu
den anderen Koordinatenebenen darstellen.
Für Funktionen mit 3 Veränderlichen ist die geometrische Darstellung schwieriger. Man kann sie sich
als Dichtefunktion oder Temperaturverteilung im Raum vorstellen. Den Höhenlinien entsprechen dann
die Niveauflächen {(x, y, z); f (x, y, z) = c}.
3. Funktionen mehrerer Variabler
3.2
30
Stetigkeit
Wir übertragen im folgenden Begriffe wie Stetigkeit, Ableitung und Integration auf Funktionen von n
Variablen. Dabei macht es begrifflich keinen großen Unterschied, ob man den Fall n = 2 oder n > 2
betrachtet. Wir formulieren die Definitionen daher wegen der einfacheren Darstellung meist nur für den
Fall n = 2.
Analog zur Stetigkeit von Funktionen einer Variablen erhält man:
Definition 3.2.1 Sei f eine Funktion von 2 reellen Variablen mit Definitionsgebiet D, (x̃, ỹ) ∈ D.
f heißt stetig in (x̃, ỹ), wenn für jede Folge von Paaren (xk , yk ) ∈ D mit
lim xk = x̃
k→∞
und
lim yk = ỹ
k→∞
die Zahlenfolge f (xk , yk ) gegen f (x̃, ỹ) konvergiert.
Ist f in jedem Punkt von D ′ ⊂ D stetig, dann heißt f stetig in D ′ .
Mit der Abstandsmessung in der Ebene ergibt sich als äquivalente Definition:
Satz 3.2.2 Sei f eine Funktion von 2 reellen Variablen mit Definitionsgebiet D, (x̃, ỹ) ∈ D.
f ist stetig in (x̃, ỹ) genau dann, wenn es für jedes ǫ > 0 ein δ > 0 gibt, so daß für alle (x, y) ∈ D mit
(x, y) − (x̃, ỹ) < δ gilt
f (x, y) − f (x̃, ỹ) < ǫ.
Für die stetigen Funktionen mehrerer Variabler gilt analog zu den Funktionen einer Variablen:
Satz 3.2.3
(a) Summe, Produkt und Vielfache von stetigen Funktionen sind stetig.
Sind die Funktionen f und g in (x̃, ỹ) stetig und gilt g(x̃, ỹ) 6= 0, dann ist der Quotient
stetig.
f
in (x̃, ỹ)
g
(b) Liegen die Funktionswerte der Funktion f (x, y) im Intervall I ⊂ IR, ist g : I → IR eine reellwertige
Funktion einer Variablen und ist f stetig in (x̃, ỹ), g stetig in f (x̃, ỹ), dann ist g ◦ f stetig in (x̃, ỹ).
(c) Ist A eine abgeschlossene und beschränkte Teilmenge des Definitionsgebietes von f und ist f in A
stetig, dann hat f dort ein Minimum und ein Maximum, d.h. es gibt (x1 , y1 ), (x2 , y2 ) ∈ A mit
f (x1 , y1 ) ≤ f (x, y) ≤ f (x2 , y2 )
für alle
(x, y) ∈ A.
Beispiel 3.2.4
(1) f (x, y) := x und g(x, y) := y sind in (x̃, ỹ) für alle x̃, ỹ ∈ IR stetig.
Eine Funktion
X
f (x, y) :=
aij xi y j
0≤i≤m
0≤j≤n
heißt Polynom in den Variablen x und y.
Jedes Polynom von n Variablen ist in seinem Definitionsgebiet stetig.
Analog überträgt man den Begriff der gebrochen rationalen Funktion auf den Fall mehrerer Variabler. Eine gebrochen rationale Funktion mehrerer Variabler ist in allen Punkten stetig, in denen
der Nenner nicht Null wird.
3. Funktionen mehrerer Variabler

y 2 sin 1
x
(2) Die Funktion f (x, y) :=
0
(3) Sei

 x·y
f (x, y) := x2 + y 2
0
für x 6= 0
für x = 0
31
ist für kein y0 6= 0 in (0, y0 ) stetig.
für (x, y) 6= (0, 0)
.
für (x, y) = (0, 0)
Für festes x0 ∈ IR bzw. y0 ∈ IR sind die Funktionen g(x) := f (x, y0 ) bzw. h(y) := f (x0 , y) in IR
stetig, aber f ist in (0, 0) nicht stetig.
3.3
Partielle und totale Differenzierbarkeit
Wir betrachten ein kartesisches Koordinatensystem im Raum und eine Fläche, die durch eine Funktion
f (x, y) beschrieben wird. Wir wollen die Steigungen der Fläche in einem Punkt (x0 , y0 ) bestimmen.
Offensichtlich ist die Steigung davon abhängig, in welche Richtung man sich bewegt. Zwei der Richtungen
sind von besonderer Wichtigkeit:
z
fx
✻
fy
Die Parallelebene y = y0 zur (x, z)-Ebene im Abstand
y0 schneidet aus der Fläche eine Kurve heraus, die
in dieser Ebene durch die Funktion g(x) := f (x, y0 )
beschrieben wird. Ist g(x) im Punkt (x0 , y0 ) differenzierbar, dann gibt also g′ (x0 ) die Steigung (oder das
Gefälle) der Fläche in x-Richtung an.
❜
P0
y0
Analoges gilt für den Schnitt der Fläche mit der Ebene
x = x0 .
✲
y
x0
x✠
Definition 3.3.1 Sei f (x, y) eine im Gebiet D ⊂ IR2 definierte Funktion und P0 = (x0 , y0 ) ∈ D.
f heißt in P0 nach x partiell differenzierbar , wenn die Funktion g(x) := f (x, y0 ) in x0 differenzierbar ist, d.h. wenn
fx (x0 , y0 ) :=
∂f
f (x0 + h, y0 ) − f (x0 , y0 )
(x0 , y0 ) := lim
h→0
∂x
h
existiert. fx (x0 , y0 ) heißt die partielle Ableitung von f nach x in (x0 , y0 ).
Bemerkungen 3.3.2
(1) Analog definiert man die partielle Ableitung einer Funktion von n Variablen nach der Variablen
xk im Punkt x~0 durch
fxk (x~0 ) :=
∂f
f (x~0 + h · e~k ) − f (x~0 )
(x~0 ) := lim
.
h→0
∂xk
h
(2) Ist f nach jeder Variablen partiell differenzierbar, dann nennt man f partiell differenzierbar.
3. Funktionen mehrerer Variabler
32
(3) Da die partielle Ableitung eigentlich eine Ableitung einer Funktion einer Variablen ist, gelten
natürlich die entsprechenden Rechenregeln.
Beispiel 3.3.3
(1) Die Funktion f (x, y, z) := (x2 + y 3 )2 + cos(2x + 3z) + eyz hat in IR3 die partiellen Ableitungen
fx = 4x(x2 + y 3 ) − 2 sin(2x + 3z),
 x·y

(2) Die Funktion f (x, y) := x2 + y 2
0

2
2
 y · (y − x )
(x2 + y 2 )2
fx (x, y) :=

0
fy = 6y 2 (x2 + y 3 ) + zeyz , fz = −3 sin(2x + 3z) + yeyz .
für (x, y) 6= (0, 0)
hat in IR2 die partiellen Ableitungen
für (x, y) = (0, 0)
für (x, y) 6= (0, 0)
für (x, y) = (0, 0)
,

2
2
 x · (x − y )
(x2 + y 2 )2
fy (x, y) :=

0
für (x, y) 6= (0, 0)
.
für (x, y) = (0, 0)
Obwohl beide partiellen Ableitungen auch in (0, 0) existieren, ist f in (0, 0) nicht stetig.
Existiert für eine Funktion f (x1 , . . . , xn ) von n Variablen eine partielle Ableitung nach einer Variablen
xk in einem Gebiet, und ist die Ableitungs-Funktion fxk (x1 , . . . , xn ) wieder nach einer Variablen xl
partiell differenzierbar, dann heißt deren Ableitung partielle Ableitung 2. Ordnung von f und wird
mit
∂2f
bzw.
f xk xl
∂xk ∂xl
bezeichnet.
Analog erhält man partielle Ableitungen 3., 4. bzw. n-ter Ordnung.
Beispiel 3.3.4 Die Funktion f (x, y, z) := (x2 + y 3 )2 + cos(2x + 3z) + eyz hat in IR3 die partiellen
Ableitungen 2. Ordnung
fxx = 12x2 + 4y 3 − 4 cos(2x + 3y),
fxy = 12xy 2 ,
fyx = 12xy ,
fyy = 12x y + 30y + z e ,
fzx = −6 cos(2x + 3z),
fzy = eyz + yzeyz ,
2
2
4
2 yz
fxz = −6 cos(2x + 3z),
fyz = eyz + yzeyz ,
fzz = −9 cos(2x + 3z) + y 2 eyz .
Die Gleichheit der gemischten“ 2. Ableitungen ist kein Zufall, denn es gilt
”
Satz 3.3.5 (Schwarz) Sind f , fx , fy , fxy und fyx in einer Umgebung von (x0 , y0 ) definiert und die
letzten beiden in (x0 , y0 ) stetig, dann gilt
fxy (x0 , y0 ) = fyx (x0 , y0 ).
Wir nannten eine Funktion f (x) differenzierbar in einem Punkt, wenn ihr Graph dort eine Tangente
y = g(x) besaß. Das war gleichbedeutend damit, daß bei kleinen Änderungen von x die Werte von f
und g sich nur wenig unterschieden.
Jede differenzierbare Funktion war auch stetig.
Die Eigenschaft partiell differenzierbar“ kann schon deshalb keine vernünftige Verallgemeinerung sein,
”
weil es partiell differenzierbare Funktionen gibt, die nicht stetig sind.
3. Funktionen mehrerer Variabler
33
Definition 3.3.6 Sei D ⊂ IR2 ein Gebiet, f auf D definiert und (x0 , y0 ) ∈ D.
f heißt in (x0 , y0 ) (vollständig) differenzierbar , wenn es a, b ∈ IR gibt mit
f (x, y) =f (x0 , y0 ) + a · (x − x0 ) + b · (y − y0 ) + ǫ1 (x, y) · (x − x0 ) + ǫ2 (x, y) · (y − y0 )
und x→x
lim ǫi (x, y) = 0,
i = 1, 2.
0
y→y0
Bemerkung 3.3.7 f ist (vollständig) differenzierbar in (x0 , y0 ), wenn es eine lineare Funktion g durch
f (x0 , y0 ) gibt mit
f (x, y) =g(x, y) + ǫ1 (x, y) · (x − x0 ) + ǫ2 (x, y) · (y − y0 )
und x→x
lim ǫi (x, y) = 0,
0
i = 1, 2.
y→y0
Durch
g(x, y) := f (x0 , y0 ) + a · (x − x0 ) + b · (y − y0 )
wird die Tangentialebene an die Fläche zu f im Punkt x0 , y0 , f (x0 , y0 ) beschrieben.
Folgerungen 3.3.8
(1) Ist f in (x0 , y0 ) differenzierbar, dann ist f dort auch partiell differenzierbar, und es gilt
a = fx (x0 , y0 ),
b = fy (x0 , y0 ).
(2) Ist f in (x0 , y0 ) differenzierbar, dann ist f dort auch stetig.
Beispiel 3.3.9 Die Funktion f (x, y) := 2x2 + y 2 beschreibt einen Kegel mit Spitze im Ursprung. Die
Schnitte mit den Ebenen z = z0 , z0 > 0, sind Ellipsen. Mit
fx (x0 , y0 ) = 4x0 ,
fy (x0 , y0 ) = 2y0
erhält man
also
ǫ1 (x, y)(x − x0 ) + ǫ2 (x, y)(y − y0 ) = f (x, y) − f (x0 , y0 ) − fx (x0 , y0 )(x − x0 ) − fy (x0 , y0 )(y − y0 )
= 2(x − x0 ) (x − x0 ) + y − y0 (y − y0 ),
ǫ1 (x, y) = 2(x − x0 ) → 0,
ǫ2 (x, y) = y − y0 → 0
für x → x0 ,
y → y0 .
Nach Folgerung 3.3.8(1) ist eine vollständig differenzierbare Funktion auch partiell differenzierbar.
Die Umkehrung gilt i.a. nicht, denn jede vollständig differenzierbare Funktion ist stetig, aber nicht jede
partiell differenzierbare Funktion.
Es gilt aber
Satz 3.3.10 Sei D ⊂ IR2 ein Gebiet, f auf D definiert, in D partiell differenzierbar und alle partiellen
Ableitungen seien in D stetig.
Dann ist f in D vollständig differenzierbar.
3. Funktionen mehrerer Variabler
34
Ist eine Funktion f in einem Gebiet D partiell differenzierbar und sind alle partiellen Ableitungen in D
stetig, dann heißt f in D stetig differenzierbar.
Beispiel 3.3.11 Die Funktion f (x, y) := 2x2 + xy 2 hat die in IR2 stetigen partiellen Ableitungen
fx (x, y) = 4x + y 2 ,
fy (x, y) = 2xy
und im Flächenpunkt 3, −1, f (3, −1) = 3, −1, 21 die Tangentialebene mit der Gleichung
z = 21 + 13(x − 3) − 6(y + 1) = 13x − 6y − 24.
Bei Messungen von Größen treten in der Regel Fehler auf, sei es durch Ungenauigkeit der Meßinstrumente, Beobachtungsfehler oder aus anderen Gründen.
Nach der Messung kennt man weder den Fehler ǫ noch den wahren Wert x0 , sondern nur den Meßwert
x.
Durch mehrmalige Messung erhält man Schätzwerte für die maximale Abweichung dx > 0 der Meßwerte
nach oben oder unten, d.h. es gilt x − dx ≤ x0 ≤ x + dx.
dx
dx heißt absoluter (maximaler) Fehler und
relativer (maximaler) Fehler.
x
Da der relative Fehler die Größe des Meßwertes x mitberücksichtigt, ist er zur Beurteilung der Genauigkeit besser geeignet. Ist f (x, y) eine in einem Gebiet D definierte Funktion, dann haben ungenaue
Werte der Variablen Auswirkungen auf den Funktionswert.
Ist f in D differenzierbar und sind x und y die Meßwerte, dx und dy die absoluten Fehler, dann ergibt
sich für die maximale Abweichung der Funktionswerte
df (x0 , y0 ) := f (x, y) − f (x0 , y0 ) ≈ fx (x, y) · dx + fy (x, y) · dy ≤ fx (x, y) · dx + fy (x, y) · dy.
Analog ergibt sich für Funktionen von n Variablen
n X
df (x~0 ) := f (~x) − f (x~0 ) ≈
fxk (~x) · dxk .
k=1
Die rechte Seite ist ein Schätzwert für den absoluten Fehler von f .
Beispiel 3.3.12 Für einen geraden Kreiszylinder mit Masse m, Höhe h und Radius r ergeben sich
folgende Meßwerte:
m = (89 ± 0, 3)g, h = (89 ± 0, 1)mm, r = (45 ± 0, 1)mm.
m
ist für r 6= 0, h 6= 0 stetig differenzierbar mit den partiellen
Die Dichtefunktion σ(m, h, r) :=
πr 2 h
Ableitungen
1
−m
−2m
σm = 2 , σh = 2 2 , σr =
.
πr h
πr h
πr 3 h
Mit m = 89, h = 89, r = 45, dm = 0, 3, dh = dr = 0, 1 ergibt sich für den absoluten Fehler als
Schätzwert
dσ(m, h, r) = σm (m, h, r) · dm + σh (m, h, r) · dh + σr (m, h, r) · dr
dm dh
dr
0, 3 0, 1
0, 1
−4
= σ(m, h, r)
+
+2
= 1, 5719 · 10 ·
+
+2
m
h
r
89
89
45
= 1, 41 · 10−3 g/cm3 .
Für den relativen Fehler ergibt sich als Schätzwert
dσ(m, h, r)
= 0, 89%.
σ(m, h, r)
3. Funktionen mehrerer Variabler
35
Definition 3.3.13 Sei D ⊂ IRn ein Gebiet, f auf D definiert und differenzierbar und P0 = x~0 ∈ D.
Die in einer Umgebung von ~0 definierte Funktion
df (x~0 , h1 , . . . , hn ) :=
n
X
k=1
fxk (x~0 ) · hk
heißt totales Differential von f in P0 .
Die Funktion
xy
+ y2
läßt sich in Polarkoordinaten einfacher beschreiben. Es gilt nämlich
f (x, y) =
f (x, y) =
x2
1
sin(2φ).
2
Um die partiellen Ableitungen nach x bzw. y zu berechnen, würde man gern diese einfache Form bzw.
die partiellen Ableitungen nach r und φ benutzen.
Satz 3.3.14 (Kettenregel) Sei D ⊂ IRn ein Gebiet, f (~x) in D definiert und differenzierbar. Sind die
xk differenzierbare Funktionen von u1 , . . . , um , dann gilt
n
X
∂f ~x(u1 , . . . um )
∂f ∂xk
=
·
.
∂uj
∂xk ∂uj
k=1
Formal entsteht
∂f
durch Division“ des vollständigen Differentials von f durch ∂uj .
”
∂uj
Die partiellen Ableitungen einer differenzierbaren Funktion f (x, y) geben nur die Steigung von Tangenten an die Fläche an, die in Parallelebenen zu den Koordinatenebenen liegen.
Wir betrachten nun eine beliebige Gerade g in der (x, y)-Ebene durch den Punkt P0 = (x0 , y0 ) mit
Richtungsvektor (a1 , a2 ), d.h. mit der Parameterdarstellung (x, y) = (x0 , y0 ) + t(a1 , a2 ), t ∈ IR.
Der Schnitt der zur (x, y)-Ebene senkrechten Ebene E durch g schneidet die Tangentialebene von f in
einer Geraden, die Tangente an den Schnitt der Ebene E mit der Fläche ist.
Die Steigung dieser Tangenten gibt also die Steigung bzw. das Gefälle der Fläche in der entsprechenden
Richtung wieder.
Definition 3.3.15 Sei D ⊂ IR2 ein Gebiet, f auf D definiert und in (x0 , y0 ) ∈ D vollständig differenzierbar. Weiter sei ~a = (a1 , a2 ) 6= (0, 0). Dann heißt
∂f
f (x0 + ta1 , y0 + ta2 ) − f (x0 , y0 )
(x0 , y0 ) := lim
t→0
∂~a
t · |~a|
Richtungsableitung von f in Richtung ~
a.
Faßt man die Werte der partiellen Ableitungen von f in (x0 , y0 ) in dem Vektor
grad f (x0 , y0 ) := fx (x0 , y0 ), fy (x0 , y0 ) ,
dem Gradienten von f an der Stelle (x0 , y0 ),
zusammen, dann folgt aus der Kettenregel
∂f
1
1
(x0 , y0 ) = p 2
f
(x
,
y
)
·
a
+
f
(x
,
y
)
·
a
=
~a · grad f (x0 , y0 ).
x
0
0
1
y
0
0
2
2
∂~a
|~
a
|
a1 + a2
3. Funktionen mehrerer Variabler
36
Bemerkungen 3.3.16
(1) Für das Skalarprodukt zweier Vektoren im IRn gilt die Schwarzsche Ungleichung
~a · ~b ≤ ~a · ~b.
Daraus folgt, daß die Fläche in Richtung von grad f (x0 , y0 ) den größten Anstieg hat und in Gegenrichtung das größte Gefälle.
∂f
(x~0 ) = fxk (x~0 ), die partiellen Ableitungen sind also spezielle Richtungsableitun(2) Für ~a = e~k ist
∂~a
gen.
(3) Ist ~a zu grad f (x~0 ) orthogonal, dann ist die Ableitung von f in Richtung ~a Null, d.h. f ändert sich
in dieser Richtung nicht. ~a ist Tangentenvektor an eine Höhenlinie.
Man kann allgemein beweisen, daß der Gradientenvektor auf jeder Höhenlinie senkrecht steht.
Beispiel 3.3.17 Die in IR2 vollständig differenzierbare Funktion f (x, y) := xy + x2 hat im Punkt
P = (1, 2) den Gradienten (4, 1). Als Richtungsableitungen ergeben sich für
a~1 = (1, 1) :
a~2 = (2, 1) :
a~3 = (3, 1) :
a~4 = (4, 1) :
a~5 = (5, 1) :
−a~4 = (4, 1) :
∂f
∂ a~1
∂f
∂ a~2
∂f
∂ a~3
∂f
∂ a~4
∂f
∂ a~5
∂f
∂(−a~1 )
=
=
=
=
=
=
1√
2 (1 · 4 + 1 · 1) = 3, 5355 . . . ,
2
1√
5 (2 · 4 + 1 · 1) = 4, 0249 . . . ,
5
1√
10 (3 · 4 + 1 · 1) = 4, 1109 . . . ,
10
1√
17 (4 · 4 + 1 · 1) = 4, 1231 . . . ,
17
1√
26 (5 · 4 + 1 · 1) = 4, 1184 . . . ,
26
1√
17 (−4 · 4 − 1 · 1) = −4, 1231 . . . .
17
Der größte Anstieg ist in Richtung von a~4 , das größte Gefälle in Richtung −a~4 .
3.4
Extrema von Funktionen mehrerer Variabler
Wie bei Funktionen einer Variablen definiert man absolute und relative Maxima, Minima, Extrema und
Extremalstellen von Funktionen mehrerer Variablen.
Ist eine Funktion f (x, y) differenzierbar, d.h. hat sie in (x0 , y0 ) eine Tangentialebene, dann kann (x0 , y0 )
nur dann relative Extremalstelle sein, wenn die Tangentialebene parallel zur (x, y)-Ebene ist, also die
Ableitung in jeder Richtung Null ist.
Es ergibt sich damit als Verallgemeinerung der notwendigen Bedingung für das Vorliegen einer relativen
Extremalstelle:
Satz 3.4.1 Sei D ∈ IRn ein Gebiet, x~0 ∈ D und f (~x) in D definiert und in x~0 differenzierbar.
Ist x~0 relative Extremalstelle von f , dann gilt
grad f (x~0 ) = 0.
3. Funktionen mehrerer Variabler
37
Bemerkung 3.4.2 Die Punkte x~0 mit grad f (x~0 ) = ~0 heißen stationäre Punkte.
Beispiel 3.4.3 Die Funktion
f (x, y) := 2x3 − 3x2 + y 2
ist in IR2 definiert und stetig differenzierbar mit den partiellen Ableitungen
fx = 6x2 − 6x,
fy = 2y.
Die notwendige Bedingung für relative Extremalstellen erfüllen nur die zwei (stationären) Punkte (0, 0)
und (1, 0) mit f (0, 0) = 0 und f (1, 0) = −1.
Untersuchung von (0, 0):
Für alle Punkte (x, 0) der x-Achse mit −1 < x < 1 gilt f (x, 0) < 0 und für alle Punkte (0, y) der y-Achse
mit y 6= 0 gilt f (0, y) > 0.
(0, 0) ist also keine relative Extremalstelle.
Untersuchung von (1, 0):
Wir führen wir (etwas veränderte) Polarkoordinaten ein durch x = 1 + r cos φ, y = r sin φ.
Eine ǫ-Umgebung von (1, 0) hat dann die Darstellung {(r, φ); 0 < r < ǫ, 0 ≤ φ < 2π} und es gilt
f (x, y) = −1 + r 2 · 1 + 2 cos2 φ · (1 + r cos φ) .
Für 0 < r < 1 ist f (x, y) > −1, d.h. f hat bei (1, 0) ein relatives Minimum.
Für eine Funktion f (x) einer Variablen gilt: x0 ist relativer Extremwert, wenn
f ′ (x0 ) = 0 (notw. Beding.)
und
f ′′ (x0 ) 6= 0 (hinreich. Beding.).
Die zu der hinreichenden Bedingung analoge Bedingung für Funktionen mehrerer Variabler ist nicht so
einfach zu formulieren.
Für Funktionen zweier Variabler gilt
Satz 3.4.4 Sei D ∈ IR2 ein Gebiet, (x0 , y0 ) ∈ D und f (x, y) in D definiert und in x0 , y0 ) zweimal stetig
differenzierbar. Weiter sei fx (x0 , y0 ) = fy (x0 , y0 ) = 0 und
Dann gilt:
2
D := fxx (x0 , y0 ) · fyy (x0 , y0 ) − fxy (x0 , y0 ) .
(a) Ist D > 0 und fxx (x0 , y0 ) < 0 (bzw. fyy (x0 , y0 ) < 0), dann hat f in (x0 , y0 ) ein relatives Maximum.
(b) Ist D > 0 und fxx (x0 , y0 ) > 0 (bzw. fyy (x0 , y0 ) > 0), dann hat f in (x0 , y0 ) ein relatives Minimum.
(c) Ist D < 0, dann hat f in (x0 , y0 ) ein kein relatives Extremum, sondern einen Sattelpunkt.
(d) Ist D = 0, dann kann man ohne weitere Untersuchung keine Aussage über das Vorliegen einer
relativen Extremalstelle machen.
3. Funktionen mehrerer Variabler
38
Bemerkung 3.4.5 Für Funktionen von 3 oder mehr Variablen muß man (neben dem Gradienten) die
Haupt-Unterdeterminanten der Hesse-Matrix


f x1 x1 f x1 x2 . . . f x1 xn
 f x2 x1 f x2 x2 . . . f x2 xn 


 . . . . . . . . . . . . . . . . . . . . . . . .
f xn x1 f xn x2 . . . f xn xn
untersuchen. Sind nämlich alle Determinanten
f x1 x1 ,
fx1 x1 fx1 x2 fx x fx x ,
2 1
2 2
f x1 x1
f x2 x1
fx x
3 1
fx1 x2 fx1 x3 fx2 x2 fx2 x3 ,
f x3 x2 f x3 x3 usw.
an der Stelle x~0 positiv, dann hat f dort ein relatives Minimum, und wenn diese Determinanten abwechselnd positiv und negativ sind, ein relatives Maximum.
Beispiel 3.4.6
(1) Die Funktion
f (x, y) := 3x2 y + 4y 3 − 3x2 − 12y 2 + 1
hat die partiellen Ableitungen
fy = 3(x2 + 4y 2 − 8y)
fx = 6x(y − 1),
und damit die stationären Punkte (0, 0), (0, 2), (±2, 1).
Die partiellen Ableitungen 2. Ordnung sind
f xx = 6(y − 1),
fyy = 24(y − 1)
fxy = fyx = 6x,
und damit ergibt sich
D = 144(y − 1)2 − 36x2 .
f hat also in (0, 0) ein relatives Maximum, in (0, 2) ein relatives Minimum und in den anderen
beiden Punkten Sattelpunkte.
(2) Ausgleichsrechnung: Man geht davon aus, daß zwischen 2 Größen x und y ein linearer Zusammenhang y = g(x) = ax + b besteht.
Um a und b zu bestimmen, hat man n Meßpunkte Pk = (xk , yk ), 1 ≤ k ≤ n, die aber nicht auf
einer Geraden liegen.
Gesucht ist also jetzt eine Gerade, die möglichst wenig Abstand zu den Meßpunkten hat, für die
f (a, b) :=
n
X
k=1
g(xk ) − yk
2
=
n
X
k=1
axk + b − yk
2
möglichst klein wird, d.h. ein absolutes Minimum annimmt. Die Gerade heißt Ausgleichsgerade.
Es gilt
"
#
n
n
n
n
X
X
X
X
fa = 2 ·
xk axk + b − yk = 2 a ·
x2k + b ·
xk −
xk y k ,
fb = 2 ·
k=1
n
X
k=1
"
axk + b − yk = 2 a ·
k=1
n
X
k=1
k=1
n
X
xk + b · n −
k=1
k=1
#
yk .
3. Funktionen mehrerer Variabler
Für die stationären Punkte ergibt sich
!
n
n
X
X
n·
xk y k −
xk ·
k=1
a=
k=1
n·
n
X
k=1
x :=
1X
xk ,
n
sxy :=
k=1
k=1
xk
!2
yk
!
,
1
b=
n
n
X
k=1
yk − a ·
n
X
xk
k=1
!
.
n
y :=
k=1
v
u
u
sx :=t
n
X
x2k −
n
Seien
n
X
39
1X
yk die arithmetischen Mittel der Meßwerte und
n
k=1
n
1 X
(xk − x)2
n−1
die Standardabweichung der xk ,
k=1
n
1 X
(xk − x)(yk − y) die Kovarianz der Meßpunkte.
n−1
k=1
sxy
,
b = y − ax,
s2x
und die Ausgleichsgerade y = a · (x − x) + y geht durch (x, y). Da sx nur dann Null wird, wenn
alle xk gleich sind (was sinnlos wäre), sind a und b und damit die Ausgleichsgerade eindeutig
bestimmt.
Dann gilt
a=
Extremwerte mit Nebenbedingungen:
Sucht man einen Körper mit maximalem Volumen, dessen Oberfläche vorgegeben ist, oder will man aus
einem kreisrunden Baumstamm einen rechteckigen Balken ausschneiden, dessen Widerstandsmoment
möglichst groß ist, dann hat man Nebenbedingungen zu berücksichtigen.
Man kann versuchen, die Nebenbedingungen jeweils nach einer Variablen aufzulösen und damit eine
Funktion (mit weniger Variablen) zu konstruieren, die die Nebenbedingungen erfüllt und deren Extremwerte zu bestimmen sind.
Eine andere Methode ist mit Hilfe der Lagrange-Funktion:
Satz 3.4.7 (Lagrangesche Multiplikationsregel) Sei D ⊂ IRn ein Gebiet, f, g1 , . . . , gm seien auf D
definierte und stetig differenzierbare Funktionen und A := {~x ∈ D; gl (~x) = 0, 1 ≤ l ≤ m, }.
Ist x~0 ∈ A Extremstelle von f eingeschränkt auf A, dann gilt für x~0 das folgende Gleichungssystem
m
X ∂gl
∂f
(x~0 ) +
λl
(x~0 ) = 0,
∂xk
∂xk
l=1
gl (x~0 ) = 0,
1 ≤ k ≤ n,
1 ≤ l ≤ m,
wobei die λl reelle Zahlen sind.
Bemerkung 3.4.8 Die λl heißen Lagrangesche Multiplikatoren, die Funktion
F (x1 , . . . , xn , λ1 , . . . , λm ) := f (x1 , . . . , xn ) +
m
X
l=1
λl gl (x1 , . . . , xn )
3. Funktionen mehrerer Variabler
40
Lagrange-Funktion.
Die Bestimmung der relativen Extremwerte von f unter den Nebenbedingungen gl = 0 ist also gleichbedeutend mit der Bestimmung der relativen Extremwerte der zugehörigen Lagrange-Funktion.
Beispiel 3.4.9 Gesucht sind die Punkte im 3-dimensionalen Raum, die vom Ursprung den Abstand 1
haben, auf der Ebene x + y + z = 0 liegen und von der z-Achse maximalen bzw. minimalen Abstand
haben:
Ein Punkt (x, y, z) hat vom Ursprung Abstand 1, wenn die Bedingung
g1 (x, y, z) := x2 + y 2 + z 2 − 1 = 0
erfüllt ist. Er liegt auf der Ebene, wenn die Bedingung
g2 (x, y, z) := x + y + z = 0
erfüllt ist.
Der Abstand zur z-Achse ist gegeben durch
p
f (x, y, z) := x2 + y 2 .
Man erhält damit die Lagrange-Funktion
F (x, y, z, λ1 , λ2 ) := f + λ1 g1 + λ2 g2 .
Als Gleichungssystem ergibt sich
x
p
+ 2λ1 x + λ2 = 0
x2 + y 2
y
p
+ 2λ1 y + λ2 = 0
x2 + y 2
2λ1 z + λ2 = 0
2
2
x + y + z2 − 1 = 0
x+y+z =0
Als in Frage kommende Punkte ergeben sich aus dem Gleichungssystem die Punkte
P1,2 = ±
Es gilt
1√
1√ 2, ∓ 2, 0 ,
2
2
P3,4 = ±
1√
1√
1√ 6, ± 6, ∓ 6 .
6
6
3
1√
3.
3
Die Menge A ist gleich dem Schnitt von Kugel und Ebene, also eine Kreislinie.
Es ist anschaulich klar, daß es auf diesem Kreis (mindestens) je einen Punkt mit minimalem und
maximalem Abstand zur z-Achse gibt. Diese Punkte müssen relative Extremwerte sein, d.h. bei P1 , P2
liegen relative Maxima und bei P3 , P4 relative Minima.
f (P1,2 ) = 1,
f (P3,4 ) =
3. Funktionen mehrerer Variabler
3.5
41
Implizite Funktionen
Die Höhenlinie einer Funktion F (x, y) ist die Menge aller Punkte (x, y), für die die Funktion denselben
Wert annimmt, also für die F (x, y) = c gilt.
Wir wollen nun untersuchen, unter welchen Voraussetzungen man diese Menge durch eine Funktion
y = f (x) beschreiben kann, d.h. wann man die Gleichung nach y auflösen kann.
Weiter möchte man bestimmte Eigenschaften dieser Funktion f (x) aus Eigenschaften von F herleiten,
ohne sie vorher berechnet zu haben, wie z.B. Stetigkeit, Differenzierbarkeit und Wert der Ableitung.
Existiert f , dann heißt f die durch F (x, y) = c bestimmte implizite Funktion.
Natürlich kann man sich auf Gleichungen mit c = 0 beschränken, denn sonst ersetzt man F durch
F ∗ (x, y) := F (x, y) − c.
Gibt es keine durch F (x, y) = 0 definierte implizite Funktion y = f (x), dann sucht man nach einer
impliziten Funktion x = g(y).
Beispiele 3.5.1
2
kann man eindeutig nach y = f (x) = − x2 auflösen.
3
Die durch die Funktion F (x, y) = 2x2 + 3y beschriebene Fläche schneidet die (x, y)-Ebene in einer
Kurve, die durch f (x) beschrieben werden kann.
√
2. Die Gleichung x2 − y 2 + 1 = 0 ergibt zwei Lösungen y1,2 = ± x2 + 1, also keine eindeutig
bestimmte implizite Funktion.
Die durch die Funktion F (x, y) = x2 − y 2 − 1 beschriebene Fläche schneidet die (x, y)-Ebene in
einer Kurve, die durch zwei Funktionen f1,2 (x) beschrieben werden kann.
1. Die Gleichung
2x2 + 3y = 0
3. Die Gleichung x2 + y 2 + 1 = 0 hat in IR keine Lösung, definiert also keine implizite Funktion.
Die durch die Funktion F (x, y) = x2 + y 2 + 1 beschriebene Fläche schneidet die (x, y)-Ebene nicht.
Satz 3.5.2 (über implizite Funktionen) Sei D ⊂ IR2 ein Gebiet, (x0 , y0 ) ∈ D, F (x, y) auf D definiert, nach y partiell differenzierbar mit Fy (x, y) 6= 0 in D und F (x0 , y0 ) = 0. Dann gilt:
(a) Es gibt ein offenes Intervall (a, b) mit x0 ∈ (a, b), so daß für alle x ∈ (a, b) die Gleichung
F (x, y) = 0 genau eine Lösung y = f (x) hat.
Die Funktion f (x) ist in (a, b) stetig.
(b) Ist F (x, y) in D stetig differenzierbar, dann
ist f (x) in (a,
b) ′ differenzierbar und für alle x ∈ (a, b)
gilt
Fx x, f (x) + Fy x, f (x) · f (x) = 0.
Beispiel 3.5.3
F (x, y) := x2 + ex yey ist in IR2 definiert und in (0, 0) Null.
Weiter ist F nach y partiell differenzierbar mit Fy = ex ey (1 + y).
Fy (x, y) 6= 0 für y 6= −1, d.h. es gibt eine Umgebung D von (0, 0) mit Fy 6= 0.
Damit gibt es ein Intervall (a, b) mit a < 0, b > 0 und eine Funktion f (x) mit F x, f (x) = 0 für alle
x ∈ (a, b).
Man kann aber f und (a, b) nicht unmittelbar explizit bestimmen.
Da F stetig differenzierbar ist mit Fx = 2x + ex yey , gilt
2x + ex yey
f ′ (x) = x y
.
e e (1 + y)
Z.B. für x = 0 ist y = f (0) = 0 und es gilt f ′ (0) = 0.
3. Funktionen mehrerer Variabler
3.6
42
Bereichsintegrale
z
Wir betrachten (vorerst) eine nichtnegative Funktion
f (x, y), die über einem beschränkten und abgeschlossenen Bereich B ⊂ IR2 definiert ist. B habe einen wohldefinierten Flächeninhalt. Dann beschreibt die Menge
✻
f (x, y)
M = {(x, y, z) ∈ IR3 ; (x, y) ∈ B, 0 ≤ z ≤ f (x, y)}
✲
y
den Teil eines Zylinders“ über B, dessen Boden“
”
”
von B und dessen Deckel“ vom Graph von f gebildet
”
wird.
B
x☛
Das Volumen von M nennen wir Integral von f über dem Bereich B und bezeichnen es durch
ZZ
V =
f (x, y) d(x, y).
B
z
Um V zu berechnen, nehmen wir zuerst an, daß B ein
achsenparalleles Rechteck ist, also
✻
B = {(x, y); a ≤ x ≤ b, c ≤ y ≤ d}.
f (x, y)
✲
Wir zerlegen [c, d] in n Intervalle [yk−1 , yk ] der Länge
y
d−c
(mit y0 := c, yn := d), und legen durch je∆y =
n
x☛
des yk eine zur (x, z)-Ebene parallele Ebene. Dadurch
✛
✲
wird M in Scheiben“ zerschnitten. Ist f stetig und
∆y
”
sind die Scheiben hinreichend dünn“, dann ist das
”
Volumen ∆Vk der k-ten Scheibe näherungsweise gleich dem Produkt von Scheibenhöhe ∆y und Flächeninhalt
der Schnittfläche bei yk , d.h.
Z
b
∆Vk ≈
a
f (x, yk ) dx · ∆y.
Summation über alle Scheiben ergibt als Näherung des Gesamtvolumens
V =
n
X
k=1
∆Vk ≈
n Z
X
k=1
b
f (x, yk ) dx · ∆y.
a
Z
b
Man kann zeigen, daß das Parameterintegral“ F (y) :=
f (x, y) dx für stetiges f stetig in y ist. Für
”
a
n → ∞ erhält man
ZZ
Z d Z b
V =
f (x, y) d(x, y) =
f (x, y) dx dy.
B
c
a
Da es gleichgültig ist, ob man M in y- oder in x-Richtung in Scheiben schneidet, ergibt sich
Z bZ
a
d
f (x, y) dy dx =
c
Z
c
dZ b
f (x, y) dx dy.
a
(Die Klammern um die Integrale kann man weglassen, da die Ausdrücke auch ohne Klammern eindeutig
sind.)
3. Funktionen mehrerer Variabler
43
Beispiel 3.6.1 Für das Volumen unter dem Graph der Funktion f (x, y) := 2 − xy über dem Rechteck
B = {(x, y); 0 ≤ x ≤ 1, 0 ≤ y ≤ 2} erhält man
V =
ZZ
f (x, y) d(x, y) =
B
Z
0
2Z 1
0
(2 − xy) dx dy =
Z
bzw.
0
1Z 2
0
Z
0
2
x2 y
2x −
2
1
dy =
0
Z
0
2
2−
y
dy = 3
2
(2 − xy) dy dx = 3.
Wir wollen nun an Stelle der Rechtecke allgemeinere Bereiche B betrachten:
Definition 3.6.2 Seien g(x), h(x) zwei im Intervall [a, b] stetige Funktionen. Dann heißt
B := {(x, y); a ≤ x ≤ b, g(x) ≤ y ≤ h(x)}
Normalbereich.
Analog nennen wir einen Bereich
B := {(x, y); c ≤ y ≤ d, g∗ (y) ≤ x ≤ h∗ (y)}
Normalbereich. Für einen Normalbereich erhält man das Volumen unter der Funktion f (x, y) wie im
Rechtecksfall mit analogen Scheibenzerlegungen“ durch
”
Z b Z h(x)
V =
f (x, y) dy dx.
a
g(x)
Beispiele 3.6.3
1. Für die Pyramide mit den Ecken (0, 0, 0), (a, 0, 0), (0, b, 0), (0, 0, c) ergibt sich
c
c
b
B = {(x, y); 0 ≤ x ≤ a, 0 ≤ y ≤ b − x} und f (x, y) = c − x − y, also
a
a
b
Z a Z b− b x a
c
c abc
V =
c − x − y dy dx =
.
a
b
6
0
0
2. Sei B der Teil des Kreise um den Ursprung mit Radius r im 1. Quadranten, f (x, y) := x3 y 2 . Dann
ist
Z r Z √r2 −x2
Z
1 r 3 2
2 7
3 2
V =
x y dy dx =
x (r − x2 )3/2 dx =
r .
3 0
105
0
0
Ist B Vereinigung von Normalbereichen B1 , . . . , Bm , dann setzt man im Einklang mit der Vorstellung
des Volumens
ZZ
m ZZ
X
f (x, y) d(x, y) :=
f (x, y) d(x, y).
B
k=1
Bk
Außerdem dehnt man die Definition auf stetige reellwertige Funktionen f (x, y) aus. Damit ist das
Bereichsintegral für Funktionen zweier Variabler für die praktisch auftretenden Fälle definiert.
3. Funktionen mehrerer Variabler
44
Die vorigen Überlegungen lassen sich sofort auf stetige Funktionen dreier Variablen übertragen. Für
einen Quader B = {(x, y, z); a ≤ x ≤ b, c ≤ y ≤ d, e ≤ z ≤ f } gilt
ZZZ
Z bZ dZ f
f (x, y, z) d(x, y, z) :=
f (x, y, z) dz dy dx,
B
a
c
e
und für einen Normalbereich B = {(x, y, z); a ≤ x ≤ b, g1 (x) ≤ y ≤ g2 (x), h1 (x, y) ≤ z ≤ h2 (x, y)}
Z b Z g2 (x) Z h2 (x,y)
ZZZ
f (x, y, z) d(x, y, z) :=
f (x, y, z) dz dy dx.
B
a
g1 (x)
h1 (x,y)
Beispiele 3.6.4
1. Für den Schwerpunkt x~0 der quadratischen Pyramide B mit Spitze im Ursprung, die durch
B = {(x, y, z); 0 ≤ x ≤ h, −
beschrieben wird, gilt
ZZZ
1
x0 =
x d(x, y, z),
V
B
Mit V =
1
y0 =
V
ax
ax
ax
ax
≤y≤
,−
≤z≤
}
2h
2h
2h
2h
ZZZ
y d(x, y, z),
B
1
z0 =
V
ZZZ
z d(x, y, z).
B
a2 h
3
erhält man x0 = h, y0 = z0 = 0.
3
4
l
l
2. Sei B der gerade Kreiszylinder mit z-Achse als Achse, Grundkreisradius r und − ≤ z ≤ .
2
2
Hat der Zylinder die konstante Massendichte 1, dann ist das Trägheitsmoment bezüglich der xAchse gegeben durch
Tx =
ZZZ
(y 2 + z 2 ) d(x, y, z) =
B
3.7
Z
r
−r
Z √r2 −x2 Z
√
− r 2 −x2
l/2
(y 2 + z 2 ) dz dy dx =
l/2
πlr 2
(3r 2 + l2 ).
12
Koordinatentransformationen
Ist das (zusammenhängende) Gebiet G∗ , über das integriert wird, nicht durch kartesische Koordinaten,
sondern durch andere Koordinaten (z.B. Polar- oder Zylinderkoordinaten) gegeben, dann verändert sich
das Integral zur Bestimmung des Volumens.
Zwischen den kartesischen Koordinaten x, y und neuen Koordinaten u, v sei durch
x = g(u, v),
y = h(u, v)
eine eineindeutige Zuordnung
bzw.
u = k(x, y)
v = l(x, y)
T~ : G∗ → G
gegeben. (T~ heißt auch Transformation von G∗ auf G.)
Wir setzen voraus, daß g, h, k, l und damit T~ auf G∗ stetig differenzierbare Funktionen sind.
Durch T~ wird ein aus den achsenparallelen Geraden
u = const.
bzw.
v = const.
3. Funktionen mehrerer Variabler
45
bestehendes Netz in G∗ auf ein krummliniges Netz in G abgebildet.
Das Rechteck mit den Ecken
(u0 , v0 ),
(u0 + ∆u, v0 ),
(u0 , v0 + ∆v),
(u0 + ∆u, v0 + ∆v)
wird zu einem krummlinigen Viereck in G, das bei hinreichend kleinen ∆u und ∆v nahezu die Gestalt
eines Parallelogramms hat, und dessen Flächeninhalt näherungsweise gleich
gu (u0 , v0 ) gv (u0 , v0 ) · ∆u · ∆v
∆F ≈ hu (u0 , v0 ) hv (u0 , v0 )
ist.
gu gv ∂(x, y)
:= gu · hv − gv · hu
:= hu hv ∂(u, v)
heißt Funktionaldeterminante.
Da T~ eine eineindeutige Transformation ist, ist die Funktionaldeterminante in ganz G∗ ungleich Null.
Da sie stetig und G∗ zusammenhängend ist, ist sie in ganz G∗ entweder positiv oder negativ.
∆u · ∆v
ist die Fläche des Ausgangsrechtecks, d.h. der Betrag der Funktionaldeterminante gibt das lokale
Verhältnis von Bild- zur Urbild-Fläche bei der Transformation wieder.
Ein Flächenelement d(x, y) entspricht also vor der Transformation der Fläche
∂(x, y) ∂(u, v) · d(u, v),
und damit erhält man die Transformationsformel
ZZ
ZZ
∂(x, y) · d(u, v).
f (x, y) d(x, y) =
f g(u, v), h(u, v) · ∂(u, v) B
B∗
Dabei sei B ∗ ⊂ G∗ ein Normalbereich und B das Bild unter der Transformation.
Beispiele 3.7.1
(1) Eine ebene Platte habe die Gestalt eines Kreissektors K mit Radius R und Winkel α. Die MassenFlächendichte sei konstant gleich 1. Zu bestimmen ist der Schwerpunkt.
Legt man das Koordinatensystem so, daß der Ursprung im Kreismittelpunkt und der Kreissektor
symmetrisch zur x-Achse liegt, dann ist die y-Koordinate des Schwerpunktes aus Symmetriegründen 0.
α
Die Sektorfläche ist F = R2 , und damit die x-Koordinate des Schwerpunktes
2
ZZ
2
x0 =
x d(x, y).
αR2
K
In Polarkoordinaten
x = r cos φ,
y = r sin φ
3. Funktionen mehrerer Variabler
46
wird der Kreissektor durch die Ungleichungen
0 ≤ r ≤ R,
−
α
α
≤φ≤
2
2
beschrieben. Die Funktionaldeterminante ist gleich r, und damit ergibt sich
2
x0 =
αR2
Z
α/2
−α/2
Z
R
0
r cos φ · r dr dφ =
4 sin α2
R
.
3
α
(2) Mit den elliptischen Koordinaten“ (s, t) mit
”
x = as cos t,
y = bs sin t
E := {(x, y);
x2 y 2
+ 2 = 1}
a2
b
ergibt sich für die Ellipse
die Darstellung
E = {(s, t); 0 ≤ s ≤ 1, 0 ≤ t ≤ 2π}.
Mit der Funktionaldeterminante abs ergibt sich für den Flächeninhalt
ZZ
Z 1 Z 2π
d(x, y) =
abs dt ds = abπ.
FE =
E
0
0
Für Funktionen von n > 2 Variablenbetrachten wiranalog eine umkehrbar eindeutige und stetig
g1 (u1 , . . . , un )


..
~
differenzierbare Transformation T = 
 von einem Gebiet G∗ ⊂ IRn auf ein Gebiet
.
gn (u1 , . . . , un )
G ⊂ IRn mit der Funktionaldeterminante
∂g1
∂g1 ∂u1 . . . ∂un ∂(x1 , . . . , xn )
.. .
:= ...
. ∂g
∂(u1 , . . . , un )
∂g
n
n ...
∂u1
∂un
Im Fall n = 3 berechnet sich die Determinante durch
∂(x1 , x2 , x3 ) ∂g1 ∂g2 ∂g3
∂g1 ∂g2 ∂g3
∂g1 ∂g2 ∂g3
=
·
·
+
·
·
+
·
·
∂(u1 , u2 , u3 ) ∂u1 ∂u2 ∂u3 ∂u2 ∂u3 ∂u1 ∂u3 ∂u1 ∂u2
∂g1 ∂g2 ∂g3
∂g1 ∂g2 ∂g3
∂g1 ∂g2 ∂g3
−
·
·
−
·
·
−
·
·
.
∂u3 ∂u2 ∂u1 ∂u2 ∂u1 ∂u3 ∂u1 ∂u3 ∂u2
Für Zylinderkoordinaten (r, φ, z) mit
x = r cos φ,
y = r sin φ,
z
ist die Funktionaldeterminante gleich r.
Für Kugelkoordinaten (r, φ, θ) mit
x = r cos φ sin θ,
y = r sin φ sin θ,
z = r cos θ,
3. Funktionen mehrerer Variabler
47
ist die Funktionaldeterminante gleich −r 2 sin θ.
Damit ergibt sich analog zu den Funktionen zweier Variablen die Transformationsformel
ZZ
f (x1 , . . . , xn ) d(x1 , . . . , xn )
B
ZZ
∂(x1 , . . . , xn ) · d(u1 , . . . , un ).
=
f g1 (u1 , . . . , un ), . . . , gn (u1 , . . . , un ) · ∂(u1 , . . . , un ) B∗
Beispiele 3.7.2
(1) In einem zylindrischen Gefäß mit innerem Radius R und Innenhöhe h befindet sich ein Pulver. Die
Dichte des Pulvers ist am Grund des Gefäßes am größten (wegen des Drucks der darüber liegenden
Masse), nämlich ρ1 , und nimmt linear bis zur Höhe h auf den Wert ρ2 ab. Zu bestimmen ist die
Gesamtmasse M des Pulvers.
Wir legen die Grundfläche des Zylinders in die (x, y)-Ebene. Für die Dichte in Höhe z gilt
ρ(z) = (ρ2 − ρ1 ) ·
z
+ ρ1 .
h
Der vom Pulver ausgefüllte Bereich ist beschrieben durch
0 ≤ r ≤ R,
0 ≤ φ ≤ 2π,
0 ≤ z ≤ h.
Damit ergibt sich die Masse durch
M=
Z
0
h Z R Z 2π
0
0
1
z
(ρ2 − ρ1 ) · + ρ1 · r dφ dr dz = R2 hπ(ρ1 + ρ2 ).
h
2
(2) Zu bestimmen ist das Trägheitsmoment einer Vollkugel mit Dichte 1 bezüglich einer Achse durch
den Mittelpunkt. Legt man den Mittelpunkt der Kugel vom Radius R in den Ursprung und die
Achse auf die z-Achse, dann erhält man mit Kugelkoordinaten
ZZZ
Z π Z 2π Z R
8
(x2 + y 2 ) d(x, y, z) =
r 2 · sin2 θ · r 2 · sin θ dr dφ dθ = πR5 .
Tz =
15
B
0
0
0
48
4
Gewöhnliche Differentialgleichungen
4.1
Komplexe Zahlen
4.1.1
Definition
Da Quadrate reeller Zahlen stets nichtnegativ sind, hat die Gleichung x2 = −1 keine (reelle) Lösung.
Es besteht also eine ähnliche Situation wie bei der Lösbarkeit der Gleichung 3x = 7 innerhalb ZZ.
Für die Lösbarkeit der letzten Gleichung führte man die rationalen Zahlen ein.
Analog erweitert man IR:
√
Definition 4.1.1 (a) i := −1. Die Zahl“ i mit i2 = −1 heißt imaginäre Einheit.
”
(b) Die Menge CI := {z = a + bi | a, b ∈ IR} heißt Menge der komplexen Zahlen.
Re z := a heißt Realteil, Im z := b Imaginärteil von z = a + bi.
Zwei komplexe Zahlen z1 = a1 + b1 i und z2 := a2 + b2 i heißen gleich, wenn a1 = a2 und b1 = b2 ,
d.h. wenn sie in Real- und Imaginärteil übereinstimmen.
Eine Zahl der Form bi (mit b ∈ IR) heißt imaginäre Zahl.
(c) In CI seien folgendermaßen Addition und Multiplikation definiert:
z1 + z2 = (a1 + b1 i) + (a2 + b2 i) := (a1 + a2 ) + (b1 + b2 )i
z1 · z2 = (a1 + b1 i) · (a2 + b2 i) := (a1 · a2 − b1 · b2 ) + (a1 · b2 + a2 · b1 )i.
Bemerkungen 4.1.2
(1) Man rechnet also in C,
I als ob i eine durch einen Buchstaben vertretene reelle Zahl sei, und ersetzt
jeweils i2 durch −1, i3 durch −i, i4 durch 1 usw.
(2) Für eine alternative Definition von CI könnte man auch die Menge IR2 betrachten mit folgender
Addition und Multiplikation
(a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 )
(a1 , b1 ) · (a2 , b2 ) := (a1 · a2 − b1 · b2 , a1 · b2 + a2 · b1 ).
Identifiziert man jetzt ein Zahlenpaar (a, 0) mit der reellen Zahl a, dann hat man ohne Definition
eines neuen Symbols eine Menge eingeführt, die genau dieselben algebraischen Eigenschaften hat
wie C,
I also als andere Darstellung derselben Menge aufgefaßt werden kann. (Addition und Multiplikation sind natürlich so definiert, daß sie genau der Addition und Multiplikation in CI entsprechen.
Das Paar (0, 1) entspricht der imaginären Einheit.)
(3) Mit Einführung der imaginären Zahlen werden alle in IR nicht lösbaren reinquadratischen Gleichungen
x2 = −a
mit a ∈ IR, a > 0,
√
lösbar mit den Lösungen x1,2 = ± a i.
Zu in IR nicht lösbaren gemischtquadratischen Gleichungen der Form
x2 + bx + c = 0,
b2 − 4c < 0,
b
ip
erhält man mit quadratischer Ergänzung die Lösungen x1,2 = ±
4c − b2 .
2
2
b, c ∈ IR,
4. Gewöhnliche Differentialgleichungen
49
Satz 4.1.3 Die Menge CI bildet mit der Addition und Multiplikation aus der vorigen Definition einen
Körper, d.h. es gelten dieselben Rechenregeln bezüglich der Addition, Subtraktion, Multiplikation und
Division wie in Q
I und IR.
Bemerkung 4.1.4 Für das Reziproke einer komplexen Zahl z = a + bi 6= 0 folgt aus der 3. binomischen
Formel (a + bi) · (a − bi) = a2 − b2 i2 = a2 + b2 :
z −1 =
a
b
−
i.
a2 + b2 a2 + b2
Die beiden Faktoren in der binomischen Formel nennt man zueinander konjugiert komplexe Zahlen.
Ist z = a + bi, dann bezeichnet man die dazu konjugiert komplexe Zahl mit z, d.h. es gilt z = a − bi.
Es gilt z = z genau dann, wenn z ∈ IR, und z = −z genau dann, wenn z imaginär. Weiter gilt
z1 + z2 = z1 + z2 ,
4.1.2
z1 · z2 = z1 · z2 .
Darstellung der komplexen Zahlen in der Gaußschen Zahlenebene
Die reellen Zahlen und die Rechenoperationen konnten sehr anschaulich auf der Zahlengeraden dargestellt werden. Verwendet man ein rechtwinkliges (kartesisches) Koordinatensystem, dann kann man
jeder komplexen Zahl z = a + bi umkehrbar eindeutig den Punkt der Ebene mit den Koordinaten (a, b)
zuordnen. Die reellen Zahlen entsprechen den Punkten der x-Achse (auch reelle Achse genannt), die
imaginären Zahlen der y-Achse (imaginäre Achse genannt). Die den Zahlen z und −z entsprechenden
Punkte liegen symmetrisch bezüglich des Nullpunkts, die den konjugiert komplexen Zahlen z und z
entsprechenden Punkte symmetrisch bezüglich der reellen Achse.
Stellt man die Punkte der komplexen Zahlenebene
−−→
durch Ortsvektoren dar, d.h. durch Pfeile OP vom
Nullpunkt O zu dem entsprechenden Punkt P , dann
läßt sich die Summe zweier komplexer Zahlen durch
Vektoraddition der zugehörigen Ortsvektoren darstel−−→
len, d.h. der Ortsvektor OP zu der Summe von
−−→
−−→
OP1 und OP2 ist die Diagonale des Parallelogramms
OP1 P2 P .
Der Ortsvektor, der in der komplexen Zahlenebene die
komplexe Zahl z = a + bi beschreibt, ist durch die kartesischen Koordinaten eindeutig bestimmt. Man kann
ihn aber auch mit Hilfe der Polarkoordinaten (r, ϕ)
festlegen.
Wie gewohnt ist ϕ der Winkel zwischen der positiven
reellen Achse und dem Ortsvektor zu z und r = |z|
die Länge des Ortsvektors. ϕ heißt Argument und
|z| Betrag der komplexen Zahl z.
y
✻
Im (z1 + z2 )
Im z2
Im z1
O
✸
P
P1
✁✕
z1 ✁
z1 + z2
✿ P2
✘
✁
✘
✘✘✘
✁
✘
✘ z2
✁ ✘✘
✘
Re z1
✲x
Re z2 Re (z1 + z2 )
y
Im z ✻
z
✯
✟
✟✟
✟✟
✟✟r = |z|
✟
✟
✟ϕ ▼
✲ x
O
Aus den Additionstheoremen der trigonometrischen Funktionen folgt
z1 · z2 =
|z1 |(cos ϕ1 + i sin ϕ1 ) · |z2 |(cos ϕ2 + i sin ϕ2 )
= |z1 | |z2 | cos(ϕ1 + ϕ2 ) + i sin(ϕ1 + ϕ2 ) .
Re z
4. Gewöhnliche Differentialgleichungen
50
y
✻
Bei der Multiplikation zweier komplexer Zahlen multiplizieren also sich die Beträge und addieren sich die
Argumente. Damit ergibt sich eine geometrische Konstruktion des Produktes: Man verbinde z1 mit dem
Punkt 1 (auf der reellen Achse) und konstruiere den
Punkt z so, daß die Dreiecke 01z1 und 0z2 z ähnlich
sind.
✗
z = z1 · z2
z2 z1
✸
✑
✒
ϕ
1
✑
❨
0
✑
✑
■ϕ2
✑
✑ϕ1❑
1
✲x
Aus der Multiplikationsformel zweier komplexer Zahlen in Polarform erhält man leicht mit vollständiger
Induktion für die Potenzen die Moivre-Formel
n
z n = r(cos ϕ + i sin ϕ) = r n cos(nϕ) + i sin(nϕ) .
Mit der Euler-Formel
eiϕ = cos ϕ + i sin ϕ ergibt sich die kürzere Darstellung
z n = r n · einϕ .
Der wichtigste Satz über die komplexen Zahlen ist
Satz 4.1.5 (Fundamentalsatz der Algebra) Sei n ∈ IN. Dann hat jedes Polynom vom Grad n mit
komplexen Koeffizienten genau n (möglicherweise übereinstimmende) komplexe Nullstellen, d.h. man
kann das Polynom als Produkt von n Linearformen schreiben.
Bemerkung 4.1.6 Ein Polynom vom Grad n ∈ IN mit reellen Koeffizienten hat ebenfalls genau n (nicht
notwendig verschiedene) komplexe Nullstellen.
Ist z0 eine nichtreelle Nullstelle eines solchen Polynoms, dann auch z0 .
Beispiel 4.1.7 Das Polynom z 4 − 1 hat die Nullstellen 1, i, −1, −i.
1 + i −1 + i −1 − i 1 − i
Das Polynom z 4 + 1 hat die Nullstellen
,
,
,
.
2
2
2
2
4.2
Definition der Differentialgleichungen
Bei der Formulierung vieler wichtiger Probleme aus den Natur-, Ingenieur- und Gesellschaftswissenschaften mit Hilfe der Mathematik treten oft Gleichungen auf, die eine unbekannte, noch zu bestimmende
Funktion zusammen mit einer oder mehreren ihrer Ableitungen enthalten. Zum Beispiel wird beim
Newtonschen Gravitationsgesetz
m · x′′ (t) = F t, x(t), x′ (t) ,
die Bewegung x(t) eines Teilchens der Masse m als Funktion des Ortes in Abhängigkeit von der Zeit
gesucht, wobei die auf das Teilchen wirkende Kraft F möglicherweise wieder von Zeit t, Ort x und
Geschwindigkeit x′ abhängt.
Eine solche Aufgabenstellung heißt (gewöhnliche) Differentialgleichung.
Gesucht werden möglichst Methoden zur Auffindung der unbekannten Funktion oder zu ihrer Approximation, zumindest aber Aussagen über das Verhalten der Funktion.
Dabei heißt eine Funktion u(x) Lösung der Differentialgleichung in einem Intervall I, wenn sie
und alle ihre in der Differentialgleichung vorkommenden Ableitungen in I existieren und für alle x ∈ I
der Differentialgleichung genügen.
4. Gewöhnliche Differentialgleichungen
51
Unter der Ordnung einer Differentialgleichung versteht man die Ordnung der höchsten Ableitung
der gesuchten Funktion, die in der Gleichung auftritt. Zum Beispiel ist die Gleichung des Gravitationsgesetzes eine gewöhnliche Differentialgleichung 2. Ordnung.
Allgemein läßt sich eine gewöhnliche Differentialgleichung n-ter Ordnung in der Form
F x, y(x), y ′ (x), . . . , y (n) (x) = 0
(4.1)
darstellen. Dabei gibt F den Zusammenhang zwischen der unabhängigen Variablen x, der gesuchten
Funktion y(x) und ihren Ableitungen an. Läßt sich die Gleichung (4.1) nach der Ableitung mit der
höchsten Ordnung auflösen, d.h. gibt es eine Funktion f , so daß
y (n) = f x, y(x), y ′ (x), . . . , y (n−1)
(4.2)
äquivalent zu (4.1) ist, dann heißt die Differentialgleichung explizit, sonst implizit. Zum Beispiel ist
y ′′′ + 2ex · y ′′ + y · y ′ = x
eine explizite gewöhnliche Differentialgleichung 3. Ordnung,
y ′2 + x · y ′ + 4y = 0
eine implizite gewöhnliche Differentialgleichung 1. Ordnung, die den beiden expliziten Differentialgleichungen
p
p
1
1
y′ =
− x + x2 − 16y
und
y′ =
− x − x2 − 16y
2
2
entspricht.
Es gibt Differentialgleichungen, die (in IR) nicht lösbar sind, wie z.B. (y ′ )2 + 1 = 0.
Ist aber eine Differentialgleichung lösbar, dann existieren immer unendlich viele Lösungen. Zum Beispiel
hat die Differentialgleichung y ′ = 0 die Lösungen y(x) = c mit beliebig wählbarem festen c ∈ IR und die
Differentialgleichung y ′′ = 0 die Lösungen y(x) = c1 x + c2 mit beliebig wählbaren festen c1 , c2 ∈ IR.
Als Anwender ist man aber i.a. an einer bestimmten Lösung interessiert, d.h. die gesuchte Lösung soll
zusätzliche Bedingungen erfüllen. Sind zusätzlich für einen festen Wert x0 der Funktionswert y(x0 )
und die Ableitungen y ′ (x0 ), y ′′ (x0 ), . . . , y (n−1) (x0 ) festgelegt, dann spricht man von einem Anfangswertproblem. Sind die Funktionswerte und irgendwelche Ableitungen an zwei verschiedenen Werten
x1 und x2 festgelegt und man sucht die Funktion im Intervall (x1 , x2 ), dann spricht man von einem
Randwertproblem.
4.2.1
Beispiele von Differentialgleichungen
(1) 1883 entdeckte Robert Koch den Cholera-Bazillus Vibrio cholerae, den Erreger der Cholera, einer
Darmkrankheit, die vor allem durch verseuchtes Gebrauchs- und Trinkwasser übertragen wird.
Zur Zeit t0 werde in einem Labor eine Kolonie dieses Erregers in eine Nährflüssigkeit gebracht.
Nach 30 Minuten zählt man 329 Bakterien und nach weiteren 60 Minuten 2 684. Wie groß ist die
Verdopplungszeit und wieviele Mitglieder hat die Kolonie nach 5 Stunden?
(2) Populationsmodelle: Es sei eine Bakterienpopulation in einer (ausreichend vorhandenen) Nährflüssigkeit vorgegeben, und es sei P (t) die Zahl der Bakterien. Wir nehmen an, daß die Bakterienzunahme ∆P in der Zeitspanne ∆t proportional zur aktuellen Bakterienzahl P (t) ist, d.h. daß
∆P
mit einem geeigneten Proportionalitätsfaktor α gilt
≈ α · P (t).
∆t
4. Gewöhnliche Differentialgleichungen
52
Betrachtet man nun P (t) als differenzierbare Funktion, dann erhält man die lineare Differentialgleichung 1. Ordnung
dP
P′ =
= α · P.
dt
Jede Funktion P (t) = c eαt mit beliebig gewähltem c ∈ IR ist Lösung dieser Differentialgleichung.
Ist P0 die Anfangspopulation“ zur Zeit t0 , dann gilt P (t) = P0 eα(t−t0 ) , t ≥ t0 .
”
P (t + δ)
P0 eα(t+δ−t0 )
Für die Verdopplungszeit“ δ gilt 2 =
.
=
”
P (t)
P0 eα(t−t0 )
δ = (ln 2)/α ist unabhängig von der Populationsgröße P (t), d.h. P (t) verdoppelt sich immer in
festen Zeitabständen.
Durch die Differentialgleichung kann wegen lim P (t) → ∞ keine reale Population dargestellt sein.
t→∞
Würde zum Beispiel das Bevölkerungswachstum der Menschheit auf der Erde durch dieses Modell
beschrieben, dann wäre (bei einer Bevölkerung von ca 5 Milliarden in 1986 und einer derzeitigen
Verdopplungszeit von ca 35 Jahren)
im Jahr
1 986
2 000
2 100
2 300
2 501
P (t) =
5 · 109
6, 6 · 109
48, 9 · 109
2, 7 · 1012
148, 7 · 1012
.
Da die feste Erdoberfläche ca. 149 · 1012 qm beträgt, hätte also jeder Mensch im Jahr 2 501 einen
Quadratmeter feste Erde zum Leben und zur Nahrungsversorgung zur Verfügung.
Es ist sinnvoll anzunehmen, daß eine Population eine gewisse Maximalgröße, die Trägerkapazität K
ihres Lebensraumes, nicht überschreitet. Die Wachstumsrate nimmt man dann sowohl proportional
zur vorhandenen Populationsgröße P (t) als auch zum verbleibenden Lebensraum K −P (t) an, und
man erhält als neue (quadratische) Differentialgleichung
P ′ = λP (K − P ),
mit Konstanten
λ, K > 0.
Für P = K ergibt sich kein Wachstum mehr, d.h. die Population stagniert. Wiederum durch Probe
K
,
t ≥ t0 ,
zeigt man, daß
P (t) =
K
−λK(t−t0 )
1+
−1 e
P0
eine Lösung des zugehörigen Anfangswertproblems mit dem Anfangswert P (t0 ) = P0 > 0 ist (für
P0 = 0 ist P (t) ≡ 0 die einzige Lösung).
Genauere Untersuchungen zeigen, daß die Zuwachsrate bis K/2 wächst und dann abnimmt. Die
Trägerkapazität der Erde wird auf ca. 10 Milliarden Menschen geschätzt. Demzufolge müßte die
Geschwindigkeit des Bevölkerungswachstums seit 1 986 abnehmen.
An vielerlei Beispielen ist ein entsprechendes Wachstumsverhalten beobachtet worden - bei einfachen Lebewesen in einem Reagenzglas, bei Gewichtszunahme von Ratten (betrachtet als Zellenpopulation unter beengten Verhältnissen), bei dem Höhenwachstum von Sonnenblumen und bei
Zulassungszahlen von Automobilen.
(3) Freier Fall: Durch x(t) werde die Bewegung eines Massenpunktes mit konstanter Masse m längs
der x-Achse in Abhängigkeit von der Zeit t beschrieben.
d2 x(t)
dx(t)
und die Beschleunigung b(t) = ẍ(t) =
.
dt
dt2
Bewegt sich der Massenpunkt unter Einfluß einer Kraft K in x-Richtung, dann wird die Bewegung
Seine Geschwindigkeit sei
v(t) = ẋ(t) =
4. Gewöhnliche Differentialgleichungen
53
nach dem Newtonschen Gravitationsgesetz beschrieben durch
K = mẍ.
Ist K = f (t, x, ẋ) eine Funktion von Zeit, Ort und Geschwindigkeit, dann erhält man die explizite
Differentialgleichung 2. Ordnung
mẍ = f (t, x, ẋ).
Bei vorgegebener Anfangslage und -Geschwindigkeit ergeben sich im physikalischen Versuch (bis
auf Meßfehler) dieselben Meßwerte - der Vorgang ist also determiniert. Im mathematischen Modell
des zugehörigen Anfangswertproblems muß also eine eindeutige Lösung existieren.
Beim freien Fall aus geringer Höhe ohne Luftwiderstand mit Anfangswerten t0 = 0, x(0) = 0 und
v(0) = v0 ist K = mg (mit der Gravitationskonstanten g), und man erhält die Differentialgleichung
mẍ = mg
mit der Lösung
1
x(t) = gt2 + v0 t.
2
Ist die Geschwindigkeit nicht zu groß, dann kann man die Verzögerung des Falls durch den Luftwiderstand proportional zur Geschwindigkeit (mit Faktor ρ > 0) annehmen. Unter Berücksichtigung
der Verzögerungswirkung des Luftwiderstandes ergibt sich
mẍ = mg − ρẋ.
Das ist eine lineare Differentialgleichung 1. Ordnung für die Geschwindigkeit v = ẋ mit der Lösung
mg −ρt/m mg
v(t) = v0 −
e
.
+
ρ
ρ
mg
m
mg Integration ergibt
x(t) =
v0 −
1 − e−ρt/m +
t.
ρ
ρ
ρ
mg
Für t → ∞ folgt v(t) →
, d.h. die Fallgeschwindigkeit stabilisiert sich (wichtig für Fallschirmρ
springer).
(4) Ein ruhig atmender erwachsener Mensch macht etwa 16 Atemzüge pro Minute. Bei jedem Atemzug
atmet er ca. einen halben Liter Luft ein. Die ausgeatmete Luft enthält 20 % weniger Sauerstoff
als die eingeatmete. Es soll angenommen werden, daß sie sich sofort und vollständig mit der Zimmerluft gleichmäßig vermischt. In einem luftdicht abgeschlossenen Zimmer mit V Liter Luftinhalt
befinde sich genau ein ruhig atmender Erwachsener. Die Menge des Sauerstoffs sei durch die Funktion S(t) in Abhängigkeit von der Zeit (in Minuten) beschrieben, und die Sauerstoffmenge zur Zeit
t0 = 0 sei S0 .
(a) Bestimmen Sie S(t).
(b) Das Zimmer enthalte 40 cbm Luft. Wieviel Prozent des ursprünglich vorhandenen Sauerstoffs sind nach 8 Stunden verbraucht? Wieviel Prozent Sauerstoff enthält die Zimmerluft
nach dieser Zeit, wenn ihr ursprünglicher Sauerstoffgehalt mit dem von Frischluft (21 %)
übereinstimmt?
(5) Bei Schneebällen, Mottenkugeln, Bonbons vermindert sich das Volumen V beim Schmelzen, Verdunsten, Lutschen mit einer zeitlichen Rate proportional zur jeweils vorhandenen Oberfläche F ,
dV
d.h. es gilt
= −λF mit einer Konstanten λ > 0. Sei r0 der Anfangs-Radius einer ausgedt
legten Mottenkugel und r(t) ihr Radius nach der Zeit t.
(a) Wie groß ist r(t)?
(b) Die Mottenkugel habe nach 60 Tagen die Hälfte ihres Gewichtes verloren. Nach wieviel Tagen
ist ihr Radius auf ein Zehntel des Anfangsradius geschrumpft?
4. Gewöhnliche Differentialgleichungen
54
(6) Ein Hund schwimmt von einem Ufer eines Flusses zu seinem Herrn, der senkrecht gegenüber steht.
Er schwimmt so, daß seine Schnauze immer auf seinen Herrn gerichtet ist. Welchen Differentialgleichungen genügen die Koordinaten x(t) und y(t) des jeweiligen Ortes, an dem sich der Hund
befindet? Bestimmen Sie die Differentialgleichung der Bahnkurve y(x) (die Hundekurve“) und
”
untersuchen Sie die Lösungen dieser Differentialgleichung.
Daten: Der Hund schwimmt mit konstanter Eigenschwimmgeschwindigkeit v, Strömungsgeschwindigkeit
des Wassers ist c, die Breite des Flusses a, Standort des Herrn sei der Nullpunkt.
(7) Ein Wassertank enthält zur Zeit t = 0 1000 Liter einer Salzlösung aus Wasser und Q0 kg Salz.
Es fließen fortwährend 30l/min einer Salzlösung mit 14 kg/10l nach und gleichzeitig 30l aus dem
Tank. Durch ständiges Rühren ist die Salzkonzentration im Tank stets gleichmäßig. Wie groß ist
die Salzmenge nach einer Stunde und gegen welchen Wert konvergiert die Salzmenge für t → ∞ ?
(8) Archäologische Zeitbestimmung: Nach Untersuchungen von Willard Libby (1908- 1980, Nobelpreis
f. Chemie 1960) sammeln Pflanzen während ihres Wachstums ein radioaktives Kohlenstoff-Isotop
(C 14) und mit dem Absterben der Pflanze beginnt der radioaktive Zerfall. Die Halbwertszeit von
C 14 ist 5568 (±30) Jahre und derzeitige Meßmethoden sind hinreichend, wenn das Verhältnis von
derzeitiger Menge und Anfangsmenge nicht kleiner als 4 · 10−6 ist. Bis zu welchem Alter ist diese
Methode anwendbar?
(9) Die Leiche von Mr. Max Miller wurde am 21.12.1990, 8.00 Uhr, in einem Kühlhaus in New York gefunden. Man weiß aus Experimenten, daß die Änderung der Körpertemperatur eines Toten proportional zum Unterschied zwischen aktueller Körpertemperatur und Umgebungstemperatur ist. Der
Leichenbeschauer mißt um 8 Uhr 77◦ F (Fahrenheit - amerikanische Leiche!) als Körpertemperatur
von Mr.Miller und um 10 Uhr 59◦ F. Die Kühlhaustemperatur ist konstant auf 41◦ F eingestellt,
die normale Körpertemperatur eines Menschen ist 98, 6◦ F. Wann starb Mr. Miller und wer war
der Mörder?
(10) Die Ausbreitung einer einzelnen Handlungsweise innerhalb einer großen Population (z.B. Autofahrer schalten das Scheinwerferlicht bei Sonnenuntergang an) hängt oft teilweise von den äußeren
Umständen (zunehmende Dunkelheit) und teilweise von einem Nachahmungsverhalten ab. Ist
x(t) = at der äußere Anreiz, b der Nachahmungsfaktor, y(t) der Anteil der Menschen, die die
Handlung schon vollzogen haben, so stelle man die zugehörige Differentialgleichung für y(t) auf
und löse sie. Dabei werde angenommen, daß die Veränderung proportional zu dem Anteil der Menschen ist, die die Handlung noch nicht vollzogen haben, wobei der Proportionalitätsfaktor von der
Zeit t abhängt.
(11) Für die Beschreibung mancher Probleme benötigt man mehrere miteinander gekoppelte Differentialgleichungen, in denen mehrere Funktionen mit ihren Ableitungen gesucht werden. Als Beispiel
sei folgende Situation beschrieben:
In einem abgeschlossenen Wald leben Kaninchen, die sich von Pflanzen ernähren (die Vorräte seien
unbegrenzt), und Füchse, die sich von Kaninchen (und nur von Kaninchen) ernähren. F sei die
Zahl der Füchse, K die Zahl der Kaninchen. Dann kann man die zeitlichen Veränderungen der
Zahlen F und K durch folgendes System beschreiben:
dK
= K · (a − αF ),
dt
dF
= F · (−c + γK).
dt
Dabei seien a ist die Wachstumsrate der Kaninchen, c die Todesrate der Füchse und α und γ Maße
für die Interaktion zwischen beiden Arten.
4. Gewöhnliche Differentialgleichungen
4.3
55
Differentialgleichungen 1. Ordnung
Wir betrachten zunächst Differentialgleichungen 1. Ordnung, also
F (x, y, y ′ ) = 0
bzw.
y ′ = f (x, y).
Für spezielle Funktionen f bzw. f existieren einfache Lösungsmethoden. Z.B. entspricht das Lösen einer
Differentialgleichung der Form y ′ = f (x) der Bestimmung der Stammfunktion von f (x).
4.3.1
Richtungsfeld, Polygonzugverfahren
Ist die Funktion y(x) Lösung der expliziten Differentialgleichung
y ′ = f (x, y) im Intervall I ⊂ IR, dann
wird durch f (x, y) in jedem Punkt von B = { x, y(x) ; x ∈ I} die Steigung der Lösungskurve gegeben.
Läuft also ein Punkt auf einer Lösungskurve, dann wird er mit Steigung y ′ = f (x, y) weitergeschickt“.
”
Man kann daher die Differentialgleichung geometrisch veranschaulichen, indem man in jedem zulässigen
Punkt (in dem f definiert ist) ein kleines Geradenstück der Richtung f (x, y) anträgt. Ein solches Objekt
heißt Linienelement, und die Gesamtheit der Linienelemente nennt man Richtungsfeld.
Die Lösungen der Differentialgleichung bilden eine Kurvenschar. Eine Kurve, die alle Punkte der Schar
mit demselben Anstieg verbindet, heißt Isokline.
y
Beispiel 4.3.1 y ′ = x + y.
Die Isoklinen sind die Geraden x + y = const.
und y = ex − x − 1 ist Lösung der Differentialgleichung durch den Punkt (0, 0).
✻
y = ex − x − 1
✲
x
x+y = 2
x+y = 0
x + y = −2
Jede Lösungskurve ist in jedem Punkt tangential zum entsprechenden Linienelement. Damit erhält man
sofort ein Näherungsverfahren zur Bestimmung der Lösung eines Anfangswertproblems, das Eulersche
Polygonzug-Verfahren:
Man zerlege das Intervall I = [x0 , x0 + l] in n gleichlange Intervalle der Länge h = l/n und setzt
xk := x0 + kh,
0 ≤ k ≤ n,
also
xn = x0 + l.
Ist y0 der vorgegebene Anfangswert, dann berechnet man sukzessiv
yk := yk−1 + h · f (xk−1 , yk−1 ),
1 ≤ k ≤ n.
Dann betrachtet man den Polygonzug mit den Ecken (x0 , y0 ), . . . , (xn , yn ) als Näherung der Lösungskurve. Durch Verfeinerung der Intervallteilung erhält man anschaulich als Grenzwert die Lösung des
Anfangswertproblems. Dabei muß natürlich sichergestellt sein, daß das Anfangswertproblem eindeutig
lösbar ist und daß das Verfahren konvergiert.
Das Polygonzugverfahren ist i.a. rechentechnisch sehr aufwendig. Für die numerische Behandlung von
Differentialgleichungen eignet sich z.B. das Näherungsverfahren von Runge-Kutta wesentlich besser.
4. Gewöhnliche Differentialgleichungen
4.3.2
56
Exakte Differentialgleichungen, Integrierender Faktor
Ist F eine Funktion in einem Gebiet G ⊂ IR2 , dann beschreibt die Gleichung F (x, y) = c implizit
eine Funktion y(x).
Ist F in G stetig differenzierbar, und y in einem Intervall I ⊂ IR (mit {(x, y(x)); x ∈ I} ⊂ G) stetig
differenzierbar, dann ergibt die Differentiation der obigen Gleichung nach x
Fx (x, y) + Fy (x, y) · y ′ = 0,
also eine Differentialgleichung 1. Ordnung.
Gibt es umgekehrt zu einer Differentialgleichung der Form
g(x, y) + h(x, y) · y ′ = 0
eine Funktion F (x, y) mit
dann läßt sie sich in der Form
Fx = g
und
Fy = h,
d
F x, y(x) = 0 schreiben.
dx
Eine Lösung einer solchen Differentialgleichung erhält man also durch Integration von
und Auflösen der impliziten Gleichung
F (x, y) = c
nach y.
d F x, y(x)
dx
Definition 4.3.2 Sei G ⊂ IR2 ein Gebiet und g, h : G → IR. Die Differentialgleichung
g(x, y) + h(x, y) · y ′ = 0
heißt exakt im Gebiet G, wenn es eine in G stetig differenzierbare Funktion F (x, y) gibt mit Fx = g
und Fy = h.
F heißt Stammfunktion der Differentialgleichung.
Beispiel 4.3.3 Die Gleichung
2x + 2y · y ′ = 0
ist exakt und F (x, y) = x2 + y 2 eine Stammfunktion.
Es gilt
Satz 4.3.4 Sei G ⊂ IR2 ein einfach zusammenhängendes Gebiet und g, h : G → IR stetig differenzierbar
in G mit g2 + h2 > 0 in G.
Die Differentialgleichung
g(x, y) + h(x, y) · y ′ = 0
ist exakt genau dann, wenn gy = hx . In diesem Fall ist für beliebiges (x0 , y0 ) ∈ G
Z x
Z y
F (x, y) =
g(t, y0 ) dt +
h(x, t) dt
x0
y0
eine Stammfunktion, und man erhält durch Auflösen der Gleichungen F (x, y) = c, c ∈ IR, sämtliche
Lösungen y(x).
Durch jeden Punkt von G geht genau eine Lösungskurve.
4. Gewöhnliche Differentialgleichungen
57
Beispiel 4.3.5
(1) 2x3 + 3y + (3x + y − 1) · y ′ = 0.
(2) (y cos x + 2xey ) + (sin x + x2 ey − 1) · y ′ = 0.
Nicht-exakte Differentialgleichungen lassen sich manchmal durch Multiplikation mit einer in G stetigen
Funktion M (x, y) 6= 0 in eine äquivalente exakte Differentialgleichung umwandeln. Eine solche Funktion
heißt integrierender Faktor.
Beispiel 4.3.6 Die Differentialgleichung x2 +y 2 +x+xyy ′ = 0 ist nicht exakt, hat aber den integrierenden
Faktor M (x) = x.
4.3.3
Trennung der Variablen
Mit Trennung der Variablen“ bezeichnet man eine Integrationsmethode für Differentialgleichungen der
”
Form
y ′ = g(x) · h(y).
Satz 4.3.7 Seien Ix , Iy ⊂ IR offene Intervalle, die Funktion g(x) stetig in Ix und die Funktion h(y)
stetig in Iy . Dann gilt für die Differentialgleichung y ′ = g(x) · h(y)
(a) Ist y0 Nullstelle von h in Iy , dann ist
y(x) ≡ y0
Lösung in Ix .
(b) Die weiteren Lösungen erhält man durch Lösen der Gleichung
Z
Z
dy
= g(x) dx + C
h(y)
mit beliebigem C ∈ IR.
Bemerkung 4.3.8 In der letzten Gleichung wird links nach y und rechts nach x integriert.
Beispiele 4.3.9 (a)
y ′ = k · y.
(b)
(x + 1) · y ′ = 2y.
4.4
Lineare Differentialgleichungen
4.4.1
Definition und Struktur der Lösungsmenge
Ist f (x, y, y ′ , . . . , y (n−1) ) eine lineare Funktion in den Variablen y, y ′ , . . . , y (n−1) , dann heißt die Differentialgleichung y (n) = f (x, y ′ , . . . , y (n−1) ) lineare Differentialgleichung n-ter Ordnung. Sie läßt sich
also in der Form
y (n) + pn−1 (x) · y (n−1) + pn−2 (x) · y (n−2) + . . . + p1 (x) · y ′ + p0 (x) · y = q(x)
mit in einem Intervall I ⊂ IR definierten reellwertigen und i.a. stetigen Funktionen p0 (x), p1 (x), . . .,
pn−1 (x), q(x) darstellen.
Die Funktionen p0 (x), p1 (x), . . . , pn−1 (x) nennt man auch Koeffizientenfunktionen, die Funktion q(x)
Störfunktion.
Die obige Darstellung der linearen Differentialgleichung heißt Normalform.
4. Gewöhnliche Differentialgleichungen
58
Lineare Differentialgleichungen sind von besonderer Bedeutung, da einerseits sich viele Anwendungsprobleme durch lineare Differentialgleichungen exakt oder näherungsweise beschreiben lassen, man andererseits über ihre Lösungen (speziell im Fall konstanter Koeffizienten p0 (x), p1 (x), . . . , pn−1 (x)) relativ
viel weiß. Es gilt z.B.
Satz 4.4.1 Sei I ⊂ IR ein abgeschlossenes beschränktes Intervall, p0 (x), p1 (x), . . . pn−1 (x), q(x) : I → IR
stetig in I.
Dann hat für beliebige Wahl von x0 ∈ I und y0 , y1 , . . . , yn−1 ∈ IR das Anfangswertproblem
y
(n)
+
n−1
X
i=1
pi (x) · y (i) = q(x),
y (i) (x0 ) = yi , 0 ≤ i ≤ n − 1,
genau eine Lösung y(x) in I.
Ist q(x) ≡ 0, dann spricht man von einer homogenen linearen Differentialgleichung, sonst von
einer inhomogenen linearen Differentialgleichung. Die Lösungsmenge einer linearen Differentialgleichung hat eine spezielle algebraische Struktur:
Satz 4.4.2 Gegeben sei die lineare Differentialgleichung n-ter Ordnung y (n) +
stetigen Koeffizientenfunktionen und stetiger Störfunktion. Dann gilt:
n−1
X
i=1
pi (x) · y (i) = q(x) mit
(a) Die Lösungen der homogenen Gleichung bilden einen n-dimensionalen Vektorraum, die Lösungen
der inhomogenen Gleichung einen n-dimensionalen affinen Raum.
(b) Sei yp (x) eine feste (partikuläre) Lösung der inhomogenen Gleichung. Dann gilt:
y(x) ist eine weitere Lösung der inhomogenen Gleichung genau dann, wenn yh (x) = y(x) − yp (x)
Lösung der zugehörigen homogenen Gleichung ist.
Die Struktur der Lösungsmenge ist also analog zu der Struktur der Lösungsmenge eines linearen Gleichungssystems.
Zur Bestimmung der allgemeinen Lösung einer linearen Differentialgleichung sind daher eine Basis des
n-dimensionalen Lösungsraums, d.h. n linear unabhängige Lösungen y1 , y2 , . . . , yn der homogenen Gleichung, und außerdem irgendeine feste Lösung yp der inhomogenen Gleichung zu bestimmen.
Die Basis nennt man auch Fundamentalsystem der homogenen Differentialgleichung.
Die Lösungsmenge ist dann
(
)
n
X
y(x) =
ci yi (x) + yp (x); c1 , c2 , . . . , cn ∈ IR .
i=1
Eine partikulären Lösung kann man mit Hilfe der Methode der Variation der Konstanten“ aus den
”
Basislösungen gewinnen. Meist kommt man aber mit speziellen Lösungsansätzen (in Abhängigkeit der
Gestalt der Störfunktion) schneller zum Ziel.
4. Gewöhnliche Differentialgleichungen
59
Um festzustellen, wann n Lösungen y1 (x), y2 (x), . . . , yn (x) der homogenen Gleichung linear unabhängig
sind, betrachten wir
Definition 4.4.3 Seien y1 (x), y2 (x), . . . , yn (x) in einem Intervall I ⊂ IR n-mal differenzierbare Funktionen. Dann heißt
y1
y2
...
yn ′
y1
y2′
...
yn′ W (x) := ..
Wronski-Determinante.
..
.. .
.
. (n−1) (n−1)
(n−1) y
y
. . . yn
1
2
Es gilt
Satz 4.4.4 Sind y1 (x), . . . , yn (x) Lösungen derselben homogenen Differentialgleichung im Intervall I,
W (x) die zugehörige Wronski-Determinante. Dann gilt:
(a) Entweder ist W (x) = 0 für alle x ∈ I oder W (x) 6= 0 für alle x ∈ I.
(b) Gibt es ein x0 ∈ I mit W (x0 ) 6= 0, dann sind die Lösungen linear unabhängig.
Bemerkung 4.4.5 Da die Wronski-Determinante von n Lösungen derselben homogenen Differentialgleichung eine in I stetige Funktion ist, ist sie also in I identisch Null oder immer positiv oder immer
negativ.
4.4.2
Lineare Differentialgleichungen 1. Ordnung
Die Lösungsmenge einer homogenen linearen Differentialgleichung 1. Ordnung ist ein 1-dimensionaler
Vektorraum. Man erhält die allgemeine Lösung der homogenen Gleichung durch die Methode der Trennung der Variablen:
Satz 4.4.6 Die Differentialgleichung y ′ + p0 (x) · y = 0 hat die Lösungsmenge
n
o
R
y = c1 e− p0 (x) dx ; c1 ∈ IR .
Zur Bestimmung einer partikulären Lösung der inhomogenen Gleichung
y ′ + p0 (x) · y = q(x)
mit Hilfe der Variation der Konstanten betrachten wir die Funktion
yp (x) := c(x) · yh (x).
yh (x) sei eine beliebige Lösung der zugehörigen homogenen Gleichung (mit yh 6≡ 0) und c(x) eine
differenzierbare Funktion, die so beschaffen ist, daß yp (x) Lösung der inhomogenen Gleichung ist.
Damit ergibt sich für c(x)
−1
die Differentialgleichung c (x) = q(x) · yh (x)
′
bzw.
c(x) =
Z
R
q(x) · e
p0 (x) dx
dx,
4. Gewöhnliche Differentialgleichungen
und die allgemeine Lösung der inhomogenen Gleichung
Z
R
R
R
− p0 (x) dx
y = c1 e
+
q(x) · e p0 (x) dx dx · e− p0 (x) dx
Z
R
R
= e− p0 (x) dx · c1 + q(x) · e p0 (x) dx dx , c1 ∈ IR.
60
(4.3)
Bemerkungen 4.4.7
(1) Mit 4.3 haben wir eine Formel entwickelt, mit der wir (analog zur p, q)-Formel bei den quadratischen Gleichungen) direkt aus der Normalform der linearen Differentialgleichung 1. Ordnung die
allgemeine Lösung berechnen können.
R
(2) Die Differentialgleichung hat den integrierenden Faktor
M (x) = e
p0 (x) dx
.
Beispiele 4.4.8
(1) y ′ + 2xy = x.
(2) y ′ + y tan x −
1
= 0.
cos x
(3) In einem elektrischen Stromkreis mit konstantem Widerstand R, konstanter Induktivität L und
mit angelegter Spannung U (t) wird der zeitliche Verlauf der Stromstärke i durch die lineare Differentialgleichung 1. Ordnung
L · i′ + R · i = U (t)
beschrieben. Als Lösung ergibt sich
t
Z
i(t) = e−Rt/L C +
U (s) Rs/L e
ds
L
bzw. für den Einschaltvorgang (ab t = 0) bei konstanter Spannung
Z t
U Rs/L U U
e
+ .
i(t) = e−Rt/L C +
ds = e−Rt/L C −
R
R
0 L
4.4.3
Lineare Differentialgleichungen 2. Ordnung
Für die Wronski-Determinante zweier Lösungen y1 , y2 einer homogenen linearen Differentialgleichung
2. Ordnung in Normalform y ′′ + p1 (x) · y ′ + p0 (x) · y = 0 gilt
W (x) = c · e−
R
p1 (x) dx
c ∈ IR.
,
Dabei ist c = 0 genau dann, wenn die beiden Lösungen linear abhängig sind.
Ist eine Lösung (außer der Nulllösung) bekannt, dann kann man aus dieser Beziehung eine dazu linear
unabhängige Lösung berechnen.
y ′′ − xy ′ + y = 0
Beispiel 4.4.9 Die Differentialgleichung
Die Wronski-Determinante ist wegen
hat die spezielle Lösung y1 (x) = x.
p1 (x) = −x
W (x) = c · e−
R
p1 (x) dx
= c · ex
2 /2
,
c ∈ IR.
4. Gewöhnliche Differentialgleichungen
61
Für eine linear unabhängige Lösung y2 (x) ergibt sich wegen
W (x) = xy2′ (x) − y2 (x)
die Differentialgleichung 1. Ordnung
y2′ −
1
1
2
y2 = c · ex /2 ·
x
x
und damit die allgemeine Lösung
y(x) = c1 x + c2 x
x
Z
x0
1 s2 /2
e
ds.
s2
Hat man eine Lösungsbasis y1 , y2 der homogenen Gleichung gefunden, dann erhält man wieder durch
den Ansatz
y(x) = c1 (x) · y1 (x) + c2 (x) · y2 (x)
der Variation der Konstanten eine partikuläre Lösung der inhomogenen Gleichung
y ′′ + p1 (x) · y ′ + p0 (x) · y = q(x).
Die Ableitungen c′1 , c′2 der zu bestimmenden Funktionen sollen die zusätzliche Bedingung
c′1 · y1 + c′2 · y2 = 0
erfüllen.
Einsetzen in die Differentialgleichung ergibt das lineare Gleichungssystem
c′1 · y1 + c′2 · y2
c′1 · y1′ + c′2 · y2′
=
=
0
q(x)
.
Die Koeffizientendeterminante ist gleich der Wronski-Determinante, also ungleich Null, d.h. das Gleichungssystem ist (z.B. mit der Cramerschen Regel) eindeutig lösbar.
4.4.4
Lineare Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten
Für eine lineare Differentialgleichung höherer Ordnung ist es i.a. ziemlich schwer, ein Fundamentalsystem zu bestimmen ( - die Konstruktion einer partikulären Lösung mit der Methode der Variation der
Konstanten läuft analog).
Für eine homogene lineare Differentialgleichung n-ter Ordnung mit konstanten Koeffizienten
y (n) +
n−1
X
pk y (k) = 0,
k=0
p0 , p1 , . . . , pn−1 ∈ IR,
macht man den speziellen Lösungsansatz
y(x) = eαx
und erhält das charakteristisches Polynom
r(α) = αn +
n−1
X
pk αk = 0.
k=0
Dieses Polynom hat nach dem Hauptsatz der Algebra genau n (nicht notwendig verschiedene) komplexe
Nullstellen α1 , . . . , αn .
4. Gewöhnliche Differentialgleichungen
62
Zur Bestimmung eines Fundamentalsystems ergeben sich folgende Schritte:
1. Man bestimme alle verschiedenen Nullstellen αj des charakteristischen Polynoms einschließlich
der Ordnung, d.h. wie oft sie als Nullstelle auftreten.
2. Zu jeder k-fachen Nullstelle α ist {eαx , xeαx , . . . , xk−1 eαx } eine linear unabhängige Lösungsmenge
der homogenen Gleichung.
Ist α = β + iγ nicht-reell, dann ersetze man die Lösungsmengen zu α und α durch
{eβx cos γx, xeβx cos γx, . . . , xk−1 eβx cos γx, eβx sin γx, xeβx sin γx, . . . , xk−1 eβx sin γx}.
Satz 4.4.10 Die n durch das obige Verfahren gefundenen Lösungen bilden ein Fundamentalsystem.
Beispiele 4.4.11
(1) y ′′′ − 6y ′′ + 11y ′ − 6y = 0 hat die Lösungsbasis y1 (x) = ex , y2 (x) = e2x , y3 (x) = e3x .
(2) 2y ′′′ − 5y ′′ + 6y ′ − 2y = 0 hat die komplexe Lösungsbasis
y1 (x) = ex/2 ,
y2 (x) = e(1+i)x ,
y3 (x) = e(1−i)x
y2∗ (x) = ex cos x,
y3∗ (x) = ex sin x.
und die reelle Lösungsbasis
y1 (x) = ex/2 ,
(3) y (4) − 4y ′′′ + 5y ′′ − 4y ′ + 4y = 0 hat die komplexe Lösungsbasis
y1 (x) = e2x ,
y2 (x) = xe2x ,
y3 (x) = eix ,
y4 (x) = e−ix
und die reelle Lösungsbasis
y1 (x) = e2x ,
4.4.5
y2 (x) = xe2x ,
y3∗ (x) = cos x,
y4∗ (x) = sin x.
Spezielle Lösungsansätze für die partikuläre Lösung
Hat die Störfunktion eine spezielle Gestalt, ist sie z.B. ein Polynom oder eine Exponentialfunktion
oder Summe oder Produkt solcher Funktionen, dann führen spezielle Ansätze für die Partikulärlösung
yp i.a. schneller als bei der Variation der Konstanten zum Ziel. Der Grundgedanke ist dabei, daß bei
Differentiation solcher Funktionen ähnliche Funktionen entstehen.
Satz 4.4.12 Gegeben sei eine lineare Differentialgleichung n-ter Ordnung mit Störfunktion q(x).
(1) q(x) habe die Form Pm (x) · eαx mit einem Polynom Pm (x) vom Grad m und α ∈ IR:
(a) Ist α nicht Nullstelle des charakteristischen Polynoms, dann setze
αx
yp := Bm (x) · e
mit
Bm (x) :=
m
X
aj xj .
j=0
(b) Ist α Nullstelle des charakteristischen Polynoms der Ordnung k, dann setze
k
αx
yp := x · Bm (x) · e
mit
Bm (x) :=
m
X
j=0
aj xj .
4. Gewöhnliche Differentialgleichungen
63
(2) q(x) habe die Form Pm (x) · eβx · cos γx oder q(x) = Pm (x) · eβx · sin γx mit einem Polynom Pm (x)
vom Grad m und β, γ ∈ IR:
(a) Ist α = β + iγ nicht Nullstelle des charakteristischen Polynoms, dann setze
yp := Bm (x) · eβx · (a cos γx + b sin γx)
mit
Bm (x) :=
m
X
aj xj .
j=0
(b) Ist α = β + iγ Nullstelle des charakteristischen Polynoms der Ordnung k, dann setze
k
βx
yp := x · Bm (x) · e
· (a cos γx + b sin γx)
mit
Bm (x) :=
m
X
aj xj .
j=0
Die unbekannten Koeffizienten von Bm (x) bzw. a, b können durch Einsetzen von yp in die Differentialgleichung und durch Koeffizientenvergleich bestimmt werden.
Die so bestimmten Funktionen yp sind dann partikuläre Lösungen der Differentialgleichung.
Beispiele 4.4.13
(1) y ′′ + y ′ − 2y = x2 .
(2) y ′′ + y ′ = x2 .
(3) y ′′ − 2y ′ + y = x · ex .
(4) y ′′ + y = ex · sin x.
(5) y ′′ + y = sin x.
Ist die Störfunktion eine Summe von Funktionen der Art wie in Satz 4.4.12, dann erhält man eine
partikuläre Lösung mit
Satz 4.4.14 Sind yp und yp∗ partikuläre Lösungen der linearen Differentialgleichungen
y (n) +
n−1
X
pk y (k) = q1 (x)
k=0
und
y (n) +
n−1
X
pk y (k) = q ∗ (x),
k=0
dann ist yp + yp∗ partikuläre Lösung von
y
(n)
+
n−1
X
k=0
Beispiele 4.4.15
(1) y ′′ + 2y ′ − 3y = ex + x2 + 4x − 5.
(2) y ′′ + 2y ′ − y = e3x + sin 2x.
pk y (k) = q(x) + q ∗ (x).
64
5
5.1
Einführung in die Statistik
Einführung
Bislang standen sogenannte deterministische Vorgänge im Vordergrund des Interesses, also Vorgänge,
deren Eintreten sicher vorhergesagt werden kann, wenn die Voraussetzungen dafür gegeben sind. Deterministische Gesetzmäßigkeiten sind z.B. das Fallgesetz, die Wellengleichungen, der Schmelzpunkt einer
Substanz oder chemische Reaktionen.
Im Gegensatz dazu werden wir uns nun mit zufälligen Ereignissen beschäftigen, die unter gegebenen
Voraussetzungen eintreten können, aber nicht müssen. Zufällig ist z.B. die Wartezeit an den Kassen eines
Supermarktes, die Fehleranfälligkeit des neuen Fernsehers oder die Anzahl der Kunden einer Tankstelle
bzw. der Tagesumsatz an Kraftstoffen.
Die Wahrscheinlichkeitsrechnung beschäftigt sich nun mit der Erforschung von Gesetzmäßigkeiten, denen
zufällige Ereignisse unterworfen sind. Die dort gefundenen Ergebnisse ermöglichen es, aus einer relativ
kleinen Anzahl von bekannten Daten auf eine unbekannte Gesamtmenge von Daten zu schließen, also z.B.
aus Stichproben-Befragungen von Wählern Hochrechnungen auf den zu erwartenden Wahlausgang zu
machen. Natürlich werden diese Aussagen nicht mit absoluter Sicherheit eintreffen, sondern nur mit einer
gewissen Wahrscheinlichkeit, aber wie z.B. die Wahlen zeigen, liegen Hochrechnung und ausgezähltes
Endergebnis in den meisten Fällen sehr dicht beieinander.
Beispiele 5.1.1
(1) Der auf einer Großbaustelle eingebrachte Beton wird einer laufenden Qualitätskontrolle unterzogen. Dazu werden in gewissen Zeitabständen Betonwürfel gefertigt und in einer Prüfanstalt auf
ihre Druckfestigkeit untersucht. Bei 40 untersuchten Würfeln ergaben sich die Werte 29, 4; 35, 5;
32, 1; 36, 3; 31, 5; 36, 3; 35, 3; 34, 9; . . .. Hätte man aus jeder eingebrachten Betonmischung
einen Testwürfel gefertigt und auf seine Druckfestigkeit untersucht, dann hätte man die Grundgesamtheit vollständig untersucht. Die untersuchte Teilmenge nennt man eine Stichprobe vom
Umfang n = 40 mit dem Merkmal Druckfestigkeit. Da jede reelle Zahl als Wert angenommen
werden kann, bezeichnet man das Merkmal als stetige Größe.
(2) Zur Fertigungskontrolle werden aus der Tagesproduktion eines Gerätetyps 10 Geräte herausgenommen und untersucht. Die Tagesproduktion ist die Grundgesamtheit, die Menge der untersuchten
Geräte die Stichprobe. Ist ein Gerät in Ordnung, gibt man ihm das Merkmal 1, sonst 0. Hier sind
für das Merkmal nur endlich viele Werte möglich und man bezeichnet es als diskrete Größe.
5.2
Beschreibende Statistik
5.2.1
Häufigkeitsverteilung
Daten von empirischen Untersuchungen müssen in der Regel so aufbereitet werden, daß ein Unbeteiligter sie möglichst rasch einordnen kann. Dazu kann man die Daten, die nach der Erfassung i.a. in
ungeordneter Form in einer Urliste vorliegen, sortieren, sie grafisch darstellen oder sie verdichten, d.h.
an Hand weniger aus den Daten errechneten Kennzahlen charakteristische Eigenschaften herausfiltern.
Wie in den vorangestellten Beispielen unterscheidet man zwischen diskreten Größen und stetigen
Größen.
5. Einführung in die Statistik
65
Diskrete Größen sind z.B. die Anzahlen von Einwohnern verschiedener Stadtteile, oder der Fahrzeuge,
die in einem festen Zeitintervall eine Kreuzung überqueren, oder die Personen pro Haushalt usw., es
können also endlich viele (oder im Grenzfall abzählbar unendlich viele) Werte angenommen werden.
Stetige Größen sind z.B. die Geschwindigkeit der Fahrzeuge, die Reisezeit für eine bestimmte Fahrt
usw., es können also unendlich viele Werte eines Intervalls angenommen werden. Dabei sind die beobachteten Werte entweder Einzelwerte, die mit einer bestimmten Genauigkeit gemessen werden, oder ein
Meßkontinuum, z.B. die Aufzeichnung eines Fahrtenschreibers.
Beispiele 5.2.1
(1) Die Siegener Automobil-Union“ stellte an einem Tag 500 Autos her, und zwar 250 rote, 100 blaue
”
und 150 grüne. Die zu untersuchende Menge sei die Menge E = {e1 , . . . , e500 } dieser Autos, das
festzustellende Merkmal die Farbe, wobei rot“ durch die Zahl a1 = 1, blau“ durch die Zahl
”
”
a2 = 2 und grün“ durch die Zahl a3 = 3 dargestellt werden soll.
”
Die Anzahl der roten Autos heißt die absolute Häufigkeit von a1 und wird mit h1 bezeichnet.
Im Beispiel ist h1 = 250, h2 = 100 und h3 = 150.
Der prozentuale Anteil der roten Autos an der Gesamtproduktion heißt prozentuale Häufigkeit
und wird mit fr′ bezeichnet. Im Beispiel ist f1′ = 50%, f2′ = 20% und f3′ = 30%.
Die Menge der 3 Paare (1; 250), (2; 100) und (3; 150) heißt Häufigkeitsverteilung des Merkmals
A auf E. Man kann die Häufigkeitsverteilung grafisch z.B. durch ein Stabdiagramm oder durch
ein Tortendiagramm darstellen.
Anzahl ✻
250
blau
150
100
rot
grün
✲
rot
blau
grün
Farbe
(2) 150 Familien mit Kindern wurden nach der Zahl ihrer Kinder befragt. Das Ergebnis der Befragung
ist in folgender Tabelle dargestellt:
Kinderzahl ar
abs. Häufigkeit hr
proz. Häufigkeit fr′
1
42
28,0
2
54
36,0
3
36
24,0
4
12
8,0
5
3
2,0
6
1
0,7
7
2
1,3
Z.B. für die Fragestellung, wie viele Familien höchstens 4 Kinder haben, betrachtet man die absolute und relative bzw. prozentuale Summenhäufigkeit (oder kumulierte Häufigkeit) Hr , Fr und
Fr′ . Für das Beispiel der Familien gilt
Kinderzahl ar
kumulierte Häufigkeit Hr
rel. Häufigkeit fr
kum. rel. Häuf. Fr
kum. proz. Häuf. Fr′
1
42
0,2800
0,2800
28,00
2
96
0,3600
0,6400
64,00
3
132
0,2400
0,8800
88,00
4
144
0,0800
0,9600
96,00
5
147
0,0200
0,9800
98,00
6
148
0,0067
0,9867
98,67
7
150
0,0133
1,0000
100,00
5. Einführung in die Statistik
66
Man kann die (Summen-)Verteilungsfunktion grafisch durch eine Treppenfunktion darstellen:
F (x) ✻
1, 0
r
r
4
5
r
r
r
0, 75
r
0, 5
r
0, 25
✲
1
2
3
6
7
x
Aus der Tabelle oder der Zeichnung liest man F (4) = 0, 96 ab, d.h. 96% der Familien haben
weniger als 5 Kinder.
(3) Bei der Abschätzung von gefahrenen Personenkilometern auf einer Bundesstraße wird außer der
Verkehrsstärke auch der Besetzungsgrad“ der PKW’s erhoben. Dazu registriert man an Hand
”
einer Strichliste, mit wie vielen Personen der vorbeifahrende PKW besetzt ist (Urliste).
r
Zahl der Insassen ar
Zahl der PKW’s hr
proz. Anteil der PKW’s fr′
kumul. Häufigkeit Hr
kumul. proz. Häufigk. Fr′
1
1
21
55,3
21
55,3
2
2
8
21,0
29
76,3
3
3
5
13,2
34
89,5
4
4
2
5,3
36
94,8
5
5
1
2,6
37
97,4
6
≥6
1
2,6
38
100,0
Summe
38
100,0
Definition 5.2.2 Sei E = {e1 , . . . , en } die zu untersuchende Menge, X die Merkmalsvariable mit den
verschiedenen Werten {a1 , . . . , am }, m ≤ n. Dann heißt
(a)
Es gilt
hr := #{ei ; xi = ar }
hr
fr :=
n
′
fr := 100 · fr %
m
X
hr = n,
r=1
(b)
Hr :=
absolute Häufigkeit von ar ,
relative Häufigkeit von ar und
prozentuale Häufigkeit von ar .
m
X
r=1
X
fr = 1
und
m
X
fr′ = 100%.
r=1
hi
kumulierte absolute Häufigkeit von ar ,
hi
kumulierte relative Häufigkeit von ar und
ai ≤ar
Fr :=
X
ai ≤ar
F (x) :=
X
fi
relative Häufigkeitsverteilungsfunktion.
ai ≤x
Kann die Merkmalsvariable eine große Zahl von Werten annehmen (oder ist sie stetig), dann gruppiert
man die Daten zur besseren Darstellung in
Klassen (bzw. Intervallen)
Ik = (xuk , xok ].
5. Einführung in die Statistik
67
Dann heißen
h∗k
n
u
x + xok
x∗k := k
2
h∗k := #{ei ; xi ∈ Ik } bzw. fk∗ :=
absolute bzw. relative Klassenhäufigkeit von Ik .
heißt Klassenmitte von Ik .
In dem Beispiel der Familien ergibt sich
Intervalle
abs. Klassenhäufigkeit h∗k
rel. Klassenhäufigkeit fk∗
Klassenmitte
(0,2]
96
0,6400
1
(2,4]
48
0,3200
3
(4,6]
4
0,0267
5
(6,8]
2
0,0133
7
Zur graphischen Darstellung trägt man über den Intervallen Ik Rechtecke auf, deren
Flächen proportional den Klassenhäufigkeiten
sind, und erhält ein Histogramm.
Der Streckenzug, der die Mitten der oberen Rechtecksseiten verbindet, heißt Häufigkeitspolygon.
Beispiel 5.2.3 Bei einer Klausur nahmen 50 Studenten teil. Es waren maximal 100 Punkte zu erreichen.
Die Punkteverteilung war wie folgt:
Punkte
Anzahl
Punkte
Anzahl
6
2
40
1
8
1
41
2
12
2
42
1
13
1
43
1
14
1
46
3
15
1
47
1
17
1
48
1
18
1
50
3
20
2
52
1
23
1
53
2
26
2
55
1
-32
5
10
8
1,25
28
-36
7
14
4
3,5
34
-42
5
10
6
1, 6
39
31
2
56
2
32
1
58
1
33
2
59
1
35
4
61
1
36
1
67
1
38
1
72
1
Bei folgender Klasseneinteilung
Punkte
Anzahl
proz. Häufigk. fr′
Intervalllänge δxr
fr′
Höhe δx
r
Klassenmitte
0-8
3
6
8
0,75
4
-16
5
10
8
1,25
12
-24
5
10
8
1,25
20
-48
6
12
6
2
45
-53
6
12
5
2,4
50,5
-59
5
10
6
1, 6
56
-72
3
6
13
0,46
65,5
-100
0
0
28
0
86
ergibt sich als Histogramm bzw. als Häufigkeitspolygon
r
proz. Häuf. ✻
✻
3
r r
10
r
r
r
r
r
2
r
r
5
1
✲
8 16 24 3236 42 4853 59
72
100
Punkte
r
4 12 20 28 3439 45 56 65, 5
50, 5
✲
86
Punkte
5. Einführung in die Statistik
68
Die Verteilungsfunktion F (x) summiert die relativen Häufigkeiten fr bis r ≤ x bzw. die Flächen des
Histogramms bis zur Stelle x und ergibt sich in dem Beispiel als
bzw.

0, 0075 x




0, 0125 · (x − 8) + 0, 06





0, 035 · (x − 32) + 0, 36



0, 016 · (x − 36) + 0, 5

für
für
für
für
F (x) = 0, 02 · (x − 42) + 0, 6
für



0,
024
·
(x
−
48)
+
0,
72
für




0, 016 · (x − 53) + 0, 84 für




0, 0046 · (x − 72) + 0, 94 für



1
für
0≤x≤8
8 < x ≤ 32
32 < x ≤ 36
36 < x ≤ 42
42 < x ≤ 48
48 < x ≤ 53
53 < x ≤ 59
59 < x ≤ 72
72 < x ≤ 100
F (x) ✻
1, 0
r
r
72
100
r
r
r
r
0, 5
r
r
✲
r
r
8 16 24 3236 42 4853 59
Punkte
Mit Hilfe der Funktion F (x) erhält man z.B. Antworten auf Fragen folgender Art:
1. Wie viele Klausuren haben mehr als 20 aber nicht mehr als 40 Punkte?
Antwort: Der relative Anteil ergibt sich als F (40) − F (20) = 0, 356.
2. Wie muß man die Mindestpunktzahl festlegen, damit 60 % der Teilnehmer bestanden haben?
Antwort: Sei x die Punktzahl, die F (x) Klausuren gerade erreicht haben. Wenn 40 % nicht bestehen, dann ist also x gesucht mit
F (x) = 0, 4,
5.2.2
also
x = 33, 14.
Statistische Maßzahlen
Schon bei der Zusammenfassung der Daten in Klassen reduziert man die Information, um eine größere
Übersichtlichkeit zu gewinnen. Dasselbe Ziel verfolgt die Mittelbildung. Entsprechend der Struktur der
Daten bzw. der Aufgabenstellung sind verschiedene Arten von Mittelwerten gebräuchlich (und sinnvoll).
Das bekannteste Mittel ist das arithmetische Mittel der n Werte x1 , . . . , xn
n
1 X
x :=
xi .
n
i=1
Sind die Daten in einer Häufigkeitsverteilung geordnet, d.h. jeweils hi Objekte haben das Merkmal ai ,
1 ≤ i ≤ m, dann gilt
m
m
X
1X
x=
hi ai =
fi ai .
n
i=1
i=1
Im Fall gruppierter Daten repräsentiert die Klassenmitte die gesamte Klasse. Als Näherungswert verwendet man
m
m
1X ∗ ∗ X ∗ ∗
x∗ =
hi xi =
f i xi .
n
i=1
i=1
Beispiel 5.2.4 Für die Punkteverteilung bei der Klausur ergibt sich x = 36, 84 und x∗ = 35, 89.
Bemerkung 5.2.5 I.a. sind x und x∗ verschieden. Sind die Klassenmitten aber die genauen arithmetischen Mittel der in der Klasse zusammengefaßten Daten, dann sind die Werte gleich.
5. Einführung in die Statistik
69
Das arithmetische Mittel ist die Zahl, für die die Summe der Quadrate der Abstände von den einzelnen
n
X
Werten, also die Funktion F (y) :=
(xi − y)2 , minimal ist. Allerdings ist es empfindlich gegenüber
i=1
Ausreißern“. Zum Beispiel ist das arithmetische Mittel der Vermögen der Bewohner eines Dorfes mit
”
100 Einwohnern größer als 1 Million, wenn 1 Einwohner 100 Millionen besitzt und die anderen besitzlos
sind. Daher betrachtet man manchmal ein gewogenes arithmetisches Mittel
xG =
n
X
Gi xi
i=1
n
X
=
Gi
n
X
gi xi
mit gi :=
i=1
i=1
Gi
n
X
Gi
i=1
mit Gewichten“ Gi .
”
Bemerkungen 5.2.6
(1) Wählt man als Gewichte die absoluten Häufigkeiten, dann erhält man das arithmetische Mittel.
(2) Das gewogene arithmetische Mittel wird z.B. verwendet, wenn Meßwerte mit unterschiedlichen
Genauigkeiten gemessen werden.
(3) Will man den Mittelwert aus n Zahlen berechnen, die arithmetische Mittelwerte aus Stichproben
verschiedenen Umfangs sind, dann wählt man die Umfänge der Stichproben als Gewichte.
Beispiel 5.2.7 Ein Kfz fährt eine Stunde mit einer Geschwindigkeit von 60 km/h und anschließend
zwei Stunden mit 80 km/h. Dann ermittelt man die Durchschnittsgeschwindigkeit
vG =
60 · 1 + 80 · 2
km/h = 73, 3 km/h.
1+2
Für Wachstumserscheinungen ergibt sich als geeigneter Mittelwert das geometrische Mittel
v
u n
uY
n
xg := t
xi .
i=1
Beispiel 5.2.8 In einem Entwicklungsland mit starken Bevölkerungszuwächsen wurden von 1969 bis
1974 folgende Einwohnerzahlen einer kleinen Stadt registriert:
i
1
2
3
4
5
6
Jahr
1969
1970
1971
1972
1973
1974
Einwohnerzahl Ei
24 500
26 210
28 780
30 500
34 420
35 520
Zuwachsfaktor xi
1, 070
1, 098
1, 060
1, 129
1, 032
5. Einführung in die Statistik
70
Der mittlere Zuwachsfaktor ergibt sich als geometrisches Mittel
xg =
√
5
x1 · . . . · x5 = 1, 077.
Da hier eine lückenlose Zeitreihe vorliegt, gilt auch
xg =
r
5
E6
.
E1
Mittelt man Werte, die sich als Quotienten ergeben (wie Geschwindigkeit = Weg/Zeit oder Dichte =
Masse/Volumen, und entspricht der Zähler der Häufigkeit, dann berechnet man das
harmonische Mittel
xh =
n
n
= m
.
n
X
X
1
1
hj
xi
xj
i=1
j=1
Beispiel 5.2.9 Ein Fahrzeug fährt über eine Strecke von 25 km. Da die Strecken unterschiedlich gut
ausgebaut sind, kann man die einzelnen nur mit bestimmten Geschwindigkeiten befahren. Gesucht ist
die durchschnittliche Geschwindigkeit.
i
1
2
3
4
5
6
7
P
Länge hi [km]
1
1
12
3
1
2
5
25
Geschwindigkeit xi [km/h]
30
45
50
65
80
100
120
Reisezeit hxii [h]
0, 0333
0, 0222
0, 2400
0, 0462
0, 0125
0, 0200
0, 0417
0,4159
xi · hi
30
45
600
195
80
200
600
1.750
Die Gesamtstrecke ist 25 km, die Gesamtreisezeit 0, 4159 h die durchschnittliche Geschwindigkeit also
x=
25
= 60, 11 [km/h].
0, 4159
Das arithmetische Mittel der Geschwindigkeiten würde
y=
1750
= 70 [km/h]
25
und eine Reisezeit von 0, 3571 [h] ergeben, was sicher nicht stimmen kann.
Ein anderer möglicher Mittelwert ist der mittlere Wert der nach der Größe geordneten Reihe der Werte,
also der Wert, der die geordnete Reihe in 2 gleiche Teile teilt. Er heißt
Median (oder Zentralwert oder 50 %-Quantil).
5. Einführung in die Statistik
71
Zu seiner Bestimmung sortiert man bei unklassierten Daten die Werte der Größe nach. Ist die Zahl n
der Werte ungerade, dann gibt es stets ein mittleres Element. Ist n gerade, dann wählt man als Median
n
n
Z das arithmetische Mittel der Werte des -ten und des + 1-ten Elements.
2
2
Beispiele 5.2.10
1. Für das Beispiel der Klausur (mit 50 Studenten, unklassiert) ergibt sich Z = 37.
2. In einer Firma gebe es 7 Frauen mit jährlichem Bruttoeinkommen von 70, 70, 70, 80, 80, 80, 180
(in Tausend Euro) und 9 Männer mit jährlichem Bruttoeinkommen von 50, 60, 70, 80, 90, 90, 90,
90, 100. Für die Frauen ergibt sich ein Median von ZF = 80, für die Männer von ZM = 90 und
insgesamt von Z = 80.
Bei einer klassierten Häufigkeitstabelle stellt man fest, in welcher Klasse die absoluten bzw. relativen
n
kumulierten Häufigkeiten bzw. 0, 5 erreichen. Das ist die sogenannte Einfallsklasse [(aj , bj ], in der der
2
Zentralwert liegen muß. Innerhalb dieser Klasse geht man von einem linearen Verlauf aus und bestimmt
Z mit der linearen Interpolation
n
− Hj−1
Z = aj + 2
· (bj − aj )
Hj − Hj−1
bzw.
Z = aj +
0, 5 − Fj−1
· (bj − aj ).
Fj − Fj−1
Beispiele 5.2.11
1. Für das Beispiel der Kinderzahl der Familien ergibt sich unklassiert Z = 2. Aus der Klassenbildung
ergibt sich die Einfallsklasse (0, 2] und
Z =0+
0, 5 − 0
· 2 = 1, 56.
0, 64 − 0
2. Für das Beispiel der Klausur (mit 50 Studenten) ergibt sich bei der Gruppierung aus dem Skript
Z = 36.
Bemerkungen 5.2.12
(1) Das arithmetische Mittel der Einkommen der Frauen aus dem vorigen Beispiel ist xF = 90, das der
Männer xM = 80, und insgesamt ergibt sich x = 84, 375. Je nach Wahl des Mittelwertes verdienen
also die Männer mehr als die Frauen oder umgekehrt, d.h. man kann jeweils nach persönlichem
Geschmack die eine oder die andere Gruppe reicher erscheinen lassen.
(2) Der Median ist weniger empfindlich gegenüber Ausreißern als das arithmetische Mittel. Zum Beispiel drückt das Einkommen von 180 das arithmetische Mittel nach oben, hat aber auf den Median
keine Auswirkungen.
(3) Für klassierte Daten erhält man Z aus der Verteilungsfunktion , nämlich als Wert F −1 (0, 5). Man
kann Z daher auch aus dem Graphen von F ablesen.
5. Einführung in die Statistik
72
(4) Betrachtet man statt der Summe der quadratischen Abweichungen die Betragssumme der Abweichungen der Einzelwerte von einem Wert a
f (a) :=
n
X
k=1
|xk − a|,
dann nimmt f bei a = Z ihr Minimum an.
Der Mittelwert ist allein zu wenig aussagekräftig. Zum Beispiel ergeben beide Meßreihen 1; 5; 10; 15; 19
und 9; 9; 10; 11; 11 sowohl den arithmetischen Mittelwert 10 als auch den Meridian 10. Man ergänzt
daher den Mittelwert durch einen Streuparameter“, der erkennbar macht, ob die Meßwerte dicht um
”
den Mittelwert liegen oder stark nach oben bzw. unten abweichen.
Definition 5.2.13 Gegeben seien die n Beobachtungswerte x1 , x2 , . . . , xn . Ist x das arithmetische Mittel, a ein beliebiger Wert, dann heißt
s2a :=
n
1 X
(xi − a)2
n−1
mittlere quadratische Abweichung von a,
i=1
n
1 X
(xi − x)2
n−1
i=1
v
u
n
u 1 X
t
s :=
(xi − x)2
n−1
s2 :=
Varianz,
Standardabweichung.
i=1
Bemerkungen 5.2.14
(1) Die mittlere quadratische Abweichung nimmt bei a = x ihr Minimum an. Der Nenner n − 1 wird
(statt des eigentlich logischen Nenners n) im Hinblick auf die Anwendung bei Stichproben gewählt.
(2) Treten die verschiedenen Werte a1 , . . . , am mit der Häufigkeit hj , 1 ≤ j ≤ m ≤ n, auf, dann gilt
m
1 X
s2 =
hj (aj − x)2 .
n−1
j=1
m
1 X ∗ ∗
(3) Im Fall gruppierter Daten verwendet man als Varianz (s ) =
hj (xj − x∗ )2 .
n−1
∗ 2
j=1
Beispiel 5.2.15 Für die beiden Meßreihen ergibt sich eine Standardabweichung von 7, 28 bzw. 1.
Manchmal informativer als die Variation ist der
Variationskoeffizient
ν :=
s
,
x
der die Variation in Relation zum arithmetischen Mittel setzt.
Neben Varianz und Standardabweichung betrachtet man als Streuparameter die
Spannweite
R := xmax − xmin
5. Einführung in die Statistik
73
und den
Quartilsabstand Q := x75% − x25% ,
der die 25% kleinsten und 25% größten Merkmalsausprägungen nicht berücksichtigt und vom Rest
die Spannweite angibt. Natürlich ist der Quartilsabstand wesentlich robuster gegen Ausreißer als die
Bandbreite.
5.3
Zufallsvariable und ihre Verteilungen
5.3.1
Zufallsvariable und Wahrscheinlichkeit
Wie beim Beispiel der Betonwürfel werden die untersuchten Massen in der Regel nicht die Grundgesamtheit darstellen, sondern eine Stichprobe darstellen. Grundlage der beurteilenden Statistik sind die
Zufallsvariable und ihre Verteilungen. Einen Prozeß, der nicht eindeutig durch die äußeren Bedingungen
festgelegt ist, nennt man einen zufälligen Versuch oder Zufallsexperiment. Dabei setzt man voraus,
daß der Versuch
• unter gleichbleibenden Bedingungen abläuft,
• (zumindest theoretisch) beliebig oft wiederholt werden kann,
• mehrere einander ausschließende Ergebnisse haben kann und das Ergebnis im konkreten Fall nicht
sicher vorausgesagt werden kann.
Das Ergebnis des Versuchs heißt Ereignis. Tritt ein Ereignis bei jeder Wiederholung des Versuchs auf,
dann heißt es sicheres Ereignis, tritt es nie auf, unmögliches Ereignis.
Beispiel 5.3.1 Ein Standardbeispiel ist das Würfeln mit einem idealen Würfel mit den Augenzahlen 1
bis 6. Die Zufallsgröße W sei die erzielte Augenzahl. Ereignisse sind dann z.B.
(a) Wi : W = i (1 ≤ i ≤ 6)
(b) Wg : W ist gerade,
(c) W2+ : W > 2
(d) W2+0 : W ≥ 2.
Wu : W ist ungerade
Ω : W ∈ {1, 2, 3, 4, 5, 6} ist das sichere Ereignis, ∅ : W ∈
/ {1, 2, 3, 4, 5, 6} das unmögliche Ereignis.
Man stellt ein Ereignis durch die Menge dar, die als Elemente alle möglichen auftretenden Ergebnisse
hat, z.B. das Ereignis der geraden Augenzahl beim Würfeln durch W ∈ {2, 4, 6}.
Ein Ereignis, das durch eine 1-elementige Menge dargestellt wird, heißt Elementarereignis. Beim
Würfeln gibt es die 6 Elementarereignisse W1 , . . . , W6 .
Bedeutet das Ereignis C, daß das Ereignis A oder das Ereignis B (oder A und B) eintritt, dann schreibt
man C = A ∪ B. Es gilt z.B. Wg = W2 ∪ W4 ∪ W6 .
Definition 5.3.2 Wir betrachten einen Versuch mit zugehöriger Ereignismenge Ω.
Eine Funktion X : Ω → IR heißt Zufallsvariable (d.h. man ordnet jedem Ereignis eine reelle Zahl zu).
Hat X endlich viele oder abzählbar viele Werte, dann heißt sie diskret, ist jeder Wert eines Intervalls
Funktionswert von X, dann heißt sie stetig.
Bei Wiederholung eines Versuchs beobachtet man, daß bestimmte Ereignisse häufiger auftreten als
andere. Dies wird durch den Begriff der Wahrscheinlichkeit ausgedrückt: Einer Zahl zwischen 0 und
1. Dabei bedeutet 0, 8, daß bei einer großen Zahl von Beobachtungen in 80 % der Fälle mit dem Eintreten
des Ereignisses zu rechnen ist. Für die Wahrscheinlichkeit legt man gewisse Fundamentalregeln fest:
5. Einführung in die Statistik
74
(1) Jedem Ereignis A wird eine reelle Zahl P (A) aus dem Intervall [0, 1] zugeordnet. Weiter gilt
P (Ω) = 1 und P (∅) = 0.
[ X
(2) Sind die Ereignisse Ai paarweise unabhängig, dann gilt P
P (Ai ). (Dabei kann man
Ai =
sowohl über endlich viele als auch abzählbar viele Ereignisse die Vereinigung und Summe bilden.)
Beispiele 5.3.3
1
1
und damit P (Wg ) = .
6
2
Betrachtet man die (diskrete) Zufallsvariable X mit X(Wg ) = 0, X(Wu ) = 1, (d.h. X ist 0, wenn
die Augenzahl gerade ist, und X ist 1, wenn die Augenzahl ungerade ist,) dann gilt
(1) Bei einem idealen Würfel ist P (Wi ) =
P (X = 0) = P (X = 1) =
1
.
2
(2) Würfelt man gleichzeitig mit zwei idealen Würfeln, dann ergeben sich 36 Elementarereignisse mit
1
Wahrscheinlichkeit
.
36
Betrachtet man als Zufallsvariable X die erzielte Augenzahl mit Wertebereich {2, 3, 4, . . . , 12},
dann gilt
Augenzahl Xi
2
3
4
5
6
7
8
9
10
11
12
pi := P (X = Xi )
1
36
2
36
3
36
4
36
5
36
6
36
5
36
4
36
3
36
2
36
1
36
.
Betrachtet man als Zufallsvariable X das Produkt der einzelnen Augenzahlen, dann gilt
Produkt Xi
1
2
3
4
5
6
8
9
10
12
15
16
18
20
24
25
30
36
pi
1
36
2
36
2
36
3
36
2
36
4
36
2
36
1
36
2
36
4
36
2
36
1
36
2
36
2
36
2
36
1
36
2
36
1
36
Die in den Tabellen dargestellten Menge der Paare {(xi , pi ); pi = P (X = xi )} heißt Wahrscheinlichkeitsverteilung der diskreten Zufallsvariablen X. Man kann sie durch Säulendiagramme darstellen. Im
letzten Beispiel ergeben sich die Diagramme
36 · p ✻
36 · p ✻
6
5
4
3
2
1
6
5
4
3
2
1
✲
2 3 4 5 6 7 8 9 10 11 12
X
✲
1 2 3 4 5 6 8 9 10 12 15 16 18 20 24 25 30 36
X
.
5. Einführung in die Statistik
75
Um die Wahrscheinlichkeit P (a < X ≤ b) dafür zu berechnen, daß X einen Wert zwischen a und b
annimmt, ist die
Verteilungsfunktion
F (x) := P (X ≤ x) : IR → [0, 1]
der Zufallsvariablen nützlich.
Für eine diskrete Zufallsvariable X mit Werten pi gilt
X
X
pi
und
P (a < X ≤ b) =
pi = F (b) − F (a).
F (x) =
xi ≤x
a<xi ≤b
Für die Augensumme bei zweimaligem Würfeln folgt
x∈
F (x)
(−∞, 2)
0
[2, 3)
1
36
3
36
6
36
10
36
15
36
21
36
26
36
30
36
33
36
35
36
[3, 4)
[4, 5)
[5, 6)
[6, 7)
[7, 8)
[8, 9)
[9, 10)
[10, 11)
[11, 12)
[12, ∞)
F (x) ✻
1, 0
r
r
r
r
r
r
0, 5
r
r
r
r
✲
r
2
3
4
5
6
7
8
9 10 11 12
x
1
Entsprechend der Charakterisierung von Häufigkeitsverteilungen betrachtet man entsprechende Maßzahlen. Dem arithmetischen Mittel entspricht bei der Wahrscheinlichkeitsverteilung der Erwartungswert,
als Streuparameter ergibt sich analog die Varianz:
Definition 5.3.4 Sei X eine diskrete Zufallsvariable mit Werten x1 , x2 , . . . und zugehörigen Wahrscheinlichkeiten p1 , p2 , . . .. Dann heißt
X
E(X) :=
xi · p i
Erwartungswert von X,
i
V ar(X) :=
X
i
σ(X) :=
p
(xi − E(X))2 · pi
V ar(X)
Varianz von X,
Standardabweichung.
5. Einführung in die Statistik
76
Beispiel 5.3.5 Auf einem Jahrmarkt kann man beim Würfeln mit zwei Würfeln Geld gewinnen:
Der Einsatz ist 1 Euro. Ist die Augensumme 11, dann erhält man 5 Euro, bei Augensumme 12 erhält
man 20 Euro, in den anderen Fällen nichts.
Der Gewinn ist eine diskrete Zufallsvariable X mit den Werten
x1 = 20 − 1 = 19 bei Augensumme 12,
x2 = 5 − 1 = 4 bei Augensumme 11 und
x3 = 0 − 1 = −1 sonst.
Mit
p1 =
1
,
36
ergibt sich der Erwartungswert E = −
Standardabweichung σ(X) ≈ 3, 44.
p2 =
2
,
36
p3 = 1 − p1 − p2 =
33
36
1
Euro ≈ −17 Cents, die Varianz V ar(X) ≈ 11, 81 und die
6
Für eine stetige Zufallsvariable möchte man die Summendarstellung durch ein Integral ersetzen und
betrachtet dazu Wahrscheinlichkeitsverteilungen und Zufallsvariable mit einer
Dichtefunktion
f (x) : IR → [0, 1],
die folgende Eigenschaften erfüllt:
1. f (x) ≥ 0 für alle x ∈ IR,
Z ∞
2.
f (x) dx = 1,
−∞
3. P (a < X ≤ b) =
Z
b
f (x) dx
a
für alle a ≤ b.
Für die Verteilungsfunktion gilt dann
Z x
F (x) =
f (t) dt
und
−∞
P (a < X ≤ b) = F (b) − F (a) =
Z
b
f (t) dt.
a
Die Wahrscheinlichkeit dafür, daß X einen Wert zwischen a und b annimmt, ist also gleich der Fläche
unter Kurve der Dichtefunktion f (t) zwischen a und b.
Als entsprechende Maßzahlen ergeben sich
Definition 5.3.6 Sei X eine stetige Zufallsvariable mit der Dichtefunktion f (x). Dann heißt
Z ∞
E(X) :=
x · f (x) dx
Erwartungswert von X,
−∞
V ar(X) :=
Z
∞
−∞
σ(X) :=
p
(x − E(X))2 · f (x) dx
V ar(X)
Varianz von X,
Standardabweichung.
Mit Hilfe der Wahrscheinlichkeitsverteilung läßt sich eine Zufallsgröße umfassend beschreiben. Im folgenden wird eine kleine Auswahl von Verteilungen behandelt, die für praktische Anwendungen besonders
wichtig sind.
5. Einführung in die Statistik
5.3.2
77
Diskrete Gleichverteilung
Wir nehmen an, daß alle n Realisierungen einer diskreten Zufallsgröße X mit derselben Wahrscheinlich1
keit p = auftreten. Als Verteilungsfunktion ergibt sich die Treppenfunktion
n
F (x) = P (X ≤ x) =
X
P (X = xj ) =
xj ≤x
Der Erwartungswert ist
E(X) =
j
X
i=1
n
X
i=1
pi = j ·
1
n
für xj ≤ x < xj+1 .
n
1 X
xi p i =
xi = x,
n
i=1
also gleich dem arithmetischen Mittel, und die Varianz ist
σ 2 (X) = V ar(X) =
n
n
X
1 X 2
(xi − x)2 pi =
xi − x2 .
n
i=1
5.3.3
i=1
Binomialverteilung
Wir betrachten einen zufälligen Versuch, der genau zwei Ergebnisse A und A hat. Es interessiert die
Frage, wie oft bei n-maliger Wiederholung das Ereignis A eintritt. Die Zufallsgröße X ist also die zufällige
Anzahl der Beobachtungen mit Ergebnis A. X kann damit genau die Werte 0, 1, 2, . . . , n annehmen. Sie
ist vollständig charakterisiert, wenn es gelingt, die Wahrscheinlichkeit für das Auftreten jedes dieser
Werte von X, d.h. P (X = k) = pk , 0 ≤ k ≤ n, anzugeben.
Wir legen noch als Voraussetzungen fest:
- Es gibt nur zwei verschiedene, sich gegenseitig ausschließende Versuchsergebnisse A und A.
- Die Wahrscheinlichkeiten von A und A sind bei jedem Versuch gleich, und zwar P (A) = p, P (A) =
q = 1 − p.
- Die einzelnen Versuche sind voneinander unabhängig, d.h. das Ergebnis eines Versuches darf nicht
von den vorhergehenden Versuchen abhängen und nicht nachfolgende Versuche beeinflussen.
Beispiel 5.3.7 Es sind n gleichartige Geräte auf ihre Funktionstüchtigkeit zu prüfen. Das Ereignis A
bedeute, daß das Gerät intakt ist, A, daß es defekt ist. Zu bestimmen ist die Wahrscheinlichkeit dafür,
daß genau k Geräte intakt sind. Es ergibt sich
n k
P (X = k) =
p (1 − p)n−k .
k
Definition 5.3.8 Eine diskrete Zufallsgröße X heißt binomialverteilt mit den Parametern n und p,
wenn ihre n + 1 Realisierungen 0, 1, 2, . . . , n mit den Einzelwahrscheinlichkeiten
n k
pk = P (X = k) =
p (1 − p)n−k
k
auftreten. X heißt B(n;p)-verteilt.
5. Einführung in die Statistik
Die Verteilungsfunktion ist
F (x) =
X
pk =


k≤x


1
xk ≤x
der Erwartungswert


0 


X n
k
78
für x < 0
pk (1 − p)n−k
für 0 ≤ x < n ,
für x ≥ n
n
X
n k
k
p (1 − p)n−k = np,
E(X) =
k
k=0
die Varianz
V ar(X) =
n
X
k=0
und der Variationskoeffizient
k2
n k
p (1 − p)n−k − n2 p2 = np(1 − p)
k
σ(X)
ν=
=
E(X)
r
1−p
.
np
Beispiele 5.3.9
(1) Wir betrachten nochmals das obige Beispiel mit den Geräten. Jedes der Geräte sei mit einer
Wahrscheinlichkeit von p = 95 % intakt, und es werden 100 Geräte geprüft. Der Erwartungswert
ist dann
E(X) = 100 · 0, 95 = 95
und die Standardabweichung
p
p
σX = np(1 − p) = 100 · 0, 95 · 0, 05 ≈ 2, 18.
Für die Wahrscheinlichkeit, daß höchstens 2 der 100 Geräte defekt sind, erhält man
100 X
100
P (X ≥ 98) =
0, 95k · 0, 05100−k = 0, 1183,
k
k=98
d.h. in 88,17 % der Fälle kann man mit mehr als 2 defekten Geräten rechnen.
(2) Ein Schütze trifft mit der Wahrscheinlichkeit p = 0, 6 das Ziel. Mit welcher Wahrscheinlichkeit
trifft er das Ziel bei 10 Schüssen genau einmal?
Ist die Zufallsgröße x die Anzahl der Treffer, dann gilt
10
p · (1 − p)9 = 10 · 0, 6 · 0, 49 ≈ 0, 0016.
P (X = 1) =
1
Genau ein Treffer ist also recht unwahrscheinlich.
Die Wahrscheinlichkeit, daß mindestens einmal getroffen wird, ist
10 0
P (X ≥ 1) = 1 − P (X = 0) = 1 −
p · (1 − p)10 = 1 − 0, 410 = 1 − 0, 0001 = 0, 9999.
0
Die Bestimmung der Werte bei einer Binomialverteilung ist oft mühsam und aufwendig. Deshalb benutzt
man oft Tabellen, in denen die entsprechenden Werte schon angegeben sind.
5. Einführung in die Statistik
79
Ist X die Anzahl des Eintreffens von A, X ′ die Anzahl des Eintreffens von A, und ist X B(n;p)-verteilt,
dann ist X ′ B(n;1-p)-verteilt, es gilt
P (X = k) = P (X ′ = n − k),
und für die Verteilungsfunktionen gilt
Fp (X) = 1 − F1−p (n − x − 1).
Damit genügt es, Tabellen der Binomialverteilung für p ≤
1
zu erstellen.
2
Für großes n und kleines p erhält man als eine Näherung, die die manchmal aufwendigen Berechnungen
bzw. die Tabellen unnötig macht,
P (X = k) ≈
5.3.4
(np)k −np
e
k!
(Poissonsche Näherungsformel).
Stetige Gleichverteilung
Ist die Dichtefunktion in einem Intervall [a, ] konstant und sonst Null, d.h.

 1
für x ∈ [a, b]
f (x) = b − a
,

f (x) = 0 sonst
dann nennt man die zugehörige Zufallsgröße stetig gleichverteilt.
Als Verteilungsfunktion ergibt sich die Funktion

0




Z

x−a
F (x) = P (X ≤ x) =
f (t) dt =

b−a
t≤x




1
für x ≤ a
für a ≤ x ≤ b .
für a ≤ x
Der Erwartungswert ist
E(X) =
Z
∞
−∞
xf (x) dx =
Z
∞
∞
x
1
a+b
dx =
,
b−a
2
also wieder das arithmetische Mittel, und die Varianz ist
Z ∞
(b − a)2
2
.
σ (X) = V ar(X) =
(x − E(x))2 f (x) dx =
12
−∞
5. Einführung in die Statistik
5.3.5
80
Normalverteilung
Die Normalverteilung oder Gauß-Verteilung ist dadurch gekennzeichnet, daß ihre Realisierungen vollkommen symmetrisch um den Erwartungswert liegen. Diese Symmetrie tritt auf, wenn die Zufallsgröße
durch Überlagerung vieler einzelner relativ geringfügiger Einflüsse bestimmt wird.
Definition 5.3.10 Für die Dichtefunktion
1
−1
f (x) = √ e 2
σ 2π
(x−µ)
σ
2
heißt die zugehörige stetige Zufallsvariable X
normalverteilt mit den Parametern µ und σ,
kurz N(µ;σ)-verteilt.
Die Graph der Dichtefunktion ist als Gaußsche Glockenkurve“ bekannt und zusammen mit dem Bild
”
von Gauß auf dem Zehn-Mark-Schein abgebildet.
1
f ist symmetrisch bezüglich x = µ und hat ihr Maximum in x = µ mit f (µ) = √ .
σ 2π
In µ ± σ liegen die Wendepunkte von f .
Die Fläche unterhalb der Kurve muß (unabhängig von der Wahl von µ und σ) konstant gleich 1 sein
(das war eine der Forderungen an die Dichtefunktion), und das Maximum ist umso größer, je kleiner σ
ist, d.h. bei kleinem σ fällt die Dichtekurve relativ rasch auf beiden Seiten und der überwiegende Teil
der Fläche konzentriert sich um x = µ.
Als Verteilungsfunktion ergibt sich die Funktion
2
Z x
Z x
1
− 12 (t−µ)
σ
F (x) =
f (t) dt = √
e
dt.
σ 2π −∞
−∞
Der Erwartungswert ist
∞
1
E(X) =
xf (x) dx = √
σ 2π
−∞
Z
die Varianz ist
1
σ (X) = V ar(X) = √
σ 2π
σ
und der Variationskoeffizient ν = .
µ
2
Z
∞
−∞
Z
∞
− 12
xe
(x−µ)
σ
2
dx = µ,
∞
1
2 −2
(x − µ) e
(x−µ)
σ
2
dx = σ 2
Die Parameter µ und σ sind also identisch mit dem Erwartungswert und der Standardabweichung. Aus
Symmetriegründen gilt
1
F (µ) = P (X ≤ µ) = P (X ≥ µ) = .
2
Durch Übergang zu der neuen Zufallsgröße
U :=
X −µ
σ
5. Einführung in die Statistik
81
transformiert man die Kurve von f (x) zu einer Kurve symmetrisch zur x-Achse mit Wendepunkten in
±1. Die neue Dichtefunktion ist
u2
1 (− )
2
φ(u) = √ e
2π
und die Verteilungsfunktion
t2
Z u
(− )
1
Φ(u) = √
e 2 dt.
2π −∞
U heißt standardisiert normalverteilt oder N(0;1)-verteilt.
Ist X N(µ;σ)-verteilt und kennt man die Standard-Normalverteilung, dann kennt man wegen
b−µ
a−µ
b−µ
F (b) = P (X ≤ b) = Φ
, P (a < X ≤ b) = F (b) − F (a) = Φ
−Φ
σ
σ
σ
auch die Verteilung von X. Es reicht also aus, die Funktion Φ(u) zu vertafeln, und wegen
Φ(−u) = 1 − Φ(u) nur für die Werte u > 0.
φ(u) ✻
Φ(u) ✻
0, 4
1, 0
0, 3
0, 75
0, 2
0, 5
0, 1
0, 25
✲
−3
−2
−1
1
2
3
u
✲
−3
−2
−1
5.4
Einführung in die schließende Statistik
5.4.1
Stichproben, Schätzfunktionen
1
2
3
u
Bisher wurde immer angenommen, daß die Verteilungsfunktionen einschließlich der Parameter bekannt
sind. Wir wollen nun aber Aussagen machen, ohne die gesamte Grundmenge in die Untersuchung einzubeziehen. Dazu untersuchen wir nur eine Teilmenge, d.h. eine Stichprobe, und versuchen, Rückschlüsse
auf die Grundmenge zu machen.
Definition 5.4.1 Wird durch Zufallsauswahl eine Teilmenge der Grundmenge bestimmt, dann heißt die
Teilmenge (Zufalls-) Stichprobe und die Zahl ihrer Elemente Umfang der Stichprobe. Das Bestimmen der Elemente heißt Ziehen der Stichprobe. Jedes Element der Grundmenge muß eine angebbare
Wahrscheinlichkeit besitzen, gezogen zu werden.
Ist die Wahrscheinlichkeit für alle Elemente der Grundmenge gleich und unabhängig davon, welche
Elemente schon gezogen wurden, dann heißt die Stichprobe einfach. Eine einfache Stichprobe ist eigentlich nur bei unendlichen Grundmengen möglich, aber in der Praxis spricht man auch von einfachen
Stichproben, wenn die Stichprobe nicht mehr als 5 % der Elemente der Grundmenge enthält.
5. Einführung in die Statistik
82
Beispiele 5.4.2
(1) Für eine Einkommensuntersuchung betrachtet man z.B. die männlichen und weiblichen Arbeitnehmer jeweils getrennt und zieht für jede Gruppe eine einfache Stichprobe. Die gesamte Stichprobe
heißt dann geschichtete Stichprobe.
(2) Zur Bestimmung des Kaufverhaltens teilt man die zu untersuchende Grundmenge in Teilmengen
( Klumpen“) auf, wählt zufällig einige Klumpen aus und untersucht diese vollständig. Natürlich
”
können Ungenauigkeiten auftreten, wenn z.B. einzelne Klumpen regionale oder andere Besonderheiten aufweisen.
Für eine einfache Stichprobe vom Umfang n mit den Werten x1 , . . . , xn betrachtet man entsprechende
Parameter wie bei der statistischen Erfassung der Grundmenge mit k Elementen: Man nennt analog
n
1 X
x :=
xi
n
das arithmetische Mittel der Stichprobe,
i=1
n
1 X
(xi − x)2
s :=
n−1
i=1
v
u
n
u 1 X
s :=t
(xi − x)2
n−1
2
die Varianz der Stichprobe,
die Standardabweichung der Stichprobe und
i=1
p̃ :=
n
k
den Anteil der Stichprobe.
Die so berechneten Werte sind Schätzwerte für die entsprechenden Parameter der Grundmenge. Für
andere einfache Stichproben ergeben sich andere Werte. Die Werte sind also Ausprägungen von entsprechenden Zufallsvariablen, dem Stichproben-Mittel X, der Stichproben-Varianz S 2 und dem
Stichproben-Anteil P̃ . Man nennt diese Zufallsvariablen Schätzfunktionen.
Damit kann man mit Hilfe der Verteilungsfunktionen der Schätzfunktionen die Genauigkeit“ eines
”
Schätzwertes beurteilen. Es gilt
Satz 5.4.3 Es sei X eine Zufallsvariable mit dem Erwartungswert µ := E(X) und der Varianz σ 2 .
Dann gilt:
σ2
(a) Die Zufallsvariable X (Stichproben-Mittel) hat den Erwartungswert µ und die Varianz
, d.h.
n
σ
die Standardabweichung √ .
n
σ
(b) Ist X N(µ;σ)-verteilt, dann ist X N(µ;√ )-verteilt.
n
X −µ
sind asymptotisch normalverteilt, d.h. mit wachsendem n
σ
nähert sich die Verteilung von X immer mehr der N(µ;σ)-Verteilung und Z der N(0;1)-Verteilung.
(c) Die Zufallsvariablen X und Z :=
Bemerkung 5.4.4 Wegen E(X) = µ streuen die Werte x um µ. Die Streuung wird umso kleiner, je
größer n ist, und damit wird eine Schätzung des arithmetischen Mittels der Grundmenge durch den
Mittelwert einer Stichprobe mit wachsendem Stichprobenumfang besser.
5. Einführung in die Statistik
83
Beispiel 5.4.5 Der Benzinverbrauch bei einem bestimmten Kfz-Typ ist i.A. nicht für alle Kfz’s dieses
Typs gleich, kann also als Zufallsvariable aufgefaßt werden. Ist der Verbrauch normalverteilt mit µ =
10Liter/100 km und σ = 1Liter/100 km, dann ist der durchschnittliche Verbrauch von 25 Autos
1
1
N(10; )-verteilt und von 100 Autos N(10; 10
)-verteilt.
5
Die Wahrscheinlichkeit, daß der Durchschnittsverbrauch bei 25 Autos zwischen 9, 8 und 10, 2 liegt, ist
p1 = 0, 6826, und dafür, daß bei 100 Autos der Durchschnittsverbrauch über 10,2 liegt, p2 = 0, 0228.
Umgekehrt kann man nach einem Intervall [µ − ∆, µ + ∆] suchen, in dem der Durchschnittsverbrauch
der Stichprobe mit einer gegebenen Wahrscheinlichkeit p liegt. Zum Beispiel erhält man bei 25 Autos
und einer Wahrscheinlichkeit von p = 90 % das Intervall um µ = 10 mit ∆ = 0, 329.
5.4.2
Konfidenzintervalle
Eine einzige Stichprobe, d.h. eine sogenannte Punktschätzung, erlaubt natürlich keine Aussage über
die Genauigkeit einer Schätzung. Um eine Angabe über die Sicherheit der Schätzung eines Parameters
zu erhalten, konstruiert man ein Intervall [A, B], das den wahren Wert des Parameters mit einer vorgegebenen Wahrscheinlichkeit überdeckt. Das ist eine ähnliche Aufgabenstellung wie im vorigen Beispiel,
in dem aber der Erwartungswert vorgegeben war.
Definition 5.4.6 Erhält man mit einer vorgegebenen Wahrscheinlichkeit p = 1 − α auf Grund einer Stichprobe ein Intervall [A, B], das einen unbekannten Parameter v mit der Wahrscheinlichkeit
p enthält, dann heißt dieses Intervall Konfidenzintervall (oder Vertrauensintervall) für v. A und B
heißen Konfidenzgrenzen, p Konfidenzniveau oder statistische Sicherheit und α Irrtumswahrscheinlichkeit.
Die Konfidenzgrenzen werden aus Stichproben bestimmt und sind also von der speziellen Stichprobe
abhängig, also wieder Zufallsgrößen.
Beispiel 5.4.7 Eine Maschine schneidet Stahlbleche automatisch auf eine vorher fest eingestellte Länge.
Aus vorherigen Messungen der Fertigungsprozesse kennt man die Standardabweichung σ = 2, 2 cm.
Gesucht ist ein Konfidenzintervall für die mittlere Länge der Bleche bei einer Wahrscheinlichkeit von
p = 95 %, wenn eine Stichprobe von n = 40 Blechen die mittlere Länge x = 80, 5 cm ergeben hat.
Für die Bestimmung eines Konfidenzintervalls [A, B] bei bekannter Varianz σ 2 ergibt sich folgendes
Verfahren:
(1) Wähle eine Wahrscheinlichkeit p = 1 − α als Konfidenzniveau.
(2) Bestimme z aus der Tafel der Standard-Normalverteilung mit
P (−z ≤ Z ≤ z) = p
(3) Berechne x =
n
1 X
xi der Stichprobe.
n
bzw.
Φ(z) =
1+p
.
2
i=1
σ
(4) Berechne ∆ = z · √ . Damit ergibt sich A = x − ∆ und B = x + ∆.
n
5. Einführung in die Statistik
84
Für das Beispiel ergibt sich als Konfidenzintervall 79, 818 ≤ µ ≤ 81, 182.
Analog kann man auch die Frage beantworten, wie groß eine Stichprobe sein muß, damit mit einer
statistischen Sicherheit p das Konfidenzintervall eine vorgegebene Länge hat.
Ist die Standardabweichung σ unbekannt, dann kann man für große Stichproben (Faustregel n ≥ 30) σ
durch die Standardabweichung der Stichprobe, also durch
v
u
n
u 1 X
t
s=
(xi − x)2
n−1
i=1
approximieren.
Index
Ableitung
partielle, 31
partielle ∼ n-ter Ordnung, 32
Richtungs-, 35
Abstand, 2
Anfangswertproblem, 51
Anteil
einer Stichprobe, 82
Stichproben-∼, 82
Ausgleichsgerade, 38
Ausgleichsrechnung, 38
B(n;p)-verteilt, 77
Basis, 1
Betrag, 2
Binomialverteilung, 77
C,
I 48
charakteristisches Polynom, 61
Dichtefunktion, 76
Differential
totales, 35
Differentialgleichung, 50
exakte, 56
explizite, 51
homogene lineare, 58
implizite, 51
inhomogene lineare, 58
Lösung, 50
lineare, 57
Ordnung, 51
Stammfunktion, 56
differenzierbar
partiell, 31
stetig, 34
vollständig, 33
Dreiecksungleichung, 2
Einheitsvektor, 2
Elementarereignis, 73
Ereignis, 73
sicheres, 73
unmögliches, 73
Erwartungswert, 75, 76
Euler-Formel, 50
Extremum, 36
absolutes, 36
mit Nebenbedingungen, 39
relatives, 36
Fehler
absoluter, 34
relativer, 34
Fundamentalsystem, 58
Funktion
implizite, 41
stetige, 30
Funktionaldeterminante, 45
Gauß-verteilt, 80
gleichverteilt
diskret, 77
stetig, 79
Gradient, 35
Häufigkeit
absolute, 66
kumulierte absolute, 66
kumulierte relative, 66
prozentuale, 66
relative, 66
Häufigkeitspolygon, 67
Häufigkeitsverteilung, 65
Häufigkeitsverteilungsfunktion
relative, 66
Höhenlinie, 29
Hesse-Matrix, 38
Hessesche Normalform, 3
Histogramm, 67
Hyperebene, 3
imaginäre Einheit, 48
Imaginärteil, 48
Integral
Bereichs-, 42
integrierender Faktor, 57
Irrtumswahrscheinlichkeit, 83
Isokline, 55
Isoquante, 29
Kettenregel, 35
Klassen, 67
Klassenhäufigkeit, 67
Klassenmitte, 67
85
INDEX
Konfidenzgrenze, 83
Konfidenzintervall, 83
Konfidenzniveau, 83
konjugiert komplex, 49
Koordinaten
Kugel-, 28
Polar-, 27
Zylinder-, 27
Kovarianz, 39
Kreuzprodukt, 3
Kugelkoordinaten, 28
Lagrange
-Funktion, 39
-sche Multiplikationsregel, 39
-sche Multiplikatoren, 39
linear abhängig, 1
linear unabhängig, 1
lineares Optimierungsproblem, 11
Basis, 14
Basisdarstellung, 14
Basislösung, 14
Basisvariable, 14
Lösung, 12
Nebenbedingungen, 11
Nichtnegativbedingungen, 11
optimale Lösung, 12
Zielfunktion, 11
zulässige Basislösung, 14
zulässige Lösung, 12
Linearkombination, 1
Linienelement, 55
Maximum, 36
absolutes, 36
relatives, 36
Median, 70
Minimum, 36
absolutes, 36
relatives, 36
Minimum-Problem, 17
Mittel
arithmetisches, 68
arithmetisches ∼ einer Stichprobe, 82
gewogenes arithmetisches, 69
Stichproben-∼, 82
Moivre-Formel, 50
N(µ;σ)-verteilt, 80
N(0;1)-verteilt, 81
Nebenbedingungen, 11
Nichtnegativbedingungen, 11
Niveaufläche, 29
Niveaulinie, 29
Nord-West-Ecken-Regel, 21
Normalbereich, 43
Normalenvektor, 3
Normalform, 3, 57
normalverteilt, 80
standardisiert, 81
Optimierungsproblem
lineares, 11
Ordnung, 51
orthogonal, 2
Parallelepiped, 4
Parameterdarstellung
einer Ebene, 5
partielle Ableitung, 31
partikuläre Lösung, 58
Poissonsche Näherungsformel, 79
Polarkoordinaten, 27
Polygonzug-Verfahren, 55
Quantil, 70
Quartilsabstand, 73
IRn , 26
Randwertproblem, 51
Realteil, 48
Richtungsableitung, 35
Richtungsfeld, 55
Sattelpunkt, 37
Schätzfunktion, 82
Schlupfvariable, 13
Skalarprodukt, 2
Spannweite, 73
Spat, 4
Spatprodukt, 5
Störfunktion, 57
Stammfunktion
einer Differentialgleichung, 56
Standard-Maximum-Problem, 13
Standardabweichung, 39, 72, 75, 76
einer Stichprobe, 82
stationärer Punkt, 37
statistische Sicherheit, 83
stetig, 30
86
INDEX
Stichprobe, 81
einfache, 81
Umfang, 81
Stichproben
-Anteil, 82
-Mittel, 82
-Varianz, 82
totales Differential, 35
Transformation, 44
Transportproblem
ausgeglichenes, 20
Trennung der Variablen, 57
Umfang einer Stichprobe, 81
Umgebung, 26
ǫ–∼, 26
Varianz, 72, 75, 76
einer Stichprobe, 82
Stichproben-∼, 82
Variation der Konstanten, 59
Variationskoeffizient, 72
Vektor, 26
zueinander orthogonale ∼, 2
Betrag, 2
Einheits-, 2
Normalen-, 3
Skalarprodukt, 2
Vektorprodukt, 3
Vektorraum, 1
Versuch, 73
Verteilungsfunktion, 75, 76
Vertrauensintervall, 83
Wahrscheinlichkeit, 73
Wahrscheinlichkeitsverteilung, 74
Wronski-Determinante, 59
Zahlen
imaginäre, 48
komplexe, 48
konjugiert komplexe, 49
Zentralwert, 70
Ziehen einer Stichprobe, 81
Zielfunktion, 11
Zufallsexperiment, 73
Zufallsvariable, 73
diskrete, 73
stetige, 73
Zylinderkoordinaten, 27
87
Herunterladen