Mathematik für Bauingenieure, Modul II Dr. Theo Overhagen Mathematik Universität Siegen I Inhaltsverzeichnis 1 Analytische Geometrie 1.1 Der Vektorraum IRn . . . . . . . . . 1.2 Skalarprodukt, Gleichungsdarstellung 1.3 Kreuzprodukt . . . . . . . . . . . . . 1.4 Spatprodukt . . . . . . . . . . . . . . 1.5 Geraden und Ebenen im Raum . . . . . . . . 1 1 3 3 4 5 2 Lineare Optimierung 2.1 Aufgabenstellung, Graphische Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Analytische Lösung, Simplexverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Transportprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 13 20 3 Funktionen mehrerer Variabler 3.1 Geometrische Veranschaulichung . . . . . . 3.2 Stetigkeit . . . . . . . . . . . . . . . . . . . 3.3 Partielle und totale Differenzierbarkeit . . . 3.4 Extrema von Funktionen mehrerer Variabler 3.5 Implizite Funktionen . . . . . . . . . . . . . 3.6 Bereichsintegrale . . . . . . . . . . . . . . . 3.7 Koordinatentransformationen . . . . . . . . . . . . . . . 26 26 30 31 36 41 42 44 . . . . . . . . . . . . . . . 48 48 48 49 50 51 55 55 56 57 57 57 59 60 61 62 . . . . . . . 64 64 64 64 68 73 73 77 . . . . . . . . einer Ebene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Gewöhnliche Differentialgleichungen 4.1 Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Darstellung der komplexen Zahlen in der Gaußschen Zahlenebene . . . . . . 4.2 Definition der Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Beispiele von Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . 4.3 Differentialgleichungen 1. Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Richtungsfeld, Polygonzugverfahren . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Exakte Differentialgleichungen, Integrierender Faktor . . . . . . . . . . . . . 4.3.3 Trennung der Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Lineare Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Definition und Struktur der Lösungsmenge . . . . . . . . . . . . . . . . . . 4.4.2 Lineare Differentialgleichungen 1. Ordnung . . . . . . . . . . . . . . . . . . 4.4.3 Lineare Differentialgleichungen 2. Ordnung . . . . . . . . . . . . . . . . . . 4.4.4 Lineare Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten 4.4.5 Spezielle Lösungsansätze für die partikuläre Lösung . . . . . . . . . . . . . 5 Einführung in die Statistik 5.1 Einführung . . . . . . . . . . . . . . . . . . . 5.2 Beschreibende Statistik . . . . . . . . . . . . 5.2.1 Häufigkeitsverteilung . . . . . . . . . . 5.2.2 Statistische Maßzahlen . . . . . . . . . 5.3 Zufallsvariable und ihre Verteilungen . . . . . 5.3.1 Zufallsvariable und Wahrscheinlichkeit 5.3.2 Diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . INHALTSVERZEICHNIS II 5.4 5.3.3 Binomialverteilung . . . . . . . 5.3.4 Stetige Gleichverteilung . . . . 5.3.5 Normalverteilung . . . . . . . . Einführung in die schließende Statistik 5.4.1 Stichproben, Schätzfunktionen 5.4.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 79 80 81 81 83 INHALTSVERZEICHNIS III Vorbemerkung Das vorliegende Rumpfskript ist Fortsetzung des Skriptes für Modul 1. Es soll die Arbeit des Mitschreibens während der Vorlesung reduzieren und kann nicht die Vorlesung oder zusätzliche Arbeit mit entsprechender Fachliteratur ersetzen. Literatur Die angegebene Literatur ist ein kleiner willkürlicher Ausschnitt aus der einschlägigen Literatur. Sie ergänzt die in der Literaturliste des Skriptes zu Modul 1 angegebene Literatur. Jeder sollte (vor allem unter den in der Uni-Bibliothek vorhandenen Büchern) herausfinden, welche Literatur für ihn geeignet ist. Beichelt: Stochastik für Ingenieure, Teubner Verlag, Stuttgart. Beyer/Hackel/Pieper/Tiedge: Wahrscheinlichkeitsrechnung u. math. Statistik, Teubner Verlag, Leipzig. Burg/Haf/Wille: Höhere Mathematik für Ingenieure, Bd.1-3, Teubner, Stuttgart. ???? Dobner/Dobner: Gewöhnliche Differenzialgleichungen, Theorie und Praxis. Fachbuchverlag Leipzig im Hanser Verlag, Leipzig. Fischer: Stochastik einmal anders. Vieweg Verlag, Wiesbaden. Timmann: Repetitorium der gewöhnlichen Differentialgleichungen, Binomi-Verlag, Springe. Papula: Mathematik für Ingenieure und Naturwissenschaftler, Bd. 3, Vieweg, Braunschweig. Sachs: Wahrscheinlichkeitsrechnung und Statistik f. Ing.-Studenten an Fachhochschulen. Fachbuchverlag Leipzig im Hanser Verlag, Leipzig. 1 1 1.1 Analytische Geometrie Der Vektorraum IRn Im Vorkurs-Skript §3.2 und im Skript zu Modul I wurden schon Vektoren eingeführt. Hier sollen nochmal die wichtigsten Eigenschaften zusammengefaßt und ihre Anwendungen in der analytischen Geometrie sowie der Zusammenhang zu den linearen Gleichungssystemen zusammengestellt werden. Vektoren sind in der Mathematik allgemein Objekte, für die eine Addition und eine Multiplikation mit Skalaren (Elementen eines Körpers) definiert sind, die bestimmten Rechenregeln genügen. Eine entsprechende Menge von Vektoren nennt man Vektorraum. Wir wollen uns hier auf n-Tupel reeller Zahlen (mit n ∈ IN) und auf reelle Skalare beschränken und bezeichnen den zugehörigen Vektorraum mit IRn . Definition 1.1.1 Für k ∈ IN, α1 , . . . , αk ∈ IR, ~a1 , . . . ,~ak ∈ IRn heißt ~b = k X αi~ai Linearkombination der Vektoren ~a1 , . . . ,~ak . i=1 Kann man (mindestens) einen der Vektoren ~a1 , . . . ,~am als Linearkombination der anderen darstellen, dann heißen die Vektoren linear abhängig und sonst linear unabhängig. Satz 1.1.2 Folgende Aussagen sind äquivalent: (a) Die Vektoren ~a1 , . . . ,~am sind linear unabhängig. (b) Die Gleichung m X αi~ai = ~0 gilt nur für α1 = α2 = . . . = αm = 0. i=1 (c) Die Matrix mit den Spaltenvektoren ~a1 , . . . ,~am hat Rang m. Im IRn kann es damit höchstens jeweils n linear unabhängige Vektoren geben. Eine Menge von n linear unabhängigen Vektoren nennt man Basis des Vektorraums. Man kann jeden Vektor des IRn als Linearkombination der Vektoren einer solchen Basis darstellen, und diese Darstellung ist eindeutig. Damit kann man jede Basis als Koordinatensystem verwenden, nicht nur die Normalbasis der Koordinateneinheitsvektoren ~e1 := (1, 0, . . . , 0), . . . , ~en := (0, . . . , 0, 1). Beispiele 1.1.3 (1) Eine Walze der Masse m rollt nur auf Grund ihres Eigengewichts auf einer schiefen Ebene mit Neigungswinkel α. Welche Kraft drückt auf die Ebene und welche Kraft beschleunigt die Walze? (2) Eine Straßenlampe der Masse m = 2, 446 kg hängt in der Mitte eines Haltedrahtes, der an den Straßenseiten in gleicher Höhe an Masten befestigt ist. Die Masten sind 15 m voneinander entfernt und die Lampe hängt 0, 6 m durch. Wie groß sind die Spannkräfte in den Drähten? (3) Ein Schwimmer durchquert einen Fluß der Breite b. Die Geschwindigkeit des Flußwassers ist konstant gleich ~v . Da der Schwimmer sich rechtwinklig zu den Ufern bewegen möchte, ist sein Geschwindigkeitsvektor ~c schräg stromaufwärts gerichtet. Wie lange braucht der Schwimmer, wenn |~c| konstant ist, und in welcher Richtung muß er schwimmen? 1. Analytische Geometrie z Den Abstand d(P, Q) zweier Punkte P = ~x und Q = ~y definieren wir (analog zu den entsprechenden Formeln in der Ebene IR2 und im Raum IR3 , die sich aus dem Satz des Pythagoras ergeben,) durch p d(P, Q) = (x1 − y1 )2 + (x2 − y2 )2 + . . . + (xn − yn )2 . 2 ✻ q 2 2 x2 0 + y 0 + z0 ✒ z0 x0 Wir bezeichnen den Abstand von P und Q in Zukunft durch q ✲ y 2 x2 0 + y0 ❵ ❵ x ☛ y0 |P − Q| = |~x − ~ y| und den Abstand von P zum Ursprung ~0 mit |P | = |~x|. Für beliebige ~x, ~y ∈ IRn und λ ∈ IR gilt λ~x = |λ| · ~x ~x + ~y ≤ ~x + ~y und (Dreiecksungleichung). Ein Vektor ~x mit ~x = 1 heißt Einheitsvektor. Zum Beispiel ist für jedes ~x ∈ IRn mit ~x 6= ~0 der ~x Vektor ~e := ein Einheitsvektor. ~x ~x · ~ y := n X xk yk heißt Skalarprodukt der beiden Vektoren ~x und ~y . k=1 Für beliebige λ ∈ IR, ~x, ~y , ~z ∈ IRn gilt λ~x · ~y = λ · ~x · ~y , ~x + ~y · ~z = ~x · ~z + ~y · ~z , ~x · ~y = ~y · ~x und Zwei Vektoren ~x, ~y 6= ~0 spannen ein Parallelogramm mit Diagonalen ~x + ~ y und ~x − ~y auf. Gilt ~x · ~y = 0, dann sind die Diagonalen gleich lang, das Parallelogramm ist also ein Rechteck und die Vektoren ~x und ~ y sind zueinander orthogonal. 2 ~x · ~x = ~x ≥ 0. ✗ ✯ ~x + y~ ~y ~x − ~y ✲ ⑦ ~x Seien nun e~x und e~y die zugehörigen Einheitsvektoren, λe~x die Projektion von e~y auf die von e~x aufgespannte Gerade, α der Winkel zwischen ~x und ~ y , dann gilt λ = cos α bzw. ~x · ~y = ~x · ~y · cos α (Satz von Schwarz). ~y ❨ e~y ❨ ❵ ✛ λe~x ☛ α ✲ ✲ e~x ~x 1. Analytische Geometrie 1.2 3 Skalarprodukt, Gleichungsdarstellung einer Ebene Eine Ebene im IR3 ist eine Punktmenge der Form {(x1 , x2 , x3 ) ∈ IR3 ; a1 x1 + a2 x2 + a3 x3 = c}. Mit Hilfe des Skalarprodukts kann man dies auch in der Form schreiben: {~x ∈ IR3 ; ~a · ~x = c} Der Vektor ~a ist zu der Parallelebene durch den Nullpunkt (d.h. mit c = 0) orthogonal und heißt Normalenvektor der Ebene. Analog nennt man eine (durch die lineare Funktion von n Variablen beschriebenen) Punktmenge {(x1 , x2 , . . . , xn ) ∈ IR n ; a1 x1 + a2 x2 + . . . + an xn = c} Hyperebene. Im Fall n = 3 ist das eine Ebene, im Fall n = 2 eine Gerade. Der Vektor ~a := (a1 , a2 , . . . , an ) heißt Normalenvektor der Hyperebene, die Darstellung ~a · ~x = c Normalform. Hyperebenen mit gleichem Normalenvektor und verschiedenem c sind zueinander parallel. Ist ~a ein Einheitsvektor, dann heißt die Darstellung Hessesche Normalform. |c0 | ist der Abstand des Nullpunktes von der Ebene, und das Vorzeichen gibt an, in welche Richtung, bezogen auf den Nullpunkt, der Normalenvektor zeigt. Die Hessesche Normalform ist bis auf die Vorzeichen von ~a (bzw. c0 ) eindeutig bestimmt. Ganz analog erhält man aus der Hesseschen Normalform ~a0 · ~x = c0 zu jedem Punkt ~x1 ∈ IRn den orientierten senkrechten Abstand zu der Ebene durch d = ~a0 · ~x1 − c0 . d ist positiv, wenn der Punkt ~x1 und der Nullpunkt auf verschiedenen Seiten der Hyperebene liegen, und negativ, wenn sie auf der gleichen Seite liegen. 1.3 Kreuzprodukt Speziell im IR3 kann man je zwei Vektoren ~a und ~b einen anderen Vektor ~z zuordnen: Definition 1.3.1 Für ~a, ~b ∈ IR3 sei ~c der Vektor mit folgenden Eigenschaften: (1) ~c ist orthogonal zu ~a und ~b. (2) |~c| = |~a| · |~b| · sin α, und dabei ist α der von ~a und ~b eingeschlossene Winkel. (3) ~a, ~b und ~c bilden (in dieser Reihenfolge) ein Rechtssystem. ~c heißt Vektorprodukt (oder Kreuzprodukt) von ~a und ~b. Schreibweise: ~c = ~a × ~b. ~c ist durch ~a und ~b eindeutig bestimmt und gleich dem Nullvektor, falls ~a = ~0 oder ~b = ~0 oder falls ~a und ~b parallel sind. 1. Analytische Geometrie 4 Bemerkungen 1.3.2 (1) Sind die Vektoren ~a und ~b nicht gleich dem Nullvektor und nicht parallel, dann spannen sie ein Parallelogramm auf, dessen Flächeninhalt gleich |~a × ~b| ist. (2) Das Vektorprodukt ist nicht kommutativ, denn es gilt ~a × ~b = −~b × ~a, d.h. Vertauschung der Vektoren erzeugt als Vektorprodukt einen Vektor, der dieselbe Länge, aber entgegengesetzte Richtung wie das ursprüngliche Vektorprodukt hat. (3) Für beliebiges λ ∈ IR gilt (λ~a) × ~b = λ(~a × ~b). (4) Für beliebige Vektoren ~a, ~b, ~c gilt ~a × (~b + ~c) = (~a × ~b) + (~a × ~c). (5) Man erhält das Vektorprodukt in Komponentenschreibweise durch Berechnen der Determinante“ ” ~e1 ~e2 ~e3 ~a × ~b = a1 a2 a3 . b1 b2 b3 (6) Im allgemeinen gilt ~a × ~b × ~c 6= ~a × ~b × ~c. Beispiele 1.3.3 5 2 3 ~ (1) Berechne für ~a = 1 , b = −7 , ~c = 0 die Produkte ~a × ~b, ~b × ~c, ~a × ~b × ~c , ~a × ~b × ~c −1 1 8 und zeige mit Hilfe des Skalarprodukts, daß ~a × ~b auf ~a und ~b jeweils senkrecht steht. ~ , die vom Massenpunkt immer in Rich(2) Auf einen Massenpunkt der Masse m wirke eine Kraft F tung eines festen Punktes (z.B. des Nullpunktes) zeigt. Ist ~x der Ortsvektor des Massenpunktes, ~ = λ~x. (Beispiel: Gravitationskraft der Sonne auf die Erde). Bewegt sich der dann gilt also F Massenpunkt, dann wird sein Ort durch die Vektorfunktion ~x(t) in Abhängigkeit von der Zeit t beschrieben. Ist diese Funktion zweimal stetig differenzierbar, dann folgt aus dem Newtonschen Bewegungsgesetz ¨(t). F~ = m · ~x Da F~ und ~x parallel sind, ergibt Vektormultiplikation der Gleichung mit ~x(t) ¨(t) = ~x(t) × F ~ = ~x(t) × λ~x(t) = 0, m · ~x(t) × ~x und Integration nach t m · ~x(t) × ~x˙ (t) = ~c mit einem konstanten Vektor ~c. Die linke Seite heißt Drehimpuls des Massenpunktes bezüglich des Nullpunktes. Damit ergibt sich: Der Drehimpuls des Massenpunktes bezüglich des Nullpunktes ist konstant und die Bahnkurve liegt in einer Ebene senkrecht zu ~c. 1.4 Spatprodukt Drei linear unabhängige Vektoren ~a, ~b, ~c ∈ IR3 spannen ein Parallelepiped auf, d.h. einen Körper, der von 3 Paaren zueinander parallelen ebenen Seitenflächen begrenzt wird, die wiederum Parallelogramme sind. Einen solchen Körper nennt man auch Spat. Das von ~a und ~b aufgespannte Parallelogramm hat die Fläche |~a × ~b| und die zugehörige Höhe ergibt sich als Skalarprodukt von ~c mit dem Einheitsvektor in Richtung ~a ×~b. Als Volumen ergibt sich damit V = |(~a × ~b) · ~c|. ~a × ~b ✻ ♣ ✍~c h ♣♣ ✶ ~b ✲ ~a 1. Analytische Geometrie Definition 1.4.1 Seien ~a, ~b, ~c ∈ IR3 . Dann heißt und ~c. [~a ~b ~c] := (~a × ~b) · ~c 5 Spatprodukt von ~a, ~b Bemerkungen 1.4.2 (1) Das Volumen des zugehörigen Spats ist der Betrag des Spatprodukts. Bilden die Vektoren ein Rechtssystem, dann ist das Spatprodukt positiv, also gleich dem Volumen. (2) Das Volumen des Spats, das aus dem Rechtssystem {~a, ~b, ~c} erzeugt ist, ist auch das Produkt der Fläche ~b × ~c mit der Länge der zugehörigen Höhe, also gleich ~a · (~b × ~c). Da die Reihenfolge der Multiplikationszeichen vertauscht werden kann, ist die Schreibweise des Spatprodukts gerechtfertigt. (3) Da das Skalarprodukt kommutativ ist, gilt (~b × ~c) · ~a = ~a · (~b × ~c). Analog folgt [~a ~b ~c] = [~b ~c ~a] = [~c ~a ~b], d.h. das Spatprodukt ändert sich bei zyklischer Vertauschung nicht. (4) Wegen ~a × ~b = −~b × ~a (5) Wegen ~a × ~a = 0 [~a ~b ~c] = −[~b ~a ~c]. gilt gilt [~a ~a ~b] = [~b~a ~a] = [~a ~b ~a] = 0. Beispiel 1.4.3 Eine Flüssigkeit fließt mit konstanter Geschwindigkeit ~v durch eine Parallelogrammfläche, die von den Vektoren ~a und ~b aufgespannt wird. Dann ist die Flüssigkeitsmenge, die in einer ~ Zeiteinheit durch das Parallelogramm fließt, gleich dem Volumen des Spats, das von den Vektoren ~a, b ~ und ~v aufgespannt wird, also gleich [~a b ~v ] . 1.5 Geraden und Ebenen im Raum Die Lösungen ~x = (x1 , x2 , . . . , xn ) einer homogenen linearen Gleichung mit n Variablen a1 x1 + a2 x2 + . . . + an xn = 0 kann man mit Hilfe des Skalarprodukts als Menge der Punkte im IRn interpretieren, deren Ortsvektoren auf dem Vektor ~a = (a1 , . . . , an ) senkrecht stehen. Eine Ebene im IR3 wird festgelegt • durch drei Punkte ~x1 , ~x2 und ~x3 , die nicht auf einer gemeinsamen Geraden liegen, bzw. • durch den Ortsvektor ~x1 eines Punktes und zwei linear unabhängige Richtungsvektoren ~r1 (= ~x2 − ~x1 ) und ~r2 (= ~x3 − ~x1 ). Aus der Parameterdarstellung ~x = ~x1 + s · ~r1 + t · ~r2 erhält man mit Hilfe des Vektorprodukts sofort die Normalform ~a = ~r1 × ~r2 bzw. die Hessesche Normalform und ~a b · ~x = . |~a| |~a| b = ~a · ~x1 ~a · ~x = b mit 1. Analytische Geometrie 6 Beispiel 1.5.1 (Abstand Punkt Ebene) Die Ebene durch die drei Punkte (1, 0, 0), (0, 1, 0) und (0, 0, 1) hat die Parameterdarstellung 1 −1 −1 ~x = 0 + s · 1 + t · 0 , s, t ∈ IR, 0 0 1 1 1 1 √ 1 · ~x − √ = 0. und damit die Hessesche Normalform 3 1 3 √ Der Abstand des Punktes (3, 3, 4) von der Ebene ist d = 3 3. Sei E1 die Ebene mit Parameter- bzw. Normalendarstellung ~x = ~x1 + s · ~r11 + t · ~r12 bzw. a~1 · ~x = b1 ~x = ~x2 + s · ~r21 + t · ~r22 bzw. a~2 · ~x = b2 . und die E2 die Ebene mit • Die Ebenen sind gleich genau dann, wenn die Normalenvektoren ~a1 bzw. ~a2 linear abhängig sind und die drei Vektoren ~x1 − ~x2 , ~r11 und ~r12 linear abhängig sind. Die 2. Bedingung ist erfüllt, wenn das Spatprodukt [(~x1 − ~x2 ) ~r11 ~r12 ] Null ist. • Die Ebenen sind parallel, wenn die Normalenvektoren ~a1 bzw. ~a2 linear abhängig sind und die drei Vektoren ~x1 − ~x2 , ~r11 und ~r12 linear unabhängig sind. • Die Ebenen schneiden sich in einer Geraden, wenn die Normalenvektoren ~a1 bzw. ~a2 linear unabhängig sind. Die Schnittgerade hat den Richtungsvektor ~a1 × ~a2 . Der Schnittwinkel ist gleich dem Winkel, den die Normalenvektoren einschließen. Beispiele 1.5.2 (1) Die Ebenen und haben die Normalen 1 1 0 E1 : ~x = 0 + s · 1 + t · 1 0 0 1 2 1 3 E2 : ~x = 2 + s · 2 + t · 2 1 1 −1 1 −4 a~1 = −1 bzw. a~2 = 4 . 1 −4 1 2 −1 x~1 − x~2 = 0 − 2 = −2 0 1 −1 ist linear abhängig von den jeweiligen Richtungsvektoren, die Ebenen sind also gleich. 1. Analytische Geometrie 7 0 1 0 (2) Die Ebene E3 : ~x = 1 + s · 1 + t · 1 0 0 1 hat zwar wieder einen parallelen (bzw. sogar gleichen) Normalenvektor wie E1 und E2 , aber 1 0 1 x~1 − x~3 = 0 − 1 = −1 0 0 0 ist nicht linear abhängig von den Richtungsvektoren, d.h. E3 ist parallel zu E1 und E2 . (3) (Schnitt zweier Ebenen) Die Ebenen mit der Gleichungsdarstellung E1 : −x +y −z E2 : −5x +y +6z = = 0 14 −1 −5 haben die Normalen ~a1 = 1 bzw. ~a2 = 1 . −1 6 Für den Schnittwinkel φ gilt cos φ = ~a1 · ~a2 = 0, |~a1 | · |~a2 | die Ebenen stehen also senkrecht aufeinander. 7 Die Schnittgerade hat den Richtungsvektor ~r = ~a1 × ~a2 = 11. 4 Setzt man z.B. x = 0 in das Gleichungssystem ein, dann erhält man y = z = 2 und damit einen 0 Ortsvektor 2 der Schnittgeraden. 2 Den Schnittpunkt einer Ebenen mit einer Geraden erhält man z.B. durch Einsetzen der Parametergleichung der Geraden in die Normalform der Ebene. Beispiel 1.5.3 (Schnittpunkt Ebene Gerade) 1 Gesucht ist der Fußpunkt des Lotes von dem Punkt 2 auf die Ebene 1 E : x − 2y + z − 7 = 0. 1 Ein Normalenvektor der Ebene ist −2, und daher hat die Lotgerade die Parameterdarstellung 1 1 1 ~x = 2 + s · −2 . 1 1 1. Analytische Geometrie −2 + 6s − 7 = 0, Einsetzen in die Normalform der Ebene ergibt 8 5 3 1 also als Parameterwert des Schnittpunktes s0 = und den Schnittpunkt −2. 2 2 5 Um den Abstand eines Punktes P mit Ortsvektor ~y im IR3 von einer Geraden g mit Parameterdarstellung ~x = ~x0 + s · ~r q h zu bestimmen, betrachten wir das Parallelogramm, das von ~r und ~y − ~x0 aufgespannt wird. Die Länge der Höhe zu der Seite ~r und damit der Abstand des Punktes P von der Geraden sei h. ② ❖ ~r P y~ ✒ ▼ ~y − ~x0 ✿ ~x0 + ~r Der Flächeninhalt des Parallelogramms ist einerseits |~r × (~y − ~x0 )|, andererseits |~r| · h. 1 Damit folgt h= · |~r × (~y − ~x0 )|. |~r| g ~x0 O 2 Beispiel 1.5.4 (Abstand Punkt Gerade) Der Punkt P mit Ortsvektor y~ = 1 hat zur Geraden 3 1 1 g : ~x = 2 + s 1 1 1 den Abstand r 1 1 3 1 1 14 h= √ 1 × −1 =√ −1 = . 3 3 3 1 2 −2 g1 , g2 seien zwei Geraden im IR3 mit Parameterdarstellung ~x = ~x1 + s · ~r1 bzw. ~x = ~x2 + s · ~r2 . • Die Geraden sind identisch genau dann, wenn ~x1 − ~x2 und die beiden Richtungsvektoren ~r1 und ~r2 alle zueinander parallel sind. • Die Geraden sind parallel genau dann, wenn die beiden Richtungsvektoren ~r1 und ~r2 parallel sind, aber nicht ~x1 − ~x2 . ~r1 ~r1 Ihr Abstand ist dann (~x1 − ~x2 ) − (~x1 − ~x2 ) · . |~r1 | |~r1 | • Die Geraden schneiden sich (in genau 1 Punkt), wenn die Richtungsvektoren linear unabhängig sind und das lineare Gleichungssystem ~x1 + s · ~r1 = ~x2 + t · ~r2 lösbar ist. 1. Analytische Geometrie • Sonst sind die beiden Geraden windschief. 9 Als Abstand von windschiefen Geraden bezeichnet man den kleinsten Abstand von Punkten auf der einen Geraden zu Punkten auf der anderen Geraden. Für diese Punkte ~y1 = ~x1 + u~r1 ∈ g1 , ~y2 = ~x2 + v~r2 ∈ g2 mit minimalem Abstand ist ~y1 − ~y2 senkrecht zu g1 und g2 , d.h. es gibt eine Zahl w ∈ IR mit ~y1 − ~y2 = w · (~r1 × ~r2 ). ~x1 + u~r1 − ~x2 − v~r2 = w · (~r1 × ~r2 ) mit 3 Gleichungen und den 3 Unbekannten u, v, w ergibt mit d = w · (~r1 × ~r2 ) den gesuchten Abstand. Lösen des linearen Gleichungssystems Beispiele 1.5.5 (1) Bei den beiden Geraden g1 : 1 1 ~x = 1 + s · 2 0 1 und g2 : 2 2 ~x = 3 + s · 4 1 2 sind x~1 − x~2 und die Richtungsvektoren parallel, die Geraden sind also gleich. (2) Die Gerade g3 : 0 1 ~x = 0 + s · 2 1 1 hat zwar wieder einen parallelen (bzw. sogar gleichen) Normalenvektor wie g1 und g2 , aber 1 x~1 − x~3 = 1 −1 ist nicht parallel zu den Richtungsvektoren, d.h. g3 ist parallel zu g1 und g2 . Ihr Abstand ist 1 1 1 1 1 1 1 √ √ 1 ·√ 2 2 = 21. d= 1 − 3 6 1 6 1 −1 −1 (3) (Schnitt zweier Geraden) Die Geraden 1 1 g1 : ~x = 1 + s · 2 0 1 und g2 : 2 1 ~x = 1 + s · 0 1 1 haben linear unabhängige Richtungsvektoren, und das lineare Gleichungssystem 1 1 2 1 s · 2 − t · 0 = 1 − 1 1 1 1 0 1 hat die Lösung s = 0, t = −1, die Geraden schneiden sich also im Punkt P 1. 0 1. Analytische Geometrie (4) (windschiefe Geraden) Die Geraden g1 : 1 1 ~x = 1 + s · 2 0 1 und g3 : 2 1 ~x = 3 + s · 0 2 1 haben linear unabhängige Richtungsvektoren, und das lineare Gleichungssystem s · r~1 − t · r~2 = x~2 − x~1 hat keine Lösung (s, t). Die Geraden sind also windschief. Das lineare Gleichungssystem 1 1 2 1 1 1 2 1 + s · 2 − 3 − t · 0 = w · 2 × 0 = w · 0 0 1 2 1 1 1 −2 1 1 hat die Lösung u = 1, t = − , w = und der Abstand von g1 und g3 ist 2 4 2 1 1 √ 0 = 2. d= 4 2 −2 10 11 2 Lineare Optimierung 2.1 Aufgabenstellung, Graphische Lösung Beispiel 2.1.1 In einer Werkstatt werden zwei Fahrzeugtypen F1 und F2 instandgesetzt. Dazu sind drei Arbeitsgänge A1 , A2 und A3 notwendig. Die erforderlichen Arbeitszeiten je Fahrzeugtyp und die zur Verfügung stehende Gesamtarbeitszeit Z sind in folgender Tabelle aufgelistet: A1 A2 A3 F1 F2 Z 4 8 96 8 4 120 6 0 78 Der Gewinn für ein Fahrzeug vom Typ F1 beträgt 12 Punkte, für ein Fahrzeug vom Typ F2 8 Punkte. Wieviele Fahrzeuge von jedem Typ muß man annehmen, um den Gesamtgewinn zu maximieren? Ist x1 die Anzahl der Fahrzeuge vom Typ F1 , x2 die Anzahl vom Typ F2 , dann ist der erzielte Gewinn z(x1 , x2 ) := 12x1 + 8x2 . Die diesbezügliche Funktion nennt man Zielfunktion des Problems. Aus der Zeitaufwandstabelle ergeben sich Einschränkungen, die sogenannten Nebenbedingungen ≤ ≤ ≤ 4x1 + 8x2 8x1 + 4x2 6x1 96 120 . 78 Weiter machen negative Mengen x1 und x2 keinen Sinn, d.h. es müssen die Nichtnegativbedingungen x1 ≥ 0, x2 ≥ 0 gelten. Bei unserem speziellen Beispiel müssen die Mengen auch noch ganzzahlig sein. Definition 2.1.2 Sucht man Werte von Variablen x1 , . . . , xn , so daß die Zielfunktion z(x1 , . . . , xn ) := n X ci xi (2.1) i=1 maximal wird, wobei die Nebenbedingungen a11 x1 a21 x1 + + am1 x1 + a12 x2 + . . . + a1n xn a22 x2 + . . . + a2n xn ..................... am2 x2 + . . . + amn xn ≤ ≤ b1 b2 ≤ bm (2.2) und die Nichtnegativbedingungen xi ≥ 0, 1 ≤ i ≤ n, erfüllt sein müssen, dann nennt man das Problem lineares Optimierungsproblem. (Die Koeffizienten aik , bi , ck , 1 ≤ i ≤ m, 1 ≤ k ≤ n, sind reelle Zahlen.) (2.3) 2. Lineare Optimierung 12 Bemerkungen 2.1.3 (1) Als Nebenbedingungen können auch Gleichungen auftreten. Man spricht dann von einem Problem mit gemischten Nebenbedingungen. (2) Durch Multiplikation mit −1 kann man erreichen, daß die Zielfunktion und die Nebenbedingungen in der obigen Form auftreten. a11 . . . a1n b1 x1 c1 .. . . . .. , ~b := .. , ~x := .. und ~c := ... (3) Wir setzen in Zukunft A := . . am1 . . . amn bm xn cn k Für zwei Vektoren ~u und ~v im IR gelte ~u ≤ ~v genau dann, wenn für alle 1 ≤ i ≤ k gilt ui ≤ vi . Dann erhält man das lineare Optimierungsproblem in der Form z(~x) = ~c · ~x → max, A~x ≤ ~b, ~x ≥ ~0. Jedes ~x ∈ IRn , das die Nebenbedingungen A~x ≤ ~b erfüllt, heißt Lösung des linearen Optimierungsproblems. Jede Lösung, die zusätzlich die Nichtnegativbedingungen ~x ≥ ~0 erfüllt, heißt zulässige Lösung. Jede zulässige Lösung, für die die Zielfunktion den optimalen Wert annimmt, heißt optimale Lösung. (4) Ein lineares Optimierungsproblem kann viele optimale Lösung haben oder auch keine Lösung. Um eine Vorstellung von der Lösungsmenge zu bekommen, betrachten wir nochmals unser Beispiel 2.1.1 und lösen es graphisch: Wir führen ein Koordinatensystem ein und ordnen dem Vektor ~x den Punkt der Ebene mit Ortsvektor ~x zu. Da jede der Ungleichungen der Nebenbedingungen und der Nichtnegativbedingungen von allen Punkten erfüllt wird, die in einer Halbebene liegen, ist die Menge der zulässigen Lösungen der Schnitt von 5 Halbebenen, nämlich dem Fünfeck mit den Ecken (0|0), (13|0), (13|4), (12|6), (0|12). Der Rand wird von den Geraden gebildet, die sich ergeben, wenn man in den Ungleichungen das Ungleichungszeichen durch das Gleichheitszeichen ersetzt. x2 Die Punkte, für die die Zielfunktion jeweils gleich einer Konstante z0 ist, liegen auf einer Geraden, und alle diese Geraden sind zueinander parallel. Verschiebt man also eine dieser Geraden parallel, dann wächst der Wert z0 in der einen Verschiebungsrichtung und nimmt in der anderen ab. Die optimalen Lösungen ergeben sich als Schnitt der Geraden mit möglichst großem z0 -Wert mit der Menge der zulässigen Lösungen. In unserem Beispiel ergibt sich die optimale Lösung (12|6), und das ist eine Ecke des Fünfeckes. ✻ 12 ❛ z = 144 z = 192 g2 10 g3 8 6 ❛ 4 ❛ g1 2 g5 ❛ g4 2 4 z = 24 6 8 z = 72 ❛ 10 12 14 ✲ x1 Für ein lineares Optimierungsproblem mit n Variablen ergibt sich analog die zulässige Lösungsmenge (falls sie nicht leer ist), als Durchschnitt endlich vieler Halbräume, also als konvexes Polyeder, dessen Rand von den Hyperebenen begrenzt wird, die durch die Nebenbedingungen und Nichtnegativbedingungen definiert sind. Die Menge der Punkte, für die die Zielfunktion konstant ist, entspricht einer weiteren Hyperebene, und geeignetes Verschieben ergibt die optimalen Lösungen, falls sie existieren. 2. Lineare Optimierung 13 Ein Randpunkt des Polyeders ist dadurch ausgezeichnet, daß bei mindestens einer der Ungleichungen die Gleichheit gilt. Ein zulässiger Lösungspunkt, bei dem in n linear unabhängigen Ungleichungen die Gleichheit gilt, ist eine Ecke des Polyeders. Gibt es also hinreichend viele Ungleichungen, dann liegt mindestens eine optimale Lösung in einer Ecke des Polyeders, so daß man eigentlich nur die Zielfunktion an allen Ecken ausrechnen muß und dann mit dem größten Wert eine optimale Lösung erhält. Für große Optimierungsprobleme ist diese Methode aber zu aufwendig. 2.2 Analytische Lösung, Simplexverfahren Um die Ergebnisse aus den Betrachtungen der Theorie der linearen Gleichungssysteme auf die lineare Optimierung übertragen zu können, erzeugen wir aus dem linearen Optimierungsproblem mit Ungleichungen als Nebenbedingungen durch Einführen von m zusätzlichen Variablen ein lineares Optimierungsproblem, bei dem die Nebenbedingungen in Gleichungsform dargestellt werden: Durch Einführen der neuen Schlupfvariablen x3 , x4 und x5 erhält man im Beispiel 2.1.1 z(x1 , x2 , x3 , x4 , x5 ) := 12x1 + 8x2 + 0x3 + 0x4 + 0x5 → max 4x1 + 8x1 + 6x1 8x2 + x3 4x2 + x4 + x5 xi ≥ 0, = 96 = 120 = 78 i = 1, . . . , 5. Wir betrachten nun speziell lineare Optimierungsproble der Form 2.1- 2.3 mit nichtnegativer rechter Seite: Definition 2.2.1 Das lineare Optimierungsproblem z(x1 , . . . , xn+m ) := n+m X i=1 ci xi = c1 x1 + . . . + cn xn + cn+1 xn+1 + . . . + cn+m xn+m → max, a11 x1 + a12 x2 + . . . + a1n xn + xn+1 a21 x1 + a22 x2 + . . . + a2n xn + xn+2 .. .. .. . . ............... . + xn+m am1 x1 + am2 x2 + . . . + amn xn xi ≥ 0, 1 ≤ i ≤ n + m, bi ≥ 0, = = .. . b1 b2 .. . (2.4) = bm 1 ≤ i ≤ m, heißt Standard-Maximum-Problem. In Matrix-Schreibweise lautet das Standard-Maximum-Problem z(~x) = ~c · ~x → max, a11 a21 mit A := . .. ... ... a1n a2n .. . am1 . . . amn 1 0 ... 0 0 1 . . . 0 , .. .. . . 0 0 ... 1 A~x = ~b, ~b ≥ ~0 ~x ≥ ~0, x1 c1 c1 . . . .. .. .. b1 xn cn cn . ~b := .. , ~x := xn+1 und ~c := cn+1 = 0 . bm .. .. .. . . . xn+m cn+m 0 2. Lineare Optimierung Die Koeffizientenmatrix des Standard-Maximum-Problems 4 8 1 0 A = 8 4 0 1 6 0 0 0 14 in Beispiel 2.1.1 ist 0 0 1 mit Rang A = 3, d.h. maximal 3 Spaltenvektoren sind linear unabhängig. Da die Matrix 5 Spal 5 tenvektoren hat, gibt es maximal = 10 mögliche Kombinationen von je 3 linear unabhängigen 3 Spaltenvektoren, von denen in der Tat 9, d.h. alle bis auf die Kombination ~a2 ,~a3 ,~a4 linear unabhängig sind. Wir nennen eine solche Kombination Basis. Betrachten wir die Basis {~a1 ,~a2 ,~a3 }. Die zugehörigen Variablen x1 , x2 , x3 nennen wir Basisvariable. Man kann das Gleichungssystem A · ~x = ~b so umformen, daß in jeder Gleichung genau eine der Basisvariablen auftritt, und zwar mit Koeffizient 1. In unserem Beispiel ergibt sich x1 1 x5 6 1 x5 − 3 + 2x5 + x2 1 x4 4 − 2x4 + x3 = = = 13 4 . 12 Definition 2.2.2 Gegeben sei das Standard-Maximum-Problem 2.4. Eine Menge von m linear unabhängigen Spaltenvektoren von A heißt Basis, die zugehörigen Variablen Basisvariablen, eine Darstellung des Gleichungssystems A · ~x = ~b, bei dem in jeder Gleichung genau eine der Basisvariablen auftritt, und zwar mit Koeffizient 1, heißt Basisdarstellung, eine Lösung des Gleichungssystems, bei der alle Nichtbasisvariable den Wert Null haben, Basislösung und eine Basislösung, bei der alle Basisvariablen nichtnegativ sind, zulässige Basislösung. Bemerkungen 2.2.3 (1) Eine zulässige Basislösung kann höchstens m positive Komponenten besitzen. (2) Jede zulässige Basislösung entspricht einer Ecke des Polyeders der zulässigen Lösungen. Man erhält sofort Satz 2.2.4 (Simplextheorem) Eine der zulässigen Basislösungen ist Lösung des Standard-MaximumProblems 2.4. Dabei ist eine zulässige Basislösung optimal, wenn in der Darstellung der Zielfunktion als Funktion der Nicht-Basisvariablen xm+1 , . . . , xm+n z = d0 + dm+1 xm+1 + . . . + dm+n xm+n alle Koeffizienten der Nicht-Basisvariablen kleiner oder gleich Null sind. 2. Lineare Optimierung 15 Für Beispiel 2.1.1 erhält man Basis Basisdarst. x3 x4 ~a3 ,~a4 ,~a5 x5 z − 12x1 − 8x2 = + 8x2 − 23 x5 = 44 x3 x4 + 4x2 − 43 x5 = 16 z − 8x2 x1 x2 ~a1 ,~a2 ,~a3 x3 z x1 + 2x5 = 156 + 16 x5 = 13 + 14 x4 − 13 x5 = − 2x4 + 2x4 − 23 x5 = 188 1 − 12 x3 + 16 x4 = 12 + 12 x3 + 13 x3 + 12 x1 x5 z x2 x4 x5 z 4 + 2x5 = 12 + 16 x3 − x2 ~a1 ,~a2 ,~a5 ~a2 ,~a4 ,~a5 0 + 16 x5 = 13 x1 ~a1 ,~a3 ,~a4 + 4x1 + 8x2 = 96 + 8x1 + 4x2 = 120 + 6x1 = 78 1 12 x4 = 6 − x4 = 6 + 43 x4 = 192 + 18 x3 = 12 + 6x1 − 12 x3 = 72 + 6x1 = 78 − 8x1 + x3 = 96 zul.Basislösung Wert Ecke 0 0 96 0 (0|0) 120 78 13 0 44 156 (13|0) 16 0 13 4 12 188 (13|4) 0 0 12 6 0 192 (12|6) 0 6 0 12 0 96 (0|12) 72 78 Das Simplexverfahren ist ein Algorithmus, bei dem eine Ausgangslösung so lange verbessert wird, bis eine optimale Lösung gefunden wird oder die Nichtlösbarkeit erkannt wird. Dabei geht man von einer Ecke des Polyeders zu der benachbarten Ecke über, für die die Zielfunktion einen größeren Wert hat. Der Übergang zu einer Nachbarecke entspricht dem Austausch einer der Basisvariablen durch eine Nicht-Basisvariable. Man wählt dabei die Nicht-Basisvariable xj , deren positiver Koeffizient dj in der Darstellung der Zielfunktion maximal ist. Als Ausgangslösung kann man z.B. die zulässige Basislösung nehmen, bei der die Schlupfvariablen als Basisvariablen gewählt werden. Damit erhält man folgenden Lösungsalgorithmus. Simplexverfahren: x1 a11 a21 (1) Aufstellung des Ausgangstableaus . .. x2 a12 a22 .. . ... ... ... .. . am2 d1 ... d2 amn ... xn xn+1 xn+2 a1n 1 0 a2n 0 1 .. .. .. . . . 0 0 ... dn 0 0 . . . xn+m b ... 0 b1 ... 0 b2 .. .. .. . . . 1 am1 bm ... 0 −d0 2. Lineare Optimierung 16 (2) Optimalitätsprüfung: Gilt für alle Koeffizienten der letzten Zeile di ≤ 0, 1 ≤ i ≤ n, dann ist die optimale Lösung erreicht und das Verfahren endet. Sonst fährt man mit Schritt (3) fort. (3) Nichtlösbarkeitsprüfung: Sind die Nebenbedingungen widersprüchlich, dann existiert keine Lösung. Ist ein dj größer als Null und alle aij in derselben Spalte kleiner oder gleich Null, dann ist die Zielfunktion auf der Menge der zulässigen Lösungen nicht beschränkt. In beiden Fällen bricht das Verfahren ab. Sonst weiter mit Schritt (4). (4) Pivot-Wahl: (a) Auswahl der auszutauschenden Nichtbasisvariablen: Wähle Spalte l mit dl = max{dj , 1 ≤ j ≤ n}. Dann wird die Nichtbasisvariable xl neue Basisvariable. (b) Auswahl der auszutauschenden Basisvariablen: bi bk Ermittle Zeile k mit = min{ ; ail > 0}. akl wird Pivot, die Variable xn+k wird Nichtakl ail Basisvariable. (5) Variablen-Austausch: (a) Dividiere die k-te Zeile durch akl . Das neue a′kl wird 1. (b) Addiere Vielfache der k-ten Zeile jeweils so zu den anderen Zeilen, daß das neue Element a′il bzw. d′l in der l-ten Spalte Null wird. (c) Vertausche die l-te und die (n + k)-te Spalte. Weiter mit Schritt (2). Bemerkungen 2.2.5 (1) Enthält die Spalte einer Nicht-Basisvariablen in der letzten (Zielfunktions-) Zeile den Wert 0, dann tritt das Maximum an mehreren Polyeder-Ecken auf, d.h. die Lösung ist nicht eindeutig. (2) Die Auswahl der Pivot-Spalte beruht auf der Idee, daß man bei Eliminierung des größten di die Zielfunktion am meisten vergrößert. (3) Die Auswahl der Pivot-Zeile gewährleistet, daß auch in dem neuen Tableau die neuen rechten Seiten bk nichtnegativ sind. bi Die Quotienten werden nur für die Zeilen berechnet, für die ail > 0. ail Gibt es mehrere kleinste“ positive Quotienten, dann kann man beliebig eine der entsprechenden ” Zeilen auswählen. 2. Lineare Optimierung Beispiel 2.2.6 Für Beispiel 2.1.1 ergibt sich Durchlauf x1 x2 x3 x4 x5 b I 4 8 6 12 0 0 1 0 8 4 0 8 8 4 0 8 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 − 23 − 43 0 0 1 0 0 0 1 0 0 1 0 0 0 1 0 0 1 0 0 0 −2 2 − 13 96 120 78 0 44 16 13 −156 II III IV 1 4 0 −2 −1 1 − 12 1 2 1 6 1 − 12 − 13 1 6 − 43 Definition 2.2.7 Das lineare Optimierungsproblem 1 6 −2 1 6 2 3 1 0 0 0 bi ail 24 15 13 11 2 4 12 4 13 −188 6 6 12 −192 z(x1 , . . . , xn ) := 6 78 n X i=1 mit den Nebenbedingungen a11 x1 a21 x1 + + am1 x1 + a12 x2 + . . . + a1n xn a22 x2 + . . . + a2n xn ..................... am2 x2 + . . . + amn xn xi ≥ 0, 1 ≤ i ≤ n, bk ≥ 0, 1 ≤ k ≤ m, und heißt Minimum-Problem. In Matrix-Schreibweise lautet das Minimum-Problem z(~x) = ~c · ~x → min, A~x ≥ ~b, ~x ≥ ~0, ~b ≥ ~0. ci xi → min ≥ ≥ b1 b2 ≥ bm 17 2. Lineare Optimierung 18 Satz 2.2.8 (Dualitätssatz der linearen Optimierung) Zu jedem Minimum-Problem A~x ≥ ~b, z(~x) = ~c · ~x → min, ~x ≥ ~0, gibt es genau ein Maximum-Problem z ∗ (~u) = ~b · ~u → max, ~u ≥ ~0, AT ~u ≤ ~c, mit der Eigenschaft: (a) Der optimale Lösungswert von z ∗ ist gleich dem optimalen Wert von z. (b) In den Endtableaus der beiden Probleme sind die Werte der Basisvariablen der einen Aufgabe bis auf das Vorzeichen gleich den Werten der Nicht-Basisvariablen des anderen Problems. Beispiel 2.2.9 Zu dem Minimum-Problem z(x1 , x2 , x3 , x4 ) := 2x1 + x2 + 2x3 + x4 → min ≥ ≥ ≥ x1 + x3 x1 + x2 + x3 + 2x4 x2 + x3 + x4 xi ≥ 0, i = 1, . . . , 4. bzw. A~x ≥ ~b, z(~x) = ~c · ~x → min, ~x ≥ ~0, mit 1 0 1 0 A = 1 1 1 2 , 0 1 1 1 2 1 ~c = 2 , 1 10 ~b = 20 , 15 erhält man das duale Maximum-Problem z ∗ (~u) = ~b · ~u → min, AT ~u ≤ ~c, 10 20 15 1 0 mit AT = 1 0 ~u ≥ ~0, bzw. z ∗ (u1 , u2 , u3 ) := 10u1 + 20u2 + 15u3 → max u1 +u2 u2 +u3 u1 +u2 +u3 2u2 +u3 ui ≥ 0, ≤ ≤ ≤ ≤ i = 1, . . . , 3. 2 1 2 1 1 1 1 2 0 1 1 1 2. Lineare Optimierung Mit dem Simplex-Verfahren erhält man Durchlauf u1 u2 u3 u4 u5 u6 u7 c I 1 0 1 0 10 1 1 1 2 20 0 1 1 1 15 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 2 1 2 1 0 II 1 0 1 0 10 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 0 −0, 5 0, 5 0, 5 0, 5 5 −0, 5 0, 5 1 0, 5 10 0 0 1 0 0 1 0 0 0 0 1 0 −1 0 −10 0, 5 0, 5 −1 0, 5 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0, 5 −0, 5 1 −0, 5 −10 −0, 5 −0, 5 −0, 5 0, 5 −10 −0, 5 −0, 5 0 0, 5 −5 −0, 5 −0, 5 0 0, 5 −5 1, 5 0, 5 1, 5 0, 5 −10 1, 5 0, 5 0 0, 5 −25 1, 5 0, 5 0 0, 5 −25 III IV ci ail 2 1 2 0, 5 1, 5 1, 5 die Lösung ∗ zmax = zmin = 25, x1 = u4 = 0, x2 = u5 = 0, x3 = u6 = 10, x4 = u7 = 5. 1 0 1 19 2. Lineare Optimierung 2.3 20 Transportprobleme Ein Spezialfall der linearen Optimierung ist die lineare Transportoptimierung. Beispiel 2.3.1 Drei Treibstofflager T1 , T2 , T3 beliefern vier Verbraucher P1 , P2 , P3 , P4 . Die Lagerkapazitäten seien a1 = 200, a2 = 90, a3 = 120 und die Bedarfsmengen b1 = 30, b2 = 190, b3 = 60 und b4 = 130. P1 P2 P3 P4 T1 6 3 5 1 Die Entfernungen ergeben sich aus der Tabelle . T2 3 7 4 4 T3 5 2 3 1 (Gesamtkapazität und Gesamtbedarf stimmen in diesem Beispiel überein.) Der Transport ist so zu organisieren, daß der Gesamtweg minimal ist, aber der Gesamtbedarf abgedeckt wird. Wir bezeichnen die Transportmenge von Lager Ti nach Verbraucher Pj mit xij . Es sollen keine negative Transportmengen (d.h. in umgekehrter Richtung) auftreten. Dann ergibt sich folgender Verteilungsplan P1 P2 P3 P4 a T1 x11 x12 x13 x14 200 T2 x21 x22 x23 x24 90 . T3 x31 x32 x33 x34 120 b 30 190 60 130 410 Allgemein ergibt sich Definition 2.3.2 An m Versandstellen A1 , . . . , Am sei ein Gut in den positiven Mengen a1 , . . . , am verfügbar, und es werde an n Bestimmungsorten B1 , . . . , Bn in den positiven Mengen b1 , . . . , bn benötigt. m n X X Es gelte ai = bj . Die Transportkosten von Ai nach Bj betragen kij . i=1 j=1 Die Bestimmung von Transportmengen xij ≥ 0 von Ai nach Bj mit minimalen Gesamtkosten, d.h. mit m n X X K= kij xij → min, i=1 j=1 unter den Nebenbedingungen in Form der Versandbedingungen m X xij = bj , 1 ≤ j ≤ n, xij = ai , 1 ≤ i ≤ m. i=1 und der Empfangsbedingungen n X j=1 heißt ausgeglichenen Transportproblem. 2. Lineare Optimierung 21 Bemerkungen 2.3.3 (1) In der Praxis stimmen Gesamtkapazität und Gesamtbedarf oft nicht überein. Ein nichtausgeglichenes Transportproblem läßt sich aber durch Einführung zusätzlicher fiktiver Versandstellen bzw. Bestimmungsorten mit extrem hohen Kosten in ein äquivalentes ausgeglichenes Transportproblem umwandeln. (2) Ein ausgeglichenes Transportproblem ist ein Minimum-Problem mit m · n Variablen und m + n Nebenbedingungen, die schon in Form von Gleichungen vorliegen. Jede Variable kommt in den Nebenbedingungen genau zweimal vor, und jedes Mal mit Koeffizient 1. Wegen der Ausgeglichenheitsbedingung ist der Rang der Koeffizientenmatrix der m + n Nebenbedingungen gleich r = m + n − 1, d.h. eine der Gleichungen ist überflüssig, und man erhält r = m + n − 1 Basisvariable und m · n − r (frei wählbare) Nicht-Basisvariable. (3) Jedes ausgeglichene Transportproblem hat mindestens eine optimale Lösung. Wir gewinnen eine optimale Lösung durch zwei Schritte: Zuerst gewinnen wir eine zulässige Basislösung als Ausgangslösung. Dann geben wir ein Verfahren an, mit dem man erkennen kann, ob die vorliegende Lösung optimal ist, und das gegebenenfalls die Ausgangslösung verbessert. Ausgangslösung mit Nord-West-Ecken-Regel Beginnend mit dem Feld links oben (daher NW-Ecken-Regel) werden die Felder der Transportmatrix so aufgefüllt, daß gerade noch die Nebenbedingungen erfüllt sind. 1. Schritt: x11 := min{a1 , b1 }. 2. Schritt: Für x11 = a1 setze x1j := 0, 2 ≤ j ≤ n, und b′1 := b1 − a1 . Für x11 = b1 setze xi1 := 0, 2 ≤ i ≤ m, und a′1 := a1 − b1 . 3. Schritt: Durch Schritt 1-2 sind die Transportmengen in der ersten Zeile bzw. ersten Spalte festgelegt. Streiche diese und wende Schritt 1-2 auf das reduzierte Schema an (mit a′1 statt a1 bzw. b′1 statt b1 ). Beispiel 2.3.4 Für Beispiel 2.3.1 ergibt sich T1 T2 T3 b P1 P2 P3 P4 a 30 170 0 0 200 0 20 60 10 90 . 0 0 0 120 120 30 190 60 130 410 Bemerkungen 2.3.5 (1) Bei dem Verfahren wählt man immer das Nord-West-Element und streicht anschließend eine Spalte oder Zeile. Es werden insgesamt n − 1 Spalten und k Zeilen (mit 0 ≤ k ≤ m − 1) gestrichen und dabei jeweils 1 Element ausgewählt, d.h. mit den verbleibenden m − k Elementen der letzten Spalte insgesamt n − 1 + k + (m − k) = n + m − 1. Oder es werden insgesamt m − 1 Zeilen und k Spalten (mit 0 ≤ k ≤ n − 1) gestrichen und dabei jeweils 1 Element ausgewählt, d.h. mit den verbleibenden n − k Elementen der letzten Zeile insgesamt m − 1 + k + (n − k) = n + m − 1. Die Werte der nicht ausgewählten Elemente sind Null, die der ausgewählten sind nichtnegativ, d.h. wir haben eine zulässige Basislösung gefunden, wobei die ersteren die Nicht-Basisvariablen und die letzteren die Basisvariable sind. 2. Lineare Optimierung 22 (2) Es gibt eine Vielzahl von weiteren Verfahren zur Gewinnung einer Anfangslösung, z.B. die auf” steigende Indexmethode“ oder die Vogelsche Approximationsmethode“. Sie sind rechentechnisch ” aufwendiger als die Nord-West-Ecken-Methode, liefern aber oft schon Lösungen, die der optimalen Lösung näher liegen (da die Nord-West-Ecken-Methode die Transportkosten überhaupt nicht berücksichtigt). Potentialmethode zur Gewinnung einer optimalen Lösung Wir fassen Kosten- und Verteilungstabelle in einer Tabelle zusammen. Zuerst sei es wieder an unserem Beispiel 2.3.1 demonstriert: Jedes Feld wird nochmal in 4 Felder unterteilt, wobei links oben die Kosten kij und rechts unten die Liefermenge xij eingetragen werden. Der Vollständigkeit halber kennzeichnen wir im Feld links unten, ob es sich um eine Basisvariable handelt oder nicht. P1 T1 T2 T3 P2 P3 P4 a 6 3 5 1 BV 30 BV 170 0 0 3 7 4 4 0 BV 20 BV 60 BV 10 5 2 3 1 0 0 0 BV 120 b 30 190 60 200 90 . 120 130 410 Wir suchen nun Potentiale u1 , . . . , um , v1 , . . . , vn ∈ IR mit ui + vj = kij für alle i, j, für die xij Basisvariable ist. Da es r = m + n − 1 Basislösungen und m + n Potentiale gibt, ist das System unterbestimmt, man kann also ein Potential frei wählen, z.B. u1 = 0, und die anderen Werte lassen sich daraus sukzessive (eindeutig) berechnen. Dabei müssen auch Basisvariable berücksichtigt werden, deren Wert Null ist. Ist ~xB eine zulässige Basislösung, ~x eine beliebige zulässige Lösung, dann gilt für die Kosten K(~x) = = m X n X i=1 j=1 m X n X kij xij = m X n m n X X X (kij − ui − vj )xij + ui ai + vj bj i=1 j=1 ∗ kij xij + K0 = i=1 j=1 = kij − ui − vj , Damit erhält man j=1 ∗ kij xij + K0 i=1 j=1 xij Nicht-Basisvariable mit ∗ kij i=1 m X n X K0 = m X i=1 ui ai + n X vj bj = j=1 xij m X n X kij xij = K(~xB ). i=1 j=1 Basisvariable 2. Lineare Optimierung 23 Satz 2.3.6 (Optimalitätskriterium) Sei ~xB eine zulässige Basislösung des Transportproblems mit Kostenmatrix (kij ) und ui , vj Lösungen des linearen Gleichungssystems ui + vj = kij , xij Basisvariable. Sind alle Elemente der modifizierten Kostenmatrix ∗ kij := kij − ui − vj nichtnegativ, dann ist ~xB eine optimale zulässige Basislösung und K(~xB ) Kostenminimum. Wir fügen in unserem Beispiel die Potentiale in eine zusätzliche Spalte bzw. Zeile ein: P1 T1 T2 T3 P3 P4 a 6 3 5 1 BV 30 BV 170 0 0 3 7 4 4 0 BV 20 BV 60 BV 10 5 2 3 1 0 0 0 BV 120 b v P2 30 6 190 3 60 0 130 u 0 200 4 90 1 . 120 410 0 ∗ und tragen Für die Felder der Nicht-Basisvariablen xij = 0 berechnen wir die modifizierten Kosten kij diese Werte in die freien Felder des Schemas ein: P1 T1 T2 T3 P3 P4 a 6 3 5 5 1 1 BV 30 BV 170 0 0 3 −7 7 4 4 0 BV 20 BV 60 BV 10 5 −2 2 −2 3 2 1 0 0 0 BV 120 b v P2 30 6 190 3 60 0 130 u 0 200 4 90 1 . 120 410 0 ∗ gibt, ist die Anfangslösung (mit den Kosten Da es Felder mit negativen modifizierten Kosten kij K = 1230) also nicht optimal. Zur Gewinnung einer verbesserten zulässigen Basislösung tauschen wir wie bei der Simplexmethode eine ∗ , gegen eine Basisvariable aus. Nicht-Basisvariable, und zwar die Variable mit kleinstem kij Sei xlk diese Nicht-Basisvariable. Wir konstruieren nun einen Verschiebekreis, d.h. einen geschlossenen Weg, der aus Teilen in Zeilenbzw. Spaltenrichtung besteht und dessen Ecken (außer der Anfangsecke) Basislösungen sind: 2. Lineare Optimierung 24 Vom Ausgangsfeld F1 = (lk) wählt man in derselben Zeile (Spalte) eine Basisvariable xlj (bzw. xik ) im Feld F2 , die in ihrer Spalte (bzw. Zeile) eine weitere Basisvariable im Feld F3 hat. In F3 ändert man wieder die Richtung zu einem Feld F4 usw. Nach endlich vielen Schritten kehrt man wieder zum Ausgangsfeld F1 zurück, hat also einen geschlossenen Weg (Verschiebekreis) konstruiert. Die Felder auf diesem Weg kennzeichnet man abwechselnd mit + und −, beginnend mit + für F1 . Weiter bestimmt man das kleinste xij der mit − gekennzeichneten Felder. Wir wollen diesen Wert mit x∗ bezeichnen. Addiert man zu jedem xij in einem mit + gekennzeichneten Feld x∗ und subtrahiert von jedem xij in einem mit − gekennzeichneten Feld x∗ , dann verändern sich weder die Zeilensummen noch die Spaltensummen. Die Nicht-Basisvariable xlk = 0 wird zur Basisvariablen xlk = x∗ und die Basisvariable in dem mit − gekennzeichneten Feld mit xpq = x∗ wird zur Nicht-Basisvariablen xpq = 0. Aus der Konstruktion ergibt sich, daß die Kosten für die neue Basislösung (im Falle x∗ > 0) kleiner sind, daß man also eine bessere Basislösung gefunden hat. Für unser Beispiel ergibt sich der Verschiebekreis (21) → (22) → (12) → (11) x∗ = 20, und also eine neue Basislösung P1 T1 T2 T3 P2 P3 P4 a 6 3 5 1 BV 10 BV 190 0 0 3 7 4 4 BV 20 0 BV 60 BV 10 5 2 3 1 0 0 0 BV 120 b 30 190 60 130 u 200 90 . 120 410 v ∗ ergibt mit den Kosten K = 1090. Neuberechnung der Potentiale und der kij P1 T1 T2 T3 P3 P4 a 6 3 5 −2 1 −6 BV 10 BV 190 0 0 3 7 7 4 4 BV 20 0 BV 60 BV 10 5 5 2 5 3 2 1 0 0 0 BV 120 b v P2 30 6 190 3 60 7 130 u 0 200 90 120 −3 −6 . 410 7 Die Lösung ist also nicht optimal. Es ergibt sich der Verschiebekreis (14) → (24) → (21) → (11) → (14) und x∗ = 10. x14 wird Basisvariable und x24 oder x11 wird Nicht-Basisvariable. Wir wählen x24 als Nicht-Basisvariable ∗ die Lösung und erhalten wieder mit Neuberechnung der Potentiale und kij 2. Lineare Optimierung P1 T1 T2 T3 P2 P4 a 6 3 5 −2 1 BV 0 BV 190 0 BV 10 3 7 7 4 4 6 BV 30 0 BV 60 0 5 −1 2 −1 3 −4 1 0 0 0 BV 120 b 30 v P3 6 190 3 60 7 130 25 u 0 200 90 −3 0 120 410 1 mit den Kosten K = 1030, die wieder nicht optimal ist. Es ergibt sich der Verschiebekreis (33) → (34) → (14) → (11) → (21) → (23) → (33) und x∗ = 0. x33 wird Basisvariable und x11 Nicht-Basisvariable. Wir erhalten mit Neuberechnung der Potentiale und ∗ die Lösung kij P1 T1 T2 T3 P3 P4 a 6 4 3 5 2 1 0 BV 190 0 BV 10 3 7 3 4 4 2 BV 30 0 BV 60 0 5 3 2 −1 3 1 0 0 BV 0 BV 120 b v P2 30 2 190 3 60 3 130 u 0 200 1 90 0 120 410 1 mit den Kosten K = 1030, die nicht optimal ist. Es ergibt sich der Verschiebekreis (32) → (34) → (14) → (12) → (32) x∗ = 120. und x32 wird Basisvariable und x34 Nicht-Basisvariable. Wir erhalten mit Neuberechnung der Potentiale und ∗ die Lösung kij P1 T1 T2 T3 P3 P4 a 6 3 3 5 1 1 0 BV 70 0 BV 130 3 7 4 4 4 3 BV 30 0 BV 60 0 5 3 2 3 1 1 0 BV 120 BV 0 0 b v P2 30 3 mit den Kosten K = 910, die optimal ist. 190 3 60 4 130 1 u 0 200 0 90 120 410 −1 26 3 Funktionen mehrerer Variabler 3.1 Geometrische Veranschaulichung In den Anwendungen treten meist Funktionen von mehreren reellen Variablen auf. Zum Beispiel hängt die kinetische Energie E eines Körpers von seiner Masse m und seiner Geschwindigkeit v ab. Es gilt E = 12 mv 2 . Rotiert der Körper zusätzlich um eine feste Achse, dann hängt E auch noch von der Winkelgeschwindigkeit ω und dem Trägheitsmoment J des Körpers bezüglich dieser Achse ab, E ist also Funktion der 4 Variablen m, v, ω und J. Wir wollen nun die bisherigen Überlegungen der Differentialund Integralrechnung auf solche Funktionen mehrerer Variabler übertragen. Ein wichtiges Hilfsmittel zum Verständnis der Funktionen war ihr Bild in einem kartesischen Koordinatensystem, in dem die unabhängige Variable x und die abhängige Variable y = f (x) dargestellt werden. Analog läßt sich eine Funktion f (x, y) zweier unabhängiger Variabler darstellen, indem man in den Raum ein 3-dimensionales kartesisches Koordinatensystem (mit jeweils zueinander senkrechten) x-Achse, yAchse und z-Achse legt und die Funktion durch die Fläche“ {(x, y, z); z = f (x, y), (x, y) ∈ D} (mit ” einer geeigneten Punktmenge D der (x, y)-Ebene) darstellt. Allgemein bezeichnen wir die Menge aller geordneten Paare, Tripel oder allgemein n-Tupel, als 2-, 3bzw. n-dimensionalen reellen Raum IR2 , IR3 bzw. IRn . Der 2-dimensionale Raum heißt auch Ebene. n Ein n-Tupel bezeichnen wir wieder als Vektor ~x = (x1 , x2 , . . . , xn ) im IR . Als Darstellung ist auch x1 x2 ~x = . üblich. .. xn Mit der Abstandsdefinition kann man den Begriff der Umgebung verallgemeinern: Uǫ (P0 ) := {P ∈ IRn ; |P − P0 | < ǫ} heißt ǫ-Umgebung von P0 . 2 Eine ǫ-Umgebung von x~0 im IR ist also eine offene Kreisscheibe mit Mittelpunkt x~0 und Radius ǫ, eine ǫ-Umgebung im IR3 die entsprechende offene Kugel. In vielen Fällen beschreibt man Punktmengen im IRn durch Ungleichungen. Beispiel 3.1.1 z (1) Die Menge der Punkte ✻4 D1 :={(x, y, z) ∈ IR3 ; 1 ≤ x ≤ 3, 0 ≤ y ≤ 3, 1 ≤ z ≤ 4} ist ein Quader. Die Randpunkte gehören zu der Menge, sie ist also abgeschlossen. Da der größte Abstand von Punkten der Menge zum Nullpunkt kleiner als 6 ist, ist die Menge auch beschränkt. 1 1 x3 ☛ y ③ 3 3. Funktionen mehrerer Variabler z (2) Die Menge der Punkte 27 ✻ 4 Z :={(x, y, z) ∈ IR3 ; −R ≤ x ≤ R, p p − R2 − x2 ≤ y ≤ R2 − x2 , 1 ≤ z ≤ 4} ist ein gerader Kreiszylinder. Die Randpunkte gehören zu der Menge, sie ist also abgeschlossen. Da der größte Abstand von Punkten √ der Menge zum Nullpunkt nicht größer als 16 + R2 ist, ist die Menge auch beschränkt. 1 ✲ y R x✠ Das kartesische Koordinatensystem ist manchmal relativ ungeeignet zur Beschreibung von Flächen oder Funktionen. Wir führen daher zwei weitere Möglichkeiten für ein Koordinatensystem ein: z P′ 1. Jeder Punkt der (x, y)-Ebene (außer dem Nullpunkt) läßt sich umkehrbar eindeutig durch den Abstand r0 vom Nullpunkt und den Winkel φ0 , den der Verbindungsstrahl vom Nullpunkt zu P ′ mit der positiven x-Achse einschließt und der von der x-Achse aus gegen den Uhrzeigersinn gemessen wird, beschreiben. Damit kann man jeden Punkt P des Raums mit den kartesischen Koordinaten (x0 , y0 , z0 ) (außer den Punkten der z-Achse) durch die drei Zylinderkoordinaten r0 , φ0 und z0 beschreiben. x0 = r0 · cos φ0 , Offensichtlich gilt bzw. q r0 = x20 + y02 und y0 = r0 · sin φ0 , y0 arctan x0 π 2 y0 φ0 = arctan x + π 0 3π 2 y arctan 0 + 2π x0 z0 ✻ ❜P y0 φ0 ✣ r0 x0 ✲ y ❜ x✢ P′ (0 ≤ r, 0 ≤ φ0 < 2π) für x0 > 0, y0 > 0 für x0 = 0, y0 > 0 für x0 < 0 . für x0 = 0, y0 < 0 für x0 > 0, y0 < 0 Betrachtet man nur die Ebene und ersetzt die kartesischen Koordinaten x und y durch r und φ, dann nennt man die Koordinaten r, φ Polarkoordinaten. Die Menge aller Punkte mit einem festen x-Wert, d.h. {(x, y, z); x = x0 , y, z ∈ IR}, ist eine Ebene im Raum parallel zur (y, z)-Ebene. Analog gilt das für die Mengen mit festem y- bzw. z-Wert. Bei Zylinderkoordinaten gilt: Die Mengen mit • festem r-Wert r0 bilden einen nach oben und unten unbeschränkten geraden Kreiszylinder mit Radius r0 und der z-Achse als Achse, • festem φ-Wert φ0 eine Halbebene senkrecht zur (x, y)-Ebene durch die Gerade φ = φ0 , die durch die z-Achse berandet wird. 3. Funktionen mehrerer Variabler • festem z-Wert z0 eine Ebene parallel zur (x, y)-Ebene. z z ✻ z ✻ z0 r0 ③ ✲ y ✯ x✠ φ0 ③ 28 ✻ ✻ ✲ y ✲ y x✠ x✠ Beispiele 3.1.2 (1) Der Zylinder aus dem vorigen Beispiel wird in Zylinderkoordinaten beschrieben durch die Ungleichungen 0 ≤ r ≤ R, 0 ≤ φ < 2π, 1 ≤ z ≤ 4. z (2) Legt man einen geraden Kreiskegel mit Grundkreisradius R und Höhe h so, daß die Spitze im Ursprung liegt und die Kegelachse gleich der z-Achse ist, dann wird er in Zylinderkoordinaten beschrieben durch 0 ≤ r ≤ R, 0 ≤ φ < 2π, ✻ h h · r ≤ z ≤ h. R x✠ 2. Sei P ein beliebiger Punkt P des Raums (außer dem Nullpunkt) und P ′ die Projektion auf die (x, y)-Ebene. P läßt sich umkehrbar eindeutig durch den Abstand r0 vom Nullpunkt, den Winkel φ0 , den der Verbindungsstrahl vom Nullpunkt zu P ′ mit der positiven x-Achse einschließt und der von der x-Achse aus gegen den Uhrzeigersinn gemessen wird, und den Winkel θ, den der Strahl vom Nullpunkt zu P mit der positiven z-Achse einschließt und der von der z-Achse aus in Richtung des Uhrzeigersinns gemessen wird, beschreiben. Damit kann man jeden Punkt des Raums mit den kartesischen Koordinaten (x0 , y0 , z0 ) (außer dem Nullpunkt) durch die drei Kugelkoordinaten r0 , φ0 und θ0 beschreiben. Offensichtlich gilt x0 = r0 · cos φ0 · sin θ0 , z R ✲ y ✻ z0 ♣ θ0 ❫ r0 ❜P φ0 r sin θ 0 ✣0 x0 x✢ y0 = r0 · sin φ0 · sin θ0 , z0 = r0 · cos θ0 , r0 cos θ0✲ y0 y ♣❜ P′ (0 ≤ r, 0 ≤ φ0 < 2π, 0 ≤ θ ≤ π) 3. Funktionen mehrerer Variabler 29 bzw. q r0 = x20 + y02 + z02 , y0 arctan x0 π 2 y0 φ0 = arctan x + π 0 3π 2 y arctan 0 + 2π x0 für x0 > 0, y0 > 0 für x0 = 0, y0 > 0 für x0 < 0 , θ0 = arccos z0 . r0 für x0 = 0, y0 < 0 für x0 > 0, y0 < 0 Oft wird der Winkel θ ersetzt durch den Winkel θ ∗ zwischen dem Verbindungsstrahl vom Nullpunkt zu P und seiner Projektion. Dann gilt θ ∗ = π2 − θ und x0 = r0 · cos φ0 · cos θ0∗ , y0 =r0 · sin φ0 · cos θ0∗ , z0 = r0 · sin θ0∗ , π π (0 ≤ r, 0 ≤ φ0 < 2π, − ≤ θ ∗ ≤ ). 2 2 Beispiel 3.1.3 Die Kugel mit Mittelpunkt im Nullpunkt und Radius R wird in Kugelkoordinaten beschrieben durch die Ungleichungen 0 ≤ r ≤ R, 0 ≤ φ < 2π, 0 ≤ θ ≤ π. Wir betrachten Funktionen f (x, y) zweier reeller Veränderlicher. Jedem Paar (x, y) ordnen wir einen Punkt der (x, y)-Ebene in einem räumlichen kartesischen Koordinatensystem zu. Dann stellt die Menge der Punkte {(x, y, z); x, y ∈ IR, z = f (x, y)} die Funktion grafisch dar. Man kann nun auf verschiedene Weise versuchen, diese Fläche durch eine ebene Zeichnung zu beschreiben: (1) Eine Darstellung durch Parameterlinien erhält man, wenn man auf der Fläche die Linien {(x0 , y, z); y ∈ IR, z = f (x0 , y)} und {(x, y0 , z); x ∈ IR, z = f (x, y0 )} hervorhebt. Sie sind das Bild des Netzes in der (x, y)-Ebene, das durch x = x0 bzw. y = y0 beschrieben wird. Dabei wählt man die Werte der Parameter x0 und y0 möglichst mit festem Abstand. (2) Schneidet man die Fläche mit der Ebene z = z0 , dann erhält man die zugehörige Höhenlinie (oder Niveaulinie) als Menge aller Punkte (x, y, z0 ) im Raum mit f (x, y) = z0 . Die Projektion einer Höhenlinie auf die (x, y)-Ebene heißt Isoquante. Wählt man für z0 Werte in gleichmäßigem Abstand, dann erhält man eine relativ aussagefähige Darstellung der Fläche in der Ebene. Analog zu der Darstellung durch die Isoquanten kann man die Fläche durch Schnitte parallel zu den anderen Koordinatenebenen darstellen. Für Funktionen mit 3 Veränderlichen ist die geometrische Darstellung schwieriger. Man kann sie sich als Dichtefunktion oder Temperaturverteilung im Raum vorstellen. Den Höhenlinien entsprechen dann die Niveauflächen {(x, y, z); f (x, y, z) = c}. 3. Funktionen mehrerer Variabler 3.2 30 Stetigkeit Wir übertragen im folgenden Begriffe wie Stetigkeit, Ableitung und Integration auf Funktionen von n Variablen. Dabei macht es begrifflich keinen großen Unterschied, ob man den Fall n = 2 oder n > 2 betrachtet. Wir formulieren die Definitionen daher wegen der einfacheren Darstellung meist nur für den Fall n = 2. Analog zur Stetigkeit von Funktionen einer Variablen erhält man: Definition 3.2.1 Sei f eine Funktion von 2 reellen Variablen mit Definitionsgebiet D, (x̃, ỹ) ∈ D. f heißt stetig in (x̃, ỹ), wenn für jede Folge von Paaren (xk , yk ) ∈ D mit lim xk = x̃ k→∞ und lim yk = ỹ k→∞ die Zahlenfolge f (xk , yk ) gegen f (x̃, ỹ) konvergiert. Ist f in jedem Punkt von D ′ ⊂ D stetig, dann heißt f stetig in D ′ . Mit der Abstandsmessung in der Ebene ergibt sich als äquivalente Definition: Satz 3.2.2 Sei f eine Funktion von 2 reellen Variablen mit Definitionsgebiet D, (x̃, ỹ) ∈ D. f ist stetig in (x̃, ỹ) genau dann, wenn es für jedes ǫ > 0 ein δ > 0 gibt, so daß für alle (x, y) ∈ D mit (x, y) − (x̃, ỹ) < δ gilt f (x, y) − f (x̃, ỹ) < ǫ. Für die stetigen Funktionen mehrerer Variabler gilt analog zu den Funktionen einer Variablen: Satz 3.2.3 (a) Summe, Produkt und Vielfache von stetigen Funktionen sind stetig. Sind die Funktionen f und g in (x̃, ỹ) stetig und gilt g(x̃, ỹ) 6= 0, dann ist der Quotient stetig. f in (x̃, ỹ) g (b) Liegen die Funktionswerte der Funktion f (x, y) im Intervall I ⊂ IR, ist g : I → IR eine reellwertige Funktion einer Variablen und ist f stetig in (x̃, ỹ), g stetig in f (x̃, ỹ), dann ist g ◦ f stetig in (x̃, ỹ). (c) Ist A eine abgeschlossene und beschränkte Teilmenge des Definitionsgebietes von f und ist f in A stetig, dann hat f dort ein Minimum und ein Maximum, d.h. es gibt (x1 , y1 ), (x2 , y2 ) ∈ A mit f (x1 , y1 ) ≤ f (x, y) ≤ f (x2 , y2 ) für alle (x, y) ∈ A. Beispiel 3.2.4 (1) f (x, y) := x und g(x, y) := y sind in (x̃, ỹ) für alle x̃, ỹ ∈ IR stetig. Eine Funktion X f (x, y) := aij xi y j 0≤i≤m 0≤j≤n heißt Polynom in den Variablen x und y. Jedes Polynom von n Variablen ist in seinem Definitionsgebiet stetig. Analog überträgt man den Begriff der gebrochen rationalen Funktion auf den Fall mehrerer Variabler. Eine gebrochen rationale Funktion mehrerer Variabler ist in allen Punkten stetig, in denen der Nenner nicht Null wird. 3. Funktionen mehrerer Variabler y 2 sin 1 x (2) Die Funktion f (x, y) := 0 (3) Sei x·y f (x, y) := x2 + y 2 0 für x 6= 0 für x = 0 31 ist für kein y0 6= 0 in (0, y0 ) stetig. für (x, y) 6= (0, 0) . für (x, y) = (0, 0) Für festes x0 ∈ IR bzw. y0 ∈ IR sind die Funktionen g(x) := f (x, y0 ) bzw. h(y) := f (x0 , y) in IR stetig, aber f ist in (0, 0) nicht stetig. 3.3 Partielle und totale Differenzierbarkeit Wir betrachten ein kartesisches Koordinatensystem im Raum und eine Fläche, die durch eine Funktion f (x, y) beschrieben wird. Wir wollen die Steigungen der Fläche in einem Punkt (x0 , y0 ) bestimmen. Offensichtlich ist die Steigung davon abhängig, in welche Richtung man sich bewegt. Zwei der Richtungen sind von besonderer Wichtigkeit: z fx ✻ fy Die Parallelebene y = y0 zur (x, z)-Ebene im Abstand y0 schneidet aus der Fläche eine Kurve heraus, die in dieser Ebene durch die Funktion g(x) := f (x, y0 ) beschrieben wird. Ist g(x) im Punkt (x0 , y0 ) differenzierbar, dann gibt also g′ (x0 ) die Steigung (oder das Gefälle) der Fläche in x-Richtung an. ❜ P0 y0 Analoges gilt für den Schnitt der Fläche mit der Ebene x = x0 . ✲ y x0 x✠ Definition 3.3.1 Sei f (x, y) eine im Gebiet D ⊂ IR2 definierte Funktion und P0 = (x0 , y0 ) ∈ D. f heißt in P0 nach x partiell differenzierbar , wenn die Funktion g(x) := f (x, y0 ) in x0 differenzierbar ist, d.h. wenn fx (x0 , y0 ) := ∂f f (x0 + h, y0 ) − f (x0 , y0 ) (x0 , y0 ) := lim h→0 ∂x h existiert. fx (x0 , y0 ) heißt die partielle Ableitung von f nach x in (x0 , y0 ). Bemerkungen 3.3.2 (1) Analog definiert man die partielle Ableitung einer Funktion von n Variablen nach der Variablen xk im Punkt x~0 durch fxk (x~0 ) := ∂f f (x~0 + h · e~k ) − f (x~0 ) (x~0 ) := lim . h→0 ∂xk h (2) Ist f nach jeder Variablen partiell differenzierbar, dann nennt man f partiell differenzierbar. 3. Funktionen mehrerer Variabler 32 (3) Da die partielle Ableitung eigentlich eine Ableitung einer Funktion einer Variablen ist, gelten natürlich die entsprechenden Rechenregeln. Beispiel 3.3.3 (1) Die Funktion f (x, y, z) := (x2 + y 3 )2 + cos(2x + 3z) + eyz hat in IR3 die partiellen Ableitungen fx = 4x(x2 + y 3 ) − 2 sin(2x + 3z), x·y (2) Die Funktion f (x, y) := x2 + y 2 0 2 2 y · (y − x ) (x2 + y 2 )2 fx (x, y) := 0 fy = 6y 2 (x2 + y 3 ) + zeyz , fz = −3 sin(2x + 3z) + yeyz . für (x, y) 6= (0, 0) hat in IR2 die partiellen Ableitungen für (x, y) = (0, 0) für (x, y) 6= (0, 0) für (x, y) = (0, 0) , 2 2 x · (x − y ) (x2 + y 2 )2 fy (x, y) := 0 für (x, y) 6= (0, 0) . für (x, y) = (0, 0) Obwohl beide partiellen Ableitungen auch in (0, 0) existieren, ist f in (0, 0) nicht stetig. Existiert für eine Funktion f (x1 , . . . , xn ) von n Variablen eine partielle Ableitung nach einer Variablen xk in einem Gebiet, und ist die Ableitungs-Funktion fxk (x1 , . . . , xn ) wieder nach einer Variablen xl partiell differenzierbar, dann heißt deren Ableitung partielle Ableitung 2. Ordnung von f und wird mit ∂2f bzw. f xk xl ∂xk ∂xl bezeichnet. Analog erhält man partielle Ableitungen 3., 4. bzw. n-ter Ordnung. Beispiel 3.3.4 Die Funktion f (x, y, z) := (x2 + y 3 )2 + cos(2x + 3z) + eyz hat in IR3 die partiellen Ableitungen 2. Ordnung fxx = 12x2 + 4y 3 − 4 cos(2x + 3y), fxy = 12xy 2 , fyx = 12xy , fyy = 12x y + 30y + z e , fzx = −6 cos(2x + 3z), fzy = eyz + yzeyz , 2 2 4 2 yz fxz = −6 cos(2x + 3z), fyz = eyz + yzeyz , fzz = −9 cos(2x + 3z) + y 2 eyz . Die Gleichheit der gemischten“ 2. Ableitungen ist kein Zufall, denn es gilt ” Satz 3.3.5 (Schwarz) Sind f , fx , fy , fxy und fyx in einer Umgebung von (x0 , y0 ) definiert und die letzten beiden in (x0 , y0 ) stetig, dann gilt fxy (x0 , y0 ) = fyx (x0 , y0 ). Wir nannten eine Funktion f (x) differenzierbar in einem Punkt, wenn ihr Graph dort eine Tangente y = g(x) besaß. Das war gleichbedeutend damit, daß bei kleinen Änderungen von x die Werte von f und g sich nur wenig unterschieden. Jede differenzierbare Funktion war auch stetig. Die Eigenschaft partiell differenzierbar“ kann schon deshalb keine vernünftige Verallgemeinerung sein, ” weil es partiell differenzierbare Funktionen gibt, die nicht stetig sind. 3. Funktionen mehrerer Variabler 33 Definition 3.3.6 Sei D ⊂ IR2 ein Gebiet, f auf D definiert und (x0 , y0 ) ∈ D. f heißt in (x0 , y0 ) (vollständig) differenzierbar , wenn es a, b ∈ IR gibt mit f (x, y) =f (x0 , y0 ) + a · (x − x0 ) + b · (y − y0 ) + ǫ1 (x, y) · (x − x0 ) + ǫ2 (x, y) · (y − y0 ) und x→x lim ǫi (x, y) = 0, i = 1, 2. 0 y→y0 Bemerkung 3.3.7 f ist (vollständig) differenzierbar in (x0 , y0 ), wenn es eine lineare Funktion g durch f (x0 , y0 ) gibt mit f (x, y) =g(x, y) + ǫ1 (x, y) · (x − x0 ) + ǫ2 (x, y) · (y − y0 ) und x→x lim ǫi (x, y) = 0, 0 i = 1, 2. y→y0 Durch g(x, y) := f (x0 , y0 ) + a · (x − x0 ) + b · (y − y0 ) wird die Tangentialebene an die Fläche zu f im Punkt x0 , y0 , f (x0 , y0 ) beschrieben. Folgerungen 3.3.8 (1) Ist f in (x0 , y0 ) differenzierbar, dann ist f dort auch partiell differenzierbar, und es gilt a = fx (x0 , y0 ), b = fy (x0 , y0 ). (2) Ist f in (x0 , y0 ) differenzierbar, dann ist f dort auch stetig. Beispiel 3.3.9 Die Funktion f (x, y) := 2x2 + y 2 beschreibt einen Kegel mit Spitze im Ursprung. Die Schnitte mit den Ebenen z = z0 , z0 > 0, sind Ellipsen. Mit fx (x0 , y0 ) = 4x0 , fy (x0 , y0 ) = 2y0 erhält man also ǫ1 (x, y)(x − x0 ) + ǫ2 (x, y)(y − y0 ) = f (x, y) − f (x0 , y0 ) − fx (x0 , y0 )(x − x0 ) − fy (x0 , y0 )(y − y0 ) = 2(x − x0 ) (x − x0 ) + y − y0 (y − y0 ), ǫ1 (x, y) = 2(x − x0 ) → 0, ǫ2 (x, y) = y − y0 → 0 für x → x0 , y → y0 . Nach Folgerung 3.3.8(1) ist eine vollständig differenzierbare Funktion auch partiell differenzierbar. Die Umkehrung gilt i.a. nicht, denn jede vollständig differenzierbare Funktion ist stetig, aber nicht jede partiell differenzierbare Funktion. Es gilt aber Satz 3.3.10 Sei D ⊂ IR2 ein Gebiet, f auf D definiert, in D partiell differenzierbar und alle partiellen Ableitungen seien in D stetig. Dann ist f in D vollständig differenzierbar. 3. Funktionen mehrerer Variabler 34 Ist eine Funktion f in einem Gebiet D partiell differenzierbar und sind alle partiellen Ableitungen in D stetig, dann heißt f in D stetig differenzierbar. Beispiel 3.3.11 Die Funktion f (x, y) := 2x2 + xy 2 hat die in IR2 stetigen partiellen Ableitungen fx (x, y) = 4x + y 2 , fy (x, y) = 2xy und im Flächenpunkt 3, −1, f (3, −1) = 3, −1, 21 die Tangentialebene mit der Gleichung z = 21 + 13(x − 3) − 6(y + 1) = 13x − 6y − 24. Bei Messungen von Größen treten in der Regel Fehler auf, sei es durch Ungenauigkeit der Meßinstrumente, Beobachtungsfehler oder aus anderen Gründen. Nach der Messung kennt man weder den Fehler ǫ noch den wahren Wert x0 , sondern nur den Meßwert x. Durch mehrmalige Messung erhält man Schätzwerte für die maximale Abweichung dx > 0 der Meßwerte nach oben oder unten, d.h. es gilt x − dx ≤ x0 ≤ x + dx. dx dx heißt absoluter (maximaler) Fehler und relativer (maximaler) Fehler. x Da der relative Fehler die Größe des Meßwertes x mitberücksichtigt, ist er zur Beurteilung der Genauigkeit besser geeignet. Ist f (x, y) eine in einem Gebiet D definierte Funktion, dann haben ungenaue Werte der Variablen Auswirkungen auf den Funktionswert. Ist f in D differenzierbar und sind x und y die Meßwerte, dx und dy die absoluten Fehler, dann ergibt sich für die maximale Abweichung der Funktionswerte df (x0 , y0 ) := f (x, y) − f (x0 , y0 ) ≈ fx (x, y) · dx + fy (x, y) · dy ≤ fx (x, y) · dx + fy (x, y) · dy. Analog ergibt sich für Funktionen von n Variablen n X df (x~0 ) := f (~x) − f (x~0 ) ≈ fxk (~x) · dxk . k=1 Die rechte Seite ist ein Schätzwert für den absoluten Fehler von f . Beispiel 3.3.12 Für einen geraden Kreiszylinder mit Masse m, Höhe h und Radius r ergeben sich folgende Meßwerte: m = (89 ± 0, 3)g, h = (89 ± 0, 1)mm, r = (45 ± 0, 1)mm. m ist für r 6= 0, h 6= 0 stetig differenzierbar mit den partiellen Die Dichtefunktion σ(m, h, r) := πr 2 h Ableitungen 1 −m −2m σm = 2 , σh = 2 2 , σr = . πr h πr h πr 3 h Mit m = 89, h = 89, r = 45, dm = 0, 3, dh = dr = 0, 1 ergibt sich für den absoluten Fehler als Schätzwert dσ(m, h, r) = σm (m, h, r) · dm + σh (m, h, r) · dh + σr (m, h, r) · dr dm dh dr 0, 3 0, 1 0, 1 −4 = σ(m, h, r) + +2 = 1, 5719 · 10 · + +2 m h r 89 89 45 = 1, 41 · 10−3 g/cm3 . Für den relativen Fehler ergibt sich als Schätzwert dσ(m, h, r) = 0, 89%. σ(m, h, r) 3. Funktionen mehrerer Variabler 35 Definition 3.3.13 Sei D ⊂ IRn ein Gebiet, f auf D definiert und differenzierbar und P0 = x~0 ∈ D. Die in einer Umgebung von ~0 definierte Funktion df (x~0 , h1 , . . . , hn ) := n X k=1 fxk (x~0 ) · hk heißt totales Differential von f in P0 . Die Funktion xy + y2 läßt sich in Polarkoordinaten einfacher beschreiben. Es gilt nämlich f (x, y) = f (x, y) = x2 1 sin(2φ). 2 Um die partiellen Ableitungen nach x bzw. y zu berechnen, würde man gern diese einfache Form bzw. die partiellen Ableitungen nach r und φ benutzen. Satz 3.3.14 (Kettenregel) Sei D ⊂ IRn ein Gebiet, f (~x) in D definiert und differenzierbar. Sind die xk differenzierbare Funktionen von u1 , . . . , um , dann gilt n X ∂f ~x(u1 , . . . um ) ∂f ∂xk = · . ∂uj ∂xk ∂uj k=1 Formal entsteht ∂f durch Division“ des vollständigen Differentials von f durch ∂uj . ” ∂uj Die partiellen Ableitungen einer differenzierbaren Funktion f (x, y) geben nur die Steigung von Tangenten an die Fläche an, die in Parallelebenen zu den Koordinatenebenen liegen. Wir betrachten nun eine beliebige Gerade g in der (x, y)-Ebene durch den Punkt P0 = (x0 , y0 ) mit Richtungsvektor (a1 , a2 ), d.h. mit der Parameterdarstellung (x, y) = (x0 , y0 ) + t(a1 , a2 ), t ∈ IR. Der Schnitt der zur (x, y)-Ebene senkrechten Ebene E durch g schneidet die Tangentialebene von f in einer Geraden, die Tangente an den Schnitt der Ebene E mit der Fläche ist. Die Steigung dieser Tangenten gibt also die Steigung bzw. das Gefälle der Fläche in der entsprechenden Richtung wieder. Definition 3.3.15 Sei D ⊂ IR2 ein Gebiet, f auf D definiert und in (x0 , y0 ) ∈ D vollständig differenzierbar. Weiter sei ~a = (a1 , a2 ) 6= (0, 0). Dann heißt ∂f f (x0 + ta1 , y0 + ta2 ) − f (x0 , y0 ) (x0 , y0 ) := lim t→0 ∂~a t · |~a| Richtungsableitung von f in Richtung ~ a. Faßt man die Werte der partiellen Ableitungen von f in (x0 , y0 ) in dem Vektor grad f (x0 , y0 ) := fx (x0 , y0 ), fy (x0 , y0 ) , dem Gradienten von f an der Stelle (x0 , y0 ), zusammen, dann folgt aus der Kettenregel ∂f 1 1 (x0 , y0 ) = p 2 f (x , y ) · a + f (x , y ) · a = ~a · grad f (x0 , y0 ). x 0 0 1 y 0 0 2 2 ∂~a |~ a | a1 + a2 3. Funktionen mehrerer Variabler 36 Bemerkungen 3.3.16 (1) Für das Skalarprodukt zweier Vektoren im IRn gilt die Schwarzsche Ungleichung ~a · ~b ≤ ~a · ~b. Daraus folgt, daß die Fläche in Richtung von grad f (x0 , y0 ) den größten Anstieg hat und in Gegenrichtung das größte Gefälle. ∂f (x~0 ) = fxk (x~0 ), die partiellen Ableitungen sind also spezielle Richtungsableitun(2) Für ~a = e~k ist ∂~a gen. (3) Ist ~a zu grad f (x~0 ) orthogonal, dann ist die Ableitung von f in Richtung ~a Null, d.h. f ändert sich in dieser Richtung nicht. ~a ist Tangentenvektor an eine Höhenlinie. Man kann allgemein beweisen, daß der Gradientenvektor auf jeder Höhenlinie senkrecht steht. Beispiel 3.3.17 Die in IR2 vollständig differenzierbare Funktion f (x, y) := xy + x2 hat im Punkt P = (1, 2) den Gradienten (4, 1). Als Richtungsableitungen ergeben sich für a~1 = (1, 1) : a~2 = (2, 1) : a~3 = (3, 1) : a~4 = (4, 1) : a~5 = (5, 1) : −a~4 = (4, 1) : ∂f ∂ a~1 ∂f ∂ a~2 ∂f ∂ a~3 ∂f ∂ a~4 ∂f ∂ a~5 ∂f ∂(−a~1 ) = = = = = = 1√ 2 (1 · 4 + 1 · 1) = 3, 5355 . . . , 2 1√ 5 (2 · 4 + 1 · 1) = 4, 0249 . . . , 5 1√ 10 (3 · 4 + 1 · 1) = 4, 1109 . . . , 10 1√ 17 (4 · 4 + 1 · 1) = 4, 1231 . . . , 17 1√ 26 (5 · 4 + 1 · 1) = 4, 1184 . . . , 26 1√ 17 (−4 · 4 − 1 · 1) = −4, 1231 . . . . 17 Der größte Anstieg ist in Richtung von a~4 , das größte Gefälle in Richtung −a~4 . 3.4 Extrema von Funktionen mehrerer Variabler Wie bei Funktionen einer Variablen definiert man absolute und relative Maxima, Minima, Extrema und Extremalstellen von Funktionen mehrerer Variablen. Ist eine Funktion f (x, y) differenzierbar, d.h. hat sie in (x0 , y0 ) eine Tangentialebene, dann kann (x0 , y0 ) nur dann relative Extremalstelle sein, wenn die Tangentialebene parallel zur (x, y)-Ebene ist, also die Ableitung in jeder Richtung Null ist. Es ergibt sich damit als Verallgemeinerung der notwendigen Bedingung für das Vorliegen einer relativen Extremalstelle: Satz 3.4.1 Sei D ∈ IRn ein Gebiet, x~0 ∈ D und f (~x) in D definiert und in x~0 differenzierbar. Ist x~0 relative Extremalstelle von f , dann gilt grad f (x~0 ) = 0. 3. Funktionen mehrerer Variabler 37 Bemerkung 3.4.2 Die Punkte x~0 mit grad f (x~0 ) = ~0 heißen stationäre Punkte. Beispiel 3.4.3 Die Funktion f (x, y) := 2x3 − 3x2 + y 2 ist in IR2 definiert und stetig differenzierbar mit den partiellen Ableitungen fx = 6x2 − 6x, fy = 2y. Die notwendige Bedingung für relative Extremalstellen erfüllen nur die zwei (stationären) Punkte (0, 0) und (1, 0) mit f (0, 0) = 0 und f (1, 0) = −1. Untersuchung von (0, 0): Für alle Punkte (x, 0) der x-Achse mit −1 < x < 1 gilt f (x, 0) < 0 und für alle Punkte (0, y) der y-Achse mit y 6= 0 gilt f (0, y) > 0. (0, 0) ist also keine relative Extremalstelle. Untersuchung von (1, 0): Wir führen wir (etwas veränderte) Polarkoordinaten ein durch x = 1 + r cos φ, y = r sin φ. Eine ǫ-Umgebung von (1, 0) hat dann die Darstellung {(r, φ); 0 < r < ǫ, 0 ≤ φ < 2π} und es gilt f (x, y) = −1 + r 2 · 1 + 2 cos2 φ · (1 + r cos φ) . Für 0 < r < 1 ist f (x, y) > −1, d.h. f hat bei (1, 0) ein relatives Minimum. Für eine Funktion f (x) einer Variablen gilt: x0 ist relativer Extremwert, wenn f ′ (x0 ) = 0 (notw. Beding.) und f ′′ (x0 ) 6= 0 (hinreich. Beding.). Die zu der hinreichenden Bedingung analoge Bedingung für Funktionen mehrerer Variabler ist nicht so einfach zu formulieren. Für Funktionen zweier Variabler gilt Satz 3.4.4 Sei D ∈ IR2 ein Gebiet, (x0 , y0 ) ∈ D und f (x, y) in D definiert und in x0 , y0 ) zweimal stetig differenzierbar. Weiter sei fx (x0 , y0 ) = fy (x0 , y0 ) = 0 und Dann gilt: 2 D := fxx (x0 , y0 ) · fyy (x0 , y0 ) − fxy (x0 , y0 ) . (a) Ist D > 0 und fxx (x0 , y0 ) < 0 (bzw. fyy (x0 , y0 ) < 0), dann hat f in (x0 , y0 ) ein relatives Maximum. (b) Ist D > 0 und fxx (x0 , y0 ) > 0 (bzw. fyy (x0 , y0 ) > 0), dann hat f in (x0 , y0 ) ein relatives Minimum. (c) Ist D < 0, dann hat f in (x0 , y0 ) ein kein relatives Extremum, sondern einen Sattelpunkt. (d) Ist D = 0, dann kann man ohne weitere Untersuchung keine Aussage über das Vorliegen einer relativen Extremalstelle machen. 3. Funktionen mehrerer Variabler 38 Bemerkung 3.4.5 Für Funktionen von 3 oder mehr Variablen muß man (neben dem Gradienten) die Haupt-Unterdeterminanten der Hesse-Matrix f x1 x1 f x1 x2 . . . f x1 xn f x2 x1 f x2 x2 . . . f x2 xn . . . . . . . . . . . . . . . . . . . . . . . . f xn x1 f xn x2 . . . f xn xn untersuchen. Sind nämlich alle Determinanten f x1 x1 , fx1 x1 fx1 x2 fx x fx x , 2 1 2 2 f x1 x1 f x2 x1 fx x 3 1 fx1 x2 fx1 x3 fx2 x2 fx2 x3 , f x3 x2 f x3 x3 usw. an der Stelle x~0 positiv, dann hat f dort ein relatives Minimum, und wenn diese Determinanten abwechselnd positiv und negativ sind, ein relatives Maximum. Beispiel 3.4.6 (1) Die Funktion f (x, y) := 3x2 y + 4y 3 − 3x2 − 12y 2 + 1 hat die partiellen Ableitungen fy = 3(x2 + 4y 2 − 8y) fx = 6x(y − 1), und damit die stationären Punkte (0, 0), (0, 2), (±2, 1). Die partiellen Ableitungen 2. Ordnung sind f xx = 6(y − 1), fyy = 24(y − 1) fxy = fyx = 6x, und damit ergibt sich D = 144(y − 1)2 − 36x2 . f hat also in (0, 0) ein relatives Maximum, in (0, 2) ein relatives Minimum und in den anderen beiden Punkten Sattelpunkte. (2) Ausgleichsrechnung: Man geht davon aus, daß zwischen 2 Größen x und y ein linearer Zusammenhang y = g(x) = ax + b besteht. Um a und b zu bestimmen, hat man n Meßpunkte Pk = (xk , yk ), 1 ≤ k ≤ n, die aber nicht auf einer Geraden liegen. Gesucht ist also jetzt eine Gerade, die möglichst wenig Abstand zu den Meßpunkten hat, für die f (a, b) := n X k=1 g(xk ) − yk 2 = n X k=1 axk + b − yk 2 möglichst klein wird, d.h. ein absolutes Minimum annimmt. Die Gerade heißt Ausgleichsgerade. Es gilt " # n n n n X X X X fa = 2 · xk axk + b − yk = 2 a · x2k + b · xk − xk y k , fb = 2 · k=1 n X k=1 " axk + b − yk = 2 a · k=1 n X k=1 k=1 n X xk + b · n − k=1 k=1 # yk . 3. Funktionen mehrerer Variabler Für die stationären Punkte ergibt sich ! n n X X n· xk y k − xk · k=1 a= k=1 n· n X k=1 x := 1X xk , n sxy := k=1 k=1 xk !2 yk ! , 1 b= n n X k=1 yk − a · n X xk k=1 ! . n y := k=1 v u u sx :=t n X x2k − n Seien n X 39 1X yk die arithmetischen Mittel der Meßwerte und n k=1 n 1 X (xk − x)2 n−1 die Standardabweichung der xk , k=1 n 1 X (xk − x)(yk − y) die Kovarianz der Meßpunkte. n−1 k=1 sxy , b = y − ax, s2x und die Ausgleichsgerade y = a · (x − x) + y geht durch (x, y). Da sx nur dann Null wird, wenn alle xk gleich sind (was sinnlos wäre), sind a und b und damit die Ausgleichsgerade eindeutig bestimmt. Dann gilt a= Extremwerte mit Nebenbedingungen: Sucht man einen Körper mit maximalem Volumen, dessen Oberfläche vorgegeben ist, oder will man aus einem kreisrunden Baumstamm einen rechteckigen Balken ausschneiden, dessen Widerstandsmoment möglichst groß ist, dann hat man Nebenbedingungen zu berücksichtigen. Man kann versuchen, die Nebenbedingungen jeweils nach einer Variablen aufzulösen und damit eine Funktion (mit weniger Variablen) zu konstruieren, die die Nebenbedingungen erfüllt und deren Extremwerte zu bestimmen sind. Eine andere Methode ist mit Hilfe der Lagrange-Funktion: Satz 3.4.7 (Lagrangesche Multiplikationsregel) Sei D ⊂ IRn ein Gebiet, f, g1 , . . . , gm seien auf D definierte und stetig differenzierbare Funktionen und A := {~x ∈ D; gl (~x) = 0, 1 ≤ l ≤ m, }. Ist x~0 ∈ A Extremstelle von f eingeschränkt auf A, dann gilt für x~0 das folgende Gleichungssystem m X ∂gl ∂f (x~0 ) + λl (x~0 ) = 0, ∂xk ∂xk l=1 gl (x~0 ) = 0, 1 ≤ k ≤ n, 1 ≤ l ≤ m, wobei die λl reelle Zahlen sind. Bemerkung 3.4.8 Die λl heißen Lagrangesche Multiplikatoren, die Funktion F (x1 , . . . , xn , λ1 , . . . , λm ) := f (x1 , . . . , xn ) + m X l=1 λl gl (x1 , . . . , xn ) 3. Funktionen mehrerer Variabler 40 Lagrange-Funktion. Die Bestimmung der relativen Extremwerte von f unter den Nebenbedingungen gl = 0 ist also gleichbedeutend mit der Bestimmung der relativen Extremwerte der zugehörigen Lagrange-Funktion. Beispiel 3.4.9 Gesucht sind die Punkte im 3-dimensionalen Raum, die vom Ursprung den Abstand 1 haben, auf der Ebene x + y + z = 0 liegen und von der z-Achse maximalen bzw. minimalen Abstand haben: Ein Punkt (x, y, z) hat vom Ursprung Abstand 1, wenn die Bedingung g1 (x, y, z) := x2 + y 2 + z 2 − 1 = 0 erfüllt ist. Er liegt auf der Ebene, wenn die Bedingung g2 (x, y, z) := x + y + z = 0 erfüllt ist. Der Abstand zur z-Achse ist gegeben durch p f (x, y, z) := x2 + y 2 . Man erhält damit die Lagrange-Funktion F (x, y, z, λ1 , λ2 ) := f + λ1 g1 + λ2 g2 . Als Gleichungssystem ergibt sich x p + 2λ1 x + λ2 = 0 x2 + y 2 y p + 2λ1 y + λ2 = 0 x2 + y 2 2λ1 z + λ2 = 0 2 2 x + y + z2 − 1 = 0 x+y+z =0 Als in Frage kommende Punkte ergeben sich aus dem Gleichungssystem die Punkte P1,2 = ± Es gilt 1√ 1√ 2, ∓ 2, 0 , 2 2 P3,4 = ± 1√ 1√ 1√ 6, ± 6, ∓ 6 . 6 6 3 1√ 3. 3 Die Menge A ist gleich dem Schnitt von Kugel und Ebene, also eine Kreislinie. Es ist anschaulich klar, daß es auf diesem Kreis (mindestens) je einen Punkt mit minimalem und maximalem Abstand zur z-Achse gibt. Diese Punkte müssen relative Extremwerte sein, d.h. bei P1 , P2 liegen relative Maxima und bei P3 , P4 relative Minima. f (P1,2 ) = 1, f (P3,4 ) = 3. Funktionen mehrerer Variabler 3.5 41 Implizite Funktionen Die Höhenlinie einer Funktion F (x, y) ist die Menge aller Punkte (x, y), für die die Funktion denselben Wert annimmt, also für die F (x, y) = c gilt. Wir wollen nun untersuchen, unter welchen Voraussetzungen man diese Menge durch eine Funktion y = f (x) beschreiben kann, d.h. wann man die Gleichung nach y auflösen kann. Weiter möchte man bestimmte Eigenschaften dieser Funktion f (x) aus Eigenschaften von F herleiten, ohne sie vorher berechnet zu haben, wie z.B. Stetigkeit, Differenzierbarkeit und Wert der Ableitung. Existiert f , dann heißt f die durch F (x, y) = c bestimmte implizite Funktion. Natürlich kann man sich auf Gleichungen mit c = 0 beschränken, denn sonst ersetzt man F durch F ∗ (x, y) := F (x, y) − c. Gibt es keine durch F (x, y) = 0 definierte implizite Funktion y = f (x), dann sucht man nach einer impliziten Funktion x = g(y). Beispiele 3.5.1 2 kann man eindeutig nach y = f (x) = − x2 auflösen. 3 Die durch die Funktion F (x, y) = 2x2 + 3y beschriebene Fläche schneidet die (x, y)-Ebene in einer Kurve, die durch f (x) beschrieben werden kann. √ 2. Die Gleichung x2 − y 2 + 1 = 0 ergibt zwei Lösungen y1,2 = ± x2 + 1, also keine eindeutig bestimmte implizite Funktion. Die durch die Funktion F (x, y) = x2 − y 2 − 1 beschriebene Fläche schneidet die (x, y)-Ebene in einer Kurve, die durch zwei Funktionen f1,2 (x) beschrieben werden kann. 1. Die Gleichung 2x2 + 3y = 0 3. Die Gleichung x2 + y 2 + 1 = 0 hat in IR keine Lösung, definiert also keine implizite Funktion. Die durch die Funktion F (x, y) = x2 + y 2 + 1 beschriebene Fläche schneidet die (x, y)-Ebene nicht. Satz 3.5.2 (über implizite Funktionen) Sei D ⊂ IR2 ein Gebiet, (x0 , y0 ) ∈ D, F (x, y) auf D definiert, nach y partiell differenzierbar mit Fy (x, y) 6= 0 in D und F (x0 , y0 ) = 0. Dann gilt: (a) Es gibt ein offenes Intervall (a, b) mit x0 ∈ (a, b), so daß für alle x ∈ (a, b) die Gleichung F (x, y) = 0 genau eine Lösung y = f (x) hat. Die Funktion f (x) ist in (a, b) stetig. (b) Ist F (x, y) in D stetig differenzierbar, dann ist f (x) in (a, b) ′ differenzierbar und für alle x ∈ (a, b) gilt Fx x, f (x) + Fy x, f (x) · f (x) = 0. Beispiel 3.5.3 F (x, y) := x2 + ex yey ist in IR2 definiert und in (0, 0) Null. Weiter ist F nach y partiell differenzierbar mit Fy = ex ey (1 + y). Fy (x, y) 6= 0 für y 6= −1, d.h. es gibt eine Umgebung D von (0, 0) mit Fy 6= 0. Damit gibt es ein Intervall (a, b) mit a < 0, b > 0 und eine Funktion f (x) mit F x, f (x) = 0 für alle x ∈ (a, b). Man kann aber f und (a, b) nicht unmittelbar explizit bestimmen. Da F stetig differenzierbar ist mit Fx = 2x + ex yey , gilt 2x + ex yey f ′ (x) = x y . e e (1 + y) Z.B. für x = 0 ist y = f (0) = 0 und es gilt f ′ (0) = 0. 3. Funktionen mehrerer Variabler 3.6 42 Bereichsintegrale z Wir betrachten (vorerst) eine nichtnegative Funktion f (x, y), die über einem beschränkten und abgeschlossenen Bereich B ⊂ IR2 definiert ist. B habe einen wohldefinierten Flächeninhalt. Dann beschreibt die Menge ✻ f (x, y) M = {(x, y, z) ∈ IR3 ; (x, y) ∈ B, 0 ≤ z ≤ f (x, y)} ✲ y den Teil eines Zylinders“ über B, dessen Boden“ ” ” von B und dessen Deckel“ vom Graph von f gebildet ” wird. B x☛ Das Volumen von M nennen wir Integral von f über dem Bereich B und bezeichnen es durch ZZ V = f (x, y) d(x, y). B z Um V zu berechnen, nehmen wir zuerst an, daß B ein achsenparalleles Rechteck ist, also ✻ B = {(x, y); a ≤ x ≤ b, c ≤ y ≤ d}. f (x, y) ✲ Wir zerlegen [c, d] in n Intervalle [yk−1 , yk ] der Länge y d−c (mit y0 := c, yn := d), und legen durch je∆y = n x☛ des yk eine zur (x, z)-Ebene parallele Ebene. Dadurch ✛ ✲ wird M in Scheiben“ zerschnitten. Ist f stetig und ∆y ” sind die Scheiben hinreichend dünn“, dann ist das ” Volumen ∆Vk der k-ten Scheibe näherungsweise gleich dem Produkt von Scheibenhöhe ∆y und Flächeninhalt der Schnittfläche bei yk , d.h. Z b ∆Vk ≈ a f (x, yk ) dx · ∆y. Summation über alle Scheiben ergibt als Näherung des Gesamtvolumens V = n X k=1 ∆Vk ≈ n Z X k=1 b f (x, yk ) dx · ∆y. a Z b Man kann zeigen, daß das Parameterintegral“ F (y) := f (x, y) dx für stetiges f stetig in y ist. Für ” a n → ∞ erhält man ZZ Z d Z b V = f (x, y) d(x, y) = f (x, y) dx dy. B c a Da es gleichgültig ist, ob man M in y- oder in x-Richtung in Scheiben schneidet, ergibt sich Z bZ a d f (x, y) dy dx = c Z c dZ b f (x, y) dx dy. a (Die Klammern um die Integrale kann man weglassen, da die Ausdrücke auch ohne Klammern eindeutig sind.) 3. Funktionen mehrerer Variabler 43 Beispiel 3.6.1 Für das Volumen unter dem Graph der Funktion f (x, y) := 2 − xy über dem Rechteck B = {(x, y); 0 ≤ x ≤ 1, 0 ≤ y ≤ 2} erhält man V = ZZ f (x, y) d(x, y) = B Z 0 2Z 1 0 (2 − xy) dx dy = Z bzw. 0 1Z 2 0 Z 0 2 x2 y 2x − 2 1 dy = 0 Z 0 2 2− y dy = 3 2 (2 − xy) dy dx = 3. Wir wollen nun an Stelle der Rechtecke allgemeinere Bereiche B betrachten: Definition 3.6.2 Seien g(x), h(x) zwei im Intervall [a, b] stetige Funktionen. Dann heißt B := {(x, y); a ≤ x ≤ b, g(x) ≤ y ≤ h(x)} Normalbereich. Analog nennen wir einen Bereich B := {(x, y); c ≤ y ≤ d, g∗ (y) ≤ x ≤ h∗ (y)} Normalbereich. Für einen Normalbereich erhält man das Volumen unter der Funktion f (x, y) wie im Rechtecksfall mit analogen Scheibenzerlegungen“ durch ” Z b Z h(x) V = f (x, y) dy dx. a g(x) Beispiele 3.6.3 1. Für die Pyramide mit den Ecken (0, 0, 0), (a, 0, 0), (0, b, 0), (0, 0, c) ergibt sich c c b B = {(x, y); 0 ≤ x ≤ a, 0 ≤ y ≤ b − x} und f (x, y) = c − x − y, also a a b Z a Z b− b x a c c abc V = c − x − y dy dx = . a b 6 0 0 2. Sei B der Teil des Kreise um den Ursprung mit Radius r im 1. Quadranten, f (x, y) := x3 y 2 . Dann ist Z r Z √r2 −x2 Z 1 r 3 2 2 7 3 2 V = x y dy dx = x (r − x2 )3/2 dx = r . 3 0 105 0 0 Ist B Vereinigung von Normalbereichen B1 , . . . , Bm , dann setzt man im Einklang mit der Vorstellung des Volumens ZZ m ZZ X f (x, y) d(x, y) := f (x, y) d(x, y). B k=1 Bk Außerdem dehnt man die Definition auf stetige reellwertige Funktionen f (x, y) aus. Damit ist das Bereichsintegral für Funktionen zweier Variabler für die praktisch auftretenden Fälle definiert. 3. Funktionen mehrerer Variabler 44 Die vorigen Überlegungen lassen sich sofort auf stetige Funktionen dreier Variablen übertragen. Für einen Quader B = {(x, y, z); a ≤ x ≤ b, c ≤ y ≤ d, e ≤ z ≤ f } gilt ZZZ Z bZ dZ f f (x, y, z) d(x, y, z) := f (x, y, z) dz dy dx, B a c e und für einen Normalbereich B = {(x, y, z); a ≤ x ≤ b, g1 (x) ≤ y ≤ g2 (x), h1 (x, y) ≤ z ≤ h2 (x, y)} Z b Z g2 (x) Z h2 (x,y) ZZZ f (x, y, z) d(x, y, z) := f (x, y, z) dz dy dx. B a g1 (x) h1 (x,y) Beispiele 3.6.4 1. Für den Schwerpunkt x~0 der quadratischen Pyramide B mit Spitze im Ursprung, die durch B = {(x, y, z); 0 ≤ x ≤ h, − beschrieben wird, gilt ZZZ 1 x0 = x d(x, y, z), V B Mit V = 1 y0 = V ax ax ax ax ≤y≤ ,− ≤z≤ } 2h 2h 2h 2h ZZZ y d(x, y, z), B 1 z0 = V ZZZ z d(x, y, z). B a2 h 3 erhält man x0 = h, y0 = z0 = 0. 3 4 l l 2. Sei B der gerade Kreiszylinder mit z-Achse als Achse, Grundkreisradius r und − ≤ z ≤ . 2 2 Hat der Zylinder die konstante Massendichte 1, dann ist das Trägheitsmoment bezüglich der xAchse gegeben durch Tx = ZZZ (y 2 + z 2 ) d(x, y, z) = B 3.7 Z r −r Z √r2 −x2 Z √ − r 2 −x2 l/2 (y 2 + z 2 ) dz dy dx = l/2 πlr 2 (3r 2 + l2 ). 12 Koordinatentransformationen Ist das (zusammenhängende) Gebiet G∗ , über das integriert wird, nicht durch kartesische Koordinaten, sondern durch andere Koordinaten (z.B. Polar- oder Zylinderkoordinaten) gegeben, dann verändert sich das Integral zur Bestimmung des Volumens. Zwischen den kartesischen Koordinaten x, y und neuen Koordinaten u, v sei durch x = g(u, v), y = h(u, v) eine eineindeutige Zuordnung bzw. u = k(x, y) v = l(x, y) T~ : G∗ → G gegeben. (T~ heißt auch Transformation von G∗ auf G.) Wir setzen voraus, daß g, h, k, l und damit T~ auf G∗ stetig differenzierbare Funktionen sind. Durch T~ wird ein aus den achsenparallelen Geraden u = const. bzw. v = const. 3. Funktionen mehrerer Variabler 45 bestehendes Netz in G∗ auf ein krummliniges Netz in G abgebildet. Das Rechteck mit den Ecken (u0 , v0 ), (u0 + ∆u, v0 ), (u0 , v0 + ∆v), (u0 + ∆u, v0 + ∆v) wird zu einem krummlinigen Viereck in G, das bei hinreichend kleinen ∆u und ∆v nahezu die Gestalt eines Parallelogramms hat, und dessen Flächeninhalt näherungsweise gleich gu (u0 , v0 ) gv (u0 , v0 ) · ∆u · ∆v ∆F ≈ hu (u0 , v0 ) hv (u0 , v0 ) ist. gu gv ∂(x, y) := gu · hv − gv · hu := hu hv ∂(u, v) heißt Funktionaldeterminante. Da T~ eine eineindeutige Transformation ist, ist die Funktionaldeterminante in ganz G∗ ungleich Null. Da sie stetig und G∗ zusammenhängend ist, ist sie in ganz G∗ entweder positiv oder negativ. ∆u · ∆v ist die Fläche des Ausgangsrechtecks, d.h. der Betrag der Funktionaldeterminante gibt das lokale Verhältnis von Bild- zur Urbild-Fläche bei der Transformation wieder. Ein Flächenelement d(x, y) entspricht also vor der Transformation der Fläche ∂(x, y) ∂(u, v) · d(u, v), und damit erhält man die Transformationsformel ZZ ZZ ∂(x, y) · d(u, v). f (x, y) d(x, y) = f g(u, v), h(u, v) · ∂(u, v) B B∗ Dabei sei B ∗ ⊂ G∗ ein Normalbereich und B das Bild unter der Transformation. Beispiele 3.7.1 (1) Eine ebene Platte habe die Gestalt eines Kreissektors K mit Radius R und Winkel α. Die MassenFlächendichte sei konstant gleich 1. Zu bestimmen ist der Schwerpunkt. Legt man das Koordinatensystem so, daß der Ursprung im Kreismittelpunkt und der Kreissektor symmetrisch zur x-Achse liegt, dann ist die y-Koordinate des Schwerpunktes aus Symmetriegründen 0. α Die Sektorfläche ist F = R2 , und damit die x-Koordinate des Schwerpunktes 2 ZZ 2 x0 = x d(x, y). αR2 K In Polarkoordinaten x = r cos φ, y = r sin φ 3. Funktionen mehrerer Variabler 46 wird der Kreissektor durch die Ungleichungen 0 ≤ r ≤ R, − α α ≤φ≤ 2 2 beschrieben. Die Funktionaldeterminante ist gleich r, und damit ergibt sich 2 x0 = αR2 Z α/2 −α/2 Z R 0 r cos φ · r dr dφ = 4 sin α2 R . 3 α (2) Mit den elliptischen Koordinaten“ (s, t) mit ” x = as cos t, y = bs sin t E := {(x, y); x2 y 2 + 2 = 1} a2 b ergibt sich für die Ellipse die Darstellung E = {(s, t); 0 ≤ s ≤ 1, 0 ≤ t ≤ 2π}. Mit der Funktionaldeterminante abs ergibt sich für den Flächeninhalt ZZ Z 1 Z 2π d(x, y) = abs dt ds = abπ. FE = E 0 0 Für Funktionen von n > 2 Variablenbetrachten wiranalog eine umkehrbar eindeutige und stetig g1 (u1 , . . . , un ) .. ~ differenzierbare Transformation T = von einem Gebiet G∗ ⊂ IRn auf ein Gebiet . gn (u1 , . . . , un ) G ⊂ IRn mit der Funktionaldeterminante ∂g1 ∂g1 ∂u1 . . . ∂un ∂(x1 , . . . , xn ) .. . := ... . ∂g ∂(u1 , . . . , un ) ∂g n n ... ∂u1 ∂un Im Fall n = 3 berechnet sich die Determinante durch ∂(x1 , x2 , x3 ) ∂g1 ∂g2 ∂g3 ∂g1 ∂g2 ∂g3 ∂g1 ∂g2 ∂g3 = · · + · · + · · ∂(u1 , u2 , u3 ) ∂u1 ∂u2 ∂u3 ∂u2 ∂u3 ∂u1 ∂u3 ∂u1 ∂u2 ∂g1 ∂g2 ∂g3 ∂g1 ∂g2 ∂g3 ∂g1 ∂g2 ∂g3 − · · − · · − · · . ∂u3 ∂u2 ∂u1 ∂u2 ∂u1 ∂u3 ∂u1 ∂u3 ∂u2 Für Zylinderkoordinaten (r, φ, z) mit x = r cos φ, y = r sin φ, z ist die Funktionaldeterminante gleich r. Für Kugelkoordinaten (r, φ, θ) mit x = r cos φ sin θ, y = r sin φ sin θ, z = r cos θ, 3. Funktionen mehrerer Variabler 47 ist die Funktionaldeterminante gleich −r 2 sin θ. Damit ergibt sich analog zu den Funktionen zweier Variablen die Transformationsformel ZZ f (x1 , . . . , xn ) d(x1 , . . . , xn ) B ZZ ∂(x1 , . . . , xn ) · d(u1 , . . . , un ). = f g1 (u1 , . . . , un ), . . . , gn (u1 , . . . , un ) · ∂(u1 , . . . , un ) B∗ Beispiele 3.7.2 (1) In einem zylindrischen Gefäß mit innerem Radius R und Innenhöhe h befindet sich ein Pulver. Die Dichte des Pulvers ist am Grund des Gefäßes am größten (wegen des Drucks der darüber liegenden Masse), nämlich ρ1 , und nimmt linear bis zur Höhe h auf den Wert ρ2 ab. Zu bestimmen ist die Gesamtmasse M des Pulvers. Wir legen die Grundfläche des Zylinders in die (x, y)-Ebene. Für die Dichte in Höhe z gilt ρ(z) = (ρ2 − ρ1 ) · z + ρ1 . h Der vom Pulver ausgefüllte Bereich ist beschrieben durch 0 ≤ r ≤ R, 0 ≤ φ ≤ 2π, 0 ≤ z ≤ h. Damit ergibt sich die Masse durch M= Z 0 h Z R Z 2π 0 0 1 z (ρ2 − ρ1 ) · + ρ1 · r dφ dr dz = R2 hπ(ρ1 + ρ2 ). h 2 (2) Zu bestimmen ist das Trägheitsmoment einer Vollkugel mit Dichte 1 bezüglich einer Achse durch den Mittelpunkt. Legt man den Mittelpunkt der Kugel vom Radius R in den Ursprung und die Achse auf die z-Achse, dann erhält man mit Kugelkoordinaten ZZZ Z π Z 2π Z R 8 (x2 + y 2 ) d(x, y, z) = r 2 · sin2 θ · r 2 · sin θ dr dφ dθ = πR5 . Tz = 15 B 0 0 0 48 4 Gewöhnliche Differentialgleichungen 4.1 Komplexe Zahlen 4.1.1 Definition Da Quadrate reeller Zahlen stets nichtnegativ sind, hat die Gleichung x2 = −1 keine (reelle) Lösung. Es besteht also eine ähnliche Situation wie bei der Lösbarkeit der Gleichung 3x = 7 innerhalb ZZ. Für die Lösbarkeit der letzten Gleichung führte man die rationalen Zahlen ein. Analog erweitert man IR: √ Definition 4.1.1 (a) i := −1. Die Zahl“ i mit i2 = −1 heißt imaginäre Einheit. ” (b) Die Menge CI := {z = a + bi | a, b ∈ IR} heißt Menge der komplexen Zahlen. Re z := a heißt Realteil, Im z := b Imaginärteil von z = a + bi. Zwei komplexe Zahlen z1 = a1 + b1 i und z2 := a2 + b2 i heißen gleich, wenn a1 = a2 und b1 = b2 , d.h. wenn sie in Real- und Imaginärteil übereinstimmen. Eine Zahl der Form bi (mit b ∈ IR) heißt imaginäre Zahl. (c) In CI seien folgendermaßen Addition und Multiplikation definiert: z1 + z2 = (a1 + b1 i) + (a2 + b2 i) := (a1 + a2 ) + (b1 + b2 )i z1 · z2 = (a1 + b1 i) · (a2 + b2 i) := (a1 · a2 − b1 · b2 ) + (a1 · b2 + a2 · b1 )i. Bemerkungen 4.1.2 (1) Man rechnet also in C, I als ob i eine durch einen Buchstaben vertretene reelle Zahl sei, und ersetzt jeweils i2 durch −1, i3 durch −i, i4 durch 1 usw. (2) Für eine alternative Definition von CI könnte man auch die Menge IR2 betrachten mit folgender Addition und Multiplikation (a1 , b1 ) + (a2 , b2 ) := (a1 + a2 , b1 + b2 ) (a1 , b1 ) · (a2 , b2 ) := (a1 · a2 − b1 · b2 , a1 · b2 + a2 · b1 ). Identifiziert man jetzt ein Zahlenpaar (a, 0) mit der reellen Zahl a, dann hat man ohne Definition eines neuen Symbols eine Menge eingeführt, die genau dieselben algebraischen Eigenschaften hat wie C, I also als andere Darstellung derselben Menge aufgefaßt werden kann. (Addition und Multiplikation sind natürlich so definiert, daß sie genau der Addition und Multiplikation in CI entsprechen. Das Paar (0, 1) entspricht der imaginären Einheit.) (3) Mit Einführung der imaginären Zahlen werden alle in IR nicht lösbaren reinquadratischen Gleichungen x2 = −a mit a ∈ IR, a > 0, √ lösbar mit den Lösungen x1,2 = ± a i. Zu in IR nicht lösbaren gemischtquadratischen Gleichungen der Form x2 + bx + c = 0, b2 − 4c < 0, b ip erhält man mit quadratischer Ergänzung die Lösungen x1,2 = ± 4c − b2 . 2 2 b, c ∈ IR, 4. Gewöhnliche Differentialgleichungen 49 Satz 4.1.3 Die Menge CI bildet mit der Addition und Multiplikation aus der vorigen Definition einen Körper, d.h. es gelten dieselben Rechenregeln bezüglich der Addition, Subtraktion, Multiplikation und Division wie in Q I und IR. Bemerkung 4.1.4 Für das Reziproke einer komplexen Zahl z = a + bi 6= 0 folgt aus der 3. binomischen Formel (a + bi) · (a − bi) = a2 − b2 i2 = a2 + b2 : z −1 = a b − i. a2 + b2 a2 + b2 Die beiden Faktoren in der binomischen Formel nennt man zueinander konjugiert komplexe Zahlen. Ist z = a + bi, dann bezeichnet man die dazu konjugiert komplexe Zahl mit z, d.h. es gilt z = a − bi. Es gilt z = z genau dann, wenn z ∈ IR, und z = −z genau dann, wenn z imaginär. Weiter gilt z1 + z2 = z1 + z2 , 4.1.2 z1 · z2 = z1 · z2 . Darstellung der komplexen Zahlen in der Gaußschen Zahlenebene Die reellen Zahlen und die Rechenoperationen konnten sehr anschaulich auf der Zahlengeraden dargestellt werden. Verwendet man ein rechtwinkliges (kartesisches) Koordinatensystem, dann kann man jeder komplexen Zahl z = a + bi umkehrbar eindeutig den Punkt der Ebene mit den Koordinaten (a, b) zuordnen. Die reellen Zahlen entsprechen den Punkten der x-Achse (auch reelle Achse genannt), die imaginären Zahlen der y-Achse (imaginäre Achse genannt). Die den Zahlen z und −z entsprechenden Punkte liegen symmetrisch bezüglich des Nullpunkts, die den konjugiert komplexen Zahlen z und z entsprechenden Punkte symmetrisch bezüglich der reellen Achse. Stellt man die Punkte der komplexen Zahlenebene −−→ durch Ortsvektoren dar, d.h. durch Pfeile OP vom Nullpunkt O zu dem entsprechenden Punkt P , dann läßt sich die Summe zweier komplexer Zahlen durch Vektoraddition der zugehörigen Ortsvektoren darstel−−→ len, d.h. der Ortsvektor OP zu der Summe von −−→ −−→ OP1 und OP2 ist die Diagonale des Parallelogramms OP1 P2 P . Der Ortsvektor, der in der komplexen Zahlenebene die komplexe Zahl z = a + bi beschreibt, ist durch die kartesischen Koordinaten eindeutig bestimmt. Man kann ihn aber auch mit Hilfe der Polarkoordinaten (r, ϕ) festlegen. Wie gewohnt ist ϕ der Winkel zwischen der positiven reellen Achse und dem Ortsvektor zu z und r = |z| die Länge des Ortsvektors. ϕ heißt Argument und |z| Betrag der komplexen Zahl z. y ✻ Im (z1 + z2 ) Im z2 Im z1 O ✸ P P1 ✁✕ z1 ✁ z1 + z2 ✿ P2 ✘ ✁ ✘ ✘✘✘ ✁ ✘ ✘ z2 ✁ ✘✘ ✘ Re z1 ✲x Re z2 Re (z1 + z2 ) y Im z ✻ z ✯ ✟ ✟✟ ✟✟ ✟✟r = |z| ✟ ✟ ✟ϕ ▼ ✲ x O Aus den Additionstheoremen der trigonometrischen Funktionen folgt z1 · z2 = |z1 |(cos ϕ1 + i sin ϕ1 ) · |z2 |(cos ϕ2 + i sin ϕ2 ) = |z1 | |z2 | cos(ϕ1 + ϕ2 ) + i sin(ϕ1 + ϕ2 ) . Re z 4. Gewöhnliche Differentialgleichungen 50 y ✻ Bei der Multiplikation zweier komplexer Zahlen multiplizieren also sich die Beträge und addieren sich die Argumente. Damit ergibt sich eine geometrische Konstruktion des Produktes: Man verbinde z1 mit dem Punkt 1 (auf der reellen Achse) und konstruiere den Punkt z so, daß die Dreiecke 01z1 und 0z2 z ähnlich sind. ✗ z = z1 · z2 z2 z1 ✸ ✑ ✒ ϕ 1 ✑ ❨ 0 ✑ ✑ ■ϕ2 ✑ ✑ϕ1❑ 1 ✲x Aus der Multiplikationsformel zweier komplexer Zahlen in Polarform erhält man leicht mit vollständiger Induktion für die Potenzen die Moivre-Formel n z n = r(cos ϕ + i sin ϕ) = r n cos(nϕ) + i sin(nϕ) . Mit der Euler-Formel eiϕ = cos ϕ + i sin ϕ ergibt sich die kürzere Darstellung z n = r n · einϕ . Der wichtigste Satz über die komplexen Zahlen ist Satz 4.1.5 (Fundamentalsatz der Algebra) Sei n ∈ IN. Dann hat jedes Polynom vom Grad n mit komplexen Koeffizienten genau n (möglicherweise übereinstimmende) komplexe Nullstellen, d.h. man kann das Polynom als Produkt von n Linearformen schreiben. Bemerkung 4.1.6 Ein Polynom vom Grad n ∈ IN mit reellen Koeffizienten hat ebenfalls genau n (nicht notwendig verschiedene) komplexe Nullstellen. Ist z0 eine nichtreelle Nullstelle eines solchen Polynoms, dann auch z0 . Beispiel 4.1.7 Das Polynom z 4 − 1 hat die Nullstellen 1, i, −1, −i. 1 + i −1 + i −1 − i 1 − i Das Polynom z 4 + 1 hat die Nullstellen , , , . 2 2 2 2 4.2 Definition der Differentialgleichungen Bei der Formulierung vieler wichtiger Probleme aus den Natur-, Ingenieur- und Gesellschaftswissenschaften mit Hilfe der Mathematik treten oft Gleichungen auf, die eine unbekannte, noch zu bestimmende Funktion zusammen mit einer oder mehreren ihrer Ableitungen enthalten. Zum Beispiel wird beim Newtonschen Gravitationsgesetz m · x′′ (t) = F t, x(t), x′ (t) , die Bewegung x(t) eines Teilchens der Masse m als Funktion des Ortes in Abhängigkeit von der Zeit gesucht, wobei die auf das Teilchen wirkende Kraft F möglicherweise wieder von Zeit t, Ort x und Geschwindigkeit x′ abhängt. Eine solche Aufgabenstellung heißt (gewöhnliche) Differentialgleichung. Gesucht werden möglichst Methoden zur Auffindung der unbekannten Funktion oder zu ihrer Approximation, zumindest aber Aussagen über das Verhalten der Funktion. Dabei heißt eine Funktion u(x) Lösung der Differentialgleichung in einem Intervall I, wenn sie und alle ihre in der Differentialgleichung vorkommenden Ableitungen in I existieren und für alle x ∈ I der Differentialgleichung genügen. 4. Gewöhnliche Differentialgleichungen 51 Unter der Ordnung einer Differentialgleichung versteht man die Ordnung der höchsten Ableitung der gesuchten Funktion, die in der Gleichung auftritt. Zum Beispiel ist die Gleichung des Gravitationsgesetzes eine gewöhnliche Differentialgleichung 2. Ordnung. Allgemein läßt sich eine gewöhnliche Differentialgleichung n-ter Ordnung in der Form F x, y(x), y ′ (x), . . . , y (n) (x) = 0 (4.1) darstellen. Dabei gibt F den Zusammenhang zwischen der unabhängigen Variablen x, der gesuchten Funktion y(x) und ihren Ableitungen an. Läßt sich die Gleichung (4.1) nach der Ableitung mit der höchsten Ordnung auflösen, d.h. gibt es eine Funktion f , so daß y (n) = f x, y(x), y ′ (x), . . . , y (n−1) (4.2) äquivalent zu (4.1) ist, dann heißt die Differentialgleichung explizit, sonst implizit. Zum Beispiel ist y ′′′ + 2ex · y ′′ + y · y ′ = x eine explizite gewöhnliche Differentialgleichung 3. Ordnung, y ′2 + x · y ′ + 4y = 0 eine implizite gewöhnliche Differentialgleichung 1. Ordnung, die den beiden expliziten Differentialgleichungen p p 1 1 y′ = − x + x2 − 16y und y′ = − x − x2 − 16y 2 2 entspricht. Es gibt Differentialgleichungen, die (in IR) nicht lösbar sind, wie z.B. (y ′ )2 + 1 = 0. Ist aber eine Differentialgleichung lösbar, dann existieren immer unendlich viele Lösungen. Zum Beispiel hat die Differentialgleichung y ′ = 0 die Lösungen y(x) = c mit beliebig wählbarem festen c ∈ IR und die Differentialgleichung y ′′ = 0 die Lösungen y(x) = c1 x + c2 mit beliebig wählbaren festen c1 , c2 ∈ IR. Als Anwender ist man aber i.a. an einer bestimmten Lösung interessiert, d.h. die gesuchte Lösung soll zusätzliche Bedingungen erfüllen. Sind zusätzlich für einen festen Wert x0 der Funktionswert y(x0 ) und die Ableitungen y ′ (x0 ), y ′′ (x0 ), . . . , y (n−1) (x0 ) festgelegt, dann spricht man von einem Anfangswertproblem. Sind die Funktionswerte und irgendwelche Ableitungen an zwei verschiedenen Werten x1 und x2 festgelegt und man sucht die Funktion im Intervall (x1 , x2 ), dann spricht man von einem Randwertproblem. 4.2.1 Beispiele von Differentialgleichungen (1) 1883 entdeckte Robert Koch den Cholera-Bazillus Vibrio cholerae, den Erreger der Cholera, einer Darmkrankheit, die vor allem durch verseuchtes Gebrauchs- und Trinkwasser übertragen wird. Zur Zeit t0 werde in einem Labor eine Kolonie dieses Erregers in eine Nährflüssigkeit gebracht. Nach 30 Minuten zählt man 329 Bakterien und nach weiteren 60 Minuten 2 684. Wie groß ist die Verdopplungszeit und wieviele Mitglieder hat die Kolonie nach 5 Stunden? (2) Populationsmodelle: Es sei eine Bakterienpopulation in einer (ausreichend vorhandenen) Nährflüssigkeit vorgegeben, und es sei P (t) die Zahl der Bakterien. Wir nehmen an, daß die Bakterienzunahme ∆P in der Zeitspanne ∆t proportional zur aktuellen Bakterienzahl P (t) ist, d.h. daß ∆P mit einem geeigneten Proportionalitätsfaktor α gilt ≈ α · P (t). ∆t 4. Gewöhnliche Differentialgleichungen 52 Betrachtet man nun P (t) als differenzierbare Funktion, dann erhält man die lineare Differentialgleichung 1. Ordnung dP P′ = = α · P. dt Jede Funktion P (t) = c eαt mit beliebig gewähltem c ∈ IR ist Lösung dieser Differentialgleichung. Ist P0 die Anfangspopulation“ zur Zeit t0 , dann gilt P (t) = P0 eα(t−t0 ) , t ≥ t0 . ” P (t + δ) P0 eα(t+δ−t0 ) Für die Verdopplungszeit“ δ gilt 2 = . = ” P (t) P0 eα(t−t0 ) δ = (ln 2)/α ist unabhängig von der Populationsgröße P (t), d.h. P (t) verdoppelt sich immer in festen Zeitabständen. Durch die Differentialgleichung kann wegen lim P (t) → ∞ keine reale Population dargestellt sein. t→∞ Würde zum Beispiel das Bevölkerungswachstum der Menschheit auf der Erde durch dieses Modell beschrieben, dann wäre (bei einer Bevölkerung von ca 5 Milliarden in 1986 und einer derzeitigen Verdopplungszeit von ca 35 Jahren) im Jahr 1 986 2 000 2 100 2 300 2 501 P (t) = 5 · 109 6, 6 · 109 48, 9 · 109 2, 7 · 1012 148, 7 · 1012 . Da die feste Erdoberfläche ca. 149 · 1012 qm beträgt, hätte also jeder Mensch im Jahr 2 501 einen Quadratmeter feste Erde zum Leben und zur Nahrungsversorgung zur Verfügung. Es ist sinnvoll anzunehmen, daß eine Population eine gewisse Maximalgröße, die Trägerkapazität K ihres Lebensraumes, nicht überschreitet. Die Wachstumsrate nimmt man dann sowohl proportional zur vorhandenen Populationsgröße P (t) als auch zum verbleibenden Lebensraum K −P (t) an, und man erhält als neue (quadratische) Differentialgleichung P ′ = λP (K − P ), mit Konstanten λ, K > 0. Für P = K ergibt sich kein Wachstum mehr, d.h. die Population stagniert. Wiederum durch Probe K , t ≥ t0 , zeigt man, daß P (t) = K −λK(t−t0 ) 1+ −1 e P0 eine Lösung des zugehörigen Anfangswertproblems mit dem Anfangswert P (t0 ) = P0 > 0 ist (für P0 = 0 ist P (t) ≡ 0 die einzige Lösung). Genauere Untersuchungen zeigen, daß die Zuwachsrate bis K/2 wächst und dann abnimmt. Die Trägerkapazität der Erde wird auf ca. 10 Milliarden Menschen geschätzt. Demzufolge müßte die Geschwindigkeit des Bevölkerungswachstums seit 1 986 abnehmen. An vielerlei Beispielen ist ein entsprechendes Wachstumsverhalten beobachtet worden - bei einfachen Lebewesen in einem Reagenzglas, bei Gewichtszunahme von Ratten (betrachtet als Zellenpopulation unter beengten Verhältnissen), bei dem Höhenwachstum von Sonnenblumen und bei Zulassungszahlen von Automobilen. (3) Freier Fall: Durch x(t) werde die Bewegung eines Massenpunktes mit konstanter Masse m längs der x-Achse in Abhängigkeit von der Zeit t beschrieben. d2 x(t) dx(t) und die Beschleunigung b(t) = ẍ(t) = . dt dt2 Bewegt sich der Massenpunkt unter Einfluß einer Kraft K in x-Richtung, dann wird die Bewegung Seine Geschwindigkeit sei v(t) = ẋ(t) = 4. Gewöhnliche Differentialgleichungen 53 nach dem Newtonschen Gravitationsgesetz beschrieben durch K = mẍ. Ist K = f (t, x, ẋ) eine Funktion von Zeit, Ort und Geschwindigkeit, dann erhält man die explizite Differentialgleichung 2. Ordnung mẍ = f (t, x, ẋ). Bei vorgegebener Anfangslage und -Geschwindigkeit ergeben sich im physikalischen Versuch (bis auf Meßfehler) dieselben Meßwerte - der Vorgang ist also determiniert. Im mathematischen Modell des zugehörigen Anfangswertproblems muß also eine eindeutige Lösung existieren. Beim freien Fall aus geringer Höhe ohne Luftwiderstand mit Anfangswerten t0 = 0, x(0) = 0 und v(0) = v0 ist K = mg (mit der Gravitationskonstanten g), und man erhält die Differentialgleichung mẍ = mg mit der Lösung 1 x(t) = gt2 + v0 t. 2 Ist die Geschwindigkeit nicht zu groß, dann kann man die Verzögerung des Falls durch den Luftwiderstand proportional zur Geschwindigkeit (mit Faktor ρ > 0) annehmen. Unter Berücksichtigung der Verzögerungswirkung des Luftwiderstandes ergibt sich mẍ = mg − ρẋ. Das ist eine lineare Differentialgleichung 1. Ordnung für die Geschwindigkeit v = ẋ mit der Lösung mg −ρt/m mg v(t) = v0 − e . + ρ ρ mg m mg Integration ergibt x(t) = v0 − 1 − e−ρt/m + t. ρ ρ ρ mg Für t → ∞ folgt v(t) → , d.h. die Fallgeschwindigkeit stabilisiert sich (wichtig für Fallschirmρ springer). (4) Ein ruhig atmender erwachsener Mensch macht etwa 16 Atemzüge pro Minute. Bei jedem Atemzug atmet er ca. einen halben Liter Luft ein. Die ausgeatmete Luft enthält 20 % weniger Sauerstoff als die eingeatmete. Es soll angenommen werden, daß sie sich sofort und vollständig mit der Zimmerluft gleichmäßig vermischt. In einem luftdicht abgeschlossenen Zimmer mit V Liter Luftinhalt befinde sich genau ein ruhig atmender Erwachsener. Die Menge des Sauerstoffs sei durch die Funktion S(t) in Abhängigkeit von der Zeit (in Minuten) beschrieben, und die Sauerstoffmenge zur Zeit t0 = 0 sei S0 . (a) Bestimmen Sie S(t). (b) Das Zimmer enthalte 40 cbm Luft. Wieviel Prozent des ursprünglich vorhandenen Sauerstoffs sind nach 8 Stunden verbraucht? Wieviel Prozent Sauerstoff enthält die Zimmerluft nach dieser Zeit, wenn ihr ursprünglicher Sauerstoffgehalt mit dem von Frischluft (21 %) übereinstimmt? (5) Bei Schneebällen, Mottenkugeln, Bonbons vermindert sich das Volumen V beim Schmelzen, Verdunsten, Lutschen mit einer zeitlichen Rate proportional zur jeweils vorhandenen Oberfläche F , dV d.h. es gilt = −λF mit einer Konstanten λ > 0. Sei r0 der Anfangs-Radius einer ausgedt legten Mottenkugel und r(t) ihr Radius nach der Zeit t. (a) Wie groß ist r(t)? (b) Die Mottenkugel habe nach 60 Tagen die Hälfte ihres Gewichtes verloren. Nach wieviel Tagen ist ihr Radius auf ein Zehntel des Anfangsradius geschrumpft? 4. Gewöhnliche Differentialgleichungen 54 (6) Ein Hund schwimmt von einem Ufer eines Flusses zu seinem Herrn, der senkrecht gegenüber steht. Er schwimmt so, daß seine Schnauze immer auf seinen Herrn gerichtet ist. Welchen Differentialgleichungen genügen die Koordinaten x(t) und y(t) des jeweiligen Ortes, an dem sich der Hund befindet? Bestimmen Sie die Differentialgleichung der Bahnkurve y(x) (die Hundekurve“) und ” untersuchen Sie die Lösungen dieser Differentialgleichung. Daten: Der Hund schwimmt mit konstanter Eigenschwimmgeschwindigkeit v, Strömungsgeschwindigkeit des Wassers ist c, die Breite des Flusses a, Standort des Herrn sei der Nullpunkt. (7) Ein Wassertank enthält zur Zeit t = 0 1000 Liter einer Salzlösung aus Wasser und Q0 kg Salz. Es fließen fortwährend 30l/min einer Salzlösung mit 14 kg/10l nach und gleichzeitig 30l aus dem Tank. Durch ständiges Rühren ist die Salzkonzentration im Tank stets gleichmäßig. Wie groß ist die Salzmenge nach einer Stunde und gegen welchen Wert konvergiert die Salzmenge für t → ∞ ? (8) Archäologische Zeitbestimmung: Nach Untersuchungen von Willard Libby (1908- 1980, Nobelpreis f. Chemie 1960) sammeln Pflanzen während ihres Wachstums ein radioaktives Kohlenstoff-Isotop (C 14) und mit dem Absterben der Pflanze beginnt der radioaktive Zerfall. Die Halbwertszeit von C 14 ist 5568 (±30) Jahre und derzeitige Meßmethoden sind hinreichend, wenn das Verhältnis von derzeitiger Menge und Anfangsmenge nicht kleiner als 4 · 10−6 ist. Bis zu welchem Alter ist diese Methode anwendbar? (9) Die Leiche von Mr. Max Miller wurde am 21.12.1990, 8.00 Uhr, in einem Kühlhaus in New York gefunden. Man weiß aus Experimenten, daß die Änderung der Körpertemperatur eines Toten proportional zum Unterschied zwischen aktueller Körpertemperatur und Umgebungstemperatur ist. Der Leichenbeschauer mißt um 8 Uhr 77◦ F (Fahrenheit - amerikanische Leiche!) als Körpertemperatur von Mr.Miller und um 10 Uhr 59◦ F. Die Kühlhaustemperatur ist konstant auf 41◦ F eingestellt, die normale Körpertemperatur eines Menschen ist 98, 6◦ F. Wann starb Mr. Miller und wer war der Mörder? (10) Die Ausbreitung einer einzelnen Handlungsweise innerhalb einer großen Population (z.B. Autofahrer schalten das Scheinwerferlicht bei Sonnenuntergang an) hängt oft teilweise von den äußeren Umständen (zunehmende Dunkelheit) und teilweise von einem Nachahmungsverhalten ab. Ist x(t) = at der äußere Anreiz, b der Nachahmungsfaktor, y(t) der Anteil der Menschen, die die Handlung schon vollzogen haben, so stelle man die zugehörige Differentialgleichung für y(t) auf und löse sie. Dabei werde angenommen, daß die Veränderung proportional zu dem Anteil der Menschen ist, die die Handlung noch nicht vollzogen haben, wobei der Proportionalitätsfaktor von der Zeit t abhängt. (11) Für die Beschreibung mancher Probleme benötigt man mehrere miteinander gekoppelte Differentialgleichungen, in denen mehrere Funktionen mit ihren Ableitungen gesucht werden. Als Beispiel sei folgende Situation beschrieben: In einem abgeschlossenen Wald leben Kaninchen, die sich von Pflanzen ernähren (die Vorräte seien unbegrenzt), und Füchse, die sich von Kaninchen (und nur von Kaninchen) ernähren. F sei die Zahl der Füchse, K die Zahl der Kaninchen. Dann kann man die zeitlichen Veränderungen der Zahlen F und K durch folgendes System beschreiben: dK = K · (a − αF ), dt dF = F · (−c + γK). dt Dabei seien a ist die Wachstumsrate der Kaninchen, c die Todesrate der Füchse und α und γ Maße für die Interaktion zwischen beiden Arten. 4. Gewöhnliche Differentialgleichungen 4.3 55 Differentialgleichungen 1. Ordnung Wir betrachten zunächst Differentialgleichungen 1. Ordnung, also F (x, y, y ′ ) = 0 bzw. y ′ = f (x, y). Für spezielle Funktionen f bzw. f existieren einfache Lösungsmethoden. Z.B. entspricht das Lösen einer Differentialgleichung der Form y ′ = f (x) der Bestimmung der Stammfunktion von f (x). 4.3.1 Richtungsfeld, Polygonzugverfahren Ist die Funktion y(x) Lösung der expliziten Differentialgleichung y ′ = f (x, y) im Intervall I ⊂ IR, dann wird durch f (x, y) in jedem Punkt von B = { x, y(x) ; x ∈ I} die Steigung der Lösungskurve gegeben. Läuft also ein Punkt auf einer Lösungskurve, dann wird er mit Steigung y ′ = f (x, y) weitergeschickt“. ” Man kann daher die Differentialgleichung geometrisch veranschaulichen, indem man in jedem zulässigen Punkt (in dem f definiert ist) ein kleines Geradenstück der Richtung f (x, y) anträgt. Ein solches Objekt heißt Linienelement, und die Gesamtheit der Linienelemente nennt man Richtungsfeld. Die Lösungen der Differentialgleichung bilden eine Kurvenschar. Eine Kurve, die alle Punkte der Schar mit demselben Anstieg verbindet, heißt Isokline. y Beispiel 4.3.1 y ′ = x + y. Die Isoklinen sind die Geraden x + y = const. und y = ex − x − 1 ist Lösung der Differentialgleichung durch den Punkt (0, 0). ✻ y = ex − x − 1 ✲ x x+y = 2 x+y = 0 x + y = −2 Jede Lösungskurve ist in jedem Punkt tangential zum entsprechenden Linienelement. Damit erhält man sofort ein Näherungsverfahren zur Bestimmung der Lösung eines Anfangswertproblems, das Eulersche Polygonzug-Verfahren: Man zerlege das Intervall I = [x0 , x0 + l] in n gleichlange Intervalle der Länge h = l/n und setzt xk := x0 + kh, 0 ≤ k ≤ n, also xn = x0 + l. Ist y0 der vorgegebene Anfangswert, dann berechnet man sukzessiv yk := yk−1 + h · f (xk−1 , yk−1 ), 1 ≤ k ≤ n. Dann betrachtet man den Polygonzug mit den Ecken (x0 , y0 ), . . . , (xn , yn ) als Näherung der Lösungskurve. Durch Verfeinerung der Intervallteilung erhält man anschaulich als Grenzwert die Lösung des Anfangswertproblems. Dabei muß natürlich sichergestellt sein, daß das Anfangswertproblem eindeutig lösbar ist und daß das Verfahren konvergiert. Das Polygonzugverfahren ist i.a. rechentechnisch sehr aufwendig. Für die numerische Behandlung von Differentialgleichungen eignet sich z.B. das Näherungsverfahren von Runge-Kutta wesentlich besser. 4. Gewöhnliche Differentialgleichungen 4.3.2 56 Exakte Differentialgleichungen, Integrierender Faktor Ist F eine Funktion in einem Gebiet G ⊂ IR2 , dann beschreibt die Gleichung F (x, y) = c implizit eine Funktion y(x). Ist F in G stetig differenzierbar, und y in einem Intervall I ⊂ IR (mit {(x, y(x)); x ∈ I} ⊂ G) stetig differenzierbar, dann ergibt die Differentiation der obigen Gleichung nach x Fx (x, y) + Fy (x, y) · y ′ = 0, also eine Differentialgleichung 1. Ordnung. Gibt es umgekehrt zu einer Differentialgleichung der Form g(x, y) + h(x, y) · y ′ = 0 eine Funktion F (x, y) mit dann läßt sie sich in der Form Fx = g und Fy = h, d F x, y(x) = 0 schreiben. dx Eine Lösung einer solchen Differentialgleichung erhält man also durch Integration von und Auflösen der impliziten Gleichung F (x, y) = c nach y. d F x, y(x) dx Definition 4.3.2 Sei G ⊂ IR2 ein Gebiet und g, h : G → IR. Die Differentialgleichung g(x, y) + h(x, y) · y ′ = 0 heißt exakt im Gebiet G, wenn es eine in G stetig differenzierbare Funktion F (x, y) gibt mit Fx = g und Fy = h. F heißt Stammfunktion der Differentialgleichung. Beispiel 4.3.3 Die Gleichung 2x + 2y · y ′ = 0 ist exakt und F (x, y) = x2 + y 2 eine Stammfunktion. Es gilt Satz 4.3.4 Sei G ⊂ IR2 ein einfach zusammenhängendes Gebiet und g, h : G → IR stetig differenzierbar in G mit g2 + h2 > 0 in G. Die Differentialgleichung g(x, y) + h(x, y) · y ′ = 0 ist exakt genau dann, wenn gy = hx . In diesem Fall ist für beliebiges (x0 , y0 ) ∈ G Z x Z y F (x, y) = g(t, y0 ) dt + h(x, t) dt x0 y0 eine Stammfunktion, und man erhält durch Auflösen der Gleichungen F (x, y) = c, c ∈ IR, sämtliche Lösungen y(x). Durch jeden Punkt von G geht genau eine Lösungskurve. 4. Gewöhnliche Differentialgleichungen 57 Beispiel 4.3.5 (1) 2x3 + 3y + (3x + y − 1) · y ′ = 0. (2) (y cos x + 2xey ) + (sin x + x2 ey − 1) · y ′ = 0. Nicht-exakte Differentialgleichungen lassen sich manchmal durch Multiplikation mit einer in G stetigen Funktion M (x, y) 6= 0 in eine äquivalente exakte Differentialgleichung umwandeln. Eine solche Funktion heißt integrierender Faktor. Beispiel 4.3.6 Die Differentialgleichung x2 +y 2 +x+xyy ′ = 0 ist nicht exakt, hat aber den integrierenden Faktor M (x) = x. 4.3.3 Trennung der Variablen Mit Trennung der Variablen“ bezeichnet man eine Integrationsmethode für Differentialgleichungen der ” Form y ′ = g(x) · h(y). Satz 4.3.7 Seien Ix , Iy ⊂ IR offene Intervalle, die Funktion g(x) stetig in Ix und die Funktion h(y) stetig in Iy . Dann gilt für die Differentialgleichung y ′ = g(x) · h(y) (a) Ist y0 Nullstelle von h in Iy , dann ist y(x) ≡ y0 Lösung in Ix . (b) Die weiteren Lösungen erhält man durch Lösen der Gleichung Z Z dy = g(x) dx + C h(y) mit beliebigem C ∈ IR. Bemerkung 4.3.8 In der letzten Gleichung wird links nach y und rechts nach x integriert. Beispiele 4.3.9 (a) y ′ = k · y. (b) (x + 1) · y ′ = 2y. 4.4 Lineare Differentialgleichungen 4.4.1 Definition und Struktur der Lösungsmenge Ist f (x, y, y ′ , . . . , y (n−1) ) eine lineare Funktion in den Variablen y, y ′ , . . . , y (n−1) , dann heißt die Differentialgleichung y (n) = f (x, y ′ , . . . , y (n−1) ) lineare Differentialgleichung n-ter Ordnung. Sie läßt sich also in der Form y (n) + pn−1 (x) · y (n−1) + pn−2 (x) · y (n−2) + . . . + p1 (x) · y ′ + p0 (x) · y = q(x) mit in einem Intervall I ⊂ IR definierten reellwertigen und i.a. stetigen Funktionen p0 (x), p1 (x), . . ., pn−1 (x), q(x) darstellen. Die Funktionen p0 (x), p1 (x), . . . , pn−1 (x) nennt man auch Koeffizientenfunktionen, die Funktion q(x) Störfunktion. Die obige Darstellung der linearen Differentialgleichung heißt Normalform. 4. Gewöhnliche Differentialgleichungen 58 Lineare Differentialgleichungen sind von besonderer Bedeutung, da einerseits sich viele Anwendungsprobleme durch lineare Differentialgleichungen exakt oder näherungsweise beschreiben lassen, man andererseits über ihre Lösungen (speziell im Fall konstanter Koeffizienten p0 (x), p1 (x), . . . , pn−1 (x)) relativ viel weiß. Es gilt z.B. Satz 4.4.1 Sei I ⊂ IR ein abgeschlossenes beschränktes Intervall, p0 (x), p1 (x), . . . pn−1 (x), q(x) : I → IR stetig in I. Dann hat für beliebige Wahl von x0 ∈ I und y0 , y1 , . . . , yn−1 ∈ IR das Anfangswertproblem y (n) + n−1 X i=1 pi (x) · y (i) = q(x), y (i) (x0 ) = yi , 0 ≤ i ≤ n − 1, genau eine Lösung y(x) in I. Ist q(x) ≡ 0, dann spricht man von einer homogenen linearen Differentialgleichung, sonst von einer inhomogenen linearen Differentialgleichung. Die Lösungsmenge einer linearen Differentialgleichung hat eine spezielle algebraische Struktur: Satz 4.4.2 Gegeben sei die lineare Differentialgleichung n-ter Ordnung y (n) + stetigen Koeffizientenfunktionen und stetiger Störfunktion. Dann gilt: n−1 X i=1 pi (x) · y (i) = q(x) mit (a) Die Lösungen der homogenen Gleichung bilden einen n-dimensionalen Vektorraum, die Lösungen der inhomogenen Gleichung einen n-dimensionalen affinen Raum. (b) Sei yp (x) eine feste (partikuläre) Lösung der inhomogenen Gleichung. Dann gilt: y(x) ist eine weitere Lösung der inhomogenen Gleichung genau dann, wenn yh (x) = y(x) − yp (x) Lösung der zugehörigen homogenen Gleichung ist. Die Struktur der Lösungsmenge ist also analog zu der Struktur der Lösungsmenge eines linearen Gleichungssystems. Zur Bestimmung der allgemeinen Lösung einer linearen Differentialgleichung sind daher eine Basis des n-dimensionalen Lösungsraums, d.h. n linear unabhängige Lösungen y1 , y2 , . . . , yn der homogenen Gleichung, und außerdem irgendeine feste Lösung yp der inhomogenen Gleichung zu bestimmen. Die Basis nennt man auch Fundamentalsystem der homogenen Differentialgleichung. Die Lösungsmenge ist dann ( ) n X y(x) = ci yi (x) + yp (x); c1 , c2 , . . . , cn ∈ IR . i=1 Eine partikulären Lösung kann man mit Hilfe der Methode der Variation der Konstanten“ aus den ” Basislösungen gewinnen. Meist kommt man aber mit speziellen Lösungsansätzen (in Abhängigkeit der Gestalt der Störfunktion) schneller zum Ziel. 4. Gewöhnliche Differentialgleichungen 59 Um festzustellen, wann n Lösungen y1 (x), y2 (x), . . . , yn (x) der homogenen Gleichung linear unabhängig sind, betrachten wir Definition 4.4.3 Seien y1 (x), y2 (x), . . . , yn (x) in einem Intervall I ⊂ IR n-mal differenzierbare Funktionen. Dann heißt y1 y2 ... yn ′ y1 y2′ ... yn′ W (x) := .. Wronski-Determinante. .. .. . . . (n−1) (n−1) (n−1) y y . . . yn 1 2 Es gilt Satz 4.4.4 Sind y1 (x), . . . , yn (x) Lösungen derselben homogenen Differentialgleichung im Intervall I, W (x) die zugehörige Wronski-Determinante. Dann gilt: (a) Entweder ist W (x) = 0 für alle x ∈ I oder W (x) 6= 0 für alle x ∈ I. (b) Gibt es ein x0 ∈ I mit W (x0 ) 6= 0, dann sind die Lösungen linear unabhängig. Bemerkung 4.4.5 Da die Wronski-Determinante von n Lösungen derselben homogenen Differentialgleichung eine in I stetige Funktion ist, ist sie also in I identisch Null oder immer positiv oder immer negativ. 4.4.2 Lineare Differentialgleichungen 1. Ordnung Die Lösungsmenge einer homogenen linearen Differentialgleichung 1. Ordnung ist ein 1-dimensionaler Vektorraum. Man erhält die allgemeine Lösung der homogenen Gleichung durch die Methode der Trennung der Variablen: Satz 4.4.6 Die Differentialgleichung y ′ + p0 (x) · y = 0 hat die Lösungsmenge n o R y = c1 e− p0 (x) dx ; c1 ∈ IR . Zur Bestimmung einer partikulären Lösung der inhomogenen Gleichung y ′ + p0 (x) · y = q(x) mit Hilfe der Variation der Konstanten betrachten wir die Funktion yp (x) := c(x) · yh (x). yh (x) sei eine beliebige Lösung der zugehörigen homogenen Gleichung (mit yh 6≡ 0) und c(x) eine differenzierbare Funktion, die so beschaffen ist, daß yp (x) Lösung der inhomogenen Gleichung ist. Damit ergibt sich für c(x) −1 die Differentialgleichung c (x) = q(x) · yh (x) ′ bzw. c(x) = Z R q(x) · e p0 (x) dx dx, 4. Gewöhnliche Differentialgleichungen und die allgemeine Lösung der inhomogenen Gleichung Z R R R − p0 (x) dx y = c1 e + q(x) · e p0 (x) dx dx · e− p0 (x) dx Z R R = e− p0 (x) dx · c1 + q(x) · e p0 (x) dx dx , c1 ∈ IR. 60 (4.3) Bemerkungen 4.4.7 (1) Mit 4.3 haben wir eine Formel entwickelt, mit der wir (analog zur p, q)-Formel bei den quadratischen Gleichungen) direkt aus der Normalform der linearen Differentialgleichung 1. Ordnung die allgemeine Lösung berechnen können. R (2) Die Differentialgleichung hat den integrierenden Faktor M (x) = e p0 (x) dx . Beispiele 4.4.8 (1) y ′ + 2xy = x. (2) y ′ + y tan x − 1 = 0. cos x (3) In einem elektrischen Stromkreis mit konstantem Widerstand R, konstanter Induktivität L und mit angelegter Spannung U (t) wird der zeitliche Verlauf der Stromstärke i durch die lineare Differentialgleichung 1. Ordnung L · i′ + R · i = U (t) beschrieben. Als Lösung ergibt sich t Z i(t) = e−Rt/L C + U (s) Rs/L e ds L bzw. für den Einschaltvorgang (ab t = 0) bei konstanter Spannung Z t U Rs/L U U e + . i(t) = e−Rt/L C + ds = e−Rt/L C − R R 0 L 4.4.3 Lineare Differentialgleichungen 2. Ordnung Für die Wronski-Determinante zweier Lösungen y1 , y2 einer homogenen linearen Differentialgleichung 2. Ordnung in Normalform y ′′ + p1 (x) · y ′ + p0 (x) · y = 0 gilt W (x) = c · e− R p1 (x) dx c ∈ IR. , Dabei ist c = 0 genau dann, wenn die beiden Lösungen linear abhängig sind. Ist eine Lösung (außer der Nulllösung) bekannt, dann kann man aus dieser Beziehung eine dazu linear unabhängige Lösung berechnen. y ′′ − xy ′ + y = 0 Beispiel 4.4.9 Die Differentialgleichung Die Wronski-Determinante ist wegen hat die spezielle Lösung y1 (x) = x. p1 (x) = −x W (x) = c · e− R p1 (x) dx = c · ex 2 /2 , c ∈ IR. 4. Gewöhnliche Differentialgleichungen 61 Für eine linear unabhängige Lösung y2 (x) ergibt sich wegen W (x) = xy2′ (x) − y2 (x) die Differentialgleichung 1. Ordnung y2′ − 1 1 2 y2 = c · ex /2 · x x und damit die allgemeine Lösung y(x) = c1 x + c2 x x Z x0 1 s2 /2 e ds. s2 Hat man eine Lösungsbasis y1 , y2 der homogenen Gleichung gefunden, dann erhält man wieder durch den Ansatz y(x) = c1 (x) · y1 (x) + c2 (x) · y2 (x) der Variation der Konstanten eine partikuläre Lösung der inhomogenen Gleichung y ′′ + p1 (x) · y ′ + p0 (x) · y = q(x). Die Ableitungen c′1 , c′2 der zu bestimmenden Funktionen sollen die zusätzliche Bedingung c′1 · y1 + c′2 · y2 = 0 erfüllen. Einsetzen in die Differentialgleichung ergibt das lineare Gleichungssystem c′1 · y1 + c′2 · y2 c′1 · y1′ + c′2 · y2′ = = 0 q(x) . Die Koeffizientendeterminante ist gleich der Wronski-Determinante, also ungleich Null, d.h. das Gleichungssystem ist (z.B. mit der Cramerschen Regel) eindeutig lösbar. 4.4.4 Lineare Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten Für eine lineare Differentialgleichung höherer Ordnung ist es i.a. ziemlich schwer, ein Fundamentalsystem zu bestimmen ( - die Konstruktion einer partikulären Lösung mit der Methode der Variation der Konstanten läuft analog). Für eine homogene lineare Differentialgleichung n-ter Ordnung mit konstanten Koeffizienten y (n) + n−1 X pk y (k) = 0, k=0 p0 , p1 , . . . , pn−1 ∈ IR, macht man den speziellen Lösungsansatz y(x) = eαx und erhält das charakteristisches Polynom r(α) = αn + n−1 X pk αk = 0. k=0 Dieses Polynom hat nach dem Hauptsatz der Algebra genau n (nicht notwendig verschiedene) komplexe Nullstellen α1 , . . . , αn . 4. Gewöhnliche Differentialgleichungen 62 Zur Bestimmung eines Fundamentalsystems ergeben sich folgende Schritte: 1. Man bestimme alle verschiedenen Nullstellen αj des charakteristischen Polynoms einschließlich der Ordnung, d.h. wie oft sie als Nullstelle auftreten. 2. Zu jeder k-fachen Nullstelle α ist {eαx , xeαx , . . . , xk−1 eαx } eine linear unabhängige Lösungsmenge der homogenen Gleichung. Ist α = β + iγ nicht-reell, dann ersetze man die Lösungsmengen zu α und α durch {eβx cos γx, xeβx cos γx, . . . , xk−1 eβx cos γx, eβx sin γx, xeβx sin γx, . . . , xk−1 eβx sin γx}. Satz 4.4.10 Die n durch das obige Verfahren gefundenen Lösungen bilden ein Fundamentalsystem. Beispiele 4.4.11 (1) y ′′′ − 6y ′′ + 11y ′ − 6y = 0 hat die Lösungsbasis y1 (x) = ex , y2 (x) = e2x , y3 (x) = e3x . (2) 2y ′′′ − 5y ′′ + 6y ′ − 2y = 0 hat die komplexe Lösungsbasis y1 (x) = ex/2 , y2 (x) = e(1+i)x , y3 (x) = e(1−i)x y2∗ (x) = ex cos x, y3∗ (x) = ex sin x. und die reelle Lösungsbasis y1 (x) = ex/2 , (3) y (4) − 4y ′′′ + 5y ′′ − 4y ′ + 4y = 0 hat die komplexe Lösungsbasis y1 (x) = e2x , y2 (x) = xe2x , y3 (x) = eix , y4 (x) = e−ix und die reelle Lösungsbasis y1 (x) = e2x , 4.4.5 y2 (x) = xe2x , y3∗ (x) = cos x, y4∗ (x) = sin x. Spezielle Lösungsansätze für die partikuläre Lösung Hat die Störfunktion eine spezielle Gestalt, ist sie z.B. ein Polynom oder eine Exponentialfunktion oder Summe oder Produkt solcher Funktionen, dann führen spezielle Ansätze für die Partikulärlösung yp i.a. schneller als bei der Variation der Konstanten zum Ziel. Der Grundgedanke ist dabei, daß bei Differentiation solcher Funktionen ähnliche Funktionen entstehen. Satz 4.4.12 Gegeben sei eine lineare Differentialgleichung n-ter Ordnung mit Störfunktion q(x). (1) q(x) habe die Form Pm (x) · eαx mit einem Polynom Pm (x) vom Grad m und α ∈ IR: (a) Ist α nicht Nullstelle des charakteristischen Polynoms, dann setze αx yp := Bm (x) · e mit Bm (x) := m X aj xj . j=0 (b) Ist α Nullstelle des charakteristischen Polynoms der Ordnung k, dann setze k αx yp := x · Bm (x) · e mit Bm (x) := m X j=0 aj xj . 4. Gewöhnliche Differentialgleichungen 63 (2) q(x) habe die Form Pm (x) · eβx · cos γx oder q(x) = Pm (x) · eβx · sin γx mit einem Polynom Pm (x) vom Grad m und β, γ ∈ IR: (a) Ist α = β + iγ nicht Nullstelle des charakteristischen Polynoms, dann setze yp := Bm (x) · eβx · (a cos γx + b sin γx) mit Bm (x) := m X aj xj . j=0 (b) Ist α = β + iγ Nullstelle des charakteristischen Polynoms der Ordnung k, dann setze k βx yp := x · Bm (x) · e · (a cos γx + b sin γx) mit Bm (x) := m X aj xj . j=0 Die unbekannten Koeffizienten von Bm (x) bzw. a, b können durch Einsetzen von yp in die Differentialgleichung und durch Koeffizientenvergleich bestimmt werden. Die so bestimmten Funktionen yp sind dann partikuläre Lösungen der Differentialgleichung. Beispiele 4.4.13 (1) y ′′ + y ′ − 2y = x2 . (2) y ′′ + y ′ = x2 . (3) y ′′ − 2y ′ + y = x · ex . (4) y ′′ + y = ex · sin x. (5) y ′′ + y = sin x. Ist die Störfunktion eine Summe von Funktionen der Art wie in Satz 4.4.12, dann erhält man eine partikuläre Lösung mit Satz 4.4.14 Sind yp und yp∗ partikuläre Lösungen der linearen Differentialgleichungen y (n) + n−1 X pk y (k) = q1 (x) k=0 und y (n) + n−1 X pk y (k) = q ∗ (x), k=0 dann ist yp + yp∗ partikuläre Lösung von y (n) + n−1 X k=0 Beispiele 4.4.15 (1) y ′′ + 2y ′ − 3y = ex + x2 + 4x − 5. (2) y ′′ + 2y ′ − y = e3x + sin 2x. pk y (k) = q(x) + q ∗ (x). 64 5 5.1 Einführung in die Statistik Einführung Bislang standen sogenannte deterministische Vorgänge im Vordergrund des Interesses, also Vorgänge, deren Eintreten sicher vorhergesagt werden kann, wenn die Voraussetzungen dafür gegeben sind. Deterministische Gesetzmäßigkeiten sind z.B. das Fallgesetz, die Wellengleichungen, der Schmelzpunkt einer Substanz oder chemische Reaktionen. Im Gegensatz dazu werden wir uns nun mit zufälligen Ereignissen beschäftigen, die unter gegebenen Voraussetzungen eintreten können, aber nicht müssen. Zufällig ist z.B. die Wartezeit an den Kassen eines Supermarktes, die Fehleranfälligkeit des neuen Fernsehers oder die Anzahl der Kunden einer Tankstelle bzw. der Tagesumsatz an Kraftstoffen. Die Wahrscheinlichkeitsrechnung beschäftigt sich nun mit der Erforschung von Gesetzmäßigkeiten, denen zufällige Ereignisse unterworfen sind. Die dort gefundenen Ergebnisse ermöglichen es, aus einer relativ kleinen Anzahl von bekannten Daten auf eine unbekannte Gesamtmenge von Daten zu schließen, also z.B. aus Stichproben-Befragungen von Wählern Hochrechnungen auf den zu erwartenden Wahlausgang zu machen. Natürlich werden diese Aussagen nicht mit absoluter Sicherheit eintreffen, sondern nur mit einer gewissen Wahrscheinlichkeit, aber wie z.B. die Wahlen zeigen, liegen Hochrechnung und ausgezähltes Endergebnis in den meisten Fällen sehr dicht beieinander. Beispiele 5.1.1 (1) Der auf einer Großbaustelle eingebrachte Beton wird einer laufenden Qualitätskontrolle unterzogen. Dazu werden in gewissen Zeitabständen Betonwürfel gefertigt und in einer Prüfanstalt auf ihre Druckfestigkeit untersucht. Bei 40 untersuchten Würfeln ergaben sich die Werte 29, 4; 35, 5; 32, 1; 36, 3; 31, 5; 36, 3; 35, 3; 34, 9; . . .. Hätte man aus jeder eingebrachten Betonmischung einen Testwürfel gefertigt und auf seine Druckfestigkeit untersucht, dann hätte man die Grundgesamtheit vollständig untersucht. Die untersuchte Teilmenge nennt man eine Stichprobe vom Umfang n = 40 mit dem Merkmal Druckfestigkeit. Da jede reelle Zahl als Wert angenommen werden kann, bezeichnet man das Merkmal als stetige Größe. (2) Zur Fertigungskontrolle werden aus der Tagesproduktion eines Gerätetyps 10 Geräte herausgenommen und untersucht. Die Tagesproduktion ist die Grundgesamtheit, die Menge der untersuchten Geräte die Stichprobe. Ist ein Gerät in Ordnung, gibt man ihm das Merkmal 1, sonst 0. Hier sind für das Merkmal nur endlich viele Werte möglich und man bezeichnet es als diskrete Größe. 5.2 Beschreibende Statistik 5.2.1 Häufigkeitsverteilung Daten von empirischen Untersuchungen müssen in der Regel so aufbereitet werden, daß ein Unbeteiligter sie möglichst rasch einordnen kann. Dazu kann man die Daten, die nach der Erfassung i.a. in ungeordneter Form in einer Urliste vorliegen, sortieren, sie grafisch darstellen oder sie verdichten, d.h. an Hand weniger aus den Daten errechneten Kennzahlen charakteristische Eigenschaften herausfiltern. Wie in den vorangestellten Beispielen unterscheidet man zwischen diskreten Größen und stetigen Größen. 5. Einführung in die Statistik 65 Diskrete Größen sind z.B. die Anzahlen von Einwohnern verschiedener Stadtteile, oder der Fahrzeuge, die in einem festen Zeitintervall eine Kreuzung überqueren, oder die Personen pro Haushalt usw., es können also endlich viele (oder im Grenzfall abzählbar unendlich viele) Werte angenommen werden. Stetige Größen sind z.B. die Geschwindigkeit der Fahrzeuge, die Reisezeit für eine bestimmte Fahrt usw., es können also unendlich viele Werte eines Intervalls angenommen werden. Dabei sind die beobachteten Werte entweder Einzelwerte, die mit einer bestimmten Genauigkeit gemessen werden, oder ein Meßkontinuum, z.B. die Aufzeichnung eines Fahrtenschreibers. Beispiele 5.2.1 (1) Die Siegener Automobil-Union“ stellte an einem Tag 500 Autos her, und zwar 250 rote, 100 blaue ” und 150 grüne. Die zu untersuchende Menge sei die Menge E = {e1 , . . . , e500 } dieser Autos, das festzustellende Merkmal die Farbe, wobei rot“ durch die Zahl a1 = 1, blau“ durch die Zahl ” ” a2 = 2 und grün“ durch die Zahl a3 = 3 dargestellt werden soll. ” Die Anzahl der roten Autos heißt die absolute Häufigkeit von a1 und wird mit h1 bezeichnet. Im Beispiel ist h1 = 250, h2 = 100 und h3 = 150. Der prozentuale Anteil der roten Autos an der Gesamtproduktion heißt prozentuale Häufigkeit und wird mit fr′ bezeichnet. Im Beispiel ist f1′ = 50%, f2′ = 20% und f3′ = 30%. Die Menge der 3 Paare (1; 250), (2; 100) und (3; 150) heißt Häufigkeitsverteilung des Merkmals A auf E. Man kann die Häufigkeitsverteilung grafisch z.B. durch ein Stabdiagramm oder durch ein Tortendiagramm darstellen. Anzahl ✻ 250 blau 150 100 rot grün ✲ rot blau grün Farbe (2) 150 Familien mit Kindern wurden nach der Zahl ihrer Kinder befragt. Das Ergebnis der Befragung ist in folgender Tabelle dargestellt: Kinderzahl ar abs. Häufigkeit hr proz. Häufigkeit fr′ 1 42 28,0 2 54 36,0 3 36 24,0 4 12 8,0 5 3 2,0 6 1 0,7 7 2 1,3 Z.B. für die Fragestellung, wie viele Familien höchstens 4 Kinder haben, betrachtet man die absolute und relative bzw. prozentuale Summenhäufigkeit (oder kumulierte Häufigkeit) Hr , Fr und Fr′ . Für das Beispiel der Familien gilt Kinderzahl ar kumulierte Häufigkeit Hr rel. Häufigkeit fr kum. rel. Häuf. Fr kum. proz. Häuf. Fr′ 1 42 0,2800 0,2800 28,00 2 96 0,3600 0,6400 64,00 3 132 0,2400 0,8800 88,00 4 144 0,0800 0,9600 96,00 5 147 0,0200 0,9800 98,00 6 148 0,0067 0,9867 98,67 7 150 0,0133 1,0000 100,00 5. Einführung in die Statistik 66 Man kann die (Summen-)Verteilungsfunktion grafisch durch eine Treppenfunktion darstellen: F (x) ✻ 1, 0 r r 4 5 r r r 0, 75 r 0, 5 r 0, 25 ✲ 1 2 3 6 7 x Aus der Tabelle oder der Zeichnung liest man F (4) = 0, 96 ab, d.h. 96% der Familien haben weniger als 5 Kinder. (3) Bei der Abschätzung von gefahrenen Personenkilometern auf einer Bundesstraße wird außer der Verkehrsstärke auch der Besetzungsgrad“ der PKW’s erhoben. Dazu registriert man an Hand ” einer Strichliste, mit wie vielen Personen der vorbeifahrende PKW besetzt ist (Urliste). r Zahl der Insassen ar Zahl der PKW’s hr proz. Anteil der PKW’s fr′ kumul. Häufigkeit Hr kumul. proz. Häufigk. Fr′ 1 1 21 55,3 21 55,3 2 2 8 21,0 29 76,3 3 3 5 13,2 34 89,5 4 4 2 5,3 36 94,8 5 5 1 2,6 37 97,4 6 ≥6 1 2,6 38 100,0 Summe 38 100,0 Definition 5.2.2 Sei E = {e1 , . . . , en } die zu untersuchende Menge, X die Merkmalsvariable mit den verschiedenen Werten {a1 , . . . , am }, m ≤ n. Dann heißt (a) Es gilt hr := #{ei ; xi = ar } hr fr := n ′ fr := 100 · fr % m X hr = n, r=1 (b) Hr := absolute Häufigkeit von ar , relative Häufigkeit von ar und prozentuale Häufigkeit von ar . m X r=1 X fr = 1 und m X fr′ = 100%. r=1 hi kumulierte absolute Häufigkeit von ar , hi kumulierte relative Häufigkeit von ar und ai ≤ar Fr := X ai ≤ar F (x) := X fi relative Häufigkeitsverteilungsfunktion. ai ≤x Kann die Merkmalsvariable eine große Zahl von Werten annehmen (oder ist sie stetig), dann gruppiert man die Daten zur besseren Darstellung in Klassen (bzw. Intervallen) Ik = (xuk , xok ]. 5. Einführung in die Statistik 67 Dann heißen h∗k n u x + xok x∗k := k 2 h∗k := #{ei ; xi ∈ Ik } bzw. fk∗ := absolute bzw. relative Klassenhäufigkeit von Ik . heißt Klassenmitte von Ik . In dem Beispiel der Familien ergibt sich Intervalle abs. Klassenhäufigkeit h∗k rel. Klassenhäufigkeit fk∗ Klassenmitte (0,2] 96 0,6400 1 (2,4] 48 0,3200 3 (4,6] 4 0,0267 5 (6,8] 2 0,0133 7 Zur graphischen Darstellung trägt man über den Intervallen Ik Rechtecke auf, deren Flächen proportional den Klassenhäufigkeiten sind, und erhält ein Histogramm. Der Streckenzug, der die Mitten der oberen Rechtecksseiten verbindet, heißt Häufigkeitspolygon. Beispiel 5.2.3 Bei einer Klausur nahmen 50 Studenten teil. Es waren maximal 100 Punkte zu erreichen. Die Punkteverteilung war wie folgt: Punkte Anzahl Punkte Anzahl 6 2 40 1 8 1 41 2 12 2 42 1 13 1 43 1 14 1 46 3 15 1 47 1 17 1 48 1 18 1 50 3 20 2 52 1 23 1 53 2 26 2 55 1 -32 5 10 8 1,25 28 -36 7 14 4 3,5 34 -42 5 10 6 1, 6 39 31 2 56 2 32 1 58 1 33 2 59 1 35 4 61 1 36 1 67 1 38 1 72 1 Bei folgender Klasseneinteilung Punkte Anzahl proz. Häufigk. fr′ Intervalllänge δxr fr′ Höhe δx r Klassenmitte 0-8 3 6 8 0,75 4 -16 5 10 8 1,25 12 -24 5 10 8 1,25 20 -48 6 12 6 2 45 -53 6 12 5 2,4 50,5 -59 5 10 6 1, 6 56 -72 3 6 13 0,46 65,5 -100 0 0 28 0 86 ergibt sich als Histogramm bzw. als Häufigkeitspolygon r proz. Häuf. ✻ ✻ 3 r r 10 r r r r r 2 r r 5 1 ✲ 8 16 24 3236 42 4853 59 72 100 Punkte r 4 12 20 28 3439 45 56 65, 5 50, 5 ✲ 86 Punkte 5. Einführung in die Statistik 68 Die Verteilungsfunktion F (x) summiert die relativen Häufigkeiten fr bis r ≤ x bzw. die Flächen des Histogramms bis zur Stelle x und ergibt sich in dem Beispiel als bzw. 0, 0075 x 0, 0125 · (x − 8) + 0, 06 0, 035 · (x − 32) + 0, 36 0, 016 · (x − 36) + 0, 5 für für für für F (x) = 0, 02 · (x − 42) + 0, 6 für 0, 024 · (x − 48) + 0, 72 für 0, 016 · (x − 53) + 0, 84 für 0, 0046 · (x − 72) + 0, 94 für 1 für 0≤x≤8 8 < x ≤ 32 32 < x ≤ 36 36 < x ≤ 42 42 < x ≤ 48 48 < x ≤ 53 53 < x ≤ 59 59 < x ≤ 72 72 < x ≤ 100 F (x) ✻ 1, 0 r r 72 100 r r r r 0, 5 r r ✲ r r 8 16 24 3236 42 4853 59 Punkte Mit Hilfe der Funktion F (x) erhält man z.B. Antworten auf Fragen folgender Art: 1. Wie viele Klausuren haben mehr als 20 aber nicht mehr als 40 Punkte? Antwort: Der relative Anteil ergibt sich als F (40) − F (20) = 0, 356. 2. Wie muß man die Mindestpunktzahl festlegen, damit 60 % der Teilnehmer bestanden haben? Antwort: Sei x die Punktzahl, die F (x) Klausuren gerade erreicht haben. Wenn 40 % nicht bestehen, dann ist also x gesucht mit F (x) = 0, 4, 5.2.2 also x = 33, 14. Statistische Maßzahlen Schon bei der Zusammenfassung der Daten in Klassen reduziert man die Information, um eine größere Übersichtlichkeit zu gewinnen. Dasselbe Ziel verfolgt die Mittelbildung. Entsprechend der Struktur der Daten bzw. der Aufgabenstellung sind verschiedene Arten von Mittelwerten gebräuchlich (und sinnvoll). Das bekannteste Mittel ist das arithmetische Mittel der n Werte x1 , . . . , xn n 1 X x := xi . n i=1 Sind die Daten in einer Häufigkeitsverteilung geordnet, d.h. jeweils hi Objekte haben das Merkmal ai , 1 ≤ i ≤ m, dann gilt m m X 1X x= hi ai = fi ai . n i=1 i=1 Im Fall gruppierter Daten repräsentiert die Klassenmitte die gesamte Klasse. Als Näherungswert verwendet man m m 1X ∗ ∗ X ∗ ∗ x∗ = hi xi = f i xi . n i=1 i=1 Beispiel 5.2.4 Für die Punkteverteilung bei der Klausur ergibt sich x = 36, 84 und x∗ = 35, 89. Bemerkung 5.2.5 I.a. sind x und x∗ verschieden. Sind die Klassenmitten aber die genauen arithmetischen Mittel der in der Klasse zusammengefaßten Daten, dann sind die Werte gleich. 5. Einführung in die Statistik 69 Das arithmetische Mittel ist die Zahl, für die die Summe der Quadrate der Abstände von den einzelnen n X Werten, also die Funktion F (y) := (xi − y)2 , minimal ist. Allerdings ist es empfindlich gegenüber i=1 Ausreißern“. Zum Beispiel ist das arithmetische Mittel der Vermögen der Bewohner eines Dorfes mit ” 100 Einwohnern größer als 1 Million, wenn 1 Einwohner 100 Millionen besitzt und die anderen besitzlos sind. Daher betrachtet man manchmal ein gewogenes arithmetisches Mittel xG = n X Gi xi i=1 n X = Gi n X gi xi mit gi := i=1 i=1 Gi n X Gi i=1 mit Gewichten“ Gi . ” Bemerkungen 5.2.6 (1) Wählt man als Gewichte die absoluten Häufigkeiten, dann erhält man das arithmetische Mittel. (2) Das gewogene arithmetische Mittel wird z.B. verwendet, wenn Meßwerte mit unterschiedlichen Genauigkeiten gemessen werden. (3) Will man den Mittelwert aus n Zahlen berechnen, die arithmetische Mittelwerte aus Stichproben verschiedenen Umfangs sind, dann wählt man die Umfänge der Stichproben als Gewichte. Beispiel 5.2.7 Ein Kfz fährt eine Stunde mit einer Geschwindigkeit von 60 km/h und anschließend zwei Stunden mit 80 km/h. Dann ermittelt man die Durchschnittsgeschwindigkeit vG = 60 · 1 + 80 · 2 km/h = 73, 3 km/h. 1+2 Für Wachstumserscheinungen ergibt sich als geeigneter Mittelwert das geometrische Mittel v u n uY n xg := t xi . i=1 Beispiel 5.2.8 In einem Entwicklungsland mit starken Bevölkerungszuwächsen wurden von 1969 bis 1974 folgende Einwohnerzahlen einer kleinen Stadt registriert: i 1 2 3 4 5 6 Jahr 1969 1970 1971 1972 1973 1974 Einwohnerzahl Ei 24 500 26 210 28 780 30 500 34 420 35 520 Zuwachsfaktor xi 1, 070 1, 098 1, 060 1, 129 1, 032 5. Einführung in die Statistik 70 Der mittlere Zuwachsfaktor ergibt sich als geometrisches Mittel xg = √ 5 x1 · . . . · x5 = 1, 077. Da hier eine lückenlose Zeitreihe vorliegt, gilt auch xg = r 5 E6 . E1 Mittelt man Werte, die sich als Quotienten ergeben (wie Geschwindigkeit = Weg/Zeit oder Dichte = Masse/Volumen, und entspricht der Zähler der Häufigkeit, dann berechnet man das harmonische Mittel xh = n n = m . n X X 1 1 hj xi xj i=1 j=1 Beispiel 5.2.9 Ein Fahrzeug fährt über eine Strecke von 25 km. Da die Strecken unterschiedlich gut ausgebaut sind, kann man die einzelnen nur mit bestimmten Geschwindigkeiten befahren. Gesucht ist die durchschnittliche Geschwindigkeit. i 1 2 3 4 5 6 7 P Länge hi [km] 1 1 12 3 1 2 5 25 Geschwindigkeit xi [km/h] 30 45 50 65 80 100 120 Reisezeit hxii [h] 0, 0333 0, 0222 0, 2400 0, 0462 0, 0125 0, 0200 0, 0417 0,4159 xi · hi 30 45 600 195 80 200 600 1.750 Die Gesamtstrecke ist 25 km, die Gesamtreisezeit 0, 4159 h die durchschnittliche Geschwindigkeit also x= 25 = 60, 11 [km/h]. 0, 4159 Das arithmetische Mittel der Geschwindigkeiten würde y= 1750 = 70 [km/h] 25 und eine Reisezeit von 0, 3571 [h] ergeben, was sicher nicht stimmen kann. Ein anderer möglicher Mittelwert ist der mittlere Wert der nach der Größe geordneten Reihe der Werte, also der Wert, der die geordnete Reihe in 2 gleiche Teile teilt. Er heißt Median (oder Zentralwert oder 50 %-Quantil). 5. Einführung in die Statistik 71 Zu seiner Bestimmung sortiert man bei unklassierten Daten die Werte der Größe nach. Ist die Zahl n der Werte ungerade, dann gibt es stets ein mittleres Element. Ist n gerade, dann wählt man als Median n n Z das arithmetische Mittel der Werte des -ten und des + 1-ten Elements. 2 2 Beispiele 5.2.10 1. Für das Beispiel der Klausur (mit 50 Studenten, unklassiert) ergibt sich Z = 37. 2. In einer Firma gebe es 7 Frauen mit jährlichem Bruttoeinkommen von 70, 70, 70, 80, 80, 80, 180 (in Tausend Euro) und 9 Männer mit jährlichem Bruttoeinkommen von 50, 60, 70, 80, 90, 90, 90, 90, 100. Für die Frauen ergibt sich ein Median von ZF = 80, für die Männer von ZM = 90 und insgesamt von Z = 80. Bei einer klassierten Häufigkeitstabelle stellt man fest, in welcher Klasse die absoluten bzw. relativen n kumulierten Häufigkeiten bzw. 0, 5 erreichen. Das ist die sogenannte Einfallsklasse [(aj , bj ], in der der 2 Zentralwert liegen muß. Innerhalb dieser Klasse geht man von einem linearen Verlauf aus und bestimmt Z mit der linearen Interpolation n − Hj−1 Z = aj + 2 · (bj − aj ) Hj − Hj−1 bzw. Z = aj + 0, 5 − Fj−1 · (bj − aj ). Fj − Fj−1 Beispiele 5.2.11 1. Für das Beispiel der Kinderzahl der Familien ergibt sich unklassiert Z = 2. Aus der Klassenbildung ergibt sich die Einfallsklasse (0, 2] und Z =0+ 0, 5 − 0 · 2 = 1, 56. 0, 64 − 0 2. Für das Beispiel der Klausur (mit 50 Studenten) ergibt sich bei der Gruppierung aus dem Skript Z = 36. Bemerkungen 5.2.12 (1) Das arithmetische Mittel der Einkommen der Frauen aus dem vorigen Beispiel ist xF = 90, das der Männer xM = 80, und insgesamt ergibt sich x = 84, 375. Je nach Wahl des Mittelwertes verdienen also die Männer mehr als die Frauen oder umgekehrt, d.h. man kann jeweils nach persönlichem Geschmack die eine oder die andere Gruppe reicher erscheinen lassen. (2) Der Median ist weniger empfindlich gegenüber Ausreißern als das arithmetische Mittel. Zum Beispiel drückt das Einkommen von 180 das arithmetische Mittel nach oben, hat aber auf den Median keine Auswirkungen. (3) Für klassierte Daten erhält man Z aus der Verteilungsfunktion , nämlich als Wert F −1 (0, 5). Man kann Z daher auch aus dem Graphen von F ablesen. 5. Einführung in die Statistik 72 (4) Betrachtet man statt der Summe der quadratischen Abweichungen die Betragssumme der Abweichungen der Einzelwerte von einem Wert a f (a) := n X k=1 |xk − a|, dann nimmt f bei a = Z ihr Minimum an. Der Mittelwert ist allein zu wenig aussagekräftig. Zum Beispiel ergeben beide Meßreihen 1; 5; 10; 15; 19 und 9; 9; 10; 11; 11 sowohl den arithmetischen Mittelwert 10 als auch den Meridian 10. Man ergänzt daher den Mittelwert durch einen Streuparameter“, der erkennbar macht, ob die Meßwerte dicht um ” den Mittelwert liegen oder stark nach oben bzw. unten abweichen. Definition 5.2.13 Gegeben seien die n Beobachtungswerte x1 , x2 , . . . , xn . Ist x das arithmetische Mittel, a ein beliebiger Wert, dann heißt s2a := n 1 X (xi − a)2 n−1 mittlere quadratische Abweichung von a, i=1 n 1 X (xi − x)2 n−1 i=1 v u n u 1 X t s := (xi − x)2 n−1 s2 := Varianz, Standardabweichung. i=1 Bemerkungen 5.2.14 (1) Die mittlere quadratische Abweichung nimmt bei a = x ihr Minimum an. Der Nenner n − 1 wird (statt des eigentlich logischen Nenners n) im Hinblick auf die Anwendung bei Stichproben gewählt. (2) Treten die verschiedenen Werte a1 , . . . , am mit der Häufigkeit hj , 1 ≤ j ≤ m ≤ n, auf, dann gilt m 1 X s2 = hj (aj − x)2 . n−1 j=1 m 1 X ∗ ∗ (3) Im Fall gruppierter Daten verwendet man als Varianz (s ) = hj (xj − x∗ )2 . n−1 ∗ 2 j=1 Beispiel 5.2.15 Für die beiden Meßreihen ergibt sich eine Standardabweichung von 7, 28 bzw. 1. Manchmal informativer als die Variation ist der Variationskoeffizient ν := s , x der die Variation in Relation zum arithmetischen Mittel setzt. Neben Varianz und Standardabweichung betrachtet man als Streuparameter die Spannweite R := xmax − xmin 5. Einführung in die Statistik 73 und den Quartilsabstand Q := x75% − x25% , der die 25% kleinsten und 25% größten Merkmalsausprägungen nicht berücksichtigt und vom Rest die Spannweite angibt. Natürlich ist der Quartilsabstand wesentlich robuster gegen Ausreißer als die Bandbreite. 5.3 Zufallsvariable und ihre Verteilungen 5.3.1 Zufallsvariable und Wahrscheinlichkeit Wie beim Beispiel der Betonwürfel werden die untersuchten Massen in der Regel nicht die Grundgesamtheit darstellen, sondern eine Stichprobe darstellen. Grundlage der beurteilenden Statistik sind die Zufallsvariable und ihre Verteilungen. Einen Prozeß, der nicht eindeutig durch die äußeren Bedingungen festgelegt ist, nennt man einen zufälligen Versuch oder Zufallsexperiment. Dabei setzt man voraus, daß der Versuch • unter gleichbleibenden Bedingungen abläuft, • (zumindest theoretisch) beliebig oft wiederholt werden kann, • mehrere einander ausschließende Ergebnisse haben kann und das Ergebnis im konkreten Fall nicht sicher vorausgesagt werden kann. Das Ergebnis des Versuchs heißt Ereignis. Tritt ein Ereignis bei jeder Wiederholung des Versuchs auf, dann heißt es sicheres Ereignis, tritt es nie auf, unmögliches Ereignis. Beispiel 5.3.1 Ein Standardbeispiel ist das Würfeln mit einem idealen Würfel mit den Augenzahlen 1 bis 6. Die Zufallsgröße W sei die erzielte Augenzahl. Ereignisse sind dann z.B. (a) Wi : W = i (1 ≤ i ≤ 6) (b) Wg : W ist gerade, (c) W2+ : W > 2 (d) W2+0 : W ≥ 2. Wu : W ist ungerade Ω : W ∈ {1, 2, 3, 4, 5, 6} ist das sichere Ereignis, ∅ : W ∈ / {1, 2, 3, 4, 5, 6} das unmögliche Ereignis. Man stellt ein Ereignis durch die Menge dar, die als Elemente alle möglichen auftretenden Ergebnisse hat, z.B. das Ereignis der geraden Augenzahl beim Würfeln durch W ∈ {2, 4, 6}. Ein Ereignis, das durch eine 1-elementige Menge dargestellt wird, heißt Elementarereignis. Beim Würfeln gibt es die 6 Elementarereignisse W1 , . . . , W6 . Bedeutet das Ereignis C, daß das Ereignis A oder das Ereignis B (oder A und B) eintritt, dann schreibt man C = A ∪ B. Es gilt z.B. Wg = W2 ∪ W4 ∪ W6 . Definition 5.3.2 Wir betrachten einen Versuch mit zugehöriger Ereignismenge Ω. Eine Funktion X : Ω → IR heißt Zufallsvariable (d.h. man ordnet jedem Ereignis eine reelle Zahl zu). Hat X endlich viele oder abzählbar viele Werte, dann heißt sie diskret, ist jeder Wert eines Intervalls Funktionswert von X, dann heißt sie stetig. Bei Wiederholung eines Versuchs beobachtet man, daß bestimmte Ereignisse häufiger auftreten als andere. Dies wird durch den Begriff der Wahrscheinlichkeit ausgedrückt: Einer Zahl zwischen 0 und 1. Dabei bedeutet 0, 8, daß bei einer großen Zahl von Beobachtungen in 80 % der Fälle mit dem Eintreten des Ereignisses zu rechnen ist. Für die Wahrscheinlichkeit legt man gewisse Fundamentalregeln fest: 5. Einführung in die Statistik 74 (1) Jedem Ereignis A wird eine reelle Zahl P (A) aus dem Intervall [0, 1] zugeordnet. Weiter gilt P (Ω) = 1 und P (∅) = 0. [ X (2) Sind die Ereignisse Ai paarweise unabhängig, dann gilt P P (Ai ). (Dabei kann man Ai = sowohl über endlich viele als auch abzählbar viele Ereignisse die Vereinigung und Summe bilden.) Beispiele 5.3.3 1 1 und damit P (Wg ) = . 6 2 Betrachtet man die (diskrete) Zufallsvariable X mit X(Wg ) = 0, X(Wu ) = 1, (d.h. X ist 0, wenn die Augenzahl gerade ist, und X ist 1, wenn die Augenzahl ungerade ist,) dann gilt (1) Bei einem idealen Würfel ist P (Wi ) = P (X = 0) = P (X = 1) = 1 . 2 (2) Würfelt man gleichzeitig mit zwei idealen Würfeln, dann ergeben sich 36 Elementarereignisse mit 1 Wahrscheinlichkeit . 36 Betrachtet man als Zufallsvariable X die erzielte Augenzahl mit Wertebereich {2, 3, 4, . . . , 12}, dann gilt Augenzahl Xi 2 3 4 5 6 7 8 9 10 11 12 pi := P (X = Xi ) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 . Betrachtet man als Zufallsvariable X das Produkt der einzelnen Augenzahlen, dann gilt Produkt Xi 1 2 3 4 5 6 8 9 10 12 15 16 18 20 24 25 30 36 pi 1 36 2 36 2 36 3 36 2 36 4 36 2 36 1 36 2 36 4 36 2 36 1 36 2 36 2 36 2 36 1 36 2 36 1 36 Die in den Tabellen dargestellten Menge der Paare {(xi , pi ); pi = P (X = xi )} heißt Wahrscheinlichkeitsverteilung der diskreten Zufallsvariablen X. Man kann sie durch Säulendiagramme darstellen. Im letzten Beispiel ergeben sich die Diagramme 36 · p ✻ 36 · p ✻ 6 5 4 3 2 1 6 5 4 3 2 1 ✲ 2 3 4 5 6 7 8 9 10 11 12 X ✲ 1 2 3 4 5 6 8 9 10 12 15 16 18 20 24 25 30 36 X . 5. Einführung in die Statistik 75 Um die Wahrscheinlichkeit P (a < X ≤ b) dafür zu berechnen, daß X einen Wert zwischen a und b annimmt, ist die Verteilungsfunktion F (x) := P (X ≤ x) : IR → [0, 1] der Zufallsvariablen nützlich. Für eine diskrete Zufallsvariable X mit Werten pi gilt X X pi und P (a < X ≤ b) = pi = F (b) − F (a). F (x) = xi ≤x a<xi ≤b Für die Augensumme bei zweimaligem Würfeln folgt x∈ F (x) (−∞, 2) 0 [2, 3) 1 36 3 36 6 36 10 36 15 36 21 36 26 36 30 36 33 36 35 36 [3, 4) [4, 5) [5, 6) [6, 7) [7, 8) [8, 9) [9, 10) [10, 11) [11, 12) [12, ∞) F (x) ✻ 1, 0 r r r r r r 0, 5 r r r r ✲ r 2 3 4 5 6 7 8 9 10 11 12 x 1 Entsprechend der Charakterisierung von Häufigkeitsverteilungen betrachtet man entsprechende Maßzahlen. Dem arithmetischen Mittel entspricht bei der Wahrscheinlichkeitsverteilung der Erwartungswert, als Streuparameter ergibt sich analog die Varianz: Definition 5.3.4 Sei X eine diskrete Zufallsvariable mit Werten x1 , x2 , . . . und zugehörigen Wahrscheinlichkeiten p1 , p2 , . . .. Dann heißt X E(X) := xi · p i Erwartungswert von X, i V ar(X) := X i σ(X) := p (xi − E(X))2 · pi V ar(X) Varianz von X, Standardabweichung. 5. Einführung in die Statistik 76 Beispiel 5.3.5 Auf einem Jahrmarkt kann man beim Würfeln mit zwei Würfeln Geld gewinnen: Der Einsatz ist 1 Euro. Ist die Augensumme 11, dann erhält man 5 Euro, bei Augensumme 12 erhält man 20 Euro, in den anderen Fällen nichts. Der Gewinn ist eine diskrete Zufallsvariable X mit den Werten x1 = 20 − 1 = 19 bei Augensumme 12, x2 = 5 − 1 = 4 bei Augensumme 11 und x3 = 0 − 1 = −1 sonst. Mit p1 = 1 , 36 ergibt sich der Erwartungswert E = − Standardabweichung σ(X) ≈ 3, 44. p2 = 2 , 36 p3 = 1 − p1 − p2 = 33 36 1 Euro ≈ −17 Cents, die Varianz V ar(X) ≈ 11, 81 und die 6 Für eine stetige Zufallsvariable möchte man die Summendarstellung durch ein Integral ersetzen und betrachtet dazu Wahrscheinlichkeitsverteilungen und Zufallsvariable mit einer Dichtefunktion f (x) : IR → [0, 1], die folgende Eigenschaften erfüllt: 1. f (x) ≥ 0 für alle x ∈ IR, Z ∞ 2. f (x) dx = 1, −∞ 3. P (a < X ≤ b) = Z b f (x) dx a für alle a ≤ b. Für die Verteilungsfunktion gilt dann Z x F (x) = f (t) dt und −∞ P (a < X ≤ b) = F (b) − F (a) = Z b f (t) dt. a Die Wahrscheinlichkeit dafür, daß X einen Wert zwischen a und b annimmt, ist also gleich der Fläche unter Kurve der Dichtefunktion f (t) zwischen a und b. Als entsprechende Maßzahlen ergeben sich Definition 5.3.6 Sei X eine stetige Zufallsvariable mit der Dichtefunktion f (x). Dann heißt Z ∞ E(X) := x · f (x) dx Erwartungswert von X, −∞ V ar(X) := Z ∞ −∞ σ(X) := p (x − E(X))2 · f (x) dx V ar(X) Varianz von X, Standardabweichung. Mit Hilfe der Wahrscheinlichkeitsverteilung läßt sich eine Zufallsgröße umfassend beschreiben. Im folgenden wird eine kleine Auswahl von Verteilungen behandelt, die für praktische Anwendungen besonders wichtig sind. 5. Einführung in die Statistik 5.3.2 77 Diskrete Gleichverteilung Wir nehmen an, daß alle n Realisierungen einer diskreten Zufallsgröße X mit derselben Wahrscheinlich1 keit p = auftreten. Als Verteilungsfunktion ergibt sich die Treppenfunktion n F (x) = P (X ≤ x) = X P (X = xj ) = xj ≤x Der Erwartungswert ist E(X) = j X i=1 n X i=1 pi = j · 1 n für xj ≤ x < xj+1 . n 1 X xi p i = xi = x, n i=1 also gleich dem arithmetischen Mittel, und die Varianz ist σ 2 (X) = V ar(X) = n n X 1 X 2 (xi − x)2 pi = xi − x2 . n i=1 5.3.3 i=1 Binomialverteilung Wir betrachten einen zufälligen Versuch, der genau zwei Ergebnisse A und A hat. Es interessiert die Frage, wie oft bei n-maliger Wiederholung das Ereignis A eintritt. Die Zufallsgröße X ist also die zufällige Anzahl der Beobachtungen mit Ergebnis A. X kann damit genau die Werte 0, 1, 2, . . . , n annehmen. Sie ist vollständig charakterisiert, wenn es gelingt, die Wahrscheinlichkeit für das Auftreten jedes dieser Werte von X, d.h. P (X = k) = pk , 0 ≤ k ≤ n, anzugeben. Wir legen noch als Voraussetzungen fest: - Es gibt nur zwei verschiedene, sich gegenseitig ausschließende Versuchsergebnisse A und A. - Die Wahrscheinlichkeiten von A und A sind bei jedem Versuch gleich, und zwar P (A) = p, P (A) = q = 1 − p. - Die einzelnen Versuche sind voneinander unabhängig, d.h. das Ergebnis eines Versuches darf nicht von den vorhergehenden Versuchen abhängen und nicht nachfolgende Versuche beeinflussen. Beispiel 5.3.7 Es sind n gleichartige Geräte auf ihre Funktionstüchtigkeit zu prüfen. Das Ereignis A bedeute, daß das Gerät intakt ist, A, daß es defekt ist. Zu bestimmen ist die Wahrscheinlichkeit dafür, daß genau k Geräte intakt sind. Es ergibt sich n k P (X = k) = p (1 − p)n−k . k Definition 5.3.8 Eine diskrete Zufallsgröße X heißt binomialverteilt mit den Parametern n und p, wenn ihre n + 1 Realisierungen 0, 1, 2, . . . , n mit den Einzelwahrscheinlichkeiten n k pk = P (X = k) = p (1 − p)n−k k auftreten. X heißt B(n;p)-verteilt. 5. Einführung in die Statistik Die Verteilungsfunktion ist F (x) = X pk = k≤x 1 xk ≤x der Erwartungswert 0 X n k 78 für x < 0 pk (1 − p)n−k für 0 ≤ x < n , für x ≥ n n X n k k p (1 − p)n−k = np, E(X) = k k=0 die Varianz V ar(X) = n X k=0 und der Variationskoeffizient k2 n k p (1 − p)n−k − n2 p2 = np(1 − p) k σ(X) ν= = E(X) r 1−p . np Beispiele 5.3.9 (1) Wir betrachten nochmals das obige Beispiel mit den Geräten. Jedes der Geräte sei mit einer Wahrscheinlichkeit von p = 95 % intakt, und es werden 100 Geräte geprüft. Der Erwartungswert ist dann E(X) = 100 · 0, 95 = 95 und die Standardabweichung p p σX = np(1 − p) = 100 · 0, 95 · 0, 05 ≈ 2, 18. Für die Wahrscheinlichkeit, daß höchstens 2 der 100 Geräte defekt sind, erhält man 100 X 100 P (X ≥ 98) = 0, 95k · 0, 05100−k = 0, 1183, k k=98 d.h. in 88,17 % der Fälle kann man mit mehr als 2 defekten Geräten rechnen. (2) Ein Schütze trifft mit der Wahrscheinlichkeit p = 0, 6 das Ziel. Mit welcher Wahrscheinlichkeit trifft er das Ziel bei 10 Schüssen genau einmal? Ist die Zufallsgröße x die Anzahl der Treffer, dann gilt 10 p · (1 − p)9 = 10 · 0, 6 · 0, 49 ≈ 0, 0016. P (X = 1) = 1 Genau ein Treffer ist also recht unwahrscheinlich. Die Wahrscheinlichkeit, daß mindestens einmal getroffen wird, ist 10 0 P (X ≥ 1) = 1 − P (X = 0) = 1 − p · (1 − p)10 = 1 − 0, 410 = 1 − 0, 0001 = 0, 9999. 0 Die Bestimmung der Werte bei einer Binomialverteilung ist oft mühsam und aufwendig. Deshalb benutzt man oft Tabellen, in denen die entsprechenden Werte schon angegeben sind. 5. Einführung in die Statistik 79 Ist X die Anzahl des Eintreffens von A, X ′ die Anzahl des Eintreffens von A, und ist X B(n;p)-verteilt, dann ist X ′ B(n;1-p)-verteilt, es gilt P (X = k) = P (X ′ = n − k), und für die Verteilungsfunktionen gilt Fp (X) = 1 − F1−p (n − x − 1). Damit genügt es, Tabellen der Binomialverteilung für p ≤ 1 zu erstellen. 2 Für großes n und kleines p erhält man als eine Näherung, die die manchmal aufwendigen Berechnungen bzw. die Tabellen unnötig macht, P (X = k) ≈ 5.3.4 (np)k −np e k! (Poissonsche Näherungsformel). Stetige Gleichverteilung Ist die Dichtefunktion in einem Intervall [a, ] konstant und sonst Null, d.h. 1 für x ∈ [a, b] f (x) = b − a , f (x) = 0 sonst dann nennt man die zugehörige Zufallsgröße stetig gleichverteilt. Als Verteilungsfunktion ergibt sich die Funktion 0 Z x−a F (x) = P (X ≤ x) = f (t) dt = b−a t≤x 1 für x ≤ a für a ≤ x ≤ b . für a ≤ x Der Erwartungswert ist E(X) = Z ∞ −∞ xf (x) dx = Z ∞ ∞ x 1 a+b dx = , b−a 2 also wieder das arithmetische Mittel, und die Varianz ist Z ∞ (b − a)2 2 . σ (X) = V ar(X) = (x − E(x))2 f (x) dx = 12 −∞ 5. Einführung in die Statistik 5.3.5 80 Normalverteilung Die Normalverteilung oder Gauß-Verteilung ist dadurch gekennzeichnet, daß ihre Realisierungen vollkommen symmetrisch um den Erwartungswert liegen. Diese Symmetrie tritt auf, wenn die Zufallsgröße durch Überlagerung vieler einzelner relativ geringfügiger Einflüsse bestimmt wird. Definition 5.3.10 Für die Dichtefunktion 1 −1 f (x) = √ e 2 σ 2π (x−µ) σ 2 heißt die zugehörige stetige Zufallsvariable X normalverteilt mit den Parametern µ und σ, kurz N(µ;σ)-verteilt. Die Graph der Dichtefunktion ist als Gaußsche Glockenkurve“ bekannt und zusammen mit dem Bild ” von Gauß auf dem Zehn-Mark-Schein abgebildet. 1 f ist symmetrisch bezüglich x = µ und hat ihr Maximum in x = µ mit f (µ) = √ . σ 2π In µ ± σ liegen die Wendepunkte von f . Die Fläche unterhalb der Kurve muß (unabhängig von der Wahl von µ und σ) konstant gleich 1 sein (das war eine der Forderungen an die Dichtefunktion), und das Maximum ist umso größer, je kleiner σ ist, d.h. bei kleinem σ fällt die Dichtekurve relativ rasch auf beiden Seiten und der überwiegende Teil der Fläche konzentriert sich um x = µ. Als Verteilungsfunktion ergibt sich die Funktion 2 Z x Z x 1 − 12 (t−µ) σ F (x) = f (t) dt = √ e dt. σ 2π −∞ −∞ Der Erwartungswert ist ∞ 1 E(X) = xf (x) dx = √ σ 2π −∞ Z die Varianz ist 1 σ (X) = V ar(X) = √ σ 2π σ und der Variationskoeffizient ν = . µ 2 Z ∞ −∞ Z ∞ − 12 xe (x−µ) σ 2 dx = µ, ∞ 1 2 −2 (x − µ) e (x−µ) σ 2 dx = σ 2 Die Parameter µ und σ sind also identisch mit dem Erwartungswert und der Standardabweichung. Aus Symmetriegründen gilt 1 F (µ) = P (X ≤ µ) = P (X ≥ µ) = . 2 Durch Übergang zu der neuen Zufallsgröße U := X −µ σ 5. Einführung in die Statistik 81 transformiert man die Kurve von f (x) zu einer Kurve symmetrisch zur x-Achse mit Wendepunkten in ±1. Die neue Dichtefunktion ist u2 1 (− ) 2 φ(u) = √ e 2π und die Verteilungsfunktion t2 Z u (− ) 1 Φ(u) = √ e 2 dt. 2π −∞ U heißt standardisiert normalverteilt oder N(0;1)-verteilt. Ist X N(µ;σ)-verteilt und kennt man die Standard-Normalverteilung, dann kennt man wegen b−µ a−µ b−µ F (b) = P (X ≤ b) = Φ , P (a < X ≤ b) = F (b) − F (a) = Φ −Φ σ σ σ auch die Verteilung von X. Es reicht also aus, die Funktion Φ(u) zu vertafeln, und wegen Φ(−u) = 1 − Φ(u) nur für die Werte u > 0. φ(u) ✻ Φ(u) ✻ 0, 4 1, 0 0, 3 0, 75 0, 2 0, 5 0, 1 0, 25 ✲ −3 −2 −1 1 2 3 u ✲ −3 −2 −1 5.4 Einführung in die schließende Statistik 5.4.1 Stichproben, Schätzfunktionen 1 2 3 u Bisher wurde immer angenommen, daß die Verteilungsfunktionen einschließlich der Parameter bekannt sind. Wir wollen nun aber Aussagen machen, ohne die gesamte Grundmenge in die Untersuchung einzubeziehen. Dazu untersuchen wir nur eine Teilmenge, d.h. eine Stichprobe, und versuchen, Rückschlüsse auf die Grundmenge zu machen. Definition 5.4.1 Wird durch Zufallsauswahl eine Teilmenge der Grundmenge bestimmt, dann heißt die Teilmenge (Zufalls-) Stichprobe und die Zahl ihrer Elemente Umfang der Stichprobe. Das Bestimmen der Elemente heißt Ziehen der Stichprobe. Jedes Element der Grundmenge muß eine angebbare Wahrscheinlichkeit besitzen, gezogen zu werden. Ist die Wahrscheinlichkeit für alle Elemente der Grundmenge gleich und unabhängig davon, welche Elemente schon gezogen wurden, dann heißt die Stichprobe einfach. Eine einfache Stichprobe ist eigentlich nur bei unendlichen Grundmengen möglich, aber in der Praxis spricht man auch von einfachen Stichproben, wenn die Stichprobe nicht mehr als 5 % der Elemente der Grundmenge enthält. 5. Einführung in die Statistik 82 Beispiele 5.4.2 (1) Für eine Einkommensuntersuchung betrachtet man z.B. die männlichen und weiblichen Arbeitnehmer jeweils getrennt und zieht für jede Gruppe eine einfache Stichprobe. Die gesamte Stichprobe heißt dann geschichtete Stichprobe. (2) Zur Bestimmung des Kaufverhaltens teilt man die zu untersuchende Grundmenge in Teilmengen ( Klumpen“) auf, wählt zufällig einige Klumpen aus und untersucht diese vollständig. Natürlich ” können Ungenauigkeiten auftreten, wenn z.B. einzelne Klumpen regionale oder andere Besonderheiten aufweisen. Für eine einfache Stichprobe vom Umfang n mit den Werten x1 , . . . , xn betrachtet man entsprechende Parameter wie bei der statistischen Erfassung der Grundmenge mit k Elementen: Man nennt analog n 1 X x := xi n das arithmetische Mittel der Stichprobe, i=1 n 1 X (xi − x)2 s := n−1 i=1 v u n u 1 X s :=t (xi − x)2 n−1 2 die Varianz der Stichprobe, die Standardabweichung der Stichprobe und i=1 p̃ := n k den Anteil der Stichprobe. Die so berechneten Werte sind Schätzwerte für die entsprechenden Parameter der Grundmenge. Für andere einfache Stichproben ergeben sich andere Werte. Die Werte sind also Ausprägungen von entsprechenden Zufallsvariablen, dem Stichproben-Mittel X, der Stichproben-Varianz S 2 und dem Stichproben-Anteil P̃ . Man nennt diese Zufallsvariablen Schätzfunktionen. Damit kann man mit Hilfe der Verteilungsfunktionen der Schätzfunktionen die Genauigkeit“ eines ” Schätzwertes beurteilen. Es gilt Satz 5.4.3 Es sei X eine Zufallsvariable mit dem Erwartungswert µ := E(X) und der Varianz σ 2 . Dann gilt: σ2 (a) Die Zufallsvariable X (Stichproben-Mittel) hat den Erwartungswert µ und die Varianz , d.h. n σ die Standardabweichung √ . n σ (b) Ist X N(µ;σ)-verteilt, dann ist X N(µ;√ )-verteilt. n X −µ sind asymptotisch normalverteilt, d.h. mit wachsendem n σ nähert sich die Verteilung von X immer mehr der N(µ;σ)-Verteilung und Z der N(0;1)-Verteilung. (c) Die Zufallsvariablen X und Z := Bemerkung 5.4.4 Wegen E(X) = µ streuen die Werte x um µ. Die Streuung wird umso kleiner, je größer n ist, und damit wird eine Schätzung des arithmetischen Mittels der Grundmenge durch den Mittelwert einer Stichprobe mit wachsendem Stichprobenumfang besser. 5. Einführung in die Statistik 83 Beispiel 5.4.5 Der Benzinverbrauch bei einem bestimmten Kfz-Typ ist i.A. nicht für alle Kfz’s dieses Typs gleich, kann also als Zufallsvariable aufgefaßt werden. Ist der Verbrauch normalverteilt mit µ = 10Liter/100 km und σ = 1Liter/100 km, dann ist der durchschnittliche Verbrauch von 25 Autos 1 1 N(10; )-verteilt und von 100 Autos N(10; 10 )-verteilt. 5 Die Wahrscheinlichkeit, daß der Durchschnittsverbrauch bei 25 Autos zwischen 9, 8 und 10, 2 liegt, ist p1 = 0, 6826, und dafür, daß bei 100 Autos der Durchschnittsverbrauch über 10,2 liegt, p2 = 0, 0228. Umgekehrt kann man nach einem Intervall [µ − ∆, µ + ∆] suchen, in dem der Durchschnittsverbrauch der Stichprobe mit einer gegebenen Wahrscheinlichkeit p liegt. Zum Beispiel erhält man bei 25 Autos und einer Wahrscheinlichkeit von p = 90 % das Intervall um µ = 10 mit ∆ = 0, 329. 5.4.2 Konfidenzintervalle Eine einzige Stichprobe, d.h. eine sogenannte Punktschätzung, erlaubt natürlich keine Aussage über die Genauigkeit einer Schätzung. Um eine Angabe über die Sicherheit der Schätzung eines Parameters zu erhalten, konstruiert man ein Intervall [A, B], das den wahren Wert des Parameters mit einer vorgegebenen Wahrscheinlichkeit überdeckt. Das ist eine ähnliche Aufgabenstellung wie im vorigen Beispiel, in dem aber der Erwartungswert vorgegeben war. Definition 5.4.6 Erhält man mit einer vorgegebenen Wahrscheinlichkeit p = 1 − α auf Grund einer Stichprobe ein Intervall [A, B], das einen unbekannten Parameter v mit der Wahrscheinlichkeit p enthält, dann heißt dieses Intervall Konfidenzintervall (oder Vertrauensintervall) für v. A und B heißen Konfidenzgrenzen, p Konfidenzniveau oder statistische Sicherheit und α Irrtumswahrscheinlichkeit. Die Konfidenzgrenzen werden aus Stichproben bestimmt und sind also von der speziellen Stichprobe abhängig, also wieder Zufallsgrößen. Beispiel 5.4.7 Eine Maschine schneidet Stahlbleche automatisch auf eine vorher fest eingestellte Länge. Aus vorherigen Messungen der Fertigungsprozesse kennt man die Standardabweichung σ = 2, 2 cm. Gesucht ist ein Konfidenzintervall für die mittlere Länge der Bleche bei einer Wahrscheinlichkeit von p = 95 %, wenn eine Stichprobe von n = 40 Blechen die mittlere Länge x = 80, 5 cm ergeben hat. Für die Bestimmung eines Konfidenzintervalls [A, B] bei bekannter Varianz σ 2 ergibt sich folgendes Verfahren: (1) Wähle eine Wahrscheinlichkeit p = 1 − α als Konfidenzniveau. (2) Bestimme z aus der Tafel der Standard-Normalverteilung mit P (−z ≤ Z ≤ z) = p (3) Berechne x = n 1 X xi der Stichprobe. n bzw. Φ(z) = 1+p . 2 i=1 σ (4) Berechne ∆ = z · √ . Damit ergibt sich A = x − ∆ und B = x + ∆. n 5. Einführung in die Statistik 84 Für das Beispiel ergibt sich als Konfidenzintervall 79, 818 ≤ µ ≤ 81, 182. Analog kann man auch die Frage beantworten, wie groß eine Stichprobe sein muß, damit mit einer statistischen Sicherheit p das Konfidenzintervall eine vorgegebene Länge hat. Ist die Standardabweichung σ unbekannt, dann kann man für große Stichproben (Faustregel n ≥ 30) σ durch die Standardabweichung der Stichprobe, also durch v u n u 1 X t s= (xi − x)2 n−1 i=1 approximieren. Index Ableitung partielle, 31 partielle ∼ n-ter Ordnung, 32 Richtungs-, 35 Abstand, 2 Anfangswertproblem, 51 Anteil einer Stichprobe, 82 Stichproben-∼, 82 Ausgleichsgerade, 38 Ausgleichsrechnung, 38 B(n;p)-verteilt, 77 Basis, 1 Betrag, 2 Binomialverteilung, 77 C, I 48 charakteristisches Polynom, 61 Dichtefunktion, 76 Differential totales, 35 Differentialgleichung, 50 exakte, 56 explizite, 51 homogene lineare, 58 implizite, 51 inhomogene lineare, 58 Lösung, 50 lineare, 57 Ordnung, 51 Stammfunktion, 56 differenzierbar partiell, 31 stetig, 34 vollständig, 33 Dreiecksungleichung, 2 Einheitsvektor, 2 Elementarereignis, 73 Ereignis, 73 sicheres, 73 unmögliches, 73 Erwartungswert, 75, 76 Euler-Formel, 50 Extremum, 36 absolutes, 36 mit Nebenbedingungen, 39 relatives, 36 Fehler absoluter, 34 relativer, 34 Fundamentalsystem, 58 Funktion implizite, 41 stetige, 30 Funktionaldeterminante, 45 Gauß-verteilt, 80 gleichverteilt diskret, 77 stetig, 79 Gradient, 35 Häufigkeit absolute, 66 kumulierte absolute, 66 kumulierte relative, 66 prozentuale, 66 relative, 66 Häufigkeitspolygon, 67 Häufigkeitsverteilung, 65 Häufigkeitsverteilungsfunktion relative, 66 Höhenlinie, 29 Hesse-Matrix, 38 Hessesche Normalform, 3 Histogramm, 67 Hyperebene, 3 imaginäre Einheit, 48 Imaginärteil, 48 Integral Bereichs-, 42 integrierender Faktor, 57 Irrtumswahrscheinlichkeit, 83 Isokline, 55 Isoquante, 29 Kettenregel, 35 Klassen, 67 Klassenhäufigkeit, 67 Klassenmitte, 67 85 INDEX Konfidenzgrenze, 83 Konfidenzintervall, 83 Konfidenzniveau, 83 konjugiert komplex, 49 Koordinaten Kugel-, 28 Polar-, 27 Zylinder-, 27 Kovarianz, 39 Kreuzprodukt, 3 Kugelkoordinaten, 28 Lagrange -Funktion, 39 -sche Multiplikationsregel, 39 -sche Multiplikatoren, 39 linear abhängig, 1 linear unabhängig, 1 lineares Optimierungsproblem, 11 Basis, 14 Basisdarstellung, 14 Basislösung, 14 Basisvariable, 14 Lösung, 12 Nebenbedingungen, 11 Nichtnegativbedingungen, 11 optimale Lösung, 12 Zielfunktion, 11 zulässige Basislösung, 14 zulässige Lösung, 12 Linearkombination, 1 Linienelement, 55 Maximum, 36 absolutes, 36 relatives, 36 Median, 70 Minimum, 36 absolutes, 36 relatives, 36 Minimum-Problem, 17 Mittel arithmetisches, 68 arithmetisches ∼ einer Stichprobe, 82 gewogenes arithmetisches, 69 Stichproben-∼, 82 Moivre-Formel, 50 N(µ;σ)-verteilt, 80 N(0;1)-verteilt, 81 Nebenbedingungen, 11 Nichtnegativbedingungen, 11 Niveaufläche, 29 Niveaulinie, 29 Nord-West-Ecken-Regel, 21 Normalbereich, 43 Normalenvektor, 3 Normalform, 3, 57 normalverteilt, 80 standardisiert, 81 Optimierungsproblem lineares, 11 Ordnung, 51 orthogonal, 2 Parallelepiped, 4 Parameterdarstellung einer Ebene, 5 partielle Ableitung, 31 partikuläre Lösung, 58 Poissonsche Näherungsformel, 79 Polarkoordinaten, 27 Polygonzug-Verfahren, 55 Quantil, 70 Quartilsabstand, 73 IRn , 26 Randwertproblem, 51 Realteil, 48 Richtungsableitung, 35 Richtungsfeld, 55 Sattelpunkt, 37 Schätzfunktion, 82 Schlupfvariable, 13 Skalarprodukt, 2 Spannweite, 73 Spat, 4 Spatprodukt, 5 Störfunktion, 57 Stammfunktion einer Differentialgleichung, 56 Standard-Maximum-Problem, 13 Standardabweichung, 39, 72, 75, 76 einer Stichprobe, 82 stationärer Punkt, 37 statistische Sicherheit, 83 stetig, 30 86 INDEX Stichprobe, 81 einfache, 81 Umfang, 81 Stichproben -Anteil, 82 -Mittel, 82 -Varianz, 82 totales Differential, 35 Transformation, 44 Transportproblem ausgeglichenes, 20 Trennung der Variablen, 57 Umfang einer Stichprobe, 81 Umgebung, 26 ǫ–∼, 26 Varianz, 72, 75, 76 einer Stichprobe, 82 Stichproben-∼, 82 Variation der Konstanten, 59 Variationskoeffizient, 72 Vektor, 26 zueinander orthogonale ∼, 2 Betrag, 2 Einheits-, 2 Normalen-, 3 Skalarprodukt, 2 Vektorprodukt, 3 Vektorraum, 1 Versuch, 73 Verteilungsfunktion, 75, 76 Vertrauensintervall, 83 Wahrscheinlichkeit, 73 Wahrscheinlichkeitsverteilung, 74 Wronski-Determinante, 59 Zahlen imaginäre, 48 komplexe, 48 konjugiert komplexe, 49 Zentralwert, 70 Ziehen einer Stichprobe, 81 Zielfunktion, 11 Zufallsexperiment, 73 Zufallsvariable, 73 diskrete, 73 stetige, 73 Zylinderkoordinaten, 27 87