Hochschule für Technik und Wirtschaft Dresden Fakultät Informatik/Mathematik Prof. Dr. B. Jung Skript (Teil 2) zur Vorlesung Mathematik für den Studiengang Produktionstechnik (053) Stoffgebiete: 5. Integralrechnung für Funktionen einer reellen Variablen - Fortsetzung (ab Abschnitt 5.3) 6. Differentialrechnung für Funktionen mehrerer reeller Variabler 7. Grundlagen der Wahrscheinlichkeitsrechnung 8. Wahrscheinlichkeitsverteilungen Inhaltsverzeichnis 5 6 7 8 Integralrechnung für Funktionen einer reellen Variablen (Fortsetzung) 5.3 Einige Anwendungen der Integralrechnung . . . . . . . . . . . . . . 5.3.1 Flächeninhalt ebener Bereiche . . . . . . . . . . . . . . . . . 5.3.2 Bogenlänge einer ebenen Kurve . . . . . . . . . . . . . . . . 5.3.3 Volumen und Mantelfläche von Rotationskörpern . . . . . . . 5.3.4 Schwerpunkt homogener ebener Bereiche . . . . . . . . . . . 5.3.5 Mechanische Arbeit (Arbeit einer Kraft) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 4 5 5 Differentialrechnung für Funktionen mehrerer reeller Variabler 6.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Grenzwert, Stetigkeit, partielle Ableitungen 1. Ordnung . . . . . . . 6.2.2 Partielle Ableitungen höherer Ordnung . . . . . . . . . . . . . . . . 6.2.3 Differentiation nach einem Parameter (verallgemeinerte Kettenregel) 6.3 Das totale Differential einer Funktion . . . . . . . . . . . . . . . . . . . . . 6.3.1 Definition und Anwendung in der Fehlerrechnung . . . . . . . . . . 6.3.2 Implizite Differentiation . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Extrema von Funktionen mehrerer Variabler . . . . . . . . . . . . . . . . . . 6.4.1 Begriff des Extremums . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.2 Extrema ohne Nebenbedingungen . . . . . . . . . . . . . . . . . . . 6.4.3 Extrema mit Nebenbedingungen . . . . . . . . . . . . . . . . . . . . 6.5 Ausgleichsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 Weitere räumliche Koordinatensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 9 9 10 12 12 12 13 14 14 14 16 19 21 . . . . . . . . . . . . . . . . . . Grundlagen der Wahrscheinlichkeitsrechnung 7.1 Hilfsmittel aus der Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . 7.2 Grundbegriffe der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . 7.2.1 Das Zufallsexperiment und weitere Grundbegriffe . . . . . . . . . 7.2.2 Verknüpfungen von Ereignissen . . . . . . . . . . . . . . . . . . . 7.3 Der Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Laplace-Experimente, absolute und relative Häufigkeit . . . . . . . 7.3.2 Wahrscheinlichkeitsaxiome und Schlussfolgerungen . . . . . . . . 7.3.3 Additionssatz, bedingte Wahrscheinlichkeit und Multiplikationssatz 7.3.4 Baumdiagramme, totale Wahrscheinlichkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 24 24 25 27 27 27 28 31 Wahrscheinlichkeitsverteilungen 8.1 Stetige und diskrete Zufallsvariable (ZV) . . . . . . . . . . . . . . . 8.2 Verteilungsfunktion einer ZV . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Verteilungsfunktion einer diskreten ZV (diskrete Verteilung) . 8.2.2 Verteilungsfunktion einer stetigen ZV (stetige Verteilung) . . 8.3 Kennwerte einer Wahrscheinlichkeitsverteilung . . . . . . . . . . . . 8.4 Spezielle Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . 8.4.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Poisson-Verteilung und Poisson-Prozess . . . . . . . . . . . . 8.4.3 Stetige Gleichverteilung (Rechteckverteilung) . . . . . . . . . 8.4.4 Dreiecksverteilung (Simpsonsche Verteilung) . . . . . . . . . 8.4.5 Betaverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.6 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . 8.4.7 Weibull-Verteilung . . . . . . . . . . . . . . . . . . . . . . . 8.4.8 Gaußsche Normalverteilung . . . . . . . . . . . . . . . . . . 8.5 Aussagen über Summen und Produkte von Zufallsvariablen . . . . . . 8.5.1 Kennwerte von Summen und Produkten von Zufallsvariablen 8.5.2 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 33 34 35 36 38 38 39 41 42 44 45 46 48 51 51 52 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Integralrechnung für Funktionen einer reellen Variablen (Fortsetzung) 5.3 Einige Anwendungen der Integralrechnung 5.3.1 Flächeninhalt ebener Bereiche Im Abschnitt 5.1.2 (siehe Skript Teil 1) wurde das bestimmte Integral als Flächeninhalt A zwischen der Kurve einer Funktion f (x) und der x-Achse in einem vorgegebenen Intervall [a, b] definiert. Dabei wurde jedoch zunächst vorausgesetzt, dass diese Funktion in [a, b] nur positive Werte annimmt, d.h. dass ihre Kurve vollständig oberhalb der x-Achse verläuft. Betrachtet man nun eine Funktion, deren Kurve in dem betrachteten Intervall vollständig ˆb unterhalb der x-Achse liegt, so würde das bestimmte Integral f (x) dx a einen negativen Wert haben und daher nicht der Maßzahl des Flächeninhaltes zwischen der Funktionskurve von f (x) und der x-Achse entsprechen. In solchen Fällen kann der Flächeninhalt wie folgt berechnet werden: b ˆ ˆb A = |f (x)| dx = f (x) dx (74) a a (anschaulich: die Fläche wird an der x-Achse gespiegelt). Im folgenden werden weitere Fälle betrachtet, wo bestimmte Integrale zur Berechnung von Flächeninhalten angewendet werden können. Flächeninhalt eines ebenen Bereiches, der von zwei Kurven begrenzt wird Seien f1 (x) und f2 (x) auf dem Intervall [a, b] integrierbare Funktionen und es gelte f1 (x) ≤ f2 (x). Der Bereich B sei gegeben durch: B = {a ≤ x ≤ b ; f1 (x) ≤ y ≤ f2 (x)} (siehe Bild 5.4). Dann gilt für den Flächeninhalt dieses Bereiches: ˆb [ f2 (x) − f1 (x)] dx . AB = (75) a y 6 y 6 f2 (x) f1 (x) BB B f2 (x) f1 (x) - 0 a b - 0 x x1 a Bild 5.4 x2 x3 b x Bild 5.5 Die Voraussetzung, dass die Differenz f2 (x) − f1 (x) nicht negativ werden darf, wird nun fallengelassen. Mit Hilfe der Formel (74) erhält man für den Fall, dass der Bereich B durch die Geraden x = a und x = b sowie die Kurven der (auf [a, b] integrierbaren) Funktionen f1 (x) und f2 (x) begrenzt wird: b x x ˆ ˆ1 ˆ2 (76) AB = [ f2 (x) − f1 (x)] dx + [ f2 (x) − f1 (x)] dx + . . . + [ f2 (x) − f1 (x)] dx . a xn x1 Dabei sind mit x1 , x2 , . . . , xn die Abszissen der im Intervall [a, b] gelegenen Schnittpunkte der Kurven von f1 (x) und f2 (x) bezeichnet, siehe Bild 5.5. Beispiel 5.16: 3 5.3.2 Bogenlänge einer ebenen Kurve Eine weitere wichtige Anwendung der Integralrechnung ist die Berechnung der Länge einer im Intervall [a, b] gegebenen Funktionskurve. Berechnung der Bogenlänge einer ebenen Kurve Seien f (x) und ihre erste Ableitung f 0 (x) im Intervall [a, b] stetig. Dann kann die Länge S der Kurve y = f (x) nach der Formel S= ˆb p 1+ [f 0 (x)]2 dx ˆb q = 1 + y 0 2 dx a (77) a berechnet werden. Falls die Kurve in Parameterdarstellung: x = x(t), y = y(t), t1 ≤ t ≤ t2 (siehe dazu Abschnitt 3.2.1 im Skript Teil 1) gegeben ist, gilt: S= ˆt2 p [ẋ(t)]2 + [ẏ(t)]2 dt ˆt2 p = ẋ2 + ẏ 2 dt , t1 (78) t1 wobei x(t) und y(t) sowie ihre ersten Ableitungen als stetig vorausgesetzt werden und außerdem [ẋ(t)]2 + [ẏ(t)]2 6= 0 für alle t ∈ [t1 , t2 ] gelten muss. (Für eine Herleitung dieser Formeln sei auf die folgende Literaturstelle verwiesen: A. F ETZER , H. F R ÄNKEL. Mathematik 2: Lehrbuch für ingenieurwissenschaftliche Studiengänge, 6. Auflage, S. 22-24.) Beispiel 5.17: Ergänzend sei bemerkt, dass die Integrale in (77) bzw. (78) auf Grund des auftretenden Wurzelausdrucks häufig nicht auf elementarem Weg lösbar sind. Als Ausweg dienen dann die im Abschnitt 5.2.4 (siehe Skript Teil 1) eingeführten Methoden zur numerischen Integration. 5.3.3 Volumen und Mantelfläche von Rotationskörpern y 6 Während bei sehr einfachen Rotationskörpern (wie z.B. Kreiszylinder, Kreiskegel, Kreiskegelstumpf) eine Berechnung des Volumens und der Mantelfläche mittels elementarer Formeln möglich ist, muss bei allgemeineren rotationssymmetrischen Körpern auf die Integralrechnung zurückgegriffen werden. Zunächst wird die Situation betrachtet, dass die Kurve einer Funktion y = f (x) in einem gewissen Intervall um die x-Achse rotiert (vgl. Bild 5.6). f (x) a b x Bild 5.6 Berechnung des Volumens eines Rotationskörpers Durch Rotation der Fläche zwischen der Kurve der Funktion y = f (x) und den Geraden x = a sowie x = b um die x-Achse entsteht ein Rotationskörper mit dem Volumen ˆb ˆb [f (x)]2 dx = π · Vx = π · a y 2 dx . (79) a Berechnung der Mantelfläche eines Rotationskörpers Die Mantelfläche des entstehenden Rotationskörpers lässt sich mit Hilfe der folgenden Formel berechnen: ˆb AM x = 2π · ˆ q p f (x) · 1 + [f 0 (x)]2 dx = 2π · y · 1 + y 0 2 dx . b a a 4 (80) Eine Herleitung der genannten Formeln findet man z.B. in: L. PAPULA . Mathematik für Ingenieure und Naturwissenschaftler (Band 1), 12. Auflage, S. 513 - 514 und S. 521 - 522. Beispiel 5.18: Bemerkung: Wenn eine Fläche, welche von der Kurve x = g(y) und den Geraden y = c sowie y = d begrenzt wird, um die y-Achse rotiert, dann entsteht ein Rotationskörper mit dem Volumen ˆd ˆd [ g(y)]2 dy = π · Vy = π · c x2 dy . (81) c Die Mantelfläche dieses Rotationskörpers kann nach der Formel ˆd AM y = 2π · ˆ p p g(y) · 1 + [ g 0 (y)]2 dy = 2π · x · 1 + x0 2 dy d (82) c c berechnet werden. Wenn die Gleichung der rotierenden Kurve in der Form y = f (x) vorliegt, dann muss zunächst eine Auflösung dieser Gleichung nach x vorgenommen werden, um die Formeln (81) und (82) anwenden zu können. 5.3.4 Schwerpunkt homogener ebener Bereiche Im weiteren wird vorausgesetzt, dass die betrachteten Bereiche homogen sind, d.h. eine konstante Dichte besitzen. Dann fällt der Massenschwerpunkt mit dem Flächenschwerpunkt (d.h. dem geometrischen Schwerpunkt) zusammen. Berechnung des Schwerpunktes eines homogenen ebenen Bereiches Der ebene Bereich B sei gegeben durch: B = {a ≤ x ≤ b ; f1 (x) ≤ y ≤ f2 (x)} , wobei auf dem gesamten Intervall [a, b] gelte: f1 (x) ≤ f2 (x) (siehe dazu auch Bild 5.4). Die Koordinaten xS und yS des Schwerpunktes dieses Bereiches können nach den folgenden Formeln berechnet werden: 1 xS = · AB ˆb x · [ f2 (x) − f1 (x)] dx , a 1 · yS = 2AB ˆb [ (f2 (x))2 − (f1 (x))2 ] dx . (83) a Dabei bezeichnet AB den Flächeninhalt des Bereiches B, welcher gemäß (75) zu ermitteln ist. Beispiel 5.19: 5.3.5 Mechanische Arbeit (Arbeit einer Kraft) Die Berechnung der von einer Kraft verrichteten Arbeit ist auf elementare Weise möglich, wenn es sich um eine konstante Kraft handelt, die entlang eines geradlinigen Weges wirkt. Ist die Kraft jedoch ortsabhängig (bzw. wegabhängig), erfolgt die Berechnung der geleisteten Arbeit mit Hilfe der Integralrechnung. Berechnung der mechanischen Arbeit Die Kraft F~ wirke in Richtung eines geradlinigen Weges und ihr Betrag F sei darstellbar als eine stetige Funktion F = F (x) (x: Abstand des Angriffspunktes der Kraft von einem festen Punkt 0). Dann gilt für die Arbeit, die von der Kraft auf dem Weg von x = a nach x = b geleistet wird: ˆb W = F (x) dx . (84) a (Für eine Herleitung dieser Formel sei auf die folgende Literaturstelle verwiesen: A. F ETZER , H. F R ÄNKEL. Mathematik 2: Lehrbuch für ingenieurwissenschaftliche Studiengänge, 6. Auflage, S. 82-83.) Beispiel 5.20: 5 6 Differentialrechnung für Funktionen mehrerer reeller Variabler 6.1 Einführung In zahlreichen physikalischen und technischen Anwendungen treten Größen auf, die von mehr als einer Variablen abhängen. Das Ziel dieses Kapitels ist es, den Begriff der Funktion entsprechend zu erweitern sowie die Differentialrechnung für Funktionen mehrerer Variabler kennenzulernen. Beispiel 6.1: a) Wurfweite beim schrägen Wurf Ein Körper wird mit der Geschwindigkeit v0 unter einem Winkel α abgeworfen. Die Wurfweite sW hängt sowohl von der Abwurfgeschwindigkeit v0 als auch von dem Abwurfwinkel α ab. Es besteht der funktionale Zusammenhang: sW = sW (v0 , α) = v02 · sin(2α) g (g : Erdbeschleunigung). b) Gesamtwiderstand eines Stromkreises Der Gesamtwiderstand Rges des hier dargestellten Stromkreises hängt von den drei Widerständen R1 , R2 und R3 ab. Es besteht der funktionale Zusammenhang: Rges = Rges (R1 , R2 , R3 ) = R1 + R2 · R3 . R2 + R3 R3 R1 R2 c) Produktionsfunktionen1 Das Produktionsergebnis x (Output; hier zunächst bezogen auf eine Ein-Produkt-Fertigung) hängt von den Einsatzmengen verschiedener Produktionsfaktoren (Input; z.B. sind dies Werkstoffe, Betriebsmittel, Arbeitsleistung) ab. Dieser Zusammenhang kann durch die Gleichung x = f (r1 , r2 , . . . , rn ) beschrieben werden, wobei f als Produktionsfunktion bezeichnet wird und r1 , r2 , . . . , rn die Einsatzmengen der Produktionsfaktoren sind. Im Beispiel 6.3c) wird eine konkrete Produktionsfunktion betrachtet. Definition 6.1: Funktionen von n reellen Variablen sind Abbildungen vom Raum Rn in die Menge der reellen Zahlen, d.h. einem Vektor ~x = (x1 , x2 , . . . , xn ) wird in eindeutiger Weise eine Zahl y = f (~x) = f (x1 , x2 , . . . , xn ) zugeordnet. Dabei gelten die folgenden Bezeichnungen: x1 , x2 , . . . , xn : unabhängige Variable f (x1 , x2 , . . . , xn ) : Funktionswert Es ist zu beachten, dass im Zusammenhang mit Funktionen mehrerer reeller Variabler die Vektoren aus dem Raum Rn stets als Zeilenvektoren geschrieben werden (im Abschnitt 2.6, siehe Skript Teil 1, wurden Vektoren aus dem Raum Rn als Spaltenvektoren eingeführt). Definitionsbereich und Wertebereich von Funktionen mehrerer reeller Variabler Sei f (~x) = f (x1 , x2 , . . . , xn ) eine Funktion mehrerer reeller Variabler. Der Definitionsbereich Df der Funktion f umfasst die Menge aller Vektoren ~x = (x1 , x2 , . . . , xn ), denen durch f ein Funktionswert y zugeordnet werden kann (vgl. Definition 6.1). Unter dem Wertebereich Wf der Funktion f versteht man die Menge derjenigen Werte y ∈ R, für die es (mindestens) ein ~x gibt mit y = f (~x). Beispiel 6.2: 1 Quelle: J. T IETZE . Einführung in die angewandte Wirtschaftsmathematik, 14. Auflage. 6 Von der bisher verwendeten Bezeichnungsweise: f (x1 , x2 , . . . , xn ) für eine Funktion von n reellen Variablen wird häufig abgewichen, wenn n = 2 oder n = 3 gilt. Schreibweise für Funktionen von zwei oder drei reellen Variablen (n = 2 oder n = 3) Für Funktionen mit zwei unabhängigen Variablen wird anstelle von y = f (x1 , x2 ) häufig z = f (x, y) geschrieben. Für Funktionen mit drei unabhängigen Variablen ist anstatt von y = f (x1 , x2 , x3 ) auch die Schreibweise u = f (x, y, z) üblich. Im weiteren sollen verschiedene Möglichkeiten zur Darstellung von Funktionen zweier reeller Variabler aufgezeigt werden. Darstellungsformen von Funktionen zweier unabhängiger Variabler: 1) Funktionsgleichung Bei der Darstellung in Form einer Funktionsgleichung (siehe dazu Definition 6.1) wird noch die folgende Unterscheidung getroffen: explizite Darstellung (d.h. aufgelöst nach z): z = f (x, y), z.B.: z = 2x + y − 4 oder z = x2 − y 2 implizite Darstellung: F (x, y, z) = 0, z.B.: x2 + y 2 + z 2 − 1 = 0 oder 6x + y − z + 5 = 0 2) Funktionstabelle (Wertetabelle) Die Wertetabelle einer Funktion von zwei Variablen hat die Gestalt einer Matrix, da jeweils Paare (x, y) gebildet werden und dann der entsprechende Funktionswert zugeordnet wird. Als Beispiel wird die Wertetabelle der Funktion z = 2x + y − 4 für x = 0, 1, 2 und y = 0, 1, 2 angegeben. y 0 1 2 -4 -2 0 -3 -1 1 -2 0 2 x 0 1 2 3) Darstellung als Fläche im Raum R3 Während die Veranschaulichung von Funktionen einer reellen Variablen in einem ebenen kartesischen Koordinatensystem erfolgt, muss zur grafischen Darstellung von Funktionen zweier reeller Variabler ein räumliches kartesisches Koordinatensystem verwendet werden. Der Funktionswert z besitzt dann die Bedeutung einer Höhenkoordinate, und das Bild der Funktion ist eine Fläche im Raum R3 . Beispiel 6.3: a) Der linearen Funktion ax+by+cz +d = 0 (a, b, c, d ∈ R) entspricht im räumlichen Koordinatensystem eine Ebene. b) Grafische Darstellung der Funktion z = f (x, y) = −16xy(1 − x)(1 − y) für 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 f (x, y) y 7 x c) Grafische Darstellung der Funktion z = f (x, y) = x0.25 · y 0.75 für 1 ≤ x ≤ 10, 1 ≤ y ≤ 10 f (x, y) y x Funktionen vom Typ f (x, y) = xα · y β (oder mit anderen Bezeichnungen der Variablen) werden z.B. in der Produktionstheorie angewendet. Ein bekanntes Beispiel ist die Cobb-Douglas-Funktion: P = f (A, K) = c · Aα · K β mit geeigneten positiven Parametern c, α und β (meistens gilt: α + β = 1). Mit P wird das Produktionsergebnis (Output) bezeichnet, A bzw. K sind die Arbeitskräfte bzw. das für Produktionsmittel aufgewendete Kapital (Input). 4) Veranschaulichung mit Hilfe von Niveaulinien Die Menge der Punkte in der (x, y)-Ebene, an denen eine Funktion f (x, y) einen konstanten Wert f (x, y) = c hat, heißt Niveaulinie von f . Eine Niveaulinie entsteht als Projektion der Schnittkurve der Ebene z = c mit der Fläche z = f (x, y) in die (x, y)-Ebene. Beispiel 6.4: Durch Rotation der Normalparabel z = x2 um die z-Achse entsteht ein Rotationsparaboloid (siehe Bild 6.1a)). Die Mantelfläche dieses Rotationsparaboloids hat die Funktionsgleichung z = f (x, y) = x2 + y 2 . Die Niveaulinien dieses Rotationsparaboloids sind: z = f (x, y) = const. = c , d.h. x2 + y 2 = c . √ ⇒ Für jeden positiven Wert des Parameters c erhält man als Niveaulinie einen Kreis mit dem Radius c um den Koordinatenursprung. Bild 6.1b) zeigt einige Niveaulinien der Funktion z = f (x, y) = x2 + y 2 . y6 z 6 q Niveaulinien für z = 1, z = 2, z = 3, z = 4, z = 5 z = x2 + y 2 q H H x H Schnittkurve der Ebene z = c mit der Fläche z = x2 + y 2 x ) y Bild 6.1a) Bild 6.1b) Bemerkung: Bei einer Funktion, die von 3 Variablen abhängt, sind durch die Gleichung f (x, y, z) = const. = c die Niveauflächen gegeben. 8 6.2 Partielle Ableitungen 6.2.1 Grenzwert, Stetigkeit, partielle Ableitungen 1. Ordnung Zunächst werden die Begriffe Grenzwert“ und Stetigkeit“ für Funktionen mehrerer reeller Variabler formuliert. ” ” Dabei werden Funktionen von zwei reellen Variablen betrachtet, d.h. z = f (x, y). Die Aussagen lassen sich sinngemäß auf Funktionen von n Variablen (n ≥ 3) übertragen. Bei der Untersuchung von Grenzwerten von einer Funktion einer reellen Variablen2 (d.h. y = f (x)) wurde das Verhalten der Funktionswerte bei Annäherung an eine Stelle x0 des Definitionsbereiches von f (x) untersucht. Jetzt muss das Verhalten der Funktionswerte bei Annäherung an eine Stelle (x0 , y0 ) ∈ Df für z = f (x, y) betrachtet werden. Es gilt: limn→∞ (xn , yn ) = (x0 , y0 ), wenn zugleich die Zahlenfolge {xn } gegen x0 und die Zahlenfolge {yn } gegen y0 strebt. Dabei ist es nicht von Bedeutung, welche Folgen {(xn , yn )} das Variablenpaar durchläuft (anschaulich: eine Folge von Punkten mit den Koordinaten (xn , yn ) in der (x, y)-Ebene kann sich entlang verschiedener Kurven dem Punkt (x0 , y0 ) nähern). Damit kann der Begriff des Grenzwertes für eine Funktion zweier reeller Variabler eingeführt werden. Definition 6.2: Eine Funktion z = f (x, y) sei in einer Umgebung der Stelle (x0 , y0 ) definiert. Gilt dann für jede Folge {(xn , yn )}, (xn , yn ) ∈ Df , mit limn→∞ (xn , yn ) = (x0 , y0 ) : lim f (xn , yn ) = g , n→∞ dann heißt g der Grenzwert von f an der Stelle (x0 , y0 ). Schreibweise: lim(x,y)→(x0 ,y0 ) f (x, y) = g Mit Hilfe des Grenzwertbegriffes kann nun auch die Stetigkeit einer Funktion zweier reeller Variabler definiert werden. Definition 6.3: Eine in (x0 , y0 ) und in einer gewissen Umgebung von (x0 , y0 ) definierte Funktion z = f (x, y) ist an der Stelle (x0 , y0 ) stetig, wenn der Grenzwert lim(x,y)→(x0 ,y0 ) f (x, y) existiert und lim(x,y)→(x0 ,y0 ) f (x, y) = f (x0 , y0 ) gilt. Eine Funktion, die an jeder Stelle ihres Definititionsbereiches stetig ist, wird als stetige Funktion bezeichnet. Beispiel 6.5: Die bereits im Beispiel 6.4 betrachtete Funktion z = f (x, y) = x2 + y 2 ist eine stetige Funktion. Beispiel 6.6: (Beispiel für eine Funktion, die an einer Stelle unstetig ist) 4xy für (x, y) 6= (0, 0) x2 + y 2 Sei f (x, y) = 0 für (x, y) = (0, 0) . Diese Funktion ist in (0, 0) zwar definiert, aber nicht stetig, da sie dort keinen Grenzwert hat. Um diese Aussage zu begründen, wird die Funktion f (x, y) zunächst längs der x-Achse (d.h. für y = 0) betrachtet. Dort gilt: f (x, 0) = f (x, y) 4·x·0 = 0 für x 6= 0 ⇒ lim f (x, 0) = 0 . x→0 x2 + 0 2 Längs der Geraden x = y gilt jedoch: x 4·x·x f (x, x) = 2 = 2 für x 6= 0 ⇒ lim f (x, x) = 2 . x→0 x + x2 2 siehe Abschnitt 3.3.1 im Skript Teil 1 9 y Nun soll der Begriff der Ableitung auf Funktionen mehrerer reeller Variabler übertragen werden. Dies führt zur Definition der partiellen Ableitung. Definition 6.4: Unter den partiellen Ableitungen 1. Ordnung einer Funktion z = f (x, y) an der Stelle (x0 , y0 ) versteht man die folgenden Grenzwerte (falls sie existieren): ∂f f (x0 + ∆x, y0 ) − f (x0 , y0 ) (x0 , y0 ) = fx (x0 , y0 ) = lim ∆x→0 ∂x ∆x (85) (partielle Ableitung 1. Ordnung nach x) ∂f f (x0 , y0 + ∆y) − f (x0 , y0 ) (x0 , y0 ) = fy (x0 , y0 ) = lim ∆y→0 ∂y ∆y (86) (partielle Ableitung 1. Ordnung nach y). Es sei darauf hingewiesen, dass bei Funktionen von mehreren reellen Variablen für die Ableitungen niemals das Symbol d“, sondern immer das Symbol ∂ “ (wie in Definition 6.4) zu verwenden ist. ” ” Im Abschnitt 4.1.1 (siehe Skript Teil 1) wurde die erste Ableitung einer Funktion von einer reellen Variablen als Anstieg der Kurventangente in dem betreffenden Kurvenpunkt gedeutet. Auch die partiellen Ableitungen einer Funktion z = f (x, y) lassen eine geometrische Deutung zu. Die partielle Ableitung dieser Funktion nach der Variablen x (bzw. y) entspricht dem Anstieg der Flächentangente im Flächenpunkt P (x0 , y0 , z0 ) in der positiven x- (bzw. y-) Richtung. Berechnung der partiellen Ableitungen 1. Ordnung einer Funktion f (x, y) Berechnung der Ableitung ∂f : Die Variable y wird als Konstante betrachtet und dann werden die ∂x Ableitungsregeln für Funktionen einer reellen Variablen angewendet. Berechnung der Ableitung ∂f : Die Variable x wird als Konstante betrachtet und dann werden die ∂y Ableitungsregeln für Funktionen einer reellen Variablen angewendet. Beispiel 6.7: Völlig analog zu Definition 6.4 können die partiellen Ableitungen 1. Ordnung für eine Funktion von n reellen Variablen (d.h. für f (x1 , x2 , . . . , xn )) eingeführt werden. Bei der Berechnung der partiellen Ableitung fxi (i = 1, 2, . . . , n) werden alle Variablen außer xi als Konstante betrachtet, dann kommen wieder die Ableitungsregeln für Funktionen einer reellen Variablen zur Anwendung. Beispiel 6.8: Partielle Differenzierbarkeit Eine Funktion f (x1 , x2 , . . . , xn ) heißt partiell differenzierbar, wenn alle partiellen Ableitungen fxi (i = 1, 2, . . . , n) existieren. Ergänzung zu Beispiel 6.8: Die in diesem Beispiel betrachteten Funktionen sind partiell differenzierbar, da jeweils die partiellen Ableitungen nach allen Variablen existieren. 6.2.2 Partielle Ableitungen höherer Ordnung Falls die partiellen Ableitungen fxi einer Funktion f (x1 , x2 , . . . , xn ) nochmals differenzierbar sind, kann man partielle Ableitungen 2. Ordnung bilden (und, falls möglich, durch weitere Differentiation: partielle Ableitungen k-ter Ordnung, k ≥ 3). 10 Die partiellen Ableitungen 2. Ordnung einer Funktion f (x, y) ∂ ∂f ∂2f ∂ ∂f ∂2f = f = = fxx = yy ∂x2 ∂x ∂x ∂y 2 ∂y ∂y ∂2f ∂2f ∂ ∂f ∂ ∂f fxy = fyx = = = ∂x∂y ∂y ∂x ∂y∂x ∂x ∂y Für Funktionen f (x1 , x2 , . . . , xn ) gilt analog: fxi xj = ∂2f ∂ = ∂xi ∂xj ∂xj ∂f . ∂xi Beispiel 6.9: Bei der Bildung partieller Ableitungen 3. Ordnung gibt es für eine Funktion zweier Variabler bereits 23 = 8 Möglichkeiten. Aus diesem Grund wird nur ein Beispiel für eine partielle Ableitung 3. Ordnung aufgeführt: ∂3f ∂ fxxy = 2 = ∂x ∂y ∂y ∂2f ∂x2 Nun soll noch eine weitere wichtige Eigenschaft von partiellen Ableitungen höherer Ordnung behandelt werden. Die Ableitungen der im Beispiel 6.9 betrachteten Funktion besitzen offensichtlich die Eigenschaft: fxy = fyx . Dies ist kein Zufall, denn es gilt der folgende Satz. Satz von Schwarz (Vertauschbarkeit der Differentiationsreihenfolge) Bei partiellen Ableitungen k-ter Ordnung (k ≥ 2) darf die Reihenfolge der einzelnen Differentiationsschritte vertauscht werden, wenn die partiellen Ableitungen stetige Funktionen sind. Beispiel 6.10: Sei f (x, y) = x3 sin y + e2y cos x. 11 6.2.3 Differentiation nach einem Parameter (verallgemeinerte Kettenregel) Sei z = f (x, y) eine Funktion der beiden unabhängigen Variablen x und y, die wiederum von einem reellen Parameter abhängen: x = x(t), y = y(t) (t1 ≤ t ≤ t2 ). Durch Einsetzen dieser Parametergleichungen in die Funktionsgleichung z = f (x, y) entsteht eine zusammengesetzte (verkettete) Funktion des Parameters t: z = z(t) = f (x(t), y(t)) . (87) Die Berechnung der Ableitung dieser Funktion nach der Variablen t erfolgt mit Hilfe der verallgemeinerten Kettenregel. Verallgemeinerte Kettenregel Die Funktionen x(t) und y(t) seien stetig differenzierbar nach der Variablen t und die Funktion f (x, y) besitze stetige partielle Ableitungen nach den Variablen x und y. Dann ist die Funktion z aus (87) stetig differenzierbar nach t und ihre Ableitung ż = ż = dz dt wird wie folgt berechnet: dz ∂z dx ∂z dy = · + · = zx · ẋ + zy · ẏ dt ∂x dt ∂y dt (88) Es ist zu beachten, dass in der Formel (88) die Ableitungen von z nach x bzw. y als partielle Ableitungen geschrieben werden, die Ableitungen von x bzw. y nach t jedoch als gewöhnliche“ Ableitungen (da die Funk” tionen x und y jeweils nur von einer Variablen, nämlich t, abhängen). Die verallgemeinerte Kettenregel wird z.B. dann angewendet, wenn die Ableitung einer Funktion längs einer in Parameterdarstellung gegebenen Kurve zu berechnen ist. Beispiel 6.11: Bemerkung: Die Aussage von Formel (88) kann auf Funktionen von n reellen Variablen verallgemeinert werden. Die VariadF blen x1 , x2 , . . . , xn seien selbst wieder Funktionen des reellen Parameters t. Dann gilt für die Ableitung dt der Funktion F (t) = f (x1 (t), x2 (t), . . . , xn (t)): dF ∂f dx1 ∂f dx2 ∂f dxn = · + · + ... + · . dt ∂x1 dt ∂x2 dt ∂xn dt 6.3 6.3.1 Das totale Differential einer Funktion Definition und Anwendung in der Fehlerrechnung Definition 6.5: Unter dem totalen (oder vollständigen) Differential einer partiell differenzierbaren Funktion f (x1 , x2 , . . . , xn ) versteht man den Ausdruck df = ∂f ∂f ∂f dx1 + dx2 + . . . + dxn = fx1 dx1 + fx2 dx2 + . . . + fxn dxn . ∂x1 ∂x2 ∂xn (89) Mit Hilfe des totalen Differentials kann geschätzt werden, wie sich eine geringfügige Änderung der unabhängigen Variablen x1 , x2 , . . . , xn auf eine daraus abgeleitete Größe auswirkt. Seien ∆x1 , ∆x2 , . . . , ∆xn die (sehr kleinen) Änderungen der Argumente x1 , x2 , . . . , xn der Funktion f , dann kann ∆x1 = dx1 , ∆x2 = dx2 , . . . , ∆xn = dxn gewählt werden, und es gilt: ∆f ≈ df , wobei ∆f die Änderung des Funktionswertes von f bezeichnet. Beispiel 6.12: 12 Die soeben beschriebene Eigenschaft des totalen Differentials begründet dessen Anwendung in der Fehlerrechnung, da die geringfügigen Änderungen“ der Argumente x1 , x2 , . . . , xn auch Messfehler sein können. Es gilt ” die folgende Aussage: Lineares Fehlerfortpflanzungsgesetz Wird eine Größe y berechnet aus y = f (x1 , x2 , . . . , xn ) und sind die Eingangsgrößen x1 , x2 , . . . , xn mit den Fehlern ∆x1 , ∆x2 , . . . , ∆xn behaftet, so lässt sich der Fehler ∆y der abgeleiteten Größe y wie folgt schätzen: |∆y| ≤ |fx1 | · |∆x1 | + |fx2 | · |∆x2 | + . . . + |fxn | · |∆xn | . (90) Beispiel 6.13: Beispiel 6.14: Bemerkung: Mit Hilfe der Ungleichung (90) wird der maximale absolute Fehler berechnet (rechte Seite dieser Ungleichung). Es ist aber auch möglich, den mittleren absoluten Fehler zu ermitteln. Dieser sei mit ∆ym bezeichnet, dann gilt: p |∆ym | = (fx1 · ∆x1 )2 + . . . + (fxn · ∆xn )2 . 6.3.2 Implizite Differentiation Eine Funktionskurve sei in der impliziten Darstellung F (x, y) = 0 gegeben (vgl. Abschnitt 6.1). Unter den Voraussetzungen, dass in der Umgebung eines Punktes P (x, y) stetige partielle Ableitungen Fx und Fy existieren sowie Fy (x, y) 6= 0 gilt, kann die Ableitung y 0 in diesem Punkt nach der folgenden Formel berechnet werden: dy Fx (x, y) = y0 = − . dx Fy (x, y) (91) Begründung für die Formel (91): Unter den gegebenen Voraussetzungen beschreibt die implizite Darstellung F (x, y) = 0 in der Umgebung des betrachteten Punktes P (x, y) tatsächlich eine differenzierbare Funktion f : y = f (x). Die Funktionsgleichung F (x, y) = 0 wird nun als Sonderfall der Funktionsgleichung z = F (x, y) mit z = 0 betrachtet. Für das totale Differential dz gilt dann einerseits dz = 0 und andererseits (vgl. Formel (89)): dz = Fx (x, y)dx + Fy (x, y)dy. Nach Gleichsetzen und Umstellen ergibt sich die Beziehung (91). Die Bedeutung der Formel (91) liegt darin, dass die Differentiation einer Funktion auch dann möglich ist, wenn diese nicht in der expliziten Form y = f (x) darstellbar ist bzw. die Auflösung nach y sehr aufwändig wäre. So kann z.B. der Anstieg einer Kurventangente auch dann berechnet werden, wenn die Funktion nicht in der expliziten Darstellung vorliegt. Eine solche Situation wird in dem folgenden Beispiel betrachtet. Beispiel 6.15: y 6 - x 13 6.4 6.4.1 Extrema von Funktionen mehrerer Variabler Begriff des Extremums Definition 6.6: Eine Funktion f (x1 , x2 , . . . , xn ) besitzt an der Stelle (x∗1 , x∗2 , . . . , x∗n ) ein lokales Maximum (bzw. ein lokales Minimum), wenn in einer gewissen Umgebung dieser Stelle stets gilt: f (x∗1 , x∗2 , . . . , x∗n ) > f (x1 , x2 , . . . , xn ) (bzw. f (x∗1 , x∗2 , . . . , x∗n ) < f (x1 , x2 , . . . , xn )), (92) wobei (x1 , x2 , . . . , xn ) 6= (x∗1 , x∗2 , . . . , x∗n ). Wenn die Ungleichung (92) an jeder Stelle (x1 , x2 , . . . , xn ) des Definitionsbereiches Df erfüllt ist, dann liegt ein globales Maximum (bzw. ein globales Minimum) vor. Maxima und Minima werden unter dem Begriff Extrema“ zusammengefasst. ” Für eine Funktion zweier Variabler (d.h. z = f (x, y)), welche als Fläche im Raum R3 dargestellt werden kann, ist die folgende anschauliche Interpretation möglich: einem lokalen Maximum (bzw. Minimum) entspricht ein Punkt dieser Fläche, welcher höher“ (bzw. tiefer“) liegt als alle anderen in der Umgebung befindlichen Punkte ” ” der Fläche. Beispielsweise besitzt die im Bild 6.1a) (siehe Abschnitt 6.1) dargestellte Funktion z = x2 + y 2 an der Stelle (0, 0) ein lokales Minimum mit dem Funktionswert z = 0. Die Überlegung, dass x2 + y 2 ≥ 0 für alle (x, y) ∈ R2 gilt und insbesondere x2 + y 2 = 0 nur für x = y = 0 möglich ist, führt zu der Aussage, dass an der Stelle (0, 0) sogar ein globales Minimum der betrachteten Funktion vorhanden ist. Allgemeine Verfahren zur Berechnung lokaler Extrema werden in den nachfolgenden Abschnitten erläutert. Dabei werden ausschließlich Funktionen zweier Variabler, d.h. z = f (x, y), betrachtet. 6.4.2 Extrema ohne Nebenbedingungen Wie auch bei Funktionen einer reellen Variablen (siehe Abschnitt 4.2.2 im Skript Teil 1) werden notwendige und hinreichende Bedingungen für das Vorhandensein lokaler Extrema bei Funktionen mehrerer reeller Variabler formuliert. Notwendige Bedingungen für das Vorliegen eines lokalen Extremums Die notwendigen Bedingungen für das Vorliegen eines lokalen Extremums einer partiell differenzierbaren Funktion f (x, y) an der Stelle (x∗ , y ∗ ) lauten: fx (x∗ , y ∗ ) = 0 und fy (x∗ , y ∗ ) = 0 . (93) Eine Stelle, für die die Bedingungen (93) erfüllt sind, wird als stationäre Stelle bezeichnet. Die Bedingungen (93) können wie folgt anschaulich interpretiert werden: ein lokales Extremum einer Funktion zweier Variabler kann nur dort vorliegen, wo die Tangentialebene3 an die Fläche z = f (x, y) parallel zur (x, y)Ebene verläuft. Die genannten Bedingungen sind jedoch nicht hinreichend, wie das folgende Beispiel zeigt. Beispiel 6.16: Für die Funktion z = f (x, y) = x2 − y 2 (siehe Bild 6.2) gilt zwar: fx (0, 0) = fy (0, 0) = 0, aber an der Stelle (0, 0) liegt kein lokales Extremum vor. Begründung: Es werden die Werte der Funktion f in der Umgebung der Stelle (0, 0) betrachtet, und zwar speziell: f (0, y) (d.h. x = 0 fest, y 6= 0 variabel). Es gilt: f (0, y) = 02 − y 2 = −y 2 < 0 ⇒ wegen f (0, 0) = 0 kann an der Stelle (0, 0) kein lokales Minimum vorliegen. Andererseits ist f (x, 0) = x2 − 02 = x2 > 0 ⇒ an der Stelle (0, 0) kann somit auch kein lokales Maximum vorliegen. An der Stelle (0, 0) liegt eine Sattelstelle vor. Die Fläche z = x2 − y 2 besitzt die Form eines Sattels und Bild 6.2 wird daher auch als Sattelfläche bezeichnet. 3 Die Tangentialebene an die Fläche z = f (x, y) im Punkt P0 (x0 , y0 , f (x0 , y0 )) berührt diese Fläche in P0 und enthält alle Tangenten, die in P0 an diese Fläche gelegt werden können. 14 Zur Formulierung hinreichender Bedingungen für das Vorliegen eines lokalen Extremums wird noch die HesseMatrix der Funktion f benötigt. Diese wird aus den partiellen Ableitungen 2. Ordnung gebildet. Definition 6.7: Unter der Voraussetzung, dass die partiellen Ableitungen zweiter Ordnung der Funktion f (x, y) existieren, lautet die Hesse-Matrix Hf (x, y) dieser Funktion: fxx (x, y) fxy (x, y) Hf (x, y) = . fyx (x, y) fyy (x, y) Hinreichende Bedingungen für das Vorliegen eines lokalen Extremums Die hinreichenden Bedingungen für das Vorliegen eines lokalen Extremums der Funktion f (x, y) an der Stelle (x∗ , y ∗ ) lauten: (I) Die Bedingung (93) ist erfüllt, d.h. (x∗ , y ∗ ) ist eine stationäre Stelle. (II) Die Determinante der Hesse-Matrix Hf (x, y) hat an der Stelle (x∗ , y ∗ ) einen positiven Wert, d.h. es gilt: ∆ = det Hf (x∗ , y ∗ ) > 0. Die Entscheidung, ob es sich um ein lokales Maximum oder ein lokales Minimum handelt, kann mit Hilfe der Ableitung fxx an der Stelle (x∗ , y ∗ ) getroffen werden. Es gilt die folgende Aussage: Entscheidung über die Art des lokalen Extremums Die hinreichenden Bedingungen für ein lokales Extremum der Funktion f (x, y) seien an einer Stelle (x∗ , y ∗ ) erfüllt. Gilt dann: fxx (x∗ , y ∗ ) < 0 , so liegt in (x∗ , y ∗ ) ein lokales Maximum vor. In dem Fall fxx (x∗ , y ∗ ) > 0 liegt in (x∗ , y ∗ ) ein lokales Minimum vor. Wenn an einer Stelle (x∗ , y ∗ ) nur die o.g. Bedingung (I) erfüllt ist, aber ∆ < 0 gilt, dann handelt es sich um eine Sattelstelle. Dies bedeutet, dass die betrachtete Funktion an dieser Stelle einen Sattelpunkt besitzt. Wenn an einer Stelle (x∗ , y ∗ ) die o.g. Bedingung (I) erfüllt ist sowie ∆ = 0 gilt, kann noch keine Entscheidung bzgl. des Vorhandenseins eines lokalen Extremums getroffen werden. Auf diesen Fall wird hier nicht näher eingegangen. Bei der Berechnung lokaler Extrema ist zu beachten, dass das Aufstellen der Bedingung (93) häufig auf ein nichtlineares Gleichungssystem mit den beiden Variablen x und y führt, dessen Auflösung sich möglicherweise schwierig gestaltet (ggf. kann der solve-Befehl des Taschenrechners genutzt werden). Beispiel 6.17: a) Das Vorhandensein eines lokalen Minimums der Funktion z = f (x, y) = x2 + y 2 an der Stelle (0, 0) wurde im Abschnitt 6.4.1 anschaulich begründet. Nun soll diese Funktion rechnerisch auf lokale Extrema und Sattelpunkte untersucht werden. Überprüfung der Bedingung (I): wegen fx = 2x und fy = 2y liegt genau eine stationäre Stelle vor, nämlich (x∗ , y ∗ ) = (0, 0). Überprüfung der Bedingung (II): die noch benötigten Ableitungen lauten: fxx = 2, fxy = fyx = 0 sowie fyy = 2. Damit lautet die Hesse-Matrix: Hf (x, y) = 2 0 0 2 . (In diesem speziellen Fall besitzt Hf für alle (x, y) ∈ R2 den gleichen Wert!) Somit gilt ∆ = det Hf (0, 0) = 4 > 0, d.h. in (0, 0) liegt tatsächlich ein lokales Extremum vor. Wegen fxx = 2 > 0 handelt es sich um ein lokales Minimum, der zugehörige Funktionswert ist f (0, 0) = 02 + 02 = 0. Aus den obigen Überlegungen folgt weiterhin, dass die betrachtete Funktion kein lokales Maximum und keinen Sattelpunkt besitzt. b) Berechnung der lokalen Extrema der Funktion z = f (x, y) = 3xy − x3 − y 3 15 6.4.3 Extrema mit Nebenbedingungen Bei den bisherigen Betrachtungen wurden die lokalen Extrema im gesamten Definitionsbereich der Funktion gesucht, d.h. die unabhängigen Variablen x und y unterlagen keinen zusätzlichen Einschränkungen (Nebenbedingungen). Die Modellierung von Praxisproblemen führt jedoch häufig auf Funktionen, bei denen die unabhängigen Variablen durch eine Neben- oder Kopplungsbedingung miteinander verbunden sind, d.h. zusätzlich zur Funktionsgleichung liegt eine weitere Gleichung vor. Bei der Lösung derartiger Problemstellungen sind zwei verschiedene Herangehensweisen möglich: die Eliminationsmethode (siehe Abschnitt 6.4.3.1) und die Lagrange-Methode (siehe Abschnitt 6.4.3.2). 6.4.3.1 Die Eliminationsmethode Bei der Eliminationsmethode wird - wie der Name schon vermuten lässt - eine der vorkommenden Variablen aus der Funktion beseitigt“. Dies geschieht, indem die gegebene Nebenbedingung (NB) nach einer Variablen ” aufgelöst wird. Anschließend wird diese Variable in der Funktion, deren Extrema gesucht sind, ersetzt (d.h. die Anzahl der Variablen wird um 1 verringert). Die Durchführung dieser Methode wird anhand der beiden nachfolgenden Beispiele verdeutlicht. Beispiel 6.18: In diesem Beispiel konnte die Berechnung eines Extremums einer Funktion mit zwei Variablen auf Grund der zu erfüllenden NB auf die Ermittlung eines Extremums einer Funktion mit einer Variablen (vgl. auch Abschnitt 4.2.2 im Skript Teil 1) zurückgeführt werden. In dem nun folgenden Beispiel ist ein Extremum einer Funktion mit drei Variablen unter einer NB gesucht. Die Elimination einer dieser Variablen führt auf die Bestimmung eines Extremums einer Funktion mit zwei Variablen (vgl. Abschnitt 6.4.2). Beispiel 6.19: Bei der Herstellung quaderförmiger, nach oben offener Behälter mit einem Fassungsvermögen von V = 4 l soll möglichst wenig Material verbraucht werden, d.h. die Oberfläche AO eines Quaders ohne Deckfläche bei fest vorgegebenem Volumen ist zu minimieren. z x 16 y 6.4.3.2 Die Lagrange-Methode (Lagrangesche Multiplikatorenmethode) Die Lagrange-Methode kommt zur Anwendung, wenn die Eliminationsmethode nicht durchführbar ist, d.h. wenn - die Auflösung der NB nach einer Variablen nicht möglich oder zu aufwändig ist oder - die Elimination einer Variablen zu einer sehr komplizierten Funktion führt. Das Grundprinzip der Lagrange-Methode besteht in der Einführung einer zusätzlichen Variablen λ, Lagrangescher Multiplikator genannt. Diese wird in eine Hilfsfunktion eingebracht, deren Extrema bestimmt werden. Durchführung der Lagrange-Methode Gegeben sei die Funktion z = f (x, y). Zu ermitteln sind die Extrema dieser Funktion unter der NB: ϕ(x, y) = 0. Dazu wird wie folgt vorgegangen: 1) Einführung der Hilfsvariablen λ (Lagrangescher Multiplikator) und Aufstellen der Hilfsfunktion F (x, y, λ) = f (x, y) + λϕ(x, y) 2) Berechnung der Koordinaten (x, y) der extremwertverdächtigen Stellen aus dem (i.allg. nichtlinearen) Gleichungssystem Fx (x, y, λ) = fx (x, y) + λϕx (x, y) = 0 Fy (x, y, λ) = fy (x, y) + λϕy (x, y) = 0 Fλ (x, y, λ) = (94) ϕ(x, y) = 0 Um dann zu entscheiden, ob tatsächlich ein Extremum vorliegt (und um ggf. die Art des Extremums festzustellen), kommen die folgenden Möglichkeiten in Frage: - In manchen Fällen kann aus der Problemstellung heraus entschieden werden, ob ein Extremum vorliegt. - Die Frage, ob es sich um ein Minimum oder um ein Maximum handelt, kann ggf. anschaulich mit Hilfe eines Niveauliniendiagramms (siehe Abschnitt 6.1) geklärt werden. - Wenn gilt: Fxx ϕ2y − 2Fxy ϕx ϕy + Fyy ϕ2x < 0 , dann liegt ein Maximum vor. In dem Fall Fxx ϕ2y − 2Fxy ϕx ϕy + Fyy ϕ2x > 0 liegt ein Minimum vor. 17 Beispiel 6.20: Beispiel 6.21: Berechnung der maximalen Beleuchtungsstärke4 Ein fester Punkt A einer ebenen Bühne wird durch eine punktförmige, in der Höhe h verstellbare Lichtquelle mit der konstanten Lichtstärke I0 beleuchtet. Die im Punkt A erzeugte Beleuchtungsstärke B genügt dem Lambertschen Gesetz: h x Lichtquelle Q Q α Q Q Q Q Q I0 cos α B = B(α, r) = r2 Q r Q Q Q a (fest) (α: Einfallswinkel des Lichtes, r: Abstand zwischen Lichtquelle und Punkt A). Q Q A Qt 0 Bühne Bild 6.3 Die Fragestellung lautet: Unter welchem Winkel α wird der Punkt A maximal beleuchtet? Zur Beantwortung dieser Frage wird der Sachverhalt wie folgt mathematisch formuliert: Gesucht ist das Maximum der Funktion B(α, r) unter der Nebenbedingung ϕ(α, r) = r sin α − a = 0 a (Beziehungen im rechtwinkligen Dreieck: sin α = , siehe Bild 6.3). r Bei Anwendung der Lagrange-Methode wird zunächst die Hilfsfunktion F (r, α, λ) gebildet: F (r, α, λ) = B(α, r) + λ · ϕ(α, r) = I0 cos α + λ · (r sin α − a) . r2 Analog zu (94) wird das Gleichungssystem aufgestellt: 2I0 cos α + λ sin α = 0 r3 I0 sin α Fα = − + λr cos α = 0 r2 Fλ = r sin α − a = 0 Fr = − (I) (II) (III) Die Gleichungen (I) und (II) werden jeweils nach λ umgestellt und gleichgesetzt: I0 sin α 2I0 cos α = 3 ⇒ 2 cos2 α = sin2 α ⇒ 2 = tan2 α . r3 sin α r cos α √ Die letztgenannte Gleichung hat die beiden Lösungen α1 = arctan( 2) = 0.955 √ und α2 = arctan(− 2) = −0.955 , wobei α2 (wegen α2 < 0) sofort entfällt. Nach Umwandlung von α1 in das Gradmaß erhält man: α1 = 54.74◦ . Für α1 kann gezeigt werden, dass tatsächlich ein Maximum der Funktion B(α, r) vorliegt. ⇒ Ergebnis: Bei einem Winkel von α = 54.74◦ wird der Punkt A maximal beleuchtet, die Beleuchtungsstärke beträgt in diesem Fall Bmax = 4 0.385I0 a2 . Quelle: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 2, 12. Auflage (2009), S. 257-258 18 Bemerkungen: - Der Wert der Hilfsvariablen λ wird für die Berechnung der Extrema selbst nicht benötigt. Aus diesem Grund kann es sinnvoll sein, diese Variable bei der Auflösung des Gleichungssystems (94) zu eliminieren (wie im Beispiel 6.21). - Bei Berechnungen mit betriebswirtschaftlichem Hintergrund kann mit Hilfe des Lagrangeschen Multiplikators λ näherungsweise beschrieben werden, wie sich Änderungen der Nebenbedingungen auf den Extremwert auswirken (für detailliertere Informationen sei auf die folgende Literaturstelle verwiesen: B. L UDERER , U. W ÜRKER . Einstieg in die Wirtschaftsmathematik, 6. Auflage, S. 370-372). - Die Lagrange-Methode ist sinngemäß auch anwendbar für Funktionen von n Variablen x1 , x2 , . . . , xn mit m Nebenbedingungen ϕi (x1 , x2 , . . . , xn ) = 0, i = 1, 2, . . . , m, wobei m < n. Dann müssen insgesamt m Hilfsvariable λ1 , λ2 , . . . , λm eingeführt werden. Analog zu (94) sind dann die Ableitungen der Hilfsfunktion F (x1 , x2 , . . . , xn , λ1 , λ2 , . . . , λm ) nach sämtlichen Variablen, von denen sie abhängt, zu bilden und gleich Null zusetzen. 6.5 Ausgleichsrechnung In der Praxis tritt häufig die folgende Problemstellung auf: mit n verschiedenen Eingangsdaten xi (i = 1, 2, . . . , n) wird ein Versuch durchgeführt, wodurch die Versuchsergebnisse yi (i = 1, 2, . . . , n) entstehen. Gesucht ist der funktionale Zusammenhang y = f (x) zwischen den Größen x und y, d.h. eine Funktion f ist so zu bestimmen, dass die Versuchsergebnisse möglichst gut wiedergegeben werden. Ein solches Experiment könnte z.B. die Messung der Längenänderung eines Stabes in Abhängigkeit von der Temperatur sein. Nur selten wird die Situation eintreten, dass alle n Punkte mit den Koordinaten (xi , yi ) (i = 1, 2, . . . , n) exakt auf einer Funktionskurve im ebenen kartesischen Koordinatensystem liegen5 . Aus diesem Grund bedient man sich zur Lösung der beschriebenen Problemstellung der Ausgleichsrechnung. Ein klassisches Verfahren der Ausgleichsrechnung ist die Methode des Gaußschen Fehlerquadratminimums. Diese Methode wird im folgenden beschrieben am Beispiel des Ausgleichs durch eine Gerade. Gegeben seien n Punkte mit den kartesischen Koordinaten (xi , yi ), i = 1, 2, . . . , n, mit n ≥ 3 sowie xi 6= xj für i 6= j. Nun soll eine Gerade y = f (x) = a1 x + a0 so in diese Punktmenge eingepasst werden, dass der Trend“ in der Anordnung der Punkte möglichst gut wiedergegeben wird (siehe Bild 6.4a)). Diese Gerade wird ” als Ausgleichsgerade bezeichnet. Als Kriterium für die Güte dieser Ausgleichsgeraden dient die Summe aller Fehlerquadrate d2i (i = 1, 2, . . . , n) mit d2i = [f (xi ) − yi ]2 (zur Veranschaulichung siehe Bild 6.4b)), d.h. die unbekannten Größen a1 und a0 sind so zu bestimmen, dass diese Summe minimal wird. Für die Summe S der Fehlerquadrate gilt: S = S(a1 , a0 ) = n X d2i = i=1 n X [f (xi ) − yi ]2 = i=1 n X [a1 xi + a0 − yi ]2 . (95) i=1 In die Berechnung von S gehen die Werte a1 , a0 , xi und yi (i = 1, 2, . . . , n ) ein, wobei xi und yi jeweils aus dem Versuch bekannt sind. Lediglich die Werte von a1 und a0 sind bislang unbekannt, d.h. S ist eine Funktion nur von diesen beiden Variablen. y 6 y 6 r r f (x) = a1 x + a0 r r r r r r r r r yi f (xi ) x 0 f (x) = a1 x + a0 r 0 Bild 6.4a) xi x Bild 6.4b) 5 Wenn z.B. zwischen zwei physikalischen Größen ein linearer Zusammenhang besteht, dann wird die grafische Darstellung der Versuchsdaten in der Regel nur annähernd eine Gerade ergeben. 19 Die notwendigen Bedingungen für das Vorhandensein eines Extremums der Funktion S(a1 , a0 ) sind (vgl. Abschnitt 6.4.2): ∂S ∂a1 = 0 sowie ∂S ∂a0 = 0. Unter Einbeziehung von (95) erhält man: n X ∂S =2 [a1 xi + a0 − yi ] · xi = 0 ∂a1 ⇒ a1 n X i=1 i=1 n n X X ∂S =2 [a1 xi + a0 − yi ] ∂a0 =0 i=1 ⇒ a1 i=1 x2i + a0 n X xi = i=1 xi + a0 n n X xi yi i=1 = n X (96) yi , i=1 d.h. es ist ein lineares Gleichungssystem zur Berechnung von a1 und a0 entstanden. In Matrizenschreibweise lautet dieses lineare Gleichungssystem: P P n n n P x2i xi x i yi a1 i=1 i=1 i=1 . = n n P a0 P xi n yi i=1 (97) i=1 Zur Lösung von (97) kann z.B. die Cramersche Regel (siehe Abschnitt 2.12.3 im Skript Teil 1) oder der rrefBefehl des Taschenrechners verwendet werden. Berechnung einer Ausgleichsgeradena Gegeben seien n Punkte mit den Koordinaten (xi , yi ), i = 1, 2, . . . , n, wobei n ≥ 3 sowie xi 6= xj für i 6= j gilt. Die Werte von a1 und a0 für die Ausgleichsgerade y = f (x) = a1 x + a0 werden als Lösung des linearen Gleichungssystems (96) bzw. (97) berechnet. Unter den genannten Voraussetzungen ist das lineare Gleichungssystem stets eindeutig lösbar. a Anstelle des Begriffs Ausgleichsgerade“ sind auch die Begriffe Regressionsgerade“ oder empirische Ausgleichsgerade“ ” ” ” gebräuchlich. Zudem kann nachgewiesen werden, dass für die aus (96) bzw. (97) berechneten Werte von a1 und a0 tatsächlich ein Minimum der Funktion S(a1 , a0 ) (siehe (95)) vorliegt. Beispiel 6.22: Der Widerstand eines metallischen Leiters in Abhängigkeit von der Temperatur T wird durch die folgende Gleichung beschrieben: RT = R0 + R0 · β · T (RT : Widerstand bei der Temperatur T , R0 : Widerstand bei der Temperatur 0◦ C, β: Temperaturkoeffizient). Um eine Berechnung der unbekannten Größen R0 und β vornehmen zu können, wurden die folgenden Messwerte aufgenommen: T [◦ C] 20 40 60 80 RT [Ω] 1.66 1.76 1.86 2.00 Gesucht ist die zugehörige Ausgleichsgerade. 20 Es ist nicht in jedem Fall sinnvoll, nach einem linearen Zusammenhang zwischen den Größen x und y zu suchen (nach Einzeichnen der Punkte mit den Koordinaten (xi , yi ), i = 1, . . . , n, in ein ebenes Koordinatensystem könnte anhand der Lage dieser Punkte z.B. auch ein quadratischer Zusammenhang zwischen x und y vermutet werden). Allgemein gilt: Wenn anstelle der Ausgleichsgeraden ein Ausgleichspolynom m-ten Grades (m ≥ 2) berechnet werden soll, ist ein Ansatz der Form y = f (x) = am xm + am−1 xm−1 + . . . + a1 x + a0 mit unbekannten Koeffizienten am , . . . , a0 zu wählen. Die weiteren Arbeitsschritte verlaufen ähnlich wie bei der Berechnung der Ausgleichsgeraden: Zunächst muss eine zu (95) analoge Beziehung, jetzt mit S = S(a0 , . . . , am ), aufgestellt werden. Dann sind die notwendigen Bedingungen für ein Minimum dieser Funktion zu formulieren, was auf ein lineares Gleichungssystem zur Berechnung der m Unbekannten a0 , . . . , am führt. Für detailliertere Ausführungen zur Berechnung von Ausgleichspolynomen vom Grad m = 2 (Ausgleichsparabeln) sei auf die folgende Literaturstelle verwiesen: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 5. Auflage, S. 710-714. 6.6 Weitere räumliche Koordinatensysteme Für die Darstellung von Funktionen zweier unabhängiger Variabler (siehe Abschnitt 6.1) wurde bisher stets ein räumliches kartesisches Koordinatensystem verwendet. Besitzt die zu beschreibende Funktion bzw. Punktmenge gewisse Symmetrieeigenschaften, kann eine Darstellung mittels krummliniger Koordinaten (Zylinderkoordinaten oder Kugelkoordinaten) vorteilhaft sein. 1) Zylinderkoordinaten Wenn eine rotationssymmetrische Punktmenge (z.B. ein gerader Kreiszylinder) dargestellt werden soll, empfiehlt sich der Übergang zu Zylinderkoordinaten. Der Zusammenhang zwischen kartesischen Koordinaten (x, y, z) und Zylinderkoordinaten (r, ϕ, z) ist gegeben durch: x = r · cos ϕ , y = r · sin ϕ , z = z (r ≥ 0, 0 ≤ ϕ < 2π). (98) Die Koordinaten r und ϕ können wie folgt anschaulich interpretiert werden (siehe dazu auch Bild 6.5a)): Durch orthogonale Projektion der Strecke OP auf die (x, y)-Ebene entsteht die Strecke OP 0 . Dann bezeichnet r die Länge der Strecke OP 0 (d.h. den Abstand des Punktes P 0 vom Koordinatenursprung) und ϕ den (mathematisch positiv orientierten) Winkel zwischen der x-Achse und der Strecke OP 0 . z 6 z 6 r P (x, y, z) z O ϕ 6 r r P (x, y, z) r ϑ j *y r P 0 (x, y, 0) O *y r P 0 (x, y, 0) ϕ 6 j x j x Bild 6.5a) Bild 6.5b) Beispiel 6.23: 21 2) Kugelkoordinaten Der Übergang zu Kugelkoordinaten ist z.B. dann zweckmäßig, wenn die betrachtete Punktmenge eine Kugel oder ein Kugelausschnitt ist. Der Zusammenhang zwischen kartesischen Koordinaten (x, y, z) und Kugelkoordinaten (r, ϕ, ϑ) wird durch die folgenden Gleichungen beschrieben: x = r · cos ϕ · sin ϑ , y = r · sin ϕ · sin ϑ , z = r · cos ϑ (r ≥ 0, 0 ≤ ϕ < 2π, 0 ≤ ϑ ≤ π). (99) Die Koordinaten r, ϕ und ϑ können wie folgt anschaulich interpretiert werden (siehe dazu auch Bild 6.5b)): Sei OP 0 wiederum die Strecke, welche durch orthogonale Projektion der Strecke OP auf die (x, y)-Ebene entsteht . Dann bezeichnet r die Länge der Strecke OP (d.h. den Abstand des Punktes P vom Koordinatenursprung) und ϕ den (mathematisch positiv orientierten) Winkel zwischen der x-Achse und der Strecke OP 0 . Der Winkel zwischen der z-Achse und der Strecke OP heißt ϑ. Beispiel 6.24: 22 7 Grundlagen der Wahrscheinlichkeitsrechnung 7.1 Hilfsmittel aus der Kombinatorik Definition 7.1: Als Permutationen von n Elementen ohne Wiederholung bezeichnet man Anordnungen dieser n verschiedenen Elemente, die sich nur durch die Reihenfolge dieser Elemente unterscheiden. Eine Permutation von n Elementen mit Wiederholung liegt vor, wenn nicht alle n Elemente voneinander verschieden sind. Für die Berechnung der Permutationen (d.h. die Anzahl der möglichen Anordnungen) gelten die folgenden Formeln. Permutationen von n Elementen ohne Wiederholung: P (n) = n · (n − 1) · (n − 2) · . . . · 1 = n! Permutationen von n Elementen, unter denen sich jeweils n1 , n2 , . . . , nk einander gleiche befinden: P (n; n1 , n2 , . . . , nk ) = n! n1 ! · n2 ! · . . . · nk ! mit n1 + n2 + . . . nk = n Beispiel 7.1: Definition 7.2: Unter Variationen von n Elementen zur k-ten Klasse ohne Wiederholung versteht man Teilmengen von je k Elementen, die unter Berücksichtigung der Anordnung aus n gegebenen Elementen ausgewählt werden (1 ≤ k ≤ n). Eine Variation von n Elementen zur k-ten Klasse mit Wiederholung liegt vor, wenn die ausgewählten Elemente mehrfach auftreten dürfen. Variationen von n Elementen zur k-ten Klasse ohne Wiederholung: V (n; k) = n · (n − 1) · . . . · (n − (k − 1)) = mit Wiederholung: VW (n; k) = nk Beispiel 7.2: 23 n! (n − k)! (mit 1 ≤ k ≤ n) Definition 7.3: Als Kombinationen von n Elementen zur k-ten Klasse ohne Wiederholung bezeichnet man Teilmengen von je k Elementen, die ohne Berücksichtigung der Anordnung aus n gegebenen Elementen ausgewählt werden (1 ≤ k ≤ n). Eine Kombination von n Elementen zur k-ten Klasse mit Wiederholung liegt vor, wenn die ausgewählten Elemente mehrfach auftreten dürfen. Kombinationen von n Elementen zur k-ten Klasse n n! ohne Wiederholung: C(n; k) = = (Binomialkoeffizient) k k! · (n − k)! n+k−1 mit Wiederholung: CW (n; k) = k Bei den Kombinationen ohne Wiederholung muss gelten: 1 ≤ k ≤ n. Beispiel 7.3: 7.2 Grundbegriffe der Wahrscheinlichkeitsrechnung 7.2.1 Das Zufallsexperiment und weitere Grundbegriffe Definition 7.4: Das Zufallsexperiment ist ein Versuch, bei dem die folgenden Bedingungen (Voraussetzungen) erfüllt sind: 1) Der Versuch lässt sich unter den gleichen äußeren Bedingungen beliebig oft wiederholen. 2) Bei der Durchführung des Versuchs sind mehrere sich gegenseitig ausschließende Ergebnisse möglich. 3) Das Ergebnis einer konkreten Durchführung des Versuchs lässt sich dabei nicht mit Sicherheit voraussagen, sondern ist zufallsbedingt. Beispiel 7.4: Definition 7.5: Die möglichen, sich gegenseitig ausschließenden Ergebnisse eines Zufallsexperiments heißen Elementarereignisse. Schreibweise: ω1 , ω2 , ω3 , . . . . Die Menge aller Elementarereignisse heißt Ergebnismenge Ω. 24 Beispiel 7.5: Die Teilmengen der Ergebnismenge Ω beschreiben Versuchsausgänge, die bei der Durchführung des Versuchs eintreten können, aber nicht unbedingt eintreten müssen. Dies gibt Anlass zur Definition des Begriffes Ereignis. Definition 7.6: Eine Teilmenge A der Ergebnismenge Ω eines Zufallsexperiments wird Ereignis genannt. Die Menge aller Ereignisse, die aus der Ergebnismenge eines Zufallsexperiments gebildet werden können, heißt Ereignisraum oder Ereignisfeld. Nach den Gesetzmäßigkeiten der Mengenlehre sind sowohl die leere Menge ∅ als auch die Ergebnismenge Ω selbst Teilmengen von Ω. Sie stellen Ereignisse mit folgender Bedeutung dar: ∅: unmögliches Ereignis (ein Ereignis, das nie eintreten kann) Ω: sicheres Ereignis (ein Ereignis, das immer eintritt). Ein Ereignis A ist somit entweder - das unmögliche Ereignis ∅ (siehe oben; A enthält dann kein Element von Ω) oder - ein Elementarereignis (siehe Definition 7.5; A enthält genau ein Element von Ω) - eine Menge mehrerer Elementarereignisse (A enthält mehrere Elemente von Ω) oder oder - das sichere Ereignis Ω (siehe oben; A enthält alle Elemente von Ω, d.h. A = Ω). Beispiel 7.6: 7.2.2 Verknüpfungen von Ereignissen Gemäß Definition 7.6 sind Ereignisse als Teilmengen der Ergebnismenge Ω anzusehen, d.h. es handelt sich um Mengen. Somit kann man bei Ereignissen - ebenso wie bei Mengen - Verknüpfungen betrachten. Auf der nachfolgenden Seite wird eine Übersicht über Verknüpfungen von Ereignissen gegeben. Die Veranschaulichung erfolgt jeweils mit Hilfe von Mengendiagrammen. 25 Mit A und B sind Ereignisse im Sinne der Definition 7.6 bezeichnet. Verknüpfung Bedeutung Teilereignis: A ⊆ B A zieht B nach sich Vereinigung (Summe): A ∪ B mindestens eines der Ereignisse A, B tritt ein (d.h.: A oder B) A B sowohl A als auch B tritt ein (d.h.: A und B) A B A B Durchschnitt (Produkt): A ∩ B Differenz: A \ B Darstellung im Diagramm A tritt ein, jedoch nicht gleichzeitig B A B Für die Verknüpfungen von Ereignissen gelten - wie auch für die Verknüpfungen von Mengen - Gesetzmäßigkeiten wie Kommutativgesetze, Assoziativgesetze, Distributivgesetze sowie die D E M ORGANschen Formeln. Die entsprechenden Formeln werden an dieser Stelle nicht angegeben, sie sind beipielsweise (für Mengen) zu finden in: H.-J. BARTSCH . Taschenbuch mathematischer Formeln für Ingenieure und Naturwissenschaftler, 21. Auflage, S. 42ff. Das zu A komplementäre Ereignis tritt genau dann ein, wenn A nicht eintritt. Bezeichnung: Ā; es gilt: Ω \ A = Ā Die Ereignisse A und B heißen disjunkt (oder unvereinbar), wenn gilt: A ∩ B = ∅. Beispiel 7.7: Definition 7.7: Die Ereignisse Ai (i = 1, 2, . . . , n) heißen Zerlegung des Ereignisses A, wenn gilt: n [ Ai = A und Ai ∩ Aj = ∅ für alle i, j mit i 6= j . i=1 Sie bilden ein vollständiges System zufälliger Ereignisse, wenn gilt: n [ Ai = Ω und Ai ∩ Aj = ∅ für alle i, j mit i 6= j (Zerlegung des sicheren Ereignisses). i=1 Ein vollständiges System zufälliger Ereignisse A1 , A2 , . . . , An besitzt die folgende Eigenschaft: als Ergebnis eines zufälligen Versuches muss genau eines von ihnen eintreten. Beispiel 7.8: 26 7.3 Der Begriff der Wahrscheinlichkeit 7.3.1 Laplace-Experimente, absolute und relative Häufigkeit Definition 7.8: Ein Zufallsexperiment mit der endlichen Ergebnismenge Ω = {ω1 , ω2 , . . . , ωm } heißt Laplace-Experiment, wenn alle Elementarereignisse ωi die gleiche Wahrscheinlichkeit besitzen: P ({ωi }) = p(ωi ) = 1 m (i = 1, 2, . . . , m). Die Wahrscheinlichkeit eines Ereignisses A ist dann gegeben durch: P (A) = g(A) m , wobei g(A) : Anzahl der für das Ereignis A günstigen Fälle (d.h. der Fälle, in denen das Ereignis A eintritt) m : Anzahl der insges. möglichen Fälle (Anzahl der gleichwahrscheinlichen Elementarereignisse) Hinweis: Dies wird auch als klassische Definition der Wahrscheinlichkeit bezeichnet (nur anwendbar für LaplaceExperimente !). Beispiel 7.9: Bei dem Zufallsexperiment Wurf eines homogenen Würfels“ treten alle 6 möglichen Augenzahlen (Elementar” ereignisse) mit der gleichen Wahrscheinlichkeit auf: p(i) = g(i) m = 1 6 für i = 1, 2, . . . , 6. Beispiel 7.10: Für die Festlegung unbekannter Wahrscheinlichkeiten in der Praxis (siehe Abschnitt 7.3.2) werden noch die Begriffe der absoluten und relativen Häufigkeit benötigt. Definition 7.9: Wird ein Zufallsexperiment n-mal durchgeführt und tritt dabei das Ereignis A genau n(A)-mal ein, so wird n(A) hn (A) = als absolute Häufigkeit des Ereignisses A n(A) n und als relative Häufigkeit des Ereignisses A bezeichnet. Die absolute Häufigkeit eines Ereignisses kann somit durch einfaches Abzählen“ ermittelt werden. ” 7.3.2 Wahrscheinlichkeitsaxiome und Schlussfolgerungen Wie im vorigen Abschnitt bereits ausgeführt wurde, ist der klassische Wahrscheinlichkeitsbegriff ausschließlich auf Laplace-Experimente anwendbar. In der modernen Wahrscheinlichkeitsrechnung wird der Begriff der Wahrscheinlichkeit eines zufälligen Ereignisses“ mit Hilfe gewisser Axiome6 eingeführt. Diese heißen (nach ” ihrem Begründer) Wahrscheinlichkeitsaxiome von Kolmogoroff und werden im folgenden aufgeführt.7 6 Ein Axiom ist ein nicht aus anderen Aussagen abgeleiteter Grundsatz, welcher nicht bewiesen wird. Aus Axiomen werden weitere Sätze eines Wissensgebietes hergeleitet. 7 Quelle: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 5. Auflage, S. 282-283 27 Wahrscheinlichkeitsaxiome von Kolmogoroff Jedem Ereignis A eines Zufallsexperiments mit der Ergebnismenge Ω wird eine reelle Zahl P (A), genannt: Wahrscheinlichkeit des Ereignisses A, so zugeordnet, dass die folgenden Axiome erfüllt sind: Axiom 1: P (A) ist eine nichtnegative Zahl, die höchstens gleich 1 ist: 0 ≤ P (A) ≤ 1 . Axiom 2: Für das sichere Ereignis (Ergebnismenge) Ω gilt: P (Ω) = 1. Axiom 3: Für paarweise sich gegenseitig ausschließende Ereignisse A1 , A2 , A3 , . . . gilt: P (A1 ∪ A2 ∪ A3 ∪ . . .) = P (A1 ) + P (A2 ) + P (A3 ) + . . . . Man beachte: Die Wahrscheinlichkeitsaxiome beinhalten keinerlei Aussagen darüber, wie man bei einem konkreten Zufallsexperiment die Wahrscheinlichkeiten der auftretenden Ereignisse ermitteln kann. Sie stellen aber in gewisser Hinsicht Rechenregeln für Wahrscheinlichkeiten dar. Folgerungen aus den Wahrscheinlichkeitsaxiomen von Kolmogoroff 1) Für das unmögliche Ereignis gilt: P (∅) = 0 . 2) Für das zum Ereignis A komplementäre Ereignis gilt: P (Ā) = 1 − P (A) . 3) Für zwei sich gegenseitig ausschließende Ereignisse A und B folgt aus Axiom 3: P (A ∪ B) = P (A) + P (B) . Bei praktischen Sachverhalten ist es häufig so, dass die Zufallsexperimente nicht als Laplace-Experimente angesehen werden können und die Wahrscheinlichkeiten von Elementarereignissen nicht von vornherein bekannt oder berechenbar sind. In solchen Fällen bedient man sich statistischer (oder empirischer) Wahrscheinlichkeitswerte. Dazu sei n die (hinreichend große!) Anzahl der Einzelversuche einer Versuchsreihe und A ein zufälliges Ereignis, welches als Versuchsergebnis auftreten kann. Dann wird die relative Häufigkeit hn (A) (vgl. Definition 7.9) des Ereignisses A festgestellt und P (A) ≈ hn (A) für die unbekannte Wahrscheinlichkeit P (A) angenommen (d.h. die ermittelte relative Häufigkeit von A dient als Schätzwert für die unbekannte Wahrscheinlichkeit P (A)). Beispiel 7.11: Statistische Wahrscheinlichkeitswerte können z.B. angewendet werden für - die Wahrscheinlichkeit für eine Jungen- oder Mädchengeburt - die Wahrscheinlichkeit des Ausfalls eines Maschinenelementes während einer vorgegebenen Laufzeit. 7.3.3 Additionssatz, bedingte Wahrscheinlichkeit und Multiplikationssatz Wenn A und B disjunkte Ereignisse sind (d.h.: A ∩ B = ∅), dann gilt nach dem Wahrscheinlichkeitsaxiom 3 (siehe Abschnitt 7.3.2): P (A ∪ B) = P (A) + P (B). Falls die Voraussetzung, dass die Ereignisse disjunkt sind, nicht erfüllt ist, ist der folgende Satz anzuwenden: Additionssatz für beliebige Ereignisse Seien A und B zwei beliebige Ereignisse eines Ereignisraumes, dann gilt: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) . (100) Beispiel 7.12: 28 Wenn A und B Ereignisse ein und desselben Ereignisraumes sind, kann man bedingte Wahrscheinlichkeiten betrachten, und zwar: - die bedingte Wahrscheinlichkeit von A unter der Bedingung B (d.h. es wird vorausgesetzt, dass das Ereignis B bereits eingetreten ist) oder - die bedingte Wahrscheinlichkeit von B unter der Bedingung A (es wird vorausgesetzt, dass A bereits eingetreten ist). Die Schreibweise für die genannten Wahrscheinlichkeiten ist: P (A | B) bzw. P (B | A) . Die Berechnung bedingter Wahrscheinlichkeiten wird mit Hilfe der nachfolgenden Formeln durchgeführt. Berechnung bedingter Wahrscheinlichkeiten Bedingte Wahrscheinlichkeit von A unter der Bedingung B: P (A | B) = P (A ∩ B) P (B) (wobei P (B) 6= 0 gelten muss) (101) Bedingte Wahrscheinlichkeit von B unter der Bedingung A: P (B | A) = P (A ∩ B) P (A) (wobei P (A) 6= 0 gelten muss) (102) Beispiel 7.13: Als unmittelbare Schlussfolgerung aus den Formeln für die bedingte Wahrscheinlichkeit erhält man die folgende Aussage. Multiplikationssatz (für beliebige Ereignisse) Die Wahrscheinlichkeit für das gleichzeitige Eintreten der beiden Ereignisse A und B wird berechnet nach der Formel: P (A ∩ B) = P (A) · P (B | A). (103) Hinweis: In (103) bedeutet P (A) die Wahrscheinlichkeit für das Eintreten von A (ohne jede Bedingung!) und P (B | A) die Wahrscheinlichkeit für das Eintreten von B unter der Bedingung, dass A bereits eingetreten ist. 29 Beispiel 7.14: Ausgehend von den bedingten Wahrscheinlichkeiten können aber auch die Fälle: P (A | B) = P (A) bzw. P (B | A) = P (B) in Betracht gezogen werden. In dem ersten Fall gilt: Die Wahrscheinlichkeit des Eintretens von A unter der Bedingung B ist gleich der Wahrscheinlichkeit des Eintretens von A (ohne Bedingung). Dies kann so interpretiert werden, dass das Eintreten des Ereignisses B keinen Einfluss auf das Eintreten des Ereignisses A hat. Oder, anders ausgedrückt: Das Ereignis A ist (stochastisch) unabhängig von dem Ereignis B. Analog dazu bedeutet der zweite der o.g. Fälle, dass das Ereignis B (stochastisch) unabhängig von dem Ereignis A ist. In dem speziellen Fall stochastisch unabhängiger Ereignisse kann der o.g. Multiplikationssatz wie folgt formuliert werden. Multiplikationssatz für stochastisch unabhängige Ereignisse Wenn die Ereignisse A und B stochastisch unabhängig sind, dann gilt: P (A ∩ B) = P (A) · P (B). (104) Die Formel (104) entsteht aus (103), indem dort P (B | A) = P (B) gesetzt wird. Diese Beziehung ist auf Grund der vorausgesetzten Unabhängigkeit der Ereignisse A und B stets gültig. Die Formel (104) kann auch auf den Fall von n Ereignissen verallgemeinert werden. Wenn die Ereignisse A1 , A2 , . . . , An ein vollständiges System stochastisch unabhängiger Ereignisse bilden, dann gilt: ! n n \ Y P Ai = P (A1 ) · P (A2 ) · . . . · P (An ) = P (Ai ). (105) i=1 i=1 Mit dieser Formel lässt sich die Wahrscheinlichkeit für das gleichzeitige Eintreten von n stochastisch unabhängigen Ereignissen berechnen, falls die Wahrscheinlichkeiten für das Eintreten jedes einzelnen Ereignisses bekannt sind. Beispiel 7.15: Bemerkungen: - Wenn die Ereignisse A und B stochastisch unabhängig sind, dann sind auch die Ereignisse A und B stochastisch unabhängig, ebenso die Ereignisse A und B sowie die Ereignisse A und B. - Für drei beliebige Ereignisse A, B, C lautet der Additionssatz: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C). Für eine Verallgemeinerung des Additionssatzes auf n beliebige Ereignisse sei auf die folgende Literaturstelle verwiesen: W. VOSS (Hrsg.): Taschenbuch der Statistik, 1. Auflage (2000), S. 305. 30 7.3.4 Baumdiagramme, totale Wahrscheinlichkeit von Ereignissen Wenn mehrere gleichartige Zufallsexperimente nacheinander durchgeführt werden, spricht man auch von einem mehrstufigen Zufallsexperiment. Ergänzung zu Beispiel 7.14: Es wurde die Ziehung zweier Kugeln aus einer Urne ohne Zurücklegen betrachtet. Dies kann als 2-stufiges Zufallsexperiment aufgefasst werden, wenn man die Ziehung einer Kugel als einfaches“ Zufallsexperiment ” ansieht. Zur Veranschaulichung mehrstufiger Zufallsexperimente werden häufig Baumdiagramme (Ereignisbäume) verwendet. Zunächst wird ein Beispiel angegeben und anschließend werden einige allgemeine Aussagen8 zu Baumdiagrammen getroffen. Beispiel 7.16: Aus einer Urne mit 4 roten und 2 gelben Kugeln werden 2 Kugeln nacheinander ohne Zurücklegen entnommen (siehe auch Beispiel 7.14). Das vorliegende Baumdiagramm (siehe Bild 7.1) veranschaulicht die möglichen Ergebnisse dieses Experiments zusammen mit den Wahrscheinlichkeiten der Zwischenergebnisse“. ” 3 5 Erläuterung: 2 3 2 5 0 x 4 5 1 3 1 5 Bild 7.1 Aufbau eines Baumdiagramms Das Baumdiagramm setzt sich zusammen aus einer Wurzel (Ausgangspunkt) sowie Verzweigungspunkten und Zweigen. Die Verzweigungspunkte charakterisieren die möglichen Zwischenergebnisse nach einer bestimmten Stufe des Zufallsexperiments. Die Zweige führen zu den jeweils möglichen Ergebnissen der nachfolgenden Stufe. Ein mögliches Endergebnis des Zufallsexperiments erreicht man (ausgehend von der Wurzel) längs eines bestimmten Pfades. Wenn die Berechnung der Wahrscheinlichkeit eines Ereignisses (das als Ergebnis eines mehrstufigen Zufallsexperiments auftreten kann) mit Hilfe eines Baumdiagramms erfolgen soll, können die folgenden Pfadregeln angewendet werden. Regeln bei der Berechnung von Wahrscheinlichkeiten mit Hilfe eines Baumdiagramms Es gelten die folgenden Pfadregeln: 1) Die Wahrscheinlichkeiten längs eines Pfades werden miteinander multipliziert. 2) Wenn mehrere Pfade zum gleichen Endergebnis führen, dann addieren sich ihre Wahrscheinlichkeiten. Fortsetzung zu Beispiel 7.16: 8 Quelle: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 5. Auflage, S. 301-302 31 Um den Begriff der totalen Wahrscheinlichkeit einführen zu können, werden folgende Ereignisse betrachtet: Ai (i = 1, 2, . . . , n): disjunkte Ereignisse mit P (Ai ) 6= 0 für alle i, B: ein Ereignis, das stets zusammen mit einem der Ereignisse Ai eintritt. Das Diagramm in Bild 7.2 veranschaulicht eine solche Situation für den Fall n = 4. A2 A1 A3 B A4 Bild 7.2 Formel für die totale Wahrscheinlichkeit eines Ereignisses Unter den o.g. Voraussetzungen gilt für die Wahrscheinlichkeit des Ereignisses B: n n X X P (B) = P (B ∩ Ai ) = P (Ai ) · P (B | Ai ) . i=1 (106) i=1 Hinweis: Der Summand P (Ai ) · P (B | Ai ) in (106) ist die Wahrscheinlichkeit dafür, dass das Ereignis B über die Zwischenstation“ Ai (für das jeweilige i) erreicht wurde. ” Begründung für die Formel (106): Es gilt (siehe dazu auch Bild 7.2): B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ . . . ∪ (B ∩ An ). Da die Ereignisse Ai (i = 1, 2, . . . , n) als disjunkt vorausgesetzt wurden, sind auch die Ereignisse (B ∩ Ai ) für i = 1, 2, . . . , n disjunkt. Durch Anwendung des Wahrscheinlichkeitsaxioms 3 (siehe Abschnitt 7.3.2) und der Formel (103) ergibt sich dann: P (B) = n X P (B ∩ Ai ) = i=1 n X P (Ai ∩ B) = i=1 n X P (Ai ) · P (B | Ai ) . i=1 Beispiel 7.17: Bayessche Formel: P (Aj ) · P (B | Aj ) P (Aj | B) = P n . (107) P (Ai ) · P (B | Ai ) i=1 Bedeutung dieser Formel: Jetzt wird vorausgesetzt, dass das Ereignis B bereits eingetreten ist. Dann ermöglicht die Bayessche Formel die Berechnung der Wahrscheinlichkeit dafür, dass das Ereignis B über die Zwischenstation“ Aj erreicht wurde. ” Fortsetzung zu Beispiel 7.17: 32 8 Wahrscheinlichkeitsverteilungen 8.1 Stetige und diskrete Zufallsvariable (ZV) Dem Begriff der Zufallsvariablen kommt in diesem Kapitel eine zentrale Rolle zu. Im folgenden wird für den Begriff Zufallsvariable“ meistens die Abkürzung ZV verwendet. Man unterscheidet zwischen stetigen und dis” kreten Zufallsvariablen. Definition 8.1: Unter einer Zufallsvariablen (oder Zufallsgröße) X versteht man eine Abbildung, die jedem Elementarereignis ω aus der Ergebnismenge Ω eines Zufallsexperiments genau eine reelle Zahl X(ω) zuordnet. Eine ZV heißt dabei diskret, wenn sie nur endlich viele oder abzählbar unendlich viele reelle Werte annehmen kann. Eine ZV heißt stetig, wenn sie jeden beliebigen Wert aus einem (reellen) endlichen oder unendlichen Intervall annehmen kann. Die Werte, die eine Zufallsvariable annehmen kann, heißen Realisierungen. Sie werden üblicherweise mit kleinen Buchstaben bezeichnet. Beispiel 8.1: 8.2 Verteilungsfunktion einer ZV Bei praktischen Anwendungen der Wahrscheinlichkeitsrechnung wird häufig die Frage gestellt, mit welcher Wahrscheinlichkeit eine ZV einen bestimmten Wert annimmt bzw. der Wert der ZV kleiner (oder größer) als eine bestimmte Zahl ist. Dies führt auf den Begriff der Verteilungsfunktion. Definition 8.2: Die Verteilungsfunktion einer ZV X ist gegeben durch: F (x) = P (X ≤ x) , (108) d.h. sie gibt an, mit welcher Wahrscheinlichkeit die ZV X einen Wert annimmt, der kleiner oder gleich einer vorgegebenen reellen Zahl x ist. Eine ZV X wird durch ihre zugehörige Verteilungsfunktion vollständig beschrieben. Nachfolgend sind wichtige Eigenschaften von Verteilungsfunktionen zusammengestellt. Diese gelten allgemein, d.h. unabhängig von der konkreten ZV. 33 Eigenschaften von Verteilungsfunktionen Sei X eine beliebige (diskrete oder stetige) Zufallsvariable und F (x) die zugehörige Verteilungsfunktion. Diese Funktion besitzt die folgenden Eigenschaften: 1) F (x) ist eine monoton wachsende Funktion und es gilt: 0 ≤ F (x) ≤ 1 für alle x ∈ R. 2) limx→−∞ F (x) = 0 3) limx→∞ F (x) = 1 4) Die Wahrscheinlichkeit, dass a < X ≤ b gilt, lässt sich mit Hilfe der Verteilungsfunktion wie folgt berechnen: P (a < X ≤ b) = F (b) − F (a). Die Eigenschaften 2) und 3) sind unmittelbare Schlussfolgerungen aus der Definition 8.2 und der Tatsache, dass die Wahrscheinlichkeit des unmöglichen Ereignisses gleich 0, die des sicheren Ereignisses gleich 1 ist (siehe dazu auch Abschnitt 7.3.2). Die Fragestellung, zu einem gegebenen Wert der Verteilungsfunktion das zugehörige Argument zu finden, führt auf den Begriff des Quantils. Definition 8.3: Sei X eine ZV mit der zugehörigen Verteilungsfunktion F (x) und p0 (mit p0 ∈ [0, 1]) eine vorgegebene reelle Zahl. Dann wird jede Zahl x0 mit der Eigenschaft: F (x0 ) = P (X ≤ x0 ) = p0 als p0 -Quantil der Zufallsvariablen X bezeichnet. Ein Quantil kann genau dann eindeutig bestimmt werden, wenn die entsprechende Verteilungsfunktion streng monoton wachsend ist. 8.2.1 Verteilungsfunktion einer diskreten ZV (diskrete Verteilung) Bei einer diskreten ZV X (vgl. Definition 8.1) gehört zu jeder Realisierung xi eine bestimmte Wahrscheinlichkeit: P (X = xi ) = pi (Einzelwahrscheinlichkeit). Die Realisierungen der ZV können zusammen mit den zugehörigen Einzelwahrscheinlichkeiten in einer Verteilungstabelle dargestellt werden: xi x1 x2 x3 ... xm ... P (X = xi ) p1 p2 p3 ... pm ... Mit Hilfe dieser Tabelle kann die Verteilungsfunktion der diskreten ZV ermittelt werden. Verteilungsfunktion F (x) einer diskreten ZV X: X F (x) = P (X ≤ x) = pi für x ∈ R und mit pi = P (X = xi ) (109) xi ≤x Es wurden bereits einige Eigenschaften von Verteilungsfunktionen genannt (siehe oben). In dem hier vorliegenden Fall einer diskreten ZV kommt noch die folgende Eigenschaft hinzu: Die grafische Darstellung der Verteilungsfunktion einer diskreten ZV ergibt eine stückweise konstante Funktion (auch Treppenfunktion genannt), siehe dazu Bild 8.1. F (x) 6 r 1 r p1 + p2 + p3 p1 + p2 p1 r 0 x1 r x2 x3 . . . xn Bild 8.1 34 .. . x Beispiel 8.2: 8.2.2 Verteilungsfunktion einer stetigen ZV (stetige Verteilung) Verteilungsfunktion F (x) einer stetigen ZV X: ˆx F (x) = P (X ≤ x) = f (t) dt (110) −∞ für x ∈ R, wobei die Funktion f als Wahrscheinlichkeitsdichte oder Dichtefunktion bezeichnet wird (Hinweis: das Integral auf der rechten Seite von (110) wird als uneigentliches Integral bezeichnet, da die untere Grenze keine reelle Zahl, sondern −∞“ ist. Auf Besonderheiten bei der Berechnung uneigentlicher Integrale ” wird hier nicht eingegangen.) Die Dichtefunktion f (x) besitzt die folgenden Eigenschaften9 1) f (x) ≥ 0 für alle x ∈ R 2) f (x) = F 0 (x), d.h. die Dichtefunktion ist gleich der ersten Ableitung der Verteilungsfunktion ˆ∞ f (x) dx = 1 3) −∞ Diese Eigenschaft wird auch als Normiertheit der Dichtefunktion bezeichnet. 4) Die Wahrscheinlichkeit, dass X einen Wert zwischen a und b annimmt, kann mit Hilfe der Dichtefunktion wie folgt berechnet werden: ˆb ˆa ˆb f (x) dx − f (x) dx = f (x) dx P (a ≤ X ≤ b) = F (b) − F (a) = −∞ −∞ a (vgl. dazu auch Formel (110)). ˆ∞ f (x) dx = P (−∞ < X < ∞) = 1 (Wahrscheinlichkeit des sicheren Ereignis- Die Eigenschaft 3) folgt aus: −∞ ses). Die Eigenschaft 4) kann wie folgt veranschaulicht werden: die im Bild 8.2 grau unterlegte Fläche entspricht der Wahrscheinlichkeit, dass die ZV X einen Wert zwischen a und b annimmt. f (x) 6 a b - x Bild 8.2 9 An dieser Stelle wird f als eine von der Variablen x abhängige Funktion betrachtet, während in der Formel (110) auf Grund der Bezeichnung der oberen Integrationsgrenze die Schreibweise f (t) verwendet wurde. 35 Beispiel 8.3: 8.3 Kennwerte einer Wahrscheinlichkeitsverteilung Bei der Beschreibung von ZV ist (außer den bereits eingeführten Funktionen) auch die Angabe von Kennwerten hilfreich. In diesem Abschnitt werden die folgenden Kennwerte10 eingeführt: Erwartungswert, Varianz und Standardabweichung einer ZV. Bei der Berechnung dieser Kennwerte wird nach diskreten und stetigen ZV unterschieden. Definition 8.4: Sei X eine diskrete ZV mit den Realisierungen x1 , x2 , . . . , xn und den Einzelwahrscheinlichkeiten p1 , p2 , . . . , pn (mit pi = P (X = xi ), siehe Abschnitt 8.2.1). Dann werden die Kennwerte von X wie folgt berechnet: Erwartungswert: µ = E(X) = n X xi · pi (111) i=1 Varianz (Streuung): σ 2 = D2 (X) = Var(X) = n X (xi − µ)2 · pi (112) i=1 Standardabweichung: σ = D(X) = p Var(X) (113) Wenn die ZV X abzählbar unendlich viele Realisierungen besitzt, ist in (111) und (112) die obere Summationsgrenze gleich ∞“ zu setzen. ” Die Varianz ist ein Maß für die Variabilität der Verteilung. Gemäß (111) ist die Varianz gleich dem Erwartungswert der Zufallsvariablen Z = (X − µ)2 . Die Standardabweichung wird auch mittlere quadratische Abweichung genannt. Der Vorteil der Standardabweichung (im Vergleich zur Varianz) besteht darin, dass sie die gleiche Dimension und Maßeinheit wie die ZV X besitzt. Für praktische Berechnungen ist die folgende Formel für die Varianz: σ 2 = E(X 2 ) − µ2 (114) meistens leichter zu handhaben als die Formel (112). Der in (114) vorkommende Erwartungswert der Zufallsvariablen X 2 kann ermittelt werden, indem in (111) anstelle von xi jeweils x2i eingesetzt wird. Beispiel 8.4: 10 Weitere Kennwerte sind Variationskoeffizient, Schiefe und Exzess. Darauf wird hier nicht näher eingegangen, es sei auf die folgende Literaturstelle verwiesen: W. L EUPOLD (Hrsg.). Mathematik - ein Studienbuch für Ingenieure (Band 2: Reihen - Differentialgleichungen - Analysis für mehrere Variable - Stochastik), 2. Auflage, S. 368-369. 36 Definition 8.5: Sei X eine stetige ZV mit der Dichtefunktion f (x) (siehe (110)). Dann werden die Kennwerte von X wie folgt berechnet: ˆ∞ Erwartungswert: x · f (x) dx µ = E(X) = (115) −∞ ˆ∞ Varianz (Streuung): 2 2 (x − µ)2 · f (x) dx σ = D (X) = Var(X) = (116) −∞ Standardabweichung: σ = D(X) = p Var(X) (117) Die Berechnung der Varianz kann wiederum mittels der Formel (114) (anstatt von (116)) erfolgen. Um den benötigten Erwartungswert E(X 2 ) zu berechnen, ist in dem Integranden auf der rechten Seite von (115) der Faktor x2 anstelle des Faktors x zu nehmen. Beispiel 8.5: Bemerkungen: - Nicht jede ZV besitzt einen Erwartungswert. Der Erwartungswert existiert für eine stetige ZV nur dann, wenn das uneigentliche Integral in (115) konvergiert. Im Fall einer diskreten ZV mit abzählbar unendlich vielen ∞ P Realisierungen muss die Summe xi · pi (vgl. Formel (111)) einen endlichen Wert besitzen, damit der i=1 Erwartungswert existiert. wenn gilt: E(X) = 0. zentriert, normiert, wenn gilt: Var(X) = 1. - Eine ZV X heißt standardisiert, wenn sie zentriert und normiert ist. 37 8.4 Spezielle Wahrscheinlichkeitsverteilungen In praktischen Anwendungssituationen der Wahrscheinlichkeitsrechnung werden spezielle Verteilungsfunktionen benötigt, welche den vorliegenden Sachverhalt möglichst gut beschreiben. Das Anliegen dieses Abschnitts besteht darin, einige in der Praxis häufig vorkommende Wahrscheinlichkeitsverteilungen vorzustellen. 8.4.1 Binomialverteilung Ausgangspunkt der Überlegungen bei der Einführung der Binomialverteilung ist das Bernoulli-Experiment11 . Bernoulli-Experiment - Zufallsexperiment, bei dem ein Ereignis A mit der Wahrscheinlichkeit p und das zu A komplementäre Ereignis Ā mit der Wahrscheinlichkeit q = 1 − p eintritt (d.h. es gibt nur zwei mögliche Ergebnisse) - Dies gilt auch für jede Wiederholung des Experiments. - Beispiel: Beim Wurf einer homogenen Münze gibt es nur die Ereignisse: A: Zahl“ und Ā: Wappen“. ” ” Sie treten mit den Wahrscheinlichkeiten: p = P (A) = 12 und q = P (Ā) = 1 − 1 2 = 1 2 auf. Bernoulli-Experiment vom Umfang n - mehrstufiges Experiment: n-fache Ausführung eines Bernoulli-Experiments mit den beiden möglichen Ereignissen A und Ā - Das Ereignis A tritt in jedem der n Teilexperimente mit der gleichen Wahrscheinlichkeit p auf. - Die Ergebnisse der einzelnen Stufen sind voneinander unabhängig. - Ein derartiges Experiment wird als Bernoulli-Experiment vom Umfang n bezeichnet. - Zufallsvariable X: Anzahl der Versuche, in denen das Ereignis A bei einem Bernoulli-Experiment vom Umfang n auftritt ⇒ X kann jeden der Werte 0, 1, 2, . . . n annehmen - Die Fragestellung: Mit welcher Wahrscheinlichkeit nimmt die ZV X den Wert k an? (d.h.: Wie groß ist die Wahrscheinlichkeit, dass das Ereignis A genau k-mal eintritt?) führt auf die Binomialverteilung. Definition 8.6: Eine diskrete ZV X heißt binomialverteilt mit den Parametern n und p, falls sie die Werte 0, 1, . . . , n annehmen kann und diese mit den Einzelwahrscheinlichkeiten n pk = P (X = k) = pk (1 − p)n−k (k = 0, 1, . . . , n) (118) k auftreten. Dabei gelten die folgenden Bezeichnungen: p: konstante Wahrscheinlichkeit für das Ereignis A beim Einzelversuch n: Anzahl der Ausführungen des Bernoulli-Experiments. Um zum Ausdruck zu bringen, dass eine ZV X einer derartigen Verteilung unterliegt, kann auch die Schreibweise: X ∼ B(n, p) verwendet werden. Zur weiteren Beschreibung der Binomialverteilung werden nachfolgend die Verteilungsfunktion sowie die Kennwerte dieser Verteilung angegeben (siehe nächste Seite). 11 Quelle: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 5. Auflage, S. 346-347 38 Verteilungsfunktion der Binomialverteilung B(n, p) für x < 0 0 P F (x) = n pk (1 − p)n−k für x ≥ 0 k k≤x Insbesondere gilt: F (x) = 1 für x ≥ n. Kennwerte der Binomialverteilung B(n, p) Erwartungswert: Varianz: µ = np σ 2 = np(1 − p) Beispiel 8.6: 8.4.2 Poisson-Verteilung und Poisson-Prozess Bei Ereignissen, die mit einer geringen Wahrscheinlichkeit (d.h. sehr selten12 ) auftreten, wird häufig von einer Poisson-Verteilung ausgegangen. Beispielsweise kann die Anzahl der Ausfälle (pro Zeiteinheit) einer Produktionsanlage mit Hilfe der Poisson-Verteilung beschrieben werden. Definition 8.7: Eine diskrete ZV X heißt Poisson-verteilt mit dem Parameter λ, falls sie die Werte 0, 1, 2, . . . annehmen kann und diese mit den Einzelwahrscheinlichkeiten pk = P (X = k) = λk −λ e k! (k ∈ N) (119) auftreten. Die symbolische Schreibweise X ∼ Π(λ) bedeutet, dass die ZV X Poisson-verteilt mit dem Parameter λ ist. Die Poisson-Verteilung wird vollständig durch den Parameter λ charakterisiert. Verteilungsfunktion der Poisson-Verteilung Π(λ) für x < 0 0 k P λ −λ F (x) = e für x ≥ 0 k! k≤x Kennwerte der Poisson-Verteilung Π(λ) Erwartungswert: Varianz: µ=λ σ2 = λ Beispiel 8.7: 12 Die Poisson-Verteilung wird deshalb auch Verteilung der seltenen Ereignisse“ genannt. ” 39 Zwischen der Poisson-Verteilung und der Binomialverteilung (siehe Abschnitt 8.4.1) besteht ein wichtiger Zusammenhang. Die Poisson-Verteilung lässt sich nämlich aus der Binomialverteilung für den Grenzübergang n → ∞, p → 0 herleiten, und zwar unter der Voraussetzung, dass dabei der Erwartungswert µ = np konstant bleibt. Daraus ergibt sich die folgende Schlussfolgerung. Zusammenhang zwischen Poisson-Verteilung und Binomialverteilung Die Binomialverteilung mit den Parametern n und p darf für großes n und kleines p in guter Näherung durch die rechnerisch bequemere Poisson-Verteilung mit dem Parameter (Erwartungswert) λ = np ersetzt werden. Dabei gilt die folgende Faustregel: Falls die Bedingungen np < 10 und n > 1500 p erfüllt sind, darf die o.g. Ersetzung vorgenommen werden. Beispiel 8.8: In Technik und Naturwissenschaften hat man es häufig mit zufälligen Vorgängen zu tun, die in Abhängigkeit von der Zeit analysiert werden sollen. In diesen Fällen spricht man auch von zufälligen Prozessen (oder: stochastischen Prozessen). In der Zuverlässigkeits- und Bedienungstheorie wird häufig der Poisson-Prozess verwendet. Dabei wird ein Einzelereignis A betrachtet, welches im Verlauf der Zeit wiederholt eintreten kann. Die Zeitpunkte, in denen dieses Ereignis stattfindet, können durch zufällig verteilte Punkte auf der Zeit-Achse (t-Achse) veranschaulicht werden. Die Anzahl des Auftretens des Ereignisses A in einem Zeitintervall [t0 , t0 + t) ist eine Zufallsvariable. Diese wird im weiteren mit Xt bezeichnet. Sie kann die Werte 0, 1, 2, . . . annehmen. Um nun die Wahrscheinlichkeit P (Xt = k) berechnen zu können, wird von den folgenden Voraussetzungen ausgegangen13 : - Die Wahrscheinlichkeit P (Xt = k) ist unabhängig von t0 und als Funktion von t > 0 stetig. - Es besteht keine Nachwirkung, d.h. in Intervallen, die sich nicht überschneiden, sind die Anzahlen der realisierten Einzelereignisse voneinander unabhängig. - In sehr kurzen Zeitintervallen tritt praktisch höchstens ein Einzelereignis ein. Poisson-Prozess mit der Intensität λ Die soeben genannten Voraussetzungen seien erfüllt. Sei λt die Anzahl der in einem Zeitintervall der Länge t durchschnittlich zu beobachtenden Einzelereignisse (λ: Intensität des Prozesses). Dann gilt: P (Xt = k) = (λt)k −λt e k! (k ∈ N). Beispiel 8.9: 13 idealisierte Bedingungen für den Zufallsprozess; siehe dazu: G. M ÜHLBACH. Stochastik - Ein Zugang über Beispiele, S. 78 40 Die Poisson-Verteilung und die Binomialverteilung sind Verteilungen diskreter Zufallsvariablen. Die restlichen Betrachtungen im Abschnitt 8.4 werden sich auf Verteilungen stetiger Zufallsvariablen beziehen. Es sei daran erinnert, dass in diesen Fällen die Charakterisierung der ZV mittels der zugehörigen Dichtefunktion (siehe Abschnitt 8.2.2) erfolgt - im Gegensatz zu den betrachteten diskreten ZV, bei denen Einzelwahrscheinlichkeiten angegeben werden konnten. 8.4.3 Stetige Gleichverteilung (Rechteckverteilung) Das stetige Analogon zur diskreten Gleichverteilung (siehe Beispiel 8.2) ist die stetige Gleichverteilung. Definition 8.8: Eine stetige ZV X heißt gleichverteilt über dem Intervall [a, b], wenn ihre Dichtefunktion gegeben ist durch: 0 für − ∞ < x < a 1 für a≤x≤b f (x) = (120) b−a 0 für b < x < ∞. Auf Grund des Aussehens der Dichtefunktion (120) (siehe dazu auch Bild 8.3a) auf der nächsten Seite) wird die stetige Gleichverteilung über [a, b] auch als Rechteckverteilung R(a, b) bezeichnet. Verteilungsfunktion der stetigen Gleichverteilung (Rechteckverteilung) R(a, b) 0 für − ∞ < x < a x−a für a≤x≤b F (x) = b−a 1 für b < x < ∞. Kennwerte der stetigen Gleichverteilung (Rechteckverteilung) R(a, b) Erwartungswert: Varianz: µ= σ2 = a+b 2 (b − a)2 12 Zur Berechnung des Erwartungswertes und der Varianz: 41 Die Verteilungsfunktion F (x) der stetigen Gleichverteilung steigt in dem Intervall [a, b] von dem Wert 0 linear auf den Wert 1 an, siehe dazu auch Bild 8.3b). f (x) F (x) 6 6 1 1 b−a 0 a b x 0 Bild 8.3a) a b x Bild 8.3b) Die stetige Gleichverteilung über dem Intervall [0, 1] spielt bei der Simulation von Zufallszahlen eine Rolle. Beispiel 8.10: 8.4.4 Dreiecksverteilung (Simpsonsche Verteilung) Definition 8.9: Eine stetige ZV X unterliegt einer (symmetrischen) Dreiecksverteilung über dem Intervall [a, b], wenn ihre Dichtefunktion gegeben ist durch: 0 für − ∞ < x < a a+b 4 (x − a) für a≤x≤ 2 (b − a) 2 f (x) = 4 a + b (b − x) für <x≤b (b − a)2 2 0 für b < x < ∞. (121) Die Dichtefunktion (121) (speziell mit a = 1 und b = 7) ist im Bild 8.4a) auf der nächsten Seite dargestellt. Bild 8.4b) zeigt die zugehörige Verteilungsfunktion. Verteilungsfunktion der symmetrischen Dreiecksverteilung 0 für − ∞ < x < a (x − a)2 a+b 2 für a≤x≤ (b − a)2 2 F (x) = 2 (b − x) a+b 1−2 für <x≤b 2 (b − a) 2 1 für b < x < ∞. Kennwerte der symmetrischen Dreiecksverteilung Erwartungswert: Varianz: µ= σ2 = a+b 2 (b − a)2 24 42 f (x) F (x) 6 6 - - x x Bild 8.4a) Bild 8.4b) Die Dichtefunktion einer allgemeinen (d.h. unsymmetrischen) Dreiecksverteilung lautet: 0 für − ∞ < x < a 2(x − a) a≤x≤c (b − a)(c − a) für f (x) = 2(b − x) für c<x≤b (b − a)(b − c) 0 für b < x < ∞, (122) für die grafische Darstellung einer solchen Funktion (speziell mit a = 1, c = 3 und b = 8) siehe Bild 8.5. f (x) 6 x Bild 8.5 Die Kennwerte der unsymmetrischen Dreiecksverteilg. sind: µ = a+b+c 3 und σ 2 = (a − b)2 + (b − c)2 + (a − c)2 36 Dreiecksverteilungen können verwendet werden, wenn das Minimum, das Maximum und der wahrscheinlichste Wert der Zufallsvariablen bekannt sind (diese entsprechen den Größen a, b und c in der Formel (122)). Sie finden häufig Anwendung bei zur Beschreibung von Risiken (z.B. mögliche Kostenüberschreitungen oder Zeitüberschreitungen) bei der Kalkulation von Projekten. Ebenso werden Dreiecksverteilungen häufig bei Simulationsmodellen verwendet, wenn keine oder nur sehr wenige Daten für einen Parameter (meistens: Zeiten, z.B. Bearbeitungszeiten) bekannt sind. 43 . 8.4.5 Betaverteilung Zur Beschreibung von Zufallsvariablen, deren minimaler und maximaler Wert bekannt sind, kann auch die im folgenden erläuterte Betaverteilung verwendet werden. Sie findet Anwendung z.B. in der mathematischen Statistik (für Schätzungen) und in der Versicherungsmathematik (Risikomodellierung). Häufig erlaubt sie eine präzisere Modellierung als die unsymmetrische Dreiecksverteilung. Definition 8.10: Eine stetige ZV X unterliegt einer Betaverteilung über dem Intervall [a, b] mit den Parametern p und q (p, q > 0), wenn sie die folgende Dichtefunktion besitzt: γ(x − a)p−1 (b − x)q−1 für a ≤ x ≤ b f (x) = (123) 0 sonst. Der Faktor γ ist eine Konstante, die nur für spezielle Werte der Parameter p und q (z.B. für ganzzahlige p und q) in geschlossener Form darstellbar ist. Im Bild 8.6 ist die Betaverteilung über dem Intervall [1, 8] für verschiedene Werte der Parameter p und q dargestellt. f (x) 6 p = 1.6, q = 2.8 HH p = 1.9, q = 2.7 x Bild 8.6 Der Erwartungswert einer betaverteilten ZV beträgt: µ = a + (b − a) In dem Fall, dass p = q gilt, erhält man: µ = p p+q . a+b . 2 Auf Grund dessen, dass der Faktor γ aus (123) meistens nicht in geschlossener Form darstellbar ist, werden für Berechnungen der Betaverteilung spezielle Tabellen verwendet. Für detailliertere Informationen zur Betaverteilung sei auf die folgende Literaturstelle verwiesen: P.H. M ÜLLER: Lexikon der Stochastik, 5. Auflage, S. 38. Bemerkung: In dem speziellen Fall p = q = 1 ergibt sich die stetige Gleichverteilung über dem Intervall [a, b] (siehe Abschnitt 8.4.3). 44 8.4.6 Exponentialverteilung Wichtige Anwendungsgebiete der Exponentialverteilung sind Lebensdauerverteilungen oder Bedienzeitverteilungen. Definition 8.11: Eine stetige ZV X heißt exponentialverteilt mit dem Parameter λ (λ > 0), wenn ihre Dichtefunktion gegeben ist durch ( 0 für x < 0 f (x) = (124) −λx λe für x ≥ 0 . Durch die symbolische Schreibweise X ∼ exp(λ) wird zum Ausdruck gebracht, dass die ZV X exponentialverteilt mit dem Parameter λ ist. Verteilungsfunktion der Exponentialverteilung mit dem Parameter λ ( 0 für x < 0 F (x) = −λx 1−e für x ≥ 0 . Zur Berechnung der Verteilungsfunktion der Exponentialverteilung: In den Bildern 8.7a) und 8.7b) sind die Dichtefunktion und die Verteilungsfunktion einer Exponentialverteilung für verschiedene Werte des Parameters λ dargestellt. F (x) f (x) 0.5 6 1 λ=2 0.8 0.4 0.6 0.3 λ = 0.5 0.4 0.2 0.2 λ = 0.5 0.1 0 6 λ=2 2 4 6 8 x 0 Bild 8.7a) 2 4 6 - 8 x Bild 8.7b) Kennwerte der Exponentialverteilung exp(λ) Erwartungswert: Varianz: µ= 1 λ σ2 = 1 λ2 Ein besonderes Merkmal der Exponentialverteilung besteht also darin, dass ihr Erwartungswert und ihre Standardabweichung übereinstimmen (d.h. die Abweichungen der Realisierungen der ZV vom Erwartungswert sind im Mittel genau so groß wie der Erwartungswert selbst). Beispiel 8.11: 45 Zwischen der Exponentialverteilung und dem Poisson-Prozess (siehe Abschnitt 8.4.2) besteht der folgende Zusammenhang14 . Zusammenhang zwischen Exponentialverteilung und Poisson-Prozess (Zeitlückenverteilung) Wenn Punkte auf der Zeit-Achse (t-Achse) nach dem Poisson-Prozess mit der Intensität λ verteilt sind, dann unterliegt die ZV X: Länge punktfreier Strecken“ (Zeitlücken) einer Exponentialverteilung ” mit dem Parameter λ. Die Wahrscheinlichkeit, dass eine Zeitlücke mindestens der Größe x auftritt, kann als P (X ≥ x) = e−λx berechnet werden. Beispiel 8.12: 8.4.7 Weibull-Verteilung Die Weibull-Verteilung wird häufig zur Beschreibung von Ermüdungserscheinungen bei Werkstoffen sowie in der Zuverlässigkeitstheorie verwendet. Diese Wahrscheinlichkeitsverteilung wird (im Gegensatz zur Exponentialverteilung, welche vollständig durch den Parameter λ bestimmt ist) durch zwei Parameter charakterisiert.15 Definition 8.12: Eine stetige ZV X unterliegt einer Weibull-Verteilung mit den Parametern α und β, wenn ihre Dichtefunktion folgendermaßen lautet: für x < 0 0 α−1 (125) f (x) = −( x )α α x für x ≥ 0 . e β β β Die symbolische Schreibweise X ∼ W (α, β) sagt aus, dass die ZV X Weibull-verteilt mit den Parametern α und β ist. Verteilungsfunktion der Weibull-Verteilung mit den Parametern α und β ( 0 für x < 0 x α F (x) = −( β ) 1−e für x ≥ 0 In den Bildern 8.8a) und 8.8b) sind die Dichtefunktionen und die Verteilungsfunktionen von Weibull-Verteilungen für verschiedene Werte der Parameter α und β dargestellt. f (x) 6 F (x) 6 α = 1/2, β = 1/3 α = 1/2, β = 1/3 1 0.5 α = 2, β = 1 0 1 α = 2, β = 1 x 0 Bild 8.8a) 1 x Bild 8.8b) 14 Quelle: G. M ÜHLBACH. Stochastik - Ein Zugang über Beispiele, S. 82 Im vorliegenden Skript werden die Parameter mit α und β bezeichnet; in der Literatur findet man aber auch Darstellungen der Weibull-Verteilung mit den Parametern γ und r, siehe z.B.: W. P REUSS , G. W ENISCH (Hrsg.): Lehr- und Übungsbuch Mathematik (Band 3: Lineare Algebra - Stochastik), Fachbuchverlag Leipzig im Carl Hanser Verlag, 2. Auflage, S. 172. 15 46 Bei der Berechnung des Erwartungswertes der Weibull-Verteilung nach der Formel (115) tritt ein Integral auf, das mit elementaren Mitteln nicht berechenbar ist, jedoch mit Hilfe einer speziellen Funktion ausgedrückt werden kann. Diese Funktion wird Gamma-Funktion genannt und mit dem Symbol Γ(x) bezeichnet. Für die Definition dieser Funktion und einige Eigenschaften sei auf die folgende Literaturstelle verwiesen: H.-J. BARTSCH . Taschenbuch mathematischer Formeln für Ingenieure und Naturwissensch., 21. Aufl., S. 588. Nachfolgend werden der Erwartungswert und die Varianz der Weibull-Verteilung angegeben, ohne auf die Herleitung näher einzugehen. Erwartungswert und Varianz der Weibull-Verteilung W (α, β) 1 Erwartungswert: µ = β · Γ 1 + α 2 1 2 Varianz: σ2 = β 2 Γ 1 + − Γ 1+ α α Um diese Formeln anwenden zu können, müssen die entsprechenden Werte der Gamma-Funktion bekannt sein. Diese Funktionswerte sind jedoch nur in speziellen Fällen einfach zu bestimmen; im allgemeinen Fall ist die Verwendung von Rekursionsformeln, Näherungsformeln, tabellierten Werten oder der entsprechenden Taschenrechner-Funktion erforderlich. 1 2 Der nachfolgende Tabelle können die Funktionswerte Γ 1 + sowie Γ 1 + für spezielle Werte des α α Parameters α entnommen werden (jeweils auf vier Nachkommastellen gerundet). α 1 Γ 1+ 2 Γ 1+ 1.0 1.0000 2.0000 1.5 0.9027 1.1906 2.0 0.8862 1.0000 2.5 0.8873 0.9314 3.0 0.8930 0.9027 3.5 0.8997 0.8906 4.0 0.9064 0.8862 α α Beispiel 8.13: Bemerkung: Die Exponentialverteilung (siehe Abschnitt 8.4.6) kann als ein Spezialfall der Weibull-Verteilung betrachtet 1 werden: setzt man nämlich in der Formel (125) speziell α = 1 und β = (mit λ > 0), so entsteht eine Dichteλ funktion vom Typ (124). 47 8.4.8 Gaußsche Normalverteilung Die Gaußsche Normalverteilung (kurz: Normalverteilung) ist eine der wichtigsten Wahrscheinlichkeitsverteilungen. Sie findet vielfach Anwendung in der Praxis. Wenn eine Zufallsvariable durch Überlagerung vieler einzelner, relativ geringer Einflüsse entsteht, kann die Normalverteilung verwendet werden (beispielsweise werden Abweichungen von der Sollmenge bei der Abfüllung von Flüssigkeiten oder Messfehler häufig als normalverteilt angenommen). Die Normalverteilung wird mit Hilfe von zwei Parametern beschrieben. Definition 8.13: Eine stetige ZV X genügt einer Normalverteilung mit den Parametern µ und σ 2 (mit σ > 0), wenn sie die folgende Dichtefunktion besitzt: f (x) = √ (x−µ)2 1 e− 2σ2 2π σ (x ∈ R). (126) Die symbolische Schreibweise für eine mit µ und σ 2 normalverteilte ZV X ist: X ∼ N (µ, σ 2 ). Die Parameter dieser Verteilung sind gleichzeitig auch Kennwerte: µ ist der Erwartungswert und σ 2 die Varianz der genannten Normalverteilung. Im Bild 8.9 ist die Dichtefunktion der Normalverteilung für spezielle Werte der Parameter µ und σ 2 (bzw. σ) dargestellt. f (x) Symmetrieachse 6 0.8 Dichtefunktion f (x) mit µ = 3, σ = 0.5 0.53 Dichtefunktion f (x) mit µ = 3, σ = 0.75 0 - x 3 Bild 8.9 Die Dichtefunktion f (x) aus (126) besitzt die folgenden Eigenschaften16 : a) f (x) ist spiegelsymmetrisch bezüglich der Geraden x = µ. b) Maximum: bei x1 = µ, Wendepunkte: bei x2,3 = µ ± σ c) Die Gestalt der Dichtefunktion f (x) erinnert an eine Glocke. Man spricht daher auch häufig von der Gaußschen Glockenkurve. d) Der Parameter σ bestimmt Breite und Höhe der Glockenkurve. Es gilt: Je kleiner die Standardabweichung σ ist, umso höher liegt das Maximum und umso steiler fällt die Dichtekurve nach beiden Seiten hin ab (siehe auch Bild 8.9). Die zu der Dichtefunktion (126) gehörige Verteilungsfunktion F (x) lautet (siehe dazu die Formeln (110) und (126)): ˆx F (x) = P (X ≤ x) = −∞ 1 f (t) dt = √ 2π σ ˆx e− (t−µ)2 2σ 2 dt . (127) −∞ Das Integral auf der rechten Seite dieser Gleichung ist nicht in geschlossener Form lösbar. Dieses Problem kann jedoch umgangen werden, indem eine Rückführung auf die standardisierte Normalverteilung mit den Parametern µ = 0 und σ 2 = 1 vorgenommen wird. Die Dichtefunktion der standardisierten Normalverteilung wird mit ϕ(x) bezeichnet. Durch Einsetzen der Parameter µ = 0 und σ 2 = 1 in die Formel (126) erhält man: 2 ϕ(x) = √ 16 x (x−0)2 1 1 − e− 2·1 = √ · e 2 . 2π · 1 2π (128) Quelle: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 5. Auflage, S. 369 48 Im Bild 8.10 ist die Dichtefunktion ϕ(x) der standardisierten Normalverteilung dargestellt. ϕ(x) 6 0.4 q −1 0 1 - x Bild 8.10 Die Dichtefunktion ϕ(x) hat folgende Eigenschaften: a) ϕ(x) ist eine gerade Funktion, d.h. ϕ(x) = ϕ(−x) (da die Symmetrieachse mit der Geraden x = 0, d.h. mit der y-Achse zusammenfällt). b) Maximum: bei x1 = 0, Wendepunkte: bei x2,3 = ±1 Die zu der Funktion ϕ(x) gehörige Verteilungsfunktion wird mit dem Symbol Φ(x) bezeichnet. Aus (127), jetzt speziell mit f (t) = ϕ(t), sowie (128) ergibt sich: ˆx Φ(x) = P (X ≤ x) = −∞ 1 f (t) dt = √ 2π ˆx t2 e− 2 dt . (129) −∞ Diese Funktion wird auch häufig Gaußsches Fehlerintegral genannt. Zusammenhang zwischen den Verteilungsfunktionen F (x) und Φ(x) Zwischen der Verteilungsfunktion F (x) einer Normalverteilung mit den Parametern µ und σ 2 (siehe Formel (127)) und der Verteilungsfunktion Φ(x) der standardisierten Normalverteilung mit den Parametern µ = 0 und σ 2 = 1 (siehe Formel (129)) besteht der folgende Zusammenhang: x−µ F (x) = Φ . (130) σ Die Verteilungsfunktion Φ(x) ist tabelliert (siehe z.B.: H.-J. BARTSCH . Taschenbuch mathematischer Formeln für Ingenieure und Naturwissenschaftler, 21. Auflage, S. 789). Daher muss, wenn der Funktionswert F (x) bei x−µ x−µ vorgegebenen Parametern µ und σ 2 zu ermitteln ist, lediglich der Wert ausgerechnet und dann Φ σ σ aus der Tabelle entnommen werden. x−µ Bei der Berechnung von können auch negative Zahlen entstehen. Solche sind in der Tabelle nicht aufgeσ führt, aber es kann die folgende wichtige Beziehung zu Hilfe genommen werden: Für die Werte der Verteilungsfunktion Φ(x) der standardisierten Normalverteilung gilt allgemein: Φ(−x) = 1 − Φ(x) für x > 0. (131) Beispiel 8.14: Bei Betrachtung der Funktionsbilder der Dichtefunktionen f (x) und ϕ(x) (siehe Bild 8.9 und Bild 8.10) bemerkt man, dass für solche x-Werte, die nahe bei µ liegen, die Werte dieser Dichtefunktionen relativ groß sind (im Vergleich zu Werten von f (x) und ϕ(x), wenn x weit entfernt“ von µ ist). Mit anderen Worten: die Wahr” scheinlichkeit, dass eine normalverteilte ZV X Werte annimmt, die nahe bei dem Erwartungswert µ liegen, ist relativ hoch. Dies gibt Anlass zu der folgenden Fragestellung: Mit welcher Wahrscheinlichkeit hat ein Wert einer normalverteilten ZV X vom Erwartungswert µ einen Abstand, der kleiner als ein vorgegebenes ε > 0 ist ? 49 Diese Frage kann wie folgt beantwortet werden17 , wenn man für ε bestimmte Vielfache der Standardabweichung σ nimmt. Für jede ZV X, die einer Normalverteilung mit den Parametern µ und σ 2 genügt, gilt: P (|X − µ| < σ) = 2Φ(1) − 1 = 0.6827 P (|X − µ| < 2σ) = 2Φ(2) − 1 = 0.9545 (132) P (|X − µ| < 3σ) = 2Φ(3) − 1 = 0.9973 . Daraus kann die folgende Schlussfolgerung gezogen werden: Bei einer normalverteilten Zufallsvariablen liegen 99.73 % aller Werte (d.h. fast alle Werte) innerhalb der 3σ-Grenzen. Die letzte Gleichung in (132) wird auch 3σ-Regel“ genannt. Sie spielt eine wichtige Rolle in der statistischen ” Qualitätssicherung. Begründung zu (132): Es gelte: X ∼ N (µ, σ 2 ). Um die Wahrscheinlichkeit P (|X − µ| < ε) zu berechnen, wird ε = kσ gesetzt, eine neue ZV Y eingeführt und der Zusammenhang mit der standardisierten Normalverteilung (vgl. (130)) genutzt: |X − µ| P (|X − µ| < kσ) = P < k = P (|Y | < k) = P (−k < Y < k) σ = P (Y < k) − P (Y < −k) = Φ(k) − Φ(−k) = Φ(k) − (1 − Φ(k)) = 2Φ(k) − 1 . Die obigen Aussagen ergeben sich nun, indem man in dieser Gleichung nacheinander k = 1, k = 2 und k = 3 setzt und den entsprechenden Wert von Φ(k) ermittelt. Ergänzung zum Beispiel 8.14: Im Abschnitt 8.4.2 wurde ausgeführt, dass die Binomialverteilung durch die rechnerisch bequemere PoissonVerteilung angenähert werden kann. Zwischen der Binomialverteilung und der Normalverteilung besteht ebenfalls ein Zusammenhang, der eine Approximation erlaubt. Zusammenhang zwischen Binomialverteilung und Normalverteilung Die Binomialverteilung mit den Parametern n und p kann, falls die Bedingung n · p · (1 − p) > 9 (133) erfüllt ist, durch die Normalverteilung mit den Parametern µ = np und approximiert werden. σ2 = np(1 − p) Die Besonderheit besteht darin, dass jetzt eine stetige Wahrscheinlichkeitsverteilung zur Approximation der Binomialverteilung (die ja bekanntlich eine diskrete Wahrscheinlichkeitsverteilung ist) verwendet wird. Dies ist auch der Grund dafür, dass bei der Berechnung von Wahrscheinlichkeiten mit Hilfe dieser Approximation eine Stetigkeitskorrektur vorgenommen werden muss. Es gilt die nachfolgend genannte Näherungsformel. Näherungsformel zur Berechnung von Wahrscheinlichkeiten bei der Binomialverteilung Die ZV X sei binomialverteilt mit den Parametern n und p, wobei die Ungleichung (133) erfüllt sein soll. Dann kann zur Berechnung der Wahrscheinlichkeit P (a ≤ X ≤ b) die Formel a − 0.5 − µ b + 0.5 − µ −Φ (134) P (a ≤ X ≤ b) ≈ Φ σ σ verwendet werden (Φ: Verteilungsfunktion der standardisierten Normalverteilung, siehe (129)). Die Stetigkeitskorrektur wird durch die Summanden +0.5 bzw. −0.5 in der Formel (134) realisiert. Beispiel 8.15: 17 Quelle: W. L EUPOLD (Hrsg.). Mathematik - ein Studienbuch für Ingenieure (Band 2: Reihen - Differentialgleichungen - Analysis für mehrere Variable - Stochastik), 2. Auflage, S. 382 50 8.5 Aussagen über Summen und Produkte von Zufallsvariablen In den bisherigen Ausführungen wurde stets von genau einer ZV ausgegangen. Bei praktischen Anwendungen liegt jedoch häufig die Situation vor, dass mehrere ZV auftreten, welche dann z.B. addiert oder multipliziert werden. Zielstellung dieses Abschnittes ist es, die Kennzahlen von Summen oder Produkten von ZV anzugeben. Eine große Bedeutung kommt dabei auch dem Zentralen Grenzwertsatz (siehe Abschnitt 8.5.2) zu. 8.5.1 Kennwerte von Summen und Produkten von Zufallsvariablen Zunächst sei bemerkt, dass die Summe bzw. das Produkt von Zufallsvariablen wiederum eine Zufallsvariable ist. Bevor Aussagen über den Erwartungswert und die Varianz dieser neuen“ ZV getroffen werden, wird der Begriff ” der Unabhängigkeit zweier ZV eingeführt. Dazu ist es erforderlich, mehrdimensionale Verteilungsfunktionen (d.h. Verteilungsfunktionen, die von mehr als einer Variablen abhängen) zu betrachten. Seien X und Y zwei ZV, so kann aus diesen ein zweidimensionaler Zufallsvektor (X, Y ) gebildet werden. Dieser kann vollständig durch die Verteilungsfunktion F (x, y) = P (X ≤ x, Y ≤ y) (135) beschrieben werden18 . Definition 8.14: Seien X und Y Zufallsvariable mit den zugehörigen Verteilungsfunktionen FX (x) und FY (y). Weiterhin sei F (x, y) die Verteilungsfunktion des aus X und Y gebildeten zweidimensionalen Zufallsvektors (X, Y ) (siehe (135)). Die Zufallsvariablen X und Y heißen (stochastisch) unabhängig, wenn für alle x und y die folgende Bedingung erfüllt ist: F (x, y) = FX (x) · FY (y) . (136) Die Beziehung (136) ist das Analogen zur (stochastischen) Unabhängigkeit von Ereignissen (siehe dazu Abschnitt 7.3.3), denn sie sagt aus, dass die Ereignisse A : X ≤ x“ und B : Y ≤ y “ unabhängig sind. ” ” Die Aussage von Definition 8.14 lässt sich auf eine endliche Anzahl n von Zufallsvariablen übertragen. Für die Summe von n Zufallsvariablen gelten die folgenden Aussagen. Additionssatz für Erwartungswerte Seien X1 , X2 , . . ., Xn (diskrete oder stetige) Zufallsvariable mit den Erwartungswerten µ1 = E(X1 ), µ2 = E(X2 ), . . . , µn = E(Xn ). Dann besitzt die Summe Z = X1 + X2 + . . . + Xn dieser Zufallsvariablen den Erwartungswert E(Z) = E(X1 + X2 + . . . + Xn ) = E(X1 ) + E(X2 ) + . . . + E(Xn ) (137) (d.h. es gilt: E(Z) = µZ = µ1 + µ2 + . . . + µn ). Additionssatz für Varianzen Seien X1 , X2 , . . ., Xn (diskrete oder stetige) Zufallsvariable mit den Varianzen σ12 = Var(X1 ), σ22 = Var(X2 ), . . . , σn2 = Var(Xn ). Weiterhin wird vorausgesetzt, dass diese Zufallsvariablen stochastisch unabhängig sind. Dann besitzt die Summe Z = X1 + X2 + . . . + Xn dieser Zufallsvariablen die Varianz Var(Z) = Var(X1 + X2 + . . . + Xn ) = Var(X1 ) + Var(X2 ) + . . . + Var(Xn ) (138) (d.h. es gilt: Var(Z) = σZ2 = σ12 + σ22 + . . . + σn2 ). Man beachte, dass der Additionssatz für Varianzen nur im Fall der Unabhängigkeit der ZV X1 , X2 , . . ., Xn gilt. Beispiel 8.16: 18 Auf die allgemeinen Eigenschaften einer solchen Verteilungsfunktion sowie auf die zugehörige Dichtefunktion wird an dieser Stelle nicht eingegangen. Es sei auf die folgende Literaturstelle verwiesen: L. PAPULA. Mathematik für Ingenieure und Naturwissenschaftler, Band 3, 5. Auflage, Kapitel II, Abschnitt 7.2. 51 Multiplikationssatz für Erwartungswerte Seien X1 , X2 , . . ., Xn (diskrete oder stetige) Zufallsvariable mit den Erwartungswerten µ1 = E(X1 ), µ2 = E(X2 ), . . . , µn = E(Xn ). Außerdem wird vorausgesetzt, dass diese Zufallsvariablen stochastisch unabhängig sind. Dann besitzt das Produkt Z = X1 ·X2 ·. . .·Xn dieser Zufallsvariablen den Erwartungswert E(Z) = E(X1 · X2 · . . . · Xn ) = E(X1 ) · E(X2 ) · . . . · E(Xn ) (139) (d.h. es gilt: E(Z) = µZ = µ1 · µ2 · . . . · µn ). Bisher wurden zwar Aussagen über den Erwartungswert bzw. die Varianz einer Summe von ZV getroffen, aber die genannten Sätze gaben keine Auskunft über die Wahrscheinlichkeitsverteilung (d.h. den Typ der Verteilungsfunktion) dieser Summe. Wenn weitere Voraussetzungen getroffen werden, kann ggf. auch die Wahrscheinlichkeitsverteilung einer Summe von ZV benannt werden. Der folgende Fall ist für praktische Anwendungen von großer Bedeutung. Aussagen über die Summe von unabhängigen und normalverteilten ZV Die Zufallsvariablen X1 , X2 , . . ., Xn seien unabhängig und normalverteilt mit den Erwartungswerten µ1 , µ2 , . . . , µn und den Varianzen σ12 , σ22 , . . . , σn2 . Die Summe Z = X1 + X2 + . . . + Xn dieser Zufallsvariablen unterliegt dann ebenfalls einer Normalverteilung. Die Parameter dieser Normalverteilung sind: µZ = µ1 + µ2 + . . . + µn sowie σZ2 = σ12 + σ22 + . . . + σn2 . Beispiel 8.17: 8.5.2 Zentraler Grenzwertsatz Im folgenden wird die Voraussetzung, dass die ZV einer Normalverteilung unterliegen müssen, fallengelassen. Es wird nur verlangt, dass alle betrachteten ZV unabhängig sind und die gleiche (ggf. aber unbekannte!) Verteilungsfunktion besitzen. Zentraler Grenzwertsatz der Wahrscheinlichkeitsrechnung Seien X1 , X2 , . . ., Xn unabhängige Zufallsvariable, die alle der gleichen Verteilungsfunktion mit dem Erwartungswert µ und der Varianz σ 2 genügen. Dann konvergiert die Verteilungsfunktion der standardisierten Zufallsvariablen Zn = X1 + X2 + . . . + Xn − nµ √ für n → ∞ gegen die Verteilungsfunktion Φ nσ der standardisierten Normalverteilung. Bei praktischen Anwendungen wird anstelle der Grenzwertbetrachtung n → ∞ häufig die Faustregel angewendet, dass für die Anzahl n der ZV gelten soll: n ≥ 30. Dann kann davon ausgegangen werden, dass die Summe X1 + X2 + . . . + Xn der ZV annähernd einer Normalverteilung mit den Parametern nµ und nσ 2 genügt. Beispiel 8.18: Bemerkung: Die im Zentralen Grenzwertsatz angegebenen Voraussetzungen können auch noch abgeschwächt werden; dazu sei auf die folgende Literaturstelle verwiesen: K. B OSCH. Statistik-Taschenbuch, 3. Auflage, S. 334-335. 52 Literaturverzeichnis Das Vorlesungsskript wurde unter Verwendung der nachfolgend aufgeführten Literatur erstellt: H.-J. BARTSCH: Taschenbuch Mathematischer Formeln für Ingenieure und Naturwissenschaftler. Fachbuchverlag Leipzig im Carl Hanser Verlag, 21. Auflage, 2007. K. B OSCH: Großes Lehrbuch der Statistik. R. Oldenbourg Verlag, 1996. K. B OSCH: Statistik-Taschenbuch. R. Oldenbourg Verlag, 3. Auflage, 1998. K. D ÜRRSCHNABEL: Mathematik für Ingenieure - Eine Einführung mit Anwendungs- und Alltagsbeispielen. B. G. Teubner Verlag, 1. Auflage, 2004. G. E NGELN -M ÜLLGES , W. S CH ÄFER , G. T RIPPLER: Kompaktkurs Ingenieurmathematik mit Wahrscheinlichkeitsrechnung und Statistik. Fachbuchverlag Leipzig im Carl Hanser Verlag, 3. Auflage, 2004. A. F ETZER , H. F R ÄNKEL: Mathematik 2: Lehrbuch für ingenieurwissenschaftliche Studiengänge. Springer, 6. Auflage, 2009. W. L EUPOLD (Hrsg.): Mathematik - ein Studienbuch für Ingenieure (Band 1: Algebra - Geometrie - Analysis für eine Variable). Fachbuchverlag Leipzig im Carl Hanser Verlag, 2. Auflage, 2011. W. L EUPOLD (Hrsg.): Mathematik - ein Studienbuch für Ingenieure (Band 2: Reihen - Differentialgleichungen - Analysis für mehrere Variable - Stochastik). Fachbuchverlag Leipzig im Carl Hanser Verlag, 2. Auflage, 2006. B. L UDERER , U. W ÜRKER : Einstieg in die Wirtschaftsmathematik. Teubner, 6. Auflage, 2005. G. M ERZIGER , G. M ÜHLBACH , D. W ILLE , T H . W IRTH: Formeln + Hilfen zur höheren Mathematik. Binomi Verlag, 5. Auflage, 2007. K. M EYBERG , P. VACHENAUER: Höhere Mathematik 1 (Differential- und Integralrechnung, Vektor- und Matrizenrechnung). Springer, 5. Auflage, 1999. G. M ÜHLBACH: Stochastik - Ein Zugang über Beispiele. Binomi Verlag, 1. Auflage, 2011. P.H. M ÜLLER: Lexikon der Stochastik. Akademie Verlag, 5. Auflage, 1991. L. PAPULA : Mathematik für Ingenieure und Naturwissenschaftler: Ein Lehr- und Arbeitsbuch für das Grundstudium (Band 1). Vieweg+Teubner, 12. Auflage, 2009. L. PAPULA : Mathematik für Ingenieure und Naturwissenschaftler: Ein Lehr- und Arbeitsbuch für das Grundstudium (Band 2). Vieweg+Teubner, 12. Auflage, 2009. L. PAPULA : Mathematik für Ingenieure und Naturwissenschaftler: Ein Lehr- und Arbeitsbuch für das Grundstudium (Band 3). Vieweg+Teubner, 5. Auflage, 2008. W. P REUSS , G. W ENISCH (Hrsg.): Lehr- und Übungsbuch Mathematik (Band 2: Analysis). Fachbuchverlag Leipzig im Carl Hanser Verlag, 3. Auflage, 2003. W. P REUSS , G. W ENISCH (Hrsg.): Lehr- und Übungsbuch Mathematik (Band 3: Lineare Algebra - Stochastik). Fachbuchverlag Leipzig im Carl Hanser Verlag, 2. Auflage, 2001. M. R ICHTER : Grundwissen Mathematik für Ingenieure. Teubner, 2. Auflage, 2009. P. S TINGL : Mathematik für Fachhochschulen. Hanser, 8. Auflage, 2009. R. S TORM : Wahrscheinlichkeitsrechnung, mathematische Statistik und statistische Qualitätskontrolle. Fachbuchverlag Leipzig im Carl Hanser Verlag, 12. Auflage, 2007. J. T IETZE : Einführung in die angewandte Wirtschaftsmathematik. Vieweg+Teubner, 14. Auflage, 2008. 53