MAE4 Mathematik: Analysis für Ingenieure 4 Christoph Kirsch 29. Mai 2015 Inhaltsverzeichnis I Stochastik 2 1 Wahrscheinlichkeitsrechnung (Forts.) 1.1 Zufallsvariablen und Verteilungen . . . . . . . . . . . . . . . . . . 1.1.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . 1.1.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . 1.1.3 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . 1.1.4 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . 1.2 Verteilungen von Zufallsvariablen in MATLAB . . . . . . . . . . 1.3 Transformationen von Zufallsvariablen . . . . . . . . . . . . . . . 1.3.1 Lineare Transformationen . . . . . . . . . . . . . . . . . . 1.3.2 Anwendung: Transformation auf die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Nichtlineare Transformationen . . . . . . . . . . . . . . . 1.4 Quantilfunktion und Masszahlen von Verteilungen . . . . . . . . 1.4.1 Quantilfunktion . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2 Lagemasse und Streuungsmasse . . . . . . . . . . . . . . . 1.5 Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen . 1.5.1 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . 1.5.2 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . 1.6 Transformationen von Zufallsvektoren . . . . . . . . . . . . . . . 1.6.1 Masszahlen der Transformierten . . . . . . . . . . . . . . 1.6.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . 1.6.3 Verteilung der Transformierten . . . . . . . . . . . . . . . 1.6.4 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . 3 3 3 12 17 22 24 26 26 27 28 30 30 33 42 43 52 56 57 64 65 65 2 Statistik 68 2.1 Erzeugung von Pseudo-Zufallszahlen in MATLAB . . . . . . . . 68 2.2 Deskriptive Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.3 Schliessende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 71 1 INHALTSVERZEICHNIS 2.3.1 2.3.2 2.3.3 2.3.4 II Parameterschätzung . Vertrauensintervalle . Parameterschätzung in Statistische Tests . . . 2 . . . . . . . . . . . . . . MATLAB . . . . . . . . . . . . . . . . Funktionen von mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 77 82 83 91 3 Niveaumengen, partielle Ableitungen 91 4 Partielle Ableitungen höherer Ordnung 94 5 Differenzialoperatoren 95 6 Ableitungsregeln 99 7 Kurven entlang von Flächen 100 8 Beispiele für partielle Differenzialgleichungen 106 9 Mehrdimensionale Integration 107 Überblick In diesem vierten und letzten Teil einer viersemestrigen Vorlesung über Analysis für Ingenieure werden die Stochastik sowie Funktionen von mehreren Variablen und die Vektoranalysis als Hauptthemen behandelt. Die Stochastik umfasst die Gebiete Wahrscheinlichkeitsrechnung und Statistik. Die elementare Wahrscheinlichkeitsrechnung aus MAE3 wird hier fortgesetzt, um auch überabzählbar unendliche Ergebnismengen behandeln zu können. Danach werden Zufallsvariablen sowie Verteilungen eingeführt. In diesem Zusammenhang lernen Sie wichtige Kennzahlen wie den Erwartungswert oder die Varianz kennen. In der Statistik werden die Themen Schätztheorie und statistische Tests behandelt. Die Differenzialrechnung für Funktionen von mehreren Variablen wurde in MAE3 eingeführt. Sie wird hier fortgesetzt mit der Einführung der wichtigsten Differenzialoperatoren sowie der mehrdimensionalen Integration. Auch die Integralsätze von Gauss und Stokes werden behandelt. Schliesslich werden ausgewählte Beispiele von partiellen Differenzialgleichungen behandelt, bei denen – im Gegensatz zu den gewöhnlichen Differenzialgleichungen aus MAE3 – die gesuchte Funktion von mehreren Variablen abhängt. Einige der in dieser Vorlesung behandelten Themen sollten in Ihrer Vorlesung FTH3 direkte Anwendung finden. 3 Teil I Stochastik 1 Wahrscheinlichkeitsrechnung (Forts.) 1.1 1.1.1 Zufallsvariablen und Verteilungen Diskrete Zufallsvariablen Wie in MAE3, Kap. 8, betrachten wir Zufallsexperimente (MAE3, Def. 24) mit einer abzählbaren Ergebnismenge, oder anders gesagt einen sog. diskreten Wahrscheinlichkeitsraum, d. h. ein Tripel (Ω, Σ, P ) mit • einer abzählbaren Ergebnismenge Ω = {ω1 , ω2 , . . . }, • dem Ereignisfeld Σ := P(Ω) (MAE3, Def. 25–27) und • einem Wahrscheinlichkeitsmass P auf (Ω, Σ) (MAE3, Def. 29), P : Σ → [0, 1] (konstruiert nach MAE3, Satz 8). Für ein beliebiges Ereignis A ∈ Σ ist P (A) ∈ [0, 1] die Wahrscheinlichkeit dafür, dass es eintritt. Im hier betrachteten Spezialfall Σ = P(Ω) ist jede Teilmenge von Ω auch ein Ereignis (A ⊆ Ω ⇒ A ∈ Σ). Dies wird insbesondere für überabzählbar unendliche Ergebnismengen Ω nicht mehr der Fall sein. Beispiel: Aus einer Urne mit 10 Kugeln (3 rote, 7 blaue) werden zufällig 3 Kugeln gezogen (mit Zurücklegen). Für jede einzelne Ziehung gibt es zwei mögliche Ergebnisse, “rot” (r) oder “blau” (b). Wir betrachten Variationen mit Wiederholung (MAE3, Kap. 9), d. h. geordnete Tripel, z. B. (r, b, b). Die Ergebnismenge dieses Zufallsexperiments ist also gegeben durch Ω = {r, b}3 = = {(r, r, r), (r, r, b), (r, b, r), (b, r, r), (r, b, b), (b, r, b), (b, b, r), (b, b, b)} , mit Mächtigkeit |Ω| = V ∗ (2; 3) = 23 = 8. Die Ergebnismenge Ω ist endlich, also abzählbar. Wir definieren das Ereignisfeld Σ := P(Ω) mit Mächtigkeit |Σ| = 2|Ω| = 256. Nach MAE3, Satz 8, ist ein Wahrscheinlichkeitsmass P : Σ → [0, 1] eindeutig festgelegt durch seine Werte auf den Elementarereignissen (einelementige Teilmengen von Ω, z. B. {(r, b, r)} ∈ Σ). Unter der Annahme, dass jede einzelne der 10 Kugeln mit gleicher Wahrscheinlichkeit 1/10 gezogen wird, erhalten wir P ({(r, r, r)}) = 3 10 2 3 3 7 10 10 2 3 7 P ({(r, b, b)}) = P ({(b, r, b)}) = P ({(b, b, r)}) = 10 10 P ({(r, r, b)}) = P ({(r, b, r)}) = P ({(b, r, r)}) = = 27 , 1000 = 63 , 1000 = 147 , 1000 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) P ({(b, b, b)}) = 7 10 3 = 4 343 . 1000 Es gilt wie erwartet P (Ω) = 27 63 147 343 +3 +3 + = 1. 1000 1000 1000 1000 Wegen der σ-Additivität des Wahrscheinlichkeitsmasses (MAE3, Def. 29, 2.) ist dann z. B. die Wahrscheinlichkeit des Ereignisses A := “genau zwei rote Kugeln” gegeben durch P (A) = P ({(r, r, b), (r, b, r), (b, r, r)}) = P ({(r, r, b)} ∪ {(r, b, r)} ∪ {(b, r, r)}) σ-Additivität = = P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)}) 63 63 189 63 + + = ' 19 %. 1000 1000 1000 1000 Auf einem solchen Wahrscheinlichkeitsraum (Ω, Σ, P ) definieren wir jetzt sog. Zufallsvariablen. Sie werden es uns erlauben, mit reellen Zahlen anstatt mit Elementen einer i. A. komplizierten Ergebnismenge Ω zu rechnen. Definition 1 (diskrete reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum mit einer abzählbaren Ergebnismenge Ω und mit Σ = P(Ω). Eine diskrete reelle Zufallsvariable ist eine Funktion X : Ω → R. Bemerkungen: • Die Zufallsvariable X ordnet jedem Ergebnis ω ∈ Ω genau einen Wert X(ω) ∈ R zu (vgl. MAE1, Def. 12). • Weil die Ergebnismenge Ω nach Voraussetzung abzählbar ist, so ist auch das Bild der Zufallsvariablen X, Ω0 := im(X) = {X(ω) | ω ∈ Ω} ⊆ R (MAE1, Def. 13), abzählbar. Es kann daher in der Form Ω0 = {x1 , x2 , . . . } dargestellt werden. Beispiele: 1. Im Beispiel von oben können wir die Zufallsvariable X : Ω → R als X := “Anzahl gezogene rote Kugeln” definieren. Es gelten dann z. B. X ((r, r, r)) = 3, X ((b, b, b)) = 0, Das Bild von X ist Ω0 = im(X) = {0, 1, 2, 3}. X ((b, r, r)) = 2. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 5 2. Ein fairer Würfel werde 5-mal geworfen. Die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6} besteht also aus |Ω| = V ∗ (6; 5) = 65 = 7776 geordneten 5-Tupeln (Variation mit Wiederholung), z. B. ω := (2, 1, 4, 5, 5) ∈ Ω. Die Zufallsvariable X : Ω → R sei jetzt definiert als 5 X := “Anzahl der Würfe mit Augenzahl 1”, also z. B. X ((3, 4, 1, 1, 6)) = 2, X ((1, 1, 3, 4, 1)) = 3, X ((3, 3, 5, 2, 4)) = 0. Das Bild der Zufallsvariablen X ist gegeben durch Ω0 = im(X) = {0, 1, 2, 3, 4, 5}. 3. Zwei unterscheidbare, faire Würfel werden gleichzeitig geworfen. Die Er2 gebnismenge Ω = {1, 2, 3, 4, 5, 6} besteht also aus |Ω| = V ∗ (6; 2) = 62 = 36 geordneten Paaren. Die Zufallsvariable X : Ω → R sei jetzt definiert als X := “Augensumme der beiden Würfel”, also z. B. X ((1, 1)) = 2, X ((3, 6)) = 9, X ((4, 5)) = 9, X ((6, 6)) = 12. Das Bild der Zufallsvariablen X ist Ω0 = im(X) = {2, 3, 4, . . . , 12}. Anstatt die Ergebnisse ω ∈ Ω des ursprünglichen Zufallsexperiments direkt zu betrachten, können wir jetzt auch die Werte der Zufallsvariablen X, x ∈ Ω0 = im(X) ⊆ R, als Ergebnisse eines neuen Zufallsexperiments auffassen: Ergebnismenge (abzählbar!) Ereignisfeld Elementarereignisse Wahrscheinlichkeitsmass Wahrscheinlichkeitsraum ursprüngliches Zufallsexperiment Ω Σ = P(Ω) {ω} ∈ Σ, ω ∈ Ω P : Σ → [0, 1] (Ω, Σ, P ) neues Zufallsexperiment Ω0 = im(X) ⊆ R Σ0 = P(Ω0 ) {x} ∈ Σ0 , x ∈ Ω0 PX : Σ0 → [0, 1] (Ω0 , Σ0 , PX ) Das (durch X induzierte) Wahrscheinlichkeitsmass PX auf (Ω0 , Σ0 ), PX : Σ0 → [0, 1], ist definiert durch PX (A) := P ({ω ∈ Ω | X(ω) ∈ A}) = P X −1 (A) = P ◦ X −1 (A), (1) für A ∈ Σ0 , wobei X −1 (A) ∈ Σ das Urbild von A unter X bezeichnet (MAE1, Def. 13) und P ◦X −1 die Komposition (Hintereinanderausführung) der Funktionen X −1 und P (MAE1, Def. 15). Gemäss MAE3, Satz 8, ist PX bereits durch seine Werte auf den Elementarereignissen {x} ∈ Σ0 eindeutig festgelegt. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 6 Beispiele: Wir berechnen diese Werte für die Zufallsvariablen aus den vorherigen Beispielen. 1. Das Bild von X ist Ω0 = im(X) = {0, 1, 2, 3}, also müssen wir die Werte von PX für die Elementarereignisse {0}, {1}, {2}, {3} ∈ Σ0 = P(Ω0 ) berechnen. Wir bestimmen zuerst die Urbilder dieser Elementarereignisse: X −1 ({0}) = {ω ∈ Ω | X(ω) = 0} = {(b, b, b)} ∈ Σ = P(Ω), X −1 ({1}) = {ω ∈ Ω | X(ω) = 1} = {(r, b, b), (b, r, b), (b, b, r)} ∈ Σ, X −1 ({2}) = {ω ∈ Ω | X(ω) = 2} = {(r, r, b), (r, b, r), (b, r, r)} ∈ Σ, X −1 ({3}) = {ω ∈ Ω | X(ω) = 3} = {(r, r, r)} ∈ Σ. Jetzt berechnen wir die Werte von PX für die Elementarereignisse in Σ0 mit (1), der σ-Additivität von P sowie mit Hilfe der vorher berechneten Werte von P für die Elementarereignisse in Σ: PX ({1}) 343 = P X −1 ({0}) = P ({(b, b, b)}) = ' 34 %, 1000 = P X −1 ({1}) = P ({(r, b, b), (b, r, b), (b, b, r)}) PX ({2}) = P ({(r, b, b)}) + P ({(b, r, b)}) + P ({(b, b, r)}) 441 147 + 147 + 147 = ' 44 %, = 1000 1000 = P X −1 ({2}) = P ({(r, r, b), (r, b, r), (b, r, r)}) PX ({0}) = PX ({3}) P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)}) 189 63 + 63 + 63 = ' 19 %, = 1000 1000 27 = P X −1 ({3}) = P ({(r, r, r)}) = = 2.7 %. 1000 Das Wahrscheinlichkeitsmass PX auf (Ω0 , Σ0 ) lässt sich mit einem Stabdiagramm darstellen (MATLAB-Befehl stem): 0.45 0.4 0.35 PX({x}) 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 x Mit der σ-Additivität von PX können wir jetzt auch Wahrscheinlichkeiten 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 7 von weiteren Ereignissen berechnen, z. B. PX (“höchstens 2 rote Kugeln”) = PX ({0, 1, 2}) = PX ({0}) + PX ({1}) + PX ({2}) 343 + 441 + 189 973 = ' 97 %, = 1000 1000 PX (“mindestens 2 rote Kugeln”) = PX ({2, 3}) = PX ({2}) + PX ({3}) 189 + 27 27 = = ' 22 %. 1000 125 Für diese Berechnungen wird das ursprüngliche Wahrscheinlichkeitsmass P nicht mehr benötigt. 2. Bei einem fairen Würfel hat jedes Elementarereignis dieselbe Wahrscheinlichkeit 5 1 1 1 = ' 0.013 %, ω ∈ Ω = {1, 2, 3, 4, 5, 6}5 . P ({ω}) = = 6 7776 |Ω| Es handelt sich hier daher um ein Laplace-Experiment (MAE3, Kap. 8). Die Werte des Wahrscheinlichkeitsmasses PX sind daher gegeben durch X −1 (A) −1 PX (A) = P X (A) = , A ∈ Σ0 = P(Ω0 ). |Ω| Wir müssen daher nur die Mächtigkeit der Urbilder bestimmen und nicht die Urbilder selbst. Dazu verwenden wir die abzählende Kombinatorik (MAE3, Kap. 9). Gemäss MAE3, Satz 8, ist PX eindeutig festgelegt durch seine Werte auf den Elementarereignissen {0}, {1}, . . . , {5} ∈ Σ0 . Wir berechnen die Mächtigkeiten der Urbilder dieser Elementarereignisse: −1 X ({0}) = |{ω ∈ Ω | X(ω) = 0}| = 55 = 3125, −1 X ({1}) = |{ω ∈ Ω | X(ω) = 1}| = 5 54 = 3125, 1 −1 X ({2}) = |{ω ∈ Ω | X(ω) = 2}| = 5 53 = 1250, 2 −1 X ({3}) = |{ω ∈ Ω | X(ω) = 3}| = 5 52 = 250, 3 −1 X ({4}) = |{ω ∈ Ω | X(ω) = 4}| = 5 51 = 25, 4 −1 X ({5}) = |{ω ∈ Ω | X(ω) = 5}| = 5 50 = 1. 5 Damit erhalten wir PX ({xi }) = −1 X ({xi }) |Ω| , xi = 0, 1, 2, 3, 4, 5, WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 8 P6 mit i=1 PX ({xi }) = 1. Wir stellen das Wahrscheinlichkeitsmass PX in Tabellenform sowie als Stabdiagramm dar: i xi PX ({xi }) in % (gerundet) 1 0 2 1 3 2 4 3 5 4 6 5 3125 7776 3125 7776 625 3888 125 3888 25 7776 1 7776 40 40 16 3.2 0.32 0.013 0.45 0.4 0.35 0.3 PX({x}) 1 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 x 3. Bei zwei fairen Würfeln betrachten wir wieder ein Laplace-Experiment, −1 d. h. PX (A) = P X −1 (A) = |X 36(A)| , A ∈ Σ0 = P(Ω0 ). Wir bestimmen die Urbilder der Elementarereignisse in Σ0 : X −1 ({2}) = {(1, 1)} , ({3}) = {(1, 2), (2, 1)} , ({4}) = {(1, 3), (2, 2), (3, 1)} , ({5}) = {(1, 4), (2, 3), (3, 2), (4, 1)} , X −1 ({6}) = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} , X −1 X −1 X −1 X −1 ({7}) = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} , X −1 ({8}) = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} , X −1 ({9}) = {(3, 6), (4, 5), (5, 4), (6, 3)} , −1 X ({10}) = X −1 ({11}) = {(4, 6), (5, 5), (6, 4)} , {(5, 6), (6, 5)} , X −1 ({12}) {(6, 6)} . = Damit erhalten wir das folgende Wahrscheinlichkeitsmass PX auf (Ω0 , Σ0 ): i xi PX ({xi }) in % (gerundet) 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 1 36 1 18 1 12 1 9 5 36 1 6 5 36 1 9 1 12 1 18 1 36 2.8 5.6 8.3 11 14 17 14 11 8.3 5.6 2.8 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 9 P11 Es gilt i=1 PX ({xi }) = 1. Das Stabdiagramm für PX sieht folgendermassen aus: 0.18 0.16 0.14 PX({x}) 0.12 0.1 0.08 0.06 0.04 0.02 0 2 3 4 5 6 7 x 8 9 10 11 12 Definition 2 (Wahrscheinlichkeits- und Verteilungsfunktionen) Sei X : Ω → R eine diskrete reelle Zufallsvariable, und sei Ω0 := im(X) ⊆ R (abzählbare Teilmenge der reellen Zahlen). Die Verteilung der Zufallsvariablen X kann dargestellt werden durch • die Wahrscheinlichkeitsfunktion (Zähldichte) fX : Ω0 → [0, 1], x ∈ Ω0 ⊆ R, fX (x) := PX ({x}) = P ({ω ∈ Ω | X(ω) = x}) , oder durch • die (kumulative) Verteilungsfunktion FX : R → [0, 1], X FX (x) := fX (xi ) = P ({ω ∈ Ω | X(ω) ≤ x}) , x ∈ R. xi ∈Ω0 xi ≤x Bemerkungen: • Die Wahrscheinlichkeitsfunktion (Zähldichte) fX haben wir in den vorherigen Beispielen mittels Stabdiagrammen dargestellt. Sie erfüllt X xi ∈Ω0 fX (xi ) = X P ({ω ∈ Ω | X(ω) = xi }) Ω0 =im(X) = P (Ω) = 1. xi ∈Ω0 • fX kann auf ganz R fortgesetzt werden (MAE1, Def. 14). Für x ∈ R \ Ω0 gilt nämlich P ({ω ∈ Ω | X(ω) = x}) x 6∈ im(X) = P (∅) MAE3, Satz 7, 2. also kann man einfach fX (x) := 0, x ∈ R \ Ω0 , setzen. = 0, 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 10 • Mit Hilfe der Wahrscheinlichkeitsfunktion fX können wir die Wahrscheinlichkeit von Ereignissen A ∈ Σ0 berechnen durch ! MAE3, Def. 29, 2. X X [ (σ-Additivität) PX (A) = PX = PX ({xi }) = fX (xi ). {xi } xi ∈A xi ∈A xi ∈A • Oft schreibt man abgekürzt (und mathematisch nicht korrekt) – “P (X = x)” für P ({ω ∈ Ω | X(ω) = x}) = PX ({x}), – “P (X ≤ x)” für P ({ω ∈ Ω | X(ω) ≤ x}), – oder allgemein “P (X ∈ A)” für P ({ω ∈ Ω | X(ω) ∈ A}) = PX (A), A ∈ Σ0 . • Die englischsprachigen Bezeichnungen und Abkürzungen sind – probability mass function (pmf ) für die Wahrscheinlichkeitsfunktion (Zähldichte) fX , – cumulative distribution function (cdf ) für die (kumulative) Verteilungsfunktion FX . In den folgenden Grafiken stellen wir die Wahrscheinlichkeitsfunktion (Zähldichte) fX und die (kumulative) Verteilungsfunktion FX für die vorangehenden Beispiele dar: Beispiel 1 1 0.4 0.35 0.8 FX(x) fX(xi) 0.3 0.25 0.2 0.6 0.4 0.15 0.2 0.1 0.05 0 0 0 1 2 3 xi (Anzahl gezogene rote Kugeln) 0 1 2 3 x Beispiel 2 1 0.4 0.35 0.8 FX(x) fX(xi) 0.3 0.25 0.2 0.6 0.4 0.15 0.2 0.1 0.05 0 0 0 1 2 3 4 5 x (Anzahl der Wuerfe mit Augenzahl 1) 0 1 2 3 4 8 10 5 x i Beispiel 3 1 0.16 0.14 0.8 0.1 FX(x) fX(xi) 0.12 0.08 0.6 0.4 0.06 0.2 0.04 0.02 0 0 2 3 4 5 6 7 8 9 10 11 12 xi (Augensumme der beiden Wuerfel) 2 4 6 x 12 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 11 Offensichtlich hat die (kumulative) Verteilungsfunktion FX (abzählbar viele) Sprungstellen (MAE1, Kap. 3.1) bei x ∈ Ω0 mit Sprunghöhen fX (x). Weitere Eigenschaften von FX sind im folgenden Satz zusammengefasst: Satz 1 (Eigenschaften der Verteilungsfunktion) Sei FX die Verteilungsfunktion einer diskreten reellen Zufallsvariablen X. Dann gelten 1. FX ist monoton wachsend (MAE1, Def. 18), 2. FX ist rechtsstetig: x→x lim FX (x) = FX (x0 ), ∀ x0 ∈ R (vgl. MAE1, Def. 34), 0 x>x0 3. lim FX (x) = 0 und lim FX (x) = 1 (MAE2, Def. 27). x→−∞ x→∞ Wir leiten eine für die Praxis wichtige Rechenregel her: Seien a, b ∈ R, a < b. Dann gilt X X X Def. 2 FX (b) − FX (a) = fX (xi ) − fX (xi ) = fX (xi ) xi ∈Ω0 xi ≤b xi ∈Ω0 xi ≤a xi ∈Ω0 a<xi ≤b Def. 2 = X PX ({xi }) σ-Additivität = xi ∈Ω0 a<xi ≤b = (1) = [ PX {xi } xi ∈Ω0 a<xi ≤b PX ({xi ∈ Ω0 | a < xi ≤ b}) P ({ω ∈ Ω | a < X(ω) ≤ b}) . Also ist die Wahrscheinlichkeit dafür, dass der Wert der Zufallsvariablen X im Intervall (a, b] liegt, gegeben durch die Differenz FX (b) − FX (a): “P (a < X ≤ b)” = P ({ω ∈ Ω | a < X(ω) ≤ b}) = FX (b) − FX (a). (2) Mit Hilfe von Satz 1, 3., kann in (2) der Grenzübergang b → ∞ gemacht werden: “P (X > a)” = P ({ω ∈ Ω | X(ω) > a}) = Def. 2 1 − FX (a) = 1 − P ({ω ∈ Ω | X(ω) ≤ a}) = 1 − “P (X ≤ a)” Dies ist in Übereinstimmung mit der Gegenwahrscheinlichkeit (MAE3, Satz 7, 1.), denn es gilt {ω ∈ Ω | X(ω) > a} = {ω ∈ Ω | X(ω) ≤ a}c . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.1.2 12 Diskrete Verteilungen In der folgenden Tabelle listen wir einige wichtige Verteilungen von diskreten reellen Zufallsvariablen (kurz: “diskrete Verteilungen”) auf: Name(n) Bezeichnung(en) (diskrete) Gleichverteilung UT Bernoulli-Verteilung (J. Bernoulli, 1655–1705) B(1, p), Bernoulli(p) Binomialverteilung B(n, p), Bin(n, p) hypergeometrische Verteilung H(N, M, n), Hyp(N, M, n) negative Binomialverteilung Pascal-Verteilung (B. Pascal, 1623–1662) N B(r, p), NB(r, p) geometrische Verteilung G(p), N B(1, p) Poisson-Verteilung (S. D. Poisson, 1781–1840) P(λ), Poisson(λ) Zähldichte fX Definitionsbereich 1 fX (xi ) = n xi ∈ T (“Träger”) p, k=1 fX (k) = 1 − p, k = 0 k∈ {0, 1} n k fX (k) = p (1 − p)n−k k k ∈ {0, 1, 2, . . . , n} M N −M fX (k) = k n−k N n Parameter T = {x1 , . . . , xn } ⊆ R n∈N p ∈ [0, 1] p ∈ [0, 1] n∈N M, N ∈ N, M ≤ N k ∈ {0, 1, . . . , min{n, M }} n ∈ N, n ≤ N k+r−1 r fX (k) = p (1 − p)k k p ∈ (0, 1] k ∈ N0 r∈N fX (k) = p(1 − p)k p ∈ (0, 1) k ∈ N0 fX (k) = λk −λ e k! λ ∈ R, λ > 0 k ∈ N0 Bemerkungen: • Wenn eine diskrete reelle Zufallsvariable X z. B. binomialverteilt ist mit Parametern n ∈ N und p ∈ [0, 1], so schreiben wir X ∼ B(n, p). Das Symbol ∼ steht hier für “ist verteilt wie”. • Kann eine Zufallsvariable X nur die Werte 0 oder 1 annehmen, so spricht man von einem Bernoulli-Experiment. Bei einem solchen werden der Wert 0 als “Misserfolg” und der Wert 1 als “Erfolg” interpretiert. Die Erfolgswahrscheinlichkeit beträgt p ∈ [0, 1]. Die Zufallsvariable X ist dann Bernoulliverteilt, X ∼ Bernoulli(p). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 13 • Die Binomialverteilung B(n, p) beschreibt die Anzahl der Erfolge in einer Serie von n gleichartigen und unabhängigen Bernoulli-Experimenten. Dabei bezeichnet p ∈ [0, 1] die Erfolgswahrscheinlichkeit jedes einzelnen Versuches. • Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung für n = 1. Deswegen wird auch die Bezeichnung B(1, p) für die Bernoulli-Verteilung verwendet. • Die hypergeometrische Verteilung H(N, M, n) gibt Auskunft darüber, mit welcher Wahrscheinlichkeit in einer Stichprobe vom Umfang n eine bestimmte Anzahl von Elementen vorkommt, die eine gewünschte Eigenschaft haben. Dabei haben in der Grundgesamtheit vom Umfang N genau M Elemente diese Eigenschaft (und N − M Elemente nicht). • Die negative Binomialverteilung N B(r, p) beschreibt für eine Serie von gleichartigen und unabhängigen Bernoulli-Experimenten die Anzahl der Misserfolge, bis r Erfolge erzielt wurden. Dabei bezeichnet p ∈ [0, 1] die Erfolgswahrscheinlichkeit jedes einzelnen Versuches. • Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung für r = 1 (Anzahl der Misserfolge bis zum ersten Erfolg). Deswegen auch die Bezeichnung N B(1, p) für die geometrische Verteilung. • Wegen der Normierungsbedingung für die Zähldichte der negativen Binomialverteilung gilt ∞ ∞ X X k+r−1 k k+r−1 r q:=1−p k −r q . p (1 − p) = 1 =⇒ (1 − q) = k k k=0 k=0 Dies ist eine Verallgmeinerung (nach Newton) der binomischen Formel für negative Exponenten (daher der Name negative Binomialverteilung). Für r = 1 erhält man die geometrische Reihe als Spezialfall. • Die Poisson-Verteilung wird oft verwendet zur Beschreibung von diskreten Ereignissen, zwischen denen ein Zeitintervall mit der mittleren Länge t > 0 liegt. Für eine Poisson-verteilte Zufallsvariable X ∼ P(λ), λ := Tt , ist fX (k) die Wahrscheinlichkeit dafür, dass in einem gegebenen Zeitintervall der Länge T > 0 genau k dieser Ereignisse auftreten. Beispiele: 1. (Gleich- und Bernoulli-Verteilung) Wir betrachten das Zufallsexperiment Einmaliger Wurf mit einem fairen Würfel, sowie die Zufallsvariablen X Y := “Augenzahl”, 1, Augenzahl ≥ 3 (“Erfolg”) := . 0, Augenzahl < 3 (“Misserfolg”) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 14 Die Zufallsvariable X ist gleichverteilt, X ∼ U{1,2,3,4,5,6} , und die Zufallsvariable Y ist Bernoulli-verteilt, Y ∼ B 1, 23 : 2 1 3, k = 1 . fY (k) = (3) fX (xi ) = , xi ∈ {1, 2, 3, 4, 5, 6}, 1 6 3, k = 0 2. (Binomialverteilung) a. Wir betrachten das Zufallsexperiment Ziehung (mit Zurücklegen) von 3 Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln, sowie die Zufallsvariable X := “Anzahl gezogene rote Kugeln”. Interpretieren wir eine gezogene rote Kugel als “Erfolg” (Wahrscheinlichkeit in jeder Ziehung 3/10), so gilt gemäss den Erläuterungen von 3 (Serie von 3 gleichartigen und unabhängigen oben: X ∼ B 3, 10 Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit 3/10): fX (k) = k 3−k 3 3 7 , k 10 10 k fX (k) k = 0, 1, 2, 3, 0 1 2 3 343 1000 441 1000 189 1000 27 1000 b. Wir betrachten das Zufallsexperiment 5-maliger Wurf eines fairen Würfels, sowie die Zufallsvariable X := “Anzahl der Würfe mit Augenzahl 1”. Interpretieren wir eine gewürfelte 1 als “Erfolg” (Wahrscheinlichkeit in jedem Wurf 1/6), so gilt gemäss den Erläuterungen von oben: X ∼ B 5, 16 , also k 5−k 5 1 5 fX (k) = , k 6 6 k fX (k) k = 0, 1, 2, 3, 4, 5, 0 1 2 3 4 5 3125 7776 3125 7776 625 3888 125 3888 25 7776 1 7776 (4) c. Die Zufallsvariable aus Serie 1, Aufg. 1, hat die Verteilung B 6, 53 . Die Zufallsvariable aus Serie 1, Aufg. 2, hat die Verteilung B 3, 12 . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 15 3. (hypergeometrische Verteilung) a. Wir betrachten das Zufallsexperiment Ziehung (ohne Zurücklegen) von 4 Kugeln aus einer Urne mit 3 roten und 17 blauen Kugeln, sowie die Zufallsvariable X := “Anzahl rote Kugeln in der Stichprobe” (vgl. MAE3, Kap. 10, Anwendungsbeispiel “Qualitätskontrolle”). Die Zufallsvariable X ist hypergeometrisch verteilt, X ∼ H(20, 3, 4): 17 3 fX (k) = k fX (k) k 4−k 20 4 , 0 1 2 3 28 57 8 19 8 95 1 285 k = 0, 1, 2, 3, Die Grundgesamtheit besteht hier aus N = 20 Elementen (Kugeln); davon haben M = 3 die gewünschte Eigenschaft (“rot”). Der Stichprobenumfang ist n = 4. b. Die Zufallsvariable aus Serie 1, Aufg. 3, hat die Verteilung H(10, 2, 3). 4. (negative Binomialverteilung) Wir betrachten das Zufallsexperiment Ziehung (mit Zurücklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln, sowie die Zufallsvariable X := “Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden” = “Anzahl Misserfolge, bis 3 Erfolge erzielt wurden”. Wenn die Zufallsvariable X = k ∈ N0 erfüllt, dann müssen • die (k + 3)-te gezogene Kugel rot sein (“Erfolg”) und • von den davor gezogenen k + 2 Kugeln genau k blau sein (“Misserfolge”). Ihre Position ist dabei beliebig. Die Wahrscheinlichkeit, in einer einzelnen Ziehung eine rote Kugel zu zie3 . Es gibt k+2 Möglichkeiten, hen (Erfolgswahrscheinlichkeit) beträgt 10 k die k blauen Kugeln auf die k + 2 Ziehungen zu verteilen. Damit ist die Wahrscheinlichkeit PX ({k}) gegeben durch 3 k k+2 3 7 fX (k) = . k 10 10 Dies gilt für jedes k ∈ N0. Also ist die Zufallsvariable X negativ binomi3 alverteilt, X ∼ N B 3, 10 . WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 16 Ziehung (mit Zuruecklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln 0.1 0.09 0.08 0.07 fX(x) 0.06 0.05 0.04 0.03 0.02 0.01 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 x (Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden) 5. (geometrische Verteilung) a. Im Zufallsexperiment aus Beispiel 4. ist die Anzahl der gezogenen blauen Kugeln bis roten Kugel geometrisch ver zur ersten3gezogenen 3 teilt, X ∼ G 10 = N B 1, 10 . b. Die Zufallsvariable aus Serie 1, Aufg. 4, hat die Verteilung G 45 . 0.8 X ~ NB(1,3/10) X ~ NB(1,4/5) X f (x) 0.6 0.4 0.2 0 0 5 10 15 20 x (Anzahl Misserfolge bis zum 1. Erfolg) 6. (Poisson-Verteilung) Für ein Kaufhaus wurde durch Zählung ermittelt, dass es an einem Samstag von ca. 10 Kunden pro Minute betreten wird. Das Zeitintervall zwischen dem Eintreffen von zwei Kunden hat daher im Mittel die Länge t = 6 s. Die Anzahl der Kunden, die in einem Zeitraum von T = 60 s das Kaufhaus betreten, wird beschrieben durch eine Poissonverteilte Zufallsvariable X ∼ P(λ) mit λ = Tt = 60 6 = 10. im Mittel trifft alle 6 Sekunden ein Kunde ein 0.14 0.12 0.1 0.08 X f (x) 1 0.06 0.04 0.02 0 0 5 10 15 20 25 30 x (Anzahl eintreffende Kunden im Zeitraum von 1 Minute) 35 40 Wie erwartet ist die Wahrscheinlichkeit maximal für k ' 10. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.1.3 17 Stetige Zufallsvariablen Als Beispiel für eine überabzählbar unendliche Ergebnismenge hatten wir in MAE3, Kap. 8, die Wartezeit eines Kunden vor dem Postschalter erwähnt: dort war Ω = [0, T ], wobei T > 0 die Öffnungsdauer des Schalters bezeichnete. Im Falle von überabzählbar unendlichen Ergebnismengen Ω können wir nicht mehr Σ := P(Ω) definieren. Die Potenzmenge P(Ω) ist dann nämlich derart mächtig, dass sich auf ihr kein Wahrscheinlichkeitsmass P : Σ → [0, 1] (MAE3, Def. 29) mehr definieren lässt! Diese Erkenntnis geht auf Arbeiten der drei polnischen Mathematiker S. Banach (1892–1945), K. Kuratowski (1896–1980) und A. Tarski (1901–1983) zurück. Der Inhalt dieser Arbeiten übersteigt den Stoff dieser Vorlesung, so dass wir nicht weiter darauf eingehen. Im Falle einer überabzählbar unendlichen Ergebnismenge betrachten wir daher einen Wahrscheinlichkeitsraum (Ω, Σ, P ) mit einer σ-Algebra (MAE3, Def. 26) Σ ⊆ P(Ω), aber mit Σ 6= P(Ω). Dies hat zur Folge, dass nicht mehr jede Teilmenge von Ω messbar ist, oder anders gesagt, es gibt Teilmengen A ⊆ Ω mit A 6∈ Σ. Diese sind keine Ereignisse, und daher kann ihnen auch keine Wahrscheinlichkeit zugeordnet werden, denn das Wahrscheinlichkeitsmass P : Σ → [0, 1] ist ja nur für die messbaren Teilmengen A ⊆ Ω mit A ∈ Σ definiert. Wir betrachten Funktionen X : Ω → Ω0 sowie eine σ-Algebra von messbaren Teilmengen von Ω0 , Σ0 ⊆ P(Ω0 ), wobei i. A. ebenfalls Σ0 6= P(Ω0 ) gilt. Bei der allgemeinen Definition einer Zufallsvariablen wird berücksichtigt, dass sowohl im Definitionsbereich Ω als auch im Wertebereich Ω0 von X nicht notwendigerweise jede Teilmenge messbar ist: Definition 3 (Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und (Ω0 , Σ0 ) ein messbarer Raum (MAE3, Def. 27). Eine Zufallsvariable ist eine Funktion X : Ω → Ω0 mit ∀ A ∈ Σ0 : X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ. Bemerkungen: • Über die Urbilder von nicht messbaren Teilmengen A ⊆ Ω0 , A 6∈ Σ0 , macht die Definition keine Voraussetzung. Für sie kann X −1 (A) ∈ Σ gelten, muss aber nicht. • Dank der sog. Messbarkeitsbedingung an X ist das durch X induzierte Wahrscheinlichkeitsmass PX : Σ0 → [0, 1] auf (Ω0 , Σ0 ) (1) wohldefiniert: Sei A ∈ Σ0 , dann ist X −1 (A) ∈ Σ und damit PX (A) := P X −1 (A) ∈ [0, 1] definiert. • I. A. ist also nicht jede Funktion X : Ω → Ω0 eine Zufallsvariable, sondern eben nur die sog. messbaren Funktionen. • Jede diskrete reelle Zufallsvariable nach Def. 1 ist eine Zufallsvariable nach Def. 3, mit Ω0 = im(X) ⊆ R (abzählbare Teilmenge) und Σ0 = P(Ω0 ). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 18 Seien nun (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, (Ω0 , Σ0 ) ein messbarer Raum, X : Ω → Ω0 eine Zufallsvariable (Def. 3) und PX = P ◦ X −1 das durch X induzierte Wahrscheinlichkeitsmass auf (Ω0 , Σ0 ). Wie im Kap. 1.1.1 identifizieren wir den Wahrscheinlichkeitsraum (Ω, Σ, P ) mit dem ursprünglichen und den Wahrscheinlichkeitsraum (Ω0 , Σ0 , PX ) mit dem neuen Zufallsexperiment: Ergebnismenge (nicht notwendigerweise abzählbar) Ereignisfeld (σ-Algebra der messbaren Teilmengen von Ω) ursprüngliches Zufallsexperiment neues Zufallsexperiment Ω Ω0 ⊇ im(X) Σ ⊆ P(Ω) Σ0 ⊆ P(Ω0 ) Wahrscheinlichkeitsmass P : Σ → [0, 1] Wahrscheinlichkeitsraum (Ω, Σ, P ) PX : Σ0 → [0, 1] PX := P ◦ X −1 (Ω0 , Σ0 , PX ) Wie in Kap. 1.1.1 beschränken wir uns auch hier auf reellwertige Zufallsvariablen, d. h. auf Ω0 = R. In diesem Fall wählt man üblicherweise Σ0 := B(R), wobei B(R) die Borelsche σ-Algebra auf R bezeichnet (nach E. Borel, 1871–1956): Definition 4 Die Borelsche σ-Algebra auf R, B(R), ist die kleinste σ-Algebra mit R als Grundmenge, die alle offenen Intervalle enthält. Bemerkungen: • Die Teilmengen A ⊆ R mit A ∈ B(R) heissen auch Borel-Mengen. • Sehr viele Teilmengen von R sind Borel-Mengen, z. B. alle offenen, alle abgeschlossenen und alle halboffenen Intervalle (MAE1, Def. 11), sowie abzählbare Vereinigungen und Durchschnitte von diesen. Für uns wird es später wichtig sein, dass alle Intervalle der Form (−∞, x], x ∈ R, BorelMengen sind. Dies deshalb, weil !c [ (−∞, x] = (x, x + n) ∈ B(R), n∈N denn auf der rechten Seite steht das Komplement einer abzählbaren Vereinigung von offenen Intervallen (x, x + n) ∈ B(R), n ∈ N. Man kann ausserdem zeigen: wenn eine Aussage für alle solchen Intervalle gilt, dann gilt sie sogar für alle Borel-Mengen. • Es gilt B(R) ( P(R), d. h. es gibt Teilmengen A ⊆ R (A ∈ P(R)), die keine Borel-Mengen sind (A 6∈ B(R)). Sie müssen mühsam konstruiert werden, weshalb wir hier darauf verzichten. Alle Teilmengen von R, die wir im Folgenden betrachten, werden Borel-Mengen sein. • Wenn für den Fall Ω0 = R nichts über die σ-Algebra gesagt wird, dann nimmt man üblicherweise an, dass Σ0 = B(R). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 19 Definition 5 (reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable ist eine Funktion X : Ω → R mit ∀x ∈ R : X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ≤ x} ∈ Σ. Bemerkungen: • Jede reelle Zufallsvariable nach Def. 5 ist eine Zufallsvariable nach Def. 3, mit Ω0 = R und Σ0 = B(R). • Jede diskrete reelle Zufallsvariable nach Def. 1 ist eine reelle Zufallsvariable nach Def. 5. Es gelten also diskrete reelle Zufallsvariable (Def. 1) ⇒ reelle Zufallsvariable (Def. 5) ⇒ Zufallsvariable (Def. 3) Wie in Kap. 1.1.1 sind wir an der Verteilung einer reellen Zufallsvariablen interessiert. Allgemein ist die (kumulative) Verteilungsfunktion einer reellen Zufallsvariablen X : Ω → R definiert durch FX (x) := PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”. Für sie gilt ebenfalls der Satz 1. Wir beschränken uns im Folgenden auf stetige reelle Zufallsvariablen. Definition 6 (stetige reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable. X heisst stetig, falls eine integrierbare Funktion fX : R → [0, ∞) existiert, so dass Zb “P (a ≤ X ≤ b)” = PX ( [a, b] ) = P ({ω ∈ Ω | a ≤ X(ω) ≤ b}) = |{z} ∈B(R) fX (x) dx, a (5) für alle a, b ∈ R, a ≤ b. Bemerkungen: • Die Funktion fX heisst Wahrscheinlichkeitsdichtefunktion, Dichtefunktion, Wahrscheinlichkeitsdichte, oder nur Dichte. Ihre englische Bezeichnung ist probability density function (pdf ). Sie erfüllt die Normierungsbedingung Z∞ fX (x) dx = PX (R) = 1, −∞ wobei auf der linken Seite ein uneigentliches Integral steht (MAE3, Def. 3). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 20 • Die Wahrscheinlichkeit von Elementarereignissen {a} ∈ B(R), a ∈ R, ist für stetige reelle Zufallsvariablen immer Null: Za PX ({a}) = P ({ω ∈ Ω | X(ω) = a}) = fX (x) dx = 0 a (MAE2, Satz 3, 4.). • Die kumulative Verteilungsfunktion einer stetigen reellen Zufallsvariablen ist gegeben durch die Flächenfunktion (MAE2, Kap. 1.3) Zb FX (b) = P ({ω ∈ Ω | X(ω) ≤ b}) = fX (x) dx, b ∈ R. (6) −∞ Auf der rechten Seite steht wieder ein uneigentliches Integral. kumulative Verteilungsfunktion Wahrscheinlichkeitsdichtefunktion 1.4 1 1.2 0.8 FX(x) fX(x) 1 0.8 0.6 0.4 0.6 0.4 0.2 0.2 0 0 −1 −0.5 0 x 0.5 1 −1 −0.5 0 x 0.5 1 Nach dem Hauptsatz der Differenzial- und Integralrechnung (MAE2, Satz 2) ist FX eine Stammfunktion von fX . Nach MAE2, Kap. 1.5, gilt also Zb “P (a ≤ X ≤ b)” = b fX (x) dx = FX (b) − FX (a) = FX (x)|a . (7) a • Die kumulative Verteilungsfunktion FX einer stetigen reellen Zufallsvaria0 blen X ist differenzierbar (FX (x) = fX (x) ∀ x ∈ R), also stetig (MAE1, Kap. 4.1). Reelle Zufallsvariablen mit einer unstetigen Verteilungsfunktion können also nicht stetig sein. Dies trifft u. a. für die diskreten reellen Zufallsvariablen zu (bei diesen ist FX eine Treppenfunktion), aber es gibt auch reelle Zufallsvariablen, die weder stetig noch diskret sind. Die folgende Tabelle gibt einen Überblick über Gemeinsamkeiten und Unterschieden von diskreten bzw. stetigen reellen Zufallsvariablen: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Zufallsvariable X Ergebnismenge Ω0 Ereignisfeld Σ0 Wahrscheinlichkeits(dichte)funktion Normierung diskret reell im(X) ⊆ R (abzählbar) P(im(X)) stetig reell R (überabzählbar unendlich) B(R) ( P(R) fX : im(X) → [0, 1] fX : R → [0, ∞) X Z∞ fX (xi ) = 1 xi ∈im(X) Elementarereignis {x} ∈ Σ0 , x ∈ Ω0 Intervall “P (a < X ≤ b)” a, b ∈ R, a < b 21 fX (x) dx = 1 −∞ PX ({x}) = fX (x) X fX (xi ) PX ({x}) = 0 Zb fX (x) dx xi ∈im(X) a<xi ≤b a FX (b) − FX (a) Bei den Wahrscheinlichkeiten für Intervalle sind auch die Grenzübergänge a → −∞ und/oder b → ∞ erlaubt, was auf unendliche Reihen bzw. uneigentliche Integrale führt. In Analogie zu MAE3, Def. 28 nennen wir in einem Wahrscheinlichkeitsraum (Ω, Σ, P ) • ein Ereignis A ∈ Σ mit P (A) = 1 ein fast sicheres Ereignis und • ein Ereignis N ∈ Σ mit P (N ) = 0 ein fast unmögliches Ereignis. Bemerkungen: Natürlich ist das sichere Ereignis (Ω ∈ Σ, P (Ω) = 1) ein fast sicheres Ereignis und das unmögliche Ereignis (∅ ∈ Σ, P (∅) = 0) ein fast unmögliches Ereignis. Es gibt jedoch i. A. noch mehr fast sichere bzw. fast unmögliche Ereignisse als diese beiden! Beispiel: Im Wahrscheinlichkeitsraum (R, B(R), PX ) ist jede abzählbare Teilmenge N = {x1 , x2 , . . . } ⊆ R, N ∈ B(R), ein fast unmögliches Ereignis, denn es gilt mit der σ-Additivität des Wahrscheinlichkeitsmasses PX : X PX (N ) = PX ({x1 , x2 , . . . }) = PX ({xi }) = 0. | {z } i∈N =0 Wir sagen auch, N ⊆ R ist eine Nullmenge in R. Wenn N ∈ B(R) ein fast unmögliches Ereignis ist, so ist N c = R \ N ∈ B(R) ein fast sicheres Ereignis (Gegenwahrscheinlichkeit; MAE3, Satz 7, 1.). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.1.4 22 Stetige Verteilungen In der folgenden Tabelle listen wir einige wichtige Verteilungen von stetigen reellen Zufallsvariablen (kurz: “stetige Verteilungen”) auf: Name Bezeichnung (stetige) Gleichverteilung U(a, b) Exponentialverteilung Exp(λ) Chi-QuadratVerteilung (F. R. Helmert, 1843–1917) χ2n F-Verteilung (R. A. Fisher, 1890–1962) Fm,n Normalverteilung (C. F. Gauss, 1777–1855) N (µ, σ 2 ) t-Verteilung (W. S. Gosset “Student”, 1876–1937) tn CauchyVerteilung (A. L. Cauchy, 1789–1857) Cauchy(t, s) Wahrscheinlichkeitsdichtefunktion fX Parameter 1 b−a , a, b ∈ R fX (x) = 0, λe−λx , 0, fX (x) = n fX (x) = 0, fX (x) = m n m 2 n2 Γ( x≥0 x<0 λ>0 , x≥0 n∈N x<0 n Γ( m 2 +2) m 2 a<b x x 2 −1 e− 2 n 2 2 Γ( n 2) ( ( a≤x≤b sonst )Γ( ) n 2 m x 2 −1 m n (mx+n) 2 + 2 , 0, x≥0 m, n ∈ N x<0 2 (x − µ) fX (x) = √ exp − 2 2σ 2 2πσ 1 ! − n+1 2 Γ n+1 x2 2 1+ fX (x) = √ n n nπΓ 2 fX (x) = 1 s π s2 + (x − t)2 µ∈R σ2 > 0 n∈N t∈R s>0 In der Chi-Quadrat-, der F- und der t-Verteilung tritt jeweils die GammaFunktion Γ auf, deren Funktionswerte durch uneigentliche Integrale definiert sind: Z∞ Γ(x) := tx−1 e−t dt, x > 0. 0 Für x = n ∈ N gilt Γ(n) = (n − 1)! (Beweis durch partielle Integration). Die Funktionswerte Γ(x), x 6∈ N, können hingegen zumeist nicht in geschlossener 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 23 √ √ Form angegeben werden (Ausnahmen sind Γ 21 = π und Γ 32 = 12 π). Dafür werden numerische Näherungen verwendet. Numerische Näherungen müssen oft auch zur Auswertung der kumulativen Verteilungsfunktion FX verwendet werden, da die Flächenfunktion häufig nicht in geschlossener Form angegeben werden kann. Wahrscheinlichkeitsdichtefunktionen von stetigen Gleichverteilungen 2 fX(x) 1.5 U(−3,1) U(−4,−2) U(−4,4) U(1.5,2) U(3,4) 1 0.5 0 −5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von Exponentialverteilungen Wahrscheinlichkeitsdichtefunktionen von Chi−Quadrat−Verteilungen 2 χ2 0.8 2 2 χ1 f (x) 1 0.6 X fX(x) 1.5 1 Exp(2) Exp(5) Exp(0.4) Exp(7) Exp(0.2) 0.4 χ25 χ2 3 χ2 0.5 0.2 0 −5 0 x 6 0 −5 5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von F−Verteilungen 1 0.8 fX(x) 0.6 F(1,1) F(3,1) F(4,1) F(3,2) F(3,5) 0.4 0.2 0 −5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen 1.6 1.4 1.2 Wahrscheinlichkeitsdichtefunktionen von t−Verteilungen 0.4 t1 0.3 t3 t4 0.8 fX(x) X f (x) 1 N(0,1) N(−2,0.25) N(4,4) N(−3,9) N(2,0.0625) 0.6 0.2 t6 t9 0.4 0.1 0.2 0 −5 0 x 0 −5 5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von Cauchy−Verteilungen 1.4 1.2 fX(x) 1 0.8 Cauchy(0,0.5) Cauchy(−2,3) Cauchy(1,2) Cauchy(3,3) Cauchy(2,0.3) 0.6 0.4 0.2 0 −5 0 x 5 Wir werden später weiter auf diese Verteilungen und auf die Beziehungen zwischen ihnen eingehen. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.2 24 Verteilungen von Zufallsvariablen in MATLAB In MATLABs “Statistics Toolbox” (doc stats) sind alle bisher behandelten Verteilungen von Zufallsvariablen (ausser der Cauchy-Verteilung) und noch einige mehr als Funktionen definiert: Verteilung der Zufallsvariablen X diskret U{1,2,...,n} gleich Bernoulli B(1, p) binomial B(n, p) hyperH(N, M, n) geometrisch negativ N B(r, p) binomial N B(1, p) geometrisch G(p) Poisson P(λ) stetig gleich U(a, b) exponential Exp(λ) Chiχ2n Quadrat F Fm,n normal N (µ, σ 2 ) t tn Auswerten von fX an einer Stelle k bzw. x Auswerten von FX an einer Stelle x unidpdf(k,n) unidcdf(x,n) binopdf(k,1,p) binopdf(k,n,p) binocdf(x,1,p) binocdf(x,n,p) hygepdf(k,N,M,n) hygecdf(x,N,M,n) nbinpdf(k,r,p) nbincdf(x,r,p) nbinpdf(k,1,p) geopdf(k,p) poisspdf(k,lambda) unifpdf(x,a,b) exppdf(x,1/lambda) nbincdf(x,1,p) geocdf(x,p) poisscdf(x,lambda) unifcdf(x,a,b) expcdf(x,1/lambda) chi2pdf(x,n) chi2cdf(x,n) fpdf(x,m,n) normpdf(x,mu,... sqrt(sigmaˆ2)) tpdf(x,n) fcdf(x,m,n) normcdf(x,mu,... sqrt(sigmaˆ2)) tcdf(x,n) In den Funktionsbezeichnungen wird immer der Name der Verteilung zusammen mit pdf (“probability (density) function”, fX ) oder cdf (“cumulative distribution function”, FX ) verwendet. Beispiele: 1. Sei X ∼ B 20, 19 . Wir berechnen • “P (X = 4)” = fX (4) mit binopdf(4,20,1/9) (' 11 %), • “P (X > 5)” = 1− “P (X ≤ 5)” = 1 − FX (5) mit 1 - binocdf(5,20,1/9) (' 1.8 %) • “P (1 < X ≤ 3)” = FX (3) − FX (1) = fX (2) + fX (3) mit binocdf(3,20,1/9) - binocdf(1,20,1/9) oder mit binopdf(2,20,1/9) + binopdf(3,20,1/9) (' 49 %) P16 • PX ({1, 2, . . . , 16}) = k=1 fX (k) = FX (16) − FX (0) mit binocdf(16,20,1/9) - binocdf(0,20,1/9) (' 91 %) Wir zeichnen das Stabdiagramm der Wahrscheinlichkeitsfunktion fX mit den MATLAB-Befehlen 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 25 x = 0:20; % {0,1,2,...,20} y = binopdf(x,20,1/9); stem(x,y) Zaehldichte einer B(20,1/9)−verteilten Zufallsvariable 0.3 0.25 X f (x) 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 x 12 14 16 18 20 2. Sei X ∼ N (0.8, 4.3). Wir berechnen • “P (1 < X ≤ 2)” = FX (2) − FX (1) mit normcdf(2,0.8,sqrt(4.3)) - normcdf(1,0.8,sqrt(4.3)) (' 18 %) • “P (X < 0.8)” = FX (0.8) mit normcdf(0.8,0.8,sqrt(4.3)) (= 50 %) • “P (X > 0.5)” = 1−FX (0.5) mit 1 - normcdf(0.5,0.8,sqrt(4.3)) (' 56 %) Wir zeichnen die Wahrscheinlichkeitsdichtefunktion fX auf dem Intervall [−10, 10] mit den MATLAB-Befehlen x = -10:0.01:10; y = normpdf(x,0.8,sqrt(4.3)); plot(x,y) Wahrscheinlichkeitsdichtefunktion einer N(0.8,4.3)−verteilten Zufallsvariablen 0.2 fX(x) 0.15 0.1 0.05 0 −10 −8 −6 −4 −2 0 0.8 x 2 4 6 8 10 Wir werden später noch weitere Funktionen aus MATLABs “Statistics Toolbox” kennen lernen. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.3 1.3.1 26 Transformationen von Zufallsvariablen Lineare Transformationen Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1], FX (x) = PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”, x ∈ R. Für a, b ∈ R, b > 0, definieren wir die Funktion Y : Ω → R durch ω∈Ω Y (ω) := a + bX(ω), (kurz: Y := a + bX). Wir fragen nun: • Ist Y eine reelle Zufallsvariable? • Wenn ja, was ist ihre kumulative Verteilungsfunktion FY ? Sei y ∈ R. Wir wollen zeigen, dass Y −1 ((−∞, y]) ∈ Σ; in diesem Fall erfüllt Y die Messbarkeitsbedingung aus Def. 5. Durch einfache Umformungen erhalten wir Y −1 ((−∞, y]) = b>0 = {ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | a + bX(ω) ≤ y} y−a y−a = X −1 −∞, ∈ Σ, ω ∈ Ω X(ω) ≤ b b weil y−a b ∈ R und weil X eine reelle Zufallsvariable ist. Dies gilt für jedes y ∈ R, also ist Y eine reelle Zufallsvariable. Für die kumulative Verteilungsfunktion von Y erhalten wir mit derselben Umformung y−a y−a FY (y) = PY ((−∞, y]) = PX = FX , y ∈ R. (8) −∞, b b Y Y = a + bX y −∞, y−a b 0 a (−∞, y] b 1 y−a b X 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 27 Für diskrete bzw. stetige reelle Zufallsvariablen erhalten wir die Wahrscheinlichkeits(dichte)funktionen yi − a yi − a diskret: fY (yi ) = PY ({yi }) = PX = fX , yi ∈ im(Y ), b b y−a 1 y−a (8) 1 0 stetig: fY (y) = FY0 (y) = FX = fX , y ∈ R. b b b b Im Allgemeinen ist die Verteilung der transformierten Zufallsvariablen Y nicht mehr vom gleichen Typ wie jene der Zufallsvariablen X. Beispiele: 1. Sei X ∼ Exp(λ), dann ist die Wahrscheinlichkeitsdichtefunktion der linear transformierten Zufallsvariablen Y gegeben durch 1 y−a −λ y−a 1 y−a b , b λe b ≥0 fY (y) = fX = y−a b b 0, b <0 λ λ λ e b a b e− b y , y ≥ a , y ∈ R. = 0, y<a Für a = 0 gilt also Y ∼ Exp λb , aber für a 6= 0 ist fY keine Wahrscheinlichkeitsdichtefunktion einer exponential verteilten Zufallsvariablen. 2. Sei X ∼ N (µ, σ 2 ). Dann ist die Wahrscheinlichkeitsdichtefunktion der linear transformierten Zufallsvariablen Y gegeben durch 2 ! y−a 1 y−a 1 1 b −µ √ fY (y) = fX = exp − b b b 2πσ 2 2σ 2 ! 2 1 (y − (a + bµ)) = √ exp − , 2b2 σ 2 2πb2 σ 2 für y ∈ R. Es gilt also Y ∼ N (a + bµ, b2 σ 2 ). 1.3.2 Anwendung: Transformation auf die Standardnormalverteilung Normalverteilte Zufallsvariablen bleiben also unter linearen Transformationen normalverteilt. Aus dem Beispiel 2 von oben folgern wir: X ∼ N (µ, σ 2 ) ⇒ Y := X −µ µ 1 = − + X ∼ N (0, 1), σ σ σ für µ ∈ R und σ > 0. Umgekehrt gilt natürlich auch Y ∼ N (0, 1) ⇒ X := µ + σY ∼ N (µ, σ 2 ), µ ∈ R, σ > 0. Die kumulative Verteilungsfunktion der sog. Standardnormalverteilung N (0, 1) wird üblicherweise mit Φ bezeichnet. Ihre Werte lassen sich nicht in geschlossener 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 28 Form angeben. Wenn sie jedoch z. B. als Wertetabelle vorliegt (s. Formelsammlung von Papula, S. 508), so lässt sich damit die kumulative Verteilungsfunktion einer beliebig normalverteilten Zufallsvariablen auswerten. Es gilt nämlich x−µ 2 , µ ∈ R, σ > 0. (9) X ∼ N (µ, σ ) ⇒ FX (x) = Φ σ √ Beispiel: Sei X ∈ N (0.8, 4.3) (µ = 0.8, σ = 4.3). Nach (9) gilt 2 − 0.8 ' Φ(0.58) ' 0.7190, “P (X ≤ 2)” = FX (2) = Φ √ 4.3 wobei wir die Tabelle aus der Formelsammlung von Papula verwendet haben. Mit MATLAB erhalten wir normcdf(2,0.8,sqrt(4.3)) ' 0.718601, also war der Tabellenwert schon ziemlich genau. Die Tabellenwerte könnten wir natürlich auch noch interpolieren (s. Vorlesung MNEU), um eine höhere Genauigkeit für Zwischenwerte zu erreichen. 1.3.3 Nichtlineare Transformationen Im Falle von nichtlinearen Transformationen müssen nichtlineare Ungleichungen gelöst werden, was i. A. schwierig ist. Beispiele: 1. Sei Y := X 2 (kurz für Y (ω) := X(ω)2 , ω ∈ Ω). Dann gilt für y ≥ 0: Y −1 ((−∞, y]) = {ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | X(ω)2 ≤ y} √ √ = {ω ∈ Ω | − y ≤ X(ω) ≤ y} √ √ = X −1 ([− y, y]) ∈ Σ, und damit √ √ √ √ FY (y) = PY ((−∞, y]) = PX ([− y, y]) = FX ( y) − FX (− y), (10) für y ≥ 0. Ausserdem gilt für y < 0: Y −1 ((−∞, y]) = {ω ∈ Ω | X(ω)2 ≤ y} = ∅, und damit FY (y) = 0. 1 0.9 y = FX(x) (N(0,1)) 0.8 y = FX2(x) (χ21) 0.7 y 0.6 0.5 0.4 0.3 0.2 0.1 0 −5 −4 −3 −2 −1 0 x 1 2 3 4 5 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 29 Sei X ∼ N (0, 1). Es stellt sich heraus, dass X 2 ∼ χ21 , d. h. das Quadrat einer standardnormalverteilten Zufallsvariablen ist Chi-Quadrat-verteilt mit einem Freiheitsgrad (n = 1). Es gilt nämlich für x > 0: √ 1 √ 1 (10) 0 0 0 = FX x √ + FX − x √ fX 2 (x) 2 (x) = FX 2 x 2 x √ √ 1 √ fX = x + fX − x 2 x x x x 1 1 1 1 X∼N (0,1) √ √ e− 2 + √ e− 2 = √ = e− 2 2 x 2π 2π 2πx 1 = x x− 2 e− 2 , 1 2 2 Γ 21 √ wobei wir Γ 12 = π verwendet haben (ohne Beweis). Am Ende steht die Wahrscheinlichkeitsdichtefunktion einer χ21 -verteilten Zufallsvariablen. 2. Sei Y := 1 X Y −1 ((−∞, y]) 1 X(ω) , ω ∈ Ω). Dann gilt für y < 0: 1 = {ω ∈ Ω | Y (ω) ≤ y} = ω ∈ Ω ≤y X(ω) 1 1 = ω ∈ Ω ≤ X(ω) < 0 = X −1 ,0 , y y (kurz für Y (ω) := für y = 0: Y −1 ((−∞, 0]) = {ω ∈ Ω | Y (ω) ≤ 0} = 1 ω∈Ω ≤0 X(ω) = {ω ∈ Ω | X(ω) < 0 } = X −1 ((−∞, 0)) , und für y > 0: Y −1 1 ((−∞, y]) = {ω ∈ Ω | Y (ω) ≤ y} = ω ∈ Ω ≤y X(ω) 1 = ω ∈ Ω X(ω) ≥ ∨ X(ω) < 0 y 1 −1 = X (−∞, 0) ∪ . ,0 y Damit erhalten wir für die kumulative Verteilungsfunktion von Y : h 1 P , 0 , y<0 X y PX ((−∞, 0)) , FY (y) = PY ((−∞, y]) = h y = 0 PX ((−∞, 0)) + PX 1 , ∞ , y > 0 y 1 y<0 FX (0) − FX y , FX (0), = y=0 . FX (0) + 1 − FX 1 , y > 0 y 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 30 1 Die Verteilung von Y := X heisst auch die inverse Verteilung von X. Wenn X eine stetige reelle Zufallsvariable ist, dann ist Y = X1 ebenfalls eine stetige reelle Zufallsvariable mit Wahrscheinlichkeitsdichtefunktion 1 1 1 1 0 0 − 2 = 2 fX , y 6= 0. fY (y) = FY (y) = −FX y y y y 1.4 Quantilfunktion und Masszahlen von Verteilungen Im Folgenden sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1]. Die Funktion FX ist rechtsstetig und monoton wachsend mit lim FX (x) = 0 und x→−∞ lim FX (x) = 1 (Satz 1). x→∞ 1.4.1 Quantilfunktion Sei p ∈ (0, 1) gegeben. Wir fragen: Für welche Zahl q ∈ R gilt FX (q) = “P (X ≤ q)” = p (und damit “P (X > q)”= 1−“P (X ≤ q)” = 1 − FX (q) = 1 − p)? Jede solche Zahl q ∈ R ist ein sog. p-Quantil der Verteilung der Zufallsvariablen X. Offensichtlich benötigen wir zur Berechnung der p-Quantile das Urbild von −1 p unter der Funktion FX , FX (p) = {x ∈ R | FX (x) = p} ⊆ R. Wie die folgende Zeichnung zeigt, kann dieses Urbild i. A. gar keine oder auch mehrere Elemente enthalten: y 1 p3 y = FX (x) p2 p1 0 −1 FX (p1 ) −1 FX (p2 ) −1 FX (p3 ) = ∅ x Um eine Quantilfunktion QX : (0, 1) → R definieren zu können (die jedem p ∈ (0, 1) genau ein p-Quantil QX (p) ∈ R zuordnet), betrachten wir jeweils die grösste untere Schranke: Definition 7 (Quantilfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 31 FX : R → [0, 1]. Die Quantilfunktion QX : (0, 1) → R der Zufallsvariablen X ist definiert durch QX (p) := inf ({x ∈ R | FX (x) ≥ p}) , p ∈ (0, 1). (11) Für ein gegebenes p ∈ (0, 1) heisst die Zahl QX (p) das p-Quantil der Verteilung der Zufallsvariablen X. Bemerkungen: • Das Infimum von Teilmengen der reellen Zahlen (grösste untere Schranke) wurde in MAE2 definiert (Def. 2). Die Existenz des Infimums folgt hier aus der Monotonie von FX . • Wegen der Rechtsstetigkeit von FX ist das Infimum in (11) sogar ein Minimum, d. h. es ist selbst ein Element der Menge: FX (QX (p)) ≥ p. • Falls FX streng monoton wachsend ist, so ist FX bijektiv und damit um−1 kehrbar (MAE1, Kap. 3.2), und es gilt QX ≡ FX . Dies ist z. B. bei stetigen reellen Zufallsvariablen mit strikt positiver Wahrscheinlichkeitsdichtefunktion fX der Fall, z. B. bei den Normal-, t- und Cauchy-Verteilungen. • In MATLAB können Sie Quantilfunktionen mit den Funktionen ...inv auswerten, z. B. mit den Funktionen nbininv, expinv, norminv, usw. Beispiel: Aus einer Urne mit 3 roten und 7 blauen Kugeln werden nacheinander Kugeln gezogen (mit Zurücklegen). Wir fragen: Wieviele Ziehungen sind nötig, bis die Wahrscheinlichkeit dafür, dass 5 rote Kugeln gezogen wurden, mindestens 95 % beträgt? Zur Beantwortung dieser Frage definieren wir zunächst die Zufallsvariable X := “Anzahl gezogene blaue Kugeln, bis genau 5 rote Kugeln gezogen wurden”, 3 dann ist X ∼ N B 5, 10 (Kap. 1.1.2). Für k ∈ N0 gibt FX (k) = “P (X ≤ k)” die Wahrscheinlichkeit dafür an, dass höchstens k blaue Kugeln gezogen werden, bis 5 rote Kugeln gezogen wurden (FX : R → [0, 1] ist eine Treppenfunktion). Das 95 %-Quantil der Verteilung, Def. 7 QX (0.95) = inf ({x ∈ R | FX (x) ≥ 0.95}) = nbininv(0.95,5,3/10) = 23, gibt an, dass die Wahrscheinlichkeit dafür, höchstens 23 blaue Kugeln ziehen zu müssen, bis 5 rote Kugeln gezogen wurden, mindestens 95 % beträgt: “P (X ≤ 23)” = FX (23) ≥ 0.95 (tatsächlich gilt FX (23) ' 0.9526). Weil nach der Gesamtzahl der Ziehungen gefragt wurde, müssen wir die 5 Ziehungen, bei denen eine rote Kugel gezogen wurde, noch dazu zählen. Die Antwort auf die obige Frage ist also “Es sind 28 Ziehungen nötig”. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Wahrscheinlichkeitsfunktion, NB(5,3/10) kumulative Verteilungsfunktion, NB(5,3/10) 0.08 0.07 0.06 F (x) 0.04 X fX(k) 0.05 0.03 0.02 0.01 0 32 0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930 k 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930 x Analog zu den Eigenschaften der kumulativen Verteilungsfunktion FX einer reellen Zufallsvariablen (Satz 1) fassen wir auch die Eigenschaften der Quantilfunktion in einem Satz zusammen: Satz 2 (Eigenschaften der Quantilfunktion) Sei QX die Quantilfunktion einer reellen Zufallsvariablen X. Dann gelten 1. QX ist monoton wachsend, 2. QX ist linksstetig: p→p lim QX (p) = QX (p0 ), ∀ p0 ∈ (0, 1), 0 p<p0 3. lim QX (p) = −∞ und lim QX (p) = ∞ p→0 p→1 (bestimmte Divergenz; MAE2, Def. 26). y y = QX (p) QX (p3 ) QX (p2 ) QX (p1 ) 0 p1 p2 p3 1p Bestimmte p-Quantile haben eigene Namen: • Median: QX (0.5). Im Falle einer stetigen reellen Zufallsvariablen X teilt der Median die Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse in zwei gleich grosse Teile auf: “P (X ≤ QX (0.5))” = “P (X > QX (0.5))” = 50 %. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 33 • Terzile: QX (1/3), QX (2/3). Aufteilung in drei gleich grosse Teile. • Quartile: QX (0.25), QX (0.5), QX (0.75). Aufteilung in vier gleich grosse Teile. Der Median ist ebenfalls ein Quartil (das mittlere). • Quintile: QX (0.2), QX (0.4), QX (0.6), QX (0.8). Fünf gleich grosse Teile. • Dezile: QX (0.1), QX (0.2), . . . , QX (0.9). Zehn gleich grosse Teile. • Perzentile: QX (0.01), QX (0.02), . . . , QX (0.99). 100 gleich grosse Teile. Beispiel: Für die Quartile der Standardnormalverteilung N (0, 1) berechnen wir mit dem MATLAB-Befehl norminv(p,0,1): QX (0.25) ' −0.67, QX (0.5) = 0, Wahrscheinlichkeitsdichtefunktion, N(0,1) 0.4 0.35 0.3 Φ(x) φ(x) 0.25 0.2 0.15 0.1 0.05 0 −3 −2.5 −2 −1.5 −1 −0.5 1.4.2 0 x 0.5 1 1.5 2 2.5 3 QX (0.75) ' 0.67. kumulative Verteilungsfunktion, N(0,1) 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 x 3 Lagemasse und Streuungsmasse Masszahlen fassen die wesentlichen Eigenschaften einer Wahrscheinlichkeitsverteilung zusammen. Wir lernen hier einige Lagemasse und Streuungsmasse kennen. Ein erstes Lagemass ist der Median, also das 50 %-Quantil QX (0.5). Die Quantilfunktion QX einer Zufallsvariablen hatten wir im letzten Abschnitt definiert. Ein weiteres Lagemass ist der Erwartungswert: Definition 8 (Erwartungswert) Der Erwartungswert einer diskreten oder stetigen reellen Zufallsvariablen X mit Wahrscheinlichkeits(dichte)funktion fX ist • im diskret reellen Fall definiert durch X E[X] = xi fX (xi ), (12) xi ∈im(X) falls der Ausdruck auf der rechten Seite existiert, • im stetig reellen Fall definiert durch Z∞ E[X] = xfX (x) dx, −∞ falls der Ausdruck auf der rechten Seite existiert. (13) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 34 Bemerkungen: • Es kann E[X] = ±∞ gelten, wenn die Ausdrücke auf der rechten Seite bestimmt divergent sind. Dieser Fall wird allerdings oft ausgeschlossen. • Manchmal schreibt man µX anstatt E[X] für den Erwartungswert der diskreten oder stetigen reellen Zufallsvariablen X. • Die Ausdrücke auf der rechten Seite können unbestimmt divergent sein. In diesem Fall ist der Erwartungswert der Zufallsvariablen nicht definiert. Dies ist z. B. bei der Cauchy-Verteilung der Fall. Allgemein gilt (MAE3, Def. 3, 3.) Z∞ E[X] = Zµ Zc µ→∞ λ→−∞ −∞ xfX (x) dx, xfX (x) dx + lim xfX (x) dx = lim c λ {z | =:I1 (λ) | } {z =:I2 (µ) } für einen beliebigen Teilpunkt c ∈ R. Sei nun X ∼ Cauchy(t, s) mit Parametern t ∈ R, s > 0. Zur Vereinfachung der folgenden Rechnungen wählen wir c := t. Wir erhalten Zt I1 (λ) = u:= x−t 1 xs dx = s 2 2 π s + (x − t) = 1 (su + t)s s du π s2 + s2 u2 λ−t s λ 1 π Z0 Z0 su + t s du = 1 + u2 π λ−t s Z0 1 2u t du + 2 1 + u2 π λ−t s Z0 1 du 1 + u2 λ−t s 0 s 1 t 0 2 = ln 1 + u + arctan(u)| λ−t s π 2 π λ−t s ! 2 1s λ−t t λ−t = − ln 1 + − arctan , 2π s π s und damit den Grenzwert 1s lim I1 (λ) = − lim ln 1 + λ→−∞ 2 π} λ→−∞ | {z | {z <0 =∞ λ−t s 2 ! } t π − − = −∞. | π {z 2 } = 2t ∈R Auf dieselbe Weise berechnen wir 2 ! 1s µ−t t µ−t I2 (µ) = · · · = ln 1 + + arctan , 2π s π s 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 35 und damit den Grenzwert 2 ! 1s µ−t tπ lim I2 (µ) = lim ln 1 + + = ∞. µ→∞ 2 π µ→∞ s π2 |{z} |{z} | {z } = t ∈R >0 2 =∞ Also ist E[X] = lim I1 (λ) + lim I2 (µ) = −∞ + ∞ µ→∞ λ→−∞ nicht definiert. • Der Erwartungswert E[X] entspricht der x-Koordinate des geometrischen Schwerpunktes der Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse. Im Allgemeinen ist der Erwartungswert nicht gleich dem Median, z. B. für die F-Verteilung: X ∼ F10,5 0.7 Wahrscheinlichkeitsdichtefunktion geometrischer Schwerpunkt Erwartungswert Median Modus 0.6 0.5 fX 0.4 0.3 0.2 0.1 0 0 0.571 1.07 1.67 2 2.5 x 3 3.5 4 4.5 5 Ein drittes Lagemass ist der Modus oder Modalwert einer Verteilung. Er ist definiert als diejenige Stelle x0 ∈ R, an der die Wahrscheinlichkeitsdichtefunktion bzw. die Zähldichte maximal ist (globales Maximum). Der Modus einer Verteilung ist i. A. nicht eindeutig. Für Verteilungen werden manchmal die Begriffe unimodal (eingipflig), bimodal (zweigipflige) sowie multimodal (mehrgipflig) verwendet, je nach der Form der jeweiligen Wahrscheinlichkeits(dichte)funktion. bimodale Verteilung 0.3 0.3 0.25 0.25 0.2 0.2 fX(x) 0.35 X f (x) unimodale Verteilung 0.35 0.15 0.15 0.1 0.1 0.05 0.05 0 −5 0 x 5 0 −5 0 x 5 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 36 Beispiele: 1. Sei X ∼ B 5, 31 . Dann gilt im(X) = {0, 1, 2, . . . , 5} und damit E[X] = X xi fX (xi ) = xi ∈im(X) 5 X k=0 k 5−k 5 X 5 2 5 1 = . kfX (k) = k 3 3 3 k k=0 2. Sei X ∼ Exp(2). Dann gilt Z∞ Z∞ x·2e xfX (x) dx = E[X] = −∞ −2x 1 dx = 2 y=2x 0 Z∞ −y ye 1 dy = lim 2 λ→∞ 0 Zλ ye−y dy . 0 | {z =:I(λ) Für das Integral I erhalten wir Zλ I(λ) = λ ye−y dy = −(y + 1)e−y 0 = 1 − (λ + 1) e−λ , 0 und damit für den Grenzwert 1 1 E[X] = lim 1 − (λ + 1) e−λ = 2 λ→∞ 2 λ 1 − lim λ − lim e−λ λ→∞ e λ→∞ = 1 , 2 mit der Grenzwertregel von Bernoulli und de L’Hospital (MAE3, Satz 1). In der folgenden Tabelle listen wir die Erwartungswerte, Mediane und Modi der in Kap. 1.1.2 und Kap. 1.1.4 eingeführten Verteilungen auf: Verteilung U{1,2,...,n} B(n, p) H(N, M, n) N B(r, p) P(λ) Erwartungswert E[X] Median QX (0.5) Berechnung in MATLAB n+1 2 n+1 2 np M N 1−p r p n λ unidinv(0.5,n) entweder bnpc oder dnpe binoinv(0.5,n,p) Modus {x ∈ R | fX (x) maximal} {1,2,. . . ,n} nbininv(0.5,r,p) b(n + 1)pc oder b(n + 1)pc − 1 (oder beide) j k +1 (n + 1) M N +2 j k (r − 1) 1−p p poissinv(0.5,lambda) dλe − 1 und bλc hygeinv(0.5,N,M,n) } 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Verteilung 37 Erwartungswert E[X] Median QX (0.5) Berechnung in MATLAB a+b 2 1 λ a+b 2 expinv(0.5,1/lambda) n chi2inv(0.5,n) max{n − 2, 0} n ,n>2 n−2 finv(0.5,m,n) (m − 2)n ,m>2 m(n + 2) U(a, b) Exp(λ) χ2n Fm,n N (µ, σ 2 ) µ tn 0, n > 1 − Cauchy(t, s) Modus {x ∈ R | fX (x) maximal} jedes x ∈ [a, b] unifinv(0.5,a,b) ln(2) λ 0 µ norminv(0.5,mu,... sqrt(sigmaˆ2)) 0 tinv(0.5,n) t µ 0 t In dieser Tabelle bedeuten die Klammern b·c bzw. d·e das Ab- bzw. Aufrunden auf die nächste ganze Zahl. Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine diskrete oder stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX , und sei g : R → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine reelle Zufallsvariable ist: X g Ω −→ R − → R, Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R, ω ∈ Ω. Dann ist der Erwartungswert von Y im diskret reellen Fall gegeben durch X E[Y ] = E[g(X)] = g(xi )fX (xi ), (14) xi ∈im(X) und im stetig reellen Fall durch Z∞ E[Y ] = E[g(X)] = g(x)fX (x) dx, (15) −∞ falls die jeweiligen Ausdrücke auf der rechten Seite von (14), (15) existieren. Auf den Beweis verzichten wir hier. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 38 Beispiele: Wir nehmen an, X sei eine stetige reelle Zufallsvariable. 1. Seien a, b ∈ R, b > 0. Wir definieren g(x) := a + bx, x ∈ R, und Y := g(X) = a + bX (vgl. Kap. 1.3). Mit (15) erhalten wir den Erwartungswert Z∞ Z∞ E[Y ] = −∞ −∞ Z∞ = a Z∞ fX (x) dx +b −∞ | (a + bx) fX (x) dx g(x)fX (x) dx = E[a + bX] = xfX (x) dx = a + bE[X]. −∞ {z =1 } | {z } =E[X] (Def. 8) Diesen Erwartungswert einer linear transformierten Zufallsvariablen können wir auch direkt mit Hilfe der in Kap. 1.3 bestimmten Verteilung von Y berechnen: Z∞ E[Y ] = Z∞ yfY (y) dy = x= y−a b −∞ Z∞ = 1 y fX b y−a b dy −∞ 1 (a + bx) fX (x)b dx = b −∞ Z∞ (a + bx) fX (x) dx, −∞ also wieder das Integral von oben. √ 2. Sei X ∼ N (0, 1), und sei g(x) := |x| = x2 , x ∈ R. Dann gilt Y := g(X) = |X|. Der Erwartungswert von Y ist gegeben durch Z∞ E[Y ] = E[|X|] = −∞ x2 1 |x| √ e− 2 dx 2π Z∞ x2 1 − x2 1 2 = (−x) √ e dx + x √ e− 2 dx . 2π 2π −∞ 0 {z } | {z } | Z0 =:I1 =:I2 Für die Berechnung von I1 verwenden wir die Substitution t := −x, dx = −dt: Z0 I1 = −∞ x2 1 (−x) √ e− 2 dx = 2π Z0 ∞ t2 1 t √ e− 2 (−1) dt = 2π Z∞ t2 1 t √ e− 2 dt = I2 . 2π 0 (16) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 39 Der Erwartungswert von Y ist also gegeben durch E[Y ] = 2 I1 + I2 = 2I2 = √ 2π Z∞ r 2 xe − x2 dx = 2 lim π λ→∞ 0 Zλ xe− x2 2 dx . 0 | {z =:I(λ) } 2 Für die Berechnung von I(λ) verwenden wir die Substitution t := − x2 , dx = − x1 dt (vgl. Serie5, Aufg. 4a): 2 − λ2 Z xe I(λ) = t 1 − x Z0 dt = 0 λ2 et dt = et − λ2 = 1 − e− 2 . 2 0 2 − λ2 Für den Grenzwert erhalten wir lim I(λ) = 1 − lim e− λ→∞ λ2 2 λ→∞ = 1 − 0 = 1, und damit r E[Y ] = E[|X|] = 2 lim I(λ) = π λ→∞ r 2 ·1= π r 2 ' 0.798. π Ein Streuungsmass soll die Streubreite einer Wahrscheinlichkeitsverteilung um einen geeigneten Lageparameter (z. B. Median, Erwartungswert, Modus) herum beschreiben. Wir definieren die drei Streuungsmasse Definition 9 (Streuungsmasse) 1. (Inter-)Quartilsabstand (interquartile range, IQR): IQR := QX (0.75) − QX (0.25), 2. Varianz (mittlere quadratische Abweichung vom Erwartungswert): h i 2 Var[X] ≡ V [X] := E (X − E[X]) , (17) (18) falls E[|X|] < ∞, 3. Standardabweichung: σX := p V [X]. (19) Satz 3 (Eigenschaften von Erwartungswert und Varianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine reelle Zufallsvariable mit E[|X|] < ∞, und seien a, b ∈ R. Dann gelten 1. E[a + bX] = a + bE[X] (Linearität des Erwartungswertes), 2. V [a + bX] = b2 V [X]. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 40 Beweis: 1. geht wie in Beispiel 1., auch für b ≤ 0. 2. Wir verwenden die Definition der Varianz sowie die Linearität des Erwartungswertes (1.): h i Def. 9, 2. 2 V [a + bX] = E (a + bX − E[a + bX]) i h Satz 3, 1. 2 = E (a + bX − (a + bE[X])) h i h i 2 2 = E (bX − bE[X]) = E b2 (X − E[X]) h i Satz 3, 1. 2 Def. 9, 2. 2 = b2 E (X − E[X]) = b V [X]. In der folgenden Tabelle listen wir die Varianzen der früher behandelten Verteilungen auf: Verteilung Varianz V [X] U{1,2,...,n} B(n, p) H(N, M, n) N B(r, p) P(λ) n2 −1 12 U(a, b) Exp(λ) χ2n Fm,n N (µ, σ 2 ) tn Cauchy(t, s) np(1 − p) N −M N −n nM N N N −1 pr (1−p)2 λ (b−a)2 12 1 λ2 2n 2n2 (m+n−2) m(n−2)2 (n−4) , 2 n>4 σ n>2 − n n−2 , Beachten Sie, dass die Bernoulli-Verteilung ein Spezialfall der Binomalverteilung und die geometrische Verteilung ein Spezialfall der negativen Binomaialverteilung ist, weshalb diese Verteilungen in der Tabelle nicht extra aufgeführt sind. Beispiele: 1. Berechnung von Erwartungswert und Varianz einer diskret gleichverteilten Zufallsvariablen. Sei n ∈ N und X ∼ U{1,2,...,n} , also im(X) = {1, 2, . . . , n}. Gemäss Def. 8 ist der Erwartungswert von X gegeben durch E[X] = X xi ∈im(X) xi fX (xi ) = n n X 1 1X 1 n(n + 1) n+1 i = i= = . n n i=1 n 2 2 i=1 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Damit ist die Varianz von X gegeben durch h i X Def. 9, 2. 2 (14) V [X] = E (X − E[X]) = 41 2 (xi − E[X]) fX (xi ) xi ∈im(X) n X = i− i=1 n+1 2 2 n n 1 1X 2 n + 1 (n + 1)2 = i − 2i + n n i=1 2 4 n 1 X 2 n+1X 1 (n + 1)2 i − i+ n n i=1 n i=1 n 4 = 1 n(n + 1)(2n + 1) n + 1 n(n + 1) (n + 1)2 − + n 6 n 2 4 (n + 1)(2n + 1) (n + 1)2 (n + 1)2 − + 6 2 4 (n + 1)(2n + 1) (n + 1)2 2(n + 1)(2n + 1) − 3(n + 1)2 − = 6 4 12 (n + 1) (4n + 2 − 3n − 3) (n + 1) (2(2n + 1) − 3(n + 1)) = 12 12 2 (n + 1)(n − 1) n −1 = . 12 12 = = = = = 2. Berechnung von Erwartungswert und Varianz einer exponentialverteilten Zufallsvariablen. Sei λ > 0 und X ∼ Exp(λ). Gemäss Def. 8 ist der Erwartungswert von X gegeben durch Z∞ E[X] = Z∞ xfX (x) dx = −∞ 0 = ∞ xλe−λx dx = −xe−λx 0 + 0+ Z∞ e−λx dx 0 ∞ 1 1 − e−λx = . λ λ 0 Damit ist die Varianz von X gegeben durch V [X] = 2 i (15) Z∞ 1 E (X − E[X]) = x− λe−λx dx λ = Z∞ Z∞ 1 2 2 −λx dx = x2 λe−λx dx + x − x + 2 λe λ λ Def. 9, 2. h 2 0 0 − 0 2 λ Z∞ 0 xλe−λx dx + 1 λ Z∞ 0 e−λx dx 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) = ∞ −x2 e−λx 0 Z∞ + 2xe −λx 2 dx − λ 0 + 1 λ Z∞ e−λx dx = 0 + 0 Z∞ 42 xλe−λx dx + 0 − ∞ 1 1 −λx e = λ2 . λ2 0 Bemerkungen: • Eine Zufallsvariable X : Ω → R mit E[X] = 0 heisst zentriert. Eine zentrierte Zufallsvariable mit V [X] = 1 heisst standardisiert. • Sei X eine reelle Zufallsvariable mit E[|X|] < ∞. Dann ist die reelle Zufallsvariable E[X] 1 X − E[X] = −p +p X Y := p V [X] V [X] V [X] standardisiert, wie wir leicht mit Satz 3 beweisen: " # E[X] 1 E[X] 1 Satz 3 E[Y ] = E − p +p X = −p +p E[X] = 0, V [X] V [X] V [X] V [X] # !2 " 1 E[X] 1 Satz 3 p +p X V [X] = 1. V [Y ] = V − p = V [X] V [X] V [X] • der MATLAB-Befehl ...stat gibt den Erwartungswert und die Varianz einer Verteilung mit gegebenen Parametern aus, z. B. [m,v] = binostat(10,1/6) oder [m,v] = chi2stat(5). 1.5 Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen Bisher haben wir Zufallsexperimente betrachtet, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand, z. B. die Augenzahl beim Würfeln oder die Anzahl gezogener Kugeln. In diesem Kapitel betrachten wir Zufallsexperimente, bei denen gleichzeitig mehrere Zufallsgrössen beobachtet werden. Dabei stossen wir auf mehrdimensionale Zufallsvariablen mit multivariaten Verteilungen. Die Wahrscheinlichkeits(dichte)funktionen sowie die (kumulativen) Verteilungsfunktionen von solchen mehrdimensionalen Zufallsvariablen sind Funktionen von mehreren Variablen, wie sie in MAE3, Kap. I.4., eingeführt wurden. Im Kap. 1.1.3 haben wir gesehen, dass für • einen Wahrscheinlichkeitsraum (Ω, Σ, P ), • einen messbaren Raum (Ω0 , Σ0 ) und • eine Zufallsvariable X : Ω → Ω0 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 43 das durch X induzierte Wahrscheinlichkeitsmass PX := P ◦ X −1 : Σ0 → [0, 1] definiert werden kann, so dass (Ω0 , Σ0 , PX ) ein Wahrscheinlichkeitsraum ist. Wir haben uns dann auf reelle Zufallsvariablen eingeschränkt, d. h. Ω0 ⊆ R. In diesem Kapitel geht es um n-dimensionale reelle Zufallsvariablen, d. h. Ω0 ⊆ Rn , für ein n ∈ N. 1.5.1 Mehrdimensionale Zufallsvariablen Definition 10 (mehrdimensionale reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien Xi : Ω → R, i = 1, 2, . . . , n, n ∈ N, reelle Zufallsvariablen. Dann ist die Funktion X : Ω → Rn , > X(ω) := (X1 (ω), X2 (ω), . . . , Xn (ω)) , ω ∈ Ω, eine n-dimensionale reelle Zufallsvariable oder ein n-dimensionaler reeller Zufallsvektor. Eine mehrdimensionale reelle Zufallsvariable X heisst diskret, wenn jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine diskrete reelle Zufallsvariable ist. Eine mehrdimensionale reelle Zufallsvariable X heisst stetig, wenn jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine stetige reelle Zufallsvariable ist. Bemerkungen: • Das Bild einer n-dimensionalen Zufallsvariablen X ist im Allgemeinen gegeben durch im(X) = im(X1 ) × im(X2 ) × · · · × im(Xn ) ⊆ Rn , wobei im(Xi ) ⊆ R das Bild der i-ten Komponente bezeichnet, i = 1, 2, . . . , n. • Für eine diskrete n-dimensionale reelle Zufallsvariable ist im(X) ⊆ Rn ein Punktgitter im Rn , also insbesondere abzählbar. > • Für n = 2 verwendet man oft X = (X, Y ) anstatt X = (X1 , X2 )> und für n = 3 oft X = (X, Y, Z)> anstatt X = (X1 , X2 , X3 )> . Wie wir wissen, induzieren die reellen Zufallsvariablen Xi : Ω → R, i = 1, 2, . . . , n, Wahrscheinlichkeitsmasse auf dem messbaren Raum (R, B(R)): PXi : B(R) → [0, 1], PXi (A) := P Xi−1 (A) = “P (Xi ∈ A)”, A ∈ B(R), wobei B(R) die Borelsche σ-Algebra auf R bezeichnet (die kleinste σ-Algebra mit R als Grundmenge, die alle offenen Intervalle enthält; Def. 4). Die (kumulativen) Verteilungsfunktionen FXi : R → [0, 1] sind gegeben durch FXi (xi ) := PXi ((−∞, xi ]) = “P (Xi ≤ xi )”, xi ∈ R, i = 1, 2, . . . , n. Ganz analog induziert die n-dimensionale Zufallsvariable X = (X1 , X2 , . . . , Xn )> ein Wahrscheinlichkeitsmass auf einem messbaren Raum, wie wir im Folgenden herleiten werden: Sei x = (x1 , x2 , . . . , xn )> ∈ Rn , dann gilt nach Def. 5: Xi−1 ((−∞, xi ]) = {ω ∈ Ω | Xi (ω) ≤ xi } ∈ Σ, i = 1, 2, . . . , n. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 44 Wir betrachten nun das Urbild des Kegels (−∞, x] := (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ] ⊆ Rn unter X: X −1 ((−∞, x]) = X −1 ((−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ]) = {ω ∈ Ω | X(ω) ∈ (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ]} = {ω ∈ Ω | Xi (ω) ≤ xi , i = 1, 2, . . . , n} n n \ \ = {ω ∈ Ω | Xi (ω) ≤ xi } = Xi−1 ((−∞, xi ]) ∈ Σ. i=1 i=1 Analog zu Def. 4 ist die Borelsche σ-Algebra auf Rn , B(Rn ), definiert als die kleinste σ-Algebra mit Rn als Grundmenge, die alle n-dimensionalen offenen Quader mit Eckpunkten a = (a1 , a2 , . . . , an )> , b = (b1 , b2 , . . . , bn )> , (a, b) := (a1 , b1 ) × (a2 , b2 ) × · · · × (an , bn ) ⊆ Rn , ai , bi ∈ R, ai < bi , i = 1, 2, . . . , n, enthält. Wie im eindimensionalen Fall sind alle “gängigen” Teilmengen des Rn Borel-Mengen. Man kann zeigen, dass B(Rn ) von den Kegeln (−∞, x] ⊆ Rn mit x ∈ Rn erzeugt wird, d. h. wenn eine Aussage für alle solchen Kegel gilt, dann gilt sie sogar für sämtliche Borel-Mengen im Rn . Das Paar (Rn , B(Rn )) ist ein messbarer Raum (MAE3, Def. 27), und X ist eine messbare Funktion: ∀ A ∈ B(Rn ) : X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ. Das durch X induzierte Wahrscheinlichkeitsmass auf (Rn , B(Rn )), also die Funktion PX : B(Rn ) → [0, 1], ist definiert durch PX (A) := P X −1 (A) = “P (X ∈ A)”, A ∈ B(Rn ). (20) Damit erhalten wir den neuen Wahrscheinlichkeitsraum (Rn , B(Rn ), PX ). Für n = 1 erhalten wir die bereits bekannten Definitionen für reelle Zufallsvariablen, also sind dies Verallgemeinerungen, wie auch die folgende Definition: Definition 11 ((kumulative) Verteilungsfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable. Die (kumulative) Verteilungsfunktion von X, FX : Rn → [0, 1], ist definiert durch FX (x) := PX ((−∞, x]) = P X −1 ((−∞, x]) (21) ! n \ = P Xi−1 ((−∞, xi ]) = “P (X ≤ x)” (22) i=1 = “P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ · · · ∧ Xn ≤ xn )”, > (23) für x = (x1 , x2 , . . . , xn ) ∈ Rn . Die (kumulative) Verteilungsfunktion FX beschreibt die Verteilung der Zufallsvariablen X oder die gemeinsame Verteilung der reellen Zufallsvariablen X1 , X2 , . . . , Xn . Die Verteilungen der einzelnen 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 45 Komponenten Xi heissen (eindimensionale) Rand- oder Marginalverteilungen: FXi (xi ) = “P (Xi ≤ xi )” = lim “P (X1 ≤ x1 ∧ · · · ∧ Xi−1 ≤ xi−1 ∧ Xi ≤ xi ∧ Xi+1 ≤ xi+1 ∧ · · · ∧ Xn ≤ xn )” xk →∞ ∀k:k6=i = lim FX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) , xk →∞ ∀k:k6=i xi ∈ R, i = 1, 2, . . . , n. (24) Wir illustrieren die (kumulative) Verteilungsfunktion einer zweidimensionalen > stetigen reellen Zufallsvariablen X : Ω → R2 , ω 7→ X(ω) = (X1 (ω), X2 (ω)) , sowie ihre Randverteilungen in der folgenden Grafik: Auf Funktionen von mehreren Variablen – insbesondere auf die Differenzialund Integralrechnung in mehreren Dimensionen – werden wir später in dieser Vorlesung noch genauer eingehen. Definition 12 (Wahrscheinlichkeitsdichtefunktionen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine diskrete oder stetige n-dimensionale reelle Zufallsvariable. • Im diskreten Fall erfüllt die (kumulative) Verteilungsfunktion X X FX (x) = fX (xi ) = fX (xi ), xi ∈im(X)∩(−∞,x] xi ∈im(X) xi ≤x (25) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 46 für x ∈ Rn , wobei fX : im(X) → [0, 1] die Wahrscheinlichkeitsfunktion (Zähldichte) der Zufallsvariablen X oder die gemeinsame Wahrscheinlichkeitsfunktion (Zähldichte) der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet. • Im stetigen Fall erfüllt die (kumulative) Verteilungsfunktion FX (b) = ··· fX (x) dx = (−∞,b] Zbn Zb1 Zb2 Z −∞ −∞ fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 , −∞ (26) für b = (b1 , b2 , . . . , bn )> ∈ Rn , wobei fX : Rn → [0, ∞) die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X oder die gemeinsame Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet. Bemerkungen: • Analog zum eindimensionalen Fall erfüllt die Wahrscheinlichkeitsfunktion (Zähldichte) fX : im(X) → [0, 1] der diskreten Zufallsvariablen X: fX (x) = “P (X = x)” = “P (X1 = x1 ∧ X2 = x2 ∧ · · · ∧ Xn = xn )”, (27) für x = (x1 , x2 , . . . , xn )> ∈ Rn . Eine stetige Zufallsvariable X erfüllt jedoch “P (X = x)” = PX ({x}) = 0, ∀ x ∈ Rn . (28) • In (26) steht ein n-dimensionales Integral, das “von innen nach aussen” durch n-fache eindimensionale Integration ausgewertet werden kann. Unter gewissen Voraussetzungen an den Integranden fX (die in der Regel erfüllt sind) spielt die Reihenfolge der Integrationen keine Rolle (Satz von Fubini; G. Fubini, 1879–1943). • Wie im eindimensionalen Fall kann für stetige reelle Zufallsvariablen die Wahrscheinlichkeitsdichtefunktion durch Ableiten aus der (kumulativen) Verteilungsfunktion berechnet werden: fX (x) = ∂ n FX (x). ∂x1 ∂x2 · · · ∂xn (29) Dieser Ausdruck wird ebenfalls “von innen nach aussen” durch n-fache eindimensionale partielle Ableitung berechnet, wobei die Reihenfolge der partiellen Ableitungen keine Rolle spielt. Wie im Kap. 1.1.3 stellen wir einige Eigenschaften von diskreten und stetigen n-dimensionalen reellen Zufallsvariablen in einer Tabelle zusammen: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Zufallsvariable X Ergebnismenge Ω0 Ereignisfeld Σ0 Wahrscheinlichkeits(dichte)funktion diskret reell n-dimensional im(X) ⊆ Rn (abzählbar) P (im(X)) stetig reell n-dimensional Rn (überabzählbar unendlich) B(Rn ) ( P(Rn ) fX : im(X) → [0, 1] fX : Rn → [0, ∞) Z fX (x) dx = 1 X fX (xi ) = 1 Normierung xi ∈im(X) Elementarereignis {x} ∈ Σ0 , x ∈ Ω0 Quader “P (a < X ≤ b)” a, b ∈ Rn , a < b 47 Rn PX ({x}) = fX (x) X fX (xi ) xi ∈im(X) a<xi ≤b PX ({x}) = 0 Z fX (x) dx (a,b) wobei das n-dimensionale Integral unten rechts in der Tabelle gegeben ist durch Zb1 Zb2 Z ··· fX (x) dx = a1 a2 (a,b) Zbn fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 . (30) an Dabei sind Grenzübergänge ai → −∞ und/oder bj → ∞ zugelassen, was auf unendliche Reihen bzw. uneigentliche Integrale führt. Beispiele: Wir illustrieren die obigen Begriffe an zweidimensionalen Zufallsvariablen (n = 2). 1. Wir betrachten das Zufallsexperiment Ziehen von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln, und wir definieren die Zufallsvariablen X1 := “Anzahl der roten Kugeln bei der 1. Ziehung”, X2 := “Anzahl der roten Kugeln bei der 2. Ziehung”, mit im(X1 ) = im(X2 ) = {0, 1}. Wir definieren die diskrete zweidimensionale Zufallsvariable X := (X1 , X2 )> mit im(X) = im(X1 ) × im(X2 ) = {0, 1}2 = {(0, 0), (0, 1), (1, 0), (1, 1)}. Wir wollen die Zähldichte von X, also die Funktion fX : {0, 1}2 → [0, 1], berechnen. Dazu verwenden wir (27): fX ((0, 0)) = “P (X = (0, 0))” = “P (X1 = 0 ∧ X2 = 0)”, fX ((0, 1)) = “P (X = (0, 1))” = “P (X1 = 0 ∧ X2 = 1)”, fX ((1, 0)) = “P (X = (1, 0))” = “P (X1 = 1 ∧ X2 = 0)”, fX ((1, 1)) = “P (X = (1, 1))” = “P (X1 = 1 ∧ X2 = 1)”. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 48 Es stellt sich heraus, dass diese Zähldichte unterschiedlich ist je nachdem, ob mit oder ohne Zurücklegen gezogen wird: “P (X1 “P (X1 “P (X1 “P (X1 = 0 ∧ X2 = 0 ∧ X2 = 1 ∧ X2 = 1 ∧ X2 = 0)” = 1)” = 0)” = 1)” mit Zurücklegen 7 7 49 10 · 10 = 100 7 3 21 10 · 10 = 100 7 21 3 10 · 10 = 100 3 3 9 10 · 10 = 100 ohne Zurücklegen 7 6 7 10 · 9 = 15 7 3 7 10 · 9 = 30 7 7 3 10 · 9 = 30 3 2 1 10 · 9 = 15 Die Wertetabellen der entsprechenden Zähldichten der gemeinsamen Verteilung sowie der (eindimensionalen) Randverteilungen sind gegeben durch mit Zurücklegen: x1 fX 0 1 fX2 21 49 7 0 100 100 10 x2 21 3 9 1 100 100 10 7 3 fX1 10 1 10 ohne Zurücklegen: x1 fX 0 1 fX2 7 7 7 0 15 30 10 x2 7 3 1 1 30 15 10 7 3 fX1 10 1 10 Offensichtlich sind die Randverteilungen in beiden Fällen gleich, obwohl die gemeinsame Verteilung unterschiedlich ist. Im Allgemeinen kann daher von den Randverteilungen nicht auf die gemeinsame Verteilung geschlossen werden! Mit Hilfe dieser Tabellen können wir jetzt z. B. die folgenden Wahrscheinlichkeiten berechnen: ( 21 100 , mit Zurücklegen, , • “P (X1 = 1 ∧ X2 = 0)” = 7 ohne Zurücklegen 30 , • “P (X1 = 1)” = “P (X1 = 1 ∧ (X2 = 0 ∨ X2 = 1))” = “P ((X1 = 1 ∧ X2 = 0) ∨ (X1 = 1 ∧ X2 = 1))” = “P ( (X1 = 1 ∧ X2 = 0) + P (X1 = 1 ∧ X2 = 1)” 21 9 3 100 + 100 , mit Zurücklegen = = , 7 1 10 ohne Zurücklegen 30 + 15 , “P (X1 = 1 ∧ X2 = 0)” • “P (X2 = 0|X1 = 1)” = “P (X1 = 1)” 21 7 100 3 = , mit Zurücklegen 10 10 = 7 7 30 ohne Zurücklegen 3 = 9, 10 (bedingte Wahrscheinlichkeit; vgl. MAE3, Def. 30). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 49 2. Die kumulative Verteilungsfunktion einer stetigen zweidimensionalen reellen Zufallsvariablen X sei gegeben durch 1 1 − π1 arctan 3−x 1 − e−2x2 , x2 ≥ 0 2 4 FX (x1 , x2 ) = , 0, x2 < 0 für x1 , x2 ∈ R. Die (eindimensionalen) Randverteilungen erhalten wir durch Berechnung der Grenzwerte: 1 3 − x1 1 , x1 ∈ R, FX1 (x1 ) = lim FX (x1 , x2 ) = − arctan x2 →∞ 2 π 4 1 − e−2x2 , x2 ≥ 0 FX2 (x2 ) = lim FX (x1 , x2 ) = , x2 ∈ R. 0, x2 < 0 x1 →∞ Wir wollen die Wahrscheinlichkeitsdichtefunktion fX mit Hilfe von (29) als zweite partielle Ableitung von FX berechnen. Dazu berechnen wir zunächst die (ersten) partiellen Ableitungen (für x2 > 0; MAE3, Def. 14): 1 ∂FX 1 1 1 − e−2x2 , (x1 , x2 ) = − 2 − 3−x 1 ∂x1 π1+ 4 4 1 3 − x1 ∂FX 1 − arctan 2e−2x2 . (x1 , x2 ) = ∂x2 2 π 4 Jetzt leiten wir diese Ausdrücke einfach noch einmal partiell ab, und zwar nach der jeweils anderen Variablen: 1 1 e−2x2 ∂ 2 FX 1 8 −2x2 = − , − 2e = ∂x2 ∂x1 π 1 + 3−x1 2 4 π 16 + (3 − x1 )2 4 ∂ 2 FX 1 e−2x2 1 1 8 −2x2 . = − − 2e = ∂x1 ∂x2 π 1 + 3−x1 2 4 π 16 + (3 − x1 )2 4 Offensichtlich erhalten wir unabhängig von der Reihenfolge der partiellen Ableitungen dieselbe Wahrscheinlichkeitsdichtefunktion fX (x1 , x2 ) = 8 e−2x2 , π 16 + (3 − x1 )2 x2 > 0. WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 50 Damit können wir Wahrscheinlichkeiten durch Integration berechnen, z. B. “P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))” = PX ((0, 5] × (−1, 1)) Z5 Z1 = fX (x1 , x2 ) dx2 dx1 . 0 −1 Dieses zweidimensionale Integral werten wir “von innen nach aussen” aus, Z1 d. h. wir berechnen zuerst das Integral über x2 : fX (x1 , x2 ) dx2 −1 Z1 = 0 = e−2x2 8 1 8 dx2 = π 16 + (3 − x1 )2 π 16 + (3 − x1 )2 Z1 e−2x2 dx2 0 8 4 1 1 1 − e−2 −2 1 − e = , π 16 + (3 − x1 )2 2 π 16 + (3 − x1 )2 und integrieren dann noch über x1 : “P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))” Z5 1 − e−2 1 − e−2 1 4 dx1 dx = 1 1 2 π 16 + (3 − x1 )2 4π 1 + ( 3−x 4 ) 0 0 −2 1−e 3 1 arctan − arctan − ' 30 %. π 4 2 Z5 = t= 3−x1 =4 2 f (X 1 ,X ) 2 (x 1 ,x 2 ) 1.5 0.01 x2 1 1 0.0 0.03 0.0 1 0.5 0.0 5 0.0 .07 0 .03 0 0 -6 1 -4 -2 0 4 x1 0.0 3 0.0 7 9 0.0 .11 0 0.13 2 5 6 8 10 12 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 51 Die Berechnung der (eindimensionalen) Randdichten fXi , i = 1, 2, . . . , n, aus der gemeinsamen Wahrscheinlichkeits(dichte)funktion fX erfolgt • im diskreten Fall über die (n − 1)-fache Summe fXi (xi ) = X X X X ··· fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ), ··· xn ∈ im(Xn ) xi−1 ∈ xi+1 ∈ im(Xi−1 ) im(Xi+1 ) x1 ∈ im(X1 ) (31) für xi ∈ im(Xi ), und • im stetigen Fall über das (n − 1)-fache Integral fXi (xi ) = Z∞ Z∞ ··· −∞ fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) dxn · · · dxi+1 dxi−1 · · · dx1 , −∞ (32) für xi ∈ R, wobei über alle Komponenten ausser der i-ten summiert bzw. integriert wird. Beispiel: Sei X : Ω → R2 eine zweidimensionale stetige reelle Zufallsvariable mit Wahrscheinlichkeitsdichtefunktion ( 8 e−2x2 π 16+(3−x1 )2 , x2 > 0 , fX (x1 , x2 ) = x1 , x2 ∈ R2 0, x2 ≤ 0 (vgl. vorheriges Beispiel). Die eindimensionalen Randdichten sind nach (32) für n = 2 gegeben durch Z∞ fX1 (x1 ) = Z∞ fX (x1 , x2 ) dx2 = −∞ = e−2x2 8 dx2 π 16 + (3 − x1 )2 0 8 1 π 16 + (3 − x1 )2 Z∞ 0 e−2x2 dx2 = 1 8 π 16 + (3 − x1 )2 ∞ 1 − e−2x2 2 0 | {z } = 12 4 1 , π 16 + (3 − x1 )2 x1 ∈ R ⇒ X1 ∼ Cauchy(3, 4), ∞ R 8 e−2x2 Z∞ π 16+(3−x1 )2 dx1 , x2 > 0 −∞ fX2 (x2 ) = fX (x1 , x2 ) dx1 = R∞ 0 dx1 , x2 ≤ 0 −∞ −∞ ∞ 8 e−2x2 R 1 π 16+(3−x1 )2 dx1 , x2 > 0 = −∞ 0, x2 ≤ 0 8 −2x −2x ∞ 1 2 − 41 arctan 3−x , x2 > 0 2e 2 , x2 > 0 πe 4 −∞ = = 0, x2 ≤ 0 0, x2 ≤ 0 = ⇒ X2 ∼ Exp(2). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.5.2 52 Stochastische Unabhängigkeit Viele statistische Methoden setzen die (stochastische) Unabhängigkeit der beteiligten Zufallsvariablen voraus. In diesem Kapitel erweitern wir die Definition für die (stochastische) Unabhängigkeit von Ereignissen aus MAE3 auf die (stochastische) Unabhängigkeit von reellen Zufallsvariablen. Zuerst erinnern wir kurz an den Schluss der Vorlesung MAE3, wo die (stochastische) Unabhängigkeit von Ereignissen behandelt wurde (MAE3, Def. 31): Definition 13 ((stochastisch) unabhängige Ereignisse) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ Σ heissen (stochastisch) unabhängig, falls P (A ∩ B) = P (A)P (B). Bemerkung: Für (stochastisch) unabhängige Ereignisse A, B ∈ Σ gilt P (A|B) = P (B|A) = P (A ∩ B) P (A)P (B) = = P (A), P (B) P (B) P (A ∩ B) P (A)P (B) = = P (B), P (A) P (A) falls P (B) 6= 0, und falls P (A) 6= 0 (bedingte Wahrscheinlichkeiten: MAE3, Def. 30). Dies bedeutet, dass das Eintreten des Ereignisses B die Wahrscheinlichkeit für das Eintreten des Ereignisses A nicht beeinflusst, und umgekehrt. Definition 14 (Unabhängigkeit von mehreren Ereignissen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien A1 , A2 , . . . , An ∈ Σ Ereignisse. • Die Ereignisse A1 , A2 , . . . , An heissen paarweise unabhängig, falls die Ereignisse Ai und Aj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}. • Die Ereignisse A1 , A2 , . . . , An heissen gegenseitig unabhängig, falls für jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt: k k \ Y P Ai j = P (Aij ) = P (Ai1 )P (Ai2 ) · · · P (Aik ). (33) j=1 j=1 Bemerkungen: • Für n = 2 Ereignisse sind die drei Begriffe “gegenseitig unabhängig”, “paarweise unabhängig” und “unabhängig” äquivalent. • Für n > 2 Ereignisse gibt es jedoch zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich eben die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 53 Die (stochastische) Unabhängigkeit von Ereignissen wird auch in der Definition der (stochastischen) Unabhängigkeit von reellen Zufallsvariablen benötigt: Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R zwei reelle Zufallsvariablen. Wie im Kap. 1.1.3 betrachten wir den messbaren Raum (R, B(R)) mit der Borelschen σ-Algebra (Def. 4). X und Y sind messbare Funktionen, d. h. ∀ A ∈ B(R) : ∀ B ∈ B(R) : X −1 (A) Y −1 (B) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ, = {ω ∈ Ω | Y (ω) ∈ B} ∈ Σ (Urbilder von messbaren Mengen sind messbar). Für A, B ∈ B(R) können wir die folgenden bedingten Wahrscheinlichkeiten betrachten: P X −1 (A) ∩ Y −1 (B) −1 −1 , “P (X ∈ A|Y ∈ B)” = P X (A)|Y (B) = P (Y −1 (B)) P X −1 (A) ∩ Y −1 (B) “P (Y ∈ B|X ∈ A)” = P Y −1 (B)|X −1 (A) = , P (X −1 (A)) falls P (Y −1 (B)) 6= 0 bzw. P (X −1 (A)) 6= 0 (vgl. MAE3, Def. 30). Die beiden Zufallsvariablen X und Y heissen (stochastisch) unabhängig, wenn die Realisierung von X keinerlei Einfluss auf die Realisierung von Y hat, und umgekehrt: Definition 15 ((stochastisch) unabhängige reelle Zufallsvariablen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen. X und Y heissen (stochastisch) unabhängig, falls für alle A, B ∈ B(R) die Ereignisse X −1 (A), Y −1 (B) ∈ Σ (stochastisch) unabhängig sind, d. h. falls ∀ A, B ∈ B(R) : P X −1 (A) ∩ Y −1 (B) = P X −1 (A) P Y −1 (B) . (34) Andernfalls heissen X und Y (stochastisch) abhängig. Bemerkung: Die Formel (34) können wir auch schreiben als ∀ A, B ∈ B(R) : ∀ a, b ∈ R : “P (X ∈ A ∧ Y ∈ B)” = “P (X ∈ A)P (Y ∈ B)”, oder als “P (X ≤ a ∧ Y ≤ b)” = “P (X ≤ a)P (Y ≤ b)”, denn eine Aussage gilt genau dann für alle Borel-Mengen A, B ∈ B(R), wenn sie für alle linksseitig unendlichen, abgeschlossenen Intervalle (−∞, a], (−∞, b], mit a, b ∈ R, gilt. Im Falle der (stochastischen) Unabhängigkeit von X und Y gilt für die bedingten Wahrscheinlichkeiten von oben: “P (X ∈ A|Y ∈ B)” = P X −1 (A)|Y −1 (B) = P X −1 (A) = “P (X ∈ A)”, “P (Y ∈ B|X ∈ A)” = P Y −1 (B)|X −1 (A) = P Y −1 (B) = “P (Y ∈ B)”, d. h. die Tatsache, dass der Wert der Zufallsvariablen Y in der Menge B liegt, hat keinen Einfluss auf die Wahrscheinlichkeit dafür, dass der Wert der Zufallsvariablen X in der Menge A liegt, und umgekehrt. Dies gilt für alle Borel-Mengen A, B ∈ B(R)! 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 54 Im Falle der (stochastischen) Unabhängigkeit der reellen Zufallsvariablen X und Y gelten ausserdem spezielle Formeln für die (kumulative) Verteilungsfunktion und für die Wahrscheinlichkeits(dichte)funktion der zweidimensionalen reellen Zufallsvariablen X := (X, Y )> : Satz 4 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R zwei reelle Zufallsvariablen. Wir definieren die zweidimensionale reelle Zufallsvariable X := (X, Y )> . Die Zufallsvariablen X und Y sind genau dann (stochastisch) unabhängig, wenn für die (kumulativen) Verteilungsfunktionen FX , FX , FY gilt: FX (x, y) = FX (x)FY (y), ∀ x, y ∈ R. (35) Im diskreten oder stetigen Fall ist dies äquivalent dazu, dass für die Wahrscheinlichkeits(dichte)funktionen fX , fX , fY gilt: fX (x, y) = fX (x)fY (y), ∀ x, y ∈ R. (36) Bemerkungen: • Dieser Satz kann als Kriterium für die (stochastische) Unabhängigkeit von zwei reellen Zufallsvariablen X, Y verwendet werden, wenn sowohl die Verteilungen von X und Y als auch ihre gemeinsame Verteilung (die Verteilung von X = (X, Y )> ) bekannt sind. Viel öfter wird jedoch die (stochastische) Unabhängigkeit von X und Y vorausgesetzt, um z. B. mit (36) die gemeinsame Wahrscheinlichkeits(dichte)funktion aus bekannten Randdichten berechnen zu können. • Nur wenn X und Y (stochastisch) unabhängig sind, kann man aus den Randverteilungen auf die gemeinsame Verteilung schliessen. Beispiele: 1. Im letzten Kapitel hatten wir die Wahrscheinlichkeitsverteilungen von zwei diskreten Zufallsvariablen X1 und X2 berechnet: Mit Satz 4 prüfen wir nun nach, ob diese beiden Zufallsvariablen (stochastisch) unabhängig sind: x1 0 0 1 1 x2 0 1 0 1 Ziehen mit Zurücklegen fX (x1 , x2 ) fX1 (x1 )fX2 (x2 ) 7 7 49 49 100 10 · 10 = 100 21 7 3 21 100 10 · 10 = 100 21 3 7 21 100 10 · 10 = 100 9 3 3 9 100 10 · 10 = 100 Ziehen ohne Zurücklegen fX (x1 , x2 ) fX1 (x1 )fX2 (x2 ) 7 7 49 7 15 10 · 10 = 100 7 7 3 21 30 10 · 10 = 100 7 3 7 21 30 10 · 10 = 100 1 3 3 9 15 10 · 10 = 100 Nach Satz 4 sind also • X1 und X2 (stochastisch) unabhängig, falls mit Zurücklegen gezogen wird und 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 55 • X1 und X2 (stochastisch) abhängig, falls ohne Zurücklegen gezogen wird. 2. Seien X ∼ N (0, 1) und Y := 2X−3 (dann gilt Y ∼ N (−3, 4), vgl. Kap. 1.3) stetige Zufallsvariablen. Da Y eine Transformierte von X ist vermuten wir, dass X und Y (stochastisch) abhängig sind. Die gemeinsame (kumulative) Verteilungsfunktion von X und Y ist gegeben durch FX (x), y ≥ 2x − 3 F(X,Y ) (x, y) = “P (X ≤ x ∧ Y ≤ y)” = , FY (y), y < 2x − 3 für x, y ∈ R. Das Kriterium aus Satz 4 ist offensichtlich nicht erfüllt, also sind X und Y tatsächlich (stochastisch) abhängig. In der folgenden Grafik vergleichen wir Niveaulinien von F(X,Y ) mit jenen von FX FY : X ∼ N(0,1), Y := 2 X - 3 0 0.8 0.5 0.4 0.3 0.2 -4 0.1 0.1 -6 0.9 0.8 0.7 0.1 0.1 0.6 0.5 0.4 0.3 0.2 -4 ∼ N(-3,4), unabhaengig 0.9 -2 0.2 y X ∼ N(0,1), Y 0.2 0.3 -2 2 0.6 0.5 0.4 0.3 0.7 0.6 0.5 0.4 0 ∼ N(-3,4) y 2 -6 y=2x-3 F(X,Y) (x,y) FX (x) F Y(y) -8 -8 -5 0 5 -5 0 5 x x Genau wie für Ereignisse kann man auch die (stochastische) Unabhängigkeit von mehr als zwei Zufallsvariablen definieren: Definition 16 (Unabhängigkeit von mehreren reellen Zufallsvariablen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. • Die Zufallsvariablen X1 , X2 , . . . , Xn heissen paarweise unabhängig, falls die Zufallsvariablen Xi und Xj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}. • Die Zufallsvariablen X1 , X2 , . . . , Xn heissen gegenseitig unabhängig, falls für jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt: k k \ Y ∀ A1 , A2 , . . . , Ak ∈ B(R) : P Xi−1 (A ) = P Xi−1 (Aj ) , j j j j=1 j=1 (37) −1 −1 das heisst falls die Ereignisse Xi−1 (A ) gegenseitig (A ), X (A ), . . . X 1 2 k i2 ik 1 unabhängig sind für alle Borel-Mengen A1 , A2 , . . . , Ak ∈ B(R). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 56 Bemerkungen: • Für n = 2 Zufallsvariablen sind die drei Begriffe “gegenseitig unabhängig”, “paarweise unabhängig” und “unabhängig” äquivalent. Für n > 2 Zufallsvariablen hingegen gibt es wieder zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft. • Mit X := (X1 , X2 , . . . , Xn )> folgt aus der Formel (37) für k = n: “P (X ≤ a)” = = “P (X1 ≤ a1 ∧ X2 ≤ a2 ∧ · · · ∧ Xn ≤ an )” ! n n \ (37) Y P Xi−1 ((−∞, ai ]) = P Xi−1 ((−∞, ai ]) i=1 = = i=1 “P (X1 ≤ a1 )P (X2 ≤ a2 ) · · · P (Xn ≤ an )” n Y “ P (Xi ≤ ai )”, ∀ a = (a1 , a2 , . . . , an )> ∈ Rn , i=1 weil (−∞, a1 ], (−∞, a2 ], . . . , (−∞, an ] ∈ B(R). Daraus folgt für die gemeinsame (kumulative) Verteilungsfunktion: FX (x) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ) = n Y FXi (xi ), (38) i=1 für alle x = (x1 , x2 , . . . , xn )> ∈ Rn , und für die Wahrscheinlichkeits(dichte)funktionen im diskreten oder stetigen Fall: fX (x) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) = n Y fXi (xi ), (39) i=1 für alle x = (x1 , x2 , . . . , xn )> ∈ Rn . Die Formeln (38), (39) sind Verallgemeinerungen von (35), (36) und sehr nützlich für praktische Rechnungen. Um sie anwenden zu können, muss man die gegenseitige Unabhängigkeit der reellen Zufallsvariablen X1 , X2 , . . . , Xn voraussetzen – paarweise Unabhängigkeit genügt nicht! 1.6 Transformationen von Zufallsvektoren Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable. Wir betrachten Funktionen g : Rn → R, so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine reelle Zufallsvariable ist: g X Ω −→ Rn − → R, Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R, ω ∈ Ω. Wir sind in erster Linie an Summen und Produkten der Komponenten von X interessiert, also z. B. an Transformationen der Form g(x) := n X i=1 xi oder g(x) := n Y i=1 xi , x = (x1 , x2 , . . . , xn )> ∈ Rn . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 57 Wir illustrieren diese Abbildungen für den Fall n = 2 in der folgenden Grafik: Bevor wir uns anschauen, wie die Verteilung einer derart transformierten Zufallsvariablen Y = g(X) aussieht, wollen wir zuerst untersuchen, wie die Masszahlen transformieren. 1.6.1 Masszahlen der Transformierten Satz 5 (Erwartungswert einer Transformierten) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine n-dimensionale diskrete oder stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX . Sei g : Rn → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz Y := g(X)) eine reelle Zufallsvariable ist. Der Erwartungswert von Y ist dann • im diskreten Fall gegeben durch X E[Y ] = E[g(X)] = g(xi )fX (xi ) (40) xi ∈im(X) • und im stetigen Fall gegeben durch Z E[Y ] = E[g(X)] = g(x)fX (x) dx. Rn (41) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 58 Bemerkungen: • Die Formeln (40), (41) sind Verallgemeinerungen der Formeln (14), (15) auf n ≥ 1 Dimensionen. • Auf der rechten Seite von (41) steht wieder ein n-dimensionales Integral, das als Hintereinanderausführung von n eindimensionalen Integralen aufgefasst werden kann, die “von innen nach aussen” ausgewertet werden können: Z g(x)fX (x) dx Rn Z∞ Z∞ Z∞ ··· = −∞ −∞ g(x1 , x2 , . . . , xn )fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 . −∞ Beispiel: Sei n = 2 und X1 ∼ N (0, 1), X2 ∼ N (−3, 4), dann ist X := (X1 , X2 )> eine zweidimensionale stetige reelle Zufallsvariable. Sei die Funktion g : R2 → R definiert durch g(x) := x1 + x2 , x = (x1 , x2 )> ∈ R2 . Dann ist Y := g(X) = X1 + X2 eine Summe von stetigen reellen Zufallsvariablen, also selbst wieder eine stetige reelle Zufallsvariable. Den Erwartungswert von Y berechnen wir mit (41) als Z E[Y ] = E[X1 + X2 ] = E[g(X)] = g(x)fX (x) dx R2 Z∞ Z∞ = (x1 + x2 )fX (x1 , x2 ) dx2 dx1 . −∞ −∞ {z | =:I1 (x1 ) } Wir berechnen zuerst das innere Integral I1 mit Hilfe der Summen- und der Faktorregel (MAE2, Satz 3): Z∞ I1 (x1 ) = Z∞ (x1 + x2 )fX (x1 , x2 ) dx2 = −∞ Z∞ x1 fX (x1 , x2 ) dx2 + −∞ Z∞ = x1 x2 fX (x1 , x2 ) dx2 −∞ −∞ | −∞ Z∞ fX (x1 , x2 ) dx2 + {z =fX1 (x1 ) } Z∞ = x1 fX1 (x1 ) + x2 fX (x1 , x2 ) dx2 , −∞ x2 fX (x1 , x2 ) dx2 x1 ∈ R, 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 59 mit der Randdichte fX1 (Formel (32) für n = 2 und i = 1). Wir setzen ein und verwenden wieder die Summenregel: Z∞ Z∞ Z∞ x1 fX1 (x1 ) + E[X1 + X2 ] = I1 (x1 ) dx1 = x2 fX (x1 , x2 ) dx2 dx1 −∞ Z∞ = −∞ −∞ Z∞ Z∞ x1 fX1 (x1 ) dx1 + −∞ | x2 fX (x1 , x2 ) dx2 dx1 −∞ −∞ {z =E[X1 ] } Z∞ Z∞ = x2 fX (x1 , x2 ) dx2 dx1 , E[X1 ] + −∞ −∞ {z | } =:I wobei wir die Definition des Erwartungswertes der stetigen reellen Zufallsvariablen X1 verwendet haben (Def. 8). Für die Berechnung des Integrals I verwenden wir den bereits angesprochenen Satz von Fubini, der es uns erlaubt, die Reihenfolge der Integrationen zu vertauschen: Z∞ Z∞ I= Z∞ Z∞ x2 fX (x1 , x2 ) dx1 dx2 x2 fX (x1 , x2 ) dx2 dx1 = −∞ −∞ −∞ −∞ {z | =:I2 (x2 ) } Für die Berechnung von I2 verwenden wir die Faktorregel: Z∞ I2 (x2 ) = Z∞ fX (x1 , x2 ) dx1 = x2 fX2 (x2 ) x2 fX (x1 , x2 ) dx1 = x2 −∞ −∞ | {z =fX2 (x2 ) } (Formel (32) für n = 2 und i = 2). Einsetzen liefert Z∞ I= Z∞ I2 (x2 ) dx2 = −∞ x2 fX2 (x2 ) dx2 = E[X2 ], −∞ wobei wir die Definition des Erwartungswertes der stetigen reellen Zufallsvariablen X2 verwendet haben (Def. 8). Zusammengefasst erhalten wir also E[X1 + X2 ] = E[X1 ] + I = E[X1 ] + E[X2 ]. Die Erwartungswerte auf der rechten Seite sind in diesem Beispiel bekannt, und wir erhalten E[X1 + X2 ] = E[X1 ] + E[X2 ] = 0 + (−3) = −3. Die Rechnung aus diesem Beispiel lässt sich auf Linearkombinationen von n Zufallsvariablen verallgemeinern, und wir erhalten den 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 60 Satz 6 (Additionssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt " n # n X X E ai Xi + an+1 = ai E[Xi ] + an+1 . (42) i=1 i=1 Bemerkung: Dies ist eine Verallgemeinerung von Satz 3, 1. (Linearität des Erwartungswertes). Beachten Sie, dass der Satz 6 auch für stochastisch abhängige Zufallsvariablen gilt. Als Nächstes berechnen wir die Varianz einer Summe von zwei reellen Zufallsvariablen X1 , X2 . Nach Def. 9, 2., und mit Satz 6 gilt h i Def. 9, 2. 2 V [X1 + X2 ] = E (X1 + X2 − E[X1 + X2 ]) h i Satz 6 2 = E (X1 + X2 − (E[X1 ] + E[X2 ])) h i 2 = E (X1 − E[X1 ] + X2 − E[X2 ]) h i 2 2 = E (X1 − E[X1 ]) + 2 (X1 − E[X1 ]) (X2 − E[X2 ]) + (X2 − E[X2 ]) h i Satz 6 2 = E (X1 − E[X1 ]) + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])] h i 2 +E (X2 − E[X2 ]) Def. 9. 2. = V [X1 ] + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])] + V [X2 ]. Der hier auftretende Erwartungswert des gemischten Produkts ist die Kovarianz von X1 und X2 : Definition 17 (Kovarianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] < ∞. Dann heisst σXY ≡ Cov(X, Y ) := E [(X − E[X]) (Y − E[Y ])] (43) die Kovarianz von X und Y . Damit erhalten wir V [X1 + X2 ] = V [X1 ] + 2Cov(X1 , X2 ) + V [X2 ], was wir auch wieder auf Linearkombinationen von n Zufallsvariablen verallgemeinern können: Satz 7 (Additionssatz für Varianzen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen mit E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) R, dann gilt " n # X V ai Xi + an+1 n X = i=1 61 ai aj Cov(Xi , Xj ) (44) i,j=1 = n X a2i V [Xi ] + 2 i=1 n−1 X n X ai aj Cov(Xi , Xj ). (45) i=1 j=i+1 Bemerkung: Dies ist eine Verallgemeinerung von Satz 3, 2. Für n = 2 und a1 = a2 = 1 erhalten wir die Formel von oben für V [X1 + X2 ]. Die zweite Gleichung in Satz 7 folgt aus den Eigenschaften der Kovarianz: Satz 8 (Eigenschaften der Kovarianz) Die Kovarianz von reellen Zufallsvariablen ist 1. bilinear: Cov(X + Y, Z) = Cov(X, Z) + Cov(Y, Z), Cov(X, Y + Z) = Cov(X, Y ) + Cov(X, Z), Cov(λX, Y ) = Cov(X, λY ) = λCov(X, Y ), λ ∈ R, 2. symmetrisch: σY X = Cov(Y, X) = Cov(X, Y ) = σXY , 2 ≥ 0. 3. positiv semidefinit: σXX = Cov(X, X) = V [X] = σX Ausserdem gilt 4. X, Y stochastisch unabhängig ⇒ Cov(X, Y ) = 0 Beweis: Die Eigenschaften 1.–3. lassen sich direkt mit Def. 17, Def. 9, 2., und mit Satz 6 beweisen. Wir beweisen hier nur 4. für den stetigen Fall. Seien fX und fY die Wahrscheinlichkeitsdichtefunktionen der stetigen reellen Zufallsvariablen X und Y . Weil X, Y stochastisch unabhängig sind, gilt für die gemeinsame Wahrscheinlichkeitsdichtefunktion fX , X := (X, Y )> , nach Satz 4: fX (x, y) = fX (x)fY (y), x, y ∈ R. Damit erhalten wir für die Kovarianz von X und Y : Cov(X, Y ) = Satz 5 = Satz 4 E [(X − E[X]) (Y − E[Y ])] Z∞ Z∞ (x − E[X])(y − E[Y ])fX (x, y) dy dx −∞ −∞ Z∞ Z∞ (x − E[X])(y − E[Y ])fX (x)fY (y) dy dx = −∞ −∞ Z∞ Z∞ (x − E[X])fX (x) = −∞ (y − E[Y ])fY (y) dy dx −∞ | {z Konstante } 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Z∞ Z∞ (x − E[X])fX (x) dx = (y − E[Y ])fY (y) dy −∞ −∞ Satz 5 E [X − E[X]] E [Y − E[Y ]] Satz 6 (E[X] − E[X]) (E[Y ] − E[Y ]) = 0. = = 62 Der Beweis für den diskreten Fall geht analog mit Summen an Stelle von Integralen. Bemerkung: Beachten Sie, dass die Umkehrung von 4. i. A. nicht gilt! Wir zeigen dies mit dem folgenden Beispiel: Sei p ∈ (0, 1) und seien Z1 , Z2 ∼ B(1, p). Wir nehmen an, Z1 , Z2 seien stochastisch unabhängig, und wir definieren die diskreten reellen Zufallsvariablen X := Z1 + Z2 , Y := Z1 − Z2 . Wir erstellen zuerst die folgende Tabelle mit den Werten von Z1 und Z2 , ihren gemeinsamen Wahrscheinlichkeiten, sowie den entsprechenden Werten von X und Y : z1 0 0 1 1 z2 0 1 0 1 “P (Z1 = z1 ∧ Z2 = z2 )” = x= “P (Z1 = z1 )P (Z2 = z2 )” z1 + z2 (1 − p)2 0 p(1 − p) 1 p(1 − p) 1 p2 2 y= z1 − z2 0 −1 1 0 Damit erhalten wir die Wahrscheinlichkeitsfunktionen fX , fY , fX , X := (X, Y )> : x y fX −1 0 1 fX 0 0 (1 − p)2 0 (1 − p)2 1 2 p(1 − p) 0 0 p2 p(1 − p) 0 2p(1 − p) p2 fY p(1 − p) (1 − p)2 + p2 p(1 − p) 1 Die Zufallsvariablen X und Y sind stochastisch abhängig, denn es gilt z. B. fX (1, −1) = p(1 − p) 6= 2p2 (1 − p)2 = fX (1)fY (−1), für p ∈ (0, 1). Für die Kovarianz von X und Y erhalten wir jedoch mit Satz 8: Cov(X, Y ) = Cov(Z1 + Z2 , Z1 − Z2 ) Bilinearität Cov(Z1 , Z1 − Z2 ) + Cov(Z2 , Z1 − Z2 ) Bilinearität Cov(Z1 , Z1 ) − Cov(Z1 , Z2 ) + Cov(Z2 , Z1 ) − Cov(Z2 , Z2 ) Symmetrie = V [Z1 ] − Cov(Z1 , Z2 ) + Cov(Z1 , Z2 ) − V [Z2 ] = V [Z1 ] − V [Z2 ] = 0, = = denn es gilt V [Z1 ] = V [Z2 ] = p(1 − p) für B(1, p)-verteilte Zufallsvariablen. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 63 Aus Satz 7 und Satz 8, 4., erhalten wir das Korollar 1 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R paarweise unabhängige reelle Zufallsvariablen mit E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt " n # n X X V ai Xi + an+1 = a2i V [Xi ]. i=1 i=1 Beweis: Wegen der paarweisen Unabhängigkeit von X1 , X2 , . . . , Xn gilt nach Satz 8, 4.: Cov(Xi , Xj ) = 0, i 6= j. Daher verschwindet die Doppelsumme auf der rechten Seite im Satz 7. Zur Berechnung des Erwartungswertes des Produkts XY von zwei reellen Zufallsvariablen machen wir die folgende Hilfsrechnung: XY = XY − E[X]Y + E[X]Y = (X − E[X]) Y + E[X]Y = (X − E[X]) Y + E[X]Y − (X − E[X]) E[Y ] + (X − E[X]) E[Y ] = (X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ]. Mit Satz 6 erhalten wir E[XY ] = E [(X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ]] = E [(X − E[X]) (Y − E[Y ])] + E[X]E[Y ] + E [X − E[X]] E[Y ] {z } | = Cov(X, Y ) + E[X]E[Y ]. =0 Wir erhalten den Satz 9 (Multiplikationssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. Dann gelten 1. im Fall n = 2: E[X1 X2 ] = E[X1 ]E[X2 ] + Cov(X1 , X2 ), 2. und im Fall n ≥ 2, falls X1 , X2 , . . . , Xn gegenseitig unabhängig sind: " n # n Y Y E Xi = E[Xi ]. i=1 i=1 Bemerkung: Im Fall n = 2 erhalten wir den sog. Verschiebungssatz für die Kovarianz: Cov(X, Y ) = E[XY ] − E[X]E[Y ], der im Fall Y = X zum Verschiebungssatz für die Varianz wird: V [X] = Cov(X, X) = E[XX] − E[X]E[X] = E[X 2 ] − E[X]2 . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.6.2 64 Kovarianz und Korrelation Gemäss Satz 8, 1.–3., ist die Kovarianz Cov eine sog. positiv semidefinite, symmetrische Bilinearform. Sie erfüllt daher die Cauchy-Schwarzsche Ungleichung (A.-L. Cauchy, 1789–1857, K. H. A. Schwarz, 1843–1921) Cov(X, Y )2 = Cov(X, Y )Cov(X, Y ) ≤ Cov(X, X)Cov(Y, Y ) = V [X]V [Y ] und damit (durch Wurzelziehen) |σXY | = |Cov(X, Y )| ≤ p p V [X] V [Y ] = σX σY . Es ist üblich, die Kovarianz durch das Produkt der Standardabweichungen zu dividieren – damit erhält man den Korrelationskoeffizienten: Definition 18 (Korrelationskoeffizient) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] < ∞. Dann heisst σXY Cov(X, Y ) p = . (46) rXY ≡ Kor(X, Y ) := p σX σY V [X] V [Y ] der Korrelationskoeffizient von X und Y . Bemerkungen: • Mit der Cauchy-Schwarzschen Ungleichung für die Kovarianz gilt |rXY | ≤ 1. • Zwei Zufallsvariablen X, Y mit rXY = 0 (und damit σXY = 0) heissen unkorreliert. • Sind X und Y stochastisch unabhängig, so sind sie auch unkorreliert, aber nicht umgekehrt! Die Kovarianz oder der Korrelationskoeffizient der Zufallsvariablen X und Y geben Auskunft über den Grad des monotonen Zusammenhangs zwischen X und Y . Wir illustrieren dies an Hand der bivariaten Normalverteilung: 7 6 f (X,Y) (x,y), r XY = 0 6 5 y 1 0.0 0 -1 0 x 5 01 0.01 1 01 0. 0. -2 -5 0.05 y y 6 0.03 x 4 2 1 0.0 2 0 3 0.03 0 0.03 -2 0.01 0.03 5 1 2 3 5 0 0. 0.07 -4 0.0 0.0 -4 0.0 01 -2 4 1 0.0 3 0.0 0. 0.01 0 4 0.01 2 0.05 f (X,Y) (x,y), r XY < 0 f (X,Y) (x,y), r XY > 0 -2 -3 -8 -6 -4 -2 0 x Ist der Zusammenhang zwischen X und Y hingegen nicht-monoton, so ist es möglich, dass rXY = 0 gilt, obwohl X und Y stochastisch abhängig sind! 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.6.3 65 Verteilung der Transformierten In der folgenden Tabelle listen wir die Verteilungen von einigen Transformierten Y = g ◦ X von Zufallsvektoren X = (X1 , X2 , . . . , Xn )> , n ∈ N, auf. Dabei wird immer angenommen, dass die Zufallsvariablen X1 , X2 , . . . , Xn gegenseitig unabhängig sind. Verteilung der Xi B(ni , p) Transformation Y n X Xi i=1 N B(ri , p) n X i=1 n X P(λi ) i=1 n X χ2ni Xi Xi Verteilung von Y ! n X B ni , p i=1 ! n X ri , p NB i=1 ! n X P λi i=1 χ2X n Xi i=1 ni i=1 N (µi , σi2 ) Cauchy(ti , si ) i=1 n X i=1 n X N (0, 1) Xi χ2ni X1 ∼ N (0, 1) X2 ∼ χ2n n X N µi , i=1 Xi Cauchy n X Xi2 ! σi2 i=1 n X ti , i=1 i=1 X1 X2 X1 /n1 N (0, 1) 1.6.4 n X n X ! si i=1 χ2n Cauchy(0, 1) X2 /n2 X p 1 X2 /n Fn1 ,n2 tn Zentraler Grenzwertsatz Wir betrachten jetzt eine Folge hXi i = X1 , X2 , X3 , . . . von reellen Zufallsvariablen, die gegenseitig unabhängig sind und die alle dieselbe Verteilung haben. Man spricht von unabhängigen und identisch verteilten (englisch: independent and identically distributed, abgekürzt i. i. d. oder einfach iid ) Zufallsvariablen. Der Erwartungswert und die Varianz der Xi seien E[Xi ] = µ, V [Xi ] = σ 2 , i = 1, 2, 3, . . . , mit µ ∈ R, σ > 0 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 66 (insbesondere müssen sowohl die Erwartungswerte als auch die Varianzen aller Xi existieren). Wir betrachten jetzt die n-te Teilsumme der Xi , Sn := n X n ∈ N, Xi , i=1 die wieder eine reelle Zufallsvariable ist. Gemäss Satz 6 und Satz 7 gelten " n # n X X E[Sn ] = E Xi = E[Xi ] = nµ, i=1 V [Sn ] = V " n X i=1 # Xi = i=1 n X V [Xi ] = nσ 2 , i=1 für n ∈ N. Die reellen Zufallsvariablen Zn := Sn − nµ Sn − E[Sn ] p = √ , nσ V [Sn ] n ∈ N, sind standardisiert, d. h. E[Zn ] = 0 und V [Zn ] = 1, n ∈ N. Der zentrale Grenzwertsatz sagt aus, dass für n → ∞ die Verteilung von Zn gegen die Standardnormalverteilung konvergiert: Satz 10 (Zentraler Grenzwertsatz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien Xi : Ω → R, i ∈ N, unabhängige und identisch verteilte reelle Zufallsvariablen mit E[Xi ] = µ und V [Xi ] = σ 2 , i ∈ N, mit µ ∈ R und σ > 0. Wir betrachten die standardisierten Zufallsvariablen Zn := Sn − nµ √ , nσ Sn := n X Xi , n ∈ N. i=1 Für die (kumulativen) Verteilungsfunktionen von Zn gilt lim FZn (z) = Φ(z), n→∞ z ∈ R, (47) wobei Φ die (kumulative) Verteilungsfunktion der Standardnormalverteilung N (0, 1) bezeichnet. Bemerkung: Falls Xi ∼ N (µ, σ 2 ), i ∈ N, so gelten gemäss der Tabelle in Kap. 1.6.3 sowie gemäss Kap. 1.3.2 Sn = n X i=1 Xi ∼ N (nµ, nσ 2 ), Zn = Sn − nµ √ ∼ N (0, 1), nσ für jedes n ∈ N. Bemerkenswert am zentralen Grenzwertsatz ist aber, dass auch für nicht normalverteilte Zufallsvariablen Xi die Verteilung der standardisierten Zufallsvariablen Zn gegen die Standardnormalverteilung konvergiert. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 67 Beispiel/Anwendung: (Normal-Approximation) Seien Xi ∼ B(1, p), i ∈ N, unabhängige Bernoulli-verteilte Zufallsvariablen mit Parameter p ∈ (0, 1). Gemäss den Tabellen im Kap. 1.4.2 gelten E[Xi ] = p =: µ, V [Xi ] = p(1 − p) =: σ 2 , i ∈ N. Gemäss der Tabelle in Kap. 1.6.3 sind die n-ten Teilsummen der Xi binomialverteilt: n X Sn = Xi ∼ B(n, p), n ∈ N. i=1 Die (kumulativen) Verteilungsfunktionen der standardisierten Zufallsvariablen Zn = Sn − np Sn − nµ √ , =p nσ np(1 − p) n ∈ N, erfüllen nach dem zentralen Grenzwertsatz: lim FZn (z) = Φ(z), z ∈ R. n→∞ p Mit S = np + np(1 − p)Z , n ∈ N, gilt nach Kap. 1.3 (a := np, b := n n p np(1 − p)) für die (kumulativen) Verteilungsfunktionen: ! s − np FSn (s) = FZn p , s ∈ R, n ∈ N. np(1 − p) Für grosse Werte von n erhalten wir nun wegen des zentralen Grenzwertsatzes eine Approximation der Binomial- durch die Normalverteilung: ! min{bsc,n} X n k s − np n−k p (1 − p) 'Φ p FSn (s) = , s ∈ R. (48) k np(1 − p) k=0 Die Funktion Φ auf der rechten Seite von (48) ist viel leichter auszuwerten als die Summe und auch numerisch günstiger, da keine grossen Binomialkoeffizienten auftreten. Als Faustregel ist die Näherung (48) hinreichend gut, falls σS2 n = np(1−p) ≥ 9. Sei z. B. p = 1/6, dann ist diese Faustregel erfüllt für n ≥ 65: 65 61 56 ' 9.03. 1 B(65,1/6) N(65*1/6,65*1/6*5/6) 0.9 0.8 0.7 FX (x) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x 20 25 2 STATISTIK 2 68 Statistik Das Gebiet der Statistik umfasst Methoden, um empirische Daten zu analysieren. Diese Methoden basieren auf der in Kap. 1 behandelten Wahrscheinlichkeitstheorie. Die Statistik umfasst die drei Teilgebiete • deskriptive (beschreibende) Statistik: Verdichtung von Daten zu Tabellen, Diagrammen, Kenngrössen • induktive (mathematische, schliessende) Statistik: Ableiten von Eigenschaften der Grundgesamtheit aus einer Stichprobe. Schätz- und Testverfahren. • explorative (analytische) Statistik (data mining): systematische Suche nach möglichen Zusammenhängen zwischen Daten Wir werden hier nur kurz auf die deskriptive Statistik eingehen und uns dann auf die induktive Statistik konzentrieren. 2.1 Erzeugung von Pseudo-Zufallszahlen in MATLAB Aus MATLABs “Statistics Toolbox” (doc stats) haben wir bereits die Funktionen • ...pdf zur Auswertung von Wahrscheinlichkeits(dichte)funktionen (fX ), • ...cdf zur Auswertung von (kumulativen) Verteilungsfunktionen (FX ), • ...inv zur Auswertung von Quantilfunktionen (QX ), und • ...stat zur Berechnung von Erwartungswert und Varianz (E[X], V [X]), kennen gelernt. Mögliche Verteilungen waren dabei Funktionsname unid... bino... hyge... nbin... poiss... unif... exp... chi2... f... norm... t... Verteilung U{1,2,...,n} B(n, p) H(N, M, n) N B(r, p) P(λ) U(a, b) Exp(λ) χ2n Fm,n N (µ, σ 2 ) tn Parameter n n, p N, M, n r, p λ a, b 1/λ (!) n m, n µ, σ (!) n Mit den Funktionen ...rnd können wir Pseudo-Zufallszahlen mit einer vorgegebenen Verteilung erzeugen. So erzeugt z. B. der Befehl r = binornd(n,p,N,1) 2 STATISTIK 69 einen Spaltenvektor der Länge N (eine (N ×1)-Matrix) von Realisierungen binomialverteilter Zufallsvariablen, Xi ∼ B(n, p), i = 1, 2, . . . , N (iid). Die erzeugten Zahlen sind keine echten Zufallszahlen, denn sie werden von einem (deterministischen) Algorithmus erzeugt. Sie haben jedoch viele Eigenschaften von echten Zufallszahlen, und sie sind bei Bedarf reproduzierbar. Da es in der Regel schwierig ist, an echte statistische Datensätze zu kommen (wenn man nicht gerade selbst eine Studie durchführt), werden wir unsere statistischen Methoden an solchen simulierten Daten illustrieren und ausprobieren. 2.2 Deskriptive Statistik Wir betrachten hier zwei simulierte Datensätze mit jeweils n := 10000 Datenpunkten. Die typische Annahme in der Statistik ist, dass jeder Datensatz (jede Stichprobe) Realisierungen von unabhängigen und identisch verteilten (iid) Zufallsvariablen enthält, wobei deren Verteilung natürlich für jede der beiden Stichproben unterschiedlich sein kann. In der schliessenden Statistik versucht man, anhand der Stichproben Aussagen über diese (unbekannten!) Verteilungen sowie über den Zusammenhang der zugrunde liegenden Zufallsvariablen zu machen. In der deskriptiven Statistik geht es hingegen um eine übersichtliche Darstellung der Daten. Wir zeichnen zuerst die Rohdaten, d. h. die Punkte (i, xi ), i = 1, 2, . . . , n: 160 150 x i 140 130 120 110 Datensatz 1 Datensatz 2 100 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 i Es gibt viele weitere Darstellungen, mit denen die Datensätze deutlich übersichtlicher dargestellt werden können, z. B. • den Boxplot (box-and-whisker-plot), • das Histogramm (Häufigkeitsverteilung), • die empirische (kumulative) Verteilungsfunktion. 2 STATISTIK 70 boxplot 900 155 800 histogram 0.9 150 Datensatz 1 Datensatz 2 0.8 700 145 0.7 600 140 cdfplot 1 Datensatz 1 Datensatz 2 500 130 400 F(x) 0.6 135 0.5 0.4 125 300 0.3 120 200 0.2 115 100 110 1 2 0 100 0.1 120 140 160 0 100 120 140 160 x Auskünfte über den Zusammenhang zwischen den zugrunde liegenden Zufallsvariablen erhält man z. B. mit • dem Streudiagramm (scatter plot) oder mit • dem dreidimensionalen Histogramm. Ausser den grafischen Darstellungen gehört auch die Berechnung von empirischen Kenngrössen zur deskriptiven Statistik. In der folgenden Tabelle sind einige MATLAB-Befehle dazu angegeben: MATLAB-Befehl quantile median mean mode iqr var std mad cov corrcoef StichprobenQuantile Median Mittelwert Modus (Inter-)Quartilsabstand Varianz Standardabweichung mittlere abs. Abweichung Kovarianzmatrix Korrelationskoeffizienten Datensatz 1 Datensatz 2 133 ' 140 ' 133 ' 140 133 ' 122 (!) 9.00 ' 6.71 ' 44.0 ' 25.2 ' 6.63 ' 5.02 ' 5.30 ' 3.99 Eintrag (1,2): ' 0.711 Eintrag (1,2): ' 0.0213 Die Berechnung von einigen dieser Grössen wird im Kapitel über die schliessende Statistik behandelt. 2 STATISTIK 2.3 71 Schliessende Statistik Im vorherigen Kapitel über die beschreibende Statistik hatten wir Stichproben {x1 , x2 , . . . , xn } vom Umfang n ∈ N grafisch dargestellt oder durch wenige Zahlen charakterisiert. In der schliessenden Statistik nehmen wir an, die i-te Beobachtung xi sei eine Realisierung der i-ten Stichprobenvariable Xi , i = 1, 2, . . . , n. Dabei seien die Stichprobenvariablen X1 , X2 , . . . , Xn : Ω → R iid reelle Zufallsvariablen (wie immer auf einem Wahrscheinlichkeitsraum (Ω, Σ, P )). An> ders gesagt, die Stichprobe x := (x1 , x2 , . . . , xn ) ∈ Rn wird aufgefasst als eine Realisierung der n-dimensionalen reellen Zufallsvariablen X : Ω → Rn , > X := (X1 , X2 , . . . , Xn ) , deren Komponenten iid sind. 2.3.1 Parameterschätzung In einem parametrischen statistischen Modell nimmt man an, die (kumulative) Verteilungsfunktion der Stichprobenvariablen Xi sei gegeben durch “P (Xi ≤ x)” = F (x; ϑ), x ∈ R, i = 1, 2, . . . , n, mit einer bekannten Funktion F und mit einem Parameter ϑ ∈ Θ (Parameterraum), dessen wahrer Wert unbekannt ist. Der Parameter kann auch ein Vektor sein – in einem d-dimensionalen parametrischen statistischen Modell gilt Θ ⊆ Rd . Beachten Sie, dass in der Regel n d gilt, d. h. wir haben viel mehr Beobachtungen als Modellparameter. Beispiele: 1. Die Stichprobenvariablen erfüllen Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem Parameter p ∈ (0, 1), dessen wahrer Wert unbekannt ist. Ihre kumulative Verteilungsfunktion ist gegeben durch min{bxc,50} “P (Xi ≤ x)” = X k=0 50 k p (1 − p)50−k =: F (x; p), k x ∈ R, i = 1, 2, . . . , n, und wir erhalten ein eindimensionales parametrisches statistisches Modell mit Parameter ϑ := p. 2. Die Stichprobenvariablen erfüllen Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n, mit Parametern µ ∈ R, σ > 0, deren wahre Werte unbekannt sind. Die kumulative Verteilungsfunktion der Xi ist gegeben durch Zx “P (Xi ≤ x)” = −∞ √ 1 2πσ 2 e− (ξ−µ)2 2σ 2 dξ =: F (x; µ, σ), x ∈ R, i = 1, 2, . . . , n, und wir erhalten ein zweidimensionales parametrisches > statistisches Modell mit Parameter ϑ := (µ, σ) . 2 STATISTIK 72 Wir beschränken uns im Folgenden auf den Fall d = 1 (eindimensionale parametrische statistische Modelle), und wir wollen jetzt den wahren Wert des Parameters, ϑ0 ∈ Θ, aus der gegebenen Stichprobe x ∈ Rn schätzen. Dazu verwenden wir eine Schätzfunktion (kurz: einen Schätzer ) Tn := gn ◦ X : Ω → R, Tn (ω) = gn (X(ω)) , ω ∈ Ω, (49) wobei gn : Rn → R eine Funktion ist, so dass Tn eine reelle Zufallsvariable gn X ist: Ω −→ Rn −→ R. Der Schätzwert für den wahren Parameterwert ϑ0 ∈ Θ aufgrund der gegebenen Stichprobe x ∈ Rn ist dann gegeben durch ϑ̂ := gn (x). Dieser Schätzwert ist eine Realisierung der Zufallsvariablen (Schätzfunktion) Tn und damit zufällig! I. A. gilt also ϑ̂ 6= ϑ0 . Wir geben hier zwei ausgewählte Funktionen gn an, die häufig zur Parameterschätzung verwendet werden: Name Funktion gn der Schätzers arithmetisches x := Mittel korrigierte s2 := Stichprobenvarianz 1 n 1 n−1 n X i=1 n X geschätzter MATLAB- Parameter ϑ Befehl Erwartungswert xi E[Xi ] = µ 2 (xi − x) i=1 Varianz mean var V [Xi ] = σ 2 Bemerkung: Beachten Sie, dass µ und σ 2 lediglich Bezeichnungen für die Erwartungswerte und Varianzen der Zufallsvariablen Xi , i = 1, 2, . . . , n, sind. Sie dürfen daraus nicht schliessen, dass die Xi normalverteilt sind (mit Parametern µ und σ 2 )! Die Verteilung der Xi ist in der Tat beliebig. Die in Kap. 2.2 erwähnten MATLAB-Befehle sind alles Schätzer für gewisse Parameter der Verteilung der Stichprobenvariablen X1 , X2 , . . . , Xn : MATLABBefehl quantile median mode Schätzung für QXi QXi (0.5) argmax fXi (x) MATLABBefehl iqr std mad Schätzung für QXi (0.75) p − QXi (0.25) V [Xi ] = σ E [|Xi − E[Xi ]|] x∈R Beispiel: Gegeben sei die folgende Stichprobe vom Umfang 10: i xi 1 −1.08 2 3.37 3 5.01 4 2.46 5 10.6 6 7 8 −1.04 −1.69 −6.75 9 6.55 10 6.34 Wir fassen sie auf als eine Realisierung der 10-dimensionalen stetigen Zufalls> variablen X = (X1 , X2 , . . . , X10 ) , deren Komponenten X1 , X2 , . . . , X10 iid reelle Zufallsvariablen sind mit Erwartungswert E[Xi ] = µ und V [Xi ] = σ 2 , i = 1, 2, . . . , 10, mit µ ∈ R, σ > 0. Über die Verteilung der Xi machen wir keine 2 STATISTIK 73 Annahme! Wir berechnen die folgenden Schätzwerte µ̂, σ̂ 2 für den Erwartungswert und die Varianz: n µ̂ = x = 1X xi ' 2.38, n i=1 n 1 X (xi − x)2 ' 25.8. n − 1 i=1 σ̂ 2 = s2 = Betrachten wir 1000 solche Stichproben vom Umfang 10 und berechnen für jede Stichprobe die Schätzwerte µ̂, σ̂ 2 , so erhalten wir 1000 verschiedene Schätzwerte. Wir stellen beispielhafte Häufigkeitsverteilungen dieser Schätzwerte in den folgenden Histogrammen dar: 300 1000 Stichproben vom Umfang n=10 300 250 250 200 200 150 150 100 100 50 50 0 1000 Stichproben vom Umfang n=10 0 -5 0 5 Schaetzungen fuer 10 0 20 40 60 Schaetzungen fuer µ 80 σ2 Ein Merkmal für einen “guten” Schätzer Tn ist, dass seine Werte häufig “nahe” beim wahren Parameterwert ϑ0 liegen. Maximum-Likelihood-Schätzer Wir stellen hier eine häufig verwendete Methode vor, um Schätzer Tn (genauer Funktionen gn ) (49) für bestimmte Parameter zu erhalten. Die Maximum-Likelihood-Methode benötigt Wahrscheinlichkeits(dichte)funktionen, d. h. die iid reellen Zufallsvariablen Xi müssen diskret oder stetig sein. Für die kumulative Verteilungsfunktion der Xi , i = 1, 2, . . . , n, gilt also X entweder F (x; ϑ) = Zx f (xi ; ϑ) oder F (x; ϑ) = xi ∈im(Xi ) xi ≤x f (ξ; ϑ) dξ, −∞ mit einer gegebenen Wahrscheinlichkeits(dichte)funktion f ( · ; ϑ) : im(Xi ) → [0, 1] bzw. f ( · ; ϑ) : R → [0, ∞), für jeden beliebigen (festen) Wert des Parameters ϑ ∈ Θ. Die gemeinsame Wahrscheinlichkeits(dichte)funktion ist wegen der gegenseitigen Unabhängigkeit von X1 , X2 , . . . , Xn nach Satz 4 gegeben durch fX (x; ϑ) = n Y f (xi ; ϑ), > x = (x1 , x2 , . . . , xn ) ∈ Rn . i=1 Für eine Stichprobe x ∈ Rn definieren wir die Likelihood-Funktion L(ϑ; x) := fX (x; ϑ), ϑ ∈ Θ. 2 STATISTIK 74 Im Falle von diskreten Zufallsvariablen Xi gibt L(ϑ; x) die Wahrscheinlichkeit dafür an, mit dem Parameterwert ϑ ∈ Θ das Ergebnis x ∈ Rn zu beobachten. Entsprechend ist der Maximum-Likelihood-Schätzer (maximum likelihood estimator) definiert als derjenige Parameterwert, für den L maximal ist (bei gegebener Beobachtung (Stichprobe) x ∈ Rn ): ϑ̂mle = gn (x) := argmax L(ϑ; x). (50) ϑ∈Θ Im Falle von stetigen Zufallsvariablen Xi wird derselbe Schätzer (50) verwendet, auch wenn in diesem Fall die direkte Interpretation der Funktionswerte von L als Wahrscheinlichkeit nicht mehr möglich ist. Beispiele: 1. (Schätzung der Erfolgswahrscheinlichkeit bei der Binomialverteilung) Es gelte Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem Parameter p ∈ (0, 1), dessen wahrer Wert unbekannt ist. Zu seiner Schätzung liege eine Stichprobe vom Umfang n vor: x ∈ {0, 1, 2, . . . , 50}n . Die Wahrscheinlichkeitsfunktion der Xi ist gegeben durch 50 x f (x; p) = p (1 − p)50−x , x ∈ {0, 1, 2, . . . , 50}. x Die gemeinsame Wahrscheinlichkeitsfunktion ist gegeben durch das Produkt n Y 50 xi p (1 − p)50−xi , fX (x; p) = xi i=1 für x = (x1 , . . . , xn ) daher gegeben durch L(p; x) > ∈ {0, 1, 2, . . . , 50}n . Die Likelihood-Funktion ist = fX (x; p) = n Y 50 i=1 = ! n Y 50 i=1 xi exp xi exi ln(p)+(50−xi ) ln(1−p) n X ! (xi ln(p) + (50 − xi ) ln(1 − p)) , i=1 wobei wir die Rechenregeln für die Exponentialfunktion verwendet haben (MAE2, Kap. 2.1). Der Maximum-Likelihood-Schätzer für den Wert des Parameters p ∈ (0, 1) ist gegeben durch p̂mle = gn (x) = argmax L(p; x) p∈(0,1) Eine notwendige Bedingung für ein lokales Maximum der Funktion L(p; x) an der Stelle p0 ∈ (0, 1) ist dL (p0 ; x) = 0 dp 2 STATISTIK 75 (MAE1, Satz 20, 1.). Wir müssen daher die Nullstellen der Ableitung von L (nach der Variablen p) bestimmen. Wir erhalten ! ! n n Y X dL 50 (p; x) = exp (xi ln(p) + (50 − xi ) ln(1 − p)) × dp xi i=1 i=1 ! n d X (xi ln(p) + (50 − xi ) ln(1 − p)) = 0 × dp i=1 ! n d X ⇔ (xi ln(p) + (50 − xi ) ln(1 − p)) = 0 dp i=1 ⇔ n X xi i=1 p − 50 − xi 1−p n =0 ⇔ p= x 1 X xi = . 50n i=1 50 Der Maximum-Likelihood-Schätzer für die wahre Erfolgswahrscheinlichkeit p0 ∈ (0, 1) ist also gegeben durch n p̂mle = gn (x) := 1 X x xi = . 50n i=1 50 2. (Schätzung der Varianz der Normalverteilung bei gegebenem Erwartungswert) Es gelte Xi ∼ N (1, σ 2 ), i = 1, 2, . . . , n, mit Varianz σ 2 > 0, deren wahrer Wert unbekannt ist. Zu ihrer Schätzung liege eine Stichprobe vom Umfang n vor: x ∈ Rn . Die Wahrscheinlichkeitsdichtefunktion der Xi ist gegeben durch 1 (x − 1)2 2 f (x; σ ) = √ exp − , x ∈ R. 2σ 2 2πσ 2 Die gemeinsame Wahrscheinlichkeitsfunktion ist gegeben durch das Produkt n Y 1 (xi − 1)2 > √ fX (x; σ 2 ) = exp − , x = (x1 , x2 , . . . , xn ) ∈ Rn . 2 2 2σ 2πσ i=1 Die Likelihood-Funktion ist daher gegeben durch 2 L(σ ; x) = 1 n/2 (2πσ 2 ) exp − n X (xi − 1)2 i=1 2σ 2 ! , σ 2 > 0, und ihre Ableitung nach der Variablen σ 2 durch ! ! n n 2 X dL 2 1 1 X 1 (x − 1) i (xi − 1)2 − n (σ ; x) = exp − . n/2 dσ 2 2σ 2 σ 2 i=1 2σ 2 (2πσ 2 ) i=1 2 STATISTIK 76 Wir erhalten den folgenden Maximum-Likelihood-Schätzer für den wahren Wert der Varianz: n 1X 2 2 σ̂mle = gn (x) := (xi − 1) . n i=1 Sei Tn : Ω → R (Zufallsvariable) eine Schätzfunktion für den wahren Wert ϑ0 eines Parameters ϑ ∈ Θ. Die Genauigkeit der Schätzfunktion Tn wird oft durch ihren erwarteten quadratischen Fehler (mean squared error) ausgedrückt: h i h i 2 2 MSE[Tn ] := E (Tn − ϑ0 ) = E (Tn − E[Tn ] + E[Tn ] − ϑ0 ) (E[Tn ] − ϑ0 )2 + V [Tn ] ≥ 0, | {z } = =:Bias[Tn ] wobei Bias[Tn ] ∈ R die Verzerrung des Schätzers Tn bezeichnet. Ein Schätzer Tn mit E[Tn ] = ϑ0 (Bias[Tn ] = 0) heisst erwartungstreu (unbiased). Beispiel: Wir betrachten das arithmetische Mittel als Schätzer für den Erwartungswert, ϑ0 = E[Xi ], n 1X Xi . Tn := n i=1 Nach Satz 6 und Satz 7 gelten " n # 1X E[Tn ] = E Xi = n i=1 # " n 1X Xi = V [Tn ] = V n i=1 n 1X E[Xi ] = E[Xi ] = ϑ0 , n i=1 n 1 X V [Xi ] V [Xi ] = , 2 n i=1 n wobei wir in der zweiten Gleichung die gegenseitige Unabhängigkeit der Stichprobenvariablen X1 , X2 , . . . , Xn verwendet haben. Der Schätzer Tn ist also erwartungstreu (unbiased), und wir erhalten für den erwarteten quadratischen Fehler: V [Xi ] 2 , n ∈ N. MSE[Tn ] = (E[Tn ] − ϑ0 ) + V [Tn ] = n Damit wird auch klar, dass der Schätzwert desto genauer ist, je grösser der Stichprobenumfang n ∈ N ist: lim MSE[Tn ] = 0. n→∞ 1000 Stichproben vom Umfang n=10 500 Stichproben vom Umfang n=20 200 110 180 100 160 90 200 Stichproben vom Umfang n=50 45 40 35 80 140 30 70 120 60 25 50 20 100 80 40 60 15 30 10 40 20 20 10 0 0 6 7 8 9 Schaetzung fuer 10 µ 11 5 0 6 7 8 9 Schaetzung fuer 10 µ 11 6 7 8 9 Schaetzung fuer 10 µ 11 2 STATISTIK 2.3.2 77 Vertrauensintervalle Im letzten Kapitel haben wir gesehen, dass wir mit Hilfe einer Schätzfunktion (einem Schätzer) Tn = gn ◦ X den wahren Wert ϑ0 eines Parameters ϑ ∈ Θ aufgrund einer Stichprobe x ∈ Rn vom Umfang n ∈ N (Realisierung der ndimensionalen reellen Zufallsvariablen X : Ω → Rn ) schätzen können: ϑ̂ := gn (x). Der Schätzwert ϑ̂ ist zufällig, denn er ist eine Realisierung der reellen Zufallsvariablen Tn . Wir hatten bereits bemerkt, dass i. A. ϑ̂ 6= ϑ0 gilt. Wenn das Bild im(Tn ) ⊆ R überabzählbar unendlich ist, dann gilt sogar “P (Tn = ϑ0 )” = 0! Obwohl mit Hilfe des MSE Aussagen über die Genauigkeit des Schätzers gemacht werden können, hilft uns dieser nicht bei der Beurteilung der Genauigkeit eines erhaltenen Schätzwertes. Selbst wenn der MSE des Schätzers klein ist, kann der Schätzwert ϑ̂ erheblich vom wahren Wert ϑ0 des Parameters abweichen, denn der MSE macht eben nur eine Aussage über die erwartete Genauigkeit des Schätzers. Um die statistische Sicherheit einer Schätzung vorgeben zu können, verwenden wir sog. Intervallschätzer (im Gegensatz zu den im letzten Kapitel behandelten Punktschätzern). Konkret verwenden wir zwei Stichprobenfunktionen Un := gnu ◦ X : Ω → R, Vn := gno ◦ X : Ω → R, Un (ω) = gnu (X(ω)), ω ∈ Ω, gno (X(ω)), ω ∈ Ω, Vn (ω) = wobei gnu , gno : Rn → R Funktionen sind, so dass Un , Vn reelle Zufallsvariablen X g u ,g o n n sind: Ω −→ Rn −− −→ R. Definition 19 (Konfidenzintervall) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen, deren Verteilung von einem Parameter ϑ ∈ Θ ⊆ R abhängt, dessen wahrer Wert ϑ0 unbekannt ist. > Seien weiterhin X := (X1 , X2 , . . . , Xn ) und gnu , gno : Rn → R Funktionen, so u o dass Un := gn ◦ X, Vn := gn ◦ X reelle Zufallsvariablen sind. Falls für ein γ ∈ (0, 1) gilt, dass “P (ϑ0 ∈ (Un , Vn ))” = “P (Un < ϑ0 < Vn )” = “P (Un < ϑ0 ∧ Vn > ϑ0 )” ≥ γ, (51) so heisst das (stochastische) Intervall (Un , Vn ) ein Konfidenzintervall für ϑ0 zum Konfidenzniveau γ oder ein γ-Konfidenzintervall für ϑ0 . Bemerkungen: • Andere Bezeichnungen für das Konfidenzintervall sind Vertrauensintervall oder Vertrauensbereich. • Gemäss (51) enthält ein Konfidenzintervall für ϑ0 zum Konfidenzniveau γ den wahren Parameterwert ϑ0 mit einer Wahrscheinlichkeit von mindestens γ. Das Konfidenzniveau γ ∈ (0, 1) können wir beliebig vorgeben und damit die gewünschte statistische Sicherheit selbst festlegen. 2 STATISTIK 78 • An Stelle des Konfidenzniveaus γ kann man auch das Irrtumsniveau α ∈ (0, 1) vorgeben. Zwischen diesen beiden Zahlen besteht die simple Beziehung γ = 1 − α. Wenn (Un , Vn ) ein γ-Konfidenzintervall für ϑ0 ist, so gilt mit (51) und mit der Gegenwahrscheinlichkeit (MAE3, Satz 7, 1.): “P (ϑ0 6∈ (Un , Vn ))” = 1 − “P (ϑ0 ∈ (Un , Vn ))” ≤ 1 − γ = α, d. h. die Wahrscheinlichkeit dafür, dass das Konfidenzintervall (Un , Vn ) den wahren Parameterwert ϑ0 nicht enthält, ist höchstens gleich α. In der Regel wählt man daher ein kleines Irrtumsniveau α und entsprechend ein grosses Konfidenzniveau γ. Häufig verwendete Werte für das Irrtumsniveau sind: α ∈ {0.01, 0.05, 0.10} und entsprechend für das Konfidenzniveau: γ ∈ {0.99, 0.95, 0.90}. • Für eine gegebene Stichprobe x ∈ Rn vom Umfang n ∈ N erhalten wir mit u := gnu (x) und v := gno (x) das Schätzintervall (u, v) ⊆ R. Die Frage, ob ein gegebenes Intervall (u, v) den wahren Parameterwert ϑ0 enthält, ist nicht mehr vom Zufall abhängig, und wir können daher keine Wahrscheinlichkeit dafür angeben. Wir wissen aber, dass wenn wir N ∈ N solcher Stichproben hätten und für jede dieser Stichproben das Schätzintervall berechneten, dann würden mindestens γN dieser Schätzintervalle den wahren Parameterwert enthalten und höchstens αN Schätzintervalle nicht. Die Frage ist jetzt natürlich, wie die Funktionen gnu , gno zu wählen sind, um ein Konfidenzintervall für einen bestimmten Parameter zu erhalten. In der folgenden Tabelle geben wir einige dieser Funktionen für häufig verwendete Intervallschätzer an: Verteilung der Xi (iid) Konfidenzintervall für 2 N (µ, σ ) (σ 2 bekannt) N (µ, σ 2 ) (σ 2 unbekannt) µ µ gnu (x) σ x − cα √ n s x − cα √ n s 2 N (µ, σ ) beliebig (V [Xi ] =: σ 2 bekannt) beliebig (V [Xi ] unbekannt) σ s n−1 c1,α gno (x) σ x + cα √ n s x + cα √ n s s n−1 c2,α E[Xi ] σ x − cα √ n σ x + cα √ n E[Xi ] s x − cα √ n s x + cα √ n cα c1,α c2,α α 2 )-Quantil (1 − der N (0, 1)-Verteilung (1 − α2 )-Quantil der tn−1 -Verteilung α (1 − α2 )2Quantil Quantil der χ2n−1 - der χ2n−1 Verteilung Verteilung (1 − α2 )-Quantil der N (0, 1)-Verteilung n gross! (Satz 10) (1 − α2 )-Quantil der tn−1 -Verteilung n gross! (Satz 10) 2 STATISTIK 79 In dieser Tabelle bezeichnen x das arithmetische Mittel und s die korrigierte Stichprobenvarianz. Wenn das Irrtumsniveau α vergrössert wird (also eine grössere statistische Unsicherheit akzeptiert wird), so werden die Werte für cα kleiner und damit das Konfidenzintervall kürzer. Das Intervall wird ebenfalls kürzer, wenn der Stichprobenumfang n vergrössert wird. Beispiel: Gegeben sei die folgende Stichprobe vom Umfang n = 10: i xi 1 4.15 2 3 9.34 −7.04 4 5.45 5 6 3.28 −3.23 7 0.27 8 3.37 9 16.3 10 13.1 Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien normalverteilt, Xi ∼ N (µ, σ 2 ), mit Parametern µ ∈ R, σ 2 > 0, deren wahre Werte beide unbekannt sind. Wir schätzen diese Parameterwerte mit dem arithmetischen Mittel und mit der korrigierten Stichprobenvarianz: n µ̂ = x = 1X xi ' 4.50, n i=1 n σ̂ 2 = s2 = 1 X 2 (xi − x) ' 50.1. n − 1 i=1 Wir wollen jetzt 95 %-Konfidenzintervalle (Konfidenzniveau γ = 0.95, Irrtumsniveau α = 0.05) für µ und σ berechnen. Dazu verwenden wir die obige Tabelle. Zur Bestimmung des 95 %-Konfidenzintervalls für µ benötigen wir das 0.975Quantil der t9 -Verteilung. Die Quantile der t-Verteilung sind tabelliert (z. B. in der Formelsammlung von Papula, S. 514), und wir erhalten c0.05 ' 2.26. Damit ist das Schätzintervall für µ für diese Stichprobe gegeben durch s s x − c0.05 √ , x + c0.05 √ ' (−0.567, 9.56) . n n Zur Bestimmung des 95 %-Konfidenzintervalls für σ benötigen wir das 0.975Quantil und das 0.025-Quantil der χ29 -Verteilung. Auch die Quantile der χ2 Verteilung sind tabelliert (z. B. in der Formelsammlung von Papula, S. 512), und wir erhalten c1,0.05 ' 19.02 und c2,0.05 ' 2.70. Damit ist das Schätzintervall für σ für diese Stichprobe gegeben durch s s ! n−1 n−1 s ,s ' (4.87, 12.9) . c1,α c2,α Tatsächlich wurde die obige Stichprobe erzeugt als (gerundete) Zufallszahlen aus einer N (2, 16)-Verteilung. Das Schätzintervall für µ enthält also den wahren Parameterwert µ = 2, aber das Schätzintervall für σ enthält den wahren Parameterwert σ = 4 nicht. Betrachten wir 100 Stichproben vom Umfang n = 10 aus einer N (2, 16)Verteilung, so erhalten wir für jede Stichprobe andere Schätzintervalle für µ und σ. Wir erwarten, dass mindestens 95 der 100 Schätzintervalle den wahren Parameterwert enthalten, und dies ist auch tatsächlich der Fall: 2 STATISTIK 80 97 Intervalle enthalten µ =2 100 98 Intervalle enthalten 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 -5 0 5 95 % - Schaetzintervalle fuer σ=4 100 2 4 6 8 10 95 % - Schaetzintervalle fuer µ σ Für die Herleitung von Intervallschätzern arbeitet man mit Verteilungen von transformierten Zufallsvariablen. Wir wollen dies an drei Beispielen illustrieren. Beispiele: 1. Für die Stichprobenvariablen gelte Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n (iid), mit Parametern µ ∈ R, σ > 0, wobei der Wert von σ bekannt ist, aber der Wert von µ nicht. Wir beginnen mit dem folgenden Punktschätzer (!) für den Erwartungswert E[Xi ] = µ: n Tn := gn ◦ X, gn (x) := x = 1X xi n i=1 für n ∈ N. Nach Kap. 1.3 gelten Xi n n ⇒ ∼ N Tn = µ σ2 n , n2 n X Xi 1X Xi = , n i=1 n i=1 , i = 1, 2, . . . , n, und 2 STATISTIK 81 nach Kap. 1.6.3: Tn = n X Xi i=1 n ∼N n n X µ X σ2 , n i=1 n2 i=1 ! σ2 = N µ, . n −µ ∼ N (0, 1) ist standardnorDie standardisierte Zufallsvariable Zn := Tσ/n√ n malverteilt, also erfüllt ihre (kumulative) Verteilungsfunktion: FZn ≡ Φ. Für ein gegebenes Irrtumsniveau α ∈ (0, 1) definieren wir nun cα := Φ−1 1 − α2 ((1− α2 )-Quantil der Standardnormalverteilung). Es gilt dann “P (−cα < Zn < cα )” Φ(cα ) − Φ(−cα ) = Φ(cα ) − (1 − Φ(cα )) α −1=2−α−1 = 2Φ(cα ) − 1 = 2 1 − 2 = 1 − α, = wobei wir die Punktsymmetrie des Graphen der Funktion Φ verwendet haben: Φ(−x) = 1 − Φ(x). Mit der Definition von Zn gilt dann auch Tn − µ √ < cα ” 1 − α = “P (−cα < Zn < cα )” = “P −cα < σ/ n σ σ = “P Tn − cα √ < µ < Tn + cα √ ”. n n Wir definieren die reellen Zufallsvariablen σ Un := Tn − cα √ , n σ Vn := Tn + cα √ , n dann ist [Un , Vn ] ein (1−α)-Konfidenzintervall für µ. Die Funktionen gnu , gno sind also gegeben durch σ gnu (x) = x − cα √ , n σ gno (x) = x + cα √ , n wie in der ersten Zeile der Tabelle angegeben. 2. Wir betrachten dasselbe statistische Modell wie in Beispiel 1, aber diesmal sei auch die Varianz σ 2 unbekannt. Wir wollen wieder ein Konfidenzintervall für µ bestimmen. Wir betrachten eine ähnliche Zufallsvariable wie in Beispiel 1: Tn − µ Zn := p , Sn2 /n n Sn2 := 1 X 2 (Xi − Tn ) , n − 1 i=1 d. h. wir schätzen die unbekannte Varianz mit der (korrigierten) Stichprobenvarianz. Die Zufallsvariable Zn ist nun nicht standardnormal- sondern tn−1 -verteilt (ohne Beweis). Für ein gegebenes Irrtumsniveau α ∈ (0, 1) 2 STATISTIK 82 definieren wir cα := QZn 1 − Es gilt dann “P (−cα < Zn < cα )” = α 2 ( 1− α 2 -Quantil der tn−1 -Verteilung). FZn (cα ) − FZn (−cα ) = · · · = 1 − α, wobei wir die Punktsymmetrie des Graphen der (kumulativen) Verteilungsfunktion der tn−1 -Verteilung verwendet haben. Mit der Definition von Zn gilt dann auch ! Tn − µ < cα ” 1 − α = “P (−cα < Zn < cα )” = “P −cα < p Sn2 /n Sn Sn = “P Tn − cα √ < µ < Tn + cα √ ”. n n Wir definieren die reellen Zufallsvariablen Sn Un := Tn − cα √ , n Sn Vn := Tn + cα √ , n dann ist [Un , Vn ] ein (1−α)-Konfidenzintervall für µ. Die Funktionen gnu , gno sind also gegeben durch s gnu (x) = x − cα √ , n s gno (x) = x + cα √ , n wie in der zweiten Zeile der Tabelle angegeben. 3. Die Verteilung der Xi sei jetzt beliebig, mit unbekanntem Erwartungswert E[Xi ] aber mit bekannter Varianz V [Xi ] =: σ 2 . Wir betrachten die standardisierte Zufallsvariable Zn := Tn − E[Xi ] √ , σ/ n E[Zn ] = 0, V [Zn ] = 1. Die Zufallsvariable Zn ist i. A. nicht normalverteilt, aber nach dem zentralen Grenzwertsatz (Satz 10) gilt: lim FZn (z) = Φ(z), z ∈ R. Für einen n→∞ genügend grossen Stichprobenumfang n (eine sog. umfangreiche Stichprobe) nähern wir daher die Werte der (kumulativen) Verteilungsfunktion von Zn mit jenen der (kumulativen) Verteilungsfunktion der Standardnormalverteilung an: FZn (z) ' Φ(z), z ∈ R. Mit dieser Approximation sind wir wieder in derselben Situation wie in Beispiel 1, und wir erhalten das Konfidenzintervall auf Zeile 4 der Tabelle. 2.3.3 Parameterschätzung in MATLAB In MATLAB können Sie für einige Verteilungen die Funktionen ...fit verwenden, um die Parameter der Verteilung aus einer Stichprobe zu schätzen (sowohl Punkt- als auch Intervallschätzer). Die folgenden Befehle benötigen jeweils mehrere Ausgabeargumente (Dokumentation lesen!): 2 STATISTIK 2.3.4 83 Verteilung Parameterschätzung B(n, p) N B(r, p) P(λ) U(a, b) Exp(λ) N (µ, σ 2 ) binofit(x,n) nbinfit(x) poissfit(x) unifit(x) expfit(x) normfit(x) geschätzte(r) Parameter p r, p λ a, b 1/λ µ, σ bekannter Parameter n – – – – – Statistische Tests In einem statistischen Test wollen wir aufgrund von Beobachtungen eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese treffen. Parametrische Tests Auf einem Wahrscheinlichkeitsraum (Ω, Σ, P ) betrachten wir Stichprobenvariablen X1 , X2 , . . . , Xn : Ω → R (iid), n ∈ N. Genau wie im Kapitel über die Parameterschätzung wird eine Stichprobe x ∈ Rn aufgefasst als eine Realisierung der n-dimensionalen reellen Zufallsvariablen > X = (X1 , X2 , . . . , Xn ) . Es sei nun ein parametrisches statistisches Modell gegeben, d. h. die (kumulative) Verteilungsfunktion der Stichprobenvariablen Xi sei gegeben durch “P (Xi ≤ x)” = F (x; ϑ), x ∈ R, i = 1, 2, . . . , n, mit einer bekannten Funktion F und mit einem Parameter ϑ ∈ Θ, dessen wahrer Wert ϑ0 unbekannt ist. Wir zerlegen jetzt den Parameterraum Θ in zwei disjunkte Teilmengen: Θ = Θ0 ∪ Θ1 , Θ0 ∩ Θ1 = ∅. (52) Die beiden im Test verwendeten Hypothesen sind nun gegeben durch H0 : ϑ 0 ∈ Θ0 (Nullhypothese), H1 : ϑ 0 ∈ Θ1 (Alternativhypothese). Wegen (52) ist genau eine dieser beiden Hypothesen richtig. Beachten Sie, dass es nicht vom Zufall abhängig ist, welche der beiden Hypothesen richtig ist – es ist nur nicht bekannt! Ein parametrischer statistischer Test soll nun entscheiden, ob aufgrund einer vorliegenden Stichprobe x ∈ Rn ein hinreichender Anlass besteht, die Nullhypothese beizubehalten/zu verwerfen und entsprechend die Alternativhypothese abzulehnen/anzunehmen. Wie in der folgenden Tabelle dargestellt sind zwei verschiedene Arten von Fehlentscheidungen möglich: 2 STATISTIK 84 H0 richtig H1 falsch H0 falsch H1 richtig H0 beibehalten H1 abgelehnt H0 verworfen H1 angenommen X Fehler 1. Art Fehler 2. Art X In der Regel ist die Nullhypothese in einem Test so gewählt, dass man a priori einer Verwerfung skeptisch gegenüber steht. Man wird daher die Nullhypothese nur dann verwerfen, wenn die Daten klar gegen sie sprechen. Beispiele: 1. Es wurde ein neues Medikament entwickelt, das einen besseren Behandlungserfolg verspricht als ein seit Jahren etabliertes Medikament. Weil das etablierte Medikament in vielen Ländern bei Apotheken, Spitälern usw. gelagert ist, werden die Zulassungsbehörden nicht leichtfertig empfehlen, alle alten Bestände zu vernichten und nur noch das neue Medikament zu verwenden. Die Nullhypothese für einen Test wäre also: “das neue Medikament wirkt nicht besser als das alte”. 2. Eine Person behauptet, hellseherische Fähigkeiten zu haben (zum Beispiel: das Ergebnis eines Münzwurfes vorhersagen zu können). Weil vermutlich die allermeisten Menschen keine solche Fähigkeit haben, wird man diese Behauptung nicht leichtfertig glauben wollen. Die Nullhypothese für einen Test wäre also: “die Person hat keine hellseherischen Fähigkeiten”. Die (bedingte) Wahrscheinlichkeit dafür, einen Fehler 1. Art zu begehen (d. h. die Nullhypothese zu verwerfen, obwohl sie richtig ist; Irrtumswahrscheinlichkeit), soll also klein sein: “P (Fehler 1. Art)” = “P (H0 verworfen | H0 richtig)” = “P (H1 angenommen | H1 falsch)” ≤ α, für ein gewähltes Signifikanzniveau α ∈ (0, 1). Wegen der Gegenwahrscheinlichkeit gilt dann “P (H0 beibehalten | H0 richtig)” = 1 − “P (H0 verworfen | H0 richtig)” = 1 − “P (Fehler 1. Art)” ≥ 1 − α, und wir bezeichnen die Zahl 1−α ∈ (0, 1) als Spezifität des Tests. Die (bedingte) Wahrscheinlichkeit dafür, einen Fehler 2. Art zu begehen (d. h. die Nullhypothese beizubehalten, obwohl sie falsch ist), lässt sich in der Regel nicht so leicht kontrollieren. Dies hat damit zu tun, dass der wahre Parameterwert ϑ0 unbekannt ist. Wir definieren die Zahl β := “P (Fehler 2. Art)” = “P (H0 beibehalten | H0 falsch)” = “P (H1 abgelehnt | H1 richtig)” und bezeichnen 1 − β als die Teststärke oder Macht des Tests, oder auch als die Sensitivität des Tests: 2 STATISTIK H0 richtig H1 falsch H0 falsch H1 richtig 85 H0 beibehalten H1 abgelehnt richtige Entscheidung Spezifität ≥ 1 − α Fehler 2. Art Wahrscheinlichkeit β H0 verworfen H1 angenommen Fehler 1. Art Irrtumswahrscheinlichkeit ≤ α richtige Entscheidung Macht/Sensitivität 1 − β Beispiel: Ein völlig konservativer Test behält die Nullhypothese für jede beliebige Stichprobe bei und hat daher die Spezifität 1. Für diesen Test ist aber die Sensitivität 0, denn er behält die Nullhypothese eben auch dann bei, wenn sie falsch ist (d. h. die (bedingte) Wahrscheinlichkeit dafür, einen Fehler 2. Art zu begehen, ist 1). Dies deutet an, dass in der Praxis ein Kompromiss zwischen Spezifität und Sensitivität gefunden werden muss: Je nachdem, wie gravierend ein Fehler 2. Art ist, muss man die Spezifität verkleinern (das Signifikanzniveau α vergrössern), um die Macht/Sensitivität 1 − β des Tests zu vergrössern. Zur Konstruktion eines parametrischen statistischen Tests gehen wir zunächst ganz ähnlich vor wie bei der Parameterschätzung: Wir definieren eine sog. Teststatistik (Stichprobenfunktion) Tn := gn ◦ X : Ω → R, Tn (ω) := gn (X(ω)), ω ∈ Ω, wobei gn : Rn → R eine Funktion ist, so dass T eine reelle Zufallsvariable ist: gn X Ω −→ Rn −→ R. Der Prüfwert aufgrund der gegebenen Stichprobe x ∈ Rn ist dann gegeben durch t̂ := gn (x) ∈ R. Dieser Prüfwert ist eine Realisierung der Zufallsvariablen (Teststatistik) Tn und damit zufällig! Die Entscheidung eines Tests fällt jetzt aufgrund des Prüfwertes t̂ ∈ R: liegt dieser im sog. kritischen Bereich Kα ⊆ R, so wird die Nullhypothese verworfen (und die Alternativhypothese angenommen); liegt der Prüfwert jedoch ausserhalb des kritischen Bereichs, so wird die Nullhypothese beibehalten (die Alternativhypothese abgelehnt). Dies formulieren wir als eine Funktion ϕn,α : Rn → {0, 1}, 1, t̂ = gn (x) ∈ Kα (⇒ H0 verworfen, H1 angenommen) ϕn,α (x) := , 0, sonst (⇒ H0 beibehalten, H1 abgelehnt) (53) mit der die Entscheidung des Tests aufgrund einer Stichprobe x ∈ Rn beschrieben wird. Weil die Stichprobe zufällig ist, ist auch die Testentscheidung zufällig. Die Festlegung des kritischen Bereichs Kα für den Prüfwert geschieht anhand der Verteilung der Teststatistik Tn unter der Nullhypothese, sowie in Abhängigkeit des Signifikanzniveaus α ∈ (0, 1). Dies illustrieren wir gleich an einem Beispiel, aber zuerst listen wir hier die Vorgehensweise bei einem parametrischen Test auf: 1. Formuliere die Nullhypothese H0 und die Alternativhypothese H1 2. Wähle eine geeignete Teststatistik Tn (bzw. eine Funktion gn ) 3. Wähle ein Signifikanzniveau (höchste noch akzeptable Irrtumswahrscheinlichkeit) α ∈ (0, 1) 2 STATISTIK 86 4. Berechne den kritischen Bereich Kα ⊆ R für den Prüfwert anhand der Verteilung von Tn unter der Nullhypothese sowie in Abhängigkeit des Signifikanzniveaus α. Dabei soll für die Irrtumswahrscheinlichkeit gelten: “P (H0 verworfen | H0 richtig)” ≤ α ⇔ “Pϑ (Tn ∈ Kα )” ≤ α ∀ ϑ ∈ Θ0 , wobei “Pϑ (Tn ∈ Kα )” die Wahrscheinlichkeit dafür bezeichnet, dass der Wert der Teststatistik Tn im kritischen Bereich für das Signifikanzniveau α, Kα , liegt, wenn ϑ der Wert des Parameters ist. 5. Berechne den Prüfwert t̂ = gn (x) ∈ R aufgrund der vorliegenden Stichprobe x ∈ Rn 6. Treffe die Testentscheidung: • falls t̂ ∈ Kα : H0 verworfen, H1 angenommen • falls t̂ 6∈ Kα : H0 beibehalten, H1 abgelehnt Bemerkung: Wenn die Nullhypothese bei einem Signifikanzniveau α beibehalten wird, dann bedeutet dies nicht, dass die Nullhypothese mit einer Wahrscheinlichkeit ≥ 1 − α richtig ist! Dies ist eine häufige Fehlinterpretation. Sie ergibt jedoch keinen Sinn, weil die Richtigkeit der Nullhypothese nicht zufällig ist (also können wir ihr auch keine Wahrscheinlichkeit zuordnen). Wir können lediglich sagen, dass aufgrund der vorliegenden Daten kein hinreichender Anlass besteht, beim gewählten Signifikanzniveau die Nullhypothese zu verwerfen. Beispiel: Wir betrachten die folgende Stichprobe vom Umfang n = 10: i xi 1 3.18 2 3 5.77 −2.42 -2 0 4 3.82 5 6 2.74 −0.52 2 4 7 1.23 8 2.79 6 9 9.26 10 7.64 8 x Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien normalverteilt, Xi ∼ N (µ0 , σ 2 ), i = 1, 2, . . . , n (iid), wobei der Erwartungswert µ0 ∈ Θ := R wie auch die Varianz σ 2 > 0 unbekannt sind. Wir wollen testen, ob sich die gegebene Stichprobe mit der Hypothese µ0 = 2 =: µ∗ vereinbaren lässt. Dies führt auf den Einstichproben-t-Test. Wir gehen gemäss der obigen Liste vor: 1. Wir formulieren die Hypothesen Nullhypothese H0 : Alternativhypothese H1 : µ0 ∈ Θ0 := {µ∗ } ⇔ µ0 ∈ Θ1 := R \ {µ∗ } µ0 = µ∗ , ⇔ µ0 6= µ∗ . Weil die Menge Θ0 nur ein einziges Element enthält, nennt man diese Nullhypothese eine Punkthypothese. STATISTIK 87 2. Wir verwenden die Funktion n n x − µ∗ 1X 1 X 2 gn (x) := p , x := xi , s2 := (xi − x) , n i=1 n − 1 i=1 s2 /n x ∈ Rn . (54) Unter der Nullhypothese (d. h. wenn die Nullhypothese richtig ist) ist die entsprechende Teststatistik Tn = gn ◦ X (Student-)t-verteilt mit n − 1 Freiheitsgraden: Tn ∼ tn−1 (Kap. 2.3.2, Bsp. 2). 3. Wir wählen das übliche Signifikanzniveau α = 0.05. 4. Für die gegebene Stichprobe x ∈ Rn erhalten wir einen Prüfwert t = gn (x) ∈ R. Wir wollen die Nullhypothese genau dann verwerfen, wenn der erhaltene Prüfwert für eine tn−1 -Verteilung “extrem” ist. Daher definieren wir den kritischen Bereich Kα := {t ∈ R | |t| ≥ cα } ⊆ R, wobei cα ∈ R das (1 − α2 )-Quantil der tn−1 -Verteilung bezeichnet. Es gilt dann für die Irrtumswahrscheinlichkeit: “P (H0 verworfen | H0 richtig)” = “Pµ∗ (Tn ∈ Kα )” = “Pµ∗ (|Tn | ≥ cα )” = “Pµ∗ (Tn ≤ −cα ∨ Tn ≥ cα )” = “Pµ∗ (Tn ≤ −cα )” + “Pµ∗ (Tn ≥ cα )” = FTn (−cα ) + 1 − FTn (cα ) 1 − FTn (cα ) + 1 − FTn (cα ) = 2 (1 − FTn (cα )) α α = 2 = α, = 2 1− 1− 2 2 wobei wir die Symmetrie der (kumulativen) Verteilungsfunktion der tVerteilung verwendet haben. Der Test hat also die Spezifität 1 − α. Für α = 0.05 (Spezifität 0.95) erhalten wir c0.05 ' 2.26 (0.975-Quantil). Weil die Nullhypothese verworfen wird, wenn der Prüfwert “zu klein” ist aber auch, wenn er “zu gross” ist, spricht man von einem zweiseitigen Test. = 5. Für die gegebene Stichprobe x ∈ Rn erhalten wir den Prüfwert t̂ = gn (x) ' 1.20. Wir zeichnen diesen Wert zusammen mit der Wahrscheinlichkeitsdichtefunktion der t9 -Verteilung sowie mit ihren 0.025- und 0.975Quantilen in der folgenden Grafik: 0.4 0.3 Wahrscheinlichkeitsdichtefunktion der t f(x) 2 9 -Verteilung Pruefwert fuer die gegebene Stichprobe 0.025- und 0.975-Quantile der t -Verteilung 9 0.2 0.1 0 -5 0 x 5 2 STATISTIK 88 6. Es gilt |t̂| < c0.05 und damit t̂ 6∈ K0.05 , also wird beim Signifikanzniveau α = 0.05 die Nullhypothese beibehalten. Es besteht aufgrund der gegebenen Daten kein hinreichender Anlass dafür, sie bei diesem Signifikanzniveau zu verwerfen. Bemerkungen: • Für den Einstichproben-t-Test mit Signifikanzniveau α ∈ (0, 1) und für eine Stichprobe x ∈ Rn gilt H0 beibehalten ⇔ t̂ 6∈ Kα ⇔ −cα < t̂ < cα x − µ∗ < cα ⇔ −cα < p s2 /n s s . ⇔ µ∗ ∈ x − cα √ , x + cα √ n n Rechts steht das (1 − α)-Schätzintervall für den unbekannten Erwartungswert µ0 bei unbekannter Varianz (Kap. 2.3.2). Es gilt also: Für eine gegebene Stichprobe x ∈ Rn wird die Nullhypothese µ0 = µ∗ beim Signifikanzniveau α genau dann beibehalten, wenn das (1 − α)-Schätzintervall für den unbekannten Erwartungswert (bei unbekannter Varianz) den vermuteten Erwartungswert µ∗ enthält. Dank dieser Dualität können aus Konfidenzintervallen für einen Parameter statistische Tests für entsprechende Punkthypothesen gewonnen werden. • Wenn die Stichprobenvariablen nicht normalverteilt sind, so kann für umfangreiche Stichproben (Faustregel: n > 30) weiterhin der Einstichprobent-Test für den vermuteten Erwartungswert verwendet werden (zentraler Grenzwertsatz, Satz 10). Dieser ist dann kein exakter Test mehr, weil die Teststatistik nur noch näherungsweise tn−1 -verteilt ist. • In MATLAB können Sie den Einstichproben-t-Test mit dem Befehl h = ttest(x,m,’Alpha’,alpha) ausführen, wobei x die Stichprobe, m den vermuteten Erwartungswert und alpha das gewünschte Signifikanzniveau bezeichnet (ohne weitere Angabe wird α = 0.05 verwendet). Die Ausgabe h ist die Testentscheidung: h = 1 bedeutet, dass die Nullhypothese beim Signifikanzniveau α verworfen wird, wohingegen h = 0 bedeutet, dass sie bei diesem Signifikanzniveau beibehalten wird. Der MATLAB-Befehl ttest verfügt über weitere optionale Ausgabeargumente. Ein weiterer wichtiger Parametertest ist der Zweistichproben-t-Test (MATLABBefehl ttest2), den wir am folgenden Beispiel erläutern. Beispiel: Gegeben seien zwei Stichproben vom Umfang n = 10 bzw. m = 8: i xi yi 1 3.33 8.27 2 −1.31 4.08 3 6.38 5.84 4 5 6 7 5.56 1.83 3.45 4.56 3.34 6.10 8.90 8.43 8 9 3.77 4.39 11.58 − 10 2.77 − 2 STATISTIK 89 y x 0 2 4 6 8 10 12 Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien unabhängig und normalverteilt: Xi ∼ N (µX , σ 2 ), i = 1, 2, . . . , n (iid), Yi ∼ N (µY , σ 2 ), i = 1, 2, . . . , m, wobei X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Ym gegenseitig unabhängig sind. Die Erwartungswerte µX , µY ∈ R sind unbekannt, ebenso die Varianzen σ 2 > 0. Die beiden Varianzen müssen jedoch gleich sein! Wir wollen testen, ob sich die gegebenen Stichproben mit der Hypothese µX = µY vereinbaren lassen. 1. Wir formulieren die Hypothesen Nullhypothese H0 : µX = µY ⇔ µX − µY ∈ Θ0 := {0}, Alternativhypothese H1 : µX 6= µY ⇔ µX − µY ∈ Θ1 := R \ {0}. 2. Wir verwenden die Funktion r nm x − y gm,n (x, y) := , n+m s s2 := (n − 1)s2x + (m − 1)s2y , n+m−2 (55) für x ∈ Rn , y ∈ Rm , mit den Stichprobenmittelwerten x, y und mit den korrigierten Stichprobenvarianzen s2x , s2y (Kap. 2.3.1). Die entsprechende Teststatistik Tm,n = gm,n ◦ (X, Y ) ist unter der Nullhypothese t-verteilt mit n + m − 2 Freiheitsgraden: Tm,n ∼ tn+m−2 . 3. Wir wählen das übliche Signifikanzniveau α = 0.05. 4. Für die gegebenen Stichproben x ∈ Rn , y ∈ Rm erhalten wir einen Prüfwert t̂ = gm,n (x, y) ∈ R. Wieder wollen wir die Nullhypothese genau dann verwerfen, wenn der erhaltene Prüfwert für eine tn+m−2 -Verteilung “extrem” ist. Daher definieren wir den kritischen Bereich Kα := {t ∈ R | |t| ≥ cα } ⊆ R, wobei cα das (1 − α2 )-Quantil der tn+m−2 -Verteilung bezeichnet. Dieser Test hat wieder die Spezifität 1 − α. Für α = 0.05 und n = 10, m = 8 erhalten wir c0.05 ' 2.12 (0.975-Quantil der t16 -Verteilung). 5. Für die gegebenen Stichproben x ∈ Rn , y ∈ Rm erhalten wir den Prüfwert t̂ = gm,n (x, y) ' −3.14. Wir zeichnen diesen Wert zusammen mit der Wahrscheinlichkeitsdichtefunktion der t16 -Verteilung sowie mit ihren 0.025- und 0.975-Quantilen in der folgenden Grafik: 2 STATISTIK 90 0.4 f(t) 0.3 Wahrscheinlichkeitsdichtefunktion der t 16 -Verteilung Pruefwert fuer die gegebenen Stichproben 0.025- und 0.975-Quantile der t -Verteilung 16 0.2 0.005- und 0.995-Quantile der t 16 -Verteilung 0.1 0 -5 0 5 t 6. Es gilt |t̂| > c0.05 und damit t̂ ∈ K0.05 , also wird beim Signifikanzniveau α = 0.05 die Nullhypothese verworfen. Man kann nachprüfen, dass für diese Stichprobe die Nullhypothese sogar beim Signifikanzniveau α = 0.01 verworfen wird (c0.01 ' 2.92). Wir sagen, die Nullhypothese µX = µY wird für diese Stichproben signifikant bzw. hochsignifikant verworfen. Bemerkungen: • Im Fall bekannter und gleicher Varianzen σ 2 kann man den ZweistichprobenGauss-Test (2-sample z-test) verwenden, bei dem die Teststatistik normalverteilt ist. 2 , σY2 muss der Welch• Im Fall unbekannter und ungleicher Varianzen σX Test (B. L. Welch, 1911–1989) verwendet werden, bei dem die Teststatistik näherungsweise t-verteilt ist mit einer modifzierten Anzahl an Freiheitsgraden. • Mit dem zentralen Grenzwertsatz (Satz 10) kann für umfangreiche Stichproben (Faustregel m + n ≥ 50) der Zweistichproben-t-Test auch für nicht normalverteilte Stichprobenvariablen Xi , Yi mit unbekannten Erwartungswerten µX , µY und unbekannten aber gleichen Varianzen σ 2 verwendet werden. 91 Teil II Funktionen von mehreren Variablen In MAE3, Kap. 4, hatten wir bereits eine Einführung in die Differenzialrechnung für Funktionen von mehreren Variablen gegeben. Diese Theorie soll hier fortgesetzt werden, und es soll auch die mehrdimensionale Integration behandelt werden (für die Sie in den Kapiteln zur Wahrscheinlichkeitsrechnung bereits Beispiele gesehen haben). 3 Niveaumengen, partielle Ableitungen Wir betrachten vektorwertige Funktionen von mehreren reellen Variablen: f : D → W, D ⊆ Rn , W ⊆ R m , m, n ∈ N, > mit Komponenten fi : D → R, i = 1, 2, . . . , m: f = (f1 , f2 , . . . , fm ) . Der Graph und das Bild der Funktion f sind gegeben durch Gf im(f ) = {(x, f (x)) | x ∈ D} ⊆ Rn+m , = {f (x) | x ∈ D} ⊆ Rm . Der Graph einer Funktion f lässt sich für n + m > 3 nicht mehr gut grafisch darstellen; in diesem Fall zeichnet man, sofern m ≤ 3 gilt, oft nur das Bild der Funktion f (s. Beispiele in MAE3, Kap. 4). Im Fall m = 1 (skalare Felder) bieten Niveaumengen der Funktion f eine weitere Möglichkeit zur Darstellung des Graphen Gf ⊆ Rn+1 . Definition 20 (Niveaumenge) Sei n ∈ Rn , D ⊆ Rn eine offene Menge, f : D → R eine Funktion, und sei c ∈ R. Die Niveaumenge der Funktion f zum Niveau c ist definiert als das Urbild der einelementigen Menge {c} ⊆ R unter f: Nf (c) := f −1 ({c}) = {x ∈ D | f (x) = c} ⊆ D ⊆ Rn . (56) Bemerkungen: • Die englische Bezeichnung für Niveaumengen ist level sets. • Die Niveaumengen einer Funktion f : D → R, D ⊆ Rn , nennt man im Fall n = 2 Niveaulinien, im Fall n = 3 Niveauflächen. Wir treffen sie an z. B. als Höhenlinien auf einer Landkarte, als Isobaren (Linien gleichen Druckes) auf einer Wetterkarte usw. • Die Niveaumenge einer Funktion f zum Niveau c, Nf (c), ist auch die Lösungsmenge der Gleichung f (x) = c. Insbesondere ist Nf (0) die Nullstellenmenge der Funktion f . Für c 6∈ im(f ) gilt Nf (c) = ∅. 3 NIVEAUMENGEN, PARTIELLE ABLEITUNGEN 92 • Für nichtlineare Funktionen f können Niveaumengen oft nur näherungsweise bestimmt werden (z. B. numerisch mit dem Newton-Verfahren, s. Vorlesung MNEU). In der folgenden Grafik zeichnen wir einige Niveaumengen der Funktion f : R2 → R, f (x, y) := (1 − x)2 + (y − x2 )2 − 10, (x, y) ∈ R2 (MATLAB-Befehl contour): 8 6 0 6 2 0 -2 -4 -6 4 4 2 -6 -4 -2 6 108 -2 -4 2 810 -8 2 4 y 2 -8 2 0 4 108 4 6 6 6 -2 10 8 10 48 -6 - 0 2 4 -2 10 0 -2 4 2 6 8 -4 -3 -2 -1 0 -6 -4 -2 4 108 6 -8 -6 0 0 1 2 3 4 x • Die Bezeichnung offene Menge erfordert eine weitere Definition: Definition 21 (offene Teilmenge des Rn ) Sei Ω ⊆ Rn eine Menge. Die Menge Ω heisst offen, falls ∀x ∈ Ω ∃ε > 0 : Bε (x) = {y ∈ Rn | ky − xk < ε} ⊆ Ω. Die offenen Kugeln Br (x) wurden bereits in MAE3, Def. 9, definiert. In einer offenen Teilmenge Ω ⊆ Rn kann man um jeden Punkt x ∈ Ω eine offene Kugel legen, die noch vollständig in Ω enthalten ist. Falls die Funktion f an der Stelle x0 ∈ D (total) differenzierbar ist, so ist jede Komponente fi partiell differenzierbar an der Stelle x0 (nach jeder Variablen xj , j = 1, 2, . . . , n), und die Einträge der Jacobi-Matrix der Funktion f an der Stelle x0 sind gegeben durch ∂fi (x0 ), i = 1, 2, . . . , m, j = 1, 2, . . . , n Df (x0 ) ij = ∂xj (MAE3, Satz 4), also Df (x0 ) = ∂f1 ∂x1 (x0 ) ∂f2 ∂x1 (x0 ) .. . ∂fm ∂x1 (x0 ) ∂f1 ∂x2 (x0 ) ∂f2 ∂x2 (x0 ) ··· ··· .. . ∂fm ∂x2 (x0 ) · · · ∂f1 ∂xn (x0 ) ∂f2 ∂xn (x0 ) .. . ∂fm ∂xn (x0 ) ∈ Rm×n . 3 NIVEAUMENGEN, PARTIELLE ABLEITUNGEN 93 Die Verallgemeinerung des 1. Taylorpolynoms der Funktion f mit Entwicklungsstelle x0 ist dann gegeben durch die lineare Abbildung T 1 f : Rn → Rm , (T 1 f ) (x; x0 ) = f (x0 ) + Df (x0 ) (x − x0 ) ∈ Rm , x ∈ Rn . Der Graph von T 1 f , GT 1 f = {(x, (T 1 f ) (x)) | x ∈ Rn } ⊆ Rm+n , ist die Tangentialebene an den Graphen von f im Punkt (x0 , f (x0 )) ∈ Rm+n . Beispiele: 1. n = 1, m = 1, D = R, f : R → R, f (x) := x2 e−2x , x0 = 21 . Die JacobiMatrix der Funktion f an der Stelle x0 ist eine (1 × 1)-Matrix: 1 ' 0.184. 2e (Df ) (x0 ) = f 0 (x0 ) = 2x0 e−2x0 (1 − x0 ) = Das 1. Taylorpolynom der Funktion f mit Entwicklungsstelle x0 ist gegeben durch die lineare Abbildung T1 f : R → R, T1 f (x; x0 ) = f (x0 ) + f 0 (x0 )(x − x0 ) = x20 e−2x0 + 2x0 e−2x0 (1 − x0 )(x − x0 ) x = x0 e−2x0 2(1 − x0 )x + 2x20 − x0 = . 2e 0.4 y = f(x) y = T 1 f(x;x 0 ) 0.35 0.3 (x 0 ,f(x 0 )) 0.25 y 0.2 0.15 0.1 0.05 0 -0.05 -0.1 -0.5 0 0.5 1 1.5 x 2. n = 2, m = 1, D = R, f : R2 → R, f (x) := (3 − x1 )2 − 2(x1 − x22 )2 , > > x = (x1 , x2 )> ∈ R, x0 = (x0,1 , x0,2 ) := 0, − 21 . Wir erhalten f (x0 ) = (3 − x0,1 )2 − 2(x0,1 − x20,2 )2 = 71 . 8 4 PARTIELLE ABLEITUNGEN HÖHERER ORDNUNG 94 Wir berechnen die partiellen Ableitungen ∂f (x0 ) ∂x1 ∂f (x0 ) ∂x2 = 4x20,2 − 2x0,1 − 6 = −5, = −8x30,2 + 8x0,1 x0,2 = 1. Die Jacobi-Matrix der Funktion f an der Stelle x0 ist eine (1 × 2)-Matrix: ∂f ∂f (x0 ) ∂x (x0 ) = −5 1 . Df (x0 ) = ∂x 1 2 Das 1. Taylorpolynom der Funktion f mit Entwicklungsstelle x0 ist also gegeben durch die lineare Abbildung T1 f : R2 → R, T1 f (x; x0 ) 4 = f (x0 ) + Df (x0 ) (x − x0 ) 71 x1 − 0 + −5 1 = x2 − − 12 8 71 1 75 = − 5 (x1 − 0) + x2 + − 5x1 + x2 . = 8 2 8 Partielle Ableitungen höherer Ordnung Ist D ⊆ Rn eine offene Menge und f : D → Rm differenzierbar (also differen∂fi zierbar an jeder Stelle x0 ∈ D), so sind die partiellen Ableitungen ∂x :D→R j reellwertige Funktionen von n reellen Variablen und damit Df : D → Rm×n eine matrixwertige Funktion von n reellen Variablen. Wenn die partiellen Ab∂fi leitungen ∂x (total) differenzierbar sind an einer Stelle x0 ∈ D, so existieren j die zweiten partiellen Ableitungen ∂ ∂fi ∂ 2 fi (x0 ) := (x0 ), i = 1, 2, . . . , m, j, k = 1, 2, . . . , n. ∂xk ∂xj ∂xk ∂xj 5 DIFFERENZIALOPERATOREN 95 Nach dem Satz von Schwarz (H. A. Schwarz, 1843–1921) spielt die Reihenfolge der partiellen Ableitungen keine Rolle, d. h. es gilt ∂ 2 fi ∂ 2 fi (x0 ) = (x0 ), ∂xk ∂xj ∂xj ∂xk i = 1, 2, . . . , m, j, k = 1, 2, . . . , n. Im Falle von k = j kürzen wir ab: ∂ 2 fi ∂ 2 fi , ≡ ∂xj ∂xj ∂x2j j = 1, 2, . . . , n. Die Werte aller zweiten partiellen Ableitungen können wieder in einer Matrix zusammengefasst werden, allerdings ist dies dann eine (m × n × n)-Matrix! Im Fall m = 1 erhält man die (n × n)-Hesse-Matrix (nach O. Hesse, 1811– 1874) D 2 f (x0 ) ij = Hf (x0 ) ij = ∂2f (x0 ), ∂xi ∂xj i, j = 1, 2, . . . , n, also D f (x0 ) = Hf (x0 ) = 2 ∂2f (x0 ) ∂x21 ∂2f ∂x2 ∂x1 (x0 ) .. . ∂2f ∂xn ∂x1 (x0 ) ∂2f ∂x1 ∂x2 (x0 ) ∂2f (x0 ) ∂x22 ··· .. . ··· .. . ∂2f ∂xn ∂x2 (x0 ) ··· ∂2f ∂x1 ∂xn (x0 ) ∂2f ∂x2 ∂xn (x0 ) .. . ∂2f ∂x2 (x0 ) ∈ Rn×n . n (57) Aus dem Satz von Schwarz folgt, dass D 2 f (x0 ) = Hf (x0 ) eine symmetrische Matrix ist: Hf (x0 )> = Hf (x0 ). Die Verallgemeinerung des 2. Taylorpolynoms der Funktion f mit Entwicklungsstelle x0 ist gegeben durch die Funktion T2 f : Rn → R, 1 T2 f (x; x0 ) = f (x0 )+Df (x0 )(x−x0 )+ (x−x0 )> D 2 f (x0 )(x−x0 ), 2 5 x ∈ Rn . Differenzialoperatoren Ein Differenzialoperator weist einer Funktion eine Funktion zu und enthält die Ableitung nach einer oder mehreren Variablen. Differenzialoperatoren erster Ordnung Für eine differenzierbare Funktion f : D → R, D ⊆ R, ist die Abbildung d df : f 7→ = f0 dx dx 5 DIFFERENZIALOPERATOREN 96 ein Differenzialoperator erster Ordnung. Er weist der differenzierbaren Funktion f ihre Ableitungsfunktion f 0 : D → R zu. Genauso ist für eine differenzierbare Funktion f : D → R, D ⊆ Rn , die Abbildung ∂ ∂f : f 7→ ∂x1 ∂x1 ein (partieller) Differenzialoperator erster Ordnung, der einer differenzierbaren Funktion f die erste partielle Ableitung nach x1 zuweist. Natürlich ist dann auch die Abbildung D : f 7→ Df ein Differenzialoperator erster Ordnung, der einer differenzierbaren Funktion f : D → Rm , D ⊆ Rn , die matrixwertige Funktion (Tensorfeld) Df : x 7→ Df (x) zuweist, deren Wert an der Stelle x ∈ Rn gerade die Jacobi-Matrix der Funktion f an der Stelle x ist. Bemerkungen: In der Kontinuumsmechanik wird auch das Symbol ∇ für den Differenzialoperator D verwendet (z. B. im linearisierten Verzerrungstensor); ∇u bezeichnet dann die Jacobi-Matrix des Vektorfeldes u : D → Rn , D ⊆ Rn . Beliebige Linearkombinationen der ersten partiellen Ableitungen von f sind ebenfalls partielle Differenzialoperatoren erster Ordnung. Dazu gehören • der Gradient einer differenzierbaren Funktion f : D → R, D ⊆ Rn (skalares Feld): grad : f 7→ grad f oder ∇ : f 7→ ∇f. Dabei ist die Funktion (!) grad f ≡ ∇f : D → Rn (Vektorfeld) definiert als ∂f grad f ≡ ∇f := ∂x1 ∂f ∂x2 .. . ∂f ∂xn . (58) • die Richtungsableitung einer differenzierbaren Funktion f : D → R, D ⊆ Rn (skalares Feld) in Richtung des Vektors v ∈ Rn : ∂ ∂f : f 7→ ∂v ∂v Dabei ist die Funktion (!) durch ∂f ∂v oder v · ∇ : f 7→ (v · ∇) f. ≡ (v · ∇) f : D → R (skalares Feld) definiert ∂f ∂f ∂f ∂f ≡ (v · ∇) f := v · ∇f = v1 + v2 + · · · + vn . ∂v ∂x1 ∂x2 ∂xn (59) • die Divergenz einer differenzierbaren Funktion f : D → Rn , D ⊆ Rn (Vektorfeld): div : f 7→ div f ≡ ∇ · f . 5 DIFFERENZIALOPERATOREN 97 Dabei ist die Funktion (!) div f ≡ ∇ · f : D → R (skalares Feld) definiert als ∂ f1 ∂x1 ∂ f2 ∂f1 ∂f2 ∂fn ∂x2 + + ··· + = . · . . (60) div f ≡ ∇ · f := ∂x1 ∂x2 ∂xn .. .. ∂ ∂xn fn Bemerkung: ein Vektorfeld f , dessen Divergenz überall verschwindet, div f ≡ 0, heisst quellenfrei oder divergenzfrei. • die Rotation einer differenzierbaren Funktion f : D → R3 , D ⊆ R3 (Vektorfeld): rot : f 7→ rot f ≡ ∇ × f . Dabei ist die Funktion (!) rot f ≡ ∇ × f : D → R3 (Vektorfeld) definiert als ∂ ∂f2 ∂f3 − f1 ∂x ∂x 3 ∂x1 ∂f 2 ∂f3 1 ∂ × f2 . (61) rot f = ∇ × f := ∂x2 ∂x3 − ∂x1 = ∂ ∂f2 ∂f1 f 3 ∂x3 ∂x1 − ∂x2 Bemerkungen: – Die englische Bezeichnung für die Rotation eines Vektorfeldes ist curl. – Ein Vektorfeld f , dessen Rotation überall verschwindet, rot f ≡ 0, heisst wirbelfrei oder konservativ. Differenzialoperatoren zweiter Ordnung tion f : D → R, D ⊆ R, ist die Abbildung Für eine differenzierbare Funk- d2 d2 f : f → 7 = f 00 dx2 dx2 ein Differenzialoperator zweiter Ordnung. Er weist der zweimal differenzierbaren Funktion f ihre zweite Ableitungsfunktion f 00 : D → R zu. Genauso ist für eine zweimal differenzierbare Funktion f : D → R, D ⊆ Rn , die Abbildung ∂2 ∂2f : f 7→ ∂x1 ∂x2 ∂x1 ∂x2 ein (partieller) Differenzialoperator zweiter Ordnung, der einer zweimal differenzierbaren Funktion f die zweite partielle Ableitung nach x1 und x2 zuweist. Natürlich ist dann auch die Abbildung D 2 : f 7→ D 2 f ein partieller Differenzialoperator zweiter Ordnung, der einer zweimal differenzierbaren Funktion f : D → R, D ⊆ Rn , die matrixwertige Funktion D 2 f : x 7→ D 2 f (x) zuweist, deren Wert an der Stelle x ∈ Rn gerade die Hesse-Matrix der Funktion f an der Stelle x ist. Beliebige Linearkombinationen der ersten und zweiten partiellen Ableitungen von f sind ebenfalls partielle Differenzialoperatoren zweiter Ordnung. Dazu gehören 5 DIFFERENZIALOPERATOREN 98 • der Laplace-Operator (P.-S. Laplace, 1749–1827) einer differenzierbaren Funktion f : D → R, D ⊆ Rn (skalares Feld): ∆ : f 7→ ∆f oder ∇2 : f 7→ ∇2 f. Dabei ist die Funktion (!) ∆f ≡ ∇2 f : D → R (skalares Feld) definiert als ∆f ≡ ∇2 f := div (grad f ) ≡ ∇ · (∇f ) = ∂2f ∂2f ∂2f + + ··· + . (62) 2 2 ∂x1 ∂x2 ∂x2n • der vektorielle Laplace-Operator einer differenzierbaren Funktion f : D → R3 , D ⊆ R3 (Vektorfeld): ∆ : f 7→ ∆f oder ∇2 : f 7→ ∇2 f . Dabei ist die Funktion (!) ∆f : D → R3 (Vektorfeld) definiert als ≡ ∇2 f := grad (div f ) − rot (rot f ) = ∇ (∇ · f ) − ∇ × (∇ × f ) ∆f1 = ∆f2 . (63) ∆f3 ∆f Zusammenfassung Wir betonen noch einmal, dass die Ausdrücke ∇f, divf usw. aller oben eingeführten Differenzialoperatoren wieder Funktionen sind. In der folgenden Tabelle geben wir eine Übersicht über diese Differenzialoperatoren: Operator grad, ∇ ∂ ∂v , v·∇ div, ∇· rot, ∇× D, ∇ ∆ ∆ D2 Operand skalares Feld f : Rn → R skalares Feld f : Rn → R Vektorfeld f : Rn → Rn Vektorfeld f : R3 → R3 f : Rn → Rm skalares Feld f : Rn → R Vektorfeld f : R3 → R3 skalares Feld f : Rn → R Ausdruck Vektorfeld grad f, ∇f : Rn → Rn skalares Feld ∂f , (v · ∇) f : Rn → R ∂v skalares Feld div f , ∇ · f : Rn → R Vektorfeld rot f , ∇ × f : R3 → R3 Tensorfeld Df , ∇f : Rn → Rm×n skalares Feld ∆f : Rn → R Vektorfeld ∆f : R3 → R3 Tensorfeld D 2 f : Rn → Rn×n Definition (58) (59) (60) (61) MAE3, Satz 4 (62) (63) (57) 6 6 ABLEITUNGSREGELN 99 Ableitungsregeln Die Ableitungsregeln aus MAE1 (Satz 15) lassen sich auf mehrere Dimensionen verallgemeinern Satz 11 (Ableitungsregeln) 1. Faktorregel 1: Sei c ∈ R. Sei f : D → Rm (D ⊆ Rn eine offene Menge) differenzierbar an der Stelle x0 ∈ D. Dann ist die Funktion h : D → Rm , h(x) := cf (x), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch Dh(x0 ) = cDf (x0 ) ∈ Rm×n . 2. Faktorregel 2: Sei A ∈ R`×m eine Matrix. Sei f : D → Rm (D ⊆ Rn eine offene Menge) differenzierbar an der Stelle x0 ∈ D. Dann ist die Funktion h : D → R` , h(x) := Af (x), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch Dh(x0 ) = ADf (x0 ) ∈ R`×n . 3. Summenregel: Seien f : Df → Rm und g : Dg → Rm (Df , Dg ⊆ Rn offene Mengen) differenzierbar an der Stelle x0 ∈ Df ∩ Dg . Dann ist die Funktion h : Dh → Rm (Dh := Df ∩ Dg ⊆ Rn ), h(x) := f (x) + g(x), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch Dh(x0 ) = Df (x0 ) + Dg(x0 ) ∈ Rm×n . 4. Produktregel 1: Seien f : Df → R und g : Dg → Rm (Df , Dg ⊆ Rn offene Mengen) differenzierbar an der Stelle x0 ∈ Df ∩ Dg . Dann ist die Funktion h : Dh → Rm (Dh := Df ∩ Dg ∈ Rn ), h(x) := f (x)g(x), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch Dh(x0 ) = g(x0 )∇f (x0 )> + f (x0 )Dg(x0 ) ∈ Rm×n . 5. Produktregel 2: Seien A : DA → R`×m und f : Df → Rm (DA , Df ⊆ Rn offene Mengen) differenzierbar an der Stelle x0 ∈ DA ∩ Df . Dann ist die Funktion h : Dh → R` (Dh := DA ∩ Df ⊆ Rn ), h(x) := A(x)f (x), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch Dh(x0 ) ∈ R`×n mit Einträgen (Dh(x0 ))ij = m X ∂Aik k=1 ∂xj für i = 1, . . . , `, j = 1, . . . , n. (x0 )fk (x0 ) + A(x0 )Df (x0 ) ij , 7 KURVEN ENTLANG VON FLÄCHEN 100 6. Kettenregel: Sei g : D → Rn (D ⊆ R` eine offene Menge) differenzierbar an der Stelle x0 ∈ D, und sei f : Df → Rm (Df ⊆ Rn eine offene Menge mit g(x0 ) ∈ Df ) differenzierbar an der Stelle g(x0 ). Dann ist die Funktion h : D → Rm , h(x) := (f ◦ g) (x) = f (g(x)), differenzierbar an der Stelle x0 , und die Jacobi-Matrix der Funktion h an der Stelle x0 ist gegeben durch Dh(x0 ) = Df (g(x0 )) Dg(x0 ) ∈ Rm×` . 7. Umkehrregel: Sei f : D → Rn (D ⊆ Rn eine offene Menge) eine Funktin on und f −1 : im(f f −1 (f (x)) = x ∀ x ∈ D ) → R ihre Umkehrfunktion: −1 n sowie f f (y) = y ∀ y ∈ im(f ) ⊆ R . Sei y 0 ∈ im(f ). Die Funktion f sei differenzierbar an der Stelle f −1 (y 0 ) ∈ D und Df f −1 (y 0 ) ∈ Rn×n sei eine invertierbare Matrix (MLAE, Def. 5.5.7). Dann ist die Umkehrfunktion f −1 differenzierbar an der Stelle y 0 , und die Jacobi-Matrix der Funktion f −1 an der Stelle y 0 ist gegeben durch −1 Df −1 (y 0 ) = Df f −1 (y 0 ) ∈ Rn×n . Bemerkungen: • Die Faktorregeln 1 und 2 sind Spezialfälle der Produktregeln 1 und 2: Man erhält die Faktorregeln aus den Produktregeln, indem man dort die Funktionen f bzw. A als konstant annimmt (dann verschwinden alle partiellen Ableitungen dieser Funktionen). • Spezialfälle der Produktregeln führen auf wichtige Identitäten für die im letzten Kapitel eingeführten Differenzialoperatoren. • Ein wichtiger Spezialfall der Kettenregel (die totale Ableitung) tritt bei der Betrachtung von Kurven auf Flächen im Raum auf. • Die Umkehrregel erhält man aus der Kettenregel mit g := f −1 (dazu muss natürlich ` = m = n gelten). 7 Kurven entlang von Flächen Sei [a, b] ⊆ R, a < b, ein Intervall, und sei γ : [a, b] → Rn , t 7→ γ(t) eine auf (a, b) zweimal differenzierbare Funktion (in den Illustrationen ist immer n = 2). Das Bild der Funktion γ, Γ := im(γ) = {γ(t) | t ∈ [a, b]} ⊆ Rn , ist eine parametrische Kurve im Rn (“der Weg auf der Landkarte”). Sei ausserdem f : D → R, D ⊆ Rn eine offene Menge, ein zweimal differenzierbares skalares Feld, x 7→ f (x). Der Graph von f , Gf = {(x, f (x)) | x ∈ D} ⊆ Rn+1 , ist eine n-dimensionale Fläche im Rn+1 (“die Landschaft”). Es gelte Γ ⊆ D. 7 KURVEN ENTLANG VON FLÄCHEN 101 Wir definieren die Hintereinanderausführung h : [a, b] → R, h(t) := f (γ(t)). Der Funktionswert h(t0 ) gibt die “Höhe” zu einem Zeitpunkt t0 ∈ [a, b] an, d. h. der Graph von h, Gh = {(t, h(t)) | t ∈ [a, b]} ⊆ R2 , ist das “Höhenprofil” des durch die Kurve γ beschriebenen Weges entlang der Fläche Gf . Die Menge {(γ(t), h(t)) | t ∈ [a, b]} ⊆ Rn+1 ist hingegen eine parametrische Kurve im Rn+1 (“der Weg in der Landschaft”). Die quadratische Approximation von γ in der Nähe eines Punktes t0 ∈ (a, b) 7 KURVEN ENTLANG VON FLÄCHEN 102 liefert 1 1 γ(t) ' γ(t0 ) + γ̇(t0 )(t − t0 ) + γ̈(t0 )(t − t0 )2 = γ 0 + v 0 (t − t0 ) + a0 (t − t0 )2 2 2 (2. Taylorpolynom an der Entwicklungsstelle t0 , MAE1, Satz 19), wobei γ 0 := γ(t0 ) ∈ Rn , v 0 := γ̇(t0 ) ∈ Rn und a0 := γ̈(t0 ) ∈ Rn die Positions-, Geschwindigkeits- und Beschleunigungsvektoren zum Zeitpunkt t0 (auf der Karte!) bezeichnen. Gemäss MAE1, Def. 35, gilt v 0 = γ̇(t0 ) = lim t→t0 γ(t) − γ(t0 ) ∈ Rn , t − t0 also ist v 0 ein Tangentialvektor an die Kurve Γ im Punkt γ 0 . Für die reellwertige Funktion einer reellen Variablen h bestimmen wir nun ebenfalls das 2. Taylorpolynom an der Entwicklungsstelle t0 : 1 h(t) ' h(t0 ) + ḣ(t0 )(t − t0 ) + ḧ(t0 )(t − t0 )2 . 2 Zur Berechnung der ersten beiden Ableitungen von h an der Stelle t0 benötigen wir die Kettenregel (Satz 11). Damit erhalten wir ḣ(t0 ) ḧ(t0 ) ∂f (γ ) ∈ R, ∂v 0 0 2 = v> 0 D f (γ 0 )v 0 + ∇f (γ 0 ) · a0 ∈ R. = ∇f (γ 0 ) · v 0 = (64) (65) Da die Funktion γ beliebig war, erhalten wir durch spezielle Wahlen von γ Erkenntnisse über die Eigenschaften des Gradienten ∇f : • Sei n = 2, c ∈ im(f ), und γ beschreibe eine Kurve Γ ⊆ R2 , die genau der Niveaulinie Nf (c) folgt: f (γ(t)) = c, t ∈ [a, b]. Dann gilt auch h(t) = f (γ(t)) = c, t ∈ [a, b] und damit ḣ(t) = 0, t ∈ (a, b). Sei nun t0 ∈ (a, b). Der Punkt γ 0 = γ(t0 ) ∈ Rn ist die Position auf der Kurve Γ zum Zeitpunkt t0 und v 0 = γ̇(t0 ) ∈ Rn der Geschwindigkeitsvektor am Punkt γ 0 . Dieser steht tangential zur Kurve Γ und damit auch tangential zur Niveaulinie Nf (c) im Punkt γ 0 . Wegen ḣ(t0 ) = 0 gilt nun mit (64): ∇f (γ 0 ) · v 0 = 0, und daraus folgt, dass der Gradient der Funktion f im Punkt γ 0 senkrecht auf dem Vektor v 0 steht. Also steht ∇f (γ 0 ) senkrecht auf der Niveaulinie Nf (c). -8 -12 -1 6 -2 0 -4 16 0 -0.5 -1 -5 16 12 8 x2 8 12 8 0 04 4 1 0.5 -4 12 8 4 0 -3 -2 -1 0 x1 1 2 3 4 5 7 KURVEN ENTLANG VON FLÄCHEN 103 • Sei n ∈ N beliebig, γ 0 , v 0 ∈ Rn , t0 ∈ [a, b] und γ(t) := γ 0 + (t − t0 )v 0 . Die Funktion γ beschreibt die Bahnkurve Γ ⊆ Rn einer gleichförmigen Bewegung (eine Gerade im Rn ), die zum Zeitpunkt t0 durch den Punkt γ 0 geht und an dieser Stelle den Geschwindigkeitsvektor v 0 hat: γ(t0 ) = γ 0 , γ̇(t0 ) = v 0 . Die Änderung der Höhe an dieser Stelle ist gerade gegeben durch die Richtungsableitung der Funktion f in Richtung v 0 im Punkt γ0: ∂f (γ ) = ∇f (γ 0 ) · v 0 = k∇f (γ 0 )kkv 0 k cos(ϑ), ḣ(t0 ) = ∂v 0 0 wobei ϑ ∈ [0, π] (cos(ϑ) ∈ [−1, 1]) den Öffnungswinkel zwischen den Vektoren ∇f (γ 0 ) und v 0 bezeichnet (MLAE, Def. 1.7.7). Also ist die Änderung der Höhe (d. h. der Funktionswerte von f ) maximal in Richtung des Gradienten, also für v 0 = λ∇f (γ 0 ), λ ∈ R. 1 8 8 1 (t) y=h 2 (t) y=h 3 (t) γ0 y 16 0 y=h 10 Nf 12 x2 15 12 0.5 4 0 -4 -8 -12 -16 -20 20 0 4 γ1 5 γ2 16 0 γ3 12 -0.5 -20 -16 -12 -8 -4 0 4 -5 0 4 8 -1 -5 -10 0 x1 5 -2 -1 0 1 2 t Lokale Extrema einer Funktion f : D → R, D ⊆ Rn Wir betrachten wieder parametrisierte Geraden im Rn , d. h. Funktionen γ(t) = γ 0 + (t − t0 )v 0 , t ∈ [a, b], für gegebene t0 ∈ [a, b] und γ 0 , v 0 ∈ Rn , mit im(γ) ⊆ D. Wie vorher ist der Graph der Funktion h : [a, b] → R, h(t) := f (γ(t)), Gh ⊆ R2 , das Höhenprofil des Weges entlang des Graphen Gf ⊆ Rn+1 . Falls die Funktion f an der Stelle γ 0 ein lokales Extremum (Maximum oder Minimum) besitzt, so besitzt auch die Funktion h an der Stelle t0 ein lokales Extremum, und zwar in jeder beliebigen Richtung v 0 ∈ Rn ! Aus MAE1, Satz 20, wissen wir, dass dann gelten muss: ḣ(t0 ) = 0 und ḧ(t0 ) 6= 0. Mit (64), (65) erhalten wir die notwendigen und hinreichenden Bedingungen ∂f (γ ) = 0 ∀ v 0 ∈ Rn , ∂v 0 0 2 ḧ(t0 ) = v > 6 0, ∀ v 0 ∈ Rn . 0 D f (γ 0 )v 0 = ḣ(t0 ) = ∇f (γ 0 ) · v 0 = 7 KURVEN ENTLANG VON FLÄCHEN 104 Satz 12 (Bedingungen für ein lokales Extremum) 1. (notwendige Bedingung) Die Funktion f : D → R, D ⊆ Rn besitze an der Stelle x0 ∈ D ein lokales Extremum (Minimum oder Maximum), und f sei an der Stelle x0 ∈ D differenzierbar. Dann gilt ∇f (x0 ) = 0. 2. (hinreichende Bedingung) Die Funktion f : D → R, D ⊆ Rn , sei an der Stelle x0 ∈ D zweimal differenzierbar. Falls ∇f (x0 ) = 0 und falls die Hesse-Matrix D 2 f (x0 ) ∈ Rn×n definit ist (d. h. ihre Eigenwerte sind entweder alle positiv oder alle negativ), dann hat f an der Stelle x0 ein lokales Extremum. Dabei handelt es sich um ein • lokales Minimum, falls D 2 f (x0 ) positiv definit ist (alle Eigenwerte positiv), • lokales Maximum, falls D 2 f (x0 ) negativ definit ist (alle Eigenwerte negativ). Bemerkungen: • Die Nullstellen des Gradienten ∇f : D → Rn (die sog. kritischen Punkte) sind also Kandidaten für Extremstellen von f . • Ist in einem kritischen Punkt (!) x0 ∈ D die Hesse-Matrix D 2 f (x0 ) indefinit (sowohl positive als auch negative Eigenwerte), so hat f an der Stelle x0 einen Sattelpunkt. • Im Fall n = 1 entspricht der Satz 12 dem Satz 20 aus MAE1. Der Satz 12 ist also eine Verallgemeinerung auf n ≥ 1 Dimensionen. Beispiel: Wir wollen die kritischen Punkte der Funktion f (x1 , x2 ) := (3 − x1 )2 − 2(x1 − x22 )2 , (x1 , x2 ) ∈ R2 , finden und charakterisieren. Dazu berechnen wir den Gradienten und die HesseMatrix von f : ! ∂f −2x1 + 4x22 − 6 ∂x1 (x1 , x2 ) ∇f (x1 , x2 ) = = , ∂f 8(x1 − x22 )x2 ∂x2 (x1 , x2 ) ! ∂2f ∂2f (x , x ) (x , x ) 2 1 2 1 2 −2 8x2 ∂x ∂x ∂x1 2 1 2 = , D f (x1 , x2 ) = ∂2f ∂2f 8x2 8(x1 − 3x22 ) (x1 , x2 ) ∂x2 ∂x1 (x1 , x2 ) ∂x2 2 für (x1 , x2 ) ∈ R2 . Die kritischen Punkte sind die Nullstellen des Gradienten von f: 3 −3 √ √3 p1 = , p2 = , p3 = . 0 − 3 3 7 KURVEN ENTLANG VON FLÄCHEN Die Hesse-Matrizen und ihre Eigenwerte −2 0 D 2 f (p1 ) = 0 −24 √ −2 −8 3 √ D 2 f (p2 ) = −8 3 −48 √ −2 8 3 √ D 2 f (p3 ) = 8 3 −48 105 an diesen Stellen sind gegeben durch ⇒ λ1 = −24, λ2 = −2, ⇒ λ1 ' −51.9, λ2 ' 1.85, ⇒ λ1 ' −51.9, λ2 ' 1.85. Nach Satz 12 hat die Funktion f an der Stelle p1 ein lokales Maximum und an den Stellen p2 , p3 jeweils einen Sattelpunkt. 8 8 BEISPIELE FÜR PARTIELLE DIFFERENZIALGLEICHUNGEN 106 Beispiele für partielle Differenzialgleichungen Ähnlich wie eine gewöhnliche Differenzialgleichung (MAE3, Def. 15) ist eine partielle Differenzialgleichung (pDgl) eine mathematische Gleichung für eine unbekannte Funktion, in der auch partielle Ableitungen dieser Funktion vorkommen. Dazu muss die gesuchte Funktion von mehr als einer Variablen abhängen. PDgln treten in vielen mathematischen Modellen auf – wir geben hier einige Beispiele: • lineare pDgl 1. Ordnung: – lineare Transportgleichung: ∂u ∂t + b · ∇u = 0 • lineare pDgln 2. Ordnung: – Wellengleichung: ∂2u ∂t2 = ∆u – Wärmeleitungsgleichung, Diffusionsgleichung: ∂u ∂t = ∆u – Laplace-Gleichung: ∆u = 0 ∂2u ∂t2 – allgemeine Wellengleichung: + b · ∇u − div (A∇u) = 0 • lineare pDgln höherer Ordnung: – Airy-Gleichung (G. B. Airy, 1801–1892): – Balkengleichung: 2 ∂ u ∂t2 + 4 ∂ u ∂x4 ∂u ∂t + ∂3u ∂x3 =0 =0 • nichtlineare Gleichungen: – Minimalflächengleichung: div – skalare Erhaltungsgleichung: √ ∂u ∂t ∇u 1+|∇u|2 =0 + div (F (u)) = 0 – Konvektions-Diffusionsgleichung: ∂u ∂t + div (bu − A∇u) = f , wobei b, A, f Funktionen von u sein können. • lineare Systeme (die unbekannte Funktion u ist vektorwertig): – lineare Elastizitätsgleichung: ∂2u ∂t2 − µ∆u − (λ + µ)∇(div u) = 0 – Maxwell-Gleichungen (J. C. Maxwell, 1831–1879): rot B div B rot E = ∂E ∂t , = 0, div E = − ∂B ∂t , = 0. • nichtlineare Systeme: – Reaktions-Diffusions-System: ∂u ∂t − ∆u = f (u) – Navier-Stokes Gleichungen (C. L. M. H. Navier, 1785–1836; G. G. Stokes, 1819–1903) für inkompressible Fluide: ∂u + (u · ∇)u − ∆u ∂t div u = −∇p, = 0. 9 MEHRDIMENSIONALE INTEGRATION 107 – Halbleiter-Gleichungen (W. van Roosbroeck, 1950): div (ε∇ψ) = q(n − p − N ), ∂n + div (nµn ∇ψ − Dn ∇n) = Un (ψ, n, p), ∂t ∂p + div (−pµp ∇ψ − Dp ∇p) = Up (ψ, n, p), ∂t 9 Mehrdimensionale Integration In der Wahrscheinlichkeitstheorie hatten wir bereits Integrale von Funktionen f : D → R, D ⊆ Rn , über Quader (a, b) ⊆ Rn berechnet: Zb1 Zb2 Z ··· f (x) dx = (a,b) Zbn a1 a2 f (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 , (66) an wobei a = (a1 , a2 , . . . , an )> , b = (b1 , b2 , . . . , bn )> mit a < b. Dabei sind auch ai = −∞ und bj = ∞ zugelassen, was auf uneigentliche Integrale führt. Der Ausdruck auf der rechten Seite von (66) kann “von innen nach aussen” durch nfache eindimensionale Integration berechnet werden, die wir in MAE2 behandelt haben. Der bereits einmal erwähnte Satz von Fubini (G. Fubini, 1879–1943) besagt, dass für stetige Integranden f die Reihenfolge der eindimensionalen Integrationen keine Rolle spielt. Für Integrale über kompliziertere Gebiete Ω ⊆ Rn können wir eine Gebietszerlegung verwenden: falls Ω = Ω1 ∪ Ω2 , dann gilt Z Z Z Z f (x) dx = f (x) dx + f (x) dx − f (x) dx, Ω Ω1 Ω1 ∩Ω2 Ω2 bzw. allgemeiner für nichtüberlappende Zerlegungen Ω = N [ Ωj , Ωi ∩ Ωk = ∅, j=1 i 6= k: Z f (x) dx = Ω N Z X f (x) dx. j=1Ω j Damit lassen sich z. B. Integrale über Vereinigungen von nichtüberlappenden Quadern leicht berechnen, so lange die Seitenflächen der Quader senkrecht zu einer Koordinatenachse stehen. Transformationssatz Ist dies nicht der Fall, so verwendet man den Transformationssatz (Verallgemeinerung der Integration durch Substitution; MAE2, Kap. 1.7): 9 MEHRDIMENSIONALE INTEGRATION 108 Satz 13 (Transformationssatz) Sei f : D → R, D ⊆ Rn , ein skalares Feld und sei Φ : Ω → Rn , Ω ⊆ Rn , mit Φ(Ω) ⊆ D, ein Diffeomorphismus (d. h. umkehrbar und sowohl Φ als auch Φ−1 sind stetig differenzierbar). Das Integral von f über Φ(Ω) ist dann gegeben durch Z Z f (x) dx = f (Φ(y)) |det (DΦ(y))| dy, (67) Ω Φ(Ω) falls das Integral auf der rechten Seite existiert. Bemerkung: die Determinante der Jacobi-Matrix DΦ auf der rechten Seite von (67) wird als Jacobi-Determinante bezeichnet. Beispiel: Wir wollen die Funktion f (x1 , x2 ) := (3 − x1 )2 − 2(x1 − x22 )2 über den Kreisringsektor Φ(Ω) ⊆ R2 integrieren, wobei hπ πi −2 + y1 cos(y2 ) Ω := [1, 3] × , , Φ(y1 , y2 ) := . −1 + y1 sin(y2 ) 6 3 Wir berechnen zuerst die Jacobi-Matrix der Koordinatentransformation Φ: ! ∂Φ1 ∂Φ1 (y , y ) (y , y ) cos(y2 ) −y1 sin(y2 ) 1 2 1 2 ∂y1 ∂y2 DΦ(y1 , y2 ) = = , ∂Φ2 ∂Φ2 sin(y2 ) y1 cos(y2 ) ∂y (y1 , y2 ) ∂y (y1 , y2 ) 1 2 mit Jacobi-Determinante DΦ(y1 , y2 ) = y1 cos2 (y2 ) + y1 sin2 (y2 ) = y1 . f(x 1 ,x 2 ) 2 -1-82 -16 -4 f( Φ 1 (y 1 ,y 2 ), Φ 2 (y 1 ,y 2 ))|det(D Φ(y 1 ,y 2 ))| 0 -4 1.5 04 8 1216 20 -206 1.5 -1 4 2 20 4 y 12 20 0.5 0 0 8 0 0.5 12 1 8 -1 -2 16 1.5 2 y -1 0 x 1 2 12 12 8 -0.5 16 x 1 12 0.5 16 2 8 12 8 1 2.5 3 3.5 1 1 Nach dem Transformationssatz gilt nun Z Z f (x) dx = f (Φ(y)) |det (DΦ(y))| dy Φ(Ω) Ω Z3 Zπ/3 = f (−2 + y1 cos(y2 ), −1 + y1 sin(y2 )) |y1 | dy2 dy1 1 π/6 9 MEHRDIMENSIONALE INTEGRATION Z3 = 109 Zπ/3 Zπ/3 4 cos(y2 ) sin2 (y2 ) dy2 − 2y15 sin4 (y2 ) dy2 dy1 + 4y1 1 π/6 Z3 + Zπ/3 Zπ/3 4 cos2 (y2 ) dy2 dy1 + sin3 (y2 ) dy2 − y13 8y1 1 Z3 − + π/6 π/6 3 8y1 1 Z3 π/6 Zπ/3 cos(y2 ) sin(y2 ) dy2 + 20y13 sin2 (y2 ) dy2 dy1 + Zπ/3 π/6 π/6 Zπ/3 Zπ/3 2 cos(y2 ) dy2 + 24y12 sin(y2 ) dy2 + 7y1 dy1 2y1 1 π/6 π/6 √ ! √ √ 7π 3 − 2π 5 21 3 − 23 4 7π + 8 3 2 = y1 + y1 − y1 + 13 3 − 1 y1 + y1 dy1 16 6 4 6 1 √ 5793 3 91π 1691 = − − ' 20.5. 20 2 5 R Bemerkung: (f ≡ 1) Das Integral 1 dx =: vol(Ω) ist das Volumen von Ω ⊆ Rn . Z3 Ω Abgesehen vom (räumlichen) Integral eines skalaren Feldes f : D → Rn , D ⊆ Rn , über ein Gebiet Ω ⊆ Rn , gibt es auch noch das Kurvenintegral und das Oberflächenintegral. Diese beiden Arten von Integralen benötigen zur Auswertung eine Parametrisierung des Integrationsbereichs. Kurvenintegral (Wegintegral) Definition 22 (Kurvenintegral) Sei γ : [a, b] → Rn differenzierbar auf (a, b), und sei Γ := γ([a, b]) ⊆ Rn das Bild des Intervalls [a, b] unter γ (eine parametrische Kurve). 1. Sei f : D → R, D ⊆ Rn , ein stetiges skalares Feld, wobei Γ ⊆ D. Das Kurvenintegral der Funktion f entlang des Weges Γ ist definiert als Zb Z f (γ(t)) kγ̇(t)k dt. f ds := Γ (68) a 2. Sei f : D → Rn , D ⊆ Rn , ein stetiges Vektorfeld, wobei Γ ⊆ D. Das Kurvenintegral der Funktion f entlang des Weges Γ ist definiert als Zb Z f · ds := Γ f (γ(t)) · γ̇(t) dt. a (69) 9 MEHRDIMENSIONALE INTEGRATION 110 Bemerkungen: • Durch die Funktion γ̇ wird eine Orientierung der Kurve Γ definiert. • Ist die Kurve Γ geschlossen (γ(a) = γ(b)), so verwendet man auch das H Symbol für das Wegintegral. R • (f ≡ 1) Das Integral 1 ds ist die Länge der Kurve Γ ⊆ Rn . Γ Oberflächenintegral Definition 23 (Oberflächenintegral) Sei ϕ : U → R, U ⊆ Rn−1 , ein stetig differenzierbares skalares Feld, dann ist Σ := Gϕ = {(x, ϕ(x)) ∈ Rn | x ∈ U } ⊆ Rn eine (n − 1)-dimensionale Fläche im Rn . 1. Sei f : D → R, D ⊆ Rn , ein stetiges skalares Feld, wobei Σ ⊆ D. Das (skalare) Oberflächenintegral der Funktion f über Σ ist definiert als Z Z p (70) f dσ := f (x, ϕ(x)) 1 + k∇ϕ(x)k2 dx. Σ U 2. Sei f : D → Rn , D ⊆ Rn , ein stetiges Vektorfeld, wobei Σ ⊆ D. Das (vektorielle) Oberflächenintegral der Funktion f über Σ ist definiert als Z Z p f · dσ := f (x, ϕ(x)) · n (x, ϕ(x)) 1 + k∇ϕ(x)k2 dx, (71) Σ U wobei n ein Normaleneinheitsfeld auf Σ bezeichnet. Bemerkungen: • Auf der rechten Seite stehen jeweils Integrale über die Teilmenge U des (flachen!) Rn−1 . • Die beiden möglichen Normaleneinheitsfelder sind gegeben durch n : Σ → Rn , ±1 −∇ϕ(x) n± (x, ϕ(x)) := p ∈ Rn , x ∈ U. 1 1 + k∇ϕ(x)k2 Die Vektoren n± (x, ϕ(x)) haben (Euklidische) Länge 1 und stehen im Punkt (x, ϕ(x)) ∈ Σ senkrecht auf der Tangentialebene an die Fläche Σ in diesem Punkt; sie heissen deshalb Normaleneinheitsvektoren der Fläche Σ im Punkt (x, ϕ(x)) ∈ Σ. Durch die Wahl des Vorzeichens wird die Orientierung der Fläche Σ festgelegt. LITERATUR • Das Integral 111 R f · dσ heisst der Fluss des Vektorfeldes f durch die Fläche Σ Σ. Beachten Sie, dass das Vorzeichen des Flusses von der Orientierung der Fläche abhängt. H • Ist die Fläche geschlossen, so verwendet man auch das Symbol für das Oberflächenintegral. R • (f ≡ 1) Das Integral 1 dσ ist der Flächeninhalt von Σ ⊆ Rn . Σ Integralsätze von Gauss und Stokes Die Integralsätze von Gauss (auch bekannt als Divergenzsatz; J. L. Lagrange, 1762; C. F. Gauss, 1813; G. Green, 1825; M. Ostrogradski, 1831) und Kelvin-Stokes (W. Thomson (Lord Kelvin), 1824–1907; G. Stokes, 1819–1903) vereinfachen manchmal die Berechnung von Oberflächen- und Kurvenintegralen. Satz 14 (Gaussscher Integralsatz) Sei Ω ⊆ Rn eine kompakte Menge mit stückweise glattem Rand Σ = ∂Ω. Der Rand sei orientiert durch ein äusseres Normaleneinheitsfeld n : Σ → Rn (d. h. die Normaleneinheitsvektoren auf Σ zeigen “nach aussen”, also weg von Ω). Sei f : D → Rn , D ⊆ Rn , ein stetig differenzierbares Vektorfeld, wobei Ω ⊆ D. Dann gilt Z I div f (x) dx = f · dσ. (72) Ω Σ Bemerkung: Wegen dieses Satzes wird div f auch als Quellendichte des Vektorfeldes f interpretiert. Satz 15 (klassischer Integralsatz von Stokes) Sei Γ ⊆ R3 ein differenzierbarer, geschlossener Weg, und sei Σ ⊆ R3 eine zweidimensionale Fläche, deren Rand Γ ist. Sei f : D → R3 , D ⊆ R3 , ein stetig differenzierbares Vektorfeld, wobei Σ ⊆ D. Dann gilt Z I (rot f ) · dσ = f · ds. (73) Σ Γ Bemerkung: Wegen dieses Satzes wird rot f auch als Wirbeldichte des Vektorfelds f interpretiert. Literatur [1] U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg [2] L. Papula: Mathematik für Ingenieure und Naturwissenschaftler (3 Bände); Vieweg & Teubner [3] M. Sachs: Wahrscheinlichkeitsrechnung und Statistik; Hanser [4] W. A. Stahel: Statistische Datenanalyse; Vieweg