MAE4 Mathematik: Analysis für Ingenieure 4 Christoph Kirsch 2. Juni 2016 Inhaltsverzeichnis 1 Wahrscheinlichkeitsrechnung (Forts.) 1.1 Zusammenfassung/Erinnerung: Wahrscheinlichkeitsrechnung aus MAE3 . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit . 1.3 Zufallsvariablen und Verteilungen . . . . . . . . . . . . . . . . . . 1.3.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . 1.3.2 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . 1.3.3 Überabzählbar unendliche Ergebnismengen . . . . . . . . 1.3.4 Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . 1.3.5 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . 1.4 Verteilungen von Zufallsvariablen in MATLAB . . . . . . . . . . 1.5 Transformationen von Zufallsvariablen . . . . . . . . . . . . . . . 1.5.1 Lineare Transformationen . . . . . . . . . . . . . . . . . . 1.5.2 Anwendung: Transformation auf die Standardnormalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.3 Nichtlineare Transformationen . . . . . . . . . . . . . . . 1.6 Quantilfunktion und Masszahlen von Verteilungen . . . . . . . . 1.6.1 Quantilfunktion . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Lagemasse und Streuungsmasse . . . . . . . . . . . . . . . 1.7 Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen . 1.7.1 Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . 1.7.2 Stochastische Unabhängigkeit von Zufallsvariablen . . . . 1.8 Transformationen von Zufallsvektoren . . . . . . . . . . . . . . . 1.8.1 Masszahlen der Transformierten . . . . . . . . . . . . . . 1.8.2 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . 1.8.3 Verteilung der Transformierten . . . . . . . . . . . . . . . 1.8.4 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . 1 2 2 6 12 13 23 28 29 33 35 38 38 39 40 41 41 44 53 54 62 66 67 72 73 74 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 2 Statistik 2.1 Erzeugung von Pseudo-Zufallszahlen in MATLAB 2.2 Deskriptive Statistik . . . . . . . . . . . . . . . . . 2.3 Schliessende Statistik . . . . . . . . . . . . . . . . . 2.3.1 Parameterschätzung . . . . . . . . . . . . . 2.3.2 Vertrauensintervalle . . . . . . . . . . . . . 2.3.3 Parameterschätzung in MATLAB . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 78 80 80 84 88 Überblick In diesem vierten und letzten Teil einer viersemestrigen Vorlesung über Analysis für Ingenieure werden die Stochastik sowie Funktionen von mehreren Variablen und die Vektoranalysis als Hauptthemen behandelt. Die Stochastik umfasst die Gebiete Wahrscheinlichkeitsrechnung und Statistik. Die elementare Wahrscheinlichkeitsrechnung aus MAE3 wird hier fortgesetzt, um auch überabzählbar unendliche Ergebnismengen behandeln zu können. Danach werden Zufallsvariablen sowie Verteilungen eingeführt. In diesem Zusammenhang lernen Sie wichtige Kennzahlen wie den Erwartungswert oder die Varianz kennen. In der Statistik werden die Themen Schätztheorie und statistische Tests behandelt. (wir sind nur bis hierhin gekommen) Die Differenzialrechnung für Funktionen von mehreren Variablen wurde in MAE3 eingeführt. Sie wird hier fortgesetzt mit der Einführung der wichtigsten Differenzialoperatoren sowie der mehrdimensionalen Integration. Auch die Integralsätze von Gauss und Stokes werden behandelt. Schliesslich werden ausgewählte Beispiele von partiellen Differenzialgleichungen behandelt, bei denen – im Gegensatz zu den gewöhnlichen Differenzialgleichungen aus MAE3 – die gesuchte Funktion von mehreren Variablen abhängt. Einige der in dieser Vorlesung behandelten Themen sollten in Ihrer Vorlesung FTH3 direkte Anwendung finden. 1 1.1 Wahrscheinlichkeitsrechnung (Forts.) Zusammenfassung/Erinnerung: Wahrscheinlichkeitsrechnung aus MAE3 In der Wahrscheinlichkeitsrechnung betrachten wir Zufallsexperimente (MAE3, Def. 24) mit einer (bisher endlichen) Ergebnismenge Ω. Die Elemente ω ∈ Ω sind die möglichen Ergebnisse des betrachteten Zufallsexperiments. Bei jeder Durchführung des Zufallsexperiments erhalten wir ein Ergebnis ω ∈ Ω. Bemerkung: Ω ist nicht notwendigerweise eine Zahlenmenge. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 3 Beispiele: 1. Zufallsexperiment “einmaliger Würfelwurf”, Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}. 2. Zufallsexperiment “zweimaliger Münzwurf”, Ergebnismenge Ω = {(K, K), (K, Z), (Z, K), (Z, Z)}. Für eine gegebene Ergebnismenge Ω definieren wir das Ereignisfeld Σ ⊆ P(Ω), wobei P(Ω) die Potenzmenge (Menge aller Teilmengen) von Ω bezeichnet (MAE3, Def. 25). Die Elemente A ∈ Σ (Teilmengen von Ω) heissen Ereignisse (MAE3, Def. 26). Wir sagen “das Ereignis A ∈ Σ tritt ein”, falls das Ergebnis ω ∈ Ω des Zufallsexperiments auch ω ∈ A erfüllt. Für abzählbare Ereignismengen Ω definiert man in der Regel Σ := P(Ω), das heisst jede Teilmenge von Ω ist ein Ereignis. Für überabzählbar unendliche Ergebnismengen Ω ist die Situation komplizierter, und es gibt in diesem Fall Teilmengen von Ω, die keine Ereignisse sind. Wir werden später in dieser Vorlesung auf diesen Fall eingehen. Beispiel: Ω := {1, 2, 3, 4, 5, 6} (endlich, also abzählbar), Σ := P(Ω) (26 = 64 Elemente). Das Ereignis A := {2, 4, 6} ∈ Σ lässt sich interpretieren als “eine gerade Zahl gewürfelt”: ω ∈ A gilt genau dann, wenn das Ergebnis ω ∈ Ω des Würfelwurfs eine gerade Zahl ist. Ein Paar (Ω, Σ), bestehend aus einer Ergebnismenge Ω und einem Ereignisfeld Σ ⊆ P(Ω), nennen wir einen messbaren Raum. Auf einem messbaren Raum definieren wir ein Wahrscheinlichkeitsmass P : Σ → [0, 1]. Für jedes Ereignis A ∈ Σ gibt P (A) ∈ [0, 1] die Wahrscheinlichkeit dafür an, dass das Ereignis A eintritt. Für Ereignisse A, B ∈ Σ hat ein Wahrscheinlichkeitsmass P die folgenden Eigenschaften (MAE3, Satz 8): 1. P (Ac ) = 1 − P (A) (Gegenwahrscheinlichkeit), 2. P (∅) = 0, 3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (Additionssatz). Ein Tripel (Ω, Σ, P ), bestehend aus einer Ergebnismenge Ω, einem Ereignisfeld Σ ⊆ P(Ω) und einem Wahrscheinlichkeitsmass P : Σ → [0, 1], nennen wir einen Wahrscheinlichkeitsraum. Für endliche Ergebnismengen Ω kann man wie folgt ein Wahrscheinlichkeitsmass P konstruieren (MAE3, Satz 7): • Für n ∈ N sei Ω = {ω1 , ω2 , . . . , ωn } die endliche Ergebnismenge des Zufallsexperiments. • Definiere das Ereignisfeld Σ := P(Ω) (2n Elemente). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) • Für n Zahlen pi ≥ 0, i ∈ {1, 2, . . . , n}, mit n 4 pi = 1, definiere i=1 P ({ωi }) := pi , i ∈ {1, 2, . . . , n}. • Dadurch wird eindeutig ein Wahrscheinlichkeitsmass P : Σ → [0, 1] festgelegt, und für ein beliebiges Ereignis A ∈ Σ gilt pi . P (A) = i: ωi ∈A Bemerkung: Der wesentliche Punkt bei dieser Konstruktion ist, dass man den Wert des Wahrscheinlichkeitsmasses P nicht für jedes einzelne der 2n Ereignisse definieren muss, sondern nur für die n sog. Elementarereignisse {ωi }, i = 1, 2, . . . , n (einelementige Teilmengen von Ω). Weil in der Regel n 2n gilt, ist dies eine grosse Erleichterung. Beispiel: (manipulierter Würfel) Ein Würfel sei derart manipuliert, dass die Wahrscheinlichkeit dafür, eine 6 zu würfeln, doppelt so gross ist wie bei einem fairen Würfel. Die restlichen Elementarereignisse haben alle dieselbe Wahrscheinlichkeit. Wir definieren die Ergebnismenge Ω := {1, 2, 3, 4, 5, 6} und das Ereignisfeld Σ := P(Ω) (26 = 64 Elemente). Für diesen Würfel wählen wir p6 := 1 3 2 , i ∈ {1, 2, 3, 4, 5}. 15 und pi := Diese Zahlen erfüllen 6 i=1 pi = 2 1 2 1 +5· = + = 1. 3 15 3 3 Gemäss MAE3, Satz 7, wird durch die Definition von P ({i}) := pi , i ∈ {1, 2, 3, 4, 5, 6}, eindeutig ein Wahrscheinlichkeitsmass P : Σ → [0, 1] festgelegt. Zum Beispiel erhalten wir für das Ereignis A := {1, 3, 5} ∈ Σ (“ungerade Zahl gewürfelt”) mit diesem Würfel die Wahrscheinlichkeit P (A) = pi = p1 + p3 + p5 = i∈A 2 2 6 2 2 + + = = = 40 %. 15 15 15 15 5 Als Spezialfall hatten wir schliesslich die Laplace-Experimente behandelt, bei denen jedes Elementarereignis {ωi }, i ∈ {1, 2, . . . , n}, dieselbe Wahrscheinlichkeit hat, d. h. pi = n1 , i ∈ {1, 2, . . . , n}. In diesem Fall erhalten wir für ein Ereignis A ∈ Σ die Wahrscheinlichkeit P (A) = i: ωi ∈A = P ({ωi }) = 1 |A| |A| = = n n |Ω| i: ωi ∈A Anzahl der Ergebnisse, bei denen das Ereignis A eintritt . Anzahl aller möglichen Ergebnisse 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 5 Beispiel: (fairer Würfel) Es sei wieder Ω := {1, 2, 3, 4, 5, 6} und Σ := P(Ω) (26 = 64 Elemente). Diesmal gelte aber pi = 16 , i ∈ {1, 2, 3, 4, 5, 6}, d. h. jedes Elementarereignis {i}, i ∈ {1, 2, 3, 4, 5, 6}, habe dieselbe Wahrscheinlichkeit. Ein Wurf mit einem solchen (fairen) Würfel ist ein Laplace-Experiment, und für das Ereignis A := {1, 3, 5} ∈ Σ (“ungerade Zahl gewürfelt”) erhalten wir die Wahrscheinlichkeit P (A) = = Anzahl der Ergebnisse, bei denen das Ereignis A eintritt Anzahl aller möglichen Ergebnisse 3 1 |A| = = = 50 %. |Ω| 6 2 Bei dem manipulierten Würfel aus dem letzten Beispiel betrug die Wahrscheinlichkeit für dieses Ereignis hingegen nur 40 %. Um Wahrscheinlichkeiten für Ereignisse bei Laplace-Experimenten zu berechnen, muss man also die Mächtigkeit von Mengen (d. h. die Anzahl ihrer Elemente) berechnen. Dies kann man mit Hilfe der (abzählbaren) Kombinatorik (MAE3, Kap. 10) tun. In diesem Zusammenhang hatten wir das Urnenmodell (MAE3, Kap. 10.1) verwendet: Im Urnenmodell wird das Eintreten eines Elementarereignisses in einem Laplace-Experiment durch das Ziehen einer Kugel aus einer Urne, die n ∈ N verschiedene Kugeln enthält, veranschaulicht (n ist dabei die Anzahl der Elementarereignisse, also auch die Anzahl der Ergebnisse). Jede Kugel aus der Urne wird mit derselben Wahrscheinlichkeit gezogen. Beispiel: (fairer Würfelwurf interpretiert als Ziehung einer Kugel) Das Werfen eines fairen Würfels (Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}) kann auch als das Ziehen einer Kugel aus einer Urne, die n = 6 nummerierte Kugeln enthält, aufgefasst werden. Wenn ein Laplace-Experiment einmal mit Hilfe des Urnenmodells formuliert wurde, dann kann man einfach auch Wahrscheinlichkeiten für die wiederholte Durchführung dieses Zufallsexperiments berechnen. Beispiel: (wiederholte Ziehung) Wir betrachten k ∈ N Würfe mit einem fairen Würfel (jeder einzelne Wurf ist ein Laplace-Experiment) und veranschaulichen den Vorgang mit Hilfe einer Urne mit n = 6 nummerierten Kugeln, aus der k-mal mit Zurücklegen gezogen wird. Gemäss der Tabelle in MAE3, Kap. 10.1, gibt es V ∗ (6; k) = 6k mögliche Wurfergebnisse (geordnete k-Tupel mit Elementen aus {1, 2, 3, 4, 5, 6}, z. B. für k = 5: (1, 1, 1, 1, 1), (1, 4, 3, 4, 2), . . . ). Wir fragen nun nach der Wahrscheinlichkeit dafür, dass in einem solchen Wurfergebnis die Zahl 2 nicht vorkommt. Für k = 1 erhalten wir P ({keine 2 nach einem Wurf}) = |{1, 3, 4, 5, 6}| 5 = . |{1, 2, 3, 4, 5, 6}| 6 Dieselbe Wahrscheinlichkeit gilt auch für jeden einzelnen Wurf: P ({keine 2 im i-ten Wurf}) = 5 , 6 i = 1, 2, . . . , k. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 6 Wenn in allen k Würfen keine 2 vorkommen darf, so können wir die Anzahl der Möglichkeiten dafür mit V ∗ (5; k) = 5k angeben (Anzahl der geordneten Stichproben (Umfang k) aus den verbleibenden Zahlen {1, 3, 4, 5, 6} (mit Wiederholung)), und die Wahrscheinlichkeit dafür mit P ({keine 2 nach k Würfen}) = 5k = 6k k 5 > 0, 6 ∀ k ∈ N, mit P ({keine 2 nach k Würfen}) → 0, k → ∞. Die Gegenwahrscheinlichkeit (MAE3, Satz 8, 1.) ist gegeben durch P ({in k Würfen mindestens einmal 2 gewürfelt}) = 1 − k 5 < 1, 6 ∀ k ∈ N, mit P ({in k Würfen mindestens einmal 2 gewürfelt}) → 1, k → ∞. Die Wahrscheinlichkeit dafür, in k Würfen mindestens einmal eine 2 zu würfeln, nimmt also mit mit k zu und geht für k → ∞ sogar gegen 1. Die Wahrscheinlichkeit, im (k + 1)-ten Wurf eine 2 zu würfeln, ist aber immer 1/6, auch wenn in den k Würfen davor nie eine 2 erschienen ist! 1.2 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit Wir betrachten ein Laplace-Experiment, d. h. einen Wahrscheinlichkeitsraum (Ω, Σ, P ) mit endlicher Ergebnismenge Ω = {ω1 , ω2 , . . . , ωn }, n ∈ N, und Σ := P(Ω), in dem alle Elementarereignisse gleich wahrscheinlich sind. Sei B ∈ Σ ein Ereignis, dann gilt P (B) = Anzahl der Ergebnisse, bei denen das Ereignis B eintritt |B| = Anzahl aller möglichen Ergebnisse |Ω| (Kap. 1.1). Sei A ∈ Σ ein weiteres Ereignis. Wir fragen, was die Wahrscheinlichkeit dafür ist, dass das Ereignis A eintritt, wenn wir bereits wissen, dass das Ereignis B eingetreten ist. Diese Wahrscheinlichkeit ist gegeben durch |A ∩ B| = |B| |A∩B| |Ω| |B| |Ω| = P (A ∩ B) , P (B) falls P (B) = 0. Diese bedingte Wahrscheinlichkeit kann auch im Allgemeinen (also auch für Zufallsexperimente, die keine Laplace-Experimente sind) auf diese Weise definiert werden: Definition 1 (bedingte Wahrscheinlichkeit) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ Ereignisse mit P (B) = 0. Die Wahrscheinlichkeit von A unter der Bedingung, dass B eingetreten ist, ist definiert als P (A|B) := P (A ∩ B) . P (B) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 7 Bemerkung: Bedingte Wahrscheinlichkeiten lassen sich einfach mit Hilfe von Venn-Diagrammen (nach J. Venn, 1834–1923, der sich übrigens selbst auch mit Wahrscheinlichkeitstheorie beschäftigt hat) veranschaulichen. Beispiel: (fairer Würfel) Sei n = 6, Ω = {1, 2, 3, 4, 5, 6}, Σ = P(Ω), P ({i}) = 16 , i ∈ Ω (Laplace-Experiment). Wir definieren die Ereignisse • A := {1, 3, 5} (“ungerade Zahl gewürfelt”), • B := {1, 4} (“1 oder 4 gewürfelt”), mit A ∩ B = {1}. Es gelten P (A) = 3 1 |B| 2 1 |A ∩ B| 1 |A| = = , P (B) = = = und P (A ∩ B) = = . |Ω| 6 2 |Ω| 6 3 |Ω| 6 Mit Def. 1 erhalten wir die bedingten Wahrscheinlichkeiten 1 P (A ∩ B) 1 3 = 61 = = (wenn wir bereits wissen, dass eine 1 P (B) 6 2 3 oder eine 4 gewürfelt wurde, dann ist die Wahrscheinlichkeit dafür, dass die gewürfelte Zahl ungerade ist, gleich 1/2), • P (A|B) = 1 P (B ∩ A) 1 2 = 61 = = (wenn wir bereits wissen, dass eine P (A) 6 3 2 ungerade Zahl gewürfelt wurde, dann ist die Wahrscheinlichkeit dafür, dass die gewürfelte Zahl 1 oder 4 ist, gleich 1/3. • P (B|A) = Satz 1 (Multiplikationssatz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ Ereignisse. Dann gelten P (A ∩ B) = P (A|B)P (B), falls P (B) = 0, P (A ∩ B) = P (B|A)P (A), falls P (A) = 0. Satz 2 (Gesetz der totalen Wahrscheinlichkeit) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ zwei Ereignisse mit P (A) = 0 und P (Ac ) = 0. Dann gilt P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ). Allgemeiner gilt für n ∈ N Ereignisse A1 , A2 , . . . , An ∈ Σ mit n Ai = Ω, i=1 Ai ∩ Aj = ∅, i = j, und mit P (Ai ) = 0, i = 1, 2, . . . , n (eine sog. Partition von Ω): n P (B|Ai )P (Ai ). P (B) = i=1 Bemerkung: Das Gesetz der totalen Wahrscheinlichkeit lässt sich mit Hilfe von Ereignisbäumen veranschaulichen: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) P (Ac ) P (A) Ac A P (B |A) c P (B|A) P (B c |Ac ) c P (B|A ) Bc B 8 Bc B P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) Beispiel: Wir betrachten das Zufallsexperiment des zweimaligen Ziehens (ohne Zurücklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln. Die Ergebnismenge dieses Zufallsexperiments ist Ω = {(r, r), (r, b), (b, r), (b, b)}, und wir definieren das Ereignisfeld Σ := P(Ω) (24 = 16 Elemente). Wir können dieses Zufallsexperiment wie folgt als Ereignisbaum darstellen: 3 10 7 10 r b 2 9 7 9 3 9 6 9 (r, r) (r, b) (b, r) (b, b) Wir definieren die Ereignisse • A := {(r, r), (r, b)} (“die erste Kugel ist rot”), Ac = {(b, r), (b, b)} (“die erste Kugel ist blau”), • B := {(r, r), (b, r)} (“die zweite Kugel ist rot”), B c = {(r, b), (b, b)} (“die zweite Kugel ist blau”). An den Kanten der ersten Ebene stehen die Wahrscheinlichkeiten P (A) = 3 , 10 P (Ac ) = 7 , 10 und an den Kanten der zweiten Ebene stehen die bedingten Wahrscheinlichkeiten P (B|A) = 2 , 9 P (B c |A) = 7 , 9 P (B|Ac ) = 3 , 9 P (B c |Ac ) = 6 . 9 Nach dem Gesetz der totalen Wahrscheinlichkeit (Satz 2) erhalten wir P (B) = P (B c ) = 3 7 3 2 3 + = , 9 10 9 10 10 6 7 7 7 3 + = . P (B c |A)P (A) + P (B c |Ac )P (Ac ) = 9 10 9 10 10 P (B|A)P (A) + P (B|Ac )P (Ac ) = 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 9 Dieses Zufallsexperiment ist kein Laplace-Experiment, denn wir erhalten mit dem Multiplikationssatz: 2 2 3 = , 9 10 30 7 7 3 P ({(r, b)}) = P (B c |A)P (A) = = , 9 10 30 7 3 7 P ({(b, r)}) = P (B|Ac )P (Ac ) = = , 9 10 30 14 6 7 P ({(b, b)}) = P (B c |Ac )P (Ac ) = = . 9 10 30 P ({(r, r)}) = P (B|A)P (A) = Also hat nicht jedes Elementarereignis dieselbe Wahrscheinlichkeit. Satz 3 (Satz von Bayes (T. Bayes, 1701–1761)) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien A, B ∈ Σ zwei Ereignisse mit P (A) = 0 und P (B) = 0. Dann gilt P (A|B) = P (B|A)P (A) P (B) Satz 2 = P (B|A)P (A) . P (B|A)P (A) + P (B|Ac )P (Ac ) Allgemeiner gilt für n ∈ N Ereignisse A1 , A2 , . . . , An ∈ Σ mit P (B|Aj )P (Aj ) P (B) Satz 2 = Ai = Ω, i=1 Ai ∩ Aj = ∅, i = j, und mit P (Ai ) = 0, i = 1, 2, . . . , n: P (Aj |B) = n P (B|Aj )P (Aj ) , n P (B|Ai )P (Ai ) j = 1, 2, . . . , n. i=1 Bemerkung: Der Satz von Bayes erlaubt es, die bedingte Wahrscheinlichkeit P (A|B) zu berechnen, wenn die bedingte Wahrscheinlichkeit P (B|A) bekannt ist (oder umgekehrt). Dies ist oft nützlich, wenn eine der beiden bedingten Wahrscheinlichkeiten auf direkte Weise schwierig zu berechnen ist. Beispiele: 1. Mit den Wahrscheinlichkeiten aus dem vorherigen Beispiel und dem Satz von Bayes erhalten wir P (A|B) = P (B|A)P (A) = P (B) 2 3 9 10 3 10 = 2 . 9 Die Wahrscheinlichkeit dafür, dass die erste Kugel rot ist, wenn wir bereits wissen, dass die zweite Kugel rot ist, ist also 2/9. 2. Wir betrachten zwei Urnen mit insgesamt 20 Kugeln. Urne 1 enthält 7 rote und 3 blaue Kugeln, Urne 2 enthält 1 rote und 9 blaue Kugeln. Jemand zieht zufällig eine Kugel aus einer zufällig gewählten Urne (wir wissen nicht, aus welcher). Die gezogene Kugel ist rot. Wir gross ist die 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 10 Wahrscheinlichkeit dafür, dass die Kugel aus Urne 1 gezogen wurde? Wir betrachten die drei Ereignisse U1 = {die Kugel stammt aus Urne 1}, U2 R = {die Kugel stammt aus Urne 2}, = {die Kugel ist rot}. Wir wollen P (U1 |R) berechnen und verwenden dazu das Gesetz der totalen Wahrscheinlichkeit sowie den Satz von Bayes: Die Urne wurde zufällig ausgewählt, also gilt P (U1 ) = P (U2 ) = 12 . Wir berechnen ausserdem die bedingten Wahrscheinlichkeiten P (R|U1 ) = 7 , 10 P (R|U2 ) = 1 . 10 Wegen U1c = U2 erhalten wir mit dem Gesetz der totalen Wahrscheinlichkeit (Satz 2): P (R) = P (R|U1 )P (U1 )+P (R|U2 )P (U2 ) = 8 1 4 2 7 1 1 1 · + · = · = = . 10 2 10 2 10 2 10 5 Diese Wahrscheinlichkeit hätten wir auch direkt berechnen können, denn es sind ja insgesamt 8 von 20 Kugeln rot, also ist die Wahrscheinlichkeit dafür, dass eine rote Kugel gezogen wird, gegeben durch P (R) = 8/20 = 2/5. Nach dem Satz von Bayes (Satz 3) gilt P (U1 |R) = P (R|U1 )P (U1 ) = P (R) 7 10 · 2 5 1 2 = 7 = 87.5 %. 8 Die Wahrscheinlichkeit dafür, dass eine zufällig gezogene Kugel aus Urne 1 stammt, wenn sie rot ist, ist also 87.5 %. Auch das ist wie erwartet, denn es liegen ja 7 der insgesamt 8 roten Kugeln in Urne 1. Definition 2 (stochastisch unabhängige Ereignisse) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ Σ heissen stochastisch unabhängig, falls P (A ∩ B) = P (A)P (B). Bemerkung: Wenn A, B ∈ Σ stochastisch unabhängige Ereignisse sind, dann gilt für die bedingten Wahrscheinlichkeiten P (A|B) und P (B|A): P (A|B) P (B|A) Def. 1 = Def. 1 = P (A ∩ B) P (B) P (A ∩ B) P (A) Def. 2 = Def. 2 = P (A)P (B) = P (A), P (B) P (A)P (B) = P (B), P (A) falls P (B) = 0, und falls P (A) = 0. Dies bedeutet, dass das Eintreten des Ereignisses B die Wahrscheinlichkeit für das Eintreten des Ereignisses A nicht beeinflusst, und umgekehrt. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 11 Beispiele: 1. Wir betrachten einen einmaligen Wurf mit einem fairen Würfel (LaplaceExperiment): P ({i}) = 16 , i = 1, 2, 3, 4, 5, 6. • Die Ereignisse A := {1, 2, 3} und B := {1, 3, 5} sind nicht stochastisch unabhängig, denn es gilt P (A) = P (B) = 3/6 = 1/2, also P (A)P (B) = 1/4, aber P (A ∩ B) = P ({1, 3}) = 2/6 = 1/3 = 1/2. • Die Ereignisse A := {2, 4, 6} und B := {3, 6} sind stochastisch unabhängig, denn es gilt P (A) = 3/6 = 1/2, P (B) = 2/6 = 1/3, also P (A)P (B) = 1/6. Es gilt auch P (A ∩ B) = P ({6}) = 1/6. • Die Ereignisse A := {1, 3} und B := {3, 4} sind nicht stochastisch unabhängig, denn es gilt P (A) = P (B) = 26 = 13 , also P (A)P (B) = 1 1 1 9 , aber P (A ∩ B) = P ({3}) = 6 = 9 . 2. Betrachten wir hingegen einen manipulierten Würfel mit P ({1}) = P ({2}) = 1 1 5 2 9 , P ({3}) = 18 , P ({4}) = 18 , P ({5}) = P ({6}) = 9 , so sind die Ereignisse A := {1, 3} und B := {3, 4} stochastisch unabhängig. Es gilt nämlich nach dem Additionssatz (MAE3, Satz 8, 3.): P (A) = 1 1 1 + = , 9 18 6 P (B) = 1 5 1 + = , 18 18 3 und auch P (A ∩ B) = P ({3}) = P (A)P (B) = 1 1 1 · = , 6 3 18 1 , 18 also P (A ∩ B) = P (A)P (B). 3. Wir betrachten das zweimalige Ziehen von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln. Je nachdem, ob wir mit oder ohne Zurücklegen ziehen, erhalten wir die folgenden Ereignisbäume: Ziehen ohne Zurücklegen 3 10 Ziehen mit Zurücklegen 7 10 r 3 10 b 7 10 r 2 9 7 9 3 9 6 9 (r, r) (r, b) (b, r) (b, b) b 3 10 (r, r) 7 10 (r, b) Wir definieren die beiden Ereignisse • A := {(r, r), (r, b)} (“die erste Kugel ist rot”), • B := {(r, r), (b, r)} (“die zweite Kugel ist rot”). 3 10 (b, r) 7 10 (b, b) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 12 Die Ereignisse A und B sind beim Ziehen mit Zurücklegen stochastisch unabhängig, beim Ziehen ohne Zurücklegen jedoch nicht. Nach dem Multiplikationssatz (Satz 1) gelten nämlich 2 3 9 10 3 3 10 10 • Ziehen ohne Zurücklegen: P (A ∩ B) = P (B|A)P (A) = = • Ziehen mit Zurücklegen: P (A ∩ B) = P (B|A)P (A) = = 1 15 , 9 100 . 3 , und mit dem Gesetz der totalen WahrIn beiden Fällen gilt P (A) = 10 scheinlichkeit (Satz 2) berechnen wir • Ziehen ohne Zurücklegen: P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) = 3 7 3 2 3 + = , 9 10 9 10 10 • Ziehen mit Zurücklegen: P (B) = P (B|A)P (A) + P (B|Ac )P (Ac ) = 3 7 3 3 3 + = , 10 10 10 10 10 3 3 9 und damit in beiden Fällen das Produkt P (A)P (B) = 10 10 = 100 . Nur beim Ziehen mit Zurücklegen gilt also P (A ∩ B) = P (A)P (B), und damit sind in diesem Fall die Ereignisse A und B stochastisch unabhängig. Bei der stochastischen Unabhängigkeit spielen also sowohl die Ereignisse A, B ∈ Σ als auch das Wahrscheinlichkeitsmass P eine Rolle. 1.3 Zufallsvariablen und Verteilungen Wir haben bisher Zufallsexperimente mit endlichen Ergebnismengen Ω betrachtet. Ab jetzt wollen wir auch abzählbar unendliche Ergebnismengen zulassen. Beispiel: Wir zählen die innerhalb von 24 Stunden in einem Onlineshop eingegangenen Bestellungen. Dies ist ein Zufallsexperiment mit Ergebnismenge Ω = N0 . Diese Ergebnismenge ist unendlich (es lässt sich keine Obergrenze für die Anzahl der Bestellungen angeben), aber abzählbar. Der Satz 7 aus MAE3 lässt sich leicht verallgemeinern, um auch für abzählbar unendliche Ergebnismengen ein Wahrscheinlichkeitsmass zu konstruieren: Satz 4 (Konstruktion eines Wahrscheinlichkeitsmasses) Sei Ω = {ω1 , ω2 , . . . } eine abzählbare Ergebnismenge (endlich oder unendlich), und sei Σ := P(Ω). Seien Zahlen pi ≥ 0, i ∈ N, gegeben mit ∞ i=1 pi = lim N →∞ N pi = 1. (1) i=1 Wir definieren die Funktion P : Σ → [0, 1] für die Elementarereignisse {ωi } ∈ Σ: P ({ωi }) := pi , i ∈ N. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 13 Dadurch wird eindeutig ein Wahrscheinlichkeitsmass P : Σ → [0, 1] festgelegt, und für ein beliebiges Ereignis A ∈ Σ gilt P (A) = pi . i: ωi ∈A Das Tripel (Ω, Σ, P ) ist dann ein Wahrscheinlichkeitsraum. Bemerkungen: • Im Falle von endlichen Ergebnismengen Ω ist dies genau die Konstruktion aus MAE3, Satz 7. Wenn die Ergebnismenge Ω endlich ist, d. h. n ∈ N Elemente hat, so können wir in Satz 4 einfach pi := 0 wählen für i > n. • Aus MAE1 & MAE2 wissen Sie, dass die Konvergenz der unendlichen Rei∞ he pi in (1) zumindest lim pi = 0 erfordert (notwendige Bedingung für i→∞ i=1 Konvergenz). Es ist daher nicht möglich, dass alle pi gleich sind. Deshalb gibt es keine Laplace-Experimente mit unendlicher Ergebnismenge. Beispiel: Die Wahrscheinlichkeiten für die Anzahlen der innerhalb von 24 Stunden in einem Onlineshop eingegangenen Bestellungen können z. B. so aussehen: 0.06 p i = 48 0.05 i exp(-48)/i! p i 0.04 0.03 0.02 0.01 0 0 20 40 60 80 100 i Wir haben hier die Werte pi nur bis i = 100 gezeichnet, aber das Bild geht natürlich rechts noch weiter, denn pi ist für alle i ∈ N0 definiert. Dies ist eine sog. Poisson-Verteilung mit Parameter λ = 48, wie wir später in diesem Kapitel noch sehen werden. Im betrachteten Zeitraum von 24 Stunden geht also im Mittel alle 30 Minuten eine Bestellung ein. 1.3.1 Diskrete Zufallsvariablen Wir haben bereits in MAE3 gesehen, dass Ergebnismengen von Zufallsexperimenten nicht immer Zahlenmengen sind. Zufallsvariablen erlauben es, für beliebige Ergebnismengen dennoch mit Zahlen zu rechnen. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 14 Definition 3 (diskrete reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum mit einer abzählbaren Ergebnismenge Ω und mit Σ = P(Ω). Eine diskrete reelle Zufallsvariable ist eine Funktion X : Ω → R. Bemerkungen: • Die Zufallsvariable X ordnet jedem Ergebnis ω ∈ Ω genau einen Wert X(ω) ∈ R zu (nach Definition einer Funktion, vgl. MAE1). • Weil die Ergebnismenge Ω nach Voraussetzung abzählbar ist, so ist auch das Bild der Zufallsvariablen X, Ω := im(X) = {X(ω) | ω ∈ Ω} ⊆ R, abzählbar. Es kann daher in der Form Ω = {x1 , x2 , . . . } dargestellt werden. Beispiele: 1. Aus einer Urne mit 10 Kugeln (3 rote, 7 blaue) werden zufällig 3 Kugeln gezogen (mit Zurücklegen). Die Ergebnismenge dieses Zufallsexperiments ist gegeben durch die Menge der geordneten Tripel Ω = {(r, r, r), (r, r, b), (r, b, r), (b, r, r), (r, b, b), (b, r, b), (b, b, r), (b, b, b)} mit |Ω| = V ∗ (2; 3) = 23 = 8 (Variation mit Wiederholung; MAE3, Kap. 10.1). Die Ergebnismenge Ω ist endlich, also abzählbar, und wir definieren das Ereignisfeld Σ := P(Ω) (28 = 256 Elemente). Wir können dieses Zufallsexperiment wie folgt als Ereignisbaum darstellen: 3 10 7 10 r b 3 10 7 10 (r, r) 3 10 (r, b) 7 10 (b, r) (b, b) 3 10 7 10 3 10 7 10 3 10 7 10 3 10 7 10 (r, r, r) (r, r, b) (r, b, r) (r, b, b) (b, r, r) (b, r, b) (b, b, r) (b, b, b) Die Wahrscheinlichkeiten für die Elementarereignisse können wir jetzt mit dem Multiplikationssatz (Satz 1) berechnen: 3 10 3 P ({(r, r, b)}) = P ({(r, b, r)}) = P ({(b, r, r)}) = 10 3 P ({(r, b, b)}) = P ({(b, r, b)}) = P ({(b, b, r)}) = 10 7 P ({(b, b, b)}) = 10 P ({(r, r, r)}) = 3 10 3 · 10 7 · 10 7 · 10 · 3 10 7 · 10 7 · 10 7 · 10 · = = = = 27 , 1000 63 , 1000 147 , 1000 343 . 1000 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 15 Es gilt 27 63 147 343 +3· +3· + = 1, 1000 1000 1000 1000 also ist nach Satz 4 das Wahrscheinlichkeitsmass P : Σ → [0, 1] eindeutig durch diese Werte auf den Elementarereignissen festgelegt. Betrachten wir jetzt z. B. das Ereignis A := {(r, r, b), (r, b, r), (b, r, r)} (“genau zwei rote Kugeln gezogen”), so ist die Wahrscheinlichkeit dafür, dass das Ereignis A eintritt, gemäss Satz 4 gegeben durch P (A) = = = P ({(r, r, b), (r, b, r), (b, r, r)}) P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)}) 63 63 63 189 + + = 19 %. 1000 1000 1000 1000 Wir definieren die Funktion X : Ω → R durch X(ω) = “Anzahl der roten Kugeln in ω”, ω ∈ Ω. Gemäss Def. 3 ist X eine diskrete reelle Zufallsvariable, und es gilt z. B. X((r, r, r)) = 3, X((b, b, b)) = 0, X((b, r, r)) = 2. Das Bild der Zufallsvariable X ist Ω = im(X) = {0, 1, 2, 3}. 2. Ein fairer Würfel werde fünfmal geworfen. Die Ergebnismenge Ω = {1, 2, 3, 4, 5, 6}5 besteht also aus V ∗ (6; 5) = 65 = 7776 geordneten 5-Tupeln (Variation mit Wiederholung), z. B. ω := (2, 1, 4, 5, 5) ∈ Ω. Die Zufallsvariable X : Ω → R sei jetzt definiert als X := “Anzahl der Würfe mit Augenzahl 1”, also z. B. X ((3, 4, 1, 1, 6)) = 2, X ((1, 1, 3, 4, 1)) = 3, X ((3, 3, 5, 2, 4)) = 0. Das Bild der Zufallsvariable X ist gegeben durch Ω = im(X) = {0, 1, 2, 3, 4, 5}. 3. Zwei faire Würfel werden gleichzeitig geworfen. Die Ergebnismenge Ω = 2 {1, 2, 3, 4, 5, 6} besteht also aus |Ω| = V ∗ (6; 2) = 62 = 36 geordneten Paaren. Die Zufallsvariable X : Ω → R sei jetzt definiert als X := “Augensumme der beiden Würfel”, also z. B. X ((1, 1)) = 2, X ((3, 6)) = 9, X ((4, 5)) = 9, X ((6, 6)) = 12. Das Bild der Zufallsvariable X ist Ω = im(X) = {2, 3, 4, . . . , 12}. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 16 Anstatt die Ergebnisse ω ∈ Ω des ursprünglichen Zufallsexperiments direkt zu betrachten, können wir jetzt auch die Werte der Zufallsvariablen X, x ∈ Ω , als Ergebnisse eines neuen Zufallsexperiments auffassen. Weil die ursprüngliche Ergebnismenge Ω abzählbar ist, so ist auch die neue Ergebnismenge Ω abzählbar, und wir können daher das neue Ereignisfeld als Σ := P(Ω ) definieren. Damit erhalten wir den messbaren Raum (Ω , Σ ). Schliesslich definieren wir das durch X induzierte Wahrscheinlichkeitsmass PX : Σ → [0, 1] auf (Ω , Σ ) für ein beliebiges A ∈ Σ wie folgt: PX (A) := P ({ω ∈ Ω | X(ω) ∈ A}) = P X −1 (A) . (2) Dabei bezeichnet X −1 (A) ∈ Σ das Urbild von A ∈ Σ unter X. Gemäss Satz 4 ist PX bereits durch seine Werte auf den Elementarereignissen {x} ∈ Σ eindeutig festgelegt. Ergebnismenge (abzählbar!) Ereignisfeld Elementarereignisse Wahrscheinlichkeitsmass Wahrscheinlichkeitsraum ursprüngliches Zufallsexperiment Ω Σ = P(Ω) {ω} ∈ Σ, ω ∈ Ω P : Σ → [0, 1] (Ω, Σ, P ) neues Zufallsexperiment Ω = im(X) ⊆ R Σ = P(Ω ) {x} ∈ Σ , x ∈ Ω PX : Σ → [0, 1] (Ω , Σ , PX ) Im Wahrscheinlichkeitsraum (Ω , Σ , PX ) sind viele Rechnungen einfacher als im Wahrscheinlichkeitsraum (Ω, Σ, P ), weil im neuen Wahrscheinlichkeitsraum jedes Ereignis eine Teilmenge der reellen Zahlen ist (A ∈ Σ ⇒ A ⊆ R). Beispiele: Wir beziehen uns hier auf die vorherigen Beispiele 1.–3. 1. Das Bild von X ist Ω = im(X) = {0, 1, 2, 3}, also müssen wir die Werte von PX für die Elementarereignisse {0}, {1}, {2}, {3} ∈ Σ = P(Ω ) berechnen. Wir bestimmen zuerst die Urbilder dieser Elementarereignisse: X −1 ({0}) = {ω ∈ Ω | X(ω) = 0} = {(b, b, b)} ∈ Σ = P(Ω), X −1 ({1}) = {ω ∈ Ω | X(ω) = 1} = {(r, b, b), (b, r, b), (b, b, r)} ∈ Σ, X −1 ({2}) = {ω ∈ Ω | X(ω) = 2} = {(r, r, b), (r, b, r), (b, r, r)} ∈ Σ, X −1 ({3}) = {ω ∈ Ω | X(ω) = 3} = {(r, r, r)} ∈ Σ. Jetzt berechnen wir die Werte von PX für die Elementarereignisse in Σ mit (2) und Satz 4, sowie mit Hilfe der vorher berechneten Werte von P für die Elementarereignisse in Σ: 343 34 %, PX ({0}) = P X −1 ({0}) = P ({(b, b, b)}) = 1000 −1 PX ({1}) = P X ({1}) = P ({(r, b, b), (b, r, b), (b, b, r)}) = P ({(r, b, b)}) + P ({(b, r, b)}) + P ({(b, b, r)}) 441 147 + 147 + 147 = 44 %, = 1000 1000 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 17 PX ({2}) = P X −1 ({2}) = P ({(r, r, b), (r, b, r), (b, r, r)}) = P ({(r, r, b)}) + P ({(r, b, r)}) + P ({(b, r, r)}) 189 63 + 63 + 63 = 19 %, = 1000 1000 27 PX ({3}) = P X −1 ({3}) = P ({(r, r, r)}) = = 2.7 %. 1000 Das Wahrscheinlichkeitsmass PX auf (Ω , Σ ) lässt sich mit einem Stabdiagramm darstellen (MATLAB-Befehl stem): 0.45 0.4 0.35 0.25 X P ({x}) 0.3 0.2 0.15 0.1 0.05 0 0 1 2 3 x Mit Satz 4 können wir jetzt auch Wahrscheinlichkeiten von weiteren Ereignissen berechnen, z. B. PX (“höchstens 2 rote Kugeln”) = PX ({0, 1, 2}) PX ({0}) + PX ({1}) + PX ({2}) 973 343 + 441 + 189 = 97 %, = 1000 1000 PX (“mindestens 2 rote Kugeln”) = PX ({2, 3}) = PX ({2}) + PX ({3}) 189 + 27 27 = = 22 %. 1000 125 Für diese Berechnungen wird das ursprüngliche Wahrscheinlichkeitsmass P nicht mehr benötigt. = 2. Bei einem fairen Würfel hat jedes Elementarereignis dieselbe Wahrscheinlichkeit 1 1 1 = 5 = 0.013 %, ω ∈ Ω = {1, 2, 3, 4, 5, 6}5. P ({ω}) = |Ω| 6 7776 Es handelt sich hier also um ein Laplace-Experiment (Kap. 1.1). Die Werte des Wahrscheinlichkeitsmasses PX sind daher gegeben durch −1 X −1 (A) (2) , A ∈ Σ = P(Ω ). PX (A) = P X (A) = |Ω| 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 18 Wir müssen daher nur die Mächtigkeit der Urbilder bestimmen und nicht die Urbilder selbst. Dazu verwenden wir die abzählende Kombinatorik (MAE3, Kap. 10.1). Gemäss Satz 4 ist PX eindeutig festgelegt durch seine Werte auf den Elementarereignissen {0}, {1}, . . . , {5} ∈ Σ . Wir berechnen die Mächtigkeiten der Urbilder dieser Elementarereignisse: −1 X ({0}) = |{ω ∈ Ω | X(ω) = 0}| = 55 = 3125, −1 X ({1}) = |{ω ∈ Ω | X(ω) = 1}| = 5 54 = 3125, 1 −1 X ({2}) = |{ω ∈ Ω | X(ω) = 2}| = 5 53 = 1250, 2 −1 X ({3}) = |{ω ∈ Ω | X(ω) = 3}| = 5 52 = 250, 3 −1 X ({4}) = |{ω ∈ Ω | X(ω) = 4}| = 5 51 = 25, 4 −1 X ({5}) = |{ω ∈ Ω | X(ω) = 5}| = 5 50 = 1. 5 Damit erhalten wir PX ({xi }) = mit 6 −1 X ({xi }) |Ω| , xi = 0, 1, 2, 3, 4, 5, PX ({xi }) = 1. Wir stellen das Wahrscheinlichkeitsmass PX in i=1 Tabellenform sowie als Stabdiagramm dar: i xi PX ({xi }) in % (gerundet) 1 0 3125 7776 40 2 1 3 2 3125 7776 625 3888 40 16 4 3 5 4 125 3888 25 7776 3.2 0.32 6 5 1 7776 0.013 0.45 0.4 0.35 X P ({x}) 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 x 4 5 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 19 3. Bei zwei fairen Würfeln betrachten wir wieder ein Laplace-Experiment, −1 d. h. PX (A) = P X −1 (A) = |X 36(A)| , A ∈ Σ = P(Ω ). Wir bestimmen die Urbilder der Elementarereignisse in Σ : X −1 ({2}) = X −1 ({3}) = {(1, 1)} , {(1, 2), (2, 1)} , X −1 ({4}) = X −1 ({5}) = {(1, 3), (2, 2), (3, 1)} , {(1, 4), (2, 3), (3, 2), (4, 1)} , X −1 ({6}) = X −1 ({7}) = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} , {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} , X −1 ({8}) = X −1 ({9}) = {(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)} , {(3, 6), (4, 5), (5, 4), (6, 3)} , X −1 ({10}) = X −1 ({11}) = {(4, 6), (5, 5), (6, 4)} , {(5, 6), (6, 5)} , X −1 ({12}) = {(6, 6)} . Damit erhalten wir das folgende Wahrscheinlichkeitsmass PX auf (Ω , Σ ): i 1 xi 2 1 PX ({xi }) 36 in % (gerundet) 2.8 Es gilt 11 2 3 3 4 1 18 4 5 1 12 1 9 5.6 8.3 11 5 6 6 7 14 17 5 36 1 6 7 8 8 9 14 11 8.3 5.6 2.8 5 36 1 9 9 10 10 11 1 12 1 18 11 12 1 36 PX ({xi }) = 1. Das Stabdiagramm für PX sieht folgendermas- i=1 sen aus: 0.18 0.16 0.14 X P ({x}) 0.12 0.1 0.08 0.06 0.04 0.02 0 2 3 4 5 6 7 x 8 9 10 11 12 Definition 4 (Wahrscheinlichkeits- und Verteilungsfunktionen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum mit abzählbarer Ergebnismenge Ω und Ereignisfeld 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 20 Σ = P(Ω). Sei X : Ω → R eine diskrete reelle Zufallsvariable, und sei Ω := im(X) ⊆ R das Bild von X (abzählbare Teilmenge der reellen Zahlen). Die Verteilung der Zufallsvariablen X kann dargestellt werden • durch die Wahrscheinlichkeitsfunktion (Zähldichte) fX : Ω → [0, 1], fX (x) := PX ({x}) = P ({ω ∈ Ω | X(ω) = x}) = “P (X = x)”, x ∈ Ω ⊆ R, oder • durch die (kumulative) Verteilungsfunktion FX : R → [0, 1], fX (xi ) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”, FX (x) := xi ∈Ω xi ≤x x ∈ R. Bemerkungen: • Die Wahrscheinlichkeitsfunktion (Zähldichte) fX haben wir in den vorherigen Beispielen mittels Stabdiagrammen dargestellt. Sie erfüllt fX (xi ) = xi ∈Ω P ({ω ∈ Ω | X(ω) = xi }) Ω =im(X) = P (Ω) = 1. xi ∈Ω • Die Zähldichte fX ist gemäss Def 4 nur auf Ω ⊆ R definiert, kann aber auf ganz R fortgesetzt werden. Für x ∈ R \ Ω gilt nämlich P ({ω ∈ Ω | X(ω) = x}) x ∈ im(X) = P (∅) MAE3, Satz 8, 2. = 0, also kann man für x ∈ R \ Ω einfach fX (x) := 0 setzen. • Mit Hilfe der Wahrscheinlichkeitsfunktion fX können wir die Wahrscheinlichkeit von Ereignissen A ∈ Σ berechnen durch Satz 4 PX (A) = PX {xi } = PX ({xi }) = fX (xi ). xi ∈A xi ∈A xi ∈A • Oft schreibt man abgekürzt (und mathematisch nicht korrekt ) – “P (X = x)” für P ({ω ∈ Ω | X(ω) = x}) = PX ({x}), – “P (X ≤ x)” für P ({ω ∈ Ω | X(ω) ≤ x}) = PX ((−∞, x]), – oder allgemein “P (X ∈ A)” für P ({ω ∈ Ω | X(ω) ∈ A}) = PX (A), A ∈ Σ . • Die englischsprachigen Bezeichnungen und Abkürzungen sind 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 21 – probability mass function (pmf ) für die Wahrscheinlichkeitsfunktion (Zähldichte) fX , – cumulative distribution function (cdf ) für die (kumulative) Verteilungsfunktion FX . In den folgenden Grafiken stellen wir die Wahrscheinlichkeitsfunktion (Zähldichte) fX und die (kumulative) Verteilungsfunktion FX für die vorangehenden Beispiele dar: Beispiel 1 1 0.4 0.35 0.8 0.25 0.6 X F (x) fX(xi) 0.3 0.2 0.4 0.15 0.2 0.1 0.05 0 0 0 1 2 3 xi (Anzahl gezogene rote Kugeln) 0 1 2 3 x Beispiel 2 1 0.4 0.35 0.8 0.25 0.6 X F (x) fX(xi) 0.3 0.2 0.4 0.15 0.2 0.1 0.05 0 0 0 1 2 3 4 5 x (Anzahl der Wuerfe mit Augenzahl 1) i 0 1 2 3 4 8 10 5 x Beispiel 3 1 0.16 0.14 0.8 0.1 0.6 X F (x) fX(xi) 0.12 0.08 0.4 0.06 0.2 0.04 0.02 0 0 2 3 4 5 6 7 8 9 10 11 12 xi (Augensumme der beiden Wuerfel) 2 4 6 12 x Offensichtlich hat die (kumulative) Verteilungsfunktion FX (abzählbar viele) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 22 Sprungstellen bei x ∈ Ω mit Sprunghöhen fX (x). Weitere Eigenschaften von FX sind im folgenden Satz zusammengefasst: Satz 5 (Eigenschaften der Verteilungsfunktion) Sei FX die Verteilungsfunktion einer diskreten reellen Zufallsvariablen X. Dann gelten 1. FX ist monoton wachsend, lim FX (x) = FX (x0 ), ∀ x0 ∈ R, 2. FX ist rechtsstetig: x→x 0 x>x0 3. lim FX (x) = 0 und lim FX (x) = 1. x→−∞ x→∞ Wir leiten eine für die Praxis wichtige Rechenregel her: Seien a, b ∈ R, a < b. Dann gilt Def. 4 FX (b) − FX (a) = fX (xi ) − fX (xi ) = fX (xi ) xi ∈Ω xi ≤b Def. 4 = xi ∈Ω xi ≤a (2) = Satz 4 PX ({xi }) = PX {xi } xi ∈Ω a<xi ≤b = xi ∈Ω a<xi ≤b xi ∈Ω a<xi ≤b PX ({xi ∈ Ω | a < xi ≤ b}) P ({ω ∈ Ω | a < X(ω) ≤ b}) . Also ist die Wahrscheinlichkeit dafür, dass der Wert der Zufallsvariablen X im Intervall (a, b] liegt, gegeben durch die Differenz FX (b) − FX (a): PX ((a, b]) = P ({ω ∈ Ω | a < X(ω) ≤ b}) = FX (b) − FX (a). (3) Mit Hilfe von Satz 5, 3., kann in (3) der Grenzübergang b → ∞ gemacht werden: “P (X > a)” = PX ((a, ∞)) = = = = Satz 5, 3. = Def. 4 = = P ({ω ∈ Ω | a < X(ω) < ∞}) lim P ({ω ∈ Ω | a < X(ω) ≤ b}) b→∞ lim (FX (b) − FX (a)) b→∞ lim FX (b) − FX (a) b→∞ 1 − FX (a) 1 − P ({ω ∈ Ω | X(ω) ≤ a}) 1 − PX ((−∞, a]) = 1 − “P (X ≤ a)” Dies ist in Übereinstimmung mit der Gegenwahrscheinlichkeit (MAE3, Satz 8, 1.), denn es gilt (a, ∞) = (−∞, a]c . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.3.2 23 Diskrete Verteilungen In der folgenden Tabelle listen wir einige wichtige Verteilungen von diskreten reellen Zufallsvariablen (kurz: “diskrete Verteilungen”) auf: Name(n) Bezeichnung(en) (diskrete) Gleichverteilung UT Bernoulli-Verteilung (J. Bernoulli, 1655–1705) B(1, p), Bernoulli(p) Binomialverteilung B(n, p), Bin(n, p) hypergeometrische Verteilung Zähldichte fX Definitionsbereich 1 fX (xi ) = n xi ∈ T (“Träger”) p, k=1 fX (k) = 1 − p, k = 0 k∈ {0, 1} n k fX (k) = p (1 − p)n−k k k ∈ {0, 1, 2, . . . , n} M N −M fX (k) = k Nn−k Parameter T = {x1 , . . . , xn } ⊆ R n∈N p ∈ [0, 1] p ∈ [0, 1] n∈N M, N ∈ N, M ≤ N n H(N, M, n), Hyp(N, M, n) negative Binomialverteilung Pascal-Verteilung (B. Pascal, 1623–1662) N B(r, p), NB(r, p) geometrische Verteilung G(p), N B(1, p) Poisson-Verteilung (S. D. Poisson, 1781–1840) P(λ), Poisson(λ) k ∈ {0, 1, . . . , min{n, M }} n ∈ N, n ≤ N k+r−1 r fX (k) = p (1 − p)k k p ∈ (0, 1) k ∈ N0 r∈N fX (k) = p(1 − p)k p ∈ (0, 1) k ∈ N0 fX (k) = λk −λ e k! λ ∈ R, λ > 0 k ∈ N0 Bemerkungen: • Wenn eine diskrete reelle Zufallsvariable X z. B. binomialverteilt ist mit Parametern n ∈ N und p ∈ [0, 1], so schreiben wir X ∼ B(n, p). Das Symbol ∼ steht hier für “ist verteilt wie”. • Kann eine Zufallsvariable X nur die Werte 0 oder 1 annehmen, so spricht man von einem Bernoulli-Experiment. Bei einem solchen werden der Wert 0 als “Misserfolg” und der Wert 1 als “Erfolg” interpretiert. Die Erfolgswahrscheinlichkeit beträgt p ∈ [0, 1]. Die Zufallsvariable X ist dann Bernoulliverteilt, X ∼ Bernoulli(p). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 24 • Die Binomialverteilung B(n, p) beschreibt die Anzahl der Erfolge in einer Serie von n gleichartigen und unabhängigen Bernoulli-Experimenten. Dabei bezeichnet p ∈ [0, 1] die Erfolgswahrscheinlichkeit jedes einzelnen Versuches. • Die Bernoulli-Verteilung ist also ein Spezialfall der Binomialverteilung für n = 1. Deswegen wird auch die Bezeichnung B(1, p) für die BernoulliVerteilung verwendet. • Die hypergeometrische Verteilung H(N, M, n) gibt Auskunft darüber, mit welcher Wahrscheinlichkeit in einer Stichprobe vom Umfang n eine bestimmte Anzahl von Elementen vorkommt, die eine gewünschte Eigenschaft haben. Dabei haben in der Grundgesamtheit vom Umfang N genau M Elemente diese Eigenschaft (und N − M Elemente nicht). • Die negative Binomialverteilung N B(r, p) beschreibt für eine Serie von gleichartigen und unabhängigen Bernoulli-Experimenten die Anzahl der Misserfolge, bis r Erfolge erzielt wurden. Dabei bezeichnet p ∈ [0, 1] die Erfolgswahrscheinlichkeit jedes einzelnen Versuches. • Die geometrische Verteilung ist ein Spezialfall der negativen Binomialverteilung für r = 1 (Anzahl der Misserfolge bis zum ersten Erfolg). Deswegen auch die Bezeichnung N B(1, p) für die geometrische Verteilung. • Wegen der Normierungsbedingung für die Zähldichte der negativen Binomialverteilung gilt ∞ ∞ k+r−1 r k+r−1 k q:=1−p k −r p (1 − p) = 1 =⇒ (1 − q) = q . k k k=0 k=0 Dies ist eine Verallgmeinerung (nach Newton) der binomischen Formel für negative Exponenten (daher der Name negative Binomialverteilung). Für r = 1 erhält man die geometrische Reihe als Spezialfall. • Die Poisson-Verteilung wird oft verwendet zur Beschreibung von diskreten Ereignissen, zwischen denen ein Zeitintervall mit der mittleren Länge t > 0 liegt. Für eine Poisson-verteilte Zufallsvariable X ∼ P(λ), λ := Tt , ist fX (k) die Wahrscheinlichkeit dafür, dass in einem gegebenen Zeitintervall der Länge T > 0 genau k dieser Ereignisse auftreten. Beispiele: 1. (Gleich- und Bernoulli-Verteilung) Wir betrachten das Zufallsexperiment Einmaliger Wurf mit einem fairen Würfel, sowie die Zufallsvariablen X := Y := “Augenzahl”, 1, Augenzahl ≥ 3 (“Erfolg”) . 0, Augenzahl < 3 (“Misserfolg”) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 25 Die Zufallsvariable X ist gleichverteilt, X ∼ U{1,2,3,4,5,6} , und die Zufallsvariable Y ist Bernoulli-verteilt, Y ∼ B 1, 23 : 1 fX (xi ) = , 6 xi ∈ {1, 2, 3, 4, 5, 6}, fY (k) = 2 3, 1 3, k=1 . k=0 (4) 2. (Binomialverteilung) a. Wir betrachten das Zufallsexperiment Ziehung (mit Zurücklegen) von 3 Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln, sowie die Zufallsvariable X := “Anzahl gezogene rote Kugeln”. Interpretieren wir eine gezogene rote Kugel als “Erfolg” (Wahrscheinlichkeit in jeder Ziehung 3/10), so gilt gemäss den Erläuterungen von 3 oben: X ∼ B 3, 10 (Serie von 3 gleichartigen und unabhängigen Bernoulli-Experimenten mit Erfolgswahrscheinlichkeit 3/10): fX (k) = k 3−k 7 3 3 , 10 10 k k fX (k) 0 343 1000 1 441 1000 2 189 1000 k = 0, 1, 2, 3, 3 27 1000 b. Wir betrachten das Zufallsexperiment 5-maliger Wurf eines fairen Würfels, sowie die Zufallsvariable X := “Anzahl der Würfe mit Augenzahl 1”. Interpretieren wir eine gewürfelte 1 als “Erfolg” (Wahrscheinlichkeit in jedem Wurf 1/6), so gilt gemäss den Erläuterungen von oben: X ∼ B 5, 16 , also k 5−k 5 5 1 , fX (k) = 6 6 k k fX (k) 0 3125 7776 1 3125 7776 2 625 3888 k = 0, 1, 2, 3, 4, 5, 3 125 3888 4 25 7776 (5) 5 1 7776 c. Die Zufallsvariable aus Serie 3, Aufg. 1, hat die Verteilung B 6, 35 . Die Zufallsvariable aus Serie 3, Aufg. 2, hat die Verteilung B 3, 12 . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 26 3. (hypergeometrische Verteilung) a. Wir betrachten das Zufallsexperiment Ziehung (ohne Zurücklegen) von 4 Kugeln aus einer Urne mit 3 roten und 17 blauen Kugeln, sowie die Zufallsvariable X := “Anzahl rote Kugeln in der Stichprobe” Die Zufallsvariable X ist hypergeometrisch verteilt, X ∼ H(20, 3, 4): 3 17 fX (k) = k 204−k , k = 0, 1, 2, 3, 4 k fX (k) 0 28 57 1 8 19 2 8 95 3 1 285 Die Grundgesamtheit besteht hier aus N = 20 Elementen (Kugeln); davon haben M = 3 die gewünschte Eigenschaft (“rot”). Der Stichprobenumfang ist n = 4. b. Die Zufallsvariable aus Serie 3, Aufg. 3, hat die Verteilung H(10, 2, 3). 4. (negative Binomialverteilung) Wir betrachten das Zufallsexperiment Ziehung (mit Zurücklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln, sowie die Zufallsvariable X := “Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden” = “Anzahl Misserfolge, bis 3 Erfolge erzielt wurden”. Wenn die Zufallsvariable X = k ∈ N0 erfüllt, dann müssen • die (k + 3)-te gezogene Kugel rot sein (“Erfolg”) und • von den davor gezogenen k + 2 Kugeln genau k blau sein (“Misserfolge”). Ihre Position ist dabei beliebig. Die Wahrscheinlichkeit, in einer einzelnen Ziehung eine rote Kugel zu zie- 3 hen (Erfolgswahrscheinlichkeit) beträgt 10 . Es gibt C(k + 2; k) = k+2 k Möglichkeiten, die k blauen Kugeln auf die k + 2 Ziehungen zu verteilen (Kombinationen ohne Wiederholung). Damit ist die Wahrscheinlichkeit PX ({k}) gegeben durch 3 k 7 k+2 3 . fX (k) = 10 10 k Dies gilt für jedes k∈ N0. Also ist die Zufallsvariable X negativ binomi3 alverteilt, X ∼ N B 3, 10 . 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 27 Ziehung (mit Zuruecklegen) von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln 0.1 0.09 0.08 0.07 fX(x) 0.06 0.05 0.04 0.03 0.02 0.01 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 x (Anzahl gezogene blaue Kugeln, bis 3 rote Kugeln gezogen wurden) 5. (geometrische Verteilung) a. Im Zufallsexperiment aus Beispiel 4 ist die Anzahl der gezogenen blauen Kugeln roten Kugel geometrisch ver 3bis zur ersten 3gezogenen teilt, X ∼ G 10 = N B 1, 10 . b. Die Zufallsvariable aus Serie 3, Aufg. 4, hat die Verteilung G 45 . 0.8 X ~ NB(1,3/10) X ~ NB(1,4/5) f X(x) 0.6 0.4 0.2 0 0 5 10 15 20 x (Anzahl Misserfolge bis zum 1. Erfolg) 6. (Poisson-Verteilung) Für ein Kaufhaus wurde durch Zählung ermittelt, dass es an einem Samstag von ca. 10 Kunden pro Minute betreten wird. Das Zeitintervall zwischen dem Eintreffen von zwei Kunden hat daher im Mittel die Länge t = 6 s. Die Anzahl der Kunden, die in einem Zeitraum von T = 60 s das Kaufhaus betreten, wird beschrieben durch eine Poissonverteilte Zufallsvariable X ∼ P(λ) mit λ = Tt = 60 6 = 10. im Mittel trifft alle 6 Sekunden ein Kunde ein 0.14 0.12 fX(x) 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 20 25 30 x (Anzahl eintreffende Kunden im Zeitraum von 1 Minute) 35 40 Wie erwartet ist die Wahrscheinlichkeit maximal für k 10. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.3.3 28 Überabzählbar unendliche Ergebnismengen In den nächsten Kapiteln wollen wir stetige Zufallsvariablen betrachten. Sie treten im Zusammenhang mit Zufallsexperimenten auf, deren Ergebnismenge Ω überabzählbar unendlich ist. Beispiele: 1. Wir betrachten das Zufallsexperiment des Werfens eines Pfeils auf eine Dartscheibe. Der Auftreffpunkt der Dartspitze liegt irgendwo in einer Kreisscheibe, also haben wir hier eine überabzählbar unendliche Ergebnismenge. 2. Die Wartezeit eines Kunden vor dem Postschalter liegt im Intervall [0, T ], wobei T > 0 die Öffnungsdauer des Schalters bezeichnet. Auch hier ist die Ergebnismenge überabzählbar unendlich. Im Fall von überabzählbar unendlichen Ergebnismengen gibt es einige technische Schwierigkeiten bei der Konstruktion eines Wahrscheinlichkeitsraums (Ω, Σ, P ). Diese Erkenntnis geht auf Arbeiten der drei polnischen Mathematiker S. Banach (1892–1945), K. Kuratowski (1896–1980) und A. Tarski (1901–1983) zurück. Der Inhalt dieser Arbeiten übersteigt den Stoff dieser Vorlesung, so dass wir nicht weiter darauf eingehen. Eine wichtige Konsequenz dieser Arbeiten ist, dass wir im Fall von überabzählbar unendlichen Ergebnismengen Ω nicht mehr das Ereignisfeld (Menge aller Ereignisse) Σ := P(Ω) verwenden können (wie im Satz 4), weil sich darauf kein Wahrscheinlichkeitsmass P : Σ → [0, 1] definieren lässt – wir müssen uns also mit einem Ereignisfeld Σ ⊆ P(Ω) mit Σ = P(Ω) begnügen. Das bedeutet, dass nicht mehr jede Teilmenge von Ω auch ein Ereignis ist (es gilt A ∈ Σ ⇒ A ⊆ Ω, aber i. A. nicht die Umkehrung). Das Ereignisfeld Σ muss eine sog. σ-Algebra sein: Definition 5 (σ-Algebra) Sei Ω eine Menge. Ein Mengensystem Σ ⊆ P(Ω) heisst eine σ-Algebra mit Ω als Grundmenge, falls es die folgenden Eigenschaften erfüllt: 1. Ω ∈ Σ, 2. A ∈ Σ ⇒ Ac ∈ Σ, 3. A1 , A2 , · · · ∈ Σ ⇒ An := A1 ∪ A2 ∪ · · · ∈ Σ, d. h. die Vereinigung von n∈N abzählbar vielen Mengen aus Σ liegt wieder in Σ. Bemerkungen: • Die Potenzmenge von Ω, P(Ω), erfüllt selbstverständlich die Eigenschaften der Def. 5. Es gibt aber auch viel kleinere Mengensysteme Σ P(Ω), die σ-Algebren mit Ω als Grundmenge sind. • Wie in MAE3, Def. 26, nennen wir ein Paar (Ω, Σ), wobei Σ eine σ-Algebra mit Ω als Grundmenge ist, einen messbaren Raum. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 29 Diejenigen Teilmengen von Ω, die auch in Σ liegen (also Ereignisse sind) bezeichnen wir als messbare Mengen. Ein Wahrscheinlichkeitsmass P : Σ → [0, 1] ist nämlich genau für diese Mengen definiert. Weil es für überabzählbar unendliche Ergebnismengen Ω auch überabzählbar unendlich viele Elementarereignisse {ω} ∈ Σ, ω ∈ Ω, gibt, können wir P nicht mehr (wie im Satz 4) durch seine Werte auf den Elementarereignissen festlegen. Hingegen fordern wir, dass P die folgenden Kolmogorow-Axiome erfüllt: Definition 6 (Wahrscheinlichkeitsmass; nach A. N. Kolmogorow, 1903–1987) Sei (Ω, Σ) ein messbarer Raum. Eine Funktion P : Σ → [0, 1] heisst ein Wahrscheinlichkeitsmass auf (Ω, Σ), falls es die folgenden Kolmogorow-Axiome erfüllt: 1. Normierung: P (Ω) = 1, 2. σ-Additivität: Für sich gegenseitig ausschliessende Ereignisse A1 , A2 , · · · ∈ Σ, Am ∩ An = ∅, m = n, gilt P An = P (An ). n∈N n∈N In diesem Fall heisst das Tripel (Ω, Σ, P ) ein Wahrscheinlichkeitsraum. Bemerkungen: • Weil Σ eine σ-Algebra mit Ω als Grundmenge ist, gilt wegen Def. 5, 3.: An ∈ Σ. Jede abzählbare Vereinigung von Ereignissen ist also ein n∈N Ereignis und damit messbar. • Wenn wir für eine abzählbare Ergebnismenge Ω gemäss Satz 4 einen Wahrscheinlichkeitsraum (Ω, Σ, P ) konstruieren, dann ist das Ereignisfeld Σ = P(Ω) eine σ-Algebra (Def. 5), und das Wahrscheinlichkeitsmass P : Σ → [0, 1] erfüllt die Kolmogorow-Axiome (Def. 6). Mit den Definitionen 5 und 6 können Wahrscheinlichkeitsräume aber auch für überabzählbar unendliche Ergebnismengen Ω definiert werden. 1.3.4 Stetige Zufallsvariablen Mit den stetigen Zufallsvariablen wollen wir im Prinzip dasselbe erreichen wie mit den diskreten Zufallsvariablen (Kap. 1.3.1), nämlich von einer komplizierten Ergebnismenge Ω in die reellen Zahlen Ω ⊆ R zu gelangen, wo wir dann Verteilungen bequem mit Hilfe von Funktionen von reellen Variablen angeben können. Die im letzten Kapitel 1.3.3 angesprochenen technischen Schwierigkeiten mit überabzählbar unendlichen Ergebnismengen treten auch hier wieder auf. Wenn nämlich X : Ω → R eine Funktion ist und Ω überabzählbar unendlich, dann ist i. A. auch im(X) ⊆ R eine überabzählbar unendliche Menge. In der 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 30 Regel wählen wir Ω := R ⊇ im(X), und als Ereignisfeld die sog. Borelsche σ-Algebra auf R (nach E. Borel, 1871–1956): Definition 7 Die Borelsche σ-Algebra auf R, B(R), ist die kleinste σ-Algebra mit R als Grundmenge, die alle offenen Intervalle enthält. Bemerkungen: • Die Teilmengen A ⊆ R mit A ∈ B(R) heissen auch Borel-Mengen. • Sehr viele Teilmengen von R sind Borel-Mengen, z. B. alle offenen, alle abgeschlossenen und alle halboffenen Intervalle, sowie abzählbare Vereinigungen und Durchschnitte von diesen. Für uns wird es später wichtig sein, dass alle Intervalle der Form (−∞, x], x ∈ R, Borel-Mengen sind. Dies deshalb, weil c (−∞, x] = (x, x + n) ∈ B(R), n∈N denn auf der rechten Seite steht das Komplement einer abzählbaren Vereinigung von offenen Intervallen (x, x + n) ∈ B(R), n ∈ N. Man kann ausserdem zeigen: wenn eine Aussage für alle Intervalle (−∞, x], x ∈ R, gilt, dann gilt sie sogar für alle Borel-Mengen A ∈ B(R). • Es gilt B(R) P(R), d. h. es gibt Teilmengen A ⊆ R (A ∈ P(R)), die keine Borel-Mengen sind (A ∈ B(R)). Sie müssen mühsam konstruiert werden, weshalb wir hier darauf verzichten. Alle Teilmengen von R, die wir im Folgenden betrachten, werden Borel-Mengen sein. • Wenn für den Fall Ω = R nichts über die σ-Algebra gesagt wird, dann nimmt man üblicherweise an, dass Σ = B(R). Wir arbeiten jetzt also auf dem messbaren Raum (R, B(R)), und es geht jetzt noch um die Konstruktion des durch eine Zufallsvariable X induzierten Wahrscheinlichkeitsmasses PX : B(R) → [0, 1]. Dieses wollen wir für jedes A ∈ B(R) wieder als PX (A) := P (X −1 (A)), X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ⊆ Ω, definieren. Hier gibt es aber das Problem, dass zwar X −1 (A) eine Teilmenge von Ω ist, aber eben nicht notwendigerweise messbar, denns es ist ja nicht jede Teilmenge von Ω messbar (Σ P(Ω)). Deshalb kommt jetzt nicht mehr jede Funktion X : Ω → R als Zufallsvariable infrage, sondern nur die sog. messbaren Funktionen: Definition 8 (reelle Zufallsvariable) Eine reelle Zufallsvariable ist eine Funktion X : Ω → R mit ∀x ∈ R : X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ≤ x} ∈ Σ. (6) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 31 Bemerkungen: • Wie oben nach der Def. 7 bereits bemerkt, impliziert die Eigenschaft (6), dass X −1 (A) ∈ Σ, ∀ A ∈ B(R). • Jede diskrete Zufallsvariable nach Def. 3 ist eine reelle Zufallsvariable nach Def. 8. Die Def. 8 ist also eine Verallgemeinerung auf überabzählbar unendliche Ergebnismengen. Für eine reelle Zufallsvariable X : Ω → R können wir jetzt das durch X induzierte Wahrscheinlichkeitsmass PX : B(R) → [0, 1] definieren durch PX (A) := P (X −1 (A)), und wir erhalten den neuen Wahrscheinlichkeitsraum (R, B(R), PX ). Ergebnismenge (überabzählbar unendlich) Ereignisfeld (σ-Algebra der messbaren Teilmengen) Wahrscheinlichkeitsmass Wahrscheinlichkeitsraum ursprüngliches Zufallsexperiment neues Zufallsexperiment Ω Ω ⊇ im(X) Σ P(Ω) B(R) P(R) P : Σ → [0, 1] (Ω, Σ, P ) PX : B(R) → [0, 1] (R, B(R), PX ) Die (kumulative) Verteilungsfunktion FX : R → [0, 1] ist für jede Zufallsvariable X wie in Def. 4 definiert: FX (x) := PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x) . (7) Für sie gilt der Satz 5. Eine Funktion fX analog zur Wahrscheinlichkeitsdichtefunktion aus Def. 4 existiert jedoch nur für sog. stetige reelle Zufallsvariablen: Definition 9 (stetige reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable. X heisst stetig, falls eine integrierbare Funktion fX : R → [0, ∞) existiert, so dass b “P (a ≤ X ≤ b) = PX ( [a, b] ) = P ({ω ∈ Ω | a ≤ X(ω) ≤ b}) = ∈B(R) fX (x) dx, a (8) für alle a, b ∈ R, a ≤ b. Bemerkungen: • Die Funktion fX heisst Wahrscheinlichkeitsdichtefunktion, Dichtefunktion, Wahrscheinlichkeitsdichte, oder nur Dichte. Ihre englische Bezeichnung ist probability density function (pdf ). Sie erfüllt die Normierungsbedingung ∞ fX (x) dx = PX (R) = 1, −∞ wobei auf der linken Seite ein uneigentliches Integral steht (MAE3, Def. 4). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 32 • Die Wahrscheinlichkeit von Elementarereignissen {a} ∈ B(R), a ∈ R, ist für stetige reelle Zufallsvariablen immer Null: a PX ({a}) = P ({ω ∈ Ω | X(ω) = a}) = fX (x) dx = 0. a • Die kumulative Verteilungsfunktion einer stetigen reellen Zufallsvariablen ist gegeben durch die Flächenfunktion b FX (b) = P ({ω ∈ Ω | X(ω) ≤ b}) = fX (x) dx, b ∈ R. (9) −∞ Auf der rechten Seite steht wieder ein uneigentliches Integral. kumulative Verteilungsfunktion Wahrscheinlichkeitsdichtefunktion 1.4 1 1.2 0.8 0.6 X F (x) 0.8 X f (x) 1 0.6 0.4 0.4 0.2 0.2 0 0 −1 −0.5 0 x 0.5 1 −1 −0.5 0 x 0.5 1 Nach dem Hauptsatz der Differenzial- und Integralrechnung ist FX eine Stammfunktion von fX . Es gilt also “P (a ≤ X ≤ b)” = Def. 9 b fX (x) dx = FX (b) − FX (a) = FX (x)|ba . PX ([a, b]) = (10) a • Die kumulative Verteilungsfunktion FX einer stetigen reellen Zufallsvaria blen X ist differenzierbar (FX (x) = fX (x) ∀ x ∈ R), also stetig. Reelle Zufallsvariablen mit einer unstetigen Verteilungsfunktion können also nicht stetig sein. Dies trifft u. a. für die diskreten reellen Zufallsvariablen zu (bei diesen ist FX eine Treppenfunktion), aber es gibt auch reelle Zufallsvariablen, die weder stetig noch diskret sind. Die folgende Tabelle gibt einen Überblick über Gemeinsamkeiten und Unterschieden von diskreten bzw. stetigen reellen Zufallsvariablen: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Zufallsvariable X Ergebnismenge Ω Ereignisfeld Σ Wahrscheinlichkeits(dichte)funktion Normierung diskret reell im(X) ⊆ R (abzählbar) P(im(X)) stetig reell R (überabzählbar unendlich) B(R) P(R) fX : im(X) → [0, 1] fX : R → [0, ∞) ∞ fX (xi ) = 1 xi ∈im(X) Elementarereignis {x} ∈ Σ , x ∈ Ω Intervall “P (a < X ≤ b)” a, b ∈ R, a < b 33 fX (x) dx = 1 −∞ PX ({x}) = fX (x) fX (xi ) PX ({x}) = 0 b fX (x) dx xi ∈im(X) a<xi ≤b a FX (b) − FX (a) Bei den Wahrscheinlichkeiten für Intervalle sind auch die Grenzübergänge a → −∞ und/oder b → ∞ erlaubt, was auf unendliche Reihen bzw. uneigentliche Integrale führt. In Analogie zu MAE3, Def. 27, nennen wir in einem Wahrscheinlichkeitsraum (Ω, Σ, P ) • ein Ereignis A ∈ Σ mit P (A) = 1 ein fast sicheres Ereignis und • ein Ereignis N ∈ Σ mit P (N ) = 0 ein fast unmögliches Ereignis. Bemerkungen: Natürlich ist das sichere Ereignis (Ω ∈ Σ, P (Ω) = 1) ein fast sicheres Ereignis und das unmögliche Ereignis (∅ ∈ Σ, P (∅) = 0) ein fast unmögliches Ereignis. Es gibt jedoch i. A. noch mehr fast sichere bzw. fast unmögliche Ereignisse als diese beiden! Beispiel: Im Wahrscheinlichkeitsraum (R, B(R), PX ) ist jede abzählbare Teilmenge N = {x1 , x2 , . . . } ⊆ R, N ∈ B(R), ein fast unmögliches Ereignis, denn es gilt mit der σ-Additivität des Wahrscheinlichkeitsmasses PX : PX ({xi }) = 0. PX (N ) = PX ({x1 , x2 , . . . }) = i∈N =0 Wir sagen auch, N ⊆ R ist eine Nullmenge in R. Wenn N ∈ B(R) ein fast unmögliches Ereignis ist, so ist N c = R \ N ∈ B(R) ein fast sicheres Ereignis (Gegenwahrscheinlichkeit; MAE3, Satz 8, 1.). 1.3.5 Stetige Verteilungen In der folgenden Tabelle listen wir einige wichtige Verteilungen von stetigen reellen Zufallsvariablen (kurz: “stetige Verteilungen”) auf: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Name Bezeichnung (stetige) Gleichverteilung U(a, b) Exponentialverteilung Exp(λ) Chi-QuadratVerteilung (F. R. Helmert, 1843–1917) χ2n F-Verteilung (R. A. Fisher, 1890–1962) Fm,n Normalverteilung (C. F. Gauss, 1777–1855) N (µ, σ 2 ) t-Verteilung (W. S. Gosset “Student”, 1876–1937) tn CauchyVerteilung (A. L. Cauchy, 1789–1857) Cauchy(t, s) 34 Wahrscheinlichkeitsdichtefunktion fX 1 b−a , fX (x) = a≤x≤b sonst 0, λe−λx , 0, fX (x) = n x x 2 −1 e− 2 n 2 2 Γ( n 2) fX (x) = 0, fX (x) = m n m 2 n2 Γ( m 2 a, b ∈ R a<b x≥0 x<0 λ>0 , x≥0 n∈N x<0 m n Γ( m 2 +2) n 2 )Γ( ) x 2 −1 m n (mx+n) 2 + 2 Parameter , x≥0 0, m, n ∈ N x<0 (x − µ)2 fX (x) = √ exp − 2σ 2 2πσ 2 1 − n+1 2 Γ n+1 x2 2 1 + fX (x) = √ n nπΓ n2 fX (x) = s 1 2 π s + (x − t)2 µ∈R σ2 > 0 n∈N t∈R s>0 In der Chi-Quadrat-, der F- und der t-Verteilung tritt jeweils die GammaFunktion Γ auf, deren Funktionswerte durch uneigentliche Integrale definiert sind: ∞ Γ(x) := tx−1 e−t dt, x > 0. 0 Für x = n ∈ N gilt Γ(n) = (n − 1)! (Beweis durch partielle Integration). Die Funktionswerte Γ(x), x ∈ N, können hingegen zumeist √ nicht in geschlossener √ Form angegeben werden (Ausnahmen sind Γ 12 = π und Γ 32 = 12 π). Dafür werden numerische Näherungen verwendet. Numerische Näherungen müssen oft auch zur Auswertung der kumulativen Verteilungsfunktion FX verwendet werden, da die Flächenfunktion häufig nicht in geschlossener Form angegeben werden kann. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 35 Wahrscheinlichkeitsdichtefunktionen von stetigen Gleichverteilungen 2 U(−3,1) U(−4,−2) U(−4,4) U(1.5,2) U(3,4) fX(x) 1.5 1 0.5 0 −5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von Exponentialverteilungen Wahrscheinlichkeitsdichtefunktionen von Chi−Quadrat−Verteilungen 2 2 2 χ 0.8 χ2 0.6 χ5 0.4 χ3 1 fX(x) 1.5 fX(x) 1 Exp(2) Exp(5) Exp(0.4) Exp(7) Exp(0.2) 1 2 2 2 0.5 0.2 0 −5 0 x χ6 0 −5 5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von F−Verteilungen 1 F(1,1) F(3,1) F(4,1) F(3,2) F(3,5) 0.8 X f (x) 0.6 0.4 0.2 0 −5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von Normalverteilungen 1.6 N(0,1) N(−2,0.25) N(4,4) N(−3,9) N(2,0.0625) 1.4 1.2 t1 0.3 t 3 t 0.8 4 f (x) fX(x) 1 Wahrscheinlichkeitsdichtefunktionen von t−Verteilungen 0.4 X 0.6 0.2 t6 t9 0.4 0.1 0.2 0 −5 0 x 0 −5 5 0 x 5 Wahrscheinlichkeitsdichtefunktionen von Cauchy−Verteilungen 1.4 1.2 fX(x) 1 0.8 Cauchy(0,0.5) Cauchy(−2,3) Cauchy(1,2) Cauchy(3,3) Cauchy(2,0.3) 0.6 0.4 0.2 0 −5 0 x 5 Wir werden später weiter auf diese Verteilungen und auf die Beziehungen zwischen ihnen eingehen. 1.4 Verteilungen von Zufallsvariablen in MATLAB In MATLABs “Statistics Toolbox” (doc stats) sind alle bisher behandelten Verteilungen von Zufallsvariablen (ausser der Cauchy-Verteilung) und noch einige mehr als Funktionen definiert: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Verteilung der Zufallsvariablen X diskret U{1,2,...,n} gleich Bernoulli B(1, p) binomial B(n, p) hyperH(N, M, n) geometrisch negativ N B(r, p) binomial N B(1, p) geometrisch G(p) Poisson P(λ) stetig gleich U(a, b) exponential Exp(λ) Chiχ2n Quadrat F Fm,n 2 normal N (µ, σ ) t tn 36 Auswerten von fX an einer Stelle k bzw. x Auswerten von FX an einer Stelle x unidpdf(k,n) unidcdf(x,n) binopdf(k,1,p) binopdf(k,n,p) binocdf(x,1,p) binocdf(x,n,p) hygepdf(k,N,M,n) hygecdf(x,N,M,n) nbinpdf(k,r,p) nbincdf(x,r,p) nbinpdf(k,1,p) geopdf(k,p) poisspdf(k,lambda) unifpdf(x,a,b) exppdf(x,1/lambda) nbincdf(x,1,p) geocdf(x,p) poisscdf(x,lambda) unifcdf(x,a,b) expcdf(x,1/lambda) chi2pdf(x,n) chi2cdf(x,n) fpdf(x,m,n) normpdf(x,mu,... sqrt(sigmaˆ2)) tpdf(x,n) fcdf(x,m,n) normcdf(x,mu,... sqrt(sigmaˆ2)) tcdf(x,n) In den Funktionsbezeichnungen wird immer das Kürzel der Verteilung zusammen mit pdf (“probability (density) function”, fX ) oder cdf (“cumulative distribution function”, FX ) verwendet. Beispiele: 1. Sei X ∼ B 20, 19 . Wir berechnen • “P (X = 4)” = fX (4) mit binopdf(4,20,1/9) ( 11 %), • “P (X > 5)” = 1− “P (X ≤ 5)” = 1 − FX (5) mit 1 - binocdf(5,20,1/9) ( 1.8 %) • “P (1 < X ≤ 3)” = FX (3) − FX (1) = fX (2) + fX (3) mit binocdf(3,20,1/9) - binocdf(1,20,1/9) oder mit binopdf(2,20,1/9) + binopdf(3,20,1/9) ( 49 %) • PX ({1, 2, . . . , 16}) = 16 fX (k) = FX (16) − FX (0) mit k=1 binocdf(16,20,1/9) - binocdf(0,20,1/9) ( 91 %) Wir zeichnen das Stabdiagramm der Wahrscheinlichkeitsfunktion fX mit den MATLAB-Befehlen x = 0:20; % {0,1,2,...,20} y = binopdf(x,20,1/9); stem(x,y) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 37 Zaehldichte einer B(20,1/9)−verteilten Zufallsvariable 0.3 0.25 X f (x) 0.2 0.15 0.1 0.05 0 0 2 4 6 8 10 x 12 14 16 18 20 2. Sei X ∼ N (0.8, 4.3). Wir berechnen • “P (1 < X ≤ 2)” = FX (2) − FX (1) mit normcdf(2,0.8,sqrt(4.3)) - normcdf(1,0.8,sqrt(4.3)) ( 18 %) • “P (X < 0.8)” = FX (0.8) mit normcdf(0.8,0.8,sqrt(4.3)) (= 50 %) • “P (X > 0.5)” = 1−FX (0.5) mit 1 - normcdf(0.5,0.8,sqrt(4.3)) ( 56 %) Wir zeichnen die Wahrscheinlichkeitsdichtefunktion fX auf dem Intervall [−10, 10] mit den MATLAB-Befehlen x = -10:0.01:10; y = normpdf(x,0.8,sqrt(4.3)); plot(x,y) Wahrscheinlichkeitsdichtefunktion einer N(0.8,4.3)−verteilten Zufallsvariablen 0.2 X f (x) 0.15 0.1 0.05 0 −10 −8 −6 −4 −2 0 0.8 x 2 4 6 8 10 Wir werden später noch weitere Funktionen aus MATLABs “Statistics Toolbox” kennen lernen. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 1.5 1.5.1 38 Transformationen von Zufallsvariablen Lineare Transformationen Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1], FX (x) = PX ((−∞, x]) = P ({ω ∈ Ω | X(ω) ≤ x}) = “P (X ≤ x)”, x ∈ R. Für a, b ∈ R, b > 0, definieren wir die Funktion Y : Ω → R durch ω∈Ω Y (ω) := a + bX(ω), (kurz: Y := a + bX). Wir fragen nun: • Ist Y eine reelle Zufallsvariable? • Wenn ja, was ist ihre kumulative Verteilungsfunktion FY ? Sei y ∈ R. Wir wollen zeigen, dass Y −1 ((−∞, y]) ∈ Σ; in diesem Fall erfüllt Y die Messbarkeitsbedingung aus Def. 8. Durch einfache Umformungen erhalten wir Y −1 ((−∞, y]) = b>0 = {ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | a + bX(ω) ≤ y} y−a y−a = X −1 ∈ Σ, −∞, ω ∈ Ω X(ω) ≤ b b weil y−a b ∈ R und weil X eine reelle Zufallsvariable ist. Dies gilt für jedes y ∈ R, also ist Y eine reelle Zufallsvariable. Für die kumulative Verteilungsfunktion von Y erhalten wir mit derselben Umformung y−a y−a FY (y) = PY ((−∞, y]) = PX = FX , y ∈ R. (11) −∞, b b Umgekehrt können wir auch schreiben: FX (x) = FY (a + bx), x ∈ R (X = Y Y = a + bX y −∞, y−a b 0 a b 1 y−a b (−∞, y] X Y −a b ). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 39 Für diskrete bzw. stetige reelle Zufallsvariablen erhalten wir die Wahrscheinlichkeits(dichte)funktionen yi − a yi − a diskret: fY (yi ) = PY ({yi }) = PX = fX , yi ∈ im(Y ), b b 1 y−a y−a (11) 1 stetig: fY (y) = FY (y) = FX = fX , y ∈ R. b b b b Im Allgemeinen ist die Verteilung der transformierten Zufallsvariablen Y nicht mehr vom gleichen Typ wie jene der Zufallsvariablen X. Beispiele: 1. Sei X ∼ Exp(λ), dann ist die Wahrscheinlichkeitsdichtefunktion der linear transformierten Zufallsvariablen Y gegeben durch 1 y−a y−a 1 λe−λ b , y−a b b ≥0 = fY (y) = fX y−a b b 0, b <0 λ λ λ e b a b e− b y , y ≥ a , y ∈ R. = 0, y<a Für a = 0 gilt also Y ∼ Exp λb , aber für a = 0 ist fY keine Wahrscheinlichkeitsdichtefunktion einer exponential verteilten Zufallsvariablen. 2. Sei X ∼ N (µ, σ 2 ). Dann ist die Wahrscheinlichkeitsdichtefunktion der linear transformierten Zufallsvariablen Y gegeben durch 2 y−a 1 1 y−a 1 b −µ √ fY (y) = fX = exp − b b b 2πσ 2 2σ 2 1 (y − (a + bµ))2 , = √ exp − 2b2 σ 2 2πb2 σ 2 für y ∈ R. Es gilt also Y ∼ N (a + bµ, b2 σ 2 ). 1.5.2 Anwendung: Transformation auf die Standardnormalverteilung Normalverteilte Zufallsvariablen bleiben also unter linearen Transformationen normalverteilt. Aus dem Beispiel 2 von oben folgern wir (a = − σµ , b = σ1 ): X ∼ N (µ, σ 2 ) ⇒ Y := µ 1 X −µ = − + X ∼ N (0, 1), σ σ σ für µ ∈ R und σ > 0. Umgekehrt gilt natürlich auch Y ∼ N (0, 1) ⇒ X := µ + σY ∼ N (µ, σ 2 ), µ ∈ R, σ > 0. Die kumulative Verteilungsfunktion der sog. Standardnormalverteilung N (0, 1) wird üblicherweise mit Φ bezeichnet. Ihre Werte lassen sich nicht in geschlossener 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 40 Form angeben. Wenn sie jedoch z. B. als Wertetabelle vorliegt (s. Formelsammlung von Papula, S. 508), so lässt sich damit die kumulative Verteilungsfunktion einer beliebig normalverteilten Zufallsvariablen auswerten. Es gilt nämlich X ∼ N (µ, σ 2 ) ⇒ FX (x) = 1 µ x − µ FY ≡Φ x−µ , (12) = Φ FY (a + bx) = FY − + x = FY σ σ σ σ für µ ∈ R, σ > 0. √ Beispiel: Sei X ∈ N (0.8, 4.3) (µ = 0.8, σ = 4.3). Nach (12) gilt 2 − 0.8 “P (X ≤ 2)” = FX (2) = Φ √ Φ(0.58) 0.7190, 4.3 wobei wir die Tabelle aus der Formelsammlung von Papula verwendet haben. Mit MATLAB erhalten wir normcdf(2,0.8,sqrt(4.3)) 0.718601, also war der Tabellenwert schon ziemlich genau. Die Tabellenwerte könnten wir natürlich auch noch interpolieren (s. Vorlesung MNEU), um eine höhere Genauigkeit für Zwischenwerte zu erreichen. 1.5.3 Nichtlineare Transformationen Im Falle von nichtlinearen Transformationen müssen nichtlineare Ungleichungen gelöst werden, was i. A. schwierig ist. Sei nämlich Y := g(X) (d. h. Y (ω) := g(X(ω)), ω ∈ Ω) für eine gegebene Funktion g : R → R, dann ist Y : Ω → R eine reelle Zufallsvariable (Def. 8), falls Y −1 ((−∞, y]) = = {ω ∈ Ω | Y (ω) ≤ y} = {ω ∈ Ω | g(X(ω)) ≤ y} X −1 ({x ∈ R | g(x) ≤ y}) ∈ Σ ∀ y ∈ R. Dies ist genau dann der Fall, wenn {x ∈ R | g(x) ≤ y} ∈ B(R) gilt, ∀ y ∈ R. Die Werte der kumulativen Verteilungsfunktion FY : R → [0, 1] von Y sind dann gegeben durch FY (y) = PY ((−∞, y]) = P Y −1 ((−∞, y]) = P X −1 ({x ∈ R | g(x) ≤ y}) = PX ({x ∈ R | g(x) ≤ y}) , y ∈ R. (13) Es müssen also zunächst die nichtlinearen Ungleichungen g(x) ≤ y nach x aufgelöst werden, für alle y ∈ R! Y Y = g(X) y {x ∈ R | g(x) ≤ y} (−∞, y] X 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 41 Beispiel: Sei X ∼ N (0, 1). Es stellt sich heraus, dass Y := X 2 ∼ χ21 gilt, d. h. das Quadrat einer standardnormalverteilten Zufallsvariablen ist Chi-Quadrat-verteilt mit einem Freiheitsgrad (n = 1). 1 0.9 y = F (x) (N(0,1)) 0.8 y = FX2(x) (χ21) X 0.7 y 0.6 0.5 0.4 0.3 0.2 0.1 0 −5 1.6 −4 −3 −2 −1 0 x 1 2 3 4 5 Quantilfunktion und Masszahlen von Verteilungen Im Folgenden sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1]. Die Funktion FX ist rechtsstetig und monoton wachsend mit lim FX (x) = 0 und x→−∞ lim FX (x) = 1 (Satz 5). x→∞ 1.6.1 Quantilfunktion Sei p ∈ (0, 1) gegeben. Wir fragen: Für welche Zahl q ∈ R gilt FX (q) = “P (X ≤ q)” = p (und damit “P (X > q)”= 1−“P (X ≤ q)” = 1 − FX (q) = 1 − p)? Jede solche Zahl q ∈ R ist ein sog. p-Quantil der Verteilung der Zufallsvariablen X. Offensichtlich benötigen wir zur Berechnung der p-Quantile das Urbild von −1 p unter der Funktion FX , FX (p) = {x ∈ R | FX (x) = p} ⊆ R. Wie die folgende Zeichnung zeigt, kann dieses Urbild i. A. gar keine oder auch mehrere Elemente enthalten: y 1 p3 y = FX (x) p2 p1 0 −1 (p1 ) FX −1 FX (p2 ) −1 FX (p3 ) = ∅ x 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 42 Um eine Quantilfunktion QX : (0, 1) → R definieren zu können (die jedem p ∈ (0, 1) genau ein p-Quantil QX (p) ∈ R zuordnet), betrachten wir jeweils die grösste untere Schranke: Definition 10 (Quantilfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → R eine reelle Zufallsvariable mit kumulativer Verteilungsfunktion FX : R → [0, 1]. Die Quantilfunktion QX : (0, 1) → R der Zufallsvariablen X ist definiert durch QX (p) := inf ({x ∈ R | FX (x) ≥ p}) , p ∈ (0, 1). (14) Für ein gegebenes p ∈ (0, 1) heisst die Zahl QX (p) das p-Quantil der Verteilung der Zufallsvariablen X. Bemerkungen: • Die Existenz des Infimums folgt aus der Monotonie von FX . • Wegen der Rechtsstetigkeit von FX ist das Infimum in (14) sogar ein Minimum, d. h. es ist selbst ein Element der Menge: FX (QX (p)) ≥ p. • Falls FX streng monoton wachsend ist, so ist FX bijektiv und damit um−1 kehrbar, und es gilt QX ≡ FX . Dies ist z. B. bei stetigen reellen Zufallsvariablen mit strikt positiver Wahrscheinlichkeitsdichtefunktion fX der Fall, z. B. bei den Normal-, t- und Cauchy-Verteilungen. • In MATLAB können Sie Quantilfunktionen mit den Funktionen ...inv auswerten, z. B. mit den Funktionen nbininv, expinv, norminv, usw. Beispiel: Aus einer Urne mit 3 roten und 7 blauen Kugeln werden nacheinander Kugeln gezogen (mit Zurücklegen). Wir fragen: Wieviele Ziehungen sind nötig, bis die Wahrscheinlichkeit dafür, dass 5 rote Kugeln gezogen wurden, mindestens 95 % beträgt? Zur Beantwortung dieser Frage definieren wir zunächst die Zufallsvariable “Anzahl gezogene blaue Kugeln, bis genau 5 rote Kugeln gezogen wurden”, 3 dann ist X ∼ N B 5, 10 (Kap. 1.3.2). Für k ∈ N0 gibt FX (k) = “P (X ≤ k)” die Wahrscheinlichkeit dafür an, dass höchstens k blaue Kugeln gezogen werden, bis 5 rote Kugeln gezogen wurden (FX : R → [0, 1] ist eine Treppenfunktion). Das 95 %-Quantil der Verteilung, X QX (0.95) Def. 10 = := inf ({x ∈ R | FX (x) ≥ 0.95}) = nbininv(0.95,5,3/10) = 23, gibt an, dass die Wahrscheinlichkeit dafür, höchstens 23 blaue Kugeln ziehen zu müssen, bis 5 rote Kugeln gezogen wurden, mindestens 95 % beträgt: “P (X ≤ 23)” = FX (23) ≥ 0.95 (tatsächlich gilt FX (23) 0.9526). 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 43 Weil nach der Gesamtzahl der Ziehungen gefragt wurde, müssen wir die 5 Ziehungen, bei denen eine rote Kugel gezogen wurde, noch dazu zählen. Die Antwort auf die obige Frage ist also “Es sind 28 Ziehungen nötig”. Wahrscheinlichkeitsfunktion, NB(5,3/10) kumulative Verteilungsfunktion, NB(5,3/10) 0.08 0.07 0.06 F (x) 0.04 X X f (k) 0.05 0.03 0.02 0.01 0 0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930 k 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 7 8 9 101112131415161718192021222324252627282930 x Analog zu den Eigenschaften der kumulativen Verteilungsfunktion FX einer reellen Zufallsvariablen (Satz 5) fassen wir auch die Eigenschaften der Quantilfunktion in einem Satz zusammen: Satz 6 (Eigenschaften der Quantilfunktion) Sei QX die Quantilfunktion einer reellen Zufallsvariablen X. Dann gelten 1. QX ist monoton wachsend, lim QX (p) = QX (p0 ), ∀ p0 ∈ (0, 1), 2. QX ist linksstetig: p→p 0 p<p0 3. lim QX (p) = −∞ und lim QX (p) = ∞ p→0 p→1 (bestimmte Divergenz; MAE3, Def. 2). y y = QX (p) QX (p3 ) QX (p2 ) QX (p1 ) 0 p1 p2 p3 1p 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 44 Bestimmte p-Quantile haben eigene Namen: • Median: QX (0.5). Im Falle einer stetigen reellen Zufallsvariablen X teilt der Median die Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse in zwei gleich grosse Teile auf: “P (X ≤ QX (0.5))” = “P (X > QX (0.5))” = 50 %. • Terzile: QX (1/3), QX (2/3). Aufteilung in drei gleich grosse Teile. • Quartile: QX (0.25), QX (0.5), QX (0.75). Aufteilung in vier gleich grosse Teile. Der Median ist ebenfalls ein Quartil (das mittlere). • Quintile: QX (0.2), QX (0.4), QX (0.6), QX (0.8). Fünf gleich grosse Teile. • Dezile: QX (0.1), QX (0.2), . . . , QX (0.9). Zehn gleich grosse Teile. • Perzentile: QX (0.01), QX (0.02), . . . , QX (0.99). 100 gleich grosse Teile. Beispiel: Für die Quartile der Standardnormalverteilung N (0, 1) berechnen wir mit dem MATLAB-Befehl norminv(p,0,1): QX (0.25) −0.67, QX (0.5) = 0, Wahrscheinlichkeitsdichtefunktion, N(0,1) 0.4 0.35 0.3 Φ(x) φ(x) 0.25 0.2 0.15 0.1 0.05 0 −3 −2.5 −2 −1.5 −1 −0.5 1.6.2 0 x 0.5 1 1.5 2 2.5 3 QX (0.75) 0.67. kumulative Verteilungsfunktion, N(0,1) 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 x 3 Lagemasse und Streuungsmasse Masszahlen fassen die wesentlichen Eigenschaften einer Wahrscheinlichkeitsverteilung zusammen. Wir lernen hier einige Lagemasse und Streuungsmasse kennen. Ein erstes Lagemass ist der Median, also das 50 %-Quantil QX (0.5). Die Quantilfunktion QX einer Zufallsvariablen hatten wir im letzten Abschnitt definiert. Ein weiteres Lagemass ist der Erwartungswert: Definition 11 (Erwartungswert) Der Erwartungswert einer diskreten oder stetigen reellen Zufallsvariablen X mit Wahrscheinlichkeits(dichte)funktion fX ist • im diskret reellen Fall definiert durch E[X] = xi fX (xi ), xi ∈im(X) falls der Ausdruck auf der rechten Seite existiert, (15) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 45 • im stetig reellen Fall definiert durch ∞ (16) xfX (x) dx, E[X] = −∞ falls der Ausdruck auf der rechten Seite existiert. Bemerkungen: • Es kann E[X] = ±∞ gelten, wenn die Ausdrücke auf der rechten Seite bestimmt divergent sind. Dieser Fall wird allerdings oft ausgeschlossen. • Manchmal schreibt man µX anstatt E[X] für den Erwartungswert der diskreten oder stetigen reellen Zufallsvariablen X. • Die Ausdrücke auf der rechten Seite können unbestimmt divergent sein. In diesem Fall ist der Erwartungswert der Zufallsvariablen nicht definiert. Dies ist z. B. bei der Cauchy-Verteilung der Fall. Allgemein gilt (MAE3, Def. 4, 3.) ∞ E[X] = c xfX (x) dx = lim xfX (x) dx + lim xfX (x) dx, µ→∞ λ→−∞ −∞ µ λ =:I1 (λ) c =:I2 (µ) für einen beliebigen Teilpunkt c ∈ R. Sei nun X ∼ Cauchy(t, s) mit Parametern t ∈ R, s > 0. Zur Vereinfachung der folgenden Rechnungen wählen wir c := t. Wir erhalten t I1 (λ) = λ = 1 π u:= x−t 1 xs dx = s 2 2 π s + (x − t) 0 s su + t du = 1 + u2 π λ−t s 0 λ−t s 0 1 (su + t)s s du π s2 + s2 u 2 λ−t s 0 t 1 2u du + 2 1 + u2 π 1 du 1 + u2 λ−t s 0 s 1 t 0 2 ln 1 + u = + arctan(u)| λ−t s π 2 π λ−t s 2 λ−t λ−t t 1s ln 1 + , − arctan = − 2π s π s und damit den Grenzwert 2 1s λ−t t π lim I1 (λ) = − − lim ln 1 + − = −∞. λ→−∞ 2 π λ→−∞ s π 2 = t ∈R <0 =∞ 2 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 46 Auf dieselbe Weise berechnen wir 2 µ−t µ−t t 1s ln 1 + , + arctan I2 (µ) = · · · = 2π s π s und damit den Grenzwert 2 1s µ−t tπ lim ln 1 + + = ∞. lim I2 (µ) = µ→∞ µ→∞ 2 π s π 2 = t ∈R >0 =∞ 2 Also ist E[X] = lim I1 (λ) + lim I2 (µ) = −∞ + ∞ µ→∞ λ→−∞ nicht definiert. • Der Erwartungswert E[X] entspricht der x-Koordinate des geometrischen Schwerpunktes der Fläche zwischen dem Graphen der Wahrscheinlichkeitsdichtefunktion fX und der x-Achse. Im Allgemeinen ist der Erwartungswert nicht gleich dem Median, z. B. für die F-Verteilung: X∼F 10,5 0.7 Wahrscheinlichkeitsdichtefunktion geometrischer Schwerpunkt Erwartungswert Median Modus 0.6 0.5 fX 0.4 0.3 0.2 0.1 0 0 0.571 1.07 1.67 2 2.5 x 3 3.5 4 4.5 5 Ein drittes Lagemass ist der Modus oder Modalwert einer Verteilung. Er ist definiert als diejenige Stelle x0 ∈ R, an der die Wahrscheinlichkeitsdichtefunktion bzw. die Zähldichte maximal ist (globales Maximum). Der Modus einer Verteilung ist i. A. nicht eindeutig. Für Verteilungen werden manchmal die Begriffe unimodal (eingipflig), bimodal (zweigipflige) sowie multimodal (mehrgipflig) verwendet, je nach der Form der jeweiligen Wahrscheinlichkeits(dichte)funktion. unimodale Verteilung bimodale Verteilung 0.35 0.3 0.3 0.25 0.25 0.2 X f (x) 0.2 X f (x) 0.35 0.15 0.15 0.1 0.1 0.05 0.05 0 −5 0 x 5 0 −5 0 x 5 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 47 Beispiele: 1. Sei X ∼ B 5, 13 . Dann gilt im(X) = {0, 1, 2, . . . , 5} und damit E[X] = xi fX (xi ) = xi ∈im(X) 5 k=0 k 5−k 5 2 5 1 5 kfX (k) = k = . 3 3 3 k k=0 2. Sei X ∼ Exp(2). Dann gilt nach MAE3, Def. 4, 1.: ∞ E[X] = ∞ xfX (x) dx = −∞ x·2e 0 −2x 1 dx = 2 y=2x ∞ ye −y 0 1 lim dy = 2 λ→∞ λ ye−y dy . 0 =:I(λ) Für das Integral I erhalten wir λ I(λ) = λ ye−y dy = −(y + 1)e−y 0 = 1 − (λ + 1) e−λ , 0 und damit für den Grenzwert 1 1 lim 1 − (λ + 1) e−λ = E[X] = 2 λ→∞ 2 λ 1 −λ 1 − lim λ − lim e = , λ→∞ e λ→∞ 2 mit der Grenzwertregel von Bernoulli und de L’Hospital (MAE3, Satz 1). In der folgenden Tabelle listen wir die Erwartungswerte, Mediane und Modi der in Kap. 1.3.2 und Kap. 1.3.5 eingeführten Verteilungen auf: Verteilung Erwartungswert E[X] Median QX (0.5) Berechnung in MATLAB U{1,2,...,n} n+1 2 n+1 2 B(n, p) H(N, M, n) N B(r, p) P(λ) np M N 1−p r p n λ unidinv(0.5,n) entweder np oder np binoinv(0.5,n,p) Modus {x ∈ R | fX (x) maximal} {1,2,. . . ,n} nbininv(0.5,r,p) (n + 1)p oder (n + 1)p − 1 (oder beide) (n + 1) M+1 N +2 (r − 1) 1−p p poissinv(0.5,lambda) λ − 1 und λ hygeinv(0.5,N,M,n) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Verteilung 48 Erwartungswert E[X] Median QX (0.5) Berechnung in MATLAB a+b 2 1 λ a+b 2 expinv(0.5,1/lambda) n chi2inv(0.5,n) max{n − 2, 0} n ,n>2 n−2 finv(0.5,m,n) (m − 2)n ,m>2 m(n + 2) U(a, b) Exp(λ) χ2n Fm,n N (µ, σ 2 ) µ tn 0, n > 1 − Cauchy(t, s) Modus {x ∈ R | fX (x) maximal} jedes x ∈ [a, b] unifinv(0.5,a,b) ln(2) λ 0 µ norminv(0.5,mu,... sqrt(sigmaˆ2)) 0 tinv(0.5,n) t µ 0 t In dieser Tabelle bedeuten die Klammern · bzw. · das Ab- bzw. Aufrunden auf die nächste ganze Zahl. Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine diskrete oder stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX , und sei g : R → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine reelle Zufallsvariable ist: X g Ω −→ R − → R, Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R, ω ∈ Ω. Im Kap. 1.5.3 haben wir gesehen, dass die Berechnung der (kumulativen) Verteilungsfunktion FY : R → [0, 1] von Y im Allgemeinen mühsam ist. Die Berechnung des Erwartungswertes von Y ist jedoch recht einfach: Im diskret reellen Fall ist der Erwartungswert von Y gegeben durch E[Y ] = E[g(X)] = g(xi )fX (xi ), (17) xi ∈im(X) und im stetig reellen Fall durch ∞ E[Y ] = E[g(X)] = g(x)fX (x) dx, (18) −∞ falls die jeweiligen Ausdrücke auf den rechten Seiten von (17), (18) existieren. Auf den Beweis verzichten wir hier. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 49 Beispiele: Wir nehmen an, X sei eine stetige reelle Zufallsvariable. 1. Seien a, b ∈ R, b > 0. Wir definieren g(x) := a + bx, x ∈ R, und Y := g(X) = a + bX (vgl. Kap. 1.5). Mit (18) erhalten wir den Erwartungswert ∞ E[Y ] = E[a + bX] = a g(x)fX (x) dx = −∞ ∞ = ∞ ∞ fX (x) dx +b −∞ xfX (x) dx = a + bE[X]. −∞ =1 (Normierung) (a + bx) fX (x) dx −∞ =E[X] (Def. 11) Diesen Erwartungswert einer linear transformierten Zufallsvariablen können wir auch direkt mit Hilfe der in Kap. 1.5 bestimmten Verteilung von Y berechnen: ∞ ∞ y−a 1 E[Y ] = dy yfY (y) dy = y fX b b x= y−a b −∞ ∞ = −∞ −∞ 1 (a + bx) fX (x)b dx = b ∞ (a + bx) fX (x) dx, −∞ also wieder das Integral von oben. √ 2. Sei X ∼ N (0, 1), und sei g(x) := |x| = x2 , x ∈ R. Dann gilt Y := g(X) = |X|. Der Erwartungswert von Y ist gegeben durch ∞ E[Y ] = E[|X|] = −∞ x2 1 |x| √ e− 2 dx 2π 0 ∞ x2 1 − x2 1 = (−x) √ e 2 dx + x √ e− 2 dx . 2π 2π −∞ 0 =:I1 =:I2 Für die Berechnung von I1 verwenden wir die Substitution t := −x, dx = −dt: 0 I1 = −∞ x2 1 (−x) √ e− 2 dx = 2π 0 ∞ t2 1 t √ e− 2 (−1) dt = 2π ∞ 0 t2 1 t √ e− 2 dt = I2 . 2π Der Erwartungswert von Y ist also gegeben durch ∞ λ 2 2 2 x2 − x2 E[Y ] = I1 + I2 = 2I2 = √ lim xe dx = xe− 2 dx . λ→∞ π 2π 0 0 =:I(λ) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 50 2 Für die Berechnung von I(λ) verwenden wir die Substitution t := − x2 , dx = − x1 dt: 2 λ − 2 0 0 λ2 1 dt = xe − et dt = et − λ2 = 1 − e− 2 . 2 x t I(λ) = 0 2 − λ2 Für den Grenzwert erhalten wir lim I(λ) = 1 − lim e− λ→∞ λ2 2 λ→∞ = 1 − 0 = 1, und damit E[Y ] = E[|X|] = 2 lim I(λ) = π λ→∞ 2 ·1= π 2 0.798. π Ein Streuungsmass soll die Streubreite einer Wahrscheinlichkeitsverteilung um einen geeigneten Lageparameter (z. B. Median, Erwartungswert, Modus) herum beschreiben. Wir definieren die drei Streuungsmasse Definition 12 (Streuungsmasse) 1. (Inter-)Quartilsabstand (interquartile range, IQR): IQR := QX (0.75) − QX (0.25), 2. Varianz (mittlere quadratische Abweichung vom Erwartungswert): 2 Var[X] ≡ V [X] := E (X − E[X]) , (19) (20) falls E[|X|] < ∞, 3. Standardabweichung: σX := ! V [X]. (21) Satz 7 (Eigenschaften von Erwartungswert und Varianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine reelle Zufallsvariable mit E[|X|] < ∞, und seien a, b ∈ R. Dann gelten 1. E[a + bX] = a + bE[X] (Linearität des Erwartungswertes), 2. V [a + bX] = b2 V [X]. Beweis: 1. geht wie in Beispiel 1., auch für b ≤ 0. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 51 2. Wir verwenden die Definition der Varianz sowie die Linearität des Erwartungswertes (1.): Def. 12, 2. 2 V [a + bX] = E (a + bX − E[a + bX]) Satz 7, 1. 2 = E (a + bX − (a + bE[X])) 2 2 = E (bX − bE[X]) = E b2 (X − E[X]) Satz 7, 1. 2 Def. 12, 2. 2 = b2 E (X − E[X]) = b V [X]. In der folgenden Tabelle listen wir die Varianzen der früher behandelten Verteilungen auf: Verteilung Varianz V [X] U{1,2,...,n} B(n, p) H(N, M, n) N B(r, p) P(λ) n2 −1 12 U(a, b) Exp(λ) χ2n Fm,n N (µ, σ 2 ) tn Cauchy(t, s) np(1 − p) N −M N −n nM N N N −1 pr (1−p)2 λ (b−a)2 12 1 λ2 2n 2n2 (m+n−2) m(n−2)2 (n−4) , 2 n>4 σ n>2 − n n−2 , Beachten Sie, dass die Bernoulli-Verteilung ein Spezialfall der Binomalverteilung und die geometrische Verteilung ein Spezialfall der negativen Binomaialverteilung ist, weshalb diese Verteilungen in der Tabelle nicht extra aufgeführt sind. Beispiele: 1. Berechnung von Erwartungswert und Varianz einer diskret gleichverteilten Zufallsvariablen. Sei n ∈ N und X ∼ U{1,2,...,n} , also im(X) = {1, 2, . . . , n}. Gemäss Def. 11 ist der Erwartungswert von X gegeben durch E[X] = xi ∈im(X) xi fX (xi ) = n n 1 n+1 1 1 n(n + 1) = . i = i= n n n 2 2 i=1 i=1 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Damit ist die Varianz von X gegeben durch Def. 12, 2. 2 (17) = E (X − E[X]) = V [X] 52 2 (xi − E[X]) fX (xi ) xi ∈im(X) = 2 n n 1 1 2 n+1 n + 1 (n + 1)2 = + i− i − 2i 2 n n i=1 2 4 i=1 = 1 (n + 1)2 1 2 n+1 i − i+ n n i=1 n i=1 n 4 n n 1 n(n + 1)(2n + 1) n + 1 n(n + 1) (n + 1)2 − + n 6 n 2 4 (n + 1)2 (n + 1)(2n + 1) (n + 1)2 − + 6 2 4 2(n + 1)(2n + 1) − 3(n + 1)2 (n + 1)(2n + 1) (n + 1)2 − = 6 4 12 (n + 1) (4n + 2 − 3n − 3) (n + 1) (2(2n + 1) − 3(n + 1)) = 12 12 2 n −1 (n + 1)(n − 1) = . 12 12 = = = = = 2. Berechnung von Erwartungswert und Varianz einer exponentialverteilten Zufallsvariablen. Sei λ > 0 und X ∼ Exp(λ). Gemäss Def. 11 ist der Erwartungswert von X gegeben durch ∞ E[X] = ∞ xfX (x) dx = −∞ ∞ xλe−λx dx = −xe−λx 0 + 0 ∞ e−λx dx 0 ∞ 1 1 = 0 + − e−λx = . λ λ 0 Damit ist die Varianz von X gegeben durch V [X] Def. 12, 2. = 2 E (X − E[X]) ∞ = 0 − 2 λ 1 2 x − x+ 2 λ λ 2 ∞ 0 2 ∞ 1 x− = λe−λx dx λ (18) 0 xλe−λx dx + λe 1 λ −λx ∞ 0 ∞ dx = 0 e−λx dx x2 λe−λx dx + 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) = ∞ −x2 e−λx 0 + 1 λ ∞ 0 ∞ + 2xe −λx 0 2 dx − λ ∞ 53 xλe−λx dx + 0 ∞ 1 1 e−λx dx = 0 + − 2 e−λx = 2 . λ λ 0 Bemerkungen: • Eine reelle Zufallsvariable X : Ω → R mit E[X] = 0 heisst zentriert. Eine zentrierte Zufallsvariable mit V [X] = 1 heisst standardisiert. • Sei X eine reelle Zufallsvariable mit E[|X|] < ∞. Dann ist die reelle Zufallsvariable X − E[X] E[X] 1 Y := ! = −! +! X V [X] V [X] V [X] standardisiert, wie wir leicht mit Satz 7 beweisen: " # E[X] E[X] 1 1 Satz 7 E[Y ] = E − ! = −! +! X +! E[X] = 0, V [X] V [X] V [X] V [X] 2 # " 1 1 E[X] Satz 7 ! = V [X] = 1. +! X V [Y ] = V − ! V [X] V [X] V [X] • der MATLAB-Befehl ...stat gibt den Erwartungswert und die Varianz einer Verteilung mit gegebenen Parametern aus, z. B. [m,v] = binostat(10,1/6) oder [m,v] = chi2stat(5). 1.7 Wahrscheinlichkeitsverteilungen von mehreren Zufallsvariablen Bisher haben wir Zufallsexperimente betrachtet, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand, z. B. die Augenzahl beim Würfeln oder die Anzahl gezogener Kugeln aus einer Urne. In diesem Kapitel betrachten wir Zufallsexperimente, bei denen gleichzeitig mehrere Zufallsgrössen beobachtet werden. Dabei stossen wir auf mehrdimensionale Zufallsvariablen mit multivariaten Verteilungen. Die Wahrscheinlichkeits(dichte)funktionen sowie die (kumulativen) Verteilungsfunktionen von solchen mehrdimensionalen Zufallsvariablen sind Funktionen von mehreren Variablen, wie sie in MAE3, Kap. I.5., eingeführt wurden. Im Kap. 1.3.4 haben wir gesehen, dass für • einen Wahrscheinlichkeitsraum (Ω, Σ, P ) und für • eine reelle Zufallsvariable X : Ω → R 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 54 das durch X induzierte Wahrscheinlichkeitsmass PX : B(R) → [0, 1] definiert werden kann, so dass (R, B(R), PX ) ein Wahrscheinlichkeitsraum ist. Dabei ist B(R) P(R) die Borelsche σ-Algebra auf R. In diesem Kapitel geht es um n-dimensionale reelle Zufallsvariablen, und für diese erhalten wir den (neuen) Wahrscheinlichkeitsraum (Rn , B(Rn ), PX ), für ein n ∈ N, wobei B(Rn ) P(Rn ) die Borelsche σ-Algebra auf Rn bezeichnet. 1.7.1 Mehrdimensionale Zufallsvariablen Definition 13 (mehrdimensionale reelle Zufallsvariable) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien Xi : Ω → R, i = 1, 2, . . . , n, n ∈ N, reelle Zufallsvariablen. Dann ist die Funktion X : Ω → Rn , X(ω) := (X1 (ω), X2 (ω), . . . , Xn (ω)) , ω ∈ Ω, eine n-dimensionale reelle Zufallsvariable oder ein n-dimensionaler reeller Zufallsvektor. Eine mehrdimensionale reelle Zufallsvariable X heisst diskret, wenn jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine diskrete reelle Zufallsvariable ist. Eine mehrdimensionale reelle Zufallsvariable X heisst stetig, wenn jede ihrer Komponenten Xi , i = 1, 2, . . . , n, eine stetige reelle Zufallsvariable ist. Bemerkungen: • Das Bild einer n-dimensionalen Zufallsvariablen X ist im Allgemeinen gegeben durch im(X) = im(X1 ) × im(X2 ) × · · · × im(Xn ) ⊆ Rn , wobei im(Xi ) ⊆ R das Bild der i-ten Komponente bezeichnet, i = 1, 2, . . . , n. • Für eine diskrete n-dimensionale reelle Zufallsvariable ist im(X) ⊆ Rn ein Punktgitter im Rn , also insbesondere abzählbar. • Für n = 2 verwendet man oft X = (X, Y ) anstatt X = (X1 , X2 ) und für n = 3 oft X = (X, Y, Z) anstatt X = (X1 , X2 , X3 ) . Wie wir wissen, induzieren die reellen Zufallsvariablen Xi : Ω → R, i = 1, 2, . . . , n, Wahrscheinlichkeitsmasse auf dem messbaren Raum (R, B(R)): PXi : B(R) → [0, 1], PXi (A) := P Xi−1 (A) = “P (Xi ∈ A)”, A ∈ B(R), wobei B(R) die Borelsche σ-Algebra auf R bezeichnet (die kleinste σ-Algebra mit R als Grundmenge, die alle offenen Intervalle enthält; Def. 7). Die (kumulativen) Verteilungsfunktionen FXi : R → [0, 1] sind gegeben durch FXi (xi ) := PXi ((−∞, xi ]) = “P (Xi ≤ xi )”, xi ∈ R, i = 1, 2, . . . , n. Ganz analog induziert die n-dimensionale Zufallsvariable X = (X1 , X2 , . . . , Xn ) ein Wahrscheinlichkeitsmass auf einem messbaren Raum, wie wir im Folgenden herleiten werden: Sei x = (x1 , x2 , . . . , xn ) ∈ Rn , dann gilt nach Def. 8: Xi−1 ((−∞, xi ]) = {ω ∈ Ω | Xi (ω) ≤ xi } ∈ Σ, i = 1, 2, . . . , n. (22) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 55 Wir betrachten nun das Urbild des Kegels (−∞, x] := (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ] ⊆ Rn (23) unter X: X −1 ((−∞, x]) = {ω ∈ Ω | X(ω) ∈ (−∞, x]} (23) = {ω ∈ Ω | X(ω) ∈ (−∞, x1 ] × (−∞, x2 ] × · · · × (−∞, xn ]} = {ω ∈ Ω | X1 (ω) ≤ x1 ∧ X2 (ω) ≤ x2 ∧ · · · ∧ Xn (ω) ≤ xn } n n $ $ {ω ∈ Ω | Xi (ω) ≤ xi } = Xi−1 ((−∞, xi ]) ∈ Σ, i=1 i=1 = (24) ∈Σ (22) weil Σ ⊆ P(Ω) eine σ-Algebra ist (Def. 5). Analog zu Def. 7 ist die Borelsche σ-Algebra auf Rn , B(Rn ) P(Rn ), definiert als die kleinste σ-Algebra mit Rn als Grundmenge, die alle n-dimensionalen offenen Quader mit Eckpunkten a = (a1 , a2 , . . . , an ) , b = (b1 , b2 , . . . , bn ) , (a, b) := (a1 , b1 ) × (a2 , b2 ) × · · · × (an , bn ) ⊆ Rn , ai , bi ∈ R, ai < bi , i = 1, 2, . . . , n, enthält. Wie im eindimensionalen Fall sind alle “gängigen” Teilmengen des Rn Borel-Mengen. Man kann zeigen, dass B(Rn ) von den Kegeln (−∞, x] ⊆ Rn mit x ∈ Rn erzeugt wird, d. h. wenn eine Aussage für alle solchen Kegel gilt, dann gilt sie sogar für sämtliche Borel-Mengen im Rn . Das Paar (Rn , B(Rn )) ist ein messbarer Raum (MAE3, Def. 26), und X ist eine messbare Funktion: ∀ A ∈ B(Rn ): X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} ∈ Σ. Das durch X induzierte Wahrscheinlichkeitsmass auf (Rn , B(Rn )), also die Funktion PX : B(Rn ) → [0, 1], ist definiert durch (25) PX (A) := P X −1 (A) = “P (X ∈ A)”, A ∈ B(Rn ). Damit erhalten wir den neuen Wahrscheinlichkeitsraum (Rn , B(Rn ), PX ). Für n = 1 erhalten wir die bereits bekannten Definitionen für reelle Zufallsvariablen, also sind dies Verallgemeinerungen, wie auch die folgende Definition: Definition 14 ((kumulative) Verteilungsfunktion) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable. Die (kumulative) Verteilungsfunktion von X, FX : Rn → [0, 1], ist definiert durch FX (x) := PX ((−∞, x]) = P X −1 ((−∞, x]) (26) n $ (24) = P Xi−1 ((−∞, xi ]) i=1 = “P (X1 ≤ x1 ∧ X2 ≤ x2 ∧ · · · ∧ Xn ≤ xn )” = “P (X ≤ x)”, für x = (x1 , x2 , . . . , xn ) ∈ Rn . Die (kumulative) Verteilungsfunktion FX beschreibt die Verteilung der Zufallsvariablen X oder die gemeinsame Verteilung der reellen Zufallsvariablen X1 , X2 , . . . , Xn . Die Verteilungen der einzelnen 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 56 Komponenten Xi heissen (eindimensionale) Rand- oder Marginalverteilungen: FXi (xi ) = “P (Xi ≤ xi )” = lim “P (X1 ≤ x1 ∧ · · · ∧ Xi−1 ≤ xi−1 ∧ Xi ≤ xi ∧ Xi+1 ≤ xi+1 ∧ · · · ∧ Xn ≤ xn )” xk →∞ ∀k:k=i FX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) , = xlim →∞ k ∀k:k=i xi ∈ R, (27) i = 1, 2, . . . , n. Wir illustrieren die (kumulative) Verteilungsfunktion einer zweidimensionalen stetigen reellen Zufallsvariablen X : Ω → R2 , ω → X(ω) = (X1 (ω), X2 (ω)) , sowie ihre Randverteilungen in der folgenden Grafik: Anhand dieser Funktionen werden wir die Differenzial- und Integralrechnung in mehreren Dimensionen behandeln. Definition 15 (Wahrscheinlichkeitsdichtefunktionen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und sei X : Ω → Rn eine diskrete oder stetige n-dimensionale reelle Zufallsvariable. • Im diskreten Fall erfüllt die (kumulative) Verteilungsfunktion FX (x) = fX (xi ) = fX (xi ), xi ∈im(X)∩(−∞,x] (28) xi ∈im(X) xi ≤x für x ∈ Rn , wobei fX : im(X) → [0, 1] die Wahrscheinlichkeitsfunktion (Zähldichte) der Zufallsvariablen X oder die gemeinsame Wahrscheinlichkeitsfunktion (Zähldichte) der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 57 • Im stetigen Fall erfüllt die (kumulative) Verteilungsfunktion b1 b2 FX (b) = bn ··· fX (x) dx = −∞ −∞ (−∞,b] fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 , −∞ (29) für b = (b1 , b2 , . . . , bn ) ∈ Rn , wobei fX : Rn → [0, ∞) die Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X oder die gemeinsame Wahrscheinlichkeitsdichtefunktion der Zufallsvariablen X1 , X2 , . . . , Xn bezeichnet. Bemerkungen: • In (29) steht ein n-dimensionales Integral, das “von innen nach aussen” durch n-fache eindimensionale Integration ausgewertet werden kann. Unter gewissen Voraussetzungen an den Integranden fX (die in der Regel erfüllt sind) spielt die Reihenfolge der Integrationen keine Rolle (Satz von Fubini; G. Fubini, 1879–1943). • Wie im eindimensionalen Fall kann für stetige reelle Zufallsvariablen die Wahrscheinlichkeitsdichtefunktion durch Ableiten aus der (kumulativen) Verteilungsfunktion berechnet werden: fX (x) = ∂ n FX ∂ ∂ ∂FX (x) = ··· (x). ∂x1 ∂x2 · · · ∂xn ∂x1 ∂x2 ∂xn (30) Dieser Ausdruck wird ebenfalls “von innen nach aussen” durch n-fache eindimensionale partielle Ableitung berechnet, wobei die Reihenfolge der partiellen Ableitungen keine Rolle spielt. Wie im Kap. 1.3.4 stellen wir einige Eigenschaften von diskreten und stetigen n-dimensionalen reellen Zufallsvariablen in einer Tabelle zusammen: Zufallsvariable X Ergebnismenge Ω Ereignisfeld Σ Wahrscheinlichkeits(dichte)funktion Normierung Elementarereignis {x} ∈ Σ , x ∈ Ω Quader “P (a < X ≤ b)” a, b ∈ Rn , a < b diskret reell n-dimensional im(X) ⊆ Rn (abzählbar) P (im(X)) stetig reell n-dimensional Rn (überabzählbar unendlich) B(Rn ) P(Rn ) fX : im(X) → [0, 1] fX : Rn → [0, ∞) fX (x) dx = 1 fX (xi ) = 1 xi ∈im(X) PX ({x}) = fX (x) fX (xi ) xi ∈im(X ) a<xi ≤b Rn PX ({x}) = 0 fX (x) dx (a,b) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 58 wobei das n-dimensionale Integral unten rechts in der Tabelle gegeben ist durch b1 b2 ··· fX (x) dx = (a,b) bn a1 a2 fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 . (31) an Dabei sind Grenzübergänge ai → −∞ und/oder bj → ∞ zugelassen, was auf unendliche Reihen bzw. uneigentliche Integrale führt. Beispiele: Wir illustrieren die obigen Begriffe an zweidimensionalen Zufallsvariablen (n = 2). 1. Wir betrachten das Zufallsexperiment Ziehen von Kugeln aus einer Urne mit 3 roten und 7 blauen Kugeln, und wir definieren die Zufallsvariablen X1 := “Anzahl der roten Kugeln bei der 1. Ziehung”, X2 := “Anzahl der roten Kugeln bei der 2. Ziehung”, mit im(X1 ) = im(X2 ) = {0, 1}. Wir definieren die diskrete zweidimensionale Zufallsvariable X := (X1 , X2 ) mit im(X) = im(X1 ) × im(X2 ) = {0, 1}2 = {(0, 0), (0, 1), (1, 0), (1, 1)}. Wir wollen berechnen die Zähldichte von X, also die Funktion fX : {0, 1}2 → [0, 1]: fX ((0, 0)) = PX ({(0, 0)}) = “P (X = (0, 0))” = “P (X1 = 0 ∧ X2 = 0)”, fX ((0, 1)) = PX ({(0, 1)}) = “P (X = (0, 1))” = “P (X1 = 0 ∧ X2 = 1)”, fX ((1, 0)) = PX ({(1, 0)}) = “P (X = (1, 0))” = “P (X1 = 1 ∧ X2 = 0)”, fX ((1, 1)) = PX ({(1, 1)}) = “P (X = (1, 1))” = “P (X1 = 1 ∧ X2 = 1)”. Es stellt sich heraus, dass diese Zähldichte unterschiedlich ist je nachdem, ob mit oder ohne Zurücklegen gezogen wird: “P (X1 “P (X1 “P (X1 “P (X1 = 0 ∧ X2 = 0 ∧ X2 = 1 ∧ X2 = 1 ∧ X2 = 0)” = 1)” = 0)” = 1)” mit Zurücklegen 7 7 49 10 · 10 = 100 7 3 21 10 · 10 = 100 3 7 21 10 · 10 = 100 3 3 9 10 · 10 = 100 ohne Zurücklegen 7 6 7 10 · 9 = 15 7 3 7 10 · 9 = 30 3 7 7 10 · 9 = 30 3 2 1 10 · 9 = 15 Die Wertetabellen der entsprechenden Zähldichten der gemeinsamen Verteilung sowie der (eindimensionalen) Randverteilungen sind gegeben durch 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) mit Zurücklegen: x1 fX 0 1 fX2 21 49 7 0 100 100 10 x2 9 21 3 1 100 100 10 3 7 fX1 10 1 10 59 ohne Zurücklegen: x1 fX 0 1 fX2 7 7 7 0 15 30 10 x2 1 7 3 1 30 15 10 3 7 fX1 10 1 10 Offensichtlich sind die Randverteilungen in beiden Fällen gleich, obwohl die gemeinsame Verteilung unterschiedlich ist. Im Allgemeinen kann daher von den Randverteilungen nicht auf die gemeinsame Verteilung geschlossen werden! Mit Hilfe dieser Tabellen können wir jetzt z. B. die folgenden Wahrscheinlichkeiten berechnen: 21 100 , mit Zurücklegen, , • “P (X1 = 1 ∧ X2 = 0)” = fX ((1, 0)) = 7 ohne Zurücklegen 30 , • “P (X1 = 1)” = “P (X1 = 1 ∧ (X2 = 0 ∨ X2 = 1))” = “P ((X1 = 1 ∧ X2 = 0) ∨ (X1 = 1 ∧ X2 = 1))” = “P (X1 = 1 ∧ X2 = 0) + P (X1 = 1 ∧ X2 = 1)” 21 9 100 + 100 , mit Zurücklegen = fX ((1, 0)) + fX ((1, 1)) = 7 1 ohne Zurücklegen 30 + 15 , 3 = fX1 (1). = 10 2. Die kumulative Verteilungsfunktion einer stetigen zweidimensionalen reellen Zufallsvariablen X sei gegeben durch 1 1 1 − e−2x2 , x2 ≥ 0 − π1 arctan 3−x 2 4 FX (x1 , x2 ) = , 0, x2 < 0 für x1 , x2 ∈ R. Die (eindimensionalen) Randverteilungen erhalten wir durch Berechnung der Grenzwerte: 1 3 − x1 1 , x1 ∈ R, FX1 (x1 ) = lim FX (x1 , x2 ) = − arctan x2 →∞ 2 π 4 1 − e−2x2 , x2 ≥ 0 FX2 (x2 ) = lim FX (x1 , x2 ) = , x2 ∈ R. 0, x2 < 0 x1 →∞ Wir wollen die Wahrscheinlichkeitsdichtefunktion fX mit Hilfe von (30) als zweite partielle Ableitung von FX berechnen. Dazu berechnen wir zunächst die (ersten) partiellen Ableitungen (für x2 > 0; MAE3, Def. 15): ∂FX 1 1 1 1 − e−2x2 , (x1 , x2 ) = − − ∂x1 π 1 + 3−x1 2 4 4 ∂FX 1 3 − x1 1 − arctan 2e−2x2 . (x1 , x2 ) = ∂x2 2 π 4 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 60 Jetzt leiten wir diese Ausdrücke noch einmal partiell ab, und zwar nach der jeweils anderen Variablen: ∂ 2 FX 1 e−2x2 1 1 8 2e−2x2 = = − , 3−x1 2 − ∂x2 ∂x1 π1+ 4 π 16 + (3 − x1 )2 4 ∂ 2 FX 1 e−2x2 1 1 8 2e−2x2 = = − . 3−x1 2 − ∂x1 ∂x2 π1+ 4 π 16 + (3 − x1 )2 4 Offensichtlich erhalten wir unabhängig von der Reihenfolge der partiellen Ableitungen dieselbe Wahrscheinlichkeitsdichtefunktion fX (x1 , x2 ) = e−2x2 8 , π 16 + (3 − x1 )2 x2 > 0. Mit der Wahrscheinlichkeitsdichtefunktion fX können wir Wahrscheinlichkeiten durch Integration berechnen, z. B. “P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))” = PX ((0, 5] × (−1, 1)) 5 1 = fX (x1 , x2 ) dx2 dx1 . 0 −1 Dieses zweidimensionale Integral werten wir “von innen nach aussen” aus, 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 61 1 d. h. wir berechnen zuerst das Integral über x2 : fX (x1 , x2 ) dx2 −1 1 = 0 = 1 8 e−2x2 1 8 dx2 = 2 π 16 + (3 − x1 ) π 16 + (3 − x1 )2 e−2x2 dx2 0 1 1 1 − e−2 4 8 −2 1 − e = , π 16 + (3 − x1 )2 2 π 16 + (3 − x1 )2 und integrieren dann noch über x1 : “P (X1 ∈ (0, 5] ∧ X2 ∈ (−1, 1))” 5 = t= 3−x1 =4 5 4 1 1 − e−2 1 − e−2 dx1 = dx1 1 2 π 16 + (3 − x1 )2 4π 1 + ( 3−x 4 ) 0 0 3 1 1 − e−2 arctan − arctan − 30 %. π 4 2 2 f (X 1 ,X ) 2 (x 1 ,x 2 ) 1.5 x2 0.01 1 0.0 1 0.03 1 0.0 0.5 0.0 5 5 0.0 .07 0 .03 0 0 -6 -4 -2 0 2 0.0 3 0.0 9 0.0 .11 0 0.13 7 4 6 8 10 12 x1 Die Berechnung der (eindimensionalen) Randdichten fXi , i = 1, 2, . . . , n, aus der gemeinsamen Wahrscheinlichkeits(dichte)funktion fX erfolgt • im diskreten Fall über die (n − 1)-fache Summe fXi (xi ) = ··· ··· fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ), x1 ∈ im(X1 ) xi−1 ∈ xi+1 ∈ im(Xi−1 ) im(Xi+1 ) xn ∈ im(Xn ) (32) für xi ∈ im(Xi ), und 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 62 • im stetigen Fall über das (n − 1)-fache Integral fXi (xi ) = ∞ ∞ ··· −∞ fX (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) dxn · · · dxi+1 dxi−1 · · · dx1 , −∞ (33) für xi ∈ R, wobei über alle Komponenten ausser der i-ten summiert bzw. integriert wird. Beispiel: Sei X : Ω → R2 eine zweidimensionale stetige reelle Zufallsvariable mit Wahrscheinlichkeitsdichtefunktion e−2x2 8 π 16+(3−x1 )2 , x2 > 0 , fX (x1 , x2 ) = x1 , x2 ∈ R2 0, x2 ≤ 0 (vgl. vorheriges Beispiel). Die eindimensionalen Randdichten sind nach (33) für n = 2 gegeben durch ∞ fX1 (x1 ) = ∞ fX (x1 , x2 ) dx2 = −∞ = 1 8 π 16 + (3 − x1 )2 ∞ 0 0 8 e−2x2 dx2 π 16 + (3 − x1 )2 e−2x2 dx2 = 1 8 π 16 + (3 − x1 )2 ∞ 1 − e−2x2 2 0 = 12 fX2 (x2 ) 4 1 , π 16 + (3 − x1 )2 x1 ∈ R ⇒ X1 ∼ Cauchy(3, 4), ∞ ) 8 e−2x2 ∞ π 16+(3−x1 )2 dx1 , x2 > 0 −∞ = fX (x1 , x2 ) dx1 = )∞ 0 dx1 , x2 ≤ 0 −∞ −∞ ∞ 8 e−2x2 ) 1 π 16+(3−x1 )2 dx1 , x2 > 0 = −∞ 0, x2 ≤ 0 3−x ∞ −2x 8 −2x 1 1 2 − 4 arctan 4 , x2 > 0 2e 2 , x2 > 0 πe −∞ = = 0, x2 ≤ 0 0, x2 ≤ 0 = ⇒ 1.7.2 X2 ∼ Exp(2). Stochastische Unabhängigkeit von Zufallsvariablen Viele statistische Methoden setzen die (stochastische) Unabhängigkeit der beteiligten Zufallsvariablen voraus. In diesem Kapitel erweitern wir die Definition für die (stochastische) Unabhängigkeit von Ereignissen (Def. 2) auf die (stochastische) Unabhängigkeit von reellen Zufallsvariablen. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 63 Definition 16 (Unabhängigkeit von mehreren Ereignissen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien A1 , A2 , . . . , An ∈ Σ Ereignisse. • Die Ereignisse A1 , A2 , . . . , An heissen paarweise unabhängig, falls die Ereignisse Ai und Aj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}, d. h. falls P (Ai ∩ Aj ) = P (Ai )P (Aj ) gilt, für alle i, j ∈ {1, 2, . . . , n}. • Die Ereignisse A1 , A2 , . . . , An heissen gegenseitig unabhängig, falls für jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt: k k $ * Aij = P (Aij ) = P (Ai1 )P (Ai2 ) · · · P (Aik ). P j=1 j=1 Bemerkungen: • Für n = 2 Ereignisse sind die drei Begriffe “gegenseitig unabhängig” und “paarweise unabhängig” (Def. 16) sowie “unabhängig” (Def. 2) äquivalent. • Für n > 2 Ereignisse gibt es jedoch zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich eben die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft. Die (stochastische) Unabhängigkeit von Ereignissen wird auch in der Definition der (stochastischen) Unabhängigkeit von reellen Zufallsvariablen benötigt: Definition 17 ((stochastisch) unabhängige reelle Zufallsvariablen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen. X und Y heissen (stochastisch) unabhängig, falls für alle A, B ∈ B(R) die Ereignisse X −1 (A), Y −1 (B) ∈ Σ (stochastisch) unabhängig sind, d. h. falls ∀ A, B ∈ B(R) : P X −1 (A) ∩ Y −1 (B) = P X −1 (A) P Y −1 (B) . (34) Andernfalls heissen X und Y (stochastisch) abhängig. Im Falle der (stochastischen) Unabhängigkeit der reellen Zufallsvariablen X und Y gelten spezielle Formeln für die (kumulative) Verteilungsfunktion und für die Wahrscheinlichkeits(dichte)funktion der zweidimensionalen reellen Zufallsvariablen X := (X, Y ) : Satz 8 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R zwei reelle Zufallsvariablen. Wir definieren die zweidimensionale reelle Zufallsvariable X := (X, Y ) . Die Zufallsvariablen X und Y sind genau dann (stochastisch) unabhängig, wenn für die (kumulativen) Verteilungsfunktionen FX , FX , FY gilt: FX (x, y) = FX (x)FY (y), ∀ x, y ∈ R. (35) Im diskreten oder stetigen Fall ist dies äquivalent dazu, dass für die Wahrscheinlichkeits(dichte)funktionen fX , fX , fY gilt: fX (x, y) = fX (x)fY (y), ∀ x, y ∈ R. (36) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 64 Bemerkungen: • Dieser Satz kann als Kriterium für die (stochastische) Unabhängigkeit von zwei reellen Zufallsvariablen X, Y verwendet werden, wenn sowohl die Verteilungen von X und Y als auch ihre gemeinsame Verteilung (die Verteilung von X = (X, Y ) ) bekannt sind. Viel öfter wird jedoch die (stochastische) Unabhängigkeit von X und Y vorausgesetzt, um z. B. mit (36) die gemeinsame Wahrscheinlichkeits(dichte)funktion aus bekannten Randdichten berechnen zu können. • Nur wenn X und Y (stochastisch) unabhängig sind, kann man aus den Randverteilungen auf die gemeinsame Verteilung schliessen. Beispiele: 1. Im letzten Kapitel hatten wir die Wahrscheinlichkeitsverteilungen von zwei diskreten Zufallsvariablen X1 und X2 berechnet: Mit Satz 8 prüfen wir nun nach, ob diese beiden Zufallsvariablen (stochastisch) unabhängig sind: x1 0 0 1 1 x2 0 1 0 1 Ziehen mit Zurücklegen fX (x1 , x2 ) fX1 (x1 )fX2 (x2 ) 7 49 7 49 100 10 · 10 = 100 7 21 3 21 100 10 · 10 = 100 3 21 7 21 100 10 · 10 = 100 3 9 3 9 100 10 · 10 = 100 Ziehen ohne Zurücklegen fX (x1 , x2 ) fX1 (x1 )fX2 (x2 ) 7 7 7 49 15 10 · 10 = 100 7 7 3 21 30 10 · 10 = 100 3 7 7 21 30 10 · 10 = 100 3 1 3 9 15 10 · 10 = 100 wobei X := (X1 , X2 ) . Nach Satz 8 sind also • X1 und X2 (stochastisch) unabhängig, falls mit Zurücklegen gezogen wird und • X1 und X2 (stochastisch) abhängig, falls ohne Zurücklegen gezogen wird. 2. Seien X ∼ N (0, 1) und Y := 2X−3 (dann gilt Y ∼ N (−3, 4), vgl. Kap. 1.5) stetige Zufallsvariablen. Da Y eine Transformierte von X ist vermuten wir, dass X und Y (stochastisch) abhängig sind. Die gemeinsame (kumulative) Verteilungsfunktion von X und Y ist gegeben durch FX (x), y ≥ 2x − 3 F(X,Y ) (x, y) = “P (X ≤ x ∧ Y ≤ y)” = , FY (y), y < 2x − 3 für x, y ∈ R. Das Kriterium aus Satz 8 ist offensichtlich nicht erfüllt, also sind X und Y tatsächlich (stochastisch) abhängig. In der folgenden Grafik vergleichen wir Niveaulinien von F(X,Y ) mit jenen von FX FY : 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) X ∼ N(0,1), Y := 2 X - 3 0 0.8 0.5 0.4 0.3 0.2 -4 0.1 0.1 -6 0.9 0.8 0.7 0.1 0.1 0.6 0.5 0.4 0.3 0.2 -4 ∼ N(-3,4), unabhaengig 0.9 -2 0.2 y X ∼ N(0,1), Y 0.2 0.3 -2 2 0.6 0.5 0.4 0.3 0.7 0.6 0.5 0.4 0 ∼ N(-3,4) y 2 65 -6 y=2x-3 F(X,Y) (x,y) FX (x) F Y(y) -8 -8 -5 0 5 -5 0 5 x x Genau wie für Ereignisse kann man auch die (stochastische) Unabhängigkeit von mehr als zwei Zufallsvariablen definieren: Definition 18 (Unabhängigkeit von mehreren reellen Zufallsvariablen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, n ≥ 2, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. • Die Zufallsvariablen X1 , X2 , . . . , Xn heissen paarweise unabhängig, falls die Zufallsvariablen Xi und Xj unabhängig sind, für alle i, j ∈ {1, 2, . . . , n}. • Die Zufallsvariablen X1 , X2 , . . . , Xn heissen gegenseitig unabhängig, falls für jede Auswahl {i1 , i2 , . . . , ik } ⊆ {1, 2, . . . , n}, k ∈ {1, 2, . . . , n}, gilt: k k $ * Xi−1 (A ) = P Xi−1 (Aj ) , ∀ A1 , A2 , . . . , Ak ∈ B(R) : P j j j j=1 j=1 (37) −1 −1 das heisst falls die Ereignisse Xi−1 (A ), X (A ), . . . X (A ) gegenseitig 1 2 k i2 ik 1 unabhängig sind für alle Borel-Mengen A1 , A2 , . . . , Ak ∈ B(R). Bemerkungen: • Für n = 2 Zufallsvariablen sind die drei Begriffe “gegenseitig unabhängig” und “paarweise unabhängig” (Def. 18) sowie “unabhängig” (Def. 17) äquivalent. Für n > 2 Zufallsvariablen hingegen gibt es wieder zwei verschiedene Arten der (stochastischen) Unabhängigkeit, nämlich die “paarweise” und die “gegenseitige”. Die gegenseitige Unabhängigkeit ist dabei die stärkere Eigenschaft. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 66 • Mit X := (X1 , X2 , . . . , Xn ) folgt aus der Formel (37) für k = n: “P (X ≤ a)” = “P (X1 ≤ a1 ∧ X2 ≤ a2 ∧ · · · ∧ Xn ≤ an )” n n $ (37) * Xi−1 ((−∞, ai ]) = P Xi−1 ((−∞, ai ]) = P i=1 i=1 = “P (X1 ≤ a1 )P (X2 ≤ a2 ) · · · P (Xn ≤ an )” n * “P (Xi ≤ ai )”, ∀ a = (a1 , a2 , . . . , an ) ∈ Rn , = i=1 weil (−∞, a1 ], (−∞, a2 ], . . . , (−∞, an ] ∈ B(R). Daraus folgt für die gemeinsame (kumulative) Verteilungsfunktion: FX (x) = FX1 (x1 )FX2 (x2 ) · · · FXn (xn ) = n * FXi (xi ), (38) i=1 für alle x = (x1 , x2 , . . . , xn ) ∈ Rn , und für die Wahrscheinlichkeits(dichte)funktionen im diskreten oder stetigen Fall: fX (x) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ) = n * fXi (xi ), (39) i=1 für alle x = (x1 , x2 , . . . , xn ) ∈ Rn . Die Formeln (38), (39) sind Verallgemeinerungen von (35), (36) und sehr nützlich für praktische Rechnungen. Um sie anwenden zu können, muss man die gegenseitige Unabhängigkeit der reellen Zufallsvariablen X1 , X2 , . . . , Xn voraussetzen – paarweise Unabhängigkeit genügt nicht! 1.8 Transformationen von Zufallsvektoren Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine n-dimensionale reelle Zufallsvariable. Wir betrachten Funktionen g : Rn → R, so dass Y := g ◦ X : Ω → R (kurz: Y = g(X)) eine reelle Zufallsvariable ist: X g Ω −→ Rn − → R, Y (ω) = (g ◦ X) (ω) = g (X(ω)) ∈ R, ω ∈ Ω. Wir sind in erster Linie an Summen und Produkten der Komponenten von X interessiert, also z. B. an Transformationen der Form g(x) := n i=1 xi oder g(x) := n * xi , x = (x1 , x2 , . . . , xn ) ∈ Rn . i=1 Wir illustrieren diese Abbildungen für den Fall n = 2 in der folgenden Grafik: 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 67 Bevor wir uns anschauen, wie die Verteilung einer derart transformierten Zufallsvariablen Y = g(X) aussieht, wollen wir zuerst untersuchen, wie die Masszahlen transformieren. 1.8.1 Masszahlen der Transformierten Satz 9 (Erwartungswert einer Transformierten) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und sei X : Ω → Rn eine n-dimensionale diskrete oder stetige reelle Zufallsvariable mit Wahrscheinlichkeits(dichte)funktion fX . Sei g : Rn → R eine Funktion, so dass Y := g ◦ X : Ω → R (kurz Y := g(X)) eine reelle Zufallsvariable ist. Der Erwartungswert von Y ist dann • im diskreten Fall gegeben durch E[Y ] = E[g(X)] = g(xi )fX (xi ) (40) xi ∈im(X) • und im stetigen Fall gegeben durch g(x)fX (x) dx. E[Y ] = E[g(X)] = Rn (41) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 68 Bemerkungen: • Die Formeln (40), (41) sind Verallgemeinerungen der Formeln (17), (18) auf n ≥ 1 Dimensionen. • Auf der rechten Seite von (41) steht wieder ein n-dimensionales Integral, das als Hintereinanderausführung von n eindimensionalen Integralen aufgefasst werden kann, die “von innen nach aussen” ausgewertet werden können: g(x)fX (x) dx Rn ∞ ∞ ∞ ··· = −∞ −∞ g(x1 , x2 , . . . , xn )fX (x1 , x2 , . . . , xn ) dxn · · · dx2 dx1 . −∞ Speziell für Linearkombinationen von Zufallsvariablen gilt der Satz 10 (Additionssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt # " n n ai Xi + an+1 = ai E[Xi ] + an+1 . (42) E i=1 i=1 Bemerkung: Dies ist eine Verallgemeinerung von Satz 7, 1. (Linearität des Erwartungswertes). Beachten Sie, dass der Satz 10 auch für stochastisch abhängige Zufallsvariablen gilt. Als Nächstes berechnen wir die Varianz einer Summe von zwei reellen Zufallsvariablen X1 , X2 . Nach Def. 12, 2., und mit Satz 10 gilt Def. 12, 2. V [X1 + X2 ] = E (X1 + X2 − E[X1 + X2 ])2 Satz 10 2 = E (X1 + X2 − (E[X1 ] + E[X2 ])) 2 = E (X1 − E[X1 ] + X2 − E[X2 ]) = E (X1 − E[X1 ])2 + 2 (X1 − E[X1 ]) (X2 − E[X2 ]) + (X2 − E[X2 ])2 Satz 10 2 = E (X1 − E[X1 ]) + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])] 2 +E (X2 − E[X2 ]) Def. 12. 2. = V [X1 ] + 2E [(X1 − E[X1 ]) (X2 − E[X2 ])] + V [X2 ]. Der hier auftretende Erwartungswert des gemischten Produkts ist die Kovarianz von X1 und X2 : 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 69 Definition 19 (Kovarianz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] < ∞. Dann heisst σXY ≡ Cov(X, Y ) := E [(X − E[X]) (Y − E[Y ])] (43) die Kovarianz von X und Y . Damit erhalten wir V [X1 + X2 ] = V [X1 ] + 2Cov(X1 , X2 ) + V [X2 ], was wir auch wieder auf Linearkombinationen von n Zufallsvariablen verallgemeinern können: Satz 11 (Additionssatz für Varianzen) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen mit E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt " n # n V = ai Xi + an+1 ai aj Cov(Xi , Xj ) (44) i=1 i,j=1 = n i=1 a2i V [Xi ] + 2 n−1 n ai aj Cov(Xi , Xj ). (45) i=1 j=i+1 Bemerkung: Dies ist eine Verallgemeinerung von Satz 7, 2. Für n = 2 und a1 = a2 = 1 erhalten wir die Formel von oben für V [X1 + X2 ]. Die zweite Gleichung in Satz 11 folgt aus den Eigenschaften der Kovarianz: Satz 12 (Eigenschaften der Kovarianz) Die Kovarianz von reellen Zufallsvariablen ist 1. bilinear: Cov(λ · X + Y, Z) = λ · Cov(X, Z) + Cov(Y, Z), Cov(X, λ · Y + Z) = λ · Cov(X, Y ) + Cov(X, Z), 2. symmetrisch: σY X = Cov(Y, X) = Cov(X, Y ) = σXY , 2 ≥ 0. 3. positiv semidefinit: σXX = Cov(X, X) = V [X] = σX Ausserdem gilt 4. X, Y stochastisch unabhängig ⇒ Cov(X, Y ) = 0 Beweis: Die Eigenschaften 1.–3. lassen sich direkt mit Def. 19, Def. 12, 2., und mit Satz 10 beweisen. Wir beweisen hier nur 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 70 4. für den stetigen Fall. Seien fX und fY die Wahrscheinlichkeitsdichtefunktionen der stetigen reellen Zufallsvariablen X und Y . Weil X, Y stochastisch unabhängig sind, gilt für die gemeinsame Wahrscheinlichkeitsdichtefunktion fX , X := (X, Y ) , nach Satz 8: fX (x, y) = fX (x)fY (y), x, y ∈ R. Damit erhalten wir für die Kovarianz von X und Y : Cov(X, Y ) = Satz 9 = Satz 8 E [(X − E[X]) (Y − E[Y ])] ∞ ∞ (x − E[X])(y − E[Y ])fX (x, y) dy dx −∞ −∞ ∞ ∞ (x − E[X])(y − E[Y ])fX (x)fY (y) dy dx = −∞ −∞ ∞ ∞ (x − E[X])fX (x) = −∞ (y − E[Y ])fY (y) dy dx −∞ ∞ −∞ (y − E[Y ])fY (y) dy −∞ Satz 9 E [X − E[X]] E [Y − E[Y ]] Satz 10 (E[X] − E[X]) (E[Y ] − E[Y ]) = 0. = = ∞ (x − E[X])fX (x) dx = Konstante Der Beweis für den diskreten Fall geht analog mit Summen an Stelle von Integralen. Bemerkung: Beachten Sie, dass die Umkehrung von 4. i. A. nicht gilt! Wir zeigen dies mit dem folgenden Beispiel: Sei p ∈ (0, 1) und seien Z1 , Z2 ∼ B(1, p). Wir nehmen an, Z1 , Z2 seien stochastisch unabhängig, und wir definieren die diskreten reellen Zufallsvariablen X := Z1 + Z2 , Y := Z1 − Z2 . Wir erstellen zuerst die folgende Tabelle mit den Werten von Z1 und Z2 , ihren gemeinsamen Wahrscheinlichkeiten, sowie den entsprechenden Werten von X und Y : z1 0 0 1 1 z2 0 1 0 1 “P (Z1 = z1 ∧ Z2 = z2 )” = x= “P (Z1 = z1 )P (Z2 = z2 )” z1 + z2 (1 − p)2 0 p(1 − p) 1 p(1 − p) 1 p2 2 y= z1 − z2 0 −1 1 0 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 71 Damit erhalten wir die Wahrscheinlichkeitsfunktionen fX , fY , fX , X := (X, Y ) : x y fX −1 0 1 fX 0 0 (1 − p)2 0 (1 − p)2 1 2 p(1 − p) 0 0 p2 p(1 − p) 0 2p(1 − p) p2 fY p(1 − p) (1 − p)2 + p2 p(1 − p) 1 Die Zufallsvariablen X und Y sind stochastisch abhängig, denn es gilt z. B. fX (1, −1) = p(1 − p) = 2p2 (1 − p)2 = fX (1)fY (−1), für p ∈ (0, 1). Für die Kovarianz von X und Y erhalten wir jedoch mit Satz 12: Cov(X, Y ) = Cov(Z1 + Z2 , Z1 − Z2 ) Bilinearität Cov(Z1 , Z1 − Z2 ) + Cov(Z2 , Z1 − Z2 ) Bilinearität Cov(Z1 , Z1 ) − Cov(Z1 , Z2 ) + Cov(Z2 , Z1 ) − Cov(Z2 , Z2 ) Symmetrie V [Z1 ] − Cov(Z1 , Z2 ) + Cov(Z1 , Z2 ) − V [Z2 ] V [Z1 ] − V [Z2 ] = 0, = = = = denn es gilt V [Z1 ] = V [Z2 ] = p(1 − p) für B(1, p)-verteilte Zufallsvariablen. Aus Satz 11 und Satz 12, 4., erhalten wir das Korollar 1 Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R paarweise unabhängige reelle Zufallsvariablen mit E[|Xi |], E[|Xi Xj |] < ∞, i, j = 1, 2, . . . , n. Seien weiterhin a1 , a2 , . . . , an , an+1 ∈ R, dann gilt # " n n V ai Xi + an+1 = a2i V [Xi ]. i=1 i=1 Beweis: Wegen der paarweisen Unabhängigkeit von X1 , X2 , . . . , Xn gilt nach Satz 12, 4.: Cov(Xi , Xj ) = 0, i = j. Daher verschwindet die Doppelsumme auf der rechten Seite im Satz 11. Zur Berechnung des Erwartungswertes des Produkts XY von zwei reellen Zufallsvariablen machen wir die folgende Hilfsrechnung: XY = XY − E[X]Y + E[X]Y = (X − E[X]) Y + E[X]Y = (X − E[X]) Y + E[X]Y − (X − E[X]) E[Y ] + (X − E[X]) E[Y ] = (X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ]. Mit Satz 10 erhalten wir E[XY ] = = E [(X − E[X]) (Y − E[Y ]) + E[X]Y + (X − E[X]) E[Y ]] E [(X − E[X]) (Y − E[Y ])] + E[X]E[Y ] + E [X − E[X]] E[Y ] =0 = Cov(X, Y ) + E[X]E[Y ]. Wir erhalten den 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 72 Satz 13 (Multiplikationssatz für Erwartungswerte) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, sei n ∈ N, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen. Dann gelten 1. im Fall n = 2: E[X1 X2 ] = E[X1 ]E[X2 ] + Cov(X1 , X2 ), 2. und im Fall n ≥ 2, falls X1 , X2 , . . . , Xn gegenseitig unabhängig sind: # " n n * * E Xi = E[Xi ]. i=1 i=1 Bemerkung: Im Fall n = 2 erhalten wir den sog. Verschiebungssatz für die Kovarianz: Cov(X, Y ) = E[XY ] − E[X]E[Y ], der im Fall Y = X zum Verschiebungssatz für die Varianz wird: V [X] = Cov(X, X) = E[XX] − E[X]E[X] = E[X 2 ] − E[X]2 . 1.8.2 Kovarianz und Korrelation Gemäss Satz 12, 1.–3., ist die Kovarianz Cov eine sog. positiv semidefinite, symmetrische Bilinearform. Sie erfüllt daher die Cauchy-Schwarzsche Ungleichung (A.-L. Cauchy, 1789–1857, K. H. A. Schwarz, 1843–1921) Cov(X, Y )2 = Cov(X, Y )Cov(X, Y ) ≤ Cov(X, X)Cov(Y, Y ) = V [X]V [Y ] und damit (durch Wurzelziehen) |σXY | = |Cov(X, Y )| ≤ ! V [X] ! V [Y ] = σX σY . Es ist üblich, die Kovarianz durch das Produkt der Standardabweichungen zu dividieren – damit erhält man den Korrelationskoeffizienten: Definition 20 (Korrelationskoeffizient) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X, Y : Ω → R reelle Zufallsvariablen mit E[|X|], E[|Y |], E[|XY |] < ∞. Dann heisst Cov(X, Y ) σXY ! rXY ≡ Kor(X, Y ) := ! . = σX σY V [X] V [Y ] der Korrelationskoeffizient von X und Y . (46) 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 73 Bemerkungen: • Mit der Cauchy-Schwarzschen Ungleichung für die Kovarianz gilt |rXY | ≤ 1. • Zwei Zufallsvariablen X, Y mit rXY = 0 (und damit σXY = 0) heissen unkorreliert. • Sind X und Y stochastisch unabhängig, so sind sie auch unkorreliert, aber nicht umgekehrt! Die Kovarianz oder der Korrelationskoeffizient der Zufallsvariablen X und Y geben Auskunft über den Grad des monotonen Zusammenhangs zwischen X und Y . Wir illustrieren dies an Hand der bivariaten Normalverteilung: 7 f (X,Y) (x,y), r XY = 0 6 5 x 5 1 0.0 01 0. 0.01 y y y 0.05 0 0.03 0 -1 1 -2 -5 1 01 0. 0.0 6 2 0.03 x 4 3 2 0 3 1 0 0.03 -2 2 0.01 0.03 05 1 0.0 5 0. 0.07 0.0 -4 -4 0.0 -2 4 0.0 0 01 0.01 0 4 0. .03 0.01 2 0.05 f (X,Y) (x,y), r XY < 0 f (X,Y) (x,y), r XY > 0 6 -2 -3 -8 -6 -4 -2 0 x Ist der Zusammenhang zwischen X und Y hingegen nicht-monoton, so ist es möglich, dass rXY = 0 gilt, obwohl X und Y stochastisch abhängig sind! 1.8.3 Verteilung der Transformierten In der folgenden Tabelle listen wir die Verteilungen von einigen Transformierten Y = g ◦ X von Zufallsvektoren X = (X1 , X2 , . . . , Xn ) , n ∈ N, auf. Dabei wird immer angenommen, dass die Zufallsvariablen X1 , X2 , . . . , Xn gegenseitig unabhängig sind. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) Verteilung der Xi B(ni , p) Transformation Y n Xi i=1 N B(ri , p) n i=1 n P(λi ) i=1 n χ2ni Xi Xi Verteilung von Y n B ni , p i=1n NB ri , p i=1 n P λi i=1 χ2 n Xi i=1 N (µi , σi2 ) Cauchy(ti , si ) i=1 n i=1 n N (0, 1) χ2ni X1 ∼ N (0, 1) X2 ∼ χ2n n i=1 N Xi µi , i=1 Xi Cauchy n ni n Xi2 σi2 i=1 ti , i=1 n si i=1 χ2n i=1 X1 X2 X1 /n1 N (0, 1) 1.8.4 n 74 Cauchy(0, 1) Fn1 ,n2 X2 /n2 X ! 1 X2 /n tn Zentraler Grenzwertsatz Wir betrachten jetzt eine Folge Xi = X1 , X2 , X3 , . . . von reellen Zufallsvariablen, die gegenseitig unabhängig sind und die alle dieselbe Verteilung haben. Man spricht von unabhängigen und identisch verteilten (englisch: independent and identically distributed, abgekürzt i. i. d. oder einfach iid ) Zufallsvariablen. Der Erwartungswert und die Varianz der Xi seien E[Xi ] = µ, V [Xi ] = σ 2 , i = 1, 2, 3, . . . , mit µ ∈ R, σ > 0 (insbesondere müssen sowohl die Erwartungswerte als auch die Varianzen aller Xi existieren). Wir betrachten jetzt die n-te Teilsumme der Xi , Sn := n i=1 Xi , n ∈ N, 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 75 die wieder eine reelle Zufallsvariable ist. Gemäss Satz 10 und Satz 11 gelten # " n n E[Sn ] = E Xi = E[Xi ] = nµ, i=1 V [Sn ] = V " n i=1 # Xi = i=1 n V [Xi ] = nσ 2 , i=1 für n ∈ N. Die reellen Zufallsvariablen Zn := Sn − E[Sn ] Sn − nµ ! , = √ nσ V [Sn ] n ∈ N, sind standardisiert, d. h. E[Zn ] = 0 und V [Zn ] = 1, n ∈ N. Der zentrale Grenzwertsatz sagt aus, dass für n → ∞ die Verteilung von Zn gegen die Standardnormalverteilung konvergiert: Satz 14 (Zentraler Grenzwertsatz) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien Xi : Ω → R, i ∈ N, unabhängige und identisch verteilte reelle Zufallsvariablen mit E[Xi ] = µ und V [Xi ] = σ 2 , i ∈ N, mit µ ∈ R und σ > 0. Wir betrachten die standardisierten Zufallsvariablen Zn := Sn − nµ √ , nσ Sn := n Xi , n ∈ N. i=1 Für die (kumulativen) Verteilungsfunktionen von Zn gilt lim FZn (z) = Φ(z), n→∞ z ∈ R, (47) wobei Φ die (kumulative) Verteilungsfunktion der Standardnormalverteilung N (0, 1) bezeichnet. Bemerkung: Falls Xi ∼ N (µ, σ 2 ), i ∈ N, so gelten gemäss der Tabelle in Kap. 1.8.3 sowie gemäss Kap. 1.5.2 Sn = n Xi ∼ N (nµ, nσ 2 ), i=1 Zn = Sn − nµ √ ∼ N (0, 1), nσ für jedes n ∈ N. Bemerkenswert am zentralen Grenzwertsatz ist aber, dass auch für nicht normalverteilte Zufallsvariablen Xi die Verteilung der standardisierten Zufallsvariablen Zn gegen die Standardnormalverteilung konvergiert. Beispiel/Anwendung: (Normal-Approximation) Seien Xi ∼ B(1, p), i ∈ N, unabhängige Bernoulli-verteilte Zufallsvariablen mit Parameter p ∈ (0, 1). Gemäss den Tabellen im Kap. 1.6.2 gelten E[Xi ] = p =: µ, V [Xi ] = p(1 − p) =: σ 2 , i ∈ N. 1 WAHRSCHEINLICHKEITSRECHNUNG (FORTS.) 76 Gemäss der Tabelle in Kap. 1.8.3 sind die n-ten Teilsummen der Xi binomialverteilt: n Sn = Xi ∼ B(n, p), n ∈ N. i=1 Die (kumulativen) Verteilungsfunktionen der standardisierten Zufallsvariablen Zn = Sn − np Sn − nµ √ = ! , nσ np(1 − p) n ∈ N, erfüllen nach dem zentralen Grenzwertsatz: lim FZn (z) = Φ(z), z ∈ R. n→∞ ! Mit S = np + np(1 − p)Z , n ∈ N, gilt nach Kap. 1.5 (a := np, b := n n ! np(1 − p)) für die (kumulativen) Verteilungsfunktionen: s − np , s ∈ R, n ∈ N. FSn (s) = FZn ! np(1 − p) Für grosse Werte von n erhalten wir nun wegen des zentralen Grenzwertsatzes eine Approximation der Binomial- durch die Normalverteilung: n k s − np n−k , p (1 − p) Φ ! k np(1 − p) min{ s,n} FSn (s) = k=0 s ∈ R. (48) Die Funktion Φ auf der rechten Seite von (48) ist viel leichter auszuwerten als die Summe und auch numerisch günstiger, da keine grossen Binomialkoeffizienten auftreten. Als Faustregel ist die Näherung (48) hinreichend gut, falls σS2 n = np(1−p) ≥ 9. Sei z. B. p = 1/6, dann ist diese Faustregel erfüllt für n ≥ 65: 65 61 65 9.03. 1 B(65,1/6) N(65*1/6,65*1/6*5/6) 0.9 0.8 0.7 FX (x) 0.6 0.5 0.4 0.3 0.2 0.1 0 0 5 10 15 x 20 25 2 STATISTIK 2 77 Statistik Das Gebiet der Statistik umfasst Methoden, um empirische Daten zu analysieren. Diese Methoden basieren auf der in Kap. 1 behandelten Wahrscheinlichkeitstheorie. Die Statistik umfasst die drei Teilgebiete • deskriptive (beschreibende) Statistik: Verdichtung von Daten zu Tabellen, Diagrammen, Kenngrössen • induktive (mathematische, schliessende) Statistik: Ableiten von Eigenschaften der Grundgesamtheit aus einer Stichprobe. Schätz- und Testverfahren. • explorative (analytische) Statistik (data mining): systematische Suche nach möglichen Zusammenhängen zwischen Daten Wir werden hier nur kurz auf die deskriptive Statistik eingehen und uns dann auf die induktive Statistik konzentrieren. 2.1 Erzeugung von Pseudo-Zufallszahlen in MATLAB Aus MATLABs “Statistics Toolbox” (doc stats) haben wir bereits die Funktionen • ...pdf zur Auswertung von Wahrscheinlichkeits(dichte)funktionen (fX ), • ...cdf zur Auswertung von (kumulativen) Verteilungsfunktionen (FX ), • ...inv zur Auswertung von Quantilfunktionen (QX ), und • ...stat zur Berechnung von Erwartungswert und Varianz (E[X], V [X]), kennen gelernt. Mögliche Verteilungen waren dabei Funktionsname unid... bino... hyge... nbin... poiss... unif... exp... chi2... f... norm... t... Verteilung U{1,2,...,n} B(n, p) H(N, M, n) N B(r, p) P(λ) U(a, b) Exp(λ) χ2n Fm,n N (µ, σ 2 ) tn Parameter n n, p N, M, n r, p λ a, b 1/λ (!) n m, √ n µ, σ 2 (!) n Mit den Funktionen ...rnd können wir Pseudo-Zufallszahlen mit einer vorgegebenen Verteilung erzeugen. So erzeugt z. B. der Befehl r = binornd(n,p,N,1) 2 STATISTIK 78 einen Spaltenvektor der Länge N (eine (N ×1)-Matrix) von Realisierungen binomialverteilter Zufallsvariablen, Xi ∼ B(n, p), i = 1, 2, . . . , N (iid). Die erzeugten Zahlen sind keine echten Zufallszahlen, denn sie werden von einem (deterministischen) Algorithmus erzeugt. Sie haben jedoch viele Eigenschaften von echten Zufallszahlen, und sie sind bei Bedarf reproduzierbar. Da es in der Regel schwierig ist, an echte statistische Datensätze zu kommen (wenn man nicht gerade selbst eine Studie durchführt), werden wir unsere statistischen Methoden an solchen simulierten Daten illustrieren und ausprobieren. 2.2 Deskriptive Statistik Wir betrachten hier zwei simulierte Datensätze mit jeweils n := 10000 Datenpunkten. Die typische Annahme in der Statistik ist, dass jeder Datensatz (jede Stichprobe) Realisierungen von unabhängigen und identisch verteilten (iid) Zufallsvariablen enthält, wobei deren Verteilung natürlich für jede der beiden Stichproben unterschiedlich sein kann. In der schliessenden Statistik versucht man, anhand der Stichproben Aussagen über diese (unbekannten!) Verteilungen sowie über den Zusammenhang der zugrunde liegenden Zufallsvariablen zu machen. In der deskriptiven Statistik geht es hingegen um eine übersichtliche Darstellung der Daten. Wir zeichnen zuerst die Rohdaten, d. h. die Punkte (i, xi ), i = 1, 2, . . . , n: 160 150 xi 140 130 120 110 Datensatz 1 Datensatz 2 100 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 i Es gibt viele weitere Darstellungen, mit denen die Datensätze deutlich übersichtlicher dargestellt werden können, z. B. • den Boxplot (box-and-whisker-plot), • das Histogramm (Häufigkeitsverteilung), • die empirische (kumulative) Verteilungsfunktion. 2 STATISTIK 79 boxplot 900 155 800 histogram 0.9 150 Datensatz 1 Datensatz 2 0.8 700 145 0.7 600 140 cdfplot 1 Datensatz 1 Datensatz 2 500 130 400 F(x) 0.6 135 0.5 0.4 125 300 0.3 120 200 0.2 115 100 110 1 2 0 100 0.1 120 140 160 0 100 120 140 160 x Auskünfte über den Zusammenhang zwischen den zugrunde liegenden Zufallsvariablen erhält man z. B. mit • dem Streudiagramm (scatter plot) oder mit • dem dreidimensionalen Histogramm. Ausser den grafischen Darstellungen gehört auch die Berechnung von empirischen Kenngrössen zur deskriptiven Statistik. In der folgenden Tabelle sind einige MATLAB-Befehle dazu angegeben: MATLAB-Befehl quantile median mean mode iqr var std mad cov corrcoef StichprobenQuantile Median Mittelwert Modus (Inter-)Quartilsabstand Varianz Standardabweichung mittlere abs. Abweichung Kovarianzmatrix Korrelationskoeffizienten Datensatz 1 Datensatz 2 133 140 133 140 133 122 (!) 9.00 6.71 44.0 25.2 6.63 5.02 5.30 3.99 Eintrag (1,2): 0.711 Eintrag (1,2): 0.0213 Die Berechnung von einigen dieser Grössen wird im Kapitel über die schliessende Statistik behandelt. 2 STATISTIK 2.3 80 Schliessende Statistik Im vorherigen Kapitel über die beschreibende Statistik hatten wir Stichproben {x1 , x2 , . . . , xn } ⊆ R vom Umfang n ∈ N grafisch dargestellt oder durch wenige Zahlen charakterisiert. In der schliessenden Statistik nehmen wir an, die i-te Beobachtung xi sei eine Realisierung der i-ten Stichprobenvariable Xi , i = 1, 2, . . . , n. Dabei seien die Stichprobenvariablen X1 , X2 , . . . , Xn : Ω → R iid reelle Zufallsvariablen (wie immer auf einem Wahrscheinlichkeitsraum (Ω, Σ, P )). Anders gesagt, die Stichprobe x := (x1 , x2 , . . . , xn ) ∈ Rn wird aufgefasst als eine Realisierung der n-dimensionalen reellen Zufallsvariablen X : Ω → Rn , X := (X1 , X2 , . . . , Xn ) , deren Komponenten iid sind. 2.3.1 Parameterschätzung In einem parametrischen statistischen Modell nimmt man an, die (kumulative) Verteilungsfunktion der Stichprobenvariablen Xi sei gegeben durch “P (Xi ≤ x)” = F (x; ϑ), x ∈ R, i = 1, 2, . . . , n, mit einer bekannten Funktion F und mit einem Parameter ϑ ∈ Θ (Parameterraum), dessen wahrer Wert unbekannt ist. Der Parameter kann auch ein Vektor sein – in einem d-dimensionalen parametrischen statistischen Modell gilt Θ ⊆ Rd . Beachten Sie, dass in der Regel n d gilt, d. h. wir haben viel mehr Beobachtungen als Modellparameter. Beispiele: 1. Die Stichprobenvariablen erfüllen Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem Parameter p ∈ (0, 1), dessen wahrer Wert unbekannt ist. Ihre kumulative Verteilungsfunktion ist gegeben durch min{ x,50} “P (Xi ≤ x)” = 50 k p (1 − p)50−k =: F (x; p), k k=0 x ∈ R, i = 1, 2, . . . , n, und wir erhalten ein eindimensionales parametrisches statistisches Modell mit Parameter ϑ := p. 2. Die Stichprobenvariablen erfüllen Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n, mit Parametern µ ∈ R, σ > 0, deren wahre Werte unbekannt sind. Die kumulative Verteilungsfunktion der Xi ist gegeben durch x √ “P (Xi ≤ x)” = −∞ 1 2πσ 2 e− (ξ−µ)2 2σ2 dξ =: F (x; µ, σ), x ∈ R, i = 1, 2, . . . , n, und wir erhalten ein zweidimensionales parametrisches statistisches Modell mit Parameter ϑ := (µ, σ) . 2 STATISTIK 81 Wir beschränken uns im Folgenden auf den Fall d = 1 (eindimensionale parametrische statistische Modelle), und wir wollen jetzt den wahren Wert des Parameters, ϑ0 ∈ Θ, aus der gegebenen Stichprobe x ∈ Rn schätzen. Dazu verwenden wir eine Schätzfunktion (kurz: einen Schätzer ) Tn := gn ◦ X : Ω → R, Tn (ω) = gn (X(ω)) , ω ∈ Ω, (49) wobei gn : Rn → R eine Funktion ist, so dass Tn eine reelle Zufallsvariable gn X ist: Ω −→ Rn −→ R. Der Schätzwert für den wahren Parameterwert ϑ0 ∈ Θ aufgrund der gegebenen Stichprobe x ∈ Rn ist dann gegeben durch ϑ̂ := gn (x). Dieser Schätzwert ist eine Realisierung der Zufallsvariablen (Schätzfunktion) Tn und damit zufällig! Im Allgemeinen gilt also ϑ̂ = ϑ0 . Wir geben hier zwei ausgewählte Funktionen gn an, die häufig zur Parameterschätzung verwendet werden: Name Funktion gn der Schätzers arithmetisches x := Mittel korrigierte Stichprobenvarianz s2 := 1 n 1 n−1 n i=1 n geschätzter MATLAB- Parameter ϑ Befehl Erwartungswert xi E[Xi ] = µ 2 (xi − x) i=1 Varianz V [Xi ] = σ 2 mean var Bemerkung: Beachten Sie, dass µ und σ 2 lediglich Bezeichnungen für die Erwartungswerte und Varianzen der Zufallsvariablen Xi , i = 1, 2, . . . , n, sind. Sie dürfen daraus nicht schliessen, dass die Xi normalverteilt sind (mit Parametern µ und σ 2 )! Die Verteilung der Xi ist in der Tat beliebig. Die in Kap. 2.2 erwähnten MATLAB-Befehle sind alles Schätzer für gewisse Parameter der Verteilung der Stichprobenvariablen X1 , X2 , . . . , Xn : MATLABBefehl quantile median mode Schätzung für QXi QXi (0.5) argmax fXi (x) MATLABBefehl iqr std mad Schätzung für QXi (0.75) ! − QXi (0.25) V [Xi ] = σ E [|Xi − E[Xi ]|] x∈R Beispiel: Gegeben sei die folgende Stichprobe vom Umfang 10: i xi 1 2 3 4 5 6 7 8 9 10 −1.08 3.37 5.01 2.46 10.6 −1.04 −1.69 −6.75 6.55 6.34 Wir fassen sie auf als eine Realisierung der 10-dimensionalen stetigen Zufalls variablen X = (X1 , X2 , . . . , X10 ) , deren Komponenten X1 , X2 , . . . , X10 iid reelle Zufallsvariablen sind mit Erwartungswert E[Xi ] = µ und V [Xi ] = σ 2 , i = 1, 2, . . . , 10, mit µ ∈ R, σ > 0. Über die Verteilung der Xi machen wir keine 2 STATISTIK 82 Annahme! Wir berechnen die folgenden Schätzwerte µ̂, σ̂ 2 für den Erwartungswert und die Varianz (arithmetisches Mittel und korrigierte Stichprobenvarianz): 1 xi 2.38, n i=1 1 (xi − x)2 25.8. n − 1 i=1 n µ̂ = x = n σ̂ 2 = s2 = Betrachten wir 1000 solche Stichproben vom Umfang 10 und berechnen für jede Stichprobe die Schätzwerte µ̂, σ̂ 2 , so erhalten wir 1000 verschiedene Schätzwerte. Wir stellen beispielhafte Häufigkeitsverteilungen dieser Schätzwerte in den folgenden Histogrammen dar: 300 1000 Stichproben vom Umfang n=10 300 250 250 200 200 150 150 100 100 50 50 0 1000 Stichproben vom Umfang n=10 0 -5 0 5 Schaetzungen fuer 10 0 µ 20 40 60 Schaetzungen fuer σ 80 2 Ein Merkmal für einen “guten” Schätzer Tn ist, dass seine Werte häufig “nahe” beim wahren Parameterwert ϑ0 liegen. Maximum-Likelihood-Schätzer Wir stellen hier eine häufig verwendete Methode vor, um Schätzer Tn (genauer Funktionen gn ) (49) für bestimmte Parameter zu erhalten. Die Maximum-Likelihood-Methode benötigt Wahrscheinlichkeits(dichte)funktionen, d. h. die iid reellen Zufallsvariablen Xi müssen diskret oder stetig sein. Für die kumulative Verteilungsfunktion der Xi , i = 1, 2, . . . , n, gilt also entweder F (x; ϑ) = x f (xi ; ϑ) oder F (x; ϑ) = xi ∈im(Xi ) xi ≤x f (ξ; ϑ) dξ, −∞ mit einer gegebenen Wahrscheinlichkeits(dichte)funktion f ( · ; ϑ) : im(Xi ) → [0, 1] bzw. f ( · ; ϑ) : R → [0, ∞), für jeden beliebigen (festen) Wert des Parameters ϑ ∈ Θ. Die gemeinsame Wahrscheinlichkeits(dichte)funktion ist wegen der gegenseitigen Unabhängigkeit von X1 , X2 , . . . , Xn nach Satz 8 gegeben durch fX (x; ϑ) = n * f (xi ; ϑ), x = (x1 , x2 , . . . , xn ) ∈ Rn . i=1 Für eine Stichprobe x ∈ Rn definieren wir die Likelihood-Funktion L(ϑ; x) := fX (x; ϑ), ϑ ∈ Θ. 2 STATISTIK 83 Im Falle von diskreten Zufallsvariablen Xi gibt L(ϑ; x) die Wahrscheinlichkeit dafür an, mit dem Parameterwert ϑ ∈ Θ das Ergebnis x ∈ Rn zu beobachten. Entsprechend ist der Maximum-Likelihood-Schätzer (maximum likelihood estimator) definiert als derjenige Parameterwert, für den L maximal ist (bei gegebener Beobachtung (Stichprobe) x ∈ Rn ): ϑ̂mle = gn (x) := argmax L(ϑ; x). (50) ϑ∈Θ Im Falle von stetigen Zufallsvariablen Xi wird derselbe Schätzer (50) verwendet, auch wenn in diesem Fall die direkte Interpretation der Funktionswerte von L als Wahrscheinlichkeit nicht mehr möglich ist. Beispiele: 1. (Schätzung der Erfolgswahrscheinlichkeit bei der Binomialverteilung) Es gelte Xi ∼ B(50, p), i = 1, 2, . . . , n, mit einem Parameter p ∈ (0, 1), dessen wahrer Wert unbekannt ist. Zu seiner Schätzung liege eine Stichprobe vom Umfang n vor: x ∈ {0, 1, 2, . . . , 50}n . Der Maximum-Likelihood-Schätzer für die wahre Erfolgswahrscheinlichkeit p0 ∈ (0, 1) ist gegeben durch x 1 . xi = 50n i=1 50 n p̂mle = gn (x) := 2. (Schätzung der Varianz der Normalverteilung bei gegebenem Erwartungswert ) Es gelte Xi ∼ N (µ, σ 2 ), i = 1, 2, . . . , n, mit Erwartungswert µ ∈ R (gegeben) und Varianz σ 2 > 0, deren wahrer Wert unbekannt ist. Zu ihrer Schätzung liege eine Stichprobe vom Umfang n vor: x ∈ Rn . Der Maximum-Likelihood-Schätzer für den wahren Wert der Varianz (bei gegebenem Erwartungswert) ist gegeben durch 1 2 (xi − µ) . n i=1 n 2 σ̂mle = gn (x) := Sei Tn : Ω → R (Zufallsvariable) eine Schätzfunktion für den wahren Wert ϑ0 eines Parameters ϑ ∈ Θ. Die Genauigkeit der Schätzfunktion Tn wird oft durch ihren erwarteten quadratischen Fehler (mean squared error) ausgedrückt: 2 2 MSE[Tn ] := E (Tn − ϑ0 ) = E (Tn − E[Tn ] + E[Tn ] − ϑ0 ) = (E[Tn ] − ϑ0 )2 + V [Tn ] ≥ 0, =:Bias[Tn ] wobei Bias[Tn ] ∈ R die Verzerrung des Schätzers Tn bezeichnet. Ein Schätzer Tn mit E[Tn ] = ϑ0 (Bias[Tn ] = 0) heisst erwartungstreu (unbiased). Beispiel: Wir betrachten das arithmetische Mittel als Schätzer für den Erwartungswert, ϑ0 = E[Xi ], n 1 Xi . Tn := n i=1 2 STATISTIK 84 Nach Satz 10 und Satz 11 gelten # " n 1 E[Tn ] = E Xi = n i=1 # " n 1 Xi = V [Tn ] = V n i=1 1 E[Xi ] = E[Xi ] = ϑ0 , n i=1 n n 1 V [Xi ] V [Xi ] = , n2 n i=1 wobei wir in der zweiten Gleichung die gegenseitige Unabhängigkeit der Stichprobenvariablen X1 , X2 , . . . , Xn verwendet haben. Der Schätzer Tn ist also erwartungstreu (unbiased), und wir erhalten für den erwarteten quadratischen Fehler: V [Xi ] 2 MSE[Tn ] = (E[Tn ] − ϑ0 ) + V [Tn ] = , n ∈ N. n Damit wird auch klar, dass der Schätzwert desto genauer ist, je grösser der Stichprobenumfang n ∈ N ist: lim MSE[Tn ] = 0. n→∞ 1000 Stichproben vom Umfang n=10 500 Stichproben vom Umfang n=20 200 110 180 100 160 90 200 Stichproben vom Umfang n=50 45 40 35 80 140 30 70 120 60 25 50 20 100 80 40 60 10 40 20 20 10 0 0 6 7 8 9 Schaetzung fuer 2.3.2 15 30 10 11 µ 5 0 6 7 8 9 Schaetzung fuer 10 µ 11 6 7 8 9 Schaetzung fuer 10 11 µ Vertrauensintervalle Im letzten Kapitel haben wir gesehen, dass wir mit Hilfe einer Schätzfunktion (einem Schätzer) Tn = gn ◦ X den wahren Wert ϑ0 eines Parameters ϑ ∈ Θ aufgrund einer Stichprobe x ∈ Rn vom Umfang n ∈ N (Realisierung der ndimensionalen reellen Zufallsvariablen X : Ω → Rn ) schätzen können: ϑ̂ := gn (x). Der Schätzwert ϑ̂ ist zufällig, denn er ist eine Realisierung der reellen Zufallsvariablen Tn . Wir hatten bereits bemerkt, dass i. A. ϑ̂ = ϑ0 gilt. Wenn das Bild im(Tn ) ⊆ R überabzählbar unendlich ist, dann gilt sogar “P (Tn = ϑ0 )” = 0! Obwohl mit Hilfe des MSE Aussagen über die Genauigkeit des Schätzers gemacht werden können, hilft uns dieser nicht bei der Beurteilung der Genauigkeit eines erhaltenen Schätzwertes. Selbst wenn der MSE des Schätzers klein ist, kann der Schätzwert ϑ̂ erheblich vom wahren Wert ϑ0 des Parameters abweichen, denn der MSE macht eben nur eine Aussage über die erwartete Genauigkeit des Schätzers. 2 STATISTIK 85 Um die statistische Sicherheit einer Schätzung vorgeben zu können, verwenden wir sog. Intervallschätzer (im Gegensatz zu den im letzten Kapitel behandelten Punktschätzern). Konkret verwenden wir zwei Stichprobenfunktionen Un := gnu ◦ X : Ω → R, Vn := gno ◦ X : Ω → R, Un (ω) = gnu (X(ω)), Vn (ω) = gno (X(ω)), ω ∈ Ω, ω ∈ Ω, wobei gnu , gno : Rn → R Funktionen sind, so dass Un , Vn reelle Zufallsvariablen gu ,go X n n sind: Ω −→ Rn −− −→ R. Definition 21 (Konfidenzintervall) Sei (Ω, Σ, P ) ein Wahrscheinlichkeitsraum, und seien X1 , X2 , . . . , Xn : Ω → R reelle Zufallsvariablen, deren Verteilung von einem Parameter ϑ ∈ Θ ⊆ R abhängt, dessen wahrer Wert ϑ0 unbekannt ist. Seien weiterhin X := (X1 , X2 , . . . , Xn ) und gnu , gno : Rn → R Funktionen, so u o dass Un := gn ◦ X, Vn := gn ◦ X reelle Zufallsvariablen sind. Falls für ein γ ∈ (0, 1) gilt, dass “P (ϑ0 ∈ (Un , Vn ))” = “P (Un < ϑ0 < Vn )” = “P (Un < ϑ0 ∧ Vn > ϑ0 )” ≥ γ, (51) so heisst das (stochastische) Intervall (Un , Vn ) ein Konfidenzintervall für ϑ0 zum Konfidenzniveau γ oder ein γ-Konfidenzintervall für ϑ0 . Bemerkungen: • Andere Bezeichnungen für das Konfidenzintervall sind Vertrauensintervall oder Vertrauensbereich. • Gemäss (51) enthält ein Konfidenzintervall für ϑ0 zum Konfidenzniveau γ den wahren Parameterwert ϑ0 mit einer Wahrscheinlichkeit von mindestens γ. Das Konfidenzniveau γ ∈ (0, 1) können wir beliebig vorgeben und damit die gewünschte statistische Sicherheit selbst festlegen. • An Stelle des Konfidenzniveaus γ kann man auch das Irrtumsniveau α ∈ (0, 1) vorgeben. Zwischen diesen beiden Zahlen besteht die simple Beziehung γ = 1 − α. Wenn (Un , Vn ) ein γ-Konfidenzintervall für ϑ0 ist, so gilt mit (51) und mit der Gegenwahrscheinlichkeit (MAE3, Satz 8, 1.): “P (ϑ0 ∈ (Un , Vn ))” = 1 − “P (ϑ0 ∈ (Un , Vn ))” ≤ 1 − γ = α, d. h. die Wahrscheinlichkeit dafür, dass das Konfidenzintervall (Un , Vn ) den wahren Parameterwert ϑ0 nicht enthält, ist höchstens gleich α. In der Regel wählt man daher ein kleines Irrtumsniveau α und entsprechend ein grosses Konfidenzniveau γ. Häufig verwendete Werte für das Irrtumsniveau sind: α ∈ {0.01, 0.05, 0.10} und entsprechend für das Konfidenzniveau: γ ∈ {0.99, 0.95, 0.90}. • Für eine gegebene Stichprobe x ∈ Rn vom Umfang n ∈ N erhalten wir mit u := gnu (x) und v := gno (x) das Schätzintervall (u, v) ⊆ R. Die Frage, 2 STATISTIK 86 ob ein gegebenes Intervall (u, v) den wahren Parameterwert ϑ0 enthält, ist nicht mehr vom Zufall abhängig, und wir können daher keine Wahrscheinlichkeit dafür angeben. Wir wissen aber, dass wenn wir N ∈ N solcher Stichproben hätten und für jede dieser Stichproben das Schätzintervall berechneten, dann würden mindestens γN dieser Schätzintervalle den wahren Parameterwert enthalten und höchstens αN Schätzintervalle nicht. Die Frage ist jetzt natürlich, wie die Funktionen gnu , gno zu wählen sind, um ein Konfidenzintervall für einen bestimmten Parameter zu erhalten. In der folgenden Tabelle geben wir einige dieser Funktionen für häufig verwendete Intervallschätzer an: Verteilung der Xi (iid) Konfidenzintervall für 2 N (µ, σ ) (σ 2 bekannt) N (µ, σ 2 ) (σ 2 unbekannt) µ µ gnu (x) σ x − cα √ n s x − cα √ n + N (µ, σ 2 ) beliebig (V [Xi ] =: σ 2 bekannt) beliebig (V [Xi ] unbekannt) σ s n−1 c1,α gno (x) σ x + cα √ n s x + cα √ n + s n−1 c2,α E[Xi ] σ x − cα √ n σ x + cα √ n E[Xi ] s x − cα √ n s x + cα √ n cα c1,α c2,α (1 − der N (0, 1)-Verteilung (1 − α2 )-Quantil der tn−1 -Verteilung α (1 − α2 )2Quantil Quantil der χ2n−1 - der χ2n−1 Verteilung Verteilung α 2 )-Quantil (1 − α2 )-Quantil der N (0, 1)-Verteilung n gross! (Satz 14) (1 − α2 )-Quantil der tn−1 -Verteilung n gross! (Satz 14) In dieser Tabelle bezeichnen x das arithmetische Mittel und s die korrigierte Stichprobenvarianz. Wenn das Irrtumsniveau α vergrössert wird (also eine grössere statistische Unsicherheit akzeptiert wird), so werden die Werte für cα kleiner und damit das Konfidenzintervall kürzer. Das Intervall wird ebenfalls kürzer, wenn der Stichprobenumfang n vergrössert wird. Beispiel: Gegeben sei die folgende Stichprobe vom Umfang n = 10: i xi 1 2 3 4 5 6 7 8 9 10 4.15 9.34 −7.04 5.45 3.28 −3.23 0.27 3.37 16.3 13.1 Wir nehmen an, die zugrunde liegenden Stichprobenvariablen seien normalverteilt, Xi ∼ N (µ, σ 2 ), mit Parametern µ ∈ R, σ 2 > 0, deren wahre Werte beide 2 STATISTIK 87 unbekannt sind. Wir schätzen diese Parameterwerte mit dem arithmetischen Mittel und mit der korrigierten Stichprobenvarianz: 1 µ̂ = x = xi 4.50, n i=1 n 1 2 σ̂ = s = (xi − x) 50.1. n − 1 i=1 n 2 2 Wir wollen jetzt 95 %-Konfidenzintervalle (Konfidenzniveau γ = 0.95, Irrtumsniveau α = 0.05) für µ und σ berechnen. Dazu verwenden wir die obige Tabelle. Zur Bestimmung des 95 %-Konfidenzintervalls für µ benötigen wir das 0.975Quantil der t9 -Verteilung. Die Quantile der t-Verteilung sind tabelliert (z. B. in der Formelsammlung von Papula, S. 514), und wir erhalten c0.05 2.26. Damit ist das Schätzintervall für µ für diese Stichprobe gegeben durch s s (−0.567, 9.56) . x − c0.05 √ , x + c0.05 √ n n Zur Bestimmung des 95 %-Konfidenzintervalls für σ benötigen wir das 0.975Quantil und das 0.025-Quantil der χ29 -Verteilung. Auch die Quantile der χ2 Verteilung sind tabelliert (z. B. in der Formelsammlung von Papula, S. 512), und wir erhalten c1,0.05 19.02 und c2,0.05 2.70. Damit ist das Schätzintervall für σ für diese Stichprobe gegeben durch + + n−1 n−1 s (4.87, 12.9) . ,s c1,α c2,α Tatsächlich wurde die obige Stichprobe erzeugt als (gerundete) Zufallszahlen aus einer N (2, 16)-Verteilung. Das Schätzintervall für µ enthält also den wahren Parameterwert µ = 2, aber das Schätzintervall für σ enthält den wahren Parameterwert σ = 4 nicht. Betrachten wir 100 Stichproben vom Umfang n = 10 aus einer N (2, 16)Verteilung, so erhalten wir für jede Stichprobe andere Schätzintervalle für µ und σ. Wir erwarten, dass mindestens 95 der 100 Schätzintervalle den wahren Parameterwert enthalten, und dies ist auch tatsächlich der Fall: 2 STATISTIK 88 µ =2 97 Intervalle enthalten 100 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 -5 0 5 95 % - Schaetzintervalle fuer 2.3.3 σ=4 98 Intervalle enthalten 100 2 µ 4 6 8 10 95 % - Schaetzintervalle fuer σ Parameterschätzung in MATLAB In MATLAB können Sie für einige Verteilungen die Funktionen ...fit verwenden, um die Parameter der Verteilung aus einer Stichprobe zu schätzen (sowohl Punkt- als auch Intervallschätzer). Die folgenden Befehle benötigen jeweils mehrere Ausgabeargumente (Dokumentation lesen!): Verteilung Parameterschätzung B(n, p) N B(r, p) P(λ) U(a, b) Exp(λ) N (µ, σ 2 ) binofit(x,n) nbinfit(x) poissfit(x) unifit(x) expfit(x) normfit(x) geschätzte(r) Parameter p r, p λ a, b 1/λ µ, σ bekannter Parameter n – – – – – LITERATUR 89 Literatur [1] U. Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik; Vieweg [2] L. Papula: Mathematik für Ingenieure und Naturwissenschaftler (3 Bände); Vieweg & Teubner [3] M. Sachs: Wahrscheinlichkeitsrechnung und Statistik; Hanser [4] W. A. Stahel: Statistische Datenanalyse; Vieweg