Stochastik Prof. Dr. Ulrich Horst Wintersemester 2013/2014 Institut für Mathematik Mathematisch-Naturwissenschaftliche Fakultät II Humboldt-Universität zu Berlin Dieses Skript wurde von Alexander Prang in Anlehnung an die Vorlesung erstellt. Für die Korrektheit des gesamten Inhaltes gibt es keine Garantie. Fragen, Fehler und Anmerkungen: [email protected] Letzte Änderung: 7. Februar 2014 1 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Inhaltsverzeichnis Allgemeine Orientierung 1 Kombinatorische Analyse 1.1 Grundprinzip des Zählens . . . . . . . 1.2 Permutation . . . . . . . . . . . . . . . 1.3 Variation und Kombination . . . . . . 1.4 Multinomialkoeffizient . . . . . . . . . 1.5 Anzahl der ganzzahligen Lösungen von 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 6 7 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 9 10 11 3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . 3.2 Gesetz der totalen Wahrscheinlichkeit und Satz von Bayes . . 3.3 Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . 3.4 Formalisierung von Versuchsfolgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 15 17 19 4 Diskrete Zufallsvariablen 4.1 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . 4.2 Erwartungswert und Varianz diskreter Zufallsvariablen 4.3 Spezielle diskrete Verteilungen . . . . . . . . . . . . . 4.3.1 Bernoulli-Verteilung . . . . . . . . . . . . . . . 4.3.2 Binomialverteilung . . . . . . . . . . . . . . . . 4.3.3 Poisson-Verteilung . . . . . . . . . . . . . . . . 4.3.4 Geometrische Verteilung . . . . . . . . . . . . . 4.3.5 Negative Binomialverteilung . . . . . . . . . . . 4.3.6 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 23 25 25 26 28 29 29 31 . . . . . . . . . . . . . . . . . . . . Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 34 35 38 38 39 41 Exkurs: Mehrdimensionale Differentiation und Integration Mehrdimensionale Differentiation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mehrdimensionale Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 43 44 6 Gemeinsame Verteilung von Zufallsvariablen 6.1 Gemeinsame Verteilungsfunktion . . . . . . . . . . . . . . . 6.2 Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . . 6.3 Summen unabhängiger Zufallsvariablen . . . . . . . . . . . 6.4 Statistik für unabhängige normalverteilte Zufallsvariablen . 6.4.1 Das schwache Gesetz der großen Zahlen . . . . . . . 6.4.2 Schätzer für µ bei bekanntem σ . . . . . . . . . . . . 6.4.3 Schätzer für σ bei bekanntem µ . . . . . . . . . . . . 6.4.4 Schätzer für σ 2 bei bekanntem µ . . . . . . . . . . . 6.4.5 Schätzer für µ bei unbekannten σ . . . . . . . . . . . 6.5 Bedingte Verteilung von Zufallsvariablen . . . . . . . . . . . 6.5.1 Bedingte Verteilung diskreter Zufallsvariablen . . . . 6.5.2 Bedingte Verteilung absolutstetiger Zufallsvariablen 48 48 50 51 55 56 57 58 59 60 61 61 62 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gleichungen 2 Axiome der Wahrscheinlichkeitsrechnung 2.1 Mengenoperationen mit Ereignissen . . . . . . . . . 2.2 Axiome der Wahrscheinlichkeitsrechnung . . . . . . 2.3 Einfache Eigenschaften des Wahrscheinlichkeitsmaß 2.4 Laplace-Experimente . . . . . . . . . . . . . . . . . 5 Absolutstetige Zufallsvariablen 5.1 Approximation der Binomialverteilung . . . 5.2 Absolutstetige Zufallsvariablen . . . . . . . 5.3 Erwartungswert und Varianz absolutstetiger 5.4 Spezielle absolutstetige Verteilungen . . . . 5.4.1 Gleichverteilung . . . . . . . . . . . 5.4.2 Normalverteilung . . . . . . . . . . . 5.4.3 Exponentialverteilung . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Prof. Dr. Ulrich Horst Stochastik 7 Eigenschaften des Erwartungswertes 7.1 Erwartungswert der Summe von Zufallsvariablen . . . . . . 7.2 Varianz, Kovarianz und Korrelation . . . . . . . . . . . . . 7.3 Bedingte Erwartung von Zufallsvariablen . . . . . . . . . . 7.3.1 Bedingte Erwartung diskreter Zufallsvariablen . . . 7.3.2 Bedingte Erwartung absolutstetiger Zufallsvariablen Quellen WS 2013/2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 65 69 69 70 72 3 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Allgemeine Orientierung Ziel Bereitstellung eines mathematischen Modells mit dem zufällige Phänomene beschrieben und interpretiert werden können. Ein solches Modell ist durch das Tripel (Ω, F, P) gegeben, dem sogenannten Wahrscheinlichkeitsraum. Doch wofür stehen die Komponenten dieses Tripels? • Ω ist eine nichtleere Menge, der Ergebnisraum. Die Elemente ω ∈ Ω heißen Ergebnisse und werden als mögliche Ausgänge des Zufallsexperiments interpretiert. • F ist eine σ-Algebra über der Grundmenge Ω, also eine Menge bestehend aus Teilmengen E von Ω, die Ω enthält und abgeschlossen gegenüber der Bildung von Komplementen und abzählbaren Vereinigungen ist. Die Elemente E ∈ F heißen Ereignisse. Sei ω ∈ Ω die Realisierung eines Experiments, dann sagen wir, dass das Ereignis E eingetreten ist, falls ω ∈ E gilt. Die σ-Algebra F selbst wird auch Ereignisalgebra oder Ereignisfeld genannt. • P ist eine Abbildung P : F → [0, 1] und heißt Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F). Frage Wie groß ist die Wahrscheinlichkeit eines Full House (z.B. 3 Damen und 2 Könige) beim Poker? Man erhält 5 von 52 Karten, welche aus vier verschiedenen Farben (Kreuz ♣, Herz ♥, Pik ♠, Karo ♦) und jeweils dreizehn Werten (2, 3, . . . , 9, 10, Bube, Dame, König, Ass) bestehen. Antwort Die Menge der möglichen Versuchsausgänge Ω ist die Menge aller Pokerhände (z.B. Kreuz 8, Kreuz Dame, Herz 8, Herz 9, Karo Ass). Das Ereignis E, welches von Interesse ist, ist das man ein Full House bekommt. P(E) = 4 |E| |Ω| Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 1 Kombinatorische Analyse 1.1 Grundprinzip des Zählens Lemma Wir betrachten zwei (verschiedene) Experimente. Das erste Experiment hat m ∈ N und das zweite Experiment hat n ∈ N mögliche Ausgänge. Dann können wir Ω als Matrix wie folgt darstellen. (1, 1) · · · (1, n) .. .. .. . . . (m, 1) ··· (m, n) Nach dem Grundprinzip des Zählens gibt es also m · n mögliche Versuchsausgänge. Satz Wir betrachten r (verschiedene) Einzelexperimente, wobei Experiment i mit 1 ≤ i ≤ r genau ni mögliche Versuchsausgänge erlaubt. Dann gibt es nach dem verallgemeinerten Grundprinzip des Zählens r Y ni = n1 · . . . · nr mit ni ∈ N i=1 mögliche Versuchsausgänge für die r Experimente. Beispiel Wie viele fünfstellige Berliner KFZ-Kennzeichen B- gibt es? Lösung Um diese Frage zu klären, geht man wie folgt vor. • Lege den ersten Buchstaben fest. (26 Möglichkeiten) • Lege den zweiten Buchstaben fest. (26 Möglichkeiten) • Lege die erste Ziffer fest. (9 Möglichkeiten) • Lege die zweite Ziffer fest. (10 Möglichkeiten) • Lege die dritte Ziffer fest. (10 Möglichkeiten) Damit ergeben sich 26 · 26 · 9 · 10 · 10 = 608.400 verschiedene Möglichkeiten. Beispiel Wie viele fünfstellige Berliner KFZ-Kennzeichen B- gibt es ohne Wiederholungen? Lösung Um diese Frage zu klären, geht man wie folgt vor. • Lege den ersten Buchstaben fest. (26 Möglichkeiten) • Lege den zweiten Buchstaben fest. (25 Möglichkeiten) • Lege die erste Ziffer fest. (9 Möglichkeiten) • Lege die zweite Ziffer fest. (9 Möglichkeiten) • Lege die dritte Ziffer fest. (8 Möglichkeiten) Damit ergeben sich 26 · 25 · 9 · 9 · 8 = 421.200 verschiedene Möglichkeiten. 1.2 Permutation Definition Gegeben sei eine Menge mit n ∈ N unterscheidbaren Objekten. Die möglichen Anordnungen aller n Elemente bezeichnet man als Permutation. Darf jedes der n Elemente jeweils nur einmal vorkommen (Ziehen ohne Zurücklegen) so gilt für die Anzahl der möglichen Anordnungen Folgendes. n! := n Y i = n · (n − 1) · . . . · 1 bzw. n! := n · (n − 1)! i=1 Beispiel Wie viele mögliche Tabellenstände in der Fußball-Bundesliga gibt es? 5 Prof. Dr. Ulrich Horst Lösung Stochastik WS 2013/2014 Es gibt genau 18! = 6.402.373.705.728.000 mögliche Tabellenstände. Beispiel Wie viele Tabellenstände gibt es, wo der BVB auf einem Abstiegsplatz steht? Lösung Um diese Frage zu klären, geht man wie folgt vor. • Lege den Abstiegsplatz für den BVB fest. (3 Möglichkeiten) • Platziere die restlichen 17 Vereine. (17! Möglichkeiten) Es gibt also 3 · 17! = 1.067.062.284.288.000 Tabellenstände. Beispiel Wie viele (unterscheidbare) Anordnungen können wir aus PEPPER bilden? Lösung Es gibt 6! Möglichkeiten P1 E1 P2 P3 E2 R anzuordnen, jedoch liefern P1 E1 P2 P3 E2 R und P3 E2 P1 P2 E1 R dasselbe Wort. Wir legen also zunächst die Plätze für P und E fest und lassen dann unsere P ’s und E’s permutieren. Wir haben also 3! Möglichkeiten die P ’s und 2! Möglichkeiten die E’s zu permutieren. Die Anzahl der unterscheidbare Anordnungen beträgt damit also 6! = 60. 3! · 2! 1.3 Variation und Kombination Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen aus je k ≤ n Elementen dieser Menge mit Berücksichtigung der Reihenfolge bezeichnet man als Variation. (i) Darf jedes Element jeweils nur einmal vorkommen (ohne Zurücklegen) so gilt n · (n − 1) · . . . · (n − k + 1) = n! (n − k)! (ii) Darf jedes Element beliebig oft vorkommen (mit Zurücklegen) so gilt n . . · n} = nk | · .{z k-mal Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen aus je k ≤ n Elementen dieser Menge ohne Berücksichtigung der Reihenfolge bezeichnet man als Kombination. (i) Darf jedes Element jeweils nur einmal vorkommen (ohne Zurücklegen) so gilt n n! n = = k n−k (n − k)! · k! (ii) Darf jedes Element beliebig oft vorkommen (mit Zurücklegen) so gilt n+k−1 (n + k − 1)! n+k−1 = = k (n − 1)! · k! n−1 Beispiel Es soll ein Komitee aus 3 Personen aus einer Gruppe von 20 Personen gebildet werden. Wie viele verschiedene Komitees können gebildet werden? Lösung Es gibt 20 3 = 20 · 19 · 18 = 1140 verschiedene Möglichkeiten ein solches Komitee zu bilden. 3·2·1 Beispiel Es soll ein Komitee aus 2 Frauen und 3 Männern aus einer Gruppe von 5 Frauen und 7 Männern gebildet werden. Wie viele verschiedene Komitees können gebildet werden? 5 7 mögliche Gruppen aus 2 Frauen und mögliche Gruppen aus 3 Männern. Aus 2 3 5 7 dem Grundprinzip des Zählens folgt, dass es damit · = 350 mögliche Komitees gibt. 2 3 Lösung Es gibt 6 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Wie viele verschiedene Poker-Hände gibt es? Lösung 52 Man bekommt 5 von 52 Karten. Es gibt damit als Möglichkeiten. 5 Beispiel Wie viele Möglichkeiten für ein Full House, also 3 Karten von einem Wert und 2 Karten von einem anderen Wert, gibt es? Lösung Um diese Frage zu klären, geht man wie folgt vor. • Wähle den ersten Wert. (13 Möglichkeiten) • Wähle den zweiten Wert. (12 Möglichkeiten) • Wähle 3 von 4 Farben für den ersten Wert. 4 3 Möglichkeiten 4 2 Möglichkeiten • Wähle 2 von 4 Farben für den zweiten Wert. 4 4 Es gibt also insgesamt 13 · 12 · · verschiedene Möglichkeiten ein Full House zu bekommen. 3 2 1.4 Multinomialkoeffizient Definition Gegeben sei eine Menge mit n ∈ N Objekten. Die möglichen Anordnungen in k ≤ n Gruppen mit jeweils ni ∈ N0 Objekten für i = 1, . . . , k sind durch den Multinomialkoeffizienten gegeben. n n1 , . . . , n k n! = n! · = n1 ! · . . . · nk ! k Y !−1 ni ! mit i=1 k X ni = n i=1 Beispiel Wie viele Möglichkeiten gibt es 10 Studierende auf 2 Teams (A und B) zu je 5 zu verteilen? Lösung Es gibt insgesamt 10 10! = 252 verschiedene Möglichkeiten. = 5, 5 5! · 5! Beispiel Wie viele Möglichkeiten gibt es 10 Studierende auf 2 Teams zu je 5 zu verteilen? Lösung Da die Teams nicht unterscheidbar sind, gibt es 10! = 126 verschiedene Möglichkeiten. 5! · 5! · 2! 1.5 Anzahl der ganzzahligen Lösungen von Gleichungen Frage Wie viele positive ganzzahligen Lösungen gibt es, welche die folgende Gleichung erfüllen? k X xi = x1 + . . . + xk = n mit k ≤ n und xi ∈ N für i = 1, . . . , k i=1 Lösung Gegeben seien n nicht unterscheidbare Objekte, welche aneinandergereiht sind. Diese Objekte sollen in k nichtleere Gruppen unterteilt werden. Man kann k − 1 der n − 1 Zwischenräume zwischen benachbarten Objekten als Teilungspunkte auswählen. Zum Beispiel erhält man für n = 8 und k = 3, mit der Wahl der zwei Teiler wie folgt, das folgende Schema. ∗ ∗ ∗ | ∗ ∗ ∗ | ∗∗ Sei xk die Anzahl der Sterne zwischen dem (k − 1)-ten und k-ten gewählten Zwischenraum. Die so definierten (x1 , . . . , xk ) liefern eine Lösung; umgekehrt ist jede Lösung von dieser Form. Die Anzahl der verschiedenen positiven ganzzahligen Lösungen ist damit wie folgt. n−1 k−1 7 Prof. Dr. Ulrich Horst Proposition Stochastik WS 2013/2014 Die Anzahl der verschiedenen positiven ganzzahligen Lösungen, welche die Gleichung k X xi = x1 + . . . + xk = n mit k ≤ n und xi ∈ N für i = 1, . . . , k i=1 erfüllen, ist durch den folgenden Binomialkoeffizienten gegeben. n−1 k−1 Frage Wie viele nichtnegativen ganzzahligen Lösungen gibt es, welche die folgende Gleichung erfüllen? k X xi = x1 + . . . + xk = n mit k ≤ n und xi ∈ N für i = 1, . . . , k i=1 Lösung Sei (x∗1 , . . . , x∗k ) mit x∗i ∈ N0 eine nichtnegative Lösung dieser Gleichung. Dann liefert yi = x∗i + 1 ∈ N für i = 1, . . . , k eine Lösung der Gleichung k X yi = y1 + . . . + yk = n + r i=1 Die Anzahl der verschiedenen nichtnegativen ganzzahligen Lösungen ist damit wie folgt. n+k−1 k−1 Proposition Die Anzahl der verschiedenen nichtnegativen ganzzahligen Lösungen, welche die Gleichung k X xi = x1 + . . . + xk = n mit k≤n und xi ∈ N für i = 1, . . . , k i=1 erfüllen, ist durch den folgenden Binomialkoeffizienten gegeben. n+k−1 k−1 Beispiel Sie investieren 20.000 e in 4 unterschiedliche Wertpapiere. Sie können in Vielfachen von 1.000 e investieren. Wie viele Möglichkeiten haben Sie? Lösung Sei xi für i = 1, . . . , 4 das Investment (in 1.000 e) in Wertpapieren. Dann gilt Es gibt also x1 + x2 + x3 + x4 = 20 mit xi ∈ N0 20 + 4 − 1 23 = Möglichkeiten. 4−1 3 8 für i = 1, . . . , 4 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 2 Axiome der Wahrscheinlichkeitsrechnung 2.1 Mengenoperationen mit Ereignissen Definition Für zwei Ereignisse E und F seien folgende Mengenoperationen definiert. (i) E ∪ F = {ω ∈ Ω | ω ∈ E ∨ ω ∈ F } (Vereinigung) (ii) E ∩ F = {ω ∈ Ω | ω ∈ E ∧ ω ∈ F } (Schnitt) (iii) E C = {ω ∈ Ω | ω ∈ / E} (Komplement) Definition Für eine Folge von Ereignissen (En )n∈N sind Vereinigung und Schnitt wie folgt definiert. [ \ En = {ω ∈ Ω | ∃n ∈ N : ω ∈ En } und En = {ω ∈ Ω | ∀n ∈ N : ω ∈ En } n∈N n∈N Definition Für drei Ereignisse E, F und G gelten folgende einfache Rechenregeln. (i) E ∪ F = F ∪ E und E ∩ F = F ∩ E (Kommutativgesetz) (ii) (E ∪ F ) ∪ G = E ∪ (F ∪ G) und (E ∩ F ) ∩ G = E ∩ (F ∩ G) (Assoziativgesetz) (iii) (E ∪ F ) ∩ G = (E ∩ G) ∪ (F ∩ G) (Distributivgesetz) Satz Für eine Folge von Ereignissen (Ei )ni=1 gelten die De Morganschen Gesetze. n [ !C Ei n \ = EiC n \ und i=1 i=1 !C Ei = n [ EiC i=1 i=1 Beweis Es muss gezeigt werden, dass ein beliebiges Element ω in beiden Mengen enthalten ist. !C n n n [ [ \ ω∈ Ei ⇔ ω∈ / Ei ⇔ ω ∈ / Ei ⇔ ω ∈ EiC ⇔ ω ∈ EiC i=1 i=1 i=1 Um das zweite De Morganschen Gesetz zu beweisen, benutzt man das erste Gesetz. !C n n n [ \ \ C Ei = (EiC )C = Ei i=1 i=1 i=1 Bildet man nun auf beiden Seiten das Komplement, so erhält man das zweite De Morganschen Gesetz. !C n n \ [ Ei = EiC i=1 i=1 Definition Sei (En ) eine Folge von Ereignissen. Die Folge heißt paarweise disjunkt, falls Folgendes gilt. ∀i 6= j : Ei ∩ Ej = ∅ Bemerkung Für eine disjunkte Vereinigung zweier Ereignisse E und F schreibt man E t F oder E ∪˙ F . 2.2 Axiome der Wahrscheinlichkeitsrechnung Definition Ein Wahrscheinlichkeitsmaß ist eine Funktion P : F → [0, 1], die folgenden Axiome erfüllt. (i) P(Ω) = 1 (Normierung) (ii) Für eine Folge (En )n∈N paarweise disjunkter Ereignisse aus F gilt ! G X P En = P(En ) n∈N n∈N 9 (σ-Additivität) Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Ein einfacher Münzwurf mit Ω = {K, Z} und F = P(Ω) = {∅, {K}, {Z}, Ω} hat die folgenden Wahrscheinlichkeiten für die Ereignisse E1 = {K} und E2 = {Z}. P(E1 ) = 1 = P(E2 ) 2 2.3 Einfache Eigenschaften des Wahrscheinlichkeitsmaß Proposition Es sei P ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F). Dann gilt (i) P(∅) = 0 (ii) Für eine Folge (Ei )ni=1 paarweise disjunkter Ereignisse aus F gilt ! n n G X P Ei = P(Ei ) i=1 (σ-Additivität) i=1 Beweis (i) Wähle En = ∅ für alle n ∈ N. Dann ist die Folge (En )n∈N paarweise disjunkt und es gilt G En = ∅ n∈N Nach der σ-Additivität aus den Axiomen des Wahrscheinlichkeitsmaßes gilt nun. ! G X X P(∅) = P En = P(En ) = P(∅) n∈N n∈N n∈N Dies ist offensichtlich nur erfüllt, wenn P(∅) = 0 gilt. (ii) Sei En+1 = En+2 = . . . = ∅ (∗). Dann ist (En )n∈N eine Folge paarweise disjunkter Ereignisse. Nach der σ-Additivität aus den Axiomen des Wahrscheinlichkeitsmaßes gilt nun. ! ! n n G X G P(∅)=0 X (∗) P En = P(En ) = P(Ei ) = P Ei n∈N Proposition i=1 n∈N i=1 Für ein Ereignis E gilt für die Wahrscheinlichkeit des Gegenereignisses E C Folgendes. P(E C ) = 1 − P(E) Beweis Dazu werden die Axiome des Wahrscheinlichkeitsmaßes und die vorige Proposition verwendet. 1 = P(Ω) = P(E ∪ E C ) = P(E) + P(E C ) Proposition ⇒ P(E C ) = 1 − P(E) Für zwei Ereignisse E und F mit E ⊆ F gilt Folgendes. P(E) ≤ P(F ) Beweis Da E ⊆ F gilt, kann man F wie folgt ausdrücken. F = E ∪ (F ∩ E C ) Wendet man nun die σ-Additivität des Wahrscheinlichkeitsmaßes an, so erhält man Folgendes. P(F ) = P(E ∪ (F ∩ E C )) = P(E) + P(F ∩ E C ) ≥ P(E) | {z } ≥0 Frage Das Wahrscheinlichkeitsmaß ist für paarweise disjunkte Ereignisse σ-additiv. Was passiert jedoch für nicht paarweise disjunkte Ereignisse? Proposition Für zwei Ereignisse E und F gilt P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ). 10 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beweis Die beiden Ereignisse E und F kann man auch wie folgt ausdrücken. E = (E ∩ F ) ∪ (E ∩ F C ) und F = (E ∩ F ) ∪ (E C ∩ F ) Dann gilt für die Wahrscheinlichkeit der Vereinigung der beiden Ereignisse Folgendes. P(E ∪ F ) = P(E ∩ F ) + P(E ∩ F C ) + P(E C ∩ F ) = P(E ∩ F ) + P(E) − P(E ∩ F ) + P(F ) − P(E ∩ F ) = P(E) + P(F ) − P(E ∩ F ) Konsequenz Ist der Ergebnisraum Ω diskret (endlich oder abzählbar unendlich), sprich es gilt Ω = {ωk }nk=1 mit n ∈ N ∪ {∞} und ωk 6= ωl für k 6= l, so folgt mit En = {ωn }, da Ek ∩ El 6= ∅ für k 6= l, aus der σ-Additivität Folgendes. :=Pk ! G P(E) = P Ek k:ωk ∈E = X P(Ek ) k:ωk ∈E Somit ist das Wahrscheinlichkeitsmaß P durch die Folge (Pk )nk=1 eindeutig festgelegt. Pk ∈ [0, 1] und n X Pk = 1 k=1 Lemma Für zwei Ereignisse E und F gilt die Subadditivität P(E ∪ F ) ≤ P(E) + P(F ). Beweis Der Beweis des Lemmas ist klar, da 0 ≤ P(E) ≤ 1 für alle E ∈ F gilt und damit P(E ∪ F ) = P(E) + P(F ) − P(E ∩ F ) ≤ P(E) + P(F ) ≥0 Allgemeiner Für drei Ereignisse E, F und G gilt P(E ∪ F ∪ G) = P((E ∪ F ) ∪ G) = P(E) + P(F ) + P(G) − P(E ∩ F ) − P((E ∩ G) ∪ (F ∩ G) = P(E) + P(F ) + P(G) − P(E ∩ F ) − (P(E ∩ G) + P(F ∩ G) − P(E ∩ F ∩ G)) = P(E) + P(F ) + P(G) − P(E ∩ F ) − P(E ∩ G) − P(F ∩ G) + P(E ∩ F ∩ G) Für eine Folge von Ereignissen (Ei )ni=1 gilt die Siebformel von Poincaré und Sylvester. ! ! n n n [ X X X \ n+1 Ei = P(Ei ) − P(Ei1 ∩ Ei2 ) + P(Ei1 ∩ Ei2 ∩ Ei3 ) − . . . + (−1) P Ei Proposition P i=1 i=1 i1 <i2 i1 <i2 <i3 i=1 Bemerkung Diese Formel wird auch das Prinzip von Inklusion und Exklusion, Prinzip der Einschließung und Ausschließung oder Einschluss-/Ausschluss-Verfahren genannt. Beweis Ein solcher Beweis würde per Induktion über n ∈ N geführt werden. 2.4 Laplace-Experimente Definition Sei Ω = {1, . . . , n} ein endlicher Grundraum. Es heißt {ω} ⊆ Ω ein Elementarereignis. Ein Zufallsexperiment wird Laplace-Experiment genannt, wenn alle Versuchsausgänge gleich wahrscheinlich sind, sprich alle Elementarereignisse die gleiche Wahrscheinlichkeit besitzen. P(E) = X ω∈E P({ω}) = |E| |Ω| mit P({ω}) = 11 1 1 = |Ω| n für i = 1, . . . , n Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Ein fairer Würfel wird zweimal hintereinander geworfen. Wie hoch ist die Wahrscheinlichkeit, dass die Augensumme sieben beträgt? Lösung Der Grundraum ist Ω = {1, . . . , 6} × {1, . . . , 6} = {1, . . . , 6}2 mit der Mächtigkeit |Ω| = 36. Das Ereignis E, dass die Augensumme sieben beträgt ist, besteht aus allen möglichen Tupeln, deren Summe der Komponenten sieben beträgt. E = {(m, n) | m + n = 7} = {(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)} Da jedes Elementarereignis gleich wahrscheinlich ist, folgt für die Wahrscheinlichkeit von E Folgendes. P(E) = |E| 6 1 = = |Ω| 36 6 Beispiel Wie groß ist die Wahrscheinlichkeit für ein Full House beim Poker? Lösung Sei E das Ereignis, dass man ein Full House beim Poker besitzt. Die Anzahl der Möglichkeiten für ein Full House wurde bereits gezeigt. Somit gilt für die Mächtigkeit von Ω und E Folgendes. 52 4 4 |Ω| = und |E| = 13 · 12 · · 5 3 2 Da jede der Möglichkeiten auf ein Full House gleich wahrscheinlich ist, gilt Folgendes. 13 · 12 · 43 · 42 |E| 6 = ≈ 0,0014 P(E) = = 52 |Ω| 4165 5 Beispiel Wie groß ist die Wahrscheinlichkeit, dass von n Personen keine zwei Personen am gleichen Tag Geburtstag haben? (Dieses Problem ist bekannt als das Geburtstagsparadoxon.) Lösung Sei Ω = {1, . . . , 365}n der Ergebnisraum und E das Ereignis, dass keine zwei Personen am gleichen Tag Geburtstag haben. Die Wahrscheinlichkeit von E ist damit gegeben durch P(E) = 365 · 364 · . . . · (365 − (n − 1)) 365n Beispiel Sei Ω die Menge aller bijektiven Funktionen f : {1, . . . , n} → {1, . . . , n}. Eine Funktion f besitzt einen Fixpunkt, falls f (x) = x für ein x ∈ {1, . . . , n} gilt. Wie groß ist die Wahrscheinlichkeit, dass eine zufällig gewählte Funktion keinen Fixpunkt besitzt? Lösung Zunächst einmal wird das Problem weniger abstrakt formuliert. Die n Hüte von n Personen werden gemischt und jeder zieht zufällig einen. Wie groß ist die Wahrscheinlichkeit, dass keiner der Besucher seinen eigenen Hut erhält? Sei Ω = {(i1 , . . . , in ) | 1 ≤ ij ≤ n, ∀j 6= k : ij 6= ik }, wobei ω = (i1 , . . . , iN ) bedeutet, dass Besucher k den Hut ik nimmt. Sei Ej das Ereignis, dass Besucher j den Hut ij = j bekommt, also seinen eigenen. Ej = {(i1 , . . . , in ) ∈ Ω | ij = j} für j = 1, . . . , n Somit wird die folgende Wahrscheinlichkeit gesucht. C n n n \ [ [ P EjC = P Ej = 1 − P Ej j=1 j=1 j=1 Im Folgenden muss die Siebformel von Poincaré und Sylvester angewendet werden. Es gilt n n n [ X X \ P Ej = P(Ej ) − P(Ej1 ∩ Ej2 ) + . . . + (−1)n+1 P Ej j=1 j=1 j1 <j2 j=1 12 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Für m ≤ n seien 1 ≤ j1 < . . . < jm ≤ n gegeben. Dann ist Ej1 ∩ . . . ∩ Ejm = {(i1 , . . . , in ) ∈ Ω | ∀k = 1, . . . , n : ijk = jk } Somit folgt für den Schnitt der Ereignisse die folgende Wahrscheinlichkeit. ! n \ (n − k)! |Ej1 ∩ . . . ∩ Ejn | P = Ejk = |Ω| n! k=1 Damit gilt dann für die Wahrscheinlichkeit der Vereinigung der Ereignisse Folgendes. ! n [ (n − 2)! 1 (n − k)! − |{(j1 , j2 ) | 1 ≤ j1 < j2 ≤ n}| · + . . . + (−1)n+1 · P Ei = n · n! n! n! i=1 n (n − 2)! n (n − 3)! 1 =1− · + · − . . . + (−1)n+1 · 2 n! 3 n! n! 1 1 1 = 1 − 1 − + − . . . + (−1)n+1 · 2! 3! n! n k X (−1) = k! k=0 Für hinreichend große n folgt damit mit Hilfe der Reihendarstellung der Exponentialfunktion Folgendes. ! ∞ n n X X [ (−1)k (−1)k = = e−1 lim P Ei = lim n→∞ n→∞ k! k! i=1 k=0 k=0 Somit gilt für große n, um die Ausgangsfrage zu beantworten, angenähert die folgende Wahrscheinlichkeit. C n n n [ \ [ Ej ≈ 1 − e−1 P EjC = P Ej = 1 − P j=1 j=1 j=1 13 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 3 Bedingte Wahrscheinlichkeit und stochastische Unabhängigkeit 3.1 Bedingte Wahrscheinlichkeit Beispiel Ein fairer Würfel wird zweimal hintereinander geworfen (Laplace-Experiment). Angenommen der erste Wurf ist eine drei. Wie hoch ist die Wahrscheinlichkeit, dass die Augensumme acht beträgt? Lösung Sei F das Ereignis, dass der erste Wurf eine drei war und E das Ereignis, dass die Augensumme acht ist. Als Nächstes definiert man sich nun einen neuen Grundraum ΩF = {(3, 1), . . . , (3, 6)} und ein neues Wahrscheinlichkeitsmaß PF auf ΩF . Dann gilt damit ∀ωF ∈ ΩF : PF (ωF ) = 1 |ΩF | Die Wahrscheinlichkeit, dass die Augensumme acht beträgt, ist damit die Folgende. PF (E) = 1 6 Definition Seien E und F zwei Ereignisse und P (F ) > 0. Dann ist die bedingte Wahrscheinlichkeit des Eintretens von E unter der Bedingung, dass das Eintreten von F bereits bekannt ist, wie folgt definiert. P(E | F ) = P(E ∩ F ) P(F ) Für den Fall, dass P(F ) = 0 ist, setzt man P(E | F ) = 0. Beispiel In einem Korb befinden sich 25 Glühbirnen. Von diesen 25 Glühbirnen sind • 5 Glühbirnen gut und haben eine Lebensdauer von mehr als 30 Tagen, • 10 Glühbirnen teilweise defekt und haben eine Lebensdauer von einem Tag, • 10 Glühbirnen vollkommen defekt. Sie wählen eine funktionierende Glühbirne aus. Wie groß ist die Wahrscheinlichkeit, dass die Birne in einer Woche noch brennt? Lösung Sei G das Ereignis, dass die Glühbirne gut ist und D das Ereignis, dass die Glühbirne teilweise oder vollkommen defekt ist. Gesucht ist die Wahrscheinlichkeit P(G | DC ), welche sich wie folgt berechnet. P(G | DC ) = P(G ∩ DC ) 5/25 1 = = P(DC ) 15/25 3 Beispiel Frau Müllers Firma gibt ein Essen für alle Angestellten, die mindestens eine Tochter haben. Frau Müller hat zwei Kinder. Wie groß ist die Wahrscheinlichkeit, das beides Mädchen sind, wenn Frau Müller eingeladen wird? Lösung Sei E das Ereignis, dass Frau Müller eingeladen wird, d. h. sie hat mindestens eine Tochter. Sei Z das Ereignis, dass sie zwei Töchter hat. P(Z | E) = P(Z ∩ E) P(Z) 1/4 1 = = = P(E) P(E) 3/4 3 Beispiel Sie sind indifferent zwischen einem Französisch- und einem Chemiekurs. Sie erwarten eine 1 in • Französisch mit einer Wahrscheinlichkeit von 1/2, • Chemie mit einer Wahrscheinlichkeit von 2/3. Wir treffen eine Auswahl per Münzwurf. Wie groß ist die Wahrscheinlichkeit für eine 1 in Chemie? 14 Prof. Dr. Ulrich Horst Lösung Stochastik WS 2013/2014 Sei C das Ereignis, dass der Chemiekurs gewählt worden ist und E jenes für eine 1. P(C ∩ E) = P(E | C) · P(C) = Proposition 1 2 1 · = 3 2 3 Sei P(F ) > 0. Dann ist P( · | F ) ein Wahrscheinlichkeitsmaß auf dem Messraum (Ω, F). Beweis Um dies zu beweisen, müssen die Axiome des Wahrscheinlichkeitsmaßes verifiziert werden. (i) Sei E ∈ F. Dann gilt P(E | F ) = (ii) P(Ω | F ) = P(E ∩ F ) ∈ [0, 1], da P(E ∩ F ) ≤ P(F ). P(F ) P(Ω ∩ F ) P(F ) = =1 P(F ) P(F ) (iii) Sei (En )n∈N eine Folge paarweiser disjunkter Ereignisse. Dann ist (En ∩F )n∈N eine Folge paarweiser disjunkter Ereignisse und somit gilt Folgendes. ! F F G P n∈N (En ∩ F ) P n∈N En ∩ F = P En | F = P(F ) P(F ) n∈N P X P(En ∩ F ) = n∈N = P(En | F ) P(F ) n∈N Allgemeiner Seien E1 , . . . , En Ereignisse. Dann gilt für die bedingte Wahrscheinlichkeit Folgendes. ! ! i−1 n n \ Y \ Ek = P(E1 ) · P(E2 | E1 ) · . . . · P(En | E1 ∩ . . . ∩ En−1 ) P Ei | P Ei = i=1 i=1 k=1 Beispiel Wir betrachten 52 Karten in 4 Haufen. Wie groß ist die Wahrscheinlichkeit, dass sich in jedem Haufen ein Ass befindet? Lösung Zuerst betrachten wir die Ereignisse E1 , E2 , E3 und E4 , die wie folgt gegeben sind. • E1 sei das Ereignis, dass ein Pik Ass in einem Haufen ist. • E2 sei das Ereignis, dass Pik Ass und Herz Ass in unterschiedlichen Haufen sind. • E3 sei das Ereignis, dass Pik Ass, Herz Ass und Kreuz Ass in unterschiedlichen Haufen sind. • E4 sei das Ereignis, dass alle Asse in unterschiedlichen Haufen sind. Die Wahrscheinlichkeit des Schnittes der Ereignisse ist genau die gesuchte Wahrscheinlichkeit. P(E1 ∩ . . . ∩ E4 ) = P(E1 ) · P(E2 | E1 ) · P(E3 | E1 ∩ E2 ) · P(E4 | E1 ∩ E2 ∩ E3 ) = P(E4 ) Ferner gilt für die bedingten Wahrscheinlichkeiten Folgendes. 39 26 13 , P(E3 | E1 ∩ E2 ) = und P(E4 | E1 ∩ E2 ∩ E3 ) = 51 50 49 Damit ergibt sich für die gesuchte Wahrscheinlichkeit P(E4 ) ≈ 0,105. P(E1 ) = 1, P(E2 | E1 ) = 3.2 Gesetz der totalen Wahrscheinlichkeit und Satz von Bayes Satz Für zwei Ereignisse E und F gilt das Gesetz der totalen Wahrscheinlichkeit. P(E) = P(E | F ) · P(F ) + P(E | F C ) · P(F C ) Beweis Für zwei Ereignisse E und F gilt für die Wahrscheinlichkeit des Ereignisses E Folgendes. P(E) = P(E ∩ F ) + P(E ∩ F C ) Die Wahrscheinlichkeiten lassen sich mit der bedingten Wahrscheinlichkeit wie folgt schreiben. P(E ∩ F ) = P(E | F ) · P(F ) und P(E ∩ F C ) = P(E | F C ) · P(F C ) Damit gilt das Gesetz der totalen Wahrscheinlichkeit. P(E) = P(E | F ) · P(F ) + P(E | F C ) · P(F C ) 15 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Satz Für zwei Ereignisse E und F mit P(F ) > 0 lässt sich mit Hilfe des Satzes von Bayes die Wahrscheinlichkeit von E unter der Bedingung, dass F eingetreten ist, angeben durch die Wahrscheinlichkeit von F unter der Bedingung, dass E eingetreten ist. P(E | F ) = P(F | E) · P(E) P(F ) Beweis Für zwei Ereignisse E und F mit P(F ) > 0 gilt unter Nutzung der bedingten Wahrscheinlichkeit und der Kommutativität des Schnittes zweier Ereignisse Folgendes. P(E ∩ F ) P(E ∩ F ) P(E) P(E ∩ F ) P(E) = · = · P(F ) P(F ) P(E) P(E) P(F ) P(F ∩ E) P(E) P(F | E) · P(E) = · = P(E) P(F ) P(F ) P(E | F ) = =P(F |E) Beispiel Eine Versicherung unterteilt Kunden in Gruppen mit hohem und niedrigen Unfallrisiko. Kunden mit einem hohem Unfallrisiko haben einen Unfall mit einer Wahrscheinlichkeit von 0,4. Kunden mit einem niedrigen Risiko haben einen Unfall mit einer Wahrscheinlichkeit von 0,2. Insgesamt haben 30% der Kunden ein hohes Unfallrisiko. Wie groß ist die Wahrscheinlichkeit, dass ein zufällig gewählter Kunde einen Unfall hat? Lösung Sei H das Ereignis, dass es sich um einen Kunden mit einem hohen Risiko handelt und sei U jenes, dass ein Kunde einen Unfall hat. Gesucht wird also P(U ). Bekannt ist bereits P(U | H) = 0,4, P(U | H C ) = 0,2, sowie P(H) = 0,3 und somit auch P(H C ) = 0,7. Damit lässt sich die Wahrscheinlichkeit mittels des Gesetzes der totalen Wahrscheinlichkeit ermitteln. P(U ) = P (U | H) · P(H) + P(U | H C ) · P(H C ) = 0,4 · 0,3 + 0,2 · 0,7 = 0,26 Beispiel Angenommen ein Kunde hat einen Unfall. Mit welcher Wahrscheinlichkeit gehört diese Person zur Klasse mit dem hohen Risiko? Lösung Um diese Frage zu klären, wird der Satz von Bayes verwendet. P(H | U ) = 0,4 · 0,3 6 P(U | H) · P(H) = = P(U ) 0,26 13 Beispiel Im Folgenden wird ein Multiple-Choice-Test mit jeweils m möglichen Antworten betrachtet, wobei immer nur eine richtig ist. Ein Student kennt die richtige Antwort mit einer Wahrscheinlichkeit von p, andernfalls muss er raten. Angenommen eine Antwort ist richtig. Mit welcher Wahrscheinlichkeit kannte der Student die Antwort? Lösung Sei R das Ereignis, dass die Antwort richtig ist und sei W das Ereignis, dass der Prüfling die Antwort kennt und nicht geraten hat. Dann gilt mit dem Satz von Bayes Folgendes. P(W | R) = P(R | W ) · P(W ) P(R) Nun gilt nach dem Gesetz der totalen Wahrscheinlichkeit für die Wahrscheinlichkeit von R Folgendes. P(R) = P(R | W ) · P(W ) + P(R | W C ) · P(W C ) =1 =p 1/m =1−p Damit ergibt sich für die gesuchte Wahrscheinlichkeit Folgendes. P(W | R) = 1·p m·p = 1 · p + (1/m) · (1 − p) 1 + p · (m − 1) Für m = 5 und p = 1/2 ergibt sich damit P(W | R) = 5/6. 16 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Fn Proposition Sei (Fi )ni=1 eine Partition des Grundraums Ω = i=1 Fi in paarweise disjunkte Ereignisse und sei E ein weiteres Ereignis. Dann gelten folgende Verallgemeinerungen. (i) Für i = 1, . . . , n gilt das verallgemeinertes Gesetz der totalen Wahrscheinlichkeit. P(E) = n X P(E | Fi ) · P(Fi ) i=1 (ii) Für i = 1, . . . , n gilt der verallgemeinerter Satz von Bayes. P(E | Fi ) · P(Fi ) P(Fi | E) = Pn j=1 P(E | Fj ) · P(Fj ) Beweis Es gelten die Voraussetzungen der obigen Proposition. (i) Dann gilt für das verallgemeinertes Gesetz der totalen Wahrscheinlichkeit Folgendes. ! n n n G X X P(E) = P (E ∩ Fi ) = P(E ∩ Fi ) = P(E | Fi ) · P(Fi ) i=1 i=1 i=1 (ii) Unter der Nutzung von (i) lässt sich der verallgemeinerter Satz von Bayes beweisen. P(Fi | E) = P(E | Fi ) · P(Fi ) P(Fi ∩ E) P(E | Fi ) · P(Fi ) (i) = Pn = P(E) P(E) j=1 P(E | Fj ) · P(Fj ) 3.3 Stochastische Unabhängigkeit Definition Zwei Ereignisse E und F heißen unabhängig, falls die Wahrscheinlichkeit des Schnittes dem Produkt der beiden Einzelwahrscheinlichkeiten entspricht. P(E ∩ F ) = P(E) · P(F ) Proposition bzw. P(E | F ) = P(E) Seien E und F zwei unabhängige Ereignisse. (i) Dann sind auch E und F C unabhängige Ereignisse. (ii) Dann sind auch E C und F C unabhängige Ereignisse. Beweis Seien E und F zwei unabhängige Ereignisse. (i) Das Ereignis E lässt sich auch wie folgt darstellen. P(E) = P(E ∩ F ) + P(E ∩ F C ) = P(E) · P(F ) + P(E ∩ F C ) Stellt man diese Gleichung nach P(E ∩ F C ) um und formt weiter um, so erhält man Folgendes. P(E ∩ F C ) = P(E) − P(E) · P(F ) = P(E) · (1 − P(F )) = P(E) · P(F C ) Damit sind die Ereignisse E und F C unabhängig. (ii) Setzt man E 0 = F C und F 0 = E, so folgt aus (i) sofort die Unabhängigkeit von E C und F C . P(E C ∩ F C ) = P(E 0 ∩ F 0C ) = P(E 0 ) · P(F 0C ) = P(F C ) · P(E C ) = P(E C ) · P(F C ) Beispiel Es wird eine Karte aus einem Stapel von 52 Karten gezogen. Sei E das Ereignis, dass eine Karte ein Ass ist und sei F das Ereignis, dass eine Karte ein Pik ist. Sind diese Ereignisse unabhängig? Lösung Um die Unabhängigkeit der Ereignisse zu untersuchen, betrachten wir die folgenden Wahrscheinlichkeiten. 4 13 1 P(E) = und P(F ) = und P(E ∩ F ) = 52 52 52 Wie man leicht nachrechnen kann, gilt die Unabhängigkeit der Ereignisse. P(E ∩ F ) = 1 4 13 = · = P(E) · P(F ) 52 52 52 17 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Wir betrachten einen zweifachen Würfelwurf. Sei E1 das Ereignis, dass die Augensumme sechs ist und sei E2 das Ereignis, dass der erste Wurf eine vier ist. Sind diese Ereignisse unabhängig? Lösung Die Ereignisse E1 und E2 lassen sich wie folgt modellieren. E1 = {(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)} und E2 = {(4, 1), . . . , (4, 6)} Der Schnitt der beiden Ereignisse hat somit die folgende Form. E1 ∩ E2 = {(4, 2)} Wie man leicht nachrechnen kann, gilt die Unabhängigkeit der Ereignisse nicht. P(E1 ∩ E2 ) = 5 6 1 6= · = P(E1 ) · P(E2 ) 36 36 36 Beispiel Wir betrachten einen zweifachen Würfelwurf. Sei E das Ereignis, dass die Augensumme sieben ist, F das Ereignis, dass der erste Wurf eine vier ist und G das Ereignis, dass der zweite Wurf eine drei ist. Sind diese Ereignisse unabhängig? Lösung Die drei Ereignisse E, F und G lassen sich wie folgt modellieren. E = {(i, j) | i + j = 7}, F = {(i, j) | i = 4 ∧ 1 ≤ j ≤ 6} und G = {(i, j) | 1 ≤ i ≤ 6 ∧ j = 3} Für die einzelnen Schnitte der Ereignisse untereinander gilt somit. E ∩ F = E ∩ G = F ∩ G = {(4, 3)} Ferner gilt für die Mächtigkeit der Ereignisse Folgendes. |E| = |F | = |G| = 6 Somit gilt für die Wahrscheinlichkeit der einzelnen Schnitte Folgendes. 6 36 6 P(E) · P(G) = 36 6 P(F ) · P(G) = 36 P(E) · P(F ) = 6 1 = = P(E ∩ F ) 36 36 6 1 · = = P(E ∩ G) 36 36 6 1 · = = P(F ∩ G) 36 36 · Das heißt die drei Ereignisse E, F und G sind paarweise unabhängig. Jedoch gilt P(E | F ∩ G) = 1 6= 1 6 1 = · = P(E) · P(F ∩ G) 216 36 36 Das heißt die Ereignisse E und F ∩ G sind nicht unabhängig. Definition Seien (Ek )nk=1 bzw. (Ek )k∈N Folgen von Ereignissen. Die Ereignisse (i) (Ek )nk=1 heißen unabhängig, falls für r ≤ n und 1 ≤ k1 < . . . < kr ≤ n Folgendes gilt. r r \ Y P Ekj = P(Ekj ) j=1 j=1 (ii) (Ek )k∈N heißen unabhängig, falls für jede endliche Menge S ⊆ N mit |S| < ∞ Folgendes gilt. ! \ Y P Ei = P(Ei ) i∈S i∈S 18 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 3.4 Formalisierung von Versuchsfolgen Teilexperimente, die sich gegenseitig nicht beeinflussen, nennen wir Versuche. Im Folgenden konstruieren wir ein Modell für die unabhängige Wiederholung (n-fach oder ∞-oft) eines Experiments. Sei Ω1 = {1, . . . , n} der endliche Grundraum des ersten Experiments und P1 ein Wahrscheinlichkeitsmaß auf Ω1 unser Ausgangsmodell. Der Grundraum für die zweifache Ausführung des Experiments ist Ω = Ω1 × Ω2 = {(i, j) | i ∈ Ω1 ∧ j ∈ Ω2 } mit Ω1 = Ω2 und P1 = P2 Wir setzen für E ⊆ Ω das Wahrscheinlichkeitsmaß P wie folgt. X P(E) = P1 ({i}) · P2 ({j}) (i,j)∈E Für Fi ⊆ Ωi setzen wir Ei = Fi × Ω3−i für i = 1, 2, das heißt Ei hängt nur von der Realisierung im i-ten Experiment ab. Es folgt nach Definition die Unabhängigkeit der beiden Ereignisse E1 und E2 . X X X X P(E1 ∩ E2 ) = P1 ({i}) · P2 ({j}) = P1 ({i}) · P2 ({j}) = P1 ({i}) · P2 ({j}) i∈F1 j∈F2 (i,j)∈E1 ∩E2 i∈F1 j∈F2 ! = X P1 ({i}) · i∈F1 X P2 ({j}) = P(E1 ) · P(E2 ) j∈F2 Der letzte Schritt der Umformung wird für den ersten Term noch einmal genauer betrachtet. X X P1 ({i}) = P1 ({i}) · P2 ({k}) i∈F1 i∈F1 k∈Ω2 = X X P1 ({i}) · P2 ({k}) i∈F1 k∈Ω2 = X P1 ({i}) · i∈F1 = X X P2 ({k}) mit k∈Ω2 X P2 ({k}) = 1 (∗) k∈Ω2 P1 ({i}) = P(E1 ) i∈F1 Außerdem gilt die Gleichung (∗), da P2 ein Wahrscheinlichkeitsmaß auf Ω2 ist und somit auch die Axiome der Wahrscheinlichkeitsrechnung gelten. Dasselbe lässt sich analog für den zweiten Term anstellen. Bemerkung Wir haben P1 und P2 zu einem Produktmaß auf Ω = Ω1 × Ω2 verknüpft. Dies lässt sich auf Folgen von n bzw. unendlich vielen Versuchen verallgemeinern. Dabei gilt immer: sind (Ei )1≤i≤n bzw. (Ei )i∈N Ereignisse, für die Ei nur von Versuch Nr. i abhängt, so sind (Ei )1≤i≤n bzw. (Ei )i∈N unabhängig. Das heißt Ereignisse, die jeweils nur von einem Teilexperiment abhängig sind, sind damit unter P unabhängig. Beispiel Eine unendliche Folge von Versuchen wird durchgeführt. Jeder Versuch hat zwei mögliche Ausgänge (Erfolg und Misserfolg). Die Wahrscheinlichkeit für einen Erfolg sei p, die für Misserfolg 1 − p, für eine Zahl p ∈ [0, 1]. Wie groß ist die Wahrscheinlichkeit, dass a) mindestens ein Erfolg in den ersten n Versuchen erzielt wird? b) genau k Erfolge für 1 ≤ k ≤ n in den ersten n Versuchen erzielt werden? Lösung a) Sei Ωi = {0, 1} und Pi ({1}) = p für i = 1, . . . , n. Der Grundraum für die n-fache Wiederholung ist Ω = Ωni = {0, 1}n Das Wahrscheinlichkeitsmaß P auf Ω ist für ω = (ω1 , . . . , ωn ) gegeben durch P({ω}) = n Y Pi ({ωi }) = p#Erfolge · (1 − p)n−#Erfolge i=1 19 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Sei nun E das Ereignis für mindestens einen Erfolg. Dann gilt für dessen Wahrscheinlichkeit Folgendes. P(E) = P(E C ) = 1 − p0 − (1 − p)n−0 = 1 − (1 − p)n b) Sei T ⊆ {1, . . . , n} mit |T | = k. T ist die Menge aller Zeitpunkte zu denen ein Erfolg eintritt. Sei Ei das Ereignis, dass der i-te Versuch ein Erfolg ist. Dann gilt aufgrund der Unabhängigkeit Folgendes. ! !! \ \ Y Y C P Ei ∩ Ei = P(Ei ) · P EiC = pk · (1 − p)n−k i∈T i∈T / i∈T i∈T / Sei schließlich E das Ereignis für genau k Erfolge in n Versuchen. Dann ist E wie folgt gegeben. " ! !# [ \ \ C E= Ei ∩ Ei T ⊆{1,...,n} |T |=k i∈T i∈T / Also gilt für die gesuchte Wahrscheinlich des Ereignisses E Folgendes. n k n−k P(E) = |{T ⊆ {1, . . . , n} | |T | = k}| · p · (1 − p) = · pk · (1 − p)n−k k 20 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 4 Diskrete Zufallsvariablen 4.1 Diskrete Zufallsvariablen Definition Eine Zufallsvariable auf dem Maßraum (Ω, F, P) ist eine (messbare) Abbildung X : (Ω, F) → (Rn , B(Rn )), wobei B(Rn ) die Borel-σ-algebra auf Rn bezeichnet und F selbst eine σ-Algebra ist. ∀A ∈ B(Rn ) : X −1 (A) ∈ F Für diskrete Grundräume Ω = {ωi }ni=1 wird F meistens als die Potenzmenge von Ω gewählt. F = P(Ω) Damit wäre die Forderung, dass die verwendete Funktion messbar ist, automatisch erfüllt. Für Ω ⊆ Rn wählt man F als die Borel-σ-Algebra B(Rn ), sprich F = B(Rn ). Definition Eine Zufallsvariable X heißt diskret, falls sie nur endlich viele oder abzählbar unendlich viele Werte {xi } mit positiver Wahrscheinlichkeit annimmt. X(Ω) = {x | ∃ω ∈ Ω : X(ω) = x} = {xi }i=1,...,n mit n ∈ N ∪ {∞} Definition Eine Massenfunktion bzw. Wahrscheinlichkeitsverteilung von X unter dem Maß P gibt die Wahrscheinlichkeiten für die einzelnen Werte x an. pX (xi ) := p(xi ) = P[X = xi ] Beispiel Gegeben ist eine Urne mit 20 nummerierten Kugeln. Es wird dreimal ohne Zurücklegen gezogen. Wie groß ist die Wahrscheinlichkeit, dass eine Kugel mit einer Nummer ≥ 17 gezogen wird? Lösung Sei Ω = {(ω1 , ω2 , ω3 ) | ∀i ∈ {1, 2, 3} : ωi = 1, . . . , 20} und sei X(ω) = max ωi . Gesucht wird 1≤i≤3 =ω P[X ≥ 17] = 20 X P[X = i] i=17 Für P[X = 20] finden wir die Wahrscheinlichkeit durch die Gegenwahrscheinlichkeit. P[X = 20] = 1 − Es gibt 20 3 19 18 17 3 · · = 20 19 18 20 mögliche Realisierungen. Von diesen Realisierungen sind nur 19 3 2 P[X = 20] = 20 = 20 3 19 2 günstig. Analog gilt für i = 17, 18, 19 die folgende Wahrscheinlichkeit. i−1 P[X = i] = 2 20 3 für i = 17, 18, 19 Damit lässt sich die gesuchte Wahrscheinlichkeit wie folgt ermitteln. 20 i−1 X 2 ≈ 0,508 P[X ≥ 17] = 20 i=17 3 Beispiel Wir werfen ein Münze solange bis Kopf erscheint, maximal jedoch nur n-mal. Kopf erscheint mit einer Wahrscheinlichkeit von p ∈ (0, 1). Sei X die Anzahl der Würfe. Gesucht ist die Wahrscheinlichkeit für m-mal Kopf für m = 1, . . . , n. 21 Prof. Dr. Ulrich Horst Lösung Stochastik WS 2013/2014 Gesucht ist die Wahrscheinlichkeit P[X = m] für m = 1, . . . , n. P[X = 1] = P({K}) = p P[X = 2] = P({Z, K}) = (1 − p) · p P[X = k] = ··· = (1 − p)k−1 · p P[X = n − 1] = ··· = (1 − p)n−2 · p P[X = n] = ··· = (1 − p)n−1 · p Damit gilt für die Vereinigung der einzelnen Wahrscheinlichkeiten Folgendes. " n # n n−1 [ X X P {X = i} = P[X = i] = p · (1 − p)i−1 + (1 − p)n−1 i=1 i=1 i=1 Die geometrische Reihe besitzt für α ∈ (0, 1) den folgenden Grenzwert. ∞ X αi = i=0 1 1−α Unter Nutzung dieser Tatsache ergibt sich damit Folgendes. n−1 X ∞ X i=1 i=0 (1 − p)i−1 = = (1 − p)i − ∞ X (1 − p)i−1 = i=n n−1 ∞ X 1 − (1 − p)n−1 (1 − p)i 1 − (1 − p) i=0 1 (1 − p) − p p Also gilt für die Vereinigung der Ereignisse der folgende Ausdruck. " n # [ 1 (1 − p)n−1 P {X = i} = p − + (1 − p)n−1 = 1 p p i=1 Beispiel Es gebe N verschiedene Arten von Coupons, die wir (unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten. Bei jedem Versuch erhalten wir mit gleicher Wahrscheinlichkeit einen der N Coupons. Sei T die Anzahl von Coupons, die nötig sind, bis man einen kompletten Satz aller N besitzt. Gesucht wird die Verteilung von T , d. h. P[T = n] für n ≥ 1. Lösung Es ist einfacher P[T > n] zu berechnen und dann die folgende Formel zu nutzen. P[T = n] = P[T > n − 1] − P[T > n] Sei dazu Aj das Ereignis, dass man keinen j-ten Coupon in den ersten n Zügen bekommt. Dann gilt N N [ X X P[T > n] = P Aj = P(Aj ) − P(Aj1 ∩ Aj2 ) + . . . + (−1)N +1 · P(A1 ∩ . . . ∩ AN ) j=1 j=1 j1 <j2 Nun gilt für für j = 1, . . . , N Folgendes. P(Aj ) = N −1 N n Allgemeiner gilt für 1 ≤ j1 < . . . < jk ≤ N Folgendes. P(Aj1 ∩ . . . ∩ Ajk ) = N −k N n Damit gilt für n ∈ N für die Wahrscheinlichkeit von {T > n} Folgendes. n n n N −1 N N −2 0 N +1 N − + . . . + (−1) P[T > n] = N · N 2 N N N n N −1 X N −i i+1 N = (−1) i N i=1 22 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 4.2 Erwartungswert und Varianz diskreter Zufallsvariablen Definition Es sei X eine diskrete Zufallsvariable. Der Erwartungswert von X ist definiert durch X E(X) := x · pX (x), x:p(x)>0 falls diese Reihe konvergiert, das heißt falls folgende Bedingung gilt. X |x| · pX (x) < ∞ x:p(x)>0 Der Erwartungswert beschreibt das gewichtete Mittel der Realisierungen. Beispiel Für ein Ereignis A sei die Indikatorfunktion von A durch 1A : Ω → R mit ( 1, falls ω ∈ A ω 7→ 1A (ω) = 0, sonst gegeben. Für diese Indikatorfunktion gelten folgende Wahrscheinlichkeiten. p1A (0) = P(AC ) = 1 − P(A) und p1A (1) = P(A) Der Erwartungswert ist damit gegeben durch E(1A ) = 0 · (1 − P(A)) + 1 · P(A) = P(A) Proposition Sei X eine diskrete Zufallsvariable mit den Werten {xi }i∈N und der Massenfunktion pX . Sei g : R → R eine reellwertige Funktion. Dann gilt für den Erwartungswert von g(X) Folgendes. E(g(X)) = ∞ X g(xi ) · pX (xi ) i=1 Die Bedingung dafür ist, dass die Reihe konvergiert, sprich Folgendes erfüllt ist. ∞ X |g(xi )| · pX (xi ) < ∞ i=1 Beweis Sei g : R → R, so nimmt y = g(X) : Ω → R die Wert {yj }j = {g(xi )}i mit i, j ≥ 1 an. X X X X X g(xi ) · p(xi ) = g(xi ) · p(xi ) = yj · p(xi ) i j = X j i:g(xi )=yj yj j X p(xi ) = X i:g(xi )=yj yj · P[g(X) = yj ] = E(g(X)) j i:g(xi )=yj Lemma Seien a, b ∈ R, sowie X und Y diskrete Zufallsvariablen mit den Massenfunktionen pX und pY und existierenden Erwartungswerten. Dann gelten die folgenden Rechenregeln. (i) E(aX + b) = a · E(X) + b (Lineare Transformation) (ii) E(X + Y ) = E(X) + E(Y ) (Additivität) Beweis Es gelten die Voraussetzungen des obigen Lemmas. (i) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet. X X X E(aX + b) = (ax + b) · p(x) = a x · p(x) + b p(x) = a · E(x) + b x:p(x)>0 x:p(x)>0 x:p(x)>0 (ii) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet. X X X E(X + Y ) = (x + y) · p(x) = x · p(x) + y · p(x) = E(X) + E(Y ) x:p(x)>0 x:p(x)>0 23 x:p(x)>0 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Definition Sei X eine diskrete Zufallsvariable mit der Verteilung pX und sei g(X) = X n . Dann heißt X E(g(X)) = E(X n ) = xn · pX (x) mit n ∈ N x:p(x)>0 das n-te Moment von X, falls folgende Bedingung erfüllt ist. X |x|n · pX (x) < ∞ x:p(x)>0 Definition Sei X eine diskrete Zufallsvariable und g(X) = (X − E(X))2 . Dann heißt E(g(X)) = E[(X − E(X))2 ] =: Var(X) die Varianz von X. Diese beschreibt die mittlere quadratische Abweichung vom Erwartungswert. Lemma Seien a, b ∈ R und X eine diskrete Zufallsvariable mit existierender Varianz. Dann gelten die folgenden Rechenregeln. (i) Var(aX + b) = a2 Var(X) (Lineare Transformation) (ii) Var(−X) = Var(X) (iii) Var(X) = E(X 2 ) − (E(X))2 ≥ 0 (Verschiebungssatz) Beweis Seien a, b ∈ R und X eine diskrete Zufallsvariablen mit existierender Varianz. (i) Die lineare Transformation ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert. Var(aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aE(X) − b)2 ] = a2 E[(X − E(X))2 ] = a2 Var(X) (ii) Diese Rechenregel folgt direkt aus der Regel (i) als Spezialfall mit a = −1 und b = 0. (iii) Der Verschiebungssatz ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert. Var(X) = E[(X − E(X))2 ] = E[X 2 − 2XE(X) + E(X)2 ] = E(X 2 ) − E(2XE(X)) + E(X)2 = E(X 2 ) − 2E(X)E(X) + E(X)2 = E(X 2 ) − E(X)2 Lemma Nach dem Verschiebungssatz gilt E(X 2 ) ≥ E(X)2 . Beweis Da Var(X) ≥ 0 gilt, sprich E(X 2 )−(E(X))2 ≥ 0 gilt, folgt direkt per Umstellen das zu Zeigende. E(X 2 ) ≥ E(X)2 Satz Sei X eine Zufallsvariable und g : R → R konvex, dann gilt die Jensensche Ungleichung. E(g(X)) ≥ g(E(X)) Beweis Sei t die Tangente an die Kurve der Funktion g im Punkt x0 . Dann gilt folgende Ungleichung. g(x) ≥ t(x) mit t(x) = g 0 (x0 ) · (x − x0 ) + g(x0 ) Setzt man nun x = X und x0 = E(X), so erhält man Folgendes. g(X) ≥ g(E(X)) + g 0 (E(X)) · (X − E(X)) Daraus lässt sich wiederum Folgendes schlussfolgern. E(g(X)) ≥ E(g(E(X))) + g 0 (E(X)) · (X − E(X)) = g(E(X)) + g 0 (E(X)) · E(X − E(X)) = g(E(X)) =0 24 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Definition Sei X eine diskrete Zufallsvariable und Var(X) ihre Varianz. Dann heißt p p σ(X) = Var(X) = E[(X − E(X))2 ] die Standardabweichung von X. Sie ist ein Maß für die Streuung der Werte einer Zufallsvariablen X um ihren Erwartungswert E(X). Beispiel Ein Produkt, welches saisonabhängig verkauft wird, bringt einen Nettogewinn von b e für jede verkaufte Einheit und einen Nettoverlust von l e für jede nicht verkaufte Einheit am Saisonende ein. Die Anzahl der Einheiten des Produktes, welches in einem bestimmten Kaufhaus zu jeder Jahreszeit bestellt werden kann, ist eine Zufallsvariable X mit der Massenfunktion p. Mit wie viele Einheiten sollte der Laden sich eindecken, wenn das Geschäft dieses Produkt im Voraus bestellen muss, um den erwarteten Gewinn zu maximieren? Lösung Sei s > 0 die Lagerhaltung. Der Profit kann dann wie folgt ausgedrückt werden. ( bX − (s − X) · l, falls X ≤ s P (s) = b · s, falls X > s Es soll s 7→ E(P (s)) maximiert werden. Dazu berechnet man zunächst den erwarteten Profit. s ∞ X X E(P (s)) = (b · i − (s − i) · l) · p(i) + b · s · p(i) i=0 i=s+1 = (b + l) = (b + l) s X i=0 s X i · p(i) − sl s X p(i) + bs 1 − p(i) s X p(i) + bs i=0 i=0 = b · s + (b + l) ! i=0 i=0 i · p(i) − (b + l)s s X s X (i − s) · p(i) i=0 Um den optimalen Wert von s zu bestimmen, wird untersucht, was mit dem Gewinn passiert, wenn man s um eine Einheit erhöht. "s+1 # s X X E(P (s + 1)) − E(P (s)) = b + (b + l) (i − (s + 1)) · p(i) − (i − s) · p(i) i=0 = b − (b + l) s X i=0 p(i) i=0 Folglich ist es besser s + 1 Einheiten als s Einheiten zu führen. E(P (s + 1)) − E(P (s)) ≥ 0 ⇔ s X i=0 p(i) < b b+l Da die linke Seite der zweiten Ungleichung wachsend mit s ist während die rechte Seite der zweiten Ungleichung konstant ist, wird die Ungleichung für alle s ≤ s∗ erfüllt, wobei s∗ wie folgt gegeben ist. ( ) s X b ∗ s = max s ∈ N | p(i) < b+l i=0 4.3 Spezielle diskrete Verteilungen 4.3.1 Bernoulli-Verteilung Definition Eine diskrete Zufallsvariable X : Ω → R mit den Einzelwahrscheinlichkeiten P(E) = P[X = 1] = p und P(E C ) = P[X = 0] = 1 − p = q heißt Bernoulli-verteilt mit dem Parameter p. 25 mit q =1−p Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Sei X eine Bernoulli-verteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = p (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = p Beweis Sei X eine Bernoulli-verteilte Zufallsvariable. (i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet. X E(X) = x · p(x) = 0 · p(0) + 1 · p(1) = 0 · (1 − p) + 1 · p = p x:p(x)>0 (ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet. X x2 · p(x) = 02 · p(0) + 12 · p(1) = 0 · (1 − p) + 1 · p = p E(X 2 ) = x:p(x)>0 Lemma Die Varianz einer Bernoulli-verteilten Zufallsvariable X ist gegeben durch Var(X) = p · (1 − p) = p · q mit q =1−p Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. Var(X) = E X 2 − E(X)2 = p − p2 = p · (1 − p) = p · q mit q = 1 − p Bemerkung Die Bernoulli-Verteilung benutzt man zur Beschreibung von zufälligen Ereignissen, bei denen es nur zwei mögliche Versuchsausgänge gibt. Einer der Versuchsausgänge wird meistens mit Erfolg bezeichnet und der komplementäre Versuchsausgang mit Misserfolg. Bemerkung Die Bernoulli-Verteilung ist ein Spezialfall der Binomialverteilung für n = 1. Die Summe von unabhängigen Bernoulli-verteilten Zufallsvariablen mit identischem Parameter p genügt der Binomialverteilung. Dazu seien für i = 1, . . . , n ( 1, Eintritt von E im i-ten Versuch Xi = 0, sonst und sei X die Anzahl der Erfolge in n unabhängigen Versuchen. X= n X Xi i=1 4.3.2 Binomialverteilung Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch n pX (k) = P[X = k] = · pk · (1 − p)n−k , k heißt binomialverteilt mit den Parametern n ≥ 2 und p. In diesem Fall schreibt man auch X ∼ B(n, p) Lemma Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = n · p (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = n · p · [(n − 1) · p + 1] 26 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beweis Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. Um nun das Lemma zu beweisen, benötigt man die folgende Umformung des Binomialkoeffizienten. n n−1 i· =n· (∗) i i−1 Im Folgenden kann somit das k-te Moment berechnet werden. n X n E(X ) = i · · pi · (1 − p)n−i i i=0 n X n k−1 = i · i· · p · pi−1 · (1 − p)n−i + 0 i i=1 n n−1 (∗) X k−1 = i · n· · p · pi−1 · (1 − p)n−i i − 1 i=1 n X n−1 = (n · p) ik−1 · · pi−1 · (1 − p)n−i i − 1 i=1 n−1 X n−1 = (n · p) (j + 1)k−1 · · pj · (1 − p)n−1−j j j=0 k k = n · p · E[(Y + 1)k−1 ] mit mit j =i−1 Y ∼ B(n − 1, p) Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden. (i) E(X) = n · p · E[(Y + 1)1−1 ] = n · p (ii) E(X 2 ) = n · p · E[(Y + 1)2−1 ] = n · p · [(n − 1) · p + 1] Lemma Die Varianz einer binomialverteilten Zufallsvariable X ∼ B(n, p) ist gegeben durch Var(X) = n · p · (1 − p) Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. Var(X) = E(X 2 ) − E(X)2 = (n · p · (p · (n − 1) + 1)) − (n · p)2 = n · p · (1 − p) Proposition Sei X ∼ B(n, p) eine binomialverteilte Zufallsvariable. Dann ist die Massenfunktion pX (k) (i) monoton wachsend für k ≤ [(n + 1) · p]. (ii) monoton fallend für k ≥ [(n + 1) · p]. Beweis Diese Proposition wird bewiesen indem man P[X = k]/P[X = k − 1] betrachtet und bestimmt für welche Werte von k der Term größer oder kleiner 1 ist. n · pk · (1 − p)n−k P[X = k] k = n P[X = k − 1] · pk−1 · (1 − p)n−k+1 k−1 n! · pk · (1 − p)n−k k! · (n − k)! = n! · pk−1 · (1 − p)n−k+1 (k − 1)! · (n − k + 1)! (n − k + 1) · p = k · (1 − p) Folglich gilt P[X = k] ≥ P[X = k − 1], falls und auch nur falls Folgendes gilt. (n − k + 1) · p ≥ k · (1 − p) 27 ⇔ k ≤ (n + 1) · p Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Bemerkung Die Binomialverteilung beschreibt die Anzahl der Erfolge in einer Serie von gleichartigen und unabhängigen Versuchen, die jeweils genau zwei mögliche Ergebnisse haben. 4.3.3 Poisson-Verteilung Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch λk −λ ·e , k! heißt Poisson-verteilt mit dem Parameter λ > 0. In diesem Fall schreibt man auch pX (k) = P[X = k] = X ∼ π(λ) Lemma Sei X ∼ π(λ) eine Poisson-verteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = λ (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = λ2 + λ Beweis Sei X ∼ π(λ) eine Poisson-verteilte Zufallsvariable. (i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet. E(X) = ∞ X k· k=0 ∞ ∞ k=1 k=0 X X λk λk−1 λk −λ λ· · e = e−λ · = λ · e−λ · = λ · e−λ · eλ = λ k! (k − 1)! k! (ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet. E(X 2 ) = ∞ X k=0 k2 · ∞ ∞ k=0 k=2 X X λk λk λk −λ (k · (k − 1) + k) · k · (k − 1) · · e = e−λ · = e−λ · +λ k! k! k! ∞ ∞ X X λk−2 λk = λ2 · e−λ · + λ = λ2 · e−λ · + λ = λ2 · e−λ · eλ + λ = λ2 + λ (k − 2)! k! k=2 k=0 Lemma Die Varianz einer Poisson-verteilten Zufallsvariable X ∼ π(λ) ist gegeben durch Var(X) = λ Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. Var(X) = E(X 2 ) − E(X)2 = (λ2 + λ) − (λ)2 = λ Bemerkung Mit der Poisson-Verteilung kann die Anzahl von Ereignissen modelliert werden, die mit konstanter Rate und unabhängig voneinander in einem festen Zeitintervall oder räumlichen Gebiet eintreten. Sie sagt ebenso wie die Binomialverteilung das zu erwartende Ergebnis einer Serie von BernoulliExperimenten voraus. Während der Beobachtung, die in beliebig viele Augenblicke, sprich BernoulliExperimente, unterteilt werden kann, geschieht fast immer nichts und hin und wieder etwas. Die PoissonVerteilung wird deshalb manchmal als die Verteilung der seltenen Ereignisse bezeichnet (Gesetz der kleinen Zahlen). Bemerkung Die Poisson-Verteilung ist ein Grenzfall der Binomialverteilung. Für eine Folge (Xn )n∈N binomialverteilter Zufallsvariablen zu den Parametern {(n, pn )}n∈N mit Massenfunktionen (pXn )n∈N gilt n λk −λ k n−k lim pXn (k) = lim · pn · (1 − pn ) = ·e für k ≥ 0, n→∞ n→∞ k! k sofern das Produkt n · pn gegen einen endlichen Grenzwert λ konvergiert, sprich Folgendes gilt. lim (n · pn ) = λ n→∞ Die Poisson-Verteilung findet als Approximation der Binomialverteilung Anwendung, wenn die Erfolgswahrscheinlichkeiten klein sind. 28 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 4.3.4 Geometrische Verteilung Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch pX (n) = P[X = n] = (1 − p)n−1 · p, heißt geometrisch verteilt mit dem Parameter p. In diesem Fall schreibt man auch X ∼ G(p) Lemma Sei X ∼ G(p) eine geometrisch verteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = 1 p (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = 2−p p2 Beweis Sei X ∼ G(p) eine geometrisch verteilte Zufallsvariable. (i) Um den Erwartungswert zu beweisen, benötigt man die Kenntnis über den folgenden Grenzwert. ∞ X k · qk = k=0 q (1 − q)2 Wendet man nun die Definition des Erwartungswertes an, so erhält man Folgendes. E(X) = ∞ X ∞ k · (1 − p)k−1 · p = k=1 p 1−p p X k · (1 − p)k = · =p 1−p 1 − p (1 − (1 − p))2 k=1 (ii) Um das zweite Moment zu beweisen, benötigt man die Kenntnis über den folgenden Grenzwert. ∞ X k2 · qk = k=0 q · (1 + q) (1 − q)3 Wendet man nun die Definition des Erwartungswertes an, so erhält man Folgendes. ∞ ∞ X p X 2 p (1 − p) · (2 − p) 2−p E(X 2 ) = k 2 · (1 − p)k−1 · p = k · (1 − p)k = · = 1−p 1−p (1 − (1 − p))3 p2 k=1 k=1 Lemma Die Varianz einer geometrisch verteilten Zufallsvariable X ∼ G(p) ist gegeben durch Var(X) = 1−p p2 Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. 2 2−p 1 2−p 1 1−p 2 2 Var(X) = E(X ) − E(X) = − = − 2 = p2 p p2 p p2 Bemerkung Die geometrische Verteilung beschreibt die Wartezeit auf den ersten Erfolg bei der unabhängigen Wiederholung eines Experiments. 4.3.5 Negative Binomialverteilung Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch n−1 pX (n) = P[X = n] = · pr · (1 − p)n−r , r−1 heißt negativ binomialverteilt mit den Parametern r und p. In diesem Fall schreibt man auch X ∼ N B(r, p) 29 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Sei X ∼ N B(r, p) eine negativ binomialverteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = r p (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. r r+1 2 E(X ) = · −1 p p Beweis Sei X ∼ N B(r, p) eine negativ binomialverteilte Zufallsvariable. Um nun das Lemma zu beweisen, benötigt man die folgende Umformung des Binomialkoeffizienten. n−1 n n· =r· (∗) r−1 r Im Folgenden kann somit das k-te Moment berechnet werden. ∞ X n−1 E(X ) = n · · pr · (1 − p)n−r r−1 n=r r+1 ∞ X n−1 p k−1 · (1 − p)n−r = n · n· · p r − 1 n=r r+1 ∞ n p (∗) X k−1 = n · r· · · (1 − p)n−r r p n=r ∞ n r X k−1 n · · pr+1 · (1 − p)n−r = p n=r r ∞ m−1 r X (m − 1)k−1 · · pr+1 · (1 − p)m−(r+1) = r p m=r+1 r = · E[(Y − 1)k−1 ] mit Y ∼ N B(r + 1, p) p k k mit m=n+1 Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden. (i) E(X) = r r · E[(Y − 1)1−1 ] = p p r r (ii) E(X ) = · E[(Y − 1)2−1 ] = · p p 2 r+1 −1 p Lemma Die Varianz einer negativ binomialverteilten Zufallsvariable X ∼ N B(r, p) ist gegeben durch Var(X) = r · (1 − p) p Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. 2−p Var(X) = E(X ) − E(X) = − p2 2 2 2 1 2−p 1 1−p = − 2 = p p2 p p2 Bemerkung Die negative Binomialverteilung beschreibt die Anzahl der Versuche, die erforderlich sind, um in einem Bernoulli-Prozess eine vorgegebene Anzahl von Erfolgen zu erzielen. 30 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 4.3.6 Hypergeometrische Verteilung Definition Eine diskrete Zufallsvariable X : Ω → R mit der Massenfunktion pX , gegeben durch m N −m · i n−i , pX (i) = P[X = i] = N n heißt hypergeometrisch verteilt mit den Parametern n, N und m. In diesem Fall schreibt man auch X ∼ h(n, N, m) Lemma Sei X ∼ h(n, N, m) eine hypergeometrisch verteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. m E(X) = n · N (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. m m−1 E(X 2 ) = n · · (n − 1) · +1 N N −1 Beweis Sei X ∼ h(n, N, m) eine hypergeometrisch verteilte Zufallsvariable. Um nun das Lemma zu beweisen, benötigt man die folgenden Umformungen des Binomialkoeffizienten. m m−1 i· =m· (∗) i i−1 N N −1 n· =N· (∗∗) n n−1 Im Folgenden kann somit das k-te Moment berechnet werden. m N −m · n X i n−i ik · E(X k ) = N i=0 n m N −m i · · n X i n−i = ik−1 · 1 N i=1 · n· n n m−1 N −m m· · n i−1 n−i (∗) X k−1 = n i · N i=1 n· n m−1 N −m · n X i−1 n−i (∗∗) = n·m ik−1 · N −1 i=1 N· n−1 m−1 N −m · n m X k−1 i−1 n−i =n· i · N −1 N i=1 n−1 m−1 N −m · n−1 mX j n−1−j (j + 1)k−1 · mit j = i − 1 =n· N −1 N j=0 n−1 m =n· · E[(Y + 1)k−1 ] mit Y ∼ h(n − 1, N − 1, m − 1) N Damit kann der Erwartungswert und das zweite Moment direkt gezeigt werden. 31 Prof. Dr. Ulrich Horst (i) E(X) = n · Stochastik WS 2013/2014 m m · E[(Y + 1)1−1 ] = n · N N m m m−1 2−1 (ii) E(X ) = n · · E[(Y + 1) ] = n · · (n − 1) · +1 N N N −1 2 Lemma Die Varianz einer hypergeometrisch verteilten Zufallsvariable X ∼ h(n, N, m) ist gegeben durch Var(X) = n · m m N − n · · 1− N N N −1 Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. m−1 m 2 m Var(X) = E(X 2 ) − E(X)2 = n · · (n − 1) · +1 − n· N N −1 N m m−1 m =n· (n − 1) · +1−n· N N −1 N m m·n−n−m+1 N −1 m =n· + −n· N N −1 N −1 N m m · n − n − m + 1 N · (N − 1) − m · n · (N − 1) =n· + N N −1 N · (N − 1) m m · n − n − m + 1 (N − 1) · (N − m · n) =n· + N N −1 N · (N − 1) m·n (N − 1) · (N − m · n) = m·n−n−m+1+ N · (N − 1) N m·n N ·m·n−N ·n−N ·m+N N2 − N · m · n − N + m · n = + N · (N − 1) N N 2 m·n N −N ·m−N ·n+m·n = N · (N − 1) N m·n (N − n) · (N − m) = N · (N − 1) N m N − n (N − m) =n· · N N −1 N m m N − n =n· · 1− · N N N −1 Bemerkung Es wird von einer zweigeteilten Grundgesamtheit ausgegangen. Dieser Gesamtheit werden in einer Stichprobe zufällig n Elemente nacheinander ohne Zurücklegen entnommen. Die hypergeometrische Verteilung gibt dann Auskunft darüber, mit welcher Wahrscheinlichkeit in der Stichprobe eine bestimmte Anzahl von Elementen vorkommt, die die gewünschte Eigenschaft haben. Bedeutung kommt dieser Verteilung daher etwa bei Qualitätskontrollen zu. Bemerkung Die hypergeometrische Verteilung wird modellhaft dem Urnenmodell ohne Zurücklegen zugeordnet (siehe auch Kombination ohne Wiederholung). Man betrachtet speziell in diesem Zusammenhang eine Urne mit zwei Sorten Kugeln. Es werden n Kugeln ohne Zurücklegen entnommen. Die Zufallsvariable X ist die Zahl der Kugeln der ersten Sorte in dieser Stichprobe. Bemerkung Die hypergeometrische Verteilung beschreibt also die Wahrscheinlichkeit dafür, dass bei N gegebenen Elementen, von denen m die gewünschte Eigenschaft besitzen, beim Herausgreifen von n Probestücken genau i Treffer erzielt werden, d. h. die Wahrscheinlichkeit für X = i Erfolge in n Versuchen. 32 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 5 Absolutstetige Zufallsvariablen 5.1 Approximation der Binomialverteilung Erinnerung Sei (Xn )n∈N ∼ B(n, p) eine Folge binomialverteilter Zufallsvariablen. Dann gilt für den Erwartungswert und für die Varianz dieser Folge von Zufallsvariablen Folgendes. E(Xn ) = n · pn und Var(Xn ) = n · pn · (1 − pn ) Gilt n·pn → λ < ∞, so kann die Binomialverteilung für große n durch die Poissonverteilung approximiert werden, d. h. für kleine p approximieren wir B(n, p) durch π(λ). Es gilt also folgende Annäherung. B(n, p) ≈ π(λ) Bemerkung für n → ∞ und p → 0 Sei (Xn )n∈N ∼ B(n, p) eine Folge von Zufallsvariablen. Ist pn ≡ p, so gilt Folgendes. E(Xn ) = n · p % ∞ und Var(Xn ) = n · p · (1 − p) % ∞ In diesem Fall müssen wir Xn standardisieren. Xn − n · p Xn − E(Xn ) =p Xn∗ := p Var(Xn ) n · p · (1 − p) Das Ziel ist es nun, in geeigneter Weise die folgende Wahrscheinlichkeit anzunähern. " # k − n · p P[Xn = k] = P Xn∗ = p =: pn (k) n · p · (1 − p) Dazu betrachten wir nun den Fall p = 1/2. 1 Xn ∼ B n, 2 Satz von de Moivre-Laplace Sei (Xn )n∈N ∼ B(n, p) eine Folge von Zufallsvariablen. Sei c > 0 und sei 1 1 ϕ(x) = √ · exp − · x2 2 2π Sei xn (k) für 0 ≤ k ≤ n und n ∈ N wie folgt definiert. k − n/2 xn (k) := p n/4 Dann gilt im Folgenden der Satz von de Moivre-Laplace. r pn (k) n lim max · − 1 = 0 n→∞ k:|xn (k)|<c ϕ(xn (k)) 4 Beweis Auf den Beweis wird an dieser Stelle verzichtet. Bemerkung Als unmittelbare Folgerung erhalten wir, dass die Verteilungen der standardisierten Variablen Xn∗ mit n → ∞ gegen eine absolutstetige Verteilung konvergieren - gegen die für die Stochastik zentrale Gauß-Verteilung - die wir später genauer betrachten. Korollar Gegeben seien die Voraussetzungen des obigen Satzes. Dann gilt Folgendes. lim P [a ≤ n→∞ Xn∗ Zb ≤ b] = ϕ(x) dx für a, b ∈ R a Beweis Auf den Beweis wird an dieser Stelle verzichtet. 33 mit a < b Prof. Dr. Ulrich Horst Bemerkung Stochastik WS 2013/2014 Für zwei Folgen (an )n∈N und (bn )n∈N schreibt man an ∼ bn , falls Folgendes gilt. lim n→∞ an =1 bn Lemma Große Fakultäten können näherungsweise wie folgt berechnet werden. n n √ n! ∼ 2πn e (Stirling-Formel) Beweis Auf den Beweis wird an dieser Stelle verzichtet. 5.2 Absolutstetige Zufallsvariablen Definition Eine Zufallsvariable X heißt absolutstetig verteilt mit der Dichte f , falls eine integrierbare Funktion f : R → R existiert, die folgende Eigenschaften für alle Borel-messbaren Mengen B erfüllt. Z Z Z f (x) dx = 1 und P[X ∈ B] = f (x) dx = 1B (x) · f (x) dx B R Bemerkung R Die Dichte wird oft auch PDF (probability density function) genannt. Definition Sei X absolutstetig verteilte Zufallsvariable mit der Dichte f . Dann heißt die Funktion Zx F (x) = P[X ≤ x] = f (y) dy −∞ die (kumulative) Verteilungsfunktion. Bemerkung Die Verteilungsfunktion wird oft auch CDF (cumulative distribution function) genannt. Bemerkung Für eine absolutstetige Zufallsvariable X mit Dichte f und B = [a, b] gilt Folgendes. Zb P[X ∈ [a, b]] = P[a ≤ X ≤ b] = f (x) dx a Bemerkung Für eine absolutstetige Zufallsvariable X mit Dichte f und B = [a, a] gilt Folgendes. Za P[X ∈ [a, a]] = P[X = a] = f (x) dx = 0 a Da jeder feste Wert also Null ist, gilt damit für die Verteilungsfunktion F Folgendes. F (x) = P[X ≤ x] = P[X < x] Bemerkung Für eine absolutstetige Zufallsvariable X mit Dichte f und Verteilungsfunktion F gilt Z∞ 1 − F (x) = f (y) dy x Bemerkung Ist die Dichte f stetig, so gilt der Hauptsatz der Integral- und Differentialrechnung. F0 = f Beispiel Sei X eine absolutstetige Zufallsvariable mit der Dichte ( c · (4x − 2x2 ), falls 0 < x < 2 f (x) = 0, sonst Im Folgenden soll der Parameter c und P[X > 1] bestimmt werden. 34 Prof. Dr. Ulrich Horst Lösung Stochastik WS 2013/2014 Um den Parameter c zu bestimmen, muss die folgende Eigenschaft der Dichte genutzt werden. Z f (x) dx = 1 R Damit gilt für die Dichte f der Zufallsvariablen X Folgendes. Z2 Z2 2 c · (4x − 2x ) dx = c 1= 0 0 2 2 8 (4x − 2x2 ) dx = c 2x2 − x3 = c · 3 3 0 ⇔ c= 3 8 Da der Parameter c bestimmt wurde, kann nun auch die Wahrscheinlichkeit P[X > 1] bestimmt werden. Z2 P[X > 1] = 1 2 3 3 2 1 (4x − 2x2 ) dx = 2x2 − x3 = 8 8 3 2 1 Beispiel Die Dauer (in Stunden) bevor ein Computer ausfällt sei eine Zufallsvariable mit der Dichte λ · exp − 1 x , falls x ≥ 0 100 f (x) = 0, sonst (i) Wie groß ist die Wahrscheinlichkeit, dass der Computer zwischen 50 und 100 Stunden funktioniert. (ii) Wie groß ist die Wahrscheinlichkeit, dass der Computer weniger als 100 Stunden funktioniert? Lösung (i) Zunächst wird der Parameter λ bestimmt, indem die Eigenschaften der Dichte genutzt werden. ∞ Z∞ Z∞ 1 1 1 x dx = λ exp − x dx = λ −100 · exp − x 1 = λ · exp − 100 100 100 0 0 0 1 100 Damit gilt dann für die gesuchte Wahrscheinlichkeit Folgendes. = λ [0 − (−100)] = 100 · λ ⇔ λ= 100 Z100 1 1 1 exp − x dx = −100 · exp − x 100 100 100 50 50 = −e−1 − −e−1/2 = e−1/2 − e−1 ≈ 0,239 1 P[50 ≤ x ≤ 100] = 100 (ii) Um die gesuchte Wahrscheinlichkeit zu bestimmen, muss das folgende Integral berechnet werden. 1 P[X < 100] = 100 100 Z100 1 1 1 exp − x dx = −100 · exp − x = 1 − e−1 ≈ 0,632 100 100 100 0 0 5.3 Erwartungswert und Varianz absolutstetiger Zufallsvariablen Definition Sei X : Ω → R eine absolutstetige Zufallsvariable mit der Dichtefunktion f . Der Erwartungswert von X ist dann wie folgt definiert. Z Z E(X) = x · f (x) dx, falls |x| · f (x) dx < ∞ R R Beispiel Es sei X eine absolutstetige Zufallsvariable mit der Dichte f , gegeben durch ( 1, falls x ∈ [0, 1] f (x) = , 0, sonst und es sei g(x) = exp(x). Dann gilt für den Erwartungswert von g(X) Folgendes. X Z1 Z1 g(x) · f (x) dx = E[g(X)] = E[e ] = 0 0 35 1 ex · 1 dx = [ex ]0 = e1 − e0 = e − 1 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Kommt Erna zu ihrem Date s Minuten zu spät, kostet sie das c · s e, kommt sie s Minuten zu früh kostet sie das k · s e. Die Reisezeit von Ernas Wohnung zum Treffpunkt ist absolutstetig verteilt mit stetiger Dichte f . Wann muss Erna aufbrechen um ihre erwarteten Kosten zu minimieren. Lösung Sei X die Reisezeit und t die Anzahl der Zeiteinheiten vom Aufbruchspunkt bis zur vereinbarten Zeit. Dann ist das Kostenfunktional wie folgt gegeben. ( c · (X − t), falls X ≥ t Ct (X) = k · (t − X), falls X ≤ t Dann sind die erwarteten Kosten wie folgt zu berechnen. Z∞ Ct (x) · f (x) dx = E[Ct (X)] = Z∞ Zt 0 t 0 Zt =k·t Z∞ Zt f (x) dx − k 0 c · (x − t) · f (x) dx k · (t − x) · f (x) dx + x · f (x) dx + c Z∞ x · f (x) dx − c · t t 0 f (x) dx t Es gilt also die Funktion t 7→ E[Ct (X)] zu minimieren. Dazu betrachtet man die Ableitung nach t. d E[Ct (X)] = k dt Z∞ Zt x · f (x) dx + k · t · f (t) − k · t · f (t) − c · t · f (t) − c f (x) dx + c · t · f (t) t 0 = k · F (t) − c · [1 − F (t)] = k · F (t) − c + c · F (t) = (k + c) · F (t) − c Die kritischen Punkte der Funktion t 7→ E[Ct (X)] sind also bestimmt durch die Gleichung 0= d c E[Ct (X)] = (k + c) · F (t) − c ⇔ F (t) = dt k+c Dies liefert in der Tat ein Minimum, da die folgende Bedingung erfüllt ist. d2 E[Ct (X)] = (k + c) · f (t) ≥ 0 dt2 Lemma Sei Y ≥ 0 eine Zufallsvariable. Dann lässt sich der Erwartungswert von Y wie folgt darstellen. Z∞ E(Y ) = P[Y > y] dy 0 Beweis Um dieses Lemma zu beweisen, benötigt man den Satz von Fubini (∗), welcher im Exkurs zur mehrdimensionalen Differentiation und Integration genauer erläutert wird. Sei Y eine absolutstetige Zufallsvariable mit der Dichte fY . Z∞ Z∞ Z∞ Z∞ Z∞ P[Y > y] dy = fY (x) dx dy = 1y<x (x, y) · f (x) dx dy 0 y 0 (∗) Z∞ Z∞ = 0 0 0 Z∞ Z∞ dy f (x) dx 1y<x (x, y) · f (x) dy dx = 0 0 0 Z∞ x · f (x) dx = E(Y ) = 0 Proposition Sei X absolutstetig verteilt mit Dichte f . Sei g : R → R eine (messbare) Funktion, dann gilt für den Erwartungswert von g(X) Folgendes. Z Z E[g(X)] = g(x) · f (x) dx, falls |g(x)| · f (x) dx < ∞ R R n n Für die Funktion g(x) = x heißt der Erwartungswert E(X ) das n-te Moment (sofern existent). 36 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beweis Um diese Proposition zu beweisen, verwendet man das zuvor gegebene Lemma. Z∞ E[g(X)] = Z∞ Z P[g(X) > y] dy = 0 f (x) dx dy x:g(x)>y 0 g(x) Z Z = Z dy f (x) dx = x:g(x)>y 0 g(x) · f (x) dx x:g(x)>y Lemma Seien a, b ∈ R, sowie X und Y absolutstetige Zufallsvariablen mit den Dichten fX und fY und existierenden Erwartungswerten. Dann gelten die folgenden Rechenregeln. (i) E(a · X + b) = a · E(X) + b (Lineare Transformation) (ii) E(X + Y ) = E(X) + E(Y ) (Additivität) Beweis Es gelten die Voraussetzungen des obigen Lemmas. (i) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet. Z Z Z E(a · X + b) = (a · x + b) · f (x) dx = a x · f (x) + b f (x) dx = a · E(X) + b R R R (ii) Um diese Rechenregel zu beweisen, wird lediglich die Definition des Erwartungswertes angewendet. Z Z Z E(X + Y ) = (x + y) · f (x) dx = x · f (x) dy + y · f (x) dx = E(X) + E(Y ) R R R Definition Sei X : Ω → R eine absolutstetige Zufallsvariable mit der Dichtefunktion f . Die Varianz dieser Zufallsvariablen ist dann wie folgt definiert. Var(X) = E[(X − E(X))2 ] Lemma Sei a ∈ R und X eine absolutstetige Zufallsvariable mit der Dichtefunktion f und existierender Varianz. Dann gelten die folgenden Rechenregeln. (i) Var(aX + b) = a2 Var(X) (Lineare Transformation) (ii) Var(−X) = Var(X) (iii) Var(X) = E(X 2 ) − (E(X))2 (Verschiebungssatz) Beweis Seien a, b ∈ R und X eine diskrete Zufallsvariablen mit existierender Varianz. (i) Die lineare Transformation ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert. Var(aX + b) = E[(aX + b − E(aX + b))2 ] = E[(aX + b − aE(X) − b)2 ] = a2 E[(X − E(X))2 ] = a2 Var(X) (ii) Diese Rechenregel folgt direkt aus der Regel (i) als Spezialfall mit a = −1 und b = 0. (iii) Der Verschiebungssatz ergibt sich durch Anwenden der Definition der Varianz und der Rechenregeln für den Erwartungswert. Var(X) = E[(X − E(X))2 ] = E[X 2 − 2 · X · E(X) + E(X)2 ] = E(X 2 ) − E(2 · X · E(X)) + E(X)2 = E(X 2 ) − 2 · E(X) · E(X) + E(X)2 = E(X 2 ) − E(X)2 37 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Satz Sei X eine absolutstetige Zufallsvariable mit stetiger Dichte fX . Angenommen g : R → R sei eine strikt monotone (steigende oder fallende), stetig differenzierbare Funktion mit g 0 (x) 6= 0 für alle x ∈ R. Sei R = h(R) das Bild von h. Dann hat die Zufallsvariable Y = g(X) die folgende Dichte. ( fX [g −1 (y)] · |(g −1 )0 (y)|, falls y ∈ R fY (y) = 0, sonst Beweis Da die Funktion g strikt monoton ist, existiert die Umkehrfunktion g −1 . Nach dem Satz über die Differenzierbarkeit von Umkehrfunktionen gilt damit Folgendes. (g −1 )0 (y) = 1 g 0 (g −1 (y)) Angenommen g ist strikt monoton steigend, dann gilt für die Verteilungsfunktion von Y Folgendes. FY (y) = P[Y ≤ y] = P[g(X) ≤ y] = P[X ≤ g −1 (y)] = FX (g −1 (y)) Da die Dichte fX stetig und g differenzierbar ist, gilt nach der Kettenregel. ( fX (g −1 (y)) · (g −1 )0 (y), falls y ∈ R fY (y) = 0, sonst Angenommen g ist strikt monoton fallend, dann gilt für die Verteilungsfunktion von Y Folgendes. FY (y) = P[Y ≤ y] = P[g(X) ≤ y] = P[X ≥ g −1 (y)] = 1 − P[X ≤ g(y)] = 1 − FX (g(y)) Da die Dichte fX stetig und g differenzierbar ist, gilt nach der Kettenregel. ( −fX [g −1 (y)] · (g −1 )0 (y), falls y ∈ R fY (g(y)) = 0, sonst Betrachtet man nun beide Fälle gleichzeitig, so ergibt sich folgende Ableitung. ( fX [g −1 (y)] |(g −1 )0 (y)|, falls y ∈ R fY (g(y)) = 0, sonst 5.4 Spezielle absolutstetige Verteilungen 5.4.1 Gleichverteilung Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch 1 , falls x ∈ [α, β] f (x) = β − α 0, sonst heißt gleichverteilt auf [α, β] mit α, β ∈ R. In diesem Fall schreibt man auch X ∼ U(α, β) Für die Verteilungsfunktion einer gleichverteilten Zufallsvariable gilt Folgendes. 0, falls x ≤ α Zx x − α 1 x−α , falls α < x < β F (x) = mit dy = β − α β − α β −α α 1, falls x ≥ β Lemma Sei X ∼ U(α, β) eine gleichverteilte Zufallsvariable auf [α, β]. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = 1 (β + α) 2 (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = 1 2 (β + αβ + α2 ) 3 38 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beweis Sei X ∼ U(α, β) eine gleichverteilte Zufallsvariable auf [α, β]. (i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet. Zβ E(X) = 1 1 x· dx = β−α β−α α Zβ x dx = α β 1 1 2 1 2 1 2 1 x β − α = β−α 2 β−α 2 2 α (β + α) · (β − α) 1 β 2 − α2 = = (β + α) = 2(β − α) 2(β − α) 2 (ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet. 2 Zβ E(X ) = 1 1 x · dx = β−α β−α 2 α Zβ β 1 1 3 1 3 1 3 1 x dx = x β − α = β−α 3 β−α 3 3 α 2 α 1 β 3 − α3 = (β 2 + αβ + α2 ) = 3(β − α) 3 Lemma Die Varianz einer gleichverteilten Zufallsvariable X ∼ U(α, β) ist gegeben durch Var(X) = 1 (β − α)2 12 Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. 2 1 1 Var(X) = E(X 2 ) − (E(X))2 = (β 2 + αβ + α2 ) − (β + α) 3 2 1 1 1 1 2 = (β + αβ + α2 ) − (β + α)2 = (β 2 + αβ + α2 ) − (β 2 + 2αβ + α2 ) 3 4 3 4 4(β 2 + αβ + α2 ) − 3(β 2 + 2αβ + α2 ) β 2 − 2αβ + α2 1 = = = (β − α)2 12 12 12 5.4.2 Normalverteilung Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch 2 ! 1 x−µ 1 exp − , f (x) = √ 2 σ σ 2π heißt normalverteilt mit den Parametern µ ∈ R und σ ∈ R+ . In diesem Fall schreibt man auch X ∼ N (µ, σ) Für die Verteilungsfunktion einer normalverteilten Zufallsvariable gilt Folgendes. 2 ! Zx 1 1 t−µ F (x) = √ exp − dt 2 σ σ 2π −∞ Bemerkung Die Standardnormalverteilung erhält man für µ = 0 und σ = 1. Ihre Dichtefunktion ist 1 1 exp − x2 ϕ(x) = √ 2 2π und die Verteilungsfunktion der Standardnormalverteilung ist wie folgt gegeben. 1 Φ(x) = √ 2π Zx 1 exp − t2 2 dt −∞ Sei X : Ω → R eine Zufallsvariable auf (Ω, F, P). X heißt (standard-)normalverteilt, falls Folgendes gilt. Zb P [X ∈ [a, b]] = ϕ(x) dx = Φ(b) − Φ(a) a 39 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = µ (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = µ2 + σ 2 Beweis Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable. (i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet. 2 ! Z 1 x−µ 1 exp − dx E(X) = x· √ 2 σ σ 2π R 2 ! Z 1 1 x−µ = √ x · exp − dx 2 σ σ 2π R 2 ! Z 1 x−µ 1 (x − µ) · exp − = √ dx +µ = µ 2 σ σ 2π R =0 (aufgrund der Symmetrie) (ii) Um das zweite Moment zu beweisen, werden die Eigenschaften des Erwartungswertes und die Symmetrie der Standardnormalverteilung genutzt. Sei X ∼ N (µ, σ), dann ist Y = (X − µ)/σ ∼ N (0, 1). E(X 2 ) = E[(σY + µ)2 ] = E[σ 2 Y 2 + 2µσY + µ2 ] = σ 2 · E(Y 2 ) +2 · µ · σ · E(Y ) +µ2 = σ 2 + µ2 =1 =0 Lemma Die Varianz einer normalverteilten Zufallsvariable X ∼ N (µ, σ) ist gegeben durch Var(X) = σ 2 Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. Var(X) = E(X 2 ) − (E(X))2 = µ2 + σ 2 − (µ)2 = σ 2 Proposition Sei X ∼ N (µ, σ) eine normalverteilte Zufallsvariable und seien α, β ∈ R mit α > 0. αX + β ∼ N (αµ + β, ασ) Beweis Es gelten die Annahmen der Proposition. Sei FY die Verteilungsfunktion von Y = αX + β. x−β x−β FY (x) = P[Y ≤ x] = P[αX + β ≤ x] = P X ≤ = FX α α Dabei bezeichnet FX die Verteilungsfunktion von X. Durch Ableiten erhält man nun die Dichte von Y . !2 x−β − µ d 1 x−β 1 1 1 α √ · exp − fY (x) = FY (x) = · fX = dx α α α σ 2π 2 σ 2 ! 2 ! 1 1 1 x − β − αµ 1 x − (αµ + β) √ · exp − √ · exp − = = 2 ασ 2 ασ ασ 2π ασ 2π Beispiel Um den Cholesterin-Spiegel zu senken, machen 100 Leute eine Diät. Um die Wirksamkeit der Diät zu testen, testet man nach Beendigung den Cholesterin-Spiegel erneut. Die Wirksamkeit wird akzeptiert, wenn nach der Diät mindestens 65% der Probanden einen niedrigeren Cholesterin-Spiegel haben. Gesucht ist die Wahrscheinlichkeit, dass die Wirksamkeit akzeptiert wird, obwohl die Diät tatsächlich wirkungslos ist. 40 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lösung Man nimmt an, dass die Diät wirkungslos ist. Der Cholesterin-Spiegel ist mit einer Wahrscheinlichkeit von 1/2 nach der Diät höher bzw. tiefer. Sei X eine Zufallsvariable für die Anzahl der Probanden mit einem niedrigen Cholesterin-Spiegel. X ∼ B(n, p) mit n = 100 und p = 1 2 Dann gilt für die gesuchte Wahrscheinlichkeit Folgendes. X − 50 64,5 − 50 P[X ≥ 65] = P ≥ = P[Z ≥ 2,9] = 1 − P[Z < 2,9] = 1 − Φ(2,9) = 0,0019 5 5 Beispiel Angenommen, 52% aller Berliner seien für ein striktes Alkoholverbot in der S-Bahn. Wie groß muss eine Umfrage sein, damit mit mindestens 95% Wahrscheinlichkeit die Hälfte der Befragten für ein Verbot ist? Lösung Sei N die Anzahl aller Berliner. Dann gibt es 0,52 · N Befürworter. Sei Sn die Zahl derjenigen unter den Befragten, die für ein Verbot sind und n die Anzahl der Befragten. Dann gilt folgende Verteilung. Sn ∼ H(n, N, 0,52 · N ) D. h. Sn ist hypergeometrisch verteilt zu den Parametern (n, N, 0,52 · N ). Da man Sn nicht direkt durch eine Normalverteilung approximieren kann, wird die hypergeometrische Verteilung zunächst durch eine Binomialverteilung approximiert. Gilt also n, m → ∞ mit m/N → p, so gilt die folgende Approximation. m N −m · m i n−i → · pi · (1 − p)n−i P[X = i] = N i n Damit gilt nun Sn ≈ B(n, 0,52). Damit kann man nun die Binomialverteilung durch die Normalverteilung annähern, wodurch sich nun Folgendes ergibt. 1 Sn − 0,52n 0, 5n − 0,52n P Sn > n = P √ >√ 2 n · 0,52 · 0,48 n · 0,52 · 0,48 ∼N (0,1) √ =−0,04 n √ Es wird also ein n ∈ N gesucht, sodass P[Z > −0,04 n] ≥ 0,95 mit Z ∼ N (0, 1) gilt. Für Z > 0 gilt mit 1 − Φ(−z) = Φ(z) für die Standardnormalverteilung Φ aufgrund der Symmetrie Folgendes. √ √ √ √ P[Z > −0,04 n] = 1 − P[Z < −0,04 n] = 1 − Φ(−0,04 n) = Φ(0,04 n) Verwendet man eine Tabelle für die Werte einer N (0, 1)-Verteilung mit Φ(1,645) = 0,95 so gilt Folgendes. √ √ √ Φ(0,04 n) > 0,95 ⇔ Φ(0,04 n) > Φ(1,645) ⇔ 0,04 n > 1,645 ⇔ n > 1692 D. h. der Stichprobenumfang muss mindestens 1692 betragen. 5.4.3 Exponentialverteilung Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch ( λ · e−λ·x , falls x ≥ 0 f (x) = , 0, sonst heißt exponentialverteilt mit den Parameter λ ∈ R+ = {x ∈ R | x > 0}. In diesem Fall schreibt man auch X ∼ E(λ) Für die Verteilungsfunktion einer exponentialverteilten Zufallsvariable gilt Folgendes. ( Zx 1 − e−λ·x , falls x ≥ 0 F (x) = f (t) dt = 0, sonst −∞ 41 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Sei X ∼ E(λ) eine exponentialverteilte Zufallsvariable. (i) Der Erwartungswert der Zufallsvariable X ist dann wie folgt gegeben. E(X) = 1 λ (ii) Das zweite Moment der Zufallsvariable X ist dann wie folgt gegeben. E(X 2 ) = 2 λ2 Beweis Sei X ∼ E(λ) eine exponentialverteilte Zufallsvariable. (i) Um den Erwartungswert zu beweisen, wird lediglich dessen Definition verwendet. Z∞ x·λ·e E(X) = ∞ dx = −x · e−λx 0 + −λx Z∞ e −λx 0 0 ∞ 1 −λx 1 dx = 0 + − · e = λ λ 0 (ii) Um das zweite Moment zu beweisen, wird lediglich dessen Definition verwendet. 2 Z∞ 2 x ·λ·e E(X ) = −λx ∞ dx = −x2 · e−λx 0 + 2 0 Z∞ x · e−λx dx = 0 + 2 · 1 2 = 2 λ2 λ 0 Lemma Die Varianz einer exponentialverteilten Zufallsvariable X ∼ E(λ) ist gegeben durch Var(X) = 1 λ2 Beweis Um die Varianz zu beweisen, wird der Verschiebungssatz verwendet. 2 2 1 2 1 1 Var(X) = E(X 2 ) − E(X)2 = 2 − = 2− 2 = 2 λ λ λ λ λ Lemma Sei X ∼ E(λ) und s, t > 0. Dann gilt die Gedächtnislosigkeit. P[X > s + t | X > t] = P[X > s] Beweis Nach dem Satz von Bayes gilt Folgendes. P[X > s + t | X > t] = P[X > s + t, X > t] P[X > s + t] = P[X > t] P[X > t] Für t > 0 gilt nun P[X > t] = e−λ·t und damit auch die Gedächtnislosigkeit. P[X > s + t] e−λ·(s+t) e−λ·s−λ·t e−λ·s · e−λ·t = = = = e−λ·s = P[X > s] P[X > t] e−λ·t e−λ·t e−λ·t Beispiel Angenommen die Ankunftszeit der nächsten Bahn ist exponentialverteilt mit erwarteter Wartezeit von 10 Minuten. Sie stehen seit 4 Minuten am Bahnsteig. Wie lange warten Sie im Mittel? Lösung Sei X die Ankunftszeit, dann gilt P[X > t] = e−λ·t mit λ = 1/10, da E(X) = 10. Nun gilt P[X > s + 4 | X > 4] = P[X > s] aufgrund der Gedächtnislosigkeit. Sei Y ≥ 0 die Restwartezeit. Dann gilt P[Y > s] = P[X > s + 4 | X > 4] = e−λ·s Damit gilt für den gesuchten Erwartungswert von Y Folgendes. Z∞ E(Y ) = Z∞ P[Y > s] ds = 0 0 42 e−λ·s ds = 1 = 10 λ Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Exkurs: Mehrdimensionale Differentiation und Integration E.1 Mehrdimensionale Differentiation Motivation Sei X : Ω → Rn eine Zufallsvariable und x = (x1 , . . . , xn )> ∈ Rn , sowie B ⊆ Rn . Z Z P[X ∈ B] = f (x) dx = f (x1 , . . . , xn ) d(x1 , . . . , xn ) B B Definition Sei U ⊆ Rn offen und f : U → R eine Abbildung. Dann heißt die Funktion f in x = (x1 , . . . , xn )> ∈ U partiell differenzierbar bezüglich der i-ten Koordinate, falls der folgende Grenzwert existiert. Di f (x) = f (x + h · ei ) − f (x) ∂ f (x) := lim h→0 ∂xi h Dabei bezeichnet ei = (0, . . . , 0, 1, 0, . . . , 0) den i-ten Einheitsvektor, wobei 1 genau an der i-ten Stelle steht. Anders formuliert, kann die partielle Ableitung auch wie folgt aufgefasst werden. Sei ξ ∈ R und fi : R → R mit fi (ξ) = f (x1 , . . . , xi−1 , ξ, xi+1 , . . . , xn ) Dann ist die partielle Ableitung der Funktion f in x ∈ Rn bezüglich der i-ten Koordinate durch Di f (x) = lim h→0 fi (xi + h) − fi (xi ) = fi0 (xi ) h gegeben. Die Funktion f heißt partiell differenzierbar in x ∈ U , falls Di f (x) für alle i = 1, . . . , n existiert. Beispiel Sei f (x) = p x21 + . . . + x2n . Ihre partiellen Ableitungen haben dann die folgende Form. Di f (x) = −1/2 xi 1 2 x1 + . . . + x2i + . . . + x2n · 2xi = 2 f (x) für x 6= 0 Beispiel Sei g : R+ → R differenzierbar. Dann besitzt die Komposition g ◦ f die partiellen Ableitungen. ∂ xi · g 0 (f (x)) g(f (x)) = g 0 (f (x)) · Di f (x) = ∂xi f (x) Definition Die ersten partiellen Ableitungen lassen sich in einem Vektor anordnen. > ∂ ∂ > grad f (x) = ∇f (x) := (D1 f (x), . . . , Dn f (x)) = f (x), . . . , f (x) ∂x1 ∂xn Dieser Vektor heißt Gradient von f in x ∈ Rn . Die Einträge sind die partiellen Ableitungen von f in Richtung xi für alle i = 1, . . . , n. Satz Sei U ⊆ Rn offen und f : U → R eine partiell differenzierbare Funktion, sprich es gilt f ∈ C 1 (U, R). Sind alle partiellen Ableitungen Di f : Rn → R für i = 1, . . . , n selbst partiell differenzierbar, das heißt Dj (Di f (x)) = Dj Di f (x) = ∂2 f (x) ∂xi ∂xj existiert für alle i, j = 1, . . . , n, dann heißt die Abbildung f zweimal (stetig) partiell differenzierbar (falls Di f und Dj Di f für alle i und j stetig sind) und man schreibt f ∈ C 2 (U, R). Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte. Satz von Schwarz Sei U ⊆ Rn offen und f : U → R zweimal stetig partiell differenzierbar. Dann gilt Dj Di f (x) = Di Dj f (x) für i, j = 1, . . . , n Gilt f : U → Rm mit f (x) = (f1 (x), . . . , fm (x))> , so kann der Satz von Schwarz auf alle Komponentenfunktionen fk : U → R mit k = 1, . . . , m ebenfalls angewendet werden. 43 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte. E.2 Mehrdimensionale Integration Ziel Definition des Integrals R f (x) dx für eine Funktion f : U → R mit U ⊆ Rn . Korollar Eine stetige Funktion auf einer kompakten Menge X ist gleichmäßig stetig. Beweis Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet, da dieser bereits aus der Vorlesung Analysis II bekannt sein sollte. Lemma Sei [a, b] ein kompaktes (abgeschlossenes und beschränktes) Intervall und U ⊆ Rn offen. Außerdem sei (yk ) ⊆ U eine Folge mit lim yk = c k→∞ Dann konvergieren die Funktionen Fk : [a, b] → R mit Fk (x) = f (x, yk ) gleichmäßig gegen F : [a, b] → R mit F (x) = f (x, c), das heißt wiederum das Folgendes gilt. lim sup |Fk (x) − F (x)| = 0 k→∞ x∈[a,b] Beweis Die Menge Q = {yk | k ∈ N} ∪ {c} ist kompakt, da yk gegen c konvergiert, d. h. bis auf endlich viele yk liegen alle yk in einer Umgebung von c. Dann ist auch die Menge [a, b] × Q kompakt, also ist auch f : [a, b] × Q → R gleichmäßig stetig. Sei ε > 0. Dann existiert ein δ > 0 mit |(x, y) − (x0 , y 0 )| < δ |f (x, y) − f (x0 , y 0 )| < ε ⇒ Da yk → c, existiert ein N ∈ N, sodass ∀k ≥ N : |yk − c| < δ. Also insbesondere gilt damit auch ∀x ∈ [a, b], ∀k ≥ N : |f (x, yk ) − f (x, c)| < ε Also gilt ∀x ∈ [a, b], ∀k ≥ N : |Fk (x) − F (x)| < ε. Satz Sei [a, b] ein kompaktes (abgeschlossenes und beschränktes) Intervall und U ⊆ Rn offen, sowie f : [a, b] × U → R eine stetige Abbildung. Die Funktion ϕ : U → R ist ebenfalls stetig, falls für y ∈ U Folgendes gilt Zb ϕ(y) = f (x, y) dx a Beweis Um im Folgenden zu beweisen, dass die Abbildung Zb y 7→ f (x, y) dx a stetig ist, sei (yk ) eine Folge mit yk → c. Dann gilt für diese Abbildung Folgendes. Zb ϕ(yk ) = Zb f (x, yk ) dx = a Fk (x) dx a Nach dem obigen Lemma gilt, dass Fk (x) → F (x) gleichmäßig stetig in x ist. Für gleichmäßig konvergente Funktionenfolgen dürfen wir die Limesbildung und Integration vertauschen. Es gilt also Folgendes. Zb lim ϕ(yk ) = lim k→∞ Zb Fk (x) dx = k→∞ a Zb lim Fk (x) dx = F (x) dx = ϕ(c) k→∞ a a 44 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Seien I, J ⊆ R kompakte Intervalle und f : I × J → R stetig und stetig partiell differenzierbar nach der zweiten Variablen. Sei yk → c mit yk 6= c für alle k ∈ N und Fk (x) = f (x, yk ) − f (x, c) yk − c und F (x) = ∂f (x, c) ∂y Dann gilt, dass Fk → F für k → ∞ gleichmäßig auf I ist. Beweis Sei ε > 0 gegeben. Da D2 f : I × J → R stetig und I × J kompakt ist, ist D2 f auf I × J gleichmäßig stetig, d. h. es gilt Folgendes. ∃δ > 0 : |y − y 0 | < δ ⇒ |D2 f (x, y) − D2 f (x, y 0 )| < ε Nach dem Mittelwertsatz gilt, dass ein ηk zwischen c und yk mit D2 f (x, yk ) = Fk (x) existiert. Gilt nun |c − yk | < δ, so ist auch |yk − c| < δ und dann |F (x) − Fk (x)| = |D2 f (x, y) − D2 f (x, yk )| < ε Satz Seien I, J ⊆ R kompakte Intervalle und f : I × J → R wie im obigen Lemma. Für y ∈ J sei Z ϕ(y) = f (x, y) dx I Dann ist die Abbildung ϕ stetig differenzierbar und für ihre Ableitung gilt Folgendes. Z ∂f ∂ϕ (y) = (x, y) dx ∂y I ∂y Beweis Sei yk → c ∈ J mit yk 6= c für alle k ∈ N und seien Fk , F wie im obigen Lemma. Dann gilt Z Z Z ϕ(yk ) − ϕ(c) ∂f lim = lim Fk (x) dx = F (x) dx = (x, c) dx k→∞ k→∞ yk − c I I I ∂y Erinnerung Seien [a, b] ⊆ R und [c, d] ⊆ R kompakte Intervalle, sowie f eine stetige Funktion. f : [a, b] × [c, d] → R Sei ϕ : [c, d] → R eine stetige Funktion, die wie folgt gegeben ist. Zb y 7→ f (x, y) dx a Folgerung Das bedeutet wiederum, dass das folgende Integral existiert. Zb Zd Zb ϕ(y) dy = f (x, y) dx dy a c a Analog gilt für die stetige Funktion ψ : [a, b] → R, welche wie folgt gegeben ist Zd f (x, y) dy, ψ(x) = c dass ebenfalls ein solches Integral existiert und die folgende Form besitzt. Zb Zb Zd ψ(x) dx = f (x, y) dy dx a a c Falls die beiden Doppelintegrale identisch sind, so gilt für diese die folgende Aussage. Zb Zd Z f (x, y) d(x, y) = [a,b]×[c,d] Zd Zb f (x, y) dy dx = a c f (x, y) dx dy c 45 a Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Satz von Fubini Seien I, J ⊆ R kompakte Intervalle, sowie f : I × J → R eine stetige Funktion, so gilt Z Z Z f (x, y) d(x, y) = I×J Z Z f (x, y) dy dx = I J f (x, y) dx dy J I Beweis Zuerst definiert man eine Funktion ϕ : [c, d] → R durch Zb Zy ϕ(y) := f (x, t) dt dx a Es gilt ϕ(c) = 0, da f¯(x, y) = Ry c c f (x, t) dt und auch der folgende Term stetig ist. ∂ f¯(x, y) ∂y Damit gilt für die Ableitung der Abbildung ϕ Folgendes. Zb 0 ϕ (y) = ∂ f¯ (x, y) dx = ∂y Zb f (x, y) dx a c Daraus folgt wiederum die Aussage des Satzes von Fubini. Zd Zb Zd Zb Zd f (x, y) dx dy = ϕ0 (y) dy = ϕ(c) = ϕ(d) = f (x, y) dy dx c c c a c Aus den oben geführten Beweisen folgt mit f : [a, b] × [c, d] → R stetig auch Folgendes. Bemerkung Zx Zy F (x, y) = ⇒ f (s, t) dt ds a f (x, y) = D1 D2 F (x, y) = D2 D1 F (x, y) c Satz von Fubini-Tonelli Sei f : R2 → R+ . Angenommen eines der folgenden iterierten Integrale existiert. Z Z Z Z f (x, y) dx dy und f (x, y) dy dx R R R R Dann existiert auch das andere Integral und es gilt, dass diese gleich dem folgenden Integral sind. Z f (x, y) d(x, y) R2 Beweis Um den Satz von Fubini-Tonelli beweisen zu können, benötigt man die Maßtheorie. Beispiel Es soll das folgende Integral berechnet werden. Z x2 · y 2 d(x, y) [−5,5]×[−3,2] Lösung Um das Integral zu berechnen, benutzt man den Satz von Fubini. Z 2 Z 2 Z x · y d(x, y) = [−5,5]×[−3,2] 2 Z5 Z2 2 x · y dy dx = = 35 3 Z5 x2 dx = 35 1 3 ·x 3 3 5 −5 46 Z5 2 x · y dy dx = −5 −3 [−5,5] [−3,2] 2 = −5 −5 35 8750 · 250 = 9 9 1 2 3 ·x ·y 3 2 dx −3 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Es soll der Parameter c so bestimmt werden, dass das folgende Integral gültig ist. Z c · x · y · (1 − x) d(x, y) = 1 [0,1]×[0,1] Lösung Um c zu bestimmen, benutzt man den Satz von Fubini um das Integral zu bestimmen. Z Z Z c · x · y · (1 − x) d(x, y) = 1= 2 Z1 Z1 Z1 c · x · y · (1 − x) dy dx = = 0 Z1 2= 0 0 c · x − c · x2 dx = c · x · y · (1 − x) dy dx c · x · y · (1 − x) d(x, y) = [0,1] [0,1] [0,1]×[0,1] [0,1] Z 1 Z1 1 1 2 c · x · (1 − x) dx · c · x · y · (1 − x) dx = 2 2 0 0 1 1 · c · x2 − · c · x3 2 3 1 0 = 0 1 1 1 ·c− ·c= ·c 2 3 6 ⇔ c = 12 Beispiel Es soll der Parameter c so bestimmt werden, dass das folgende Integral gültig ist. Z∞ Zy c · (y 2 − x2 ) · e−y dx dy = 1 0 −y Lösung Um c zu bestimmen, benutzt man den Satz von Fubini um das Integral zu bestimmen. y Z∞ Zy Z∞ Z c · (y 2 − x2 ) · e−y dx dy = c e−y y 2 − x2 dx dy 1= 0 −y Z∞ =c 0 −y 0 y Z∞ 1 3 4 −y 2 dy = · c e−y · y 3 dy e x·y − ·x 3 3 −y 0 ∞ 4 4 = · c e−y · (y 3 − 3y 2 + 6y − 6) 0 = · c · 6 = 8 · c 3 3 ⇔ c= 1 8 Beispiel Es sei C = {(x, y) | x2 + y 2 = 1} und f (x, y) = 1. Dann gilt für das Integral Folgendes. Z Z Z f (x, y) d(x, y) = (x, y) dx dy 1C C R R Man berechnet nun also zuerst das innere Integral und erhält somit Folgendes. √ 2 Z Z1−y p 1C (x, y) dx = 1 dx = 2 1 − y 2 R √ 2 − 1−y Damit gilt für das gesamte Integral durch Einsetzung des Wertes des inneren Integrals Folgendes. Z1 p h i1 yp f (x, y) d(x, y) = 2 1 − y 2 dy = 2 arcsin(y) − 1 − y2 2 −1 C −1 π π = 2 (arcsin(1) − arcsin(−1)) = 2 − − = 2π 2 2 Z 47 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 6 Gemeinsame Verteilung von Zufallsvariablen 6.1 Gemeinsame Verteilungsfunktion Bemerkung Bisher wurde immer nur eine (eindimensionale) Zufallsvariable X : Ω → R betrachtet. Nun werden mehrere Zufallsvariablen X : Ω → Rn mit X = (X1 , . . . , Xn ) und Xi : Ω → R betrachtet. Dazu soll zunächst die Abhängigkeit zwischen den einzelnen Xi modelliert werden. Erinnerung Seien (Ωi , Fi , Pi ) mit Ωi = {0, 1}, Fi = P(Ωi ) und P({0}) = p für i = 1, . . . , n. Es wurde bereits gezeigt, dass (Ω, F, P) mit Ω = Ω1 × . . . Ωn = {0, 1}n , F = P(Ω) und P = P1 ⊗ . . . ⊗ Pn mit X P(E) = P1 ({k1 }) · . . . · Pn ({kn }) (k1 ,...,kn )∈E ein Modell für den n-fachen unabhängigen Münzwurf ist. Bemerkung Für Ei = Ω1 × . . . × Ωi−1 × Fi × Ωi+1 × . . . × Ωn mit Fi = P(Ωi ) sind die Ereignisse E1 , . . . , En unabhängig, sprich für alle J ⊆ {1, . . . , n} gilt Folgendes. \ Y P Ej = Pj (Fj ) j∈J j∈J Definiert man nun Xi : Ω → R mit ω = (ωi )ni=1 7→ ωi und X = (X1 , . . . , Xn ), so sind die Xi unabhängig in dem Sinn, dass die Ereignisse {Xi = xi } mit xi ∈ {0, 1} für i = 1, . . . , n unabhängig sind. D. h. für alle J ⊆ {1, . . . , n} gilt Folgendes. \ Y P {Xj = xj } = Pj ({Xj = xj }) j∈J j∈J Die gemeinsame Verteilung der (X1 , . . . , Xn ) ist gegeben durch das Produkt der Randverteilungen Pi . ! n n \ Y P(Xi = (x1 , . . . , xn )) = P {Xi = xi } = Pi ({Xi = xi }) i=1 i=1 Definition Seien X und Y Zufallsvariablen auf (Ω, F, P). Die gemeinsame Verteilungsfunktion von X und Y für a, b ∈ R ist dann wie folgt gegeben. F (a, b) = P({X ≤ a} ∩ {Y ≤ b}) = P(X ≤ a, Y ≤ b) Die Verteilungsfunktion von X erhält man aus der gemeinsamen Verteilungsfunktion wie folgt. FX (a) = P[X ≤ a] = P[X ≤ a, Y < ∞] = P lim {X ≤ a, Y ≤ b} b→∞ = lim P[X ≤ a, Y ≤ b] = lim F (a, b) = F (a, ∞) b→∞ b→∞ Die Verteilungsfunktion von Y erhält man analog wie folgt. h i FY (b) = P[Y ≤ b] = P[X < ∞, Y ≤ b] = P lim {X ≤ a, Y ≤ b} a→∞ = lim P[X ≤ a, Y ≤ b] = lim F (a, b) = F (∞, b) a→∞ a→∞ Die Verteilungen FX und FY heißen die Randverteilungen von X und Y . Bemerkung In der Regel betrachtet man jedoch für a1 , a2 , b1 , b2 ∈ R mit a1 < a2 und b1 < b2 Folgendes. P(a1 < X ≤ a2 , b1 < Y ≤ b2 ) = P(a1 < X ≤ a2 , Y ≤ b2 ) − P(a1 < X ≤ a2 , Y ≤ b1 ) = P(X ≤ a2 , Y ≤ b2 ) − P(X ≤ a1 , Y ≤ b2 ) − P(X ≤ a2 , Y ≤ b1 ) + P(X ≤ a1 , Y ≤ b1 ) = F (a2 , b2 ) − F (a1 , b2 ) − F (a2 , b1 ) + F (a1 , b1 ) 48 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Bemerkung Sind X und Y diskrete Zufallsvariablen, so ist die gemeinsamen Massenfunktionen von X und Y gegeben durch p(x, y) = P[X = x, Y = y]. Die Randverteilungen sind dabei wie folgt gegeben. X X pX (x) = P[X = x] = p(x, y) und pY (y) = P[Y = y] = p(x, y) y:p(x,y)>0 x:p(x,y)>0 Beispiel In einer Gemeinde haben • 15% der Familien keine Kinder, • 20% der Familien ein Kind, • 35% der Familien zwei Kinder und • 30% der Familien drei Kinder. Ein Kind sei mit gleicher Wahrscheinlichkeit ein Junge oder ein Mädchen. Es wird zufällig eine Familie ausgewählt. Sei X die Anzahl der Jungen und Y die Anzahl der Mädchen. Es soll die gemeinsame Massenfunktion von X und Y berechnet werden. Lösung Es sei p(i, j) = P[X = i, Y = j] und K die Anzahl der Kinder. Dann gilt • p(0, 0) = P[X = 0, Y = 0 | K = 0] · P[K = 0] = 1 · 0,15 = 0,15 • p(1, 0) = P[X = 1, Y = 0 | K = 1] · P[K = 1] = (1/2) · 0,2 = 0,1 = p(0, 1) • p(1, 1) = P[X = 1, Y = 1 | K = 2] · P[K = 2] = (1/2) · 0,35 = 0,175 • p(2, 0) = P[X = 2, Y = 0 | K = 2] · P[K = 2] = (1/2)2 · 0,35 = 0,0875 = p(0, 2) • p(2, 1) = P[X = 2, Y = 1 | K = 3] · P[K = 3] = [3 · (1/2)3 ] · 0,30 = 0,1125 = p(1, 2) • p(3, 0) = P[X = 3, Y = 0 | K = 3] · P[K = 3] = (1/2)3 · 0,30 = 0,0375 = p(0, 3) Stellt man die Wahrscheinlichkeiten tabellarisch dar, so erhält man folgendes Schema. HH j H HH 0 1 2 3 P[X = i] 0 0,1500 0,1000 0,0875 0,0375 0,3750 1 0,1000 0,1750 0,1125 0,0000 0,3875 2 0,0875 0,1125 0,0000 0,0000 0,2000 3 0,0375 0,0000 0,0000 0,0000 0,0375 P[Y = j] 0,3750 0,3875 0,2000 0,0375 1,0000 i Definition Seien X und Y Zufallsvariablen auf (Ω, F, P). Diese heißen gemeinsam R absolutstetig verteilt mit der Dichte f , falls es eine Riemann-integrierbare Funktion f : R2 → R+ mit R2 f (x, y) d(x, y) = 1 gibt, sodass für C ⊆ R2 mit 1C f Riemann-integrierbar Folgendes gilt. Z Z P((X, Y ) ∈ C) = f (x, y) d(x, y) = 1C (x, y) · f (x, y) d(x, y) R2 C Die Funktion f (x, y) heißt die gemeinsame Dichte von X und Y . Für C = (−∞, a]×(−∞, b] gilt Folgendes. Za Zb F (a, b) = P(X ≤ a, Y ≤ b) = f (x, y) dy dx −∞ −∞ Ist f stetig, so folgt per Differentiation Folgendes. f (x, y) = ∂2 F (x, y) ∂x ∂y 49 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Die Randverteilung von X bzw. die Randverteilung von Y sind wie folgt gegeben. Z∞ fX (x) = Z∞ f (x, y) dy und fY (y) = −∞ f (x, y) dx −∞ Beispiel Die gemeinsame Dichte zweier absolutsteiger Zufallsvariablen X und Y ist wie folgt gegeben. ( 2 · e−x · e−2y , falls x, y > 0 f (x, y) = 0, sonst Es sollen die folgenden Wahrscheinlichkeiten berechnet werden. (i) P[X > 1, Y < 1] (ii) P[X < Y ] Lösung a) Die gesuchte Wahrscheinlichkeit kann wie folgt ermittelt werden. Z∞ Z1 Z∞ Z∞ −x −2y −x −2 −2 P[X > 1, Y < 1] = 2·e ·e dy dx = e · (1 − e ) dx = (1 − e ) e−x dx 1 0 = (1 − e 1 −2 ) (−e −x 1 ∞ )1 = e−1 · (1 − e−2 ) b) Die gesuchte Wahrscheinlichkeit kann wie folgt ermittelt werden. Z∞ Zy Z∞ 1 −x −2y P[X < Y ] = 2·e ·e dx dy = 2 · e−2y · (1 − e−y ) dy = 3 0 0 0 6.2 Unabhängige Zufallsvariablen Definition Zwei Zufallsvariablen X und Y heißen unabhängig, falls für alle x, y ∈ R Folgendes gilt. P(X ≤ x, Y ≤ y) = P[X ≤ x] · P[Y ≤ y] ⇔ F (x, y) = FX (x) · FY (y) Sind X und Y absolutstetige Zufallsvariablen mit stetigen Dichten f, fX , fY , so gilt Folgendes. F (x, y) = FX (x) · FY (y) ⇔ f (x, y) = ∂2 ∂ F (x, y) = (fX (x) · FY (y)) = fX (x) · fY (y) ∂x ∂y ∂y Sind X und Y diskrete Zufallsvariablen mit Massenfunktionen p, pX , pY , so gilt analog Folgendes. p(x, y) = pX (x) · pY (y) Die Unabhängigkeit gilt genau dann, wenn die gemeinsame Verteilung eine Produktstruktur hat. Beispiel Die Anzahl der Personen, die pro Tag ein Postamt betreten, sei Poisson-verteilt mit dem Parameter λ > 0. Jede Person sei mit der Wahrscheinlichkeit p weiblich und mit der Wahrscheinlichkeit 1 − p männlich. Sei X die Anzahl der Frauen und Y die der Männer. Sind X und Y unabhängig? Lösung Nach dem Satz von Bayes gilt Folgendes. P(A | B) = P(A ∩ B) P(B) ⇔ P(A ∩ B) = P(A | B) · P(B) Gilt außerdem A ⊆ B, so gilt für den Schnitt A ∩ B = A und somit auch Folgendes. P(A ∩ B) = P(A) = P(A | B) · P(B) 50 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Also gilt für die gemeinsame Verteilung Folgendes. P[X = i, Y = j] = P[X = i, Y = j | X + Y = i + j] · P[X + Y = i + j] i+j λi+j = · pi · (1 − p)i+j−i · e−λ · (i + j)! i 1 = · (λ · p)i · [λ · (1 − p)]j · e−λ i! · j! Für die Randverteilungen gilt Folgendes. P[X = i] = ∞ X P[X = i, Y = j] = j=0 ∞ X 1 1 · (λ · p)i · e−λp · · [λ · (1 − p)]j · e−λ·(1−p) i! j! j=0 =1 1 = · (λ · p)i · e−λ·p i! Damit folgt, dass X ∼ π(λ · p) und Y ∼ π(λ · (1 − p)). Also sind X und Y unabhängig. P[X = i] · P[Y = j] = P[X = i, Y = j] Beispiel Auf einem Blatt werden Geraden im Abstand von D cm eingezeichnet. Eine Nadel der Länge L ≤ D wird zufällig auf das Blatt geworfen. Mit welcher Wahrscheinlichkeit schneidet die Nadel eine der Geraden? Diese Frage ist auch bekannt als das Buffon’sche Nadelproblem. Lösung Sei X der Abstand des Mittelpunks der Nadel von der Geraden und Θ der Winkel zwischen der Nadel und der Geraden. Dann nehmen die Zufallsvariablen nur Werte in den folgenden Bereichen an. h pi X ∈ 0, und Θ ∈ [0, π] 2 h pi Dann ist (X, Θ) gleichverteilt auf 0, × [0, π]. Damit gilt für die Dichte Folgendes. 2 h i 2 , falls x ∈ 0, p , y ∈ [0, π] f (x, y) = π · D 2 0, sonst Sei E das Ereignis, dass eine Nadel eine Gerade schneidet. Für das Ereignis gilt also folgende Darstellung. X L E= ≤ sin(Θ) 2 Die gesuchte Wahrscheinlichkeit lässt sich dann wie folgt berechnen. Zπ 1/2·sin(Θ) Z P(E) = 0 2 L dx dΘ = π·D π·D 0 Zπ sin(Θ) dΘ = L 2·L π [− cos(Θ)]0 = π·D π·D 0 6.3 Summen unabhängiger Zufallsvariablen Bemerkung Seien X und Y unabhängige Zufallsvariablen mit Dichten fX bzw. fY . Gesucht wird nun die Dichte der Summe von X und Y . Für a ∈ R gilt Folgendes. Z∞ a−y Z P[X + Y ≤ a] = fX (x) · fY (y) dx dy −∞ z=x+y −∞ Z∞ = fY (y) −∞ Za = Z∞ −∞ Za fX (z − y) dz dy −∞ Z∞ fX (z − y) · fY (y) dy dz −∞ fX (z − y) · fY (y) dy = fX ∗ fY (z) mit −∞ 51 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Definition Seien X und Y absolutstetig verteilt mit den Dichten fX bzw. fY . Die Dichte fX+Y von X + Y heißt Faltung der Verteilungen von X und Y . Die Faltung ist dabei wie folgt definiert. Z fX+Y = fX (x − y) · fY (y) dy = fX ∗ fY Dabei bezeichnet fX ∗ fY das Faltungsprodukt von fX und fY . Beispiel Es seien X und Y unabhängige Zufallsvariablen, welche gleichverteilt auf [0, 1] sind, d. h. ( 1, falls x ∈ [0, 1], y ∈ [0, 1] fX (x) = fY (y) = 0, sonst Im Folgenden soll die Dichte von X + Y berechnet werden. Lösung Um die Dichte von X + Y zu berechnen betrachtet man die folgenden Fälle. (i) Für z ∈ / [0, 2] gilt für die Dichte von X + Y Folgendes. fX+Y (x) = 0 (ii) Für z ∈ [0, 1] gilt für die Dichte von X + Y Folgendes. Z∞ Zz fX (z − y) · 1{0≤y≤1} (y) dy = fX+Y (z) = −∞ dy = [y]z0 = z 0 (iii) Für z ∈ (1, 2) gilt für die Dichte von X + Y Folgendes. Z1 fX+Y (z) = dy = [y]1z−1 = 2 − z z−1 Damit ergibt sich insgesamt für die Dichte von X + Y z, fX+Y (z) = 2 − z, 0, Folgendes. falls 0 ≤ z ≤ 1 falls 1 < z < 2 sonst Aufgrund der Form der Dichte spricht von einer Dreiecksverteilung. Beispiel Seien X und Y unabhängige Zufallsvariablen, welche exponentialverteilt mit Parameter λ > 0 sind, sprich es gilt X, Y ∼ E(λ). Im Folgenden soll die Dichte von X + Y berechnet werden. 52 Prof. Dr. Ulrich Horst Lösung Stochastik WS 2013/2014 Für x ≥ 0 gilt für die Dichte von X + Y Folgendes. Zx fX (x − y) · fY (y) dy fX+Y (x) = 0 Zx [λ · exp(−λ · (x − y))] · [λ · exp(−λ · y)] dy = 0 2 Zx exp(−λ · x) dy =λ 0 = λ2 · x · exp(−λ · x) Seien nun X, Y und Z unabhängige Zufallsvariablen, die alle E(λ)-verteilt sind. Dann gilt Zx fX+Y (x − y) · fZ (y) dy f(X+Y )+Z (x) = 0 Zx = 2 λ · (x − y) · exp(−λ · (x − y)) · [λ · exp(−λ · y)] dy 0 =λ 3 Zx (x − y) · exp(−λ · y) dy 0 1 = λ3 · x2 · exp(−λ · x) 2 Definition Eine absolutstetige Zufallsvariable X : Ω → R mit der Dichte f , gegeben durch α−1 λ · exp(−λ · x) · (λ · x) , falls x ≥ 0 Γ(α) f (x) = , 0, sonst heißt gammaverteilt mit den Parameter α und λ. In diesem Fall schreibt man auch X ∼ Γ(α, λ) Die Dichte enthält die Gamma-Funktion Γ(α), welche wie folgt gegeben ist. Z∞ Γ(α) = e−y · y α−1 dy 0 Die Γ-Verteilung mit α = n/2 und λ = 1/2 heißt die Chi-Quadrat-Verteilung mit n Freiheitsgraden X ∼ χ2(n) Bemerkung Für die Γ-Funktion gelten folgende spezielle Werte. (i) Γ(n + 1) = n · Γ(n) = n · (n − 1) · Γ(n − 1) = . . . = n! √ 1 = π (ii) Γ 2 Bemerkung Insbesondere gilt dann für die Dichte f(X+Y )+Z (x) aus dem letzten Beispiel Folgendes. 1 λ · exp(−λ · x) · (λ · x)2 λ · exp(−λ · x) · (λ · x)3−1 f(X+Y )+Z (x) = λ3 · x2 · exp(−λ · x) = = 2 2 Γ(3) Proposition Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ E(λ) für alle i = 1, . . . , n. n X Xi ∼ Γ(n, λ) i=1 53 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beweis Auf den Beweis wird an dieser Stelle verzichtet. Proposition Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ Γ(αi , λ) für alle i = 1, . . . , n. ! n n X X Xi ∼ Γ αi , λ i=1 i=1 Beweis Auf den Beweis wird an dieser Stelle verzichtet. Beispiel Sei X eine N (0, 1)-verteilte Zufallsvariable. Wie ist X 2 verteilt? Lösung Für die Verteilungsfunktion der Zufallsvariablen X 2 gilt Folgendes. √ √ √ √ FX 2 (y) = P[X 2 ≤ y] = P[− y ≤ X ≤ y] = F ( y) − F (− y) Durch Differentiation und Anwendung der Kettenregel erhält man somit die folgende Dichte für X 2 . 1 √ 1 1 1 1 √ fX 2 (y) = √ √ · exp − · ( y)2 − − √ · exp − · (− y)2 2 y 2 2 2π 2π " √ # 1 1 1 1 1 1 2 1 = √ · √ · 2 exp − · y = √ · √ · √ · √ · exp − · y 2 y 2 y 2 π 2π 2 2 " # √ 1 1 1 1 1 1 1 −1/2 −1/2 · √ · exp − · y = y · √ −1 · · √ · exp − · y =y · 2· 2 2 2 2 π π 2 1/2−1 √ 1 1 1 1 1 = · mit π=Γ ·y · exp − · y · √ 2 2 2 2 π = (1/2) · exp(−1/2 · y) · (1/2 · y)1/2−1 Γ(1/2) Somit gilt für die Zufallsvariable X 2 die folgende Verteilung. 1 1 X2 ∼ Γ , 2 2 Proposition Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ N (0, 1) für alle i = 1, . . . , n. n X Xi2 ∼Γ i=1 n 1 , 2 2 Beweis Auf den Beweis wird an dieser Stelle verzichtet. Beispiel Es seien Xi ∼ N (0, σi ) für i = 1, 2 unabhängige Zufallsvariablen. Wie ist X1 + X2 verteilt? Lösung Um herauszufinden, wie X1 + X2 verteilt ist, bestimmt man die Dichte. Z∞ fX1 (x − y) · fX2 (y) dy fX1 +X2 (x) = −∞ Z∞ = −∞ " 1 p · exp − 2 2πσ12 1 = 2πσ1 σ2 1 Z∞ −∞ x−y σ1 2 !# " 2 !# 1 y 1 · p · exp − dy 2 σ2 2πσ22 1 (x − y)2 y2 exp − + dy 2 σ12 σ22 54 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Als Nächstes wird erst einmal der Term innerhalb der Exponentialfunktion umgeformt. y2 x2 − 2xy + y 2 y2 (x − y)2 + 2 = + 2 2 2 σ1 σ2 σ1 σ2 2 x2 x 2xy 1 1 x2 − 4 = 2− 2 + + 2 y2 + 4 2 2 2 2 σ1 σ1 σ1 σ2 σ1 (1/σ1 + 1/σ2 ) σ1 (1/σ1 + 1/σ22 ) s !2 x2 x2 1 1 1 2 p = + · x = (z − a) + + · y − σ12 σ22 σ12 + σ22 σ12 + σ22 σ12 1/σ12 + 1/σ22 Damit gilt für die Dichte der Summe von X1 und X2 nun Folgendes. fX1 +X2 1 = 2πσ1 σ2 Z∞ −∞ s 2 2 1 1 x2 σ1 · σ2 2 · dz exp − (z − a) · exp − · 2 2 2 σ1 + σ22 σ12 + σ22 Z∞ 1 1 1 x2 1 2 p √ =√ · · exp − exp − (z − a) dz 2 σ12 + σ22 2 2π 2π · σ12 + σ22 −∞ =1 =p 1 2π(σ12 + σ22 ) · exp − 1 2 !2 x p σ12 + σ22 Somit gilt für die Zufallsvariable X1 + X2 die folgende Verteilung. q 2 2 X1 + X2 ∼ N 0, σ1 + σ2 Proposition Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ N (µi , σi ) für alle i = 1, . . . , n. v u n n n X X uX σi2 Xi ∼ N µi , t i=1 i=1 i=1 Insbesondere gilt für die Summe dieser Xi für i = 1, . . . , n mit µi = µ und σi = σ Folgendes. n n X √ 1X σ Xi ∼ N n · µ, σ · n und Xi ∼ N µ, √ n i=1 n i=1 Beweis Auf den Beweis wird an dieser Stelle verzichtet. Proposition Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ π(λi ) für alle i = 1, . . . , n. ! n n X X Xi ∼ π λi i=1 i=1 Beweis Auf den Beweis wird an dieser Stelle verzichtet. Proposition Seien X1 , . . . , Xn unabhängige Zufallsvariablen und sei Xi ∼ B(ni , p) für alle i = 1, . . . , n. ! n n X X Xi ∼ B ni , p i=1 i=1 Beweis Auf den Beweis wird an dieser Stelle verzichtet. 6.4 Statistik für unabhängige normalverteilte Zufallsvariablen Annahme Seien X1 , . . . , Xn unabhängige Zufallsvariablen mit Xi ∼ N (µ, σ) für alle i = 1, . . . , n, d. h. die Xi sind iid (independent identically distributed) mit möglicherweise unbekanntem µ und/oder σ. 55 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Ziel Konstruktion eines sinnvollen bzw. effizienten Schätzers für µ bzw. σ. Bemerkung Der allgemeine Rahmen ist der Folgende. Seien (Pη )η∈Θ Wahrscheinlichkeitsmaße auf dem Messraum (Ω, F). Sei X : Ω → R eine Zufallsvariable mit Verteilung Pη0 , wobei η0 ∈ Θ unbekannt ist. Dann ist Pη0 (X ≤ x) die Wahrscheinlichkeit ist, dass X ≤ x für x ∈ R. Definition Sei X (n) = (X1 , . . . , Xn ) eine Folge von unabhängigen Zufallsvariablen mit Verteilung Pη0 . Wir nennen X (n) eine Stichprobe vom Umfang n aus der nach Pη0 verteilten Grundgesamtheit. Eine Realisierung von X (n) bezeichnet man mit x(n) = (x1 , . . . , xn ). k m n m Definition Sei Θ ⊆ R und seien g : Θ → R und Ĝ : R → R messbare Funktionen. Sei η ∈ Θ. Dann (n) heißt Ĝ X eine Schätzung von g(η). Die Schätzung heißt erwartungstreu, falls für alle η ∈ Θ Z i h Ĝ(x1 , . . . , xn ) · fη (x1 ) · . . . · fη (xn ) d(x1 , . . . , xn ) = EPη Ĝ X (n) = g(η) Rn gilt, wobei fη die Dichte von Pη ist, die wie folgt definiert ist. Z Pη (X ∈ A) = fη (x) dx A 6.4.1 Das schwache Gesetz der großen Zahlen Bemerkung Seien X1 , . . . , Xn iid Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P). Sei ferner E[Xi ] = µ und Var(Xi ) = σ 2 für alle i = 1, . . . , n Proposition Sei X ≥ 0 eine Zufallsvariable mit existierendem Erwartungswert E(X) = µ und sei α > 0. Dann gilt die folgende Ungleichung, die sogenannte Markow-Ungleichung. P[X ≥ α] ≤ E[X] α Beweis Sei Y := 1{X≥α} eine Zufallsvariable. Dann gilt Y ≤ X/α. Damit ergibt sich mit der Monotonie des Erwartungswertes Folgendes. X E[X] P[X ≥ α] = E[Y ] ≤ E = α α Bemerkung Die Markow-Ungleichung gibt eine obere Schranke für die Wahrscheinlichkeit an, dass eine Zufallsvariable eine positive Konstante überschreitet. Proposition Sei X eine Zufallsvariable mit existierendem Erwartungswert E[X] = µ und existierender Varianz Var(X) = σ 2 , sowie η > 0. Dann gilt die sogenannte Tschebyscheff-Ungleichung. P[|X − µ| ≥ η] ≤ σ2 η2 Beweis Sei Z = (X − µ)2 ≥ 0. Dann kann die Markow-Ungleichung mit α = η 2 angewendet werden. P[|X − µ| ≥ η] = P[(x − µ)2 ≥ η 2 ] ≤ E[(X − µ)2 ] Var(X) σ2 = = 2 2 2 η η η Bemerkung Die Tschebyscheff-Ungleichung gibt eine obere Grenze für die Wahrscheinlichkeit an, dass eine Zufallsvariable mit endlicher Varianz Werte außerhalb eines symmetrisch um den Erwartungswert gelegenen Intervalls annimmt. Damit ist auch eine untere Grenze für die Wahrscheinlichkeit angegeben, dass die Werte innerhalb dieses Intervalls liegen. 56 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Satz Sei (Xi )ni=1 eine Folge von iid Zufallsvariablen mit existierenden Erwartungswerten E[Xi ] = µ und sei η > 0 beliebig. Dann gilt das schwache Gesetz der großen Zahlen. i h (n) lim P X − µ > η = 0 n→∞ mit X (n) n = 1X Xi n i=1 Beweis Für die Summe von N (µi , σi )-verteilten Zufallsvariablen Xi für i = 1, . . . , n gilt Folgendes. n X √ Xi ∼ N n · µ, σ n und X (n) n = i=1 1X Xi ∼ N n i=1 Damit ergibt sich für den Erwartungswert und der Varianz von X (n) σ µ, √ n Folgendes. (n) σ 2 σ2 Var X = √ = n n h (n) i E X = µ und Mit der Tschebyscheff-Ungleichung gilt nun für beliebige η > 0 Folgendes. (n) i Var X h (n) σ2 = → 0 für n → ∞ P X − µ > η ≤ η2 n · η2 Bemerkung Die Aussage des schwachen Gesetz der großen Zahlen ist also, dass bei vielen identischen Experimenten die Wahrscheinlichkeit, dass die Summe der Ergebnisse geteilt durch die Zahl der Ergebnisse (der Mittelwert einer Meßreihe) weit vom Erwartungswert abliegt, beliebig klein wird. 6.4.2 Schätzer für µ bei bekanntem σ Bemerkung Im Folgenden seien X1 , . . . , Xn iid Zufallsvariablen mit Xi ∼ N (µ, σ) für i = 1, . . . , n, wobei µ unbekannt, aber σ bekannt ist. (n) Lemma Die naive Schätzung X , welche wie folgt gegeben ist, ist eine erwartungstreue Schätzung für den unbekannten Parameter µ bei bekanntem Parameter σ. X Beweis Für die naive Schätzung X Somit nimmt die naive Schätzung X (n) (n) (n) n = 1X Xi n i=1 √ ∼ N (µ, σ/ n). Also gilt für alle µ ∈ R Folgendes. h (n) i EN (µ,σ) X =µ gilt X (n) für den Grenzfall n → ∞ den unbekannten Parameter µ an. lim X (n) n→∞ Bemerkung =µ Für ein gegebenes µ0 ∈ R sei das folgende Schema ein sogenannter Hypothesentest. H0 : µ ≥ µ0 (Nullhypothese) H1 : µ < µ0 (Alternativhypothese) Bemerkung Das Ziel des Hypothesentests besteht darin, aufgrund einer Stichprobe zu prüfen, ob eine vermutete Wahrscheinlichkeit, die Hypothese, als wahr angenommen werden kann oder ob sie verworfen werden muss. Frage Wann nimmt man H1 für eine gegebene Realisierung x(n) von X 57 (n) an. Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Idee Man nehme H1 an, falls für eine Realisierung x(n) ≤ γ ∈ R für ein geeignetes γ gilt. Für eine gegebene Irrtumswahrscheinlichkeit α > 0, sucht man ein γ so, dass Folgendes gilt. (n) ≤γ ≤α ∀µ ≥ µ0 : Pµ,σ X Das heißt die fälschliche Annahme von H1 X (n) ≤ γ, µ ≥ µ0 soll mit der Wahrscheinlichkeit maximal α realisiert werden. Es bleibt noch γ zu ermitteln. Dazu betrachtet man die folgende Wahrscheinlichkeit. ∼N (0,1) (n) Pµ,σ X (n) ≤ γ = Pµ,σ X −µ γ−µ √ √ ≤ σ/ n σ/ n ! =Φ γ−µ √ σ/ n ≤Φ γ − µ0 √ σ/ n =α Nun wähle γ 0 aus einer N (0, 1)-Tabelle so aus, dass Φ(γ 0 ) = α und wähle γ wie folgt. γ0 · σ γ = √ + µ0 n (n) Frage Gegeben sei eine Realisierung x(n) von X . Gesucht ist ein Konfidenzintervall (Vertrauensbereich bzw. Erwartungsbereich) h i I x(n) = Ψ1 x(n) , Ψ2 x(n) , sodass dieses möglichst klein ist, indem das wahre µ mit möglichst großer Wahrscheinlichkeit liegt. i h ∀µ : Pµ,σ µ ∈ / I x(n) ≤ α Idee Zuerst einmal legt man Ψ1 und Ψ2 wie folgt fest. σ Ψ1,2 x(n) = x(n) ± η · √ n Damit wird der Parameter η nun wie folgt durch folgende Wahrscheinlichkeit festgelegt. # " (n) σ σ X −µ (n) (n) √ ≤ η = 2Φ(η) − 1 = α Pµ,σ X − η · √ ≤ µ ≤ X + η · √ = Pµ,σ − η ≤ n n σ/ n ∼N (0,1) Damit ergibt sich der Parameter η durch Auflösen der Gleichung 2Φ(η) − 1 = α. 1+α −1 η=Φ 2 6.4.3 Schätzer für σ bei bekanntem µ Bemerkung 2 Im Folgenden sei S (n) die empirische Varianz, die wie folgt definiert ist. 2 S (n) = n 1X (Xi − µ)2 n i=1 n mit s2n = 1X (xi − µ)2 n i=1 Frage Ist die empirische Varianz ein guter Schätzer für das unbekannte σ 2 ? Es gelte Folgendes. 2 Sn 2 n σ 2 X Xi − µ = n i=1 σ mit 2 n X Xi − µ i=1 58 σ ∼ χ2(n) Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Sei X ∼ Γ(α, λ). Dann gilt E(X) = α/λ und Var(X) = α/λ2 . Insbesondere gilt also 2 E S (n) = σ 2 2 Die empirische Varianz S (n) ist also ein erwartungstreuer Schätzer von σ 2 . Ferner gilt Folgendes. 2 2σ 4 Var S (n) = n Insbesondere gilt also auch das schwache Gesetz der großen Zahlen. h 2 i const Pµ,σ S (n) − σ 2 > ε = → 0 für n → ∞ n Beweis Auf den Beweis wird an dieser Stelle verzichtet. 6.4.4 Schätzer für σ 2 bei bekanntem µ 2 Idee Im Folgenden betrachtet man die Zufallsvariable Se(n) , die wie folgt gegeben ist. n 1 X (n) 2 Sen2 = Xi − X n i=1 Lemma Die folgenden beiden Zufallsvariablen seien unabhängig. Xn − µ √ σ/ n n X und i=1 Xi − X σ (n) !2 Außerdem sei die zweite Zufallsvariable Chi-Quadrat-verteilt. ! (n) 2 n X Xi − X ∼ χ2(n−1) σ i=1 2 Dann gilt für den Erwartungswert von Se(n) Folgendes. h i n−1 Eµ,σ Sen2 = σ 2 · n 2 Damit ist der Schätzer Se(n) nicht erwartungstreu. Das heißt Sen2 unterschätzt σ 2 systematisch. Aber Sbn2 = n 2 · S (n) n−1 mit n 2 · S (n) ∼ χ2(n−1) 2 σ ist ein erwartungstreuer Schätzer für σ 2 . Beweis Auf den Beweis wird an dieser Stelle verzichtet. Bemerkung Gegeben sei σ0 > 0 und der folgende Hypothesentest. H0 : σ ≥ σ0 H1 : σ < σ0 2 Man nehme die Hypothese H1 an, falls S (n) ≤ γ gilt. D. h. man wähle γ so, dass Folgendes gilt. ∀σ ≥ σ0 : Pµ,σ Sbn2 < γ ≤ α Dazu sei die Wahrscheinlichkeit wie folgt gegeben. =Z∼χ2(n−1) Pµ,σ Sbn2 < γ = Pµ,σ n − 1 b2 n−1 · Sn < γ 2 σ σ2 =γ 0 59 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Man wähle nun aus einer χ2(n−1) -Tabelle ein γ 0 aus, sodass Folgendes gilt. P [Z < γ 0 ] = α Dabei sollte γ 0 möglichst groß sein. Damit ergibt sich für den Parameter γ der folgende Wert. γ= σ2 · γ0 n−1 6.4.5 Schätzer für µ bei unbekannten σ Erinnerung Für die Schätzer X X (n) (n) 2 und Sb(n) galt Folgendes. (n) n 1X = Xi n i=1 mit X −µ √ ∼ N (0, 1) σ/ n n 2 Sb(n) = Bemerkung 1 X (n) (Xi − X )2 n − 1 i=1 n − 1 b2 · S(n) ∼ χ2(n−1) σ2 mit Die Idee für Hypothesentests und Konfidenzintervalle ist die Folgende. Man ersetze (n) X −µ √ ∼ N (0, 1) σ/ n durch den folgenden Term. (n) X q (n) −µ 2 /n Sb(n) (n) X √−µ σ/ n =q 2 /n Sb(n) =q X √−µ σ/ n n−1 σ2 · √ 2 · Sb(n) T (n) √ n − 1 =: √ · n−1 Z (n) Dabei sind T (n) ∼ N (0, 1) und Z (n) ∼ χ2(n−1) . Außerdem sind T (n) und Z (n) unabhängig. Proposition Seien T und Z unabhängige Zufallsvariablen mit T ∼ N (0, 1) und Z ∼ χ2(m) . T (m) √ √ · m ∼ t(m) Z (m) Zusammenfassung Seien X1 , . . . , Xn iid N (µ, σ)-verteilte Zufallsvariablen. • Ist µ unbekannt und σ bekannt, so ist ein Schätzer für µ wie folgt gegeben. X (n) n = 1X Xi n i=1 mit X (n) ∼N σ µ, √ n • Ist σ unbekannt und µ bekannt, so ist ein Schätzer für σ wie folgt gegeben. 2 S (n) = 2 n n σ 2 X Xi − µ 1X (Xi − µ)2 = n i=1 n i=1 σ mit n 2 · S (n) ∼ χ2(n) 2 σ ∼N (0,1) • Ist σ 2 unbekannt und µ bekannt, so ist ein Schätzer für σ 2 wie folgt gegeben. n 2 Sb(n) n 1 X σ2 X (n) 2 = Xi − X = n − 1 i=1 n − 1 i=1 60 Xi − X σ (n) !2 mit n − 1 b2 · S(n) ∼ χ2(n−1) σ2 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 • Sind µ und σ unbekannt, so ist ein Schätzer für µ wie folgt gegeben. X (n) n = 1X Xi n i=1 Für Hypothesentests und Konfidenzintervalle nähme man jedoch folgenden Schätzer. (n) X −µ √ √ σ/ n r · n − 1 ∼ t(n−1) n − 1 b2 · Sn σ2 6.5 Bedingte Verteilung von Zufallsvariablen 6.5.1 Bedingte Verteilung diskreter Zufallsvariablen Erinnerung Seien E und F zwei Ereignisse. Dann ist die bedingte Wahrscheinlichkeit von E gegeben F wie folgt definiert. P(E ∩ F ) , falls P(F ) > 0 P(F ) P(E | F ) = 0, sonst Erinnerung Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Dann sind die marginalen Massenfunktionen pX und pY wie folgt gegeben. X X pX (x) = p(x, y) und pY (y) = p(x, y) y:p(x,y)>0 x:p(x,y)>0 Definition Seien X, Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Für x, y ∈ R heißt p(x | y) , falls p (y) > 0 Y pY (y) pX|Y (x | y) = 0, sonst die bedingte Massenfunktion von X gegeben Y . Beispiel Seien X und Y unabhängige Zufallsvariablen, die Poisson-verteilt mit Parametern λ1 und λ2 sind. Gesucht wird die bedingte Massenfunktion von X gegeben {X + Y = n}. Lösung Unter der Tatsache, dass X und Y unabhängig sind (∗), gilt für 0 ≤ k ≤ n Folgendes. pX|X+Y (k | n) = P[X = k | X + Y = n] P[X = k, X + Y = n] P[X + Y = n] P[X = k, Y = n − k] = P[X + Y = n] (∗) P[X = k] · P[Y = n − k] = P[X + Y = n] # k " n−k λ1 −λ1 λ2 −λ2 ·e · ·e k! (n − k)! = (λ1 + λ2 )n −(λ1 +λ2 ) ·e n! k n−k −(λ1 +λ2 ) n! λ1 λ2 e = · · · −(λ +λ ) (n − k)! · k! λ1 + λ2 λ1 + λ2 e 1 2 k n−k n λ1 λ2 = · · k λ1 + λ2 λ1 + λ2 λ1 Also ist die bedingte Verteilung eine Binomialverteilung zu den Parametern n, λ1 + λ2 = 61 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Allgemeiner Seien X und Y unabhängige Zufallsvariablen mit Randverteilung P[Y = y] > 0. Dann gilt für die bedingte Massenfunktion von X gegeben Y Folgendes. pX|Y (x | y) = Bemerkung p(x, y) pX (x) · pY (y) = = pX (x) pY (y) pY (y) mit x∈R Die bedingte Massenfunktion pX|Y (x | y) ist also durch die Randverteilung von X gegeben. 6.5.2 Bedingte Verteilung absolutstetiger Zufallsvariablen Erinnerung Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Dann sind die marginalen Dichten fX und fY wie folgt gegeben. Z Z fX (x) = f (x, y) dy und fY (y) = f (x, y) dx R R Definition Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Für x, y ∈ R heißt f (x, y) , falls f (y) > 0 Y fY (y) fX|Y (x | y) = 0, sonst die bedingte Dichte von X gegeben Y . Für ein Intervall A = [a, b] ⊆ R und x ∈ R setze Z∞ Zb P[X ∈ A | Y = y] = fX|Y (x | y) dx und FX|Y (x | y) = fX|Y (t | y) dt −∞ a Beispiel Die gemeinsame Dichte der Zufallsvariablen X und Y sei wie folgt gegeben. −x/y −y ·e e , falls x, y > 0 f (x, y) = y 0, sonst Im Folgenden soll P[X > 1 | Y = y] mit y ∈ R berechnet werden. Lösung Für die Randverteilung der Zufallsvariable Y gilt Folgendes. Z∞ fY (y) = e−x/y · e−y dx = e−y y 0 Z∞ h i∞ e−x/y dx = e−y · −e−x/y = e−y y x=0 0 Für die bedingte Dichte von X gegeben Y mit x, y > 0 gilt somit Folgendes. fX|Y (x | y) = f (x, y) e−x/y · e−y e−x/y = = fY (y) y · e−y y Damit ist die gesuchte bedingte Wahrscheinlichkeit durch den folgenden Term gegeben. Z∞ P[X > 1 | Y = y] = Z∞ fX|Y (x | y) dx = 1 h i∞ e−x/y dx = −e−x/y = e−1/y y x=1 1 Allgemeiner Seien X und Y unabhängige Zufallsvariablen mit Randverteilung fY (y) > 0. Dann gilt für die bedingte Dichte von X gegeben Y Folgendes. fX|Y (x | y) = Bemerkung f (x, y) fX (x) · fY (y) = = fX (x) fY (y) fY (y) mit x∈R Die bedingte Dichte fX|Y (x | y) ist also durch die Randverteilung von X gegeben. 62 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 7 Eigenschaften des Erwartungswertes 7.1 Erwartungswert der Summe von Zufallsvariablen Erinnerung Es sei X eine Zufallsvariable. (i) Sei X diskret mit Massenfunktion p. Dann ist der Erwartungswert wie folgt definiert. X X E[X] = x · p(x), falls |x| · p(x) < ∞ x:p(x)>0 x:p(x)>0 (ii) Sei X absolutstetig mit Dichte f . Dann ist der Erwartungswert wie folgt definiert. Z Z E[X] = x · f (x) dx, falls |x| · f (x) dx < ∞ R R Allgemeiner Sei X eine Zufallsvariable und sei g : R → R eine reellwertige Funktion. (i) Sei X diskret mit Massenfunktion p. Dann ist der Erwartungswert von g(X) wie folgt definiert. X X E[g(X)] = g(x) · p(x), falls g(x) · p(x) < ∞ x:p(x)>0 x:p(x)>0 (ii) Sei X absolutstetig mit Dichte f . Dann ist der Erwartungswert von g(X) wie folgt definiert. Z Z E[g(X)] = g(x) · f (x) dx, falls g(x) · f (x) dx < ∞ R Proposition R 2 Sei g : R → R eine Funktion so, dass g(X, Y ) eine Zufallsvariable ist. (i) Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Dann gilt Folgendes. X X E[g(X, Y )] = g(x, y) · p(x, y), falls |g(x, y)| · p(x, y) < ∞ x,y:p(x,y)>0 x,y:p(x,y)>0 (ii) Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Dann gilt Folgendes. Z∞ Z∞ Z∞ Z∞ |g(x, y)| · f (x, y) dx dy < ∞ E[g(X, Y )] = g(x, y) · f (x, y) dx dy, falls −∞ −∞ −∞ −∞ Beweis Es gelten die Voraussetzungen der Proposition. (i) Auf den Beweis wird an dieser Stelle verzichtet. (ii) Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Zt E[g(X, Y )] = ZZ P[g(X, Y ) > t] dt mit P[g(X, Y ) > t] = 0 (x,y):g(x,y)>t Z Z g(x,y) Z = Z Z g(x, y) · f (x, y) dy dx f (x, y) dt dy dx = x f (x, y) dy dx y x t=0 y Folgerungen (i) Angenommen E[X] und E[Y ] existieren und sei g(x, y) = x + y. Z∞ Z∞ Z∞ Z∞ Z∞ Z∞ E[X + Y ] = (x + y) · f (x, y) dx dy = x · f (x, y) dy dx + y · f (x, y) dx dy −∞ −∞ Z∞ = −∞ −∞ Z∞ x −∞ Z∞ f (x, y) dy dx + −∞ −∞ Z∞ y −∞ Z∞ x · fX (x) dx + = Z∞ y · fY ((y)) dy −∞ = E[X] + E[Y ] 63 −∞ −∞ −∞ f (x, y) dx dy Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 (ii) Angenommen es gilt X(ω) ≤ Y (ω) für alle ω ∈ Ω. Dann gilt 0 ≤ E(Y − X) = E(Y ) − E(X) ⇔ E(Y ) ≥ E(X) D. h. der Erwartungswert ist ein lineares monotones Funktional. Beispiel Ein Unfall ereignet sich an einem Punkt X auf [0, L]. Dabei sei X gleichverteilt auf [0, L]. Ein Krankenwagen befindet sich zum Unfallzeitpunkt an einem Punkt Y , wobei Y ebenfalls gleichverteilt auf [0, L] ist. X und Y seien unabhängig. Es soll E[|X − Y |] berechnet werden. Lösung Da die Zufallsvariablen X und Y gleichverteilt auf [0, L] sind, folgt aufgrund der Unabhängigkeit für die gemeinsame Dichte f = fX · fY und somit Folgendes. 1 , falls (x, y) ∈ [0, L]2 f (x, y) = L2 0, sonst Damit ergibt sich für den gesuchten Erwartungswert Folgendes. ZL ZL E[|X − Y |] = 0 ZL ZL 1 1 |x − y| · 2 dy dx = 2 L L |x − y| dy dx 0 0 0 Der Term |x − y| lässt sich dabei wie folgt auffassen. ( x − y, falls x ≥ y |x − y| = y − x, falls x ≤ y Damit lässt sich das Integral nun aufsplitten. Man erhält also nun die folgende Darstellung. ZL Zx E[|X − Y |] = (x − y) · 0 1 dy dx + L2 0 ZL ZL (y − x) · 0 x 1 dy dx L2 L x Z Z ZL ZL 1 = 2 (x − y) dy dx + (y − x) dy dx L 0 2 = 2 L ZL Zx 0 0 0 2 (x − y) dy dx = 2 L 0 x ZL 1 2 2 x − x dx 2 0 2 L3 L = 2· = L 6 3 Beispiel Gegeben sei das Coupon-Problem. Es gebe N unterscheidbare Arten von Coupons, die man (unabhängig von den vorhergehenden Versuchen) beliebig oft erhalten kann. Bei jedem Versuch erhält man mit gleicher Wahrscheinlichkeit einen der N Coupons. (i) Berechne die erwartete Anzahl verschiedener Coupons nach n Zügen. (ii) Berechne die erwartete Anzahl der für eine vollständige Sammlung notwendigen Coupons. Lösung Es war N die Anzahl der unterscheidbaren Coupons. (i) Es sei Ei das Ereignis, dass man mindestens einen Coupon vom Typ i nach n Zügen besitzt. ( 1, falls Ei eintritt Xi = 1Ei = für i = 1, . . . , N 0, sonst Dann ist X := X1 + . . . + XN die Anzahl unterschiedlichen Coupons. E[X] = N X E[Xi ] = N · E[X1 ] = N · P(E1 ) = N · (1 − i=1 64 P(E1C )) =N · 1− N −1 N n Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 (ii) Für 0 ≤ i ≤ N − 1 sei Yi die Anzahl der Coupons, die benötigt werden, um einen neuen Coupon zu erhalten, wenn man bereits i unterschiedliche Coupons hat. Dann ist Yi ∼ G((N − i)/N ). k−1 i N −i P[Yi = k] = · N N P[Yi = k] ist also das Produkt der k − 1 Misserfolge und des Erfolges im k-ten Versuch. Also gilt E[Y ] = N −1 X i=0 N N −i 7.2 Varianz, Kovarianz und Korrelation Erinnerung Seien X und Y Zufallsvariablen auf dem Wahrscheinlichkeitsraum (Ω, F, P) mit gemeinsamer Dichte f . Wir hatten gesehen, dass X und Y unabhängig sind, wenn beide N (0, 1)-verteilt sind. Var(X + Y ) = Var(X) + Var(Y ) Lemma Seien X und Y unabhängige Zufallsvariablen. Seien g, h : R → R Funktionen mit E[|g(X)|] < ∞ und E[|h(Y )|] < ∞ Dann gilt für den Erwartungswert des Produkts g(X) · h(Y ) Folgendes. E[g(X) · h(Y )] = E[g(X)] · E[h(Y )] Beweis Angenommen X und Y seien gemeinsam absolutstetig verteilt mit der gemeinsamen Dichte f . Z∞ Z∞ E[g(X) · h(Y )] = g(x) · h(y) · fX (x) · fY (y) dx dy −∞ −∞ Z∞ Z∞ h(y) · fY (y) = −∞ Z∞ g(x) · fX (x) dx dy −∞ h(y) · fY (y) · E[g(X)] dy = −∞ Z∞ = E[g(X)] h(y) · fY (y) dy −∞ = E[g(X)] · E[h(Y )] Definition Seien X und Y Zufallsvariablen mit endlicher Varianz, sprich es gilt Folgendes. Var(X) < ∞ und Var(Y ) < ∞ Dann ist die Kovarianz von X und Y wie folgt definiert. Cov(X, Y ) = E[(X − E(X)) · (Y − E(Y ))] Sei Cov(X, Y ) = 0. Dann heißen X und Y unkorreliert. Satz Seien X und Y Zufallsvariablen mit endlicher Varianz. Dann gilt der Verschiebungssatz. Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] Beweis Um den Verschiebungssatz der Kovarianz zu beweisen, werden die lineare Transformation und die Additivität des Erwartungswertes verwendet. Cov(X, Y ) = E[X · Y − X · E[Y ] − Y · E[X] + E[X] · E[Y ]] = E[X · Y ] − E[X] · E[Y ] − E[X] · E[Y ] + E[X] · E[Y ] = E[X · Y ] − E[X] · E[Y ] 65 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Lemma Seien X und Y unabhängig Zufallsvariable. Dann sind X und X unkorreliert. Cov(X, Y ) = 0 Beweis Für unabhängige Zufallsvariablen X und Y ist der Erwartungswert des Produkts X · Y dieser Zufallsvariablen das Produkt der Erwartungswerte von X und Y . (∗) (∗) Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = E[X] · E[Y ] − E[X] · E[Y ] = 0 Bemerkung Die Umkehrung dieser Aussage gilt in der Regel jedoch nicht. Beispiel Sei X eine Zufallsvariable, sodass P[X = 0] = P[X = 1] = P[X = −1] = 1/3. Sei ( 1, falls X = 0 Y = 1{X=0} = 0, sonst Nun gilt also X · Y = 0 und somit auch E[X · Y ] = 0. Also gilt ebenfalls E[X] = 0 und damit auch Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = 0 Andererseits sind X und Y jedoch nicht unabhängig, da Folgendes gilt. P[X = 0, Y = 1] = P[X = 0] = 1 1 1 1 6= = · = P[X = 0] · P[Y = 1] 3 9 3 3 Lemma Seien X und Y normalverteilte Zufallsvariablen, welche unkorreliert sind. X, Y ∼ N (µ, σ) und Cov(X, Y ) = 0 Dann gilt, dass die Zufallsvariablen X und Y unabhängig sind. Beweis Auf den Beweis wird an dieser Stelle verzichtet. Beispiel Es seien die folgenden Aktienkurse gegeben. • Sei S00 ∈ R+ der heutige Aktienkurs von VW. • Sei S10 ∈ R+ der morgige Aktienkurs von VW. • Sei S01 ∈ R+ der heutige Aktienkurs von BMW. • Sei S11 ∈ R+ der morgige Aktienkurs von BMW. Ein Modell für die Kursentwicklung ist dann wie folgt gegeben. R0 = √ √ S10 − S00 = µ0 + λ · Z1 + 1 − λ · Z2 S00 und R1 = ∼N (0,1) p S11 − S01 √ = µ1 + η · Z1 + 1 − η · Z3 S01 ∼N (0,1) Dabei seien Z1 , Z2 , Z3 unabhängige Zufallsvariablen mit Z1 , Z2 , Z3 ∼ N (0, 1) und λ, η ∈ (0, 1). In beiden Fällen ist die Rendite gegeben durch die erwarte Rendite mit N (0, 1). Nun berechnet man für µ0 −µ1 = 0 und λ = η = 1/2 die Kovarianz wie folgt. Cov(R0 , R1 ) = E[R0 · R1 ] − E[R0 ] · E[R1 ] = E[R0 · R1 ] # "r r 1 1 · (Z1 + Z2 ) · · (Z1 + Z3 ) =E 2 2 = = = = = mit E[R0 ] · E[R1 ] = 0 1 · E[Z12 + Z1 · (Z2 + Z3 ) + Z2 · Z3 ] 2 1 E[Z12 ] + E[Z1 · (Z2 + Z3 )] + E[Z2 · Z3 ] mit E[Z12 ] = 1 2 1 (1 + E[Z1 ] · E[Z2 + Z3 ] + E[Z2 ] · E[Z3 ]) mit E[Z2 ] · E[Z3 ] = 0 2 1 (1 + E[Z1 ] · (E[Z2 ] · E[Z3 ])) mit E[Z2 ] · E[Z3 ] = 0 2 1 2 66 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Beispiel Seien A und B zwei Ereignisse. Seien X und Y Zufallsvariablen, die wie folgt gegeben sind. ( ( 1, falls A eintritt 1, falls B eintritt X = 1A = und Y = 1B = 0, sonst 0, sonst Dann gilt für den Erwartungswert des Produktes von X und Y Folgendes. E(X · Y ) = E(1A∩B ) = P(A ∩ B) Somit gilt nach dem Verschiebungssatz für die Kovarianz Folgendes. P(A ∩ B) − P(A) = P(B) · (P(A | B) − P(A)) Cov(X, Y ) = P(A ∩ B) − P(A) · P(B) = P(B) P(B) Somit nimmt die Kovarianz von X und Y folgende Werte an. > 0, falls P(A | B) > P(A) Cov(X, Y ) = 0, falls P(A | B) = P(A) < 0, falls P(A | B) < P(A) Proposition Seien X, Y, X1 , . . . , Xn , Y1 , . . . , Ym Zufallsvariablen. Sei α ∈ R. Dann gilt (i) Cov(X, Y ) = Cov(Y, X) (ii) Cov(X, X) = Var(X) (iii) Cov(αX, Y ) = α · Cov(X, Y ) P P Pm n n Pn (iv) Cov i=1 Xi , j=1 Yj = i=1 j=1 Cov(Xi , Yj ) Beweis Nach dem Verschiebungssatz gilt Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ]. (i) Cov(X, Y ) = E[X · Y ] − E[X] · E[Y ] = E[Y · X] − E[Y ] · E[X] = Cov(Y, X) (ii) Cov(X, X) = E[X · X] − E[X] · E[X] = E[X 2 ] − E[X]2 = Var(X) (iii) Cov(αX, Y ) = E[(αX) · Y ] − E[αX] · E[Y ] = α (E[X · Y ] − E[X] · E[Y ]) = α · Cov(X, Y ) (iv) Seien E[Xi ] = µi und E[Yj ] = νj . Dann gilt für die Summe der Zufallsvariablen Folgendes. " n # n m m X X X X E Xi = µi und E Yj = νj i=1 i=1 j=1 j=1 Somit gilt durch Anwenden der Definition der Kovarianz Folgendes. ! m n m n n m X X X X X X Xi , Yj = E Xi − µi · Yj − νj Cov i=1 j=1 i=1 i=1 j=1 ! n X = E (Xi − µi ) i=1 m X · (Yj − νj ) j=1 n X m X = E (Xi − µi ) · (Yj − νj ) i=1 j=1 = = n X m X i=1 j=1 n X m X E[(Xi − µi ) · (Yj − νj )] Cov(Xi , Yj ) i=1 j=1 67 j=1 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Korollar Seien X1 , . . . , Xn Zufallsvariablen. Dann gilt für die Varianz der Summe dieser Xi Folgendes. ! n n X X XX Var Xi = Var(Xi ) + 2 Cov(Xi , Xj ) i=1 i=1 i<j Beweis Man verwendet (ii) und (iv) aus der obigen Proposition und setzt Yj = Xj für j = 1, . . . , n. ! n n n n X n X X X X Var Xi = Cov Xi , Xj = Cov(Xi , Xj ) i=1 i=1 = XX j=1 i=1 j=1 Cov(Xi , Xj ) + XX i=j = n X Var(Xi ) + XX i=1 = Cov(Xi , Xj ) i6=j Cov(Xi , Xj ) i6=j n X Var(Xi ) + 2 XX i=1 Cov(Xi , Xj ) i<j Korollar Seien X1 , . . . , Xn paarweise unkorrelierte Zufallsvariablen, d. h. es gilt Cov(Xi , Xj ) = 0 für alle i 6= j. Dann gilt die Gleichung von Bienaymé. ! n n X X Var Xi = Var(Xi ) i=1 i=1 Beweis Um die Gleichung von Bienaymé zu beweisen, verwendet man das obige Korollar und beachtet dabei, dass die Zufallsvariablen paarweise unkorreliert sind. ! n n n X XX X X Var(Xi ) + 2 Cov(Xi , Xj ) = Var Xi = Var(Xi ) i=1 i=1 i<j =0 i=1 Beispiel Gegeben sei das Hutproblem (Kapitel 2.4). Im Folgenden soll die Varianz der Anzahl der Leute, die ihren eigenen Hut bekommen, berechnet werden. Lösung Für i = 1, . . . , N sei Ei das Ereignis, dass die Person i seinen Hut bekommt und Xi = 1Ei . Dann ist X = X1 + . . . + XN die Anzahl der Personen, die ihren Hut bekommen. Es gilt also Var(X) = N X Var(Xi ) + 2 i=1 XX Cov(Xi , Xj ) i<j Für die Varianz jeder einzelnen Zufallsvariable Xi gilt für alle i = 1, . . . , N Folgendes. 1 1 1− Var(Xi ) = N N Für die Kovarianz der einzelnen Zufallsvariablen gilt mit dem Verschiebungssatz Folgendes. Cov(Xi , Xj ) = E[Xi · Xj ] − E[Xi ] · E[Xj ] = P[Xi = 1, Xj = 1] − 1 1 · N N Die verbleibende Wahrscheinlichkeit lässt sich mittels der bedingten Wahrscheinlichkeit berechnen. P[Xi = 1, Xj = 1] = P[Xi = 1 | Xj = 1] · P[Xj = 1] = 1 1 · N −1 N Damit ergibt sich durch Einsetzen der einzelnen Terme die gesuchte Varianz. Var(X) = N −1 1 + 2 · (N 2 − N ) = 1 N N −1 68 für alle i 6= j Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Definition Seien X und Y Zufallsvariablen mit endlicher Varianz, sprich es gilt Folgendes. Var(X) < ∞ und Var(Y ) < ∞ Dann ist der Korrelationskoeffizient von X und Y wie folgt definiert. %(X, Y ) = p Cov(X, Y ) Var(X) · Var(Y ) ∈ [−1, 1] 7.3 Bedingte Erwartung von Zufallsvariablen Motivation Seien X und Y Zufallsvariablen mit gemeinsamer Dichte f . Z Z∞ P[X ∈ A] = Z∞ Z Z∞ Z f (x, y) dy dx = A −∞ Z∞ = −∞ −∞ fX|Y (x | y) dx P[X ∈ A | Y = y] · fY (y) dy dy = A −∞ A Z∞ Z fY (y) fX|Y (x | y) · fY (y) dx dy f (x, y) dx dy = A −∞ Um die Wahrscheinlichkeit von X ∈ A zu erhalten, muss zunächst die bedingte Wahrscheinlichkeit berechnet werden und dann muss man die Bedingung wieder ’wegintegrieren’. Ziel Analoges Vorgehen auf der Ebene von Erwartungswerten Beispiel Seien N, X1 , . . . , Xn unabhängige Zufallsvariablen. Seien alle Xi für i = 1, . . . , n identisch verteilt und sei N ∈ N. Dann ist N (ω) die Anzahl von Schäden und Xi der Schaden des i-ten Unfalls für i = 1, . . . , n. Dann ist die Gesamtschadenshöhe wie folgt gegeben. N (ω) Y (ω) = X Xi (ω) i=1 Wie groß ist nun der Erwartungswert der Zufallsvaribale Y ? Lösung Man konditioniere auf En = {N = n}. Da alle Xi für i = 1, . . . , n identisch verteilt sind (∗), gilt für den Erwartungswert der Summe der Zufallsvariablen somit Folgendes. " n # X (∗) E Xi = n · E[X1 ] =: n · µ i=1 Mit der Wahrscheinlichkeit pn ist die Schadenshöhe n · µ. Im Mittel ist die Schadenshöhe dann wie folgt. X X pn · n · µ = µ n · pn = µ · E[N ] = E[X1 ] · . . . · E[N ] n∈N n∈N 7.3.1 Bedingte Erwartung diskreter Zufallsvariablen Erinnerung Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Die bedingte Massenfunktion von X gegeben Y = y war dann wie folgt definiert. pX|Y (x | y) = P[X = x | Y = y] = p(x, y) pY (y) Definition Seien X und Y diskrete Zufallsvariablen mit gemeinsamer Massenfunktion p. Für y ∈ R ist die bedingte Erwartung von X gegeben Y = y wie folgt definiert. X E[X | Y = y] = x · pX|Y (x | y) x:p(x)>0 Beispiel Seien X und Y unabhängige Zufallsvariablen mit X, Y ∼ B(n, p). Es soll der bedingte Erwartungswert von X gegeben X + Y = m berechnet werden. 69 Prof. Dr. Ulrich Horst Lösung Stochastik WS 2013/2014 Da X und Y binomialverteilte Zufallsvariablen sind, gilt für die Summe dieser Folgendes. X + Y ∼ B(2n, p) Damit gilt für die bedingte Massenfunktion pX|X+Y von X gegeben X + Y Folgendes. P[X = k, X + Y = m] P[X = k] · P[Y = m − k] = P[X + Y = m] P[X + Y = m] n n · pk · (1 − p)n−k · · pm−k · (1 − p)n−m+k k m−k = 2n · pm · (1 − p)2n−m m n n · k m−k = ⇒ X | X + Y ∼ h(m, 2n, n) 2n m pX|X+Y (k | m) = e mit X e ∼ h(n, N, m) ist wie folgt gegeben. Der Erwartungswert einer Zufallsvariable X h i e =n· m E X N Damit gilt für den Erwartungswert von X | X + Y ∼ h(m, 2n, n) Folgendes. E[X | X + Y = m] = m · n m = 2n 2 7.3.2 Bedingte Erwartung absolutstetiger Zufallsvariablen Definition Seien X und Y absolutstetige Zufallsvariablen mit gemeinsamer Dichte f . Für y ∈ R ist die bedingte Erwartung von X gegeben Y = y wie folgt definiert. Z∞ E[X | Y = y] = x · fX|Y (x | y) dx −∞ Beispiel Seien X und Y gemeinsam absolutstetig verteilt mit gemeinsamer Dichte f . 1 · e−x/y · e−y , falls x, y ≥ 0 f (x, y) = y 0, sonst Im Folgenden soll E[X | Y = y] berechnet werden. Lösung Um den Erwartungswert zu berechnen, berechnet man zunächst die Randverteilung fY (y). Z∞ fY (y) = 1 −x/y −y 1 ·e · e dx = · e−y y y 0 Z∞ e−x/y dx = i∞ 1 −y h · e · −y · e−x/y = e−y y x=0 0 Somit gilt für die bedingte Dichte fX|Y nun Folgendes. 1 · e−x/y , falls x > 0 fX|Y (x | y) = y 0, sonst D. h. es gilt X | Y = y ∼ E(1/y), womit sich der folgende Erwartungswert ergibt. E[X | Y = y] = y Definition Seien X und Y Zufallsvariablen. Dann ist die bedingte Erwartung von X gegeben Y E[X | Y ] : Ω → R mit E[X | Y ](ω) = E[X | Y = Y (ω)] selbst wieder eine Zufallsvariable, da sie noch von der Zufallsvariable Y abhängt. 70 Prof. Dr. Ulrich Horst Bemerkung Stochastik WS 2013/2014 Im letzten Beispiel gilt somit für alle ω ∈ Ω Folgendes. E[X | Y ](ω) = Y (ω) Proposition Seien X und Y Zufallsvariablen. Dann gilt für den Erwartungswert von X Folgendes. E[X] = E[E[X | Y ]] (i) Ist Y eine diskrete Zufallsvariable, so gilt für die obige Gleichung Folgendes. X E[X] = E[X | Y = y] · py (y) y (ii) Ist Y eine absolutstetige Zufallsvariable, so gilt für die obige Gleichung Folgendes. Z∞ E[X | Y = y] · fY (y) dy E[X] = −∞ Beweis (i) Seien X und Y beide diskrete Zufallsvariablen, so gilt Folgendes. X XX XX E[E[X | Y ]] = E[X | Y = y] · pY (y) = x · pX|Y (x | y) · pY (y) = x · p(x, y) y = y XX x x y x X X X x · p(x, y) = x p(x, y) = x · pX (x) = E[X] y x y x (ii) Seien X und Y beide absolutstetige Zufallsvariablen, so gilt Folgendes. Z∞ E[E[X | Y ]] = Z∞ Z∞ E[X | Y = y] · fY (y) dy = −∞ Z∞ x · fX|Y (x | y) · fY (y) dx dy −∞ −∞ Z∞ Z∞ Z∞ x · f (x, y) dx dy = = −∞ −∞ Z∞ = Z∞ x −∞ x · f (x, y) dy dx −∞ −∞ Z∞ x · fX (x) dx = E[X] f (x, y) dy dx = −∞ −∞ Bemerkung Um den Erwartungswert von X zu berechnen, kann man ein gewichtetes Mittel des Erwartungswertes von X gegeben Y = y nehmen, wobei jeder der Terme E[X | Y = y] durch die Wahrscheinlichkeit des Ereignisses, auf dem es konditioniert ist, gewichtet sei. Dies ist ein äußerst nützliches Ergebnis, welches es einem oft ermöglicht die Erwartungswerte leicht zu berechnen indem man zuerst einige geeignete Zufallsvariablen konditioniert. Bemerkung Im einführenden Beispiel galt für den Erwartungswert der Zufallsvariablen Y Folgendes. "N # X E[Y ] = E Xi für N ∼ π(λ) i=1 Diesen Erwartungswert kann man nun wie folgt durch Konditionierung berechnen. " "N ## X X X E[Y ] = E E Xi | N = m = n · µ · P[N = m] = µ · n · P[N = m] = µ · E[N ] = µ · λ i=1 n n≥0 71 Prof. Dr. Ulrich Horst Stochastik WS 2013/2014 Quellen Dieses Skript basiert auf den Inhalten der Vorlesung Stochastik, gehalten durch Prof. Dr. Ulrich Horst, sowie auf den Grundlagen der folgenden Literatur. • Ross, S.: A first course in probability. Pearson, 2009 • Ghahramani, S.: Fundamentals of probability. Pearson, 2004 Die verwendeten Grafiken wurden mithilfe der dynamischen Geometrie-Software GeoGebra erstellt. 72