Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/2013 Univ.-Prof. Dr. Walter Gutjahr Universitätsstraße 5 Tel. 4277 38632 [email protected] http://homepage.univie.ac.at/walter.gutjahr 1 Folien: Dr. Florian Frommlet und ao. Univ.-Prof. Dr. Andreas Futschik Organisatorisches • Vorlesungstermine: Mo 08.15 - 10.00 HS 33, wöchentlich Do 14.45 - 16.15 Audimax ZfT, Gymnasiumstrasse 50, wöchentlich Letzter Vorlesungstermin: Mo 17.12.2012 • Prüfungstermine: 1) Do 10.01.2013 2) Do 07.02.2013 • Übungsgruppen: 6 parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis! 2 Zwei Tutorien • Julia Gruber Mo wöchentlich von 08.10.2012 bis 28.01.2013, 19.00-20.30 Ort: Hörsaal 42 Hauptgebäude, 2.Stock, Stiege 7 • Bernhard Hrobath Mi wöchentlich von 10.10.2012 bis 30.01.2013, 08.00-09.30 Ort: Hörsaal 2 Neues Institutsgebäude Besuch der Tutorien empfehlenswert! 3 E-learning Plattform Moodle Plattform https://moodle.univie.ac.at • Generelle Information • Downloads der Folien • Alte Prüfungsangaben • Forum • Noten Auch erreichbar als Link von meiner Homepage http://homepage.univie.ac.at/walter.gutjahr 4 Inhalt der Vorlesung 1. Einführung (a) Wahrscheinlichkeitsbegriff (b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten 2. Diskrete Verteilungen 3. Stetige Verteilungen 4. Mehrdimensionale Verteilungen 5. Verteilungen von Stichprobenkennzahlen 6. Grenzwertsätze 5 Literatur Die Reihenfolge entspricht dem Grad an Relevanz speziell für diese Lehrveranstaltung • Karl Bosch: Elementare Einführung in die Wahrscheinlichkeitsrechnung • Sheldon Ross: A First Course in Probability Bücher gibt es mindestens 10 mal in Lehrbuchsammlung • Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability • Brannath / Futschik: Statistik für Wirtschaftswissenschafter • John Rice: Mathematical statistics and data analysis • Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik • Walter Oberhofer: Wahrscheinlichkeitstheorie • Jim Pitmann: Probability 6 Einführung Mathematische Modellierung â Deterministisch â Stochastisch (Zufälligkeit, Unsicherheit) Experiment mit verschiedenen möglichen Ausgängen – Ereignisse Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakte Vorhersagen zu liefern Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen 7 Beispiele Konzeptionell einfach: • Münzwurf • Würfelspiele / Kartenspiele / Lotto Konzeptionell etwas schwieriger: • Nicht faire Münze Konzeptionell schwierig: • Wahlprognosen • Kreditrückzahlung (Insolvenzprognoseverfahren ) • Sportwetten Konzeptionell beyond: • Moderne Physik 8 Interpretation von Wahrscheinlichkeit 1. Laplace: Endlich viele Ereignisse Alle Ereignisse gleiche Wahrscheinlichkeit 2. Frequentistisch: Idee: Experiment das beliebig oft wiederholt werden kann Relative Häufigkeit: Anzahl des Auftretens eines Ereignisses bei n Wiederholungen des Experiments Wahrscheinlichkeit: Relative Häufigkeit für n → ∞ 3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontext von beliebig oft wiederholbaren Ereignissen auf Beispiel: Ärztliche Prognose, Sportwetten 9 Wahrscheinlichkeitsrechnung Unabhängig von der Interpretation! Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933) • Ergebnisraum Ω • Menge aller zulässigen Ereignisse A (gewisse) Teilmengen von Ω • Wahrscheinlichkeitsverteilung P (A). Die Funktion A → P (A) hat folgende Eigenschaften 1. 0 ≤ P (A) ≤ 1 2. P (∅) = 0, P (Ω) = 1 3. P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅. 10 Beispiel 1: Münzwurf Ergebnisraum: Ω = {Kopf, Zahl } Ereignisse: {∅, Kopf, Zahl, Kopf oder Zahl } Wahrscheinlichkeitsverteilung: Falls faire Münze P (Kopf) = 1/2, P (Zahl) = 1/2 (Elementarereignisse) P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1 P (weder Kopf noch Zahl) = P (∅) = 0 Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff Elementarereignis: A ⊂ Ω mit |A| = 1 d.h. einelementige Teilmenge 11 Übungen Zwei faire Münzen Ergebnisraum: Ereignisse: Wahrscheinlichkeitsverteilung: Fairer Würfel Ergebnisraum: Ereignisse: Wahrscheinlichkeitsverteilung: 12 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/13 1 Grundbegriffe 1. Mengenlehre 2. Rechnen mit Wahrscheinlichkeiten 3. Kombinatorik 4. Bedingte Wahrscheinlichkeit 1 1.1 Mengenlehre Ereignis: Teilmenge von Ω Ac := Ω\A . . . Komplement A ∪ B . . . Vereinigung A ∩ B . . . Durchschnitt A ∩ B = ∅ . . . Disjunkte Mengen Venn Diagramm: ' $ Ω A A\B := A ∩ B c B ⊆ Ac ⇒ A\B =? B & % Indexschreibweise: Gegeben die Ereignisse A1 , A2 , . . . , An ∪n i=1 Ai = A1 ∪ A2 ∪ · · · ∪ An ∩n i=1 Ai = A1 ∩ A2 ∩ · · · ∩ An 2 Rechenregeln • Kommutativgesetz: A ∪ B = B ∪ A • Assoziativgesetz: (A ∪ B) ∪ C = A ∪ (B ∪ C) • Distributivgesetz: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) • de Morgan: (A ∪ B)c = Ac ∩ B c Alle Regeln gelten auch wenn man ∪ und ∩ konsequent vertauscht! Weiters gilt (Übung): A ∩ Ac = A ∪ Ac = A∪Ω= A∩Ω= A∪∅= A∩∅= A∪A= A∩A= 3 Übung: Zwei Würfel Es werden ein weisser und ein schwarzer Würfel geworfen. • Ergebnisraum Ω: • Welche Teilmengen entsprechen den folgenden Ereignissen A : = Ein Würfel zeigt 4, der andere 2 B : = der schwarze Würfel zeigt eine gerade Augenzahl der weisse eine ungerade C := die Summe der Augenzahlen beträgt 8 • Welche der genannten Ereignisse sind disjunkt? • Bilde (A ∪ B)c ∩ {C ∪ [A ∩ (B ∪ C)]} 4 1.2 Rechnen mit Wahrscheinlichkeiten 1. 0 ≤ P(A) ≤ 1 2. P(∅) = 0, P(Ω) = 1 3. P(A ∪ B) = P(A) + P(B) falls A ∩ B = ∅. Einfache Folgerungen: • A1 , . . . , An paarweise disjunkt, dann gilt ( n ) n ∪ ∑ P Ai = P(Ai ) i=1 i=1 • P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B) • B⊂A ⇒ P(B) ≤ P(A) • P(A\B) = P(A) − P(B ∩ A) P(Ac ) = 1 − P(A) 5 Übung A, B und C seien Ereignisse (Teilmengen von Ω) jeweils mit Wahrscheinlichkeit P(A) = 0.8, P(B) = 0.3, P(C) = 0.7. Weiters gelte A ∪ C = Ω, B ⊂ A, B und C sind disjunkt 1. Berechne P(A ∩ C) 2. Welche der folgenden Aussagen sind richtig (a) A ⊂ C? (b) C ⊂ A? (c) B ∪ C = Ω? (d) B = A\C? 6 Laplace’sche Wahrscheinlichkeit |Ω| = n < ∞ ... Ergebnisraum mit endlich vielen Elementen Alle Elementarereignisse gleiche Wahrscheinlichkeit ⇒ P(A) = |A|/n Berechnung der Wahrscheinlichkeit durch Zählen der Elemente einer Menge ⇒ Kombinatorik Beispiel: Urne mit 5 schwarzen und 6 weißen Bällen Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind? a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975 b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727 7 1.3 Grundbegriffe der Kombinatorik Permutation: Anzahl der möglichen Anordnungen von n verschiedenen Elementen n! = n · (n − 1) · · · · 1 Beispiel: Auf wie viele verschieden Arten kann man abc anordnen? 3! = 3 · 2 · 1 = 6 abc, acb, bac, bca, cab, cba Auf wie viele verschieden Arten kann man abcd anordnen? abcd, acbd, bacd, bcad, cabd, cbad abdc, acdb, badc, bcda, cadb, cbda 4! = 4 · 3 · 2 · 1 = 24 adbc, adcb, bdac, bdca, cdab, cdba dabc, dacb, dbac, dbca, dcab, dcba Man definiert: 0! = 1 8 r - Permutation mit Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Mit zurücklegen, Reihenfolge wesentlich Beispiel: n = 4, r = 2 aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd n Möglichkeiten für jede der r Positionen ⇒ nr Möglichkeiten Übung: Wie viele Zahlen kann man mit allen 10-stelligen Ziffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen? 9 r - Permutation ohne Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Ohne zurücklegen, Reihenfolge wesentlich Beispiel: n = 4, r = 2 Nicht mehr relevant: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc aa, bb, cc, dd n Möglichkeiten für die erste Position, n − 1 für die zweite, . . . n − r + 1 für die r−te Position ⇒ n · (n − 1) · · · (n − r + 1) = n! (n−r)! Möglichkeiten Bemerkung: Es muss gelten: r ≤ n r = n gibt als Spezialfall die normale Permutation 10 r - Kombination ohne Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Ohne zurücklegen, Reihenfolge egal Beispiel: n = 4, r = 2 Nicht mehr relevant: ab, ac, ad, bc, bd, cd ba, ca, da, cb, db, dc Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppe anzuordnen (n) n·(n−1)···(n−r+1) n! ⇒ := = Möglichkeiten r r! (n−r)!r! Bemerkung: Es muss klarerweise wieder gelten: r ≤ n 11 Fortsetzung: r - Kombination ohne Wiederholung Ergebnisraum Ω gegeben durch die Zahlen 1, . . . , n Eine mögliche Darstellung der r - Kombination ohne Wiederholung: r-Tupel (a1 , a2 , . . . , ar ) in lexikographischer Ordnung d.h. 1 ≤ a1 ≤ n a1 < a2 ≤ n .. . ar−1 < ar ≤ n Durch die Festlegung a1 < a2 < · · · < ar greifen wir gerade eine der r! möglichen Anordnungen von r gegebenen Zahlen heraus! Übung: Lotto 6 aus 45, Wahrscheinlichkeit für einen 6-er, bzw. für einen 3-er? 12 r - Kombination mit Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Mit zurücklegen, Reihenfolge egal Beispiel: n = 4, r = 2 Hinzugekommen: aa, ab, ac, ad, bb, bc, bd, cc, cd, dd aa, bb, cc, dd Anzahl der Möglichkeiten: (n+r−1) (n+r−1)! (n+r−1)···(n−1) = = r (n−1)! r! r! n = 4, r = 2 : 5! 3! 2! = 5·4 2 = 10 13 Fortsetzung: r - Kombination mit Wiederholung Ergebnisraum Ω gegeben durch die Zahlen 1, . . . , n Suche nach der Anzahl aller r−Tupel mit a1 ≤ a2 ≤ · · · ≤ ar Äquivalent: Anzahl aller r−Tupel mit b1 < b2 < · · · < br , wobei bi = ai + i − 1 1 ≤ a1 ≤ n 1 ≤ a1 ≤ n a1 ≤ a2 ≤ n a1 < a2 + 1 ≤ n + 1 a2 ≤ a3 ≤ n .. . a2 < a3 + 2 ≤ n + 2 .. . ar−1 ≤ ar ≤ n ar−1 < ar + r − 1 ≤ n + r − 1 Führe Problem zurück auf r-Kombination ohne Wiederholung 14 Beispiel: r - Kombination mit Wiederholung Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen? Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C AAAAAAAA | BBBBBBBBBBBB | CCCCCCCCCC Durch die beiden Trennsymbole | wird diese Kombination eindeutig festgelegt Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibt es "zwei Trennwände" zu setzen Wähle 2 (= n − 1) von 32 (= n + r − 1) Positionen, Reihenfolge egal, ohne zurücklegen (n+r−1) (n+r−1) (32) = = 2 = 31 · 16 = 496 n−1 r 15 Zusammenfassung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Reihenfolge mit Wiederholung ohne Wiederholung (n ≥ r) nr (n+r−1) n!/(n − r)! (n) r r relevant egal Faktorielle (auch Fakultät): n! = n · (n − 1) · · · 1, Binomialkoeffizient: (n) n·(n−1)···(n−r+1) = r = r! 0! = 1 n! (n−r)! r! 16 Beispiel 8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3 Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibt es, wenn a) 2 Frauen nicht kooperieren wollen? b) 2 Männer nicht kooperieren wollen? c) Ein Mann und eine Frau nicht kooperieren wollen? Lösung: (8)(6) Ohne Konflikte: 3 3 = 1120 Kommitees Subtrahiere davon jeweils die Anzahl der unmöglichen Komitees: (8) [(6) ] a) − 4 = 896 (36) [(38) ] b) − 6 = 1000 (83)(6)3 (7)(5) c) 3 3 − 2 2 = 910 17 Übungsaufgabe (etwas schwierig) In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personen wollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dass genau i Frisöre einen Auftrag erhalten. Lösung: • P(i = 1) = 1/64 • P(i = 2) = 21/64 • P(i = 3) = 36/64 • P(i = 4) = 6/64 18 Einschub: Binomischer Lehrsatz n (x + y) = n ( ) ∑ n k=0 k xk y n−k Beweis durch vollständige Induktion: (1) 0 1−0 (1) 1 1−1 + 1 x y =x+y 1) n = 1 : 0 x y 2) (n − 1) → n : Angenommen der Satz ist richtig für n − 1. Schreibe (x + y)n = (x + y)(x + y)n−1 , verwende den binomischen Lehrsatz für (x + y)n−1 und zeige damit, dass sich die rechte Seite n ( ) ∑ n k n−k tatsächlich als schreiben läßt. k x y k=0 Hilfreiche Identität für den Beweis: ( ) ( ) ( ) n n−1 n−1 = + r r−1 r 19 Einschub: Pascalsches Dreieck Schema der Binomialkoeffizienten: n=0 1 n=1 1 n=2 1 n=3 1 n=4 n=5 1 1 2 3 4 5 1 1 3 6 10 1 4 10 1 5 1 (x + y)2 = x2 + 2xy + y 2 (x + y)3 = x3 + 3x2 y + 3xy 2 + y 3 (x + y)4 = x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4 20 Übungen Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggon kontrolliert er 2 Personen Einzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen 1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen 2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit den Schwarzfahrern? 3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen Schwarzfahrer, wenn er ihren Waggon kennt? 4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen Schwarzfahrer, wenn er ihren Waggon nicht kennt? 21 1.4 Bedingte Wahrscheinlichkeit Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen. Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind? Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727 In Worten: 6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß 5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß, falls erste Kugel weiß war Formal: A . . . erste Kugel weiß B . . . zweite Kugel weiß B|A . . . B wenn A, oder B unter der Bedingung A, d.h. zweite Kugel weiß falls erste Kugel weiß P(B ∩ A) = P(A)P(B|A) 22 Definition bedingte Wahrscheinlichkeit P(B|A) = P(B ∩ A)/P(A) Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zu Beginn eines Experiments, Ω enthält alle möglichen Ereignisse Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengen von A sind. A wird zum neuen (reduzierten) Ergebnisraum. Die bedingte Wahrscheinlichkeit eines Ereignisses B entspricht dem ‘Anteil’ von B an A. Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einen Wahrscheinlichkeitsraum (Bemerkung: Genaugenommen braucht man auch noch eine sog. σ - Algebra A. Wir betrachten zunächst endliche Wahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.) 23 Fortsetzung: Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit ist tatsächlich eine Wahrscheinlichkeit: Reduzierter Ergebnisraum A P(A|A) = P(A ∩ A)/P(A) = 1 B∩C =∅ ⇒ P(B ∪ C|A) = P(B|A) + P(C|A) Übung: In einer LVA gab es zwei Beurteilungstests. 50% der Studierenden bestanden den ersten Test und 35% bestanden beide Tests. Wieviele Prozent der Studierenden die den ersten Test schafften scheiterten am zweiten Test? 24 Produktformel Manchmal hilfreich: ∩n ∩n−1 P( i=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An | i=1 Ai ) Beweis: Iteratives Anwenden der Definition von bed. Wahrsch. Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je 13 Karten aufgeteilt Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As Hinweis: Definiere die Ereignisse A1 A2 A3 A4 = { Pik As befindet sich in irgendeinem Stapel } = { Pik As und Herz As in verschiedenen Stapeln } = { Pik, Herz und Karo As in verschiedenen Stapeln } = { Alle Asse in verschiedenen Stapeln } Lösung: 0.1055 25 Satz von der totalen Wahrscheinlichkeit Seien A1 , A2 , . . . , An disjunkte Ereignisse und Ω = n ∪ Ai i=1 Dann gilt P(A) = P(A1 )P(A|A1 ) + · · · + P(An )P(A|An ) Beweis: Rechte Seite: P(A ∩ A1 ) + · · · + P(A ∩ An ) ( n ) ∪ Ai disjunkt ⇒ R.S. = P (A ∩ Ai ) i=1 Ai vollständig ⇒ n ∪ (A ∩ Ai ) = A i=1 26 Satz von Bayes Seien A und B Ereignisse mit positiver Wahrscheinlichkeit Dann gilt: P(A|B) = P(A)P(B|A)/P(B) Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩ B) Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch P(A)P(B|A) P(A|B) = P(A)P(B|A) + P(Ac )P(B|Ac ) Typische Anwendung: Bayesianische Statistik 27 Übung Bayes, Totale Wahrscheinlichkeit Versicherung teilt Autofahrer in 3 Klassen Prozent P(Unfall im ersten Jahr) schlecht 30 0.6 mittel 60 0.1 gut 10 0.01 a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigem Autofahrer? Lösung: 0.241 b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfall hat ein guter Autofahrer ist? Lösung: 0.00415 28 Übung Bayes Labortest für eine bestimmte Krankheit: 95% Sensitivität (Test positiv falls tatsächlich krank) 99% Spezifität (Test negativ falls gesund) 0.5% leiden an dieser Krankheit a) Schätze die Wahrscheinlichkeit, dass jemand mit einem positiven Test tatsächlich erkrankt ist! b) Berechne die Wahrscheinlichkeit, dass jemand mit einem positiven Test tatsächlich erkrankt ist! 29 Unabhängige Ereignisse Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen. Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind? Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975 Durch das Zurücklegen werden die beiden Ereignisse A = (erste Kugel weiß) und B = (zweite Kugel weiß) voneinander unabhängig: P(B|A) = P(B) = 6/11 Das wissen um A liefert keine Information für B Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls P(A ∩ B) = P(A)P(B) Beispiele: Mehrere Würfel, Münzen, etc. 30 Beispiel Unabhängigkeit In einer Gruppe von Leuten befinden sich 8 Raucher und 12 Raucherinnen, sowie 10 Nichtraucher. Wieviele Nichtraucherinnen sind in der Gruppe, falls bei der zufälligen Wahl einer Person das Geschlecht vom Rauchverhalten unabhängig ist? Lösung: Sei x die Zahl der Nichtraucherinnen P(raucht) = 20/(30 + x) P(männlich) = 18/(30 + x) P(raucht und männlich) = 8/(30 + x) Unabhängigkeit: ⇒ (20/(30 + x)) · (18/(30 + x)) = 8/(30 + x) 18 · 20 = 8 · (30 + x) Somit x = 15 Nichtraucherinnen. 31 ⇒ 45 = 30 + x Multiple Unabhängigkeit Drei Ereignisse A, B und C heissen unabhängig falls 1. alle 3 Ereignisse jeweils paarweise unabhängig 2. P(A ∩ B ∩ C) = P(A)P(B)P(C) Aus paarweiser Unabhängigkeit folgt NICHT multiple Unabhängigkeit! Übung: Zwei faire Würfel Ereignis A: Erster Würfel fällt auf 4 Ereignis B: Zweiter Würfel fällt auf 3 Ereignis C: Summe der Würfel gibt 7 32 Übungen - Wiederholung 1. Urne mit 3 blauen und 2 roten Kugeln, ziehe 3 mal mit zurücklegen Mit welcher Wahrscheinlichkeit • ist die zweite gezogene Kugel blau? • sind alle gezogenen Kugeln rot? • sind alle gezogenen Kugeln blau? • werden 2 rote Kugeln gezogen? 2. Wie 1) aber ziehen ohne zurücklegen! Hinweis: X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable 33 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/13 2 Diskrete Verteilungen 1. Einführung 2. Erwartungswert und Varianz 3. Die Binomialverteilung 4. Die Poissonverteilung 5. Andere diskrete Verteilungen 1 2.1 Einführung Beispiel: Fairer Würfel, Beobachtungen: 1, 2, 3, 4, 5, 6 Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6). Beim Würfeln beobachten wir Realisierungen einer Zufallsvariablen. (Reelle) Zufallsvariable: Abbildung eines Wahrscheinlichkeitsraums in die Menge der reellen Zahlen: X:Ω→R Im Beispiel: Ω = {1, 2, 3, 4, 5, 6} X(i) = i 2 Fortsetzung Beispiel Zwei faire Würfel, X = Summe der Augenzahlen. Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j). Zufallsvariable X : Ω → R gegeben durch X(i, j) = i + j. P (2) = P (12) = 1/36 P (3) = P (11) = 2/36 P (4) = P (10) = 3/36 P (5) = P (9) = 4/36 P (6) = P (8) = 5/36 P (7) = 6/36 Wertebereich: X = X(Ω) = {2, . . . , 12}. 3 Weiteres Beispiel Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z) Ω = {K, Z} Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust X:Ω→R X(K) = 10, X(Z) = −10, P (10) = P(X = 10) = P(K) = 0.5 P (−10) = P(X = −10) = P(Z) = 0.5 Wertebereich: X = X(Ω) = {−10, 10}. Bemerkung: In den letzten beiden Beispielen wurden die Elementarereignisse in Ω nicht mit den möglichen Werten der Zufallsvariable identifiziert! 4 Diskrete Zufallsvariable Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen, d.h. indizierbar mit 1, 2, . . .: Ω = {ω1 , ω2 , ω3 , . . . } Eine (reelle) Zufallsvariable X ist eine Funktion der Form X:Ω→R Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX wie folgt zugeordnet: ∑ P : X → [0, 1], P (x) = P(X = x) = ω∈Ω:X(ω)=x pω , wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω ist. Wahrscheinlichkeiten der Elementarereignisse beschreiben Verteilung einer diskreten Zufallsvariable vollständig. 5 Verteilungsfunktion Englisch: Cumulative distribution function (cdf) ∑ F : R → [0, 1], F (x) = P(X ≤ x) = xi ≤x P(X = xi ) Beispiel Würfel: 1 F(x) = P(X ≤ x) 0.8 0.6 0.4 0.2 0 −2 0 2 4 x 6 6 8 Gleichverteilung n mögliche Ereignisse mit gleicher Wahrscheinlichkeit Ω = {1, . . . , n} pi = 1/n Wählen X(i) = i, d.h. X = Ω. Verteilungsfunktion: 0, x < 1 F (x) = i/n, i ≤ x < i + 1, 1, x ≥ n i = 1, . . . , n − 1 An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n Auch bei anderer Wahl der pi gilt folgender Zusammenhang zwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion: P (i) = F (i) − F (i − 1), falls i ∈ Ω 7 Eigenschaften der Verteilungsfunktion Für diskrete Zufallsvariablen gilt: Die Verteilungsfunktion ist eine monoton wachsende Treppenfunktion mit Sprungstellen bei Ereignissen mit positiver Wahrscheinlichkeit. Es gilt allgemein für Verteilungsfunktionen: • P (x) = F (x) − F (x− ), wobei F (x− ) = lim h→x,h<x Folgt aus der Definition von F (x) = P(X ≤ x) • P(a < X ≤ b) = F (b) − F (a) • lim F (a) = 0, a→−∞ lim F (b) = 1 b→∞ • F (x) monoton wachsend 8 F (h) Übung Die Verteilungsfunktion einer Zufallsvariablen X sei 0, x < 1 F (x) = 1 − 2−k , k ≤ x < k + 1, k = 1, 2, . . . 1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5] 2. Bestimme die Wahrscheinlichkeitsfunktion von X 3. Mit welcher Wahrscheinlichkeit ist X > 5? 9 2.2 Erwartungswert und Varianz Wesentliche Kenngrößen von Verteilungen Werden in der Praxis häufig verwendet ⇒ Reduktion der Information von Daten Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung, entspricht dem arithmetischen Mittel einer Stichprobe Varianz ist ein Maß für die Streuung einer Verteilung, entspricht den Abweichungen vom Mittelwert die man in einer Stichprobe erwarten kann Beide Kennzahlen basieren auf Momenten der Verteilung, und sind speziell für die Normalverteilung von großer Bedeutung 10 Erwartungswert Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P Definition Erwartungswert: E(X) = ∑ xP (x) x∈X wobei wieder X = X(Ω) = Wertebereich von X. Gewichtete Summe der Werte, Gewichte sind Wahrscheinlichkeiten. Übliche Notation: µ = E(X) Beispiel Würfel: 1 · 1/6 + 2 · 1/6 + · · · + 6 · 1/6 1+2+3+4+5+6 = 21/6 = 3.5 = 6 E(X) = 11 Funktionen von Zufallsvariablen Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einer Funktion g: X : Ω → R, g : R → R. Y (ω) := (g ◦ X)(ω) = g(X(ω)). Y : Ω → R, ist also wieder eine Zufallsvariable. Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildet wie die von X: ∑ PY (y) = PY (Y = y) = ω∈Ω:Y (ω)=y pω . Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ). D.h. die Werte x werden transformiert zu Werten g(x). Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x). 12 Beispiele für Funktionen von Zufallsvariablen 1. Würfel, Ω = {1, . . . , 6}, X(ω) = ω, Funktion g(x) = x2 Die Zufallsvariable Y = X 2 hat Wertebereich Y = {1, 4, 9, 16, 25, 36} und WF PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6 2. Würfel, Ω = {1, . . . , 6}, Funktion ḡ(x) = (x − 3.5)2 . Die Zufallsvariable Z = (X − 3.5)2 hat Wertebereich Z = {2.52 , 1.52 , 0.52 } = {6.25, 2.25, 0.25} und WF P (6.25) = p1 + p6 = 1/3 P (2.25) = p2 + p5 = 1/3 P (0.25) = p3 + p4 = 1/3 Übung: Ω = {−1, 0, 1}, X(ω) = ω, P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2 Berechne WF von Y = X 2 und Z = X 3 13 Erwartungswert von Funktionen Beispiel: Würfel – Fortsetzung: 1) E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · · + 36 · 1/6 1 + 4 + 9 + 16 + 25 + 36 = = 91/6 = 15.1667 6 2) E(ḡ(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167 Allgemein: Berechnung des Erwartungswerts von g(X): E(g(X)) = ∑ g(x)P (x) x∈X Alternative Darstellung: ∑ g(x)P (x) = x∈X ∑ y∈Y 14 yPY (y) Lineare Transformation Allgemein gilt für a, b ∈ R: E(aX + b) = aE(X) + b Beweis: E(aX + b) = ∑ (ax + b)P (x) x∈X = a ∑ xP (x) + b x∈X = aE(X) + b Speziell gilt: E(X − µ) = E(X − E(X)) = 0 15 ∑ x∈X P (x) Varianz Var (X) := E(X − µ)2 Definition: Folgende Formel, die mitunter leichter zu berechnen ist als E(X − µ)2 , ist äquivalent: Var (X) = E(X 2 ) − µ2 Beweis: E(X − µ) 2 = ∑ (x − µ) P (x) = 2 x∈X = ∑ ∑ (x2 − 2µx + µ2 )P (x) x∈X x P (x) − 2µ 2 x∈X ∑ x∈X xP (x) + µ ∑ 2 P (x) x∈X = E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2 Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln 16 Beispiel zur Varianz Drei Zufallsvariablen X1 , X2 , X3 X1 = 0 mit Wahrscheinlichkeit 1 X2 gleichverteilt auf {−1, 0, 1} X3 gleichverteilt auf {−50, −25, 0, 25, 50} Alle drei Zufallsvariabeln haben Erwartungswert 0 Var (X1 ) = 02 · P (0) = 0 Var (X2 ) = (−1)2 · 1/3 + 12 · 1/3 = 2/3 Var (X3 ) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250 Varianz plus MW gibt mehr Information über Verteilung als Mittelwert allein 17 Eigenschaften der Varianz Allgemein gilt für a, b ∈ R: Var (aX + b) = a2 Var (X) Beweis: Var (aX + b) = E(aX + b − aµ − b)2 = a2 E(X − µ)2 Speziell: Var (−X) = Var (X) Var (X + b) = Var (X) Übliche Notation: σ 2 = Var (X) σ . . . Standardabweichung: √ SD(X) = Var (X) 18 Momente von Verteilungen k-tes Moment einer Zufallsvariable: mk := E(X k ) k-tes zentriertes Moment: zk = E((X − µ)k ) m1 . . . Mittelwert z2 = m2 − m21 . . . Varianz Weiters von Bedeutung sind das dritte und das vierte Moment Schiefe: ν(X) := z3 σ3 = E(X∗3 ) wobei X∗ := (X − µ)/σ • ν(X) = 0 ... symmetrische Verteilung • ν(X) < 0 ... linksschief • ν(X) > 0 ... rechtsschief Kurtosis: z4 σ4 = E(X∗4 ) (auch Wölbung 19 → Normalverteilung) Übung: Schiefe Eine Zufallsvariable X habe folgende Wahrscheinlichkeitsverteilung: P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05 Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion Berechne die Schiefe! Lösung: −0.672 0.843/2 ∼ −0.8729 Wie lautet die Schiefe für die folgende leicht veränderte Verteilung? P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05 20 2.3 Binomialverteilung Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1) P(X = 1) = p, P(X = 0) = q Zum Beispiel faire Münze: wobei q =1−p p = 1/2 Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7 Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z? Ω = {0, 1}3 , Wertebereich von Z ist Z = {0, 1, 2} Die beiden Würfe sind voneinander unabhängig! P(Z = 0) = P(X1 = 0, X2 = 0) = P(X1 = 0)P(X2 = 0) = 0.32 = 0.09 P(Z = 1) = P(X1 = 0, X2 = 1) + P(X1 = 1, X2 = 0) = = 2 · P(X1 = 0)P(X2 = 1) = 2 · 0.3 · 0.7 = 0.42 P(Z = 2) = P(X1 = 1, X2 = 1) = P(X1 = 1)P(X2 = 1) = 0.72 = 0.49 21 Binomialverteilung n unabhängige Bernoulli Experimente mit P(X = 1) = p Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt: (n) k n−k P(Y = k) = k p q Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jede einzelne Sequenz mit k mal 1 und n − k mal 0 (in irgendeiner festen Reihenfolge) ist pk (1 − p)n−k Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohne Wiederholung Notation: Y ∼ B(n, p) Übung: Fünf unabhängige Würfe einer fairen Münze Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe! 22 Beispiel Binomialverteilung Prüfung mit Durchfallsquote von 20% Anzahl der Erfolge beim Antritt von 10 Studierenden? ( ) 10 P(X = 7) = · 0.87 · 0.23 = 0.2013 7 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 23 6 7 8 9 10 Beispiele Binomialverteilung: n = 10 p = 0.1 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 p = 0.3 0 1 2 3 4 5 6 7 8 9 0 10 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 4 5 6 7 8 9 0 10 24 p = 0.2 0 1 2 3 4 5 6 7 8 9 10 p = 0.5 0 1 2 3 4 5 6 7 8 9 10 Anwendung: Ziehen mit Zurücklegen Grundgesamtheit mit N Objekten • M der N Objekte erfüllen Eigenschaft E • Ziehe n Objekte mit zurücklegen Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen ist binomialverteilt: X ∼ B(n, M/N ) Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5 Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzen Kugeln • Wahrscheinlichkeitsfunktion von X? • Erwartungswert von X? 25 Erwartungswert der Binomialverteilung X ∼ B(n, p) ⇒ E(X) = np (n) (n−1) Unter Verwendung von k k = n k−1 E(X) ( ) ) n n ( ∑ ∑ n k n−k n − 1 k−1 n−k k p q = np p q = k k−1 k=1 k=1 n−1 ∑ (n − 1) = np pi q n−1−i i i=0 und aufgrund des binomischen Lehrsatzes n−1 ∑( i=0 ) n − 1 i n−1−i pq = (p + q)n−1 = 1 i Alternativer Beweis: Differenziere (p + q)n nach p 26 Varianz der Binomialverteilung X ∼ B(n, p) ⇒ Wiederum unter Verwendung von E(X 2 ) = = Var (X) = npq k (n) k =n (n−1) k−1 ( ) ( ) n ∑ n n − 1 k2 pk q n−k = np k pk−1 q n−k k k−1 k=1 k=1 ( ) n−1 ∑ n − 1 i n−1−i np (i + 1) pq = np {(n − 1)p + 1} i i=0 n ∑ und daher Var (X) = E(X 2 ) − µ2 = np {(n − 1)p + 1} − (np)2 = np(1 − p) Alternativer Beweis: Differenziere (p + q)n zwei mal nach p 27 2.4 Die Poissonverteilung Definition: X = N0 = {0, 1, 2, · · · } P(X = k) = Notation: λk −λ k! e , λ>0 X ∼ P(λ) Poisson-verteilte Zufallsvariable kann im Prinzip beliebig große Werte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit Beispiel: λ=2 20 −2 21 −2 P(X ≤ 1) = e + e = (1 + 2)e−2 = 0.4060 0! 1! 4 8 16 −2 P(X > 4) = 1 − P(X ≤ 4) = 1 − (1 + 2 + + + )e 2 6 24 = 1 − 0.9473 = 0.0527 28 Beispiele Poissonverteilung λ=1 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 λ=3 0 1 2 3 4 5 6 7 8 9 10 11 λ = 1.5 0 12 0 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 4 5 6 7 8 9 10 11 0 12 29 1 2 3 4 5 6 7 8 9 10 11 12 λ=5 0 1 2 3 4 5 6 7 8 9 10 11 12 Anwendung Modellierung von seltenen Ereignissen Beispiele • Zahl der Kunden innerhalb eines bestimmten Zeitraums • Radioaktiver Zerfall • Zahl von Tippfehlern pro Folie • Zahl von Menschen älter als 100 Jahre (pro 1 000 000) • Zahl von Fehlalarmen an einem Tag • etc. Zusammenhang zwischen Poisson-verteilten Ereignissen und der Wartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung 30 Erwartungswert und Varianz X ∼ P(λ) ⇒ E(X) = λ Beweis: ∞ ∞ ∞ k ∑ ∑ ∑ λk −λ λ λj −λ −λ k e =e E(X) = = λe k! (k − 1)! j! j=0 k=0 k=1 X ∼ P(λ) ⇒ Var (X) = λ Beweis: E(X 2 ) = ∞ ∑ k=0 ∞ ∞ k k ∑ ∑ kλ (j + 1)λj λ 2 −λ −λ −λ k e =e = λe = λ(λ+1) k! (k − 1)! j! j=0 k=1 E(X 2 ) − E(X)2 = λ(λ + 1) − λ2 = λ 31 Approximation der Binomialverteilung X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05) ⇒ X ∼ P(np) approximativ, d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np Motivation: Setze λ := np P(X = k) = n! pk q n−k k! (n − k)! = n(n − 1) · · · (n − k + 1) λk (1 − λ/n)n · k · k! n (1 − λ/n)k Für n groß und moderates λ (d.h. p klein) gilt n(n − 1) · · · (n − k + 1) ≈1 nk und daher P(X = k) ≈ λk k! (1−λ/n)k ≈ 1 e−λ 32 (1−λ/n)n ≈ e−λ Beispiel Poissonapproximation Vergleich Poissonapproximation (λ = 0.5) mit exakter Verteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05) Binomial: 1 P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959 0.95 0.9 + 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957 0.85 0.8 = 0.99897150206211 0.75 0.7 Poissonapproximation: 0.65 0.6 0.55 0 1 2 3 4 Blau: X ∼ B(10, 0.05) Grün: X̃ ∼ P(0.5) 5 6 P(X̃ ≤ 3) = ( ) 2 3 0.5 0.5 ≈ 1 + 0.5 + + e−0.5 2 6 = 0.99824837744371 33 2.5 Andere diskrete Verteilungen Wir werden behandeln: • Geometrisch • Hypergeometrisch Weitere Verteilungen (hier nicht behandelt): • Negativ binomial • Verallgemeinerte Poisson • Zetaverteilung • etc. 34 Geometrische Verteilung Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p X . . . Anzahl der Versuche bis zum ersten Erfolg Es gilt: P(X = k) = q k−1 p k − 1 Miserfolge mit Wahrscheinlichkeit q = 1 − p Übung: Urne mit N weißen und M schwarzen Bällen Ziehen mit zurücklegen a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, bis eine schwarze Kugel gezogen wird b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht, bis eine schwarze Kugel gezogen wird 35 Erwartungswert und Varianz ∞ ∑ Beachte: k q = k=0 1 1−q und daher kq k−1 = k=1 E(X) = q k−1 p = k=1 ∞ ∑ Differenzieren liefert: ∞ ∑ ∞ ∑ kq k−1 k=1 Nochmals Differenzieren: ∞ ∑ d dq ∞ ∑ qk = k=0 E(X 2 ) = k=1 Und daher: k 2 q k−1 p = pq ∞ ∑ p p = =1 1 (1−q)2 p 1 p= = (1 − q)2 p k(k − 1)q k−2 = k=1 ∞ ∑ p 1−q k(k − 1)q k−2 + p k=1 d2 dq 2 ∞ ∑ ∞ ∑ qk = k=0 kq k−1 = k=1 Var (X) = E(X 2 ) − E(X)2 = 36 2 p2 − 1 p − 1 p2 = 2 (1−q)3 2pq 1 + 3 p p 1−p p2 Hypergeometrische Verteilung Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß, Ziehe 4 Kugeln mit bzw. ohne Zurücklegen. Berechne jeweils Verteilung der gezogenen schwarzen Kugeln! 0.45 0.45 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 0 4 Mit Zurücklegen 0 1 2 3 Ohne Zurücklegen 37 4 Hypergeometrische Verteilung N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n Objekte ohne zurücklegen, X die Anzahl der gezogenen Objekte mit Eigenschaft E. −M (Mk )(Nn−k ) P(X = k) = (Nn ) (a) Wir verwenden hier die Definition b = 0, falls a < b Klarerweise gilt P(X = k) = 0 falls M < k Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden Ebenfalls klar dass P(X = k) = 0 falls N − M < n − k Ich kann nicht mehr weiße Kugeln ziehen als vorhanden Insgesamt: X = {k : max(0, n − N + M ) ≤ k ≤ min(n, M )} 38 Erwartungswert und Varianz Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich) E(X) = nM N , Var (X) = nM N (1 − M N −n N ) N −1 , Definiere p := M N und betrachte Ähnlichkeit zur Binomialverteilung E(X) = np gleiche Formel wie bei Binomial −n Var (X) = np(1 − p) N N −1 Nämlich limN →∞ N −n N −1 asymptotisch wie bei Binomial =1 Wenn N und M sehr groß im Vergleich zu n, dann gilt (ohne Beweis) näherungsweise X ∼ B(n, M N) 39 Beispiel Hypergeometrische Verteilung Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern, 10 Kartons enthalten zumindest ein zerbrochenes Ei, Stichprobe der Größe 6 • Mit welcher Wahrscheinlichkeit enthalten zwei der sechs entnommenen Kartons kaputte Eier? N = 30, M = 10, n = 6 (10)(20) (30)4 P(X = 2) = 2 = 0.3672 6 • Erwartungswert und Varianz für die Anzahl der Kartons in der Stichprobe mit kaputten Eiern? E(X) = 6 · 10 30 = 2; Var (X) = 6 · 40 1 3 · 2 3 · 24 29 = 1.1034 Übung Approximation durch Binomialverteilung Lotterie mit 1000 Losen, davon 200 Gewinnlose Kaufe 5 Lose 1. Berechne die Wahrscheinlichkeit, dass mindestens ein Los gewinnt Lösung: 0.6731 2. Berechne die Gewinnwahrscheinlichkeit von 1. mittels Binomial-Approximation Lösung: 0.6723 41 Zusammenfassung diskrete Verteilungen • Gleichverteilung: X = {x1 , . . . , xn } , (n) k n−k P(X = k) = k p q • Binomialverteilung: X ∼ B(n, p), Es gilt E(X) = np, • Hypergeometrische: Es gilt E(X) = np, P(X = k) = Var (X) = λ • Geometrische Verteilung: Es gilt E(X) = p−1 , X = {0, . . . , n} Var (X) = npq • Poissonverteilung: X ∼ P(λ), Es gilt E(X) = λ, P(X = xk ) = 1/n λk k! e−λ X = {0, 1, 2 . . . } P(X = k) = p q k−1 Var (X) = q p−2 X = {1, 2 . . . } (M )(N −M ) (N ) P(X = k) = k n−k / n −n Var (X) = np(1 − p) N N −1 , 42 p= M N Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/13 3 Stetige Verteilungen 1. Einführung 2. Exponentialverteilung 3. Normalverteilung 4. Normalverteilungsapproximation 5. Andere stetige Verteilungen 1 3.1 Einführung Diskrete Zufallsvariable: Ω endlich oder abzählbar Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder ein kartesisches Produkt von Intervallen im Raum Rn ) Beispiele: • Wartezeit auf den nächsten Kunden • Größe bzw. Alter einer Person • Umsatz einer Firma • Gewicht eines Gegenstandes Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelle Zahl beschreiben 2 Verteilungsfunktion Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktion zugeordnet: F (x) = P(X ≤ x) stetig in x Beispiel: Gleichverteilung auf Intervall [0, 1] 2 1.5 F(x) 1 0.5 0 −0.5 −1 −1 −0.5 0 0.5 x 3 1 1.5 2 Berechnung von Wahrscheinlichkeiten Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0: P(X = x) = F (x) − F (x− ) = 0 wegen Stetigkeit von F Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der X einen Wert in einem Intervall [a, b] annimmt: P(a ≤ X ≤ b) = F (b) − F (a) So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls 0 ≤ a < b ≤ 1: P(a < XId < b) = b − a Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b) 4 Dichtefunktion Sei F (x) differenzierbar. Definition: f (x) := F ′ (x) Dichtefunktion der Zufallsvariable X Hauptsatz der Analysis: F (x) = ∫ f (x)dx + c und daher ∫b P(a < X ≤ b) = F (b) − F (a) = f (x)dx x=a Zum Vergleich: Bei diskreten Zufallsvariablen ist ∑ P (x) P(a < X ≤ b) = F (b) − F (a) = a<x≤b 5 Eigenschaften der Dichtefunktion Für die Dichtefunktion (kurz Dichte) gilt • f (x) ≥ 0, • • ∀x ∈ R lim f (x) = 0, lim f (x) = 0 x→−∞ ∫∞ x→∞ f (x)dx = 1 x=−∞ Die Dichtefunktion f (x) ist nicht die Wahrscheinlichkeit dafür, dass X den Wert x annimmt! Für kleines ϵ gilt P(x − ϵ < X ≤ x + ϵ) ≈ f (x) · 2ϵ 6 Beispiele 1) X gleichverteilt auf dem Intervall [0, 1] F (x) = x, x ∈ [0, 1] ⇒ f (x) = 1, x ∈ [0, 1] 2) X gleichverteilt auf dem Intervall [l, r], f (x) = c, x ∈ [l, r] Welchen Wert hat c? cx2 , x ∈ [0, 1] 3) X mit Dichte f (x) = 0 sonst Welchen Wert hat c? Berechne P(0.25 < X < 0.75) 7 l < r, l, r ∈ R Erwartungswert und Varianz von stetigen ZV Analog zur Definition bei diskreten ZV: ∫∞ E(X) = xf (x)dx x=−∞ und Var (X) = ∫∞ (x − µ)2 f (x)dx x=−∞ Es gilt wiederum: E(aX + b) = aE(X) + b Var (aX + b) = a2 Var (X) Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert und Varianz! 8 Erwartungswert von Funktionen von ZV Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis): ∫∞ E(g(X)) = g(x)f (x)dx x=−∞ Daher folgt: Und auch: Var (X) = E(X − E(X))2 Var (X) = E(X 2 ) − E(X)2 ∫∞ ∫∞ (x − µ)2 f (x)dx = x=−∞ (x2 − 2µx + µ2 )f (x)dx x=−∞ ∫∞ ∫∞ x2 f (x)dx − 2µ = x=−∞ x=−∞ 9 xf (x)dx + µ2 Funktionen von stetigen Zufallsvariablen Sei g eine reellwertige Funktion g : X → R und g(X ) = Y. Falls g streng monoton wachsend, existiert Umkehrabbildung g −1 : Y → X Verteilungsfunktion von Y = g(X) berechnet man wie folgt: FY (y) = P(g(X) ≤ y) = P(X ≤ g −1 (y)) = F (g −1 (y)) Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX g −1 (y) = ln(y) Y = g(X ) = [e0 , e1 ] = [1, e] FY (y) = P(Y ≤ y) = FX (ln(y)) = ln(y), 10 y ∈ [1, e] Funktionen von stetigen Zufallsvariablen Interpretation: Koordinatenwechsel Die Werte der Zufallsvariable werden transformiert 2 2 1.5 1.5 1 1 FY(y) F(x) Bei streng monotoner Transformation bleiben die Wahrscheinlichkeiten der transformierten Intervalle gleich (vgl. diskrete Zufallsvariable) 0.5 0.5 0 0 −0.5 −0.5 −1 −1 −0.5 0 0.5 1 1.5 −1 0.5 2 x 1 1.5 2 y = g(x) 11 2.5 3 Funktionen von stetigen Zufallsvariablen Falls g streng monoton fallend ⇒ g −1 existiert P(g(X) ≤ y) = P(X ≥ g −1 (y)) = 1−P(X < g −1 (y)) = 1−F (g −1 (y)) Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraum von g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 12 )2 √ g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1] g −1 (y) = 12 ± y P((X − µ)2 ≤ y) √ √ y ≤ X ≤ 1/2 + y) √ √ = FX (1/2 + y) − FX (1/2 − y) = P(1/2 − 12 Dichte von transformierten Zufallsvariablen g streng monoton und differenzierbar Wie lautet Dichte von Y = g(X)? fY (y) = d dy FY (y) = d −1 (y)) dy F (g = fX (g −1 (y)) · d −1 (y) dy g (Differenzieren der transformierten Verteilungsfunktion unter Beachtung der Kettenregel!) Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX FY (y) = ln(y), y ∈ [1, e] Oder mit Formel: ⇒ fY (y) = y1 , y ∈ [1, e] fX (g −1 (y)) = 1 denn fX (x) ≡ 1 d −1 1 g (y) = dy y 13 3.2 Exponentialverteilung Stetige Zufallsvariable X ist exponentialverteilt mit Parameter λ > 0 falls Dichte λe−λx , x ≥ 0 f (x) = 0, x < 0 Zugehörige Verteilungsfunktion 1 − e−λx , F (x) = 0, Beweis: Einfache Integration 14 x≥0 x<0 Plots Exponentialverteilung Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3 3 1 0.9 2.5 0.8 λ=1 λ=2 λ=3 2 0.7 F(x) f(x) 0.6 1.5 0.5 0.4 1 0.3 λ=1 λ=2 λ=3 0.2 0.5 0.1 0 0 0.5 1 1.5 2 2.5 0 3 x 0 0.5 1 1.5 2 2.5 x Je größer λ desto schneller fällt die Dichtefunktion. Wir vermuten daher: Je größer λ desto kleiner µ und auch σ. 15 3 Erwartungswert X exponentialverteilt mit Parameter λ ∫ ′ ∫ ′ Partielle Integration u v = uv| − uv anwenden. ∫∞ E(X) −λx xλe = −λx ∞ −xe 0 dx = x=0 = 2 2 E(X ) = −λx x λe dx = 2 −λx ∞ −x e 0 x=0 = 0+ und daher + ∫∞ + x=0 2 2 E(X) = 2 λ λ Var (X) = 2 λ2 − 1 λ2 16 = e−λx dx x=0 −λx ∞ e 1 0− = λ 0 λ ∫∞ ∫∞ 1 λ2 2xe−λx dx Übung Angenommen die Länge eines Telephongespräches in Minuten ist exponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zu einer Telephonzelle wo unmittelbar zuvor jemand ein Gespräch begonnen hat. Wie groß ist die Wahrscheinlichkeit dass du 1. weniger als 10 Minuten 2. genau 10 Minuten 3. zwischen 10 und 20 Minuten 4. länger als 20 Minuten warten mußt bis die Telephonzelle frei wird? 17 Zusammenhang mit Poissonverteilung Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.): • Die Zeit T zwischen dem Eintreffen zweier aufeinanderfolgender Ereignisse ist (unabhängig) exponentialverteilt mit Parameter λ. • Für jedes Zeitintervall [t1 , t2 ] ist die Häufigkeit der während [t1 , t2 ] auftretenden Ereignisse poissonverteilt mit Parameter λ(t2 − t1 ). t1 u x1 T u x2 t2 Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ), λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1. 18 Übung X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraum ausfällt (Maschinen laufen 24h durchgehend) Im Mittel fallen 3 Maschinen pro Tag aus Annahme X poissonverteilt a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht? b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keine Maschine aus? c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stunden zwei Maschinen aus? 19 Gedächtnislosigkeit Die Verteilung von X ist gedächtnislos, wenn P(X > s + t|X > t) = P(X > s) D.h. Vorgeschichte bietet keinerlei Information Exponentialverteilung ist gedächtnislos: Definition ist äquivalent zu P(X > s + t) = P(X > s)P(X > t) und es gilt e−λ(s+t) = e−λs e−λt Exponentialverteilung ist einzige gedächtnislose stetige Verteilung! Übung: Im diskreten Fall geometrische Verteilung gedächtnislos (Diskretes Analogon zur Exponentialverteilung) 20 3.3 Normalverteilung X ∼ N (µ, σ ) 2 −(x−µ)2 /2σ 2 √ 1 e 2π σ falls f (x) = Standardnormalverteilung N (0, 1): 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 1 2 Gaußsche Glockenkurve 21 3 Normalverteilung Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung und Statistik aufgrund des zentralen Grenzwertsatzes! f ist tatsächlich Wahrscheinlichkeitsdichte: 1 √ 2π σ ∫∞ e x=−∞ −(x−µ)2 /2σ 2 1 dx = √ 2π Zunächst Variablensubstitution z ← ∫∞ e −z 2 /2 dz = 1 z=−∞ x−µ σ dann verschiedene Möglichkeiten zur Berechnung des uneigentlichen Integrals ∫x Verteilungsfunktion F (x) = f (y)dy lässt sich nicht in y=−∞ geschlossener Form darstellen (keine einfache Formel) ⇒ Tabellen für die Normalverteilung 22 Standardnormalverteilung X ∼ N (0, 1), Φ(x) := P(X ≤ x) übliche Notation: 2 1 φ(x) := Φ′ (x) = √ e−x /2 2π Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet) Grund: φ ist symmetrisch und somit φ(−x) = φ(x) ⇒ Φ(−x) = 1 − Φ(x) Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt P(−1 ≤ X ≤ 2) = P(X ≤ 2) − P(X < −1) = Φ(2) − {1 − Φ(1)} = 0.9772 − 1 + 0.8413 = 0.8186 Werte von Φ(2) und Φ(1) aus Tabelle 23 Verteilungsfunktion der SNV Einige wesentliche Werte von Φ(x): Φ(0) = 0.5; Φ(1.645) = 0.95; Φ(1.96) = 0.975 Der Graph von Φ(x): 1 0.8 0.6 0.4 0.2 0 −3 −2 −1 0 24 1 2 3 Erwartungswert Sei X ∼ N (µ, σ 2 ) Substitution z ← x−µ σ E(X) = = da g(z) := z e−z und √1 2π ∫∞ 2 /2 e−z 2 liefert 1 √ 2π σ 1 √ 2π ∫∞ −(x−µ)2 /2σ 2 xe x=−∞ ∫∞ (σz + µ)e −z 2 /2 dx dz = µ z=−∞ antisymmetrisch (d.h. g(−z) = −g(z)) /2 dz = 1 x=−∞ 25 Varianz Wiederum Substitution z ← Integration liefert Var (X) = = 1 √ 2π σ σ2 √ 2π x−µ σ und anschließend partielle ∫∞ 2 −(x−µ)2 /2σ 2 (x − µ) e x=−∞ ∫∞ 2 −z 2 /2 z e dz z=−∞ = dx ∞ 2 σ2 √ + −ze−z /2 −∞ 2π Somit gezeigt: X ∼ N (µ, σ 2 ) ⇒ 26 ∫∞ z=−∞ e−z 2 /2 dz = σ2 E(X) = µ, Var (X) = σ 2 Lineare Transformation Wesentliche Eigenschaft: X ∼ N (µ, σ 2 ) ⇒ Y := aX + b ∼ N (aµ + b, a2 σ 2 ) Beweis: Nehmen a > 0 an. (Fall a < 0 analog.) Transformationssatz für Dichten: fY (y) = fX (g −1 (y)) · Hier: g(x) = ax + b ⇒ d −1 g (y) dy g −1 (y) = (y − b)/a, d −1 (y) dy g Und somit fY (y) fX ((y − a)/b) · 1/a 1 −(y−aµ−b)2 /2a2 σ 2 = √ e 2πσa = Dies ist die Dichte einer N (aµ + b, a2 σ 2 ) 27 = 1/a Normalisierung Daraus folgt unmittelbar X ∼ N (µ, σ 2 ) ⇒ Z := X−µ σ ∼ N (0, 1) Normalverteilung für verschiedene µ und σ 0.45 µ = −2 µ=0 µ=2 0.4 0.8 0.7 0.35 σ = 1/2 0.6 0.3 0.5 0.25 0.4 σ=1 0.2 0.3 0.15 0.2 σ=2 0.1 0.1 0.05 0 −5 0 −3 −4 −3 −2 −1 0 1 2 3 4 −2 −1 0 1 2 5 σ 2 . . . Varianz µ . . . Mittelwert 28 3 Beispiel Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten: 1. P(2 < X < 5) 2. P(X > 0) 3. P(|X − 3| > 6) Lösungen 1) 2) 3) ( ) ( ) ( ) X −3 5−3 2−3 2 1 < < P =Φ −Φ − 3 3 3 3 3 ≈ 0.7486 − (1 − 0.6293) = 0.3779 ( ) 0−3 X −3 P < = Φ(1) ≈ 0.8413 3 3 ( ) X −3 6−3 < 2·P = 2 · (1 − Φ(2)) ≈ 0.0456 3 3 29 Quantile der Normalverteilung Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eine Wahrscheinlichkeit γ - Quantil xγ jene Zahl für die F (xγ ) = γ xγ = F −1 (γ), wobei F −1 Umkehrabbildung der Verteilungsfunktion Normalverteilung: explizite Berechnung nicht möglich ⇒ Tabellen oder mittels Computer 0.45 0.4 0.35 0.3 0.25 0.2 γ 0.15 0.1 Standard-NV: xγ = Φ−1 (γ) 0.05 0 −3 −2 30 −1 0 1 xγ 2 3 Symmetrische Intervalle X ∼ N (µ, σ 2 ) ⇒ P(|X − µ| ≤ x) = 2 · Φ( σx ) − 1 Beweis: P(−x + µ ≤ X ≤ x + µ) = 2 · P(X ≤ x + µ) − 1 Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt: ( ) −1 1+γ P(|X − µ| ≤ zγ ) = γ für zγ = σ Φ 2 Übung: Sei X normalverteilt mit σ 2 = 4 Bestimme x derart, dass P(X − µ ≤ x) = 0.95 bzw. P(|X − µ| ≤ x) = 0.95 31 3.4 Normalverteilungsapproximation Betrachte für großes n die Wahrscheinlichkeitsfunktion einer Binomialverteilung und vergleiche mit der Dichtefunktion der Normalverteilung 0.09 0.45 0.08 0.4 0.07 0.35 0.06 0.3 0.05 0.25 0.04 0.2 0.03 0.15 0.02 0.1 0.01 0.05 0 30 35 40 45 50 55 60 65 0 70 X ∼ B(100, 0.5) −3 −2 −1 0 1 X ∼ N (0, 1) 32 2 3 Grenzwertsatz nach DeMoivre - Laplace Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit p. Dann gilt für a < b: ) ( −np P a ≤ S√nnpq ≤ b → Φ(b) − Φ(a) für n→∞ d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiert gegen Standardnormalverteilung Beweis: Spezialfall des zentralen Grenzwertsatzes. Zentraler Grenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. Ist Sn binomialverteilt, so ist es Summe unabhängiger "Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p). Anwendbarkeit: npq ≥ 9. 33 Stetigkeitskorrektur B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig ⇒ Stetigkeitskorrektur: P (a ≤ Sn ≤ b) ≈ Φ ( b+0.5−np √ npq ) −Φ ( a−0.5−np √ npq ) 1 0.9 0.8 0.7 blau: B(40, 0.5) grün: N (20, 10) 0.6 0.5 0.4 0.3 0.2 0.1 0 15 16 34 17 18 19 20 21 22 23 24 25 Übung Angenommen 30% der Bevölkerung kennen ein Produkt. Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeit dass 1. genau 55 Personen das Produkt kennen 2. mehr als 55 Personen das Produkt kennen 3. 55 bis 64 Personen das Produkt kennen Löse mit Normalverteilungsapproximation Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen – worin liegt das Problem? 35 Normalverteilungsapproximation für hypergeometrische Verteilung Analog zur Binomialverteilung gilt auch für eine hypergeometrisch verteilte Zufallsvariable mit Parametern N, M und n: ( ) ( a−0.5−µ ) b+0.5−µ P (a ≤ Sn ≤ b) ≈ Φ −Φ σ σ M 2 wobei hier µ = n M und σ = n N N (1 − Anwendbarkeit: σ2 ≥ 9 M N −n N ) N −1 N ≥ 2n und Übung: Lieferung von 2500 Milchpackungen, 12 % verdorben Zufällige Stichprobe von 100 Packungen, p sei Anteil der entdeckten verdorbenen Packungen Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15% 36 3.5 Andere stetige Verteilungen Große Vielfalt an stetigen Verteilungen Besprechen hier nur zwei wichtige Familien: • Gamma - Verteilung Verallgemeinerung der Exponentialverteilung • Beta - Verteilung Verteilungen mit Träger auf Intervall [0, 1] Sowohl Beta- als auch Gamma - Verteilung hängt von zwei Parametern ab Für unterschiedliche Parameter ganz unterschiedliche Form ⇒ Modellierung von verschiedenen Sachverhalten 37 Gamma - Verteilung Exponentialverteilung ist ein Spezialfall der Gammaverteilung X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte −λx λe (λx)t−1 , x ≥ 0 Γ(t) f (x) = 0, x < 0 wobei Γ(t) = ∫∞ e−x xt−1 dx x=0 Diese Definition garantiert, dass f tatsächlich Dichtefunktion t=1 ⇒ Exponentialverteilung t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisse aufgetreten sind 38 Eigenschaften von Γ - Funktion und Γ - Verteilung Γ - Funktion: Γ(t) = ∫∞ e−x xt−1 dx x=0 Partielle Integration liefert: Γ(t) = (t − 1)Γ(t − 1) Spezialfall der Rekursionsformel für t = n ∈ N: Γ(n) = (n − 1)Γ(n − 1) = · · · = (n − 1)(n − 2) · · · Γ(1) = (n − 1)! da ja Γ(1) = 1 Notation: X ∼ Γ(t, λ) . . . Γ-Verteilung mit Parametern t und λ, Mit Hilfe der Rekursionsformel zeigt man leicht E(X) = λt , Var (X) = 39 t λ2 Beispiele für Gamma - Verteilung • Γ(1, λ) . . . Exponentialverteilung Γ(n, λ) . . . Wartezeiten auf n Ereignisse • Γ( n2 , 12 ) . . . χ2 -Verteilung mit n Freiheitsgraden 0.8 0.8 t=1 t=2 t=3 t=4 t=6 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 0 1 2 3 4 t=1/2 t=1 t=3/2 t=2 t=3 0.7 5 0 1 2 3 4 2t ∈ N, λ = 1/2 t ∈ N, λ = 1 40 5 Beispiele für Gamma - Verteilung 2 Γ(t, 1) . . . Standard Γ-Verteilung Es gilt: X ∼ Γ(t, λ) ⇒ λX ∼ Γ(t, 1) Abhängigkeit von λ Abhängigkeit von t 4 4 t=1 t=2 t=3 t=4 t=6 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 0 0.5 1 λ=1 λ=2 λ=3 λ=4 λ=6 3.5 1.5 0 0.5 1 t = 4/3, λ ∈ N t ∈ N, λ = 5 41 1.5 Beta - Verteilung Famile von Verteilungen mit beschränktem Träger X ist B-verteilt mit Parametern a, b > 0 falls Dichte a−1 x (1−x)b−1 , 0 < x < 1 B(a,b) f (x) = 0, sonst wobei B(a, b) = ∫1 xa−1 (1 − x)b−1 dx x=0 Diese Definition garantiert wiederum, dass f tatsächlich Dichtefunktion Zur Modellierung von Zufallsereignis Y im Bereich [l, r] ⇒ Variablentransformation 0 ← l und 1 ← r 42 d.h. X = Y −l r−l Mittelwert und Varianz Es gilt für die B-Funktion Γ(a)Γ(b) B(a, b) = Γ(a + b) (ohne Beweis) Unter Verwendung der Eigenschaften der Γ-Funktion oder mittels partieller Intergration zeigt man leicht, B(a + 1, b) = a B(a, b) a+b und für X Beta-verteilt mit Parametern a und b gilt: E(X) = a a+b , Var (X) = 43 ab (a+b)2 (a+b+1) Beispiele von Beta - Verteilungen ⇒ Falls a = b symmetrische Verteilung • a = b = 1, . . . Gleichverteilung • a = b > 1, . . . Unimodal • a = b < 1, . . . U - förmig 4 4 a=b=1 a=b=2 a=b=3 a=b=4 a=b=6 3.5 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 a=b=1 a=b=1/2 a=b=1/3 a=b=1/4 a=b=1/6 0 1 a = b ≥ 1, 0 0.1 0.2 0.3 0.4 0.5 0.6 a = b ≤ 1, 44 0.7 0.8 0.9 1 Weitere Beispiele von Beta - Verteilungen b = 1.5 4 4 a=1 a=2 a=3 a=4 a=6 3.5 a≥1 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 1 4 a ≤ 1, 0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 b=1 b=1/2 b=1/3 b=1/4 b=1/6 3.5 3 0 0.1 4 b=1 b=2 b=3 b=4 b=6 3.5 b≥1 a=1 a=1/2 a=1/3 a=1/4 a=1/6 0 1 b≤1 0 a=2 45 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/13 4 Mehrdimensionale Verteilungen 1. Einführung 2. Unabhängige Zufallsvariablen 3. Kovarianz, Korrelation 4. Bedingte Verteilung 5. Bivariate Normalverteilung 1 4.1 Einführung Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen zwei Zufallsvariablen . . . bivariat zwei oder mehr ZV . . . multivariat Konzepte: • Gemeinsame Verteilungsfunktion • rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion • rein stetig: Gemeinsame Dichte 2 Gemeinsame Verteilungsfunktion Zunächst bivariat, Zufallsvariablen X und Y Definiere die gemeinsame Verteilungsfunktion als F (x, y) := P(X ≤ x, Y ≤ y), −∞ < x, y < ∞ Bivariate Verteilung dadurch vollständig charakterisiert P(x1<X≤x2 , y1<Y ≤y2 ) = F (x2 , y2 )−F (x1 , y2 )−F (x2 , y1 )+F (x1 , y1 ) für x1 < x2 und y1 < y2 Randverteilung: Idee: Analog FX (x) := P(X ≤ x) = F (x, ∞) P(X ≤ x) = P(X ≤ x, Y < ∞) = lim F (x, y) y→∞ FY (y) := P(Y ≤ y) = F (∞, y) 3 Bivariate stetige Zufallsvariable X und Y heißen gemeinsam stetig falls gemeinsame Dichtefunktion existiert: ∂2 f (x, y) = F (x, y) ∂x ∂y Gemeinsame Verteilungsfunktion ergibt sich mittels Integration ∫b ∫a F (a, b) = f (x, y) dxdy y=−∞ x=−∞ Erhalte Dichte der Randverteilung durch Integrieren über Y: ∫∞ fX (x) = f (x, y) dy y=−∞ Werden später speziell bivariate Normalverteilung besprechen 4 Beispiel: Bivariate Gleichverteilung X und Y bivariat gleichverteilt auf [0, 1] × [0, 1] ⇒ Dichte 0 ≤ x, y ≤ 1. f (x, y) = 1, Gemeinsame Verteilungsfunktion ∫b ∫a F (a, b) = f (x, y) dxdy = a b, 0 ≤ a, b ≤ 1. y=0 x=0 Dichte der Randverteilung: ∫∞ fX (x) = f (x, y) dy = 1, y=−∞ gibt Dichte der univariaten Gleichverteilung 5 0≤x≤1 Übung: Bivariate Gleichverteilung X und Y bivariat gleichverteilt auf [−1, 1] × [−1, 1] • Berechne die Wahrscheinlichkeit, dass max{|X|, |Y |} < 1/2. • Berechne die Wahrscheinlichkeit, dass X 2 + Y 2 < 1. Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formale Integration nicht wirklich notwendig. Berechnung von Wahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich von Flächen. 6 Bivariate diskrete Zufallsvariable X und Y beide diskret Definiere die gemeinsame Wahrscheinlichkeitsfunktion p(x, y) = P(X = x, Y = y) Es gilt natürlich p(x, y) = F (x, y) − F (x− , y) − F (x, y − ) + F (x− , y − ) Erhalte Wahrscheinlichkeitsfunktion von X durch Summieren über Y: ∑ pX (x) = P(X = x) = p(x, y) y∈Y 7 Beispiel Urne mit 3 roten, 4 weißen und 5 blauen Bällen; ziehe zufällig 3 Bälle ohne Zurücklegen X . . . Anzahl der roten gezogenen Kugeln Y . . . Anzahl der weißen gezogenen Kugeln z. Bsp.: (3)(4)(5) (12) p(0, 1) = P(0R, 1W, 2B) = 0 1 2 / 3 = 40/220 j i 0 1 2 3 pX 0 10/220 40/220 30/220 4/220 84/220 1 30/220 60/220 18/220 0 108/220 2 15/220 12/220 0 0 27/220 3 1/220 0 0 0 1/220 pY 56/220 112/220 48/220 4/220 220/220 8 Multivariate Zufallsvariablen Mehr als zwei Zuvallsvariablen Gemeinsame Verteilungsfunktion für n Zufallsvariablen F (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn ) Diskret: Gemeinsame Wahrscheinlichkeitsfunktion: p(x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn ) Randverteilung wiederum durch Summieren über alle Komponenten, die gerade nicht von Interesse, z. Bsp. ∑ ∑ pX1 (x1 ) = ··· p(x1 , . . . , xn ) x2 ∈X2 xn ∈Xn 9 Multinomialverteilung Eine der wichtigsten multivariaten diskreten Verteilungen n unabhängige Experimente mit r möglichen Ausgängen mit Wahrscheinlichkeiten p1 , . . . , pr Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt P(X1 = n1 , . . . , Xr = nr ) = falls ∑r i=1 n! n1 !···nr ! pn1 1 · · · pnr r ni = n. Verallgemeinerung der Binomialverteilung (r = 2) Übung: Werfe 5 Würfel, Wahrscheinlichkeit für Strasse, Poker, bzw. Full House 10 4.2 Unabhängige Zufallsvariablen Zwei Zufallsvariablen X und Y heißen unabhängig falls für alle Ereignisse A und B gilt P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B) Information über den Wert von X ändert nicht die Verteilung von Y X und Y genau dann unabhängig falls P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b) d.h. F (a, b) = FX (a) FY (b) für alle a, b. Ebenfalls äquivalent zu f (x, y) = fX (x) fY (y) im stetigen Fall und zu p(x, y) = pX (x) pY (y) im diskreten Fall für alle x, y 11 Einfaches Beispiel Seien X und Y unabhängig X = {0, 1}, P (X = 0) = 1/3, P (X = 1) = 2/3 Y = {−1, 0, 1}, P (Y = −1) = P (Y = 1) = 1/4, P (Y = 0) = 1/2 Die gemeinsame Wahrscheinlichkeitsfunktion lautet: j i −1 0 1 pX 0 1/12 1/6 1/12 1/3 1 2/12 2/6 2/12 2/3 pY 1/4 1/2 1/4 1 Beachte, dass sowohl die Spalten als auch die Zeilen jeweils proportional zueinander sind ⇒ Unabhängigkeit 12 Stetiges Beispiel: Gleichverteilung Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1]. d.h. fX (x) = 1 für 0 ≤ x ≤ 1, fY (y) = 1 für 0 ≤ y ≤ 1, Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1] × [0, 1] Umkehrung X und Y bivariat gleichverteilt auf [0, 1] × [0, 1] ⇒ Dichte 0 ≤ x, y ≤ 1. f (x, y) = 1, Berechne die Randdichten fX (x) und fY (y) Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1], und auch dass die beiden unabhängig sind Bemerkung: Unabhängigkeit gilt für Gleichverteilung auf Rechtecken, nicht jedoch für allgemeinere Bereiche. 13 Beispiel: Zwei Würfel X, Y . . . gleichverteilt auf {1, . . . , 6} Aufgrund der Unabhängigkeit gilt p(x, y) = pX (x) pY (y) = 1 36 Verteilungsfunktion: FX (x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7 F (x, y) = FX (x)FY (y) = ⌊x⌋·⌊y⌋ 36 Welche Verteilung hat X + Y ? P (X + Y = 2) = p(1, 1) = 1/36 P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36 P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36 P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · · + p(k − 1, 1) 14 Summe von unabhängigen Verteilungen Summe von Zufallsvariablen selbst wieder eine ZV Berechnung der Verteilung mittels Faltung Stetige Verteilungen: ∫∞ fX (x − y)fY (y)dy fX+Y (x) = y=−∞ Diskrete Verteilungen: ∑ P(X + Y = k) = pX (x)pY (y) x+y=k Übung: X1 ∼ P(λ1 ), X2 ∼ P(λ2 ) unabhängig ⇒ X1 + X2 ∼ P(λ1 + λ2 ) 15 Beispiel (Umkehrung) Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines Manuskripts Lektor findet p Prozent der Fehler X . . . Anzahl der gefundenen Fehler Y . . . Anzahl der nicht gefundenen Fehler Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ Lösung: P(X = i, Y = j) = P(X = i, Y = j|X + Y = i + j)P(X + Y = i + j) Per Definitionem: (i+j ) i j P(X = i, Y = j|X + Y = i + j) = i p q P(X + Y = i + j) = −λ λi+j e (i+j)! Liefert insgesamt: i −λ (λp) j −λp P(X = i, Y = j) = e (λq) = e i!j! 16 (λp)i i! j −λq (λq) e j! Beispiel für Faltung: stetiger Fall X, Y unabhängig, gleichverteilt auf [0, 1] i.e. f (x, y) = 1, (x, y) ∈ [0, 1] × [0, 1] fX (x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1 Berechnung der Dichte Z := X + Y ∫∞ fX (x − y)fY (y)dy fZ (x) = y=−∞ = ∫x dy = x, y=0 ∫1 dy = 2 − x, 0<x≤1 1<x≤2 y=x−1 Grund: fY (y) = 1 für 0 ≤ y ≤ 1 fX (x − y) = 1 für 0 ≤ x − y ≤ 1 ⇔ 17 y ≤x≤y+1 Additionstheorem für Γ-Verteilung X, Y unabhängig, Γ−verteilt mit Parametern t1 , t2 und gleichem λ fX (x) = λe−λx (λx)t1 −1 , fY Γ(t1 ) (y) = λe−λy (λy)t2 −1 , Γ(t2 ) x, y ≥ 0, ∫∞ fX (x − y)fY (y)dy fZ (x) = y=−∞ ∫x = λe−λ(x−y) (λ(x − y))t1 −1 λe−λy (λy)t2 −1 dy Γ(t1 ) Γ(t2 ) y=0 t1 +t2 −λx ∫x λ e = (x − y)t1 −1 y t2 −1 dy Γ(t1 )Γ(t2 ) y=0 y = xz λe−λx (λx)t1 +t2 −1 = = dy = xdz Γ(t1 + t2 ) 18 Erwartungswert für bivariate ZV, diskret X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion Wie im eindimensionalen gilt: E(g(X, Y )) = ∑ ∑ g(x, y)p(x, y) x∈X y∈Y Übung: Seien X und Y die Augenzahlen von zwei fairen Würfeln (unabhängig) Berechne den Erwartungswert der Differenz |X − Y | 19 Erwartungswert für bivariate ZV, stetig X und Y stetig mit gemeinsamer Dichte f (x, y) Wie im eindimensionalen gilt: E(g(X, Y )) = ∫∞ ∫∞ g(x, y)f (x, y) dx dy y=−∞ x=−∞ Übung (optional): Unfall auf einer Straße der Länge L, Unfallort X und Position Y eines Krankenwagens unabhängig gleichverteilt Berechne den Erwartungswert vom Abstand |X − Y | zwischen Unfallort und Krankenwagen 20 Erwartungswert der Summe zweier ZV X und Y stetig mit gemeinsamer Dichte f (X, Y ) Mit g(x, y) = x + y folgt ∫∞ E(X + Y ) = ∫∞ (x + y)f (x, y) dx dy = E(X) + E(Y ) y=−∞ x=−∞ Geht genau so für den diskreten Fall: E(X + Y ) = ∑ ∑ (x + y)p(x, y) dx dy = E(X) + E(Y ) x∈X y∈Y ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig! 21 4.3 Kovarianz und Korrelation Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen Definition Kovarianz: Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))] Man schreibt mitunter σXY := Cov (X, Y ) Es gilt ähnlich wie für die Varianz σXY = E(XY ) − E(X)E(Y ) Definition Korrelation: ρ(X, Y ) := 22 σXY σX σY Beispiel Korrelation 3 2 1.5 2 1 0.5 1 0 ρ = 0.9 ρ = −0.6 −0.5 0 −1 −1 −1.5 −2 −2 −2.5 −3 −4 −3 −2 −1 0 1 2 −3 −3 3 3 −2 −1 0 1 2 3 4 3 2 2 1 1 ρ = 0.3 ρ = 0.0 0 0 −1 −1 −2 −3 −3 −2 −2 −1 0 1 2 3 23 −3 −3 −2 −1 0 1 2 3 4 Beispiel Kovarianz Diskrete bivariate Verteilung (X = Y = {0, 1, 2, 3}) mit j i 0 1 2 3 pX 0 1/20 4/20 3/20 2/20 10/20 1 3/20 2/20 2/20 0 7/20 2 1/20 1/20 0 0 2/20 3 1/20 0 0 0 1/20 pY 6/20 7/20 5/20 2/20 20/20 Berechne Cov (X, Y ) Lösung: Cov (X, Y ) = E(XY ) − E(X)E(Y ) = 24 8 20 − 14 20 · 23 20 = − 162 400 Kovarianz für unabhängige ZV X und Y unabhängig ⇒ σXY = 0 folgt unmittelbar aus σXY = E(XY ) − E(X)E(Y ) ∫∫ ∫ ∫ und E(XY ) = xyf (x, y) = xf (x) yf (y) Umkehrung ist falsch: 0, X ̸= 0 X gleichverteilt auf {−1, 0, 1} und Y = 1, X = 0 E(X) = 0 XY = 0 ⇒ E(XY ) = 0 daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig: z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3 25 Eigenschaften der Kovarianz Offensichtlich gilt Cov (X, Y ) = Cov (Y, X), und Cov (X, X) = Var (X) Die Kovarianz ist eine Bilinearform: Cov (aX, Y ) = a Cov (X, Y ), und a∈R n m n ∑ m ∑ ∑ ∑ Cov Xi , Yj = Cov (Xi , Yj ) i=1 j=1 i=1 j=1 Beweis durch ausrechnen . . . 26 Varianz von Summen Aufgrund der zuvor gezeigten Eigenschaften gilt ( n ) n ∑ n ∑ ∑ Var Xi = Cov (Xi , Xj ) i=1 i=1 j=1 n ∑ = Var (Xi ) + n ∑ ∑ i=1 Extremfälle: • unabhängige ZV: i=1 j̸=i ( Var ) n ∑ Xi ( Var Var (Xi ) i=1 n ∑ i=1 27 n ∑ = i=1 • X1 = X2 = · · · = Xn : Cov (Xi , Xj ) ) Xi = n2 Var (X1 ) Korrelation Definition: ρ(X, Y ) := σXY σX σY Es gilt: −1 ≤ ρ(X, Y ) ≤ 1 Beweis: 0 ≤ ( Var Y X + σX σY ) = Var (X) Var (Y ) 2Cov (X, Y ) + + 2 2 σX σY σX σY = Var (X) Var (Y ) 2Cov (X, Y ) + − 2 2 σX σY σX σY = 2[1 + ρ(X, Y )] ( 0 ≤ Var X Y − σX σY ) = 2[1 − ρ(X, Y )] 28 Übung Korrelation Seien X und Y unabhängig gleichverteilt auf [0, 1] Berechne die Korrelation zwischen X und Z für 1. Z = X + Y 2. Z = X 2 + Y 2 3. Z = (X + Y )2 29 4.4 Bedingte Verteilungen Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B: P(AB) P(A|B) = P(B) Entsprechende Definitionen für Zufallsvariablen X und Y Diskret: pX|Y (x|y) := P(X = x|Y = y) = p(x,y) pY (y) Übung: Gegeben p(x, y) durch p(0, 0) = 0.4, p(0, 1) = 0.2, p(1, 0) = 0.1, p(1, 1) = 0.3, Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1 30 Diskrete bedingte Verteilungen Bedingte Verteilungsfunktion: FX|Y (x|y) := P(X ≤ x|Y = y) = ∑ pX|Y (k|y) k≤x Sind X und Y unabhängig so gilt pX|Y (x|y) = pX (x) Beweis: Nachrechnen Beispiel: Seien X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig. Berechne bedingte Verteilung von X, wenn X + Y = n P(X = k|X + Y = n) = X + Y ∼ P(λ1 + λ2 ) P(X=k)P(Y =n−k) , P(X+Y =n) ⇒ ( 1 X|(X + Y = n) ∼ B n, λ1λ+λ 2 31 ) Stetige bedingte Verteilungen Stetig: fX|Y (x|y) := f (x,y) fY (y) für fY (y) > 0 Definition im stetigen Fall läßt sich über diskreten Fall motivieren (Wahrscheinlichkeiten für kleine Umgebungen von x und y) Berechne damit bedingte Wahrscheinlichkeiten: ∫ P(X ∈ A|Y = y) = fX|Y (x|y) dx A Bedingte Verteilungsfunktion: ∫a FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) = fX|Y (x|y) dx x=−∞ 32 Beispiel Gemeinsame Dichte von X und Y gegeben durch c x(2 − x − y), x ∈ [0, 1], y ∈ [0, 1], f (x, y) = 0, sonst. Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3) Lösung: fY (y) = c ∫1 x=0 fX|Y (x|y) = x(2 − x − y) dx = c( 23 − y2 ) f (x,y) fY (y) = x(2−x−y) y 2 3−2 P(X < 1/2|Y = 1/3) = 1/2 ∫ x=0 = 6x(2−x−y) 4−3y 6x(2−x−1/3) dx 4−3/3 33 = · · · = 1/3 Bedingter Erwartungswert Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw. bedingter Dichte ∫∞ E(X|Y = y) = xfX|Y (x|y)dx x=−∞ Beispiel: Fortsetzung ∫1 E(X|Y = y) = x=0 Speziell E(X|Y = 1/3) = 6x2 (2 − x − y) 5/2 − 2y dx = 4 − 3y 4 − 3y 11 18 34 Erwartungswert durch Konditionierung E(X|Y = y) ist eine Funktion von y, kann somit als Zufallsvariable in y betrachtet werden Es gilt: E(X) = E(E(X|Y )) Beweis: E(E(X|Y )) ∫∞ = E(X|Y = y)fY (y) dy y=−∞ ∫∞ ∫∞ = xfX|Y =y (x)fY (y) dx dy y=−∞ x=−∞ ∫∞ ∫∞ f (x, y) x fY (y) dx dy = E(X) fY (y) = y=−∞ x=−∞ Übung: Verifiziere die Formel für obiges Beispiel 35 Bedingte Varianz Formeln für den diskreten Fall (mit bedingter WF): ∑ E(X|Y = y) = xpX|Y (x|y) x∈X Var (X|Y = y) = ∑ (x − E(X|Y = y))2 pX|Y (x|y) x∈X Übung: Berechne Erwartungswert und Varianz von X wenn Y = j j i 0 1 2 3 pX 0 1/20 4/20 3/20 2/20 10/20 1 3/20 2/20 2/20 0 7/20 2 1/20 1/20 0 0 2/20 3 1/20 0 0 0 1/20 pY 6/20 7/20 5/20 2/20 20/20 36 Varianz mittels Konditionierung Var (X) = E(Var (X|Y )) + Var (E(X|Y )) Beweis: Wegen Var (X|Y ) = E(X 2 |Y ) − (E(X|Y ))2 gilt E(Var (X|Y )) = E(E(X 2 |Y ))−E((E(X|Y ))2 ) = E(X 2 )−E(E(X|Y )2 ) Andererseits Var (E(X|Y )) = E(E(X|Y )2 )−(E(E(X|Y )))2 = E(E(X|Y )2 )−E(X)2 Die Summe beider Ausdrücke liefert das Resultat Formel wesentlich für die Theorie der linearen Regression! 37 4.5 Bivariate Normalverteilung Univariate Normalverteilung: Standardnormalverteilung: f (x) = ϕ(x) = √ 1 2π σ √1 2π e−x e 2 −(x−µ)2 /2σ 2 /2 X1 und X2 unabhängig, jeweils normalverteilt N (µi , σi2 ), i = 1, 2 ⇒ f (x1 , x2 ) = = wobei x= (x1 ) x2 , µ= 1 −(x1 −µ1 )2 /2σ12 −(x2 −µ2 )2 /2σ22 e 2π σ1 σ2 1 −(x−µ)T Σ−1 (x−µ)/2 e 1/2 2π |Σ| (µ1 ) µ2 , Σ= (σ 2 38 1 0 0) σ22 Dichtefunktion allgemein (Vektorform) X = (X1 , X2 ) normalverteilt falls gemeinsame Dichtefunktion f (x) = 1 2π |Σ|1/2 e−(x−µ) Σ= Kovarianzmatrix: Notation: ρ := T Σ−1 (x−µ)/2 σ12 σ12 σ12 σ22 σ12 σ1 σ2 2 • |Σ| = σ12 σ22 − σ12 = σ12 σ22 (1 − ρ2 ) • Σ −1 = 1 2 2 σ1 σ2 (1−ρ2 ) σ22 −ρσ1 σ2 −ρσ1 σ2 σ12 39 Bivariate Normalverteilung X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0: 0.2 0.15 0.1 0.05 0 2 1 2 1 0 0 −1 −1 −2 −2 40 Beispiel bivariate Normalverteilungen s2 = 1, s2 = 1, ρ = 0 x s2 = 1, s2 = 1, ρ = 0.5 x y 2 2 1.5 1.5 1 1 0.5 0.5 0 0 −0.5 −0.5 −1 −1 −1.5 −1.5 −2 −2 −1.5 −1 −0.5 0 0.5 1 1.5 −2 −2 2 −1.5 s2 = 4, s2 = 1/4, ρ = 0 x x 2 1.5 1.5 1 1 0.5 0.5 0 0 −0.5 −0.5 −1 −1 −1.5 −1.5 −1.5 −1 −0.5 0 0.5 −0.5 0 0.5 1 1.5 2 1.5 2 s2 = 4, s2 = 1/4, ρ = −0.5 y 2 −2 −2 −1 y 1 1.5 −2 −2 2 41 −1.5 −1 y −0.5 0 0.5 1 Beispiel Dichtefunktion (X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) und ρ = 1/2 Berechne die gemeinsame Dichte! (0) ( 1 1/2) Lösung: µ = 0 , Σ = 1/2 1 ( 1 −1/2) 4 −1 |Σ| = 1 − 1/4 = 3/4, Σ = 3 −1/2 1 ( ) 2 ( 2x−y ) 4 2 −1 x 2 (x, y)Σ y = 3 (x, y) −x+2y = 3 (x − xy + y ) 1 − 23 (x2 −xy+y 2 ) f (x, y) = √ e 3π Äquivalente Darstellung: (y−x/2)2 1 − 1 x2 1 − f (x, y) = √ e 2 √ e 2·3/4 2π 2π 3/4 42 Beispiel Fortsezung (y−x/2)2 1 − 1 x2 1 − f (x, y) = √ e 2 √ e 2·3/4 2π 2π 3/4 Gemeinsame Dichte ist Produkt der Dichte von Standardnormalverteilung (in x) und Normalverteilung (in y) mit Mittelwert x/2 und Varianz 3/4. Berechne Dichte von X: 1 − 1 x2 fX (x) = √ e 2 2π ∫∞ y=−∞ 1 √ e 2π 3/4 − (y−x/2)2 2·3/4 1 − 1 x2 dy = √ e 2 2π fX (x) ist Dichte von Standardnormalverteilung Integral ergibt 1, weil wir über eine Dichte integrieren! 43 Dichtefunktion allgemein Von der Formel in Vektorform erhalten wir { 2 } 2 z −2ρz z +z 1 2 1√ 1 2 f (x1 , x2 ) = exp − 2 2(1−ρ ) 2 2πσ1 σ2 wobei z1 = x1 −µ1 σ1 und 1−ρ z2 = x2 −µ2 σ2 (vgl. Normalisierung) Notation deutet darauf hin, dass µi und σi2 jeweils Erwartungswert und Varianz von Xi , den beiden Randverteilungen, und dass ρ die Korrelation zwischen X1 und X2 Es gilt: f (x1 , x2 ) = √ 1 2πσ1 e z2 − 21 ·√ 1 2π(1−ρ2 )σ2 e − (ρz1 −z2 )2 2(1−ρ2 ) Ergänzung auf vollständiges Quadrat im Exponenten 44 Bedeutung von µi , σi2 und ρ Allgemein gilt für bivariate Normalverteilung 1. X1 ∼ N (µ1 , σ12 ) und X2 ∼ N (µ2 , σ22 ) 2. Korrelationskoeffizient ρ(X1 , X2 ) = σ12 σ1 σ2 Beweis: 1.Bilde vollst. Quadrat im Exponenten und integriere: 1 fX1 (x1 )= √ e 2πσ1 1 =√ e 2πσ1 2 z1 − 2 ∫∞ x2 =−∞ z2 − 21 ∫∞ s=−∞ 1 √ e 2 2π(1 − ρ )σ2 ( 1 √ e− 2π √ ρz1 1−ρ2 2 − (ρz1 −z2 )2 2(1−ρ2 ) dx2 )2 −s z2 1 − 21 e ds = √ 2πσ1 √ √ 2 mit Substitution s ← z2 / 1 − ρ = (x2 − µ2 )/( 1 − ρ2 σ2 ) 45 Fortsetzung Beweis 2. Wiederum Formel mit vollst. Quadrat und Substitution z1 ← (x1 − µ1 )/σ1 , z2 ← (x2 − µ2 )/σ2 : ∫∞ ∫∞ (x1 − µ1 )(x2 − µ2 )f (x1 , x2 ) dx2 dx1 Cov (X1 , X2 ) = x1 =−∞ x2 =−∞ ∫∞ x1 − µ1 √ e 2πσ1 = x1 =−∞ ∫ = ∫ z1 ϕ(z1 ) z1 = σ1 σ2 z2 ∫ z2 − 21 ∫∞ x2 − µ2 − (ρz1 −z2 )2 2(1−ρ2 ) √ e 2 2π(1 − ρ )σ2 x2 =−∞ ( ) z ρz1 − z2 √ 2 ϕ √ σ2 dz2 σ1 dz1 2 2 1−ρ 1−ρ z1 ϕ(z1 )ρz1 dz1 = σ1 σ2 ρ = σ12 z1 46 dx2 dx1 Bedingte Verteilung Interpretation für die Formel f (x1 , x2 ) = √ 1 2πσ1 z2 − 21 e ·√ 1 2π(1−ρ2 )σ2 e − (ρz1 −z2 )2 2(1−ρ2 ) f (x1 , x2 ) = f1 (x1 )f2|1 (x2 |x1 ) Aus (ρz1 −z2 )2 (1−ρ2 ) = (µ2 +σ2 ρz1 −x2 )2 σ22 (1−ρ2 ) folgt: Bedingte Verteilung ist wieder normalverteilt mit µ2|1 = µ2 + ρ(x1 − µ1 ) σσ21 , σ2|1 = σ22 (1 − ρ2 ) ρ = 0 ⇒ Unabhängigkeit Für bivariate Normalverteilung: Ist im allgemeinen nicht richtig! 47 Summe von bivariat normalverteilten ZV Sei X1 , X2 bivariat normal mit µ1 , µ2 , σ12 , σ22 , σ12 Dann ist Z = X1 + X2 wieder normalverteilt, mit X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2σ12 ) Beweis: Für die Dichte der Summe gilt ∫∞ f (z − x2 , x2 ) dx2 fZ (z) = x2 =−∞ Man erhält das Resultat wieder durch Vervollständigung des Quadrats im Exponenten (etwas längere Rechnung) Intuition: Mittelwert und Varianz von Z entsprechen der allgemeinen Formel! 48 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/13 5 Verteilungen von Stichprobenkennzahlen 1. Stichprobe 2. χ2 - Verteilung 3. t-Verteilung 4. F -Verteilung 1 5.1 Stichprobe X1 , . . . , Xn unabhängige ZV P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ) für jede beliebige Wahl von Ereignissen A1 , . . . An . Stichprobe . . . n unabhängige Zufallsvariablen, die alle gleich verteilt sind Englisch: identically independently distributed (i.i.d) Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n unabhängigen Bernoulli-Variablen X= n ∑ i=1 wobei Xi ∼ B(1, p) i.i.d. 2 Xi Mittelwert von Stichproben X1 , . . . , Xn i.i.d. wie X, n ∑ 1 Definition: X̄ := n Xi i=1 Mit E(X) = µ und Var (X) = σ 2 gilt: ( ) E X̄ = µ, Var (X̄) = σ2 n Beweis: ( n ) n ∑ ∑ E Xi = E(Xi ) i=1 ( Var n ∑ i=1 ) Xi i=1 = n ∑ Var (Xi ) i=1 Letzte Gleichung wegen Unabhängigkeit der Beobachtungen 3 Normalverteilte Stichproben X1 , . . . , Xn i.i.d. N (µ, σ 2 ) ⇒ X̄ ∼ N (µ, σ 2 /n) Zentraler Grenzwertsatz: Selbst für nicht normalverteilte Stichprobe X1 , . . . , Xn ist X̄ für große n näherungsweise normalverteilt (Siehe Kapitel 6) Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kg bei einer Varianz von 0.1 kg, Annahme das Gewicht ist normalverteilt. Stichprobe von 10 Broten, welche Verteilung hat X̄? Mit welcher Wahrscheinlichkeit liegt X̄ zwischen 0.95 und 1.05? 2 2 = σX /10 = 0.01 σX̄ ⇒ P (0.95 ≤ X̄ ≤ 1.05) = Φ X̄ ∼ N (1, 0.01) ( 1.05−1 ) 0.1 −Φ 4 ( 0.95−1 ) 0.1 = 2Φ(0.5)−1 = 0.383 5.2 χ2 - Verteilung Motivation: Gegeben Stichprobe X1 , . . . , Xn i.i.d. X̄ kann verwendet werden, um unbekanntes µ zu schätzen. Typische andere statistische Fragestellungen: Wie kann ich unbekanntes σ schätzen? Möglicher Zugang: σ 2 = E(X − µ)2 Somit könnten Quadratsummen der Stichprobe interessant sein: • µ bekannt: n ∑ (Xi − µ)2 i=1 • µ unbekannt: n ∑ (Xi − X̄)2 i=1 Welche Verteilung haben diese Quadratsummen? 5 Mittelwerte von Quadratsummen X1 , . . . , Xn i.i.d. wie X, E(X) = µ, Var (X) = σ 2 Es gilt: ( E n ∑ ) (Xi − µ)2 = nσ 2 i=1 Beweis: Vertausche Summe und Erwartungswert Weiters gilt: ( E n ∑ ) (Xi − X̄)2 i=1 Beweis: Übung 6 = (n − 1)σ 2 Verteilung von Z 2 Erinnerung: X ∼ Γ(t, λ) . . . f (x) = λe−λx (λx)t−1 , Γ(t) für x ≥ 0 Es gilt: Z ∼ N (0, 1) ⇒ Y = Z 2 ∼ Γ( 21 , 12 ) In Worten: Das Quadrat einer standardnormalverteilten Zufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2. Beweis: ⇒ √ √ √ √ P (Y ≤ y) = P (− y ≤ Z ≤ y) = Φ( y) − Φ(− y) fY (y) = = 1 1 √ √ √ 1 φ( y) √ + φ(− y) √ = φ( y) √ 2 y 2 y y 1 √ e−y/2 = 2πy 7 1 − y2 y 12 −1 (2) 2e , Γ( 12 ) √ 1 weil Γ( ) = π. 2 Additionstheorem für Γ−Verteilung Y1 , . . . , Yn unabhängig, Γ(ti , λ), mit beliebigen ti λe−λy (λy)ti −1 d.h. fYi (y) = , Γ(ti ) dann S := n ∑ für y ≥ 0 Yi auch Γ−verteilt, nämlich S ∼ Γ( n ∑ ti , λ) i=1 i=1 λe−λs (λs)T −1 d.h. fS (s) = , Γ(T ) für s ≥ 0, mit T := n ∑ ti i=1 Beweis: Iteratives Anwenden der Faltungsformel für die Γ−Verteilung (vgl. Beispiel im Kapitel 4) Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi , σi2 ) i.i.d. 8 Definition der χ2 - Verteilung Man bezeichnet Y ∼ Γ( n2 , 12 ) als χ2 -verteilt mit n Freiheitsgraden Notation: Y ∼ χ2n 0.8 0.7 df=1 df=2 df=3 df=4 df=6 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Dichte der χ2 -Verteilung für verschiedene Freiheitsgrade 9 Verteilung der Quadratsumme, bekanntes µ Wir haben gesehen: Z ∼ N (0, 1) ⇒ Z 2 ∼ Γ( 12 , 12 ) = χ21 Aus dem Additionstheorem folgt unmittelbar: Zi ∼ N (0, 1) i.i.d ⇒ Y := n ∑ i=1 Zi2 ∼ χ2n Damit können wir unsere erste Frage beantworten: Für eine Stichprobe der Größe n von normalverteilten Zufallsvariablen Xi ∼ N (µ, σ 2 ) gilt: n ∑ i=1 (Xi − µ) = σ 2 2 n ∑ i=1 10 (Xi −µ)2 σ2 ∼ σ 2 χ2n Verteilung der Quadratsumme, unbekanntes µ Wenn wir µ durch X̄ ersetzen so gilt (ohne Beweis): n ∑ (Xi − X̄)2 ∼ σ 2 χ2n−1 i=1 Es gilt: Y ∼ χ2n−1 ⇒ E(Y ) = n − 1 Daher üblicher Schätzer für die Varianz 2 S := 1 n−1 n ∑ (Xi − X̄)2 i=1 Interpretation für den Begriff Freiheitsgrad: • µ bekannt: Alle Xi zur Schätzung von σ 2 unabhängig ⇒ daher n Freiheitsgrade • µ unbekannt: Ein Parameter wird aus den Daten geschätzt ⇒ daher n − 1 Freiheitsgrade 11 5.3 t - Verteilung Motivation: 1. Standardisierung für X ∼ N (µ, σ 2 ): Z= X−µ σ 2. Für Stichprobe X1 , . . . , Xn i.i.d. wie X, X̄−µ √ σ/ n Standardisierung für X̄: 2 1 n−1 2 3. Ersetze σ durch S = n ∑ (Xi − X̄)2 i=1 d.h. wir interessieren uns für Es gilt: T = √ n 1 n √ 1 n−1 n ∑ i=1 n ∑ T := √ n X̄−µ S Zi i=1 1 (Zi − n n ∑ j=1 Beweis: Nachrechnen 12 wobei Zj )2 Zi = Xi −µ σ Eigenschaften der T -Statistik √ T = n−1 √ √1 n n ∑ i=1 n ∑ Zi i=1 1 (Zi − n n ∑ wobei Zi = N (0, 1) Zj ) 2 j=1 Wir wissen bereits: n ∑ 1 Zi ∼ N (0, 1), Z := √n i=1 Y := n ∑ (Zi − i=1 1 n n ∑ Zj )2 ∼ χ2n−1 j=1 Somit insgesamt √ T = n(X̄−µ) S √ = n−1 √Z Y Zusätzlich gilt (ohne Beweis): X̄ und S 2 sind unabhängige ZV, (daher auch Z und Y ) 13 Definition der t-Verteilung Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt √ Z T := n √Y Student- oder t-verteilt mit n Freiheitsgraden Dichte der t-Verteilung für verschiedene Freiheitsgrade 0.45 t=1 t=2 t=3 t=4 t=6 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 1 Für n groß nahezu standardnormalverteilt 14 2 3 5.4 F - Verteilung Motivation: Häufig in der Statistik von Interesse: Vergleich von Varianzen. Eine Möglichkeit → betrachte Quotienten σ12 /σ22 (1) (1) Zum Beispiel zwei Gruppen, Stichproben X1 , . . . , Xn1 bzw. (2) (2) X1 , . . . , Xn2 . Seien Ỹ1 und Ỹ2 die jeweiligen Quadratsummen der Stichproben, sodass Ỹj = σj2 Yj mit Yj ∼ χ2nj −1 (j = 1, 2). Für Schätzer von σj2 gilt Sj2 = Ỹj nj −1 = σj2 Yj nj −1 . Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten der Schätzer S12 Y1 /(n1 − 1) = S22 Y2 /(n2 − 1) 15 Definition der F -Verteilung Y1 ∼ χ2n1 , Y2 ∼ χ2n2 unabhängig, dann heißt Q := Y1 /n1 Y2 /n2 F -verteilt mit n1 und n2 Freiheitsgraden Dichte der F -Verteilung für verschiedene n1 und für n2 = 25 1.5 n1=1 n =2 1 n =3 1 n1=4 n1=6 1 0.5 0 0 0.5 1 1.5 16 2 2.5 Eigenschaften der F - Verteilung Sei Q ∼ F(n1 , n2 ) F -verteilt mit Freiheitsgraden n1 , n2 . Dichte der F -Verteilung etwas kompliziert • µF (n1 ,n2 ) = n2 n2 −2 Beweis als Übung. • 1 Q ∼ F(n2 , n1 ) folgt unmittelbar aus Definition • Sei T Student-verteilt mit n Freiheitsgraden: T 2 ∼ F(1, n) √ Z aus der Darstellung T = n √Y , wobei Z ∼ N (0, 1), Y ∼ χ2n folgt 2 T = Z 2 /1 Y /n wobei Z 2 ∼ χ21 17 Quantile In der Praxis werden sehr häufig die Quantile der χ2 -,t- und F -Verteilung benötigt Nicht elementar berechenbar ⇒ Tabellen (oder Computer) Zu beachten: • t-Verteilung mit unendlich vielen Freiheitsgraden entspricht Normalverteilung • γp (n1 , n2 ) sei p-Quantil von F(n1 , n2 ), dann gilt: γp (n1 , n2 ) = Beweis: p = P (Q ≤ γp (n1 , n2 )) 1 γ1−p (n2 ,n1 ) wobei Q= 1 − p = P (Q > γp (n1 , n2 )) = P (Q−1 < 18 Y1 /n1 Y2 /n2 1 γp (n1 ,n2 ) ) Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/13 6 Grenzwertsätze 1. Einführung 2. Gesetze der großen Zahlen 3. Der Zentraler Grenzwertsatz 1 6.1 Einführung Grenzwertsetze grundlegend für Wahrscheinlichkeitstheorie Zwei wesentliche Gruppen: 1. Gesetze der großen Zahl Geben Bedingungen unter welchen Mittelwert einer Zahlenfolge gegen theoretischen Erwartungswert konvergieren 2. Zentrale Grenzwertsätze Bedingungen unter welchen die Summe einer großen Zahl von Verteilungen gegen Normalverteilung konvergiert Verschiedene Versionen, je nach Art der Konvergenz 2 Markov Ungleichung X nichtnegative Zufallsvariable, d.h. X ⊂ R+ 0 Dann gilt für jedes a > 0: P (X ≥ a) ≤ a1 E(X) Beweis: 1, X ≥ a Y := 0, X < a Definiere X≥0 ⇒ ⇒ Y ≤ E(Y ) ≤ X a E(X) a und E(Y ) = P (X ≥ a) 3 Chebyshev Ungleichung X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ 2 < ∞, dann gilt für jedes k > 0 P (|X − µ| ≥ k) ≤ σ2 k2 Beweis: Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k 2 P ((X − µ)2 ≥ k 2 ) ≤ 1 2 E(X − µ) k2 Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ und σ 2 bekannt. 4 6.2 Gesetze der großen Zahl Das schwache Gesetz der großen Zahlen: X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ Dann gilt für jedes ε > 0 ( X1 +···+Xn ) P −µ ≥ε →0 n für n → ∞ Beweis: (Verwende zusätzlich Var (Xi ) = σ 2 < ∞ ) ( X1 +···+Xn ) ( X1 +···+Xn ) σ2 E = µ, Var = n n n Chebyshev Ungleichung: ) ( 2 X1 + · · · + Xn σ P − µ ≥ ε ≤ 2 n nε 5 Das starke Gesetz der großen Zahlen X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ Dann gilt mit Wahrscheinlichkeit 1, dass X1 +···+Xn n →µ für n → ∞ Ohne Beweis Starkes Gesetz tatsächlich stärker als schwaches Gesetz: Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N (ε), so dass X +···+X n 1 − µ < ε für alle n > N (ε) n d.h. ab einem gewissen Index N (ε) sind (mit Wahrscheinlichkeit 1) n entsprechend nahe bei µ alle weiteren Mittelwerte X1 +···+X n Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen, n dass immer wieder ein Mittelwert X1 +···+X weiter von µ entfernt n ist, aber mit immer kleiner werdender Wahrscheinlichkeit 6 6.3 Der zentrale Grenzwertsatz X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ, Var (Xi ) = σ 2 , dann gilt ) ( X1 +···+X −nµ √ n ≤ a → Φ(a) P σ n für n → ∞ In Worten: Die Summe einer großen Anzahl von unabhängigen identisch verteilten Zufallsvariablen ist approximativ normalverteilt mit Mittelwert nµ und Varian nσ 2 X1 + · · · + Xn ∼ N (nµ, nσ 2 ) Ohne Beweis! Literatur: Viele verschiedene Möglichkeiten diesen Satz zu beweisen Spezialfall: Normalverteilungsapprox. der Binomialverteilung 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Wahrscheinlichkeitsrechnung Foliensatz 7 Andreas Futschik Institut für Statistik, Univ. Wien 12/2011 Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Inhalt . . . 1 Wahrscheinlichkeitserzeugende Funktion 2 Momenterzeugende Funktion 3 Abschließendes Beispiel Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Wahrscheinlichkeitserzeugende Funktion (generating function) Für diskrete Zufallsvariablen mit Werten i = 0, 1, 2, . . . definiert als: ∞ X pi · u i GX (u) := i=0 Beispiel: X = 0 1 2 Wahrscheinlichkeit 1/3 1/3 1/3 GX (u) = 1 (1 + u + u 2 ) 3 Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Eigenschaften der wahrscheinlichkeitserzeugenden Funktion Satz G(k ) (0) k! 0 00 Falls GX (1) und GX (1) existieren, dann ∂ GX (u)|u=1 E(X ) = GX0 (1) = ∂u Var(X ) = GX00 (1) + E(X ) − [E(X )]2 P(X = k ) = Für E(X ) leicht zu sehen, für Var (X ): 2 2 2 Var(X ) = E[(X −E(X )) ] = E(X )−[E(X )] = ∞ X i 2 ·pi −[E(X )]2 . i=0 Weiters: GX00 (1) = P∞ i=0 i(i − 1)pi = Andreas Futschik P∞ i=0 i 2p i − GX0 (1). Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Beispiele Erwartungswert und Varianz im letzten Beispiel: 1 2 GX0 (u) = (1 + 2u), GX00 (u) = 3 3 2 E(X ) = 1, Var (X ) = 3 Erwartungswert der Binomialverteilung X ∼ B(n, p): n P n i n−i · u i = GX (u) = i p (1 − p) i=0 = E(X ) = GX00 (u) = Var(X ) = = = (1 − p + up)n GX0 (1) = n(1 − p + up)n−1 p|u=1 = n · p n(n − 1)(1 − p + up)n−2 · p2 |u=1 = n(n − 1) · p2 GX00 (1) + E(X ) − [E(X )]2 = n(n − 1)p2 + np − n2 p2 = np − np2 = np(1 − p) Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Übung Erzeugende Funktion, Erwartungswert und Varianz der Poissonverteilung mit Wahrscheinlichkeitsfunktion k P(X = k ) = λk ! e−λ ? Lösung: GX (u) = eλ(u−1) , E(X ) = λ, Var(X ) = λ Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Momenterzeugende Funktion Im Unterschied zur wahrscheinlichkeitserzeugenden Funktion auch für stetige Zufallsvariablen anwendbar. Die momenterzeugende Funktion kann nicht für jede Verteilung berechnet werden, charakteristische Funktion als Alternative im Raum der komplexen Zahlen. Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Momenterzeugende Funktion Definition (Momenterzeugende Funktion) Falls Z ∞ MX (t) = E(exp(tX )) = etx f (x) dx −∞ auf einem Intervall [0, a] (a > 0) existiert, so nennen wir MX (t) momenterzeugende Funktion der Zufallsvariablen X . Beispiel: Sei X gleichverteilt im Intervall [c, d]. Dann ist Z MX (t) = c d 1 1 etx dx = edt − ect d −c (d − c)t Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Eigenschaften der momenterzeugenden Funktion Satz Sei X eine Zufallsvariable mit momenterzeugender Funktion MX (t). Dann gilt: E(X ) = MX0 (0) (k ) E(X 2 ) = MX00 (0) und E(X k ) = MX (0) für k ≥ 0. Var (X ) = MX00 (0) − [MX0 (0)]2 Gegeben, die momenterzeugenden Funktionen existieren: Zwei Zufallsvariablen X und Y haben genau dann die gleiche Verteilung, wenn MX (t) = MY (t). Gegeben dass für die zwei unabhängigen Zufallsvariablen X und Y momenterzeugende Funktionen existieren, gilt MX +Y (t) = MX (t) · MY (t). Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Übung Wie lautet momenterzeugende Funktion, Erwartungswert und Varianz für eine exponentialverteilte Zufallsvariable X mit Dichte f (x) = λe−λx ? Auf welchem Intervall ist MX (t) definiert? Lösungen: MX (t) = MX0 (t) = MX00 (t) = λ λ−t , definiert für t < λ , E(X ) = λ1 . (λ−t)2 2λ , Var (X ) = λ12 . (λ−t)3 Andreas Futschik λ. Wahrscheinlichkeitsrechnung - FS 7 Wahrscheinlichkeitserzeugende Funktion Momenterzeugende Funktion Abschließendes Beispiel Abschließendes Beispiel Eine Raupe kriecht auf einem Drahtwürfel und startet vom Punkt A. An jedem Eckpunkt kriecht die Raupe zufällig mit gleicher Wahrscheinlichkeit in eine der drei möglichen Richtungen. Am Punkt F befindet sich Futter und am Punkt G Klebstoff (“glue”). Wenn die Raupe einen dieser beiden Punkte erreicht, bleibt sie dort und kriecht nicht weiter. Mit welcher Wahrscheinlichkeit endet die Expedition der Raupe beim Futter und nicht beim Klebstoff? (Lösung: 4/7) Andreas Futschik Wahrscheinlichkeitsrechnung - FS 7