Univ.-Prof. Dr. Walter Gutjahr Oskar-Morgenstern-Platz 1 Tel. 4277 38632 [email protected] Univ.-Doz. Dr. Florian Frommlet Spitalgasse 21 Tel. 40400 7294 [email protected] 1 Organisatorisches • Vorlesungstermine: Mo 09.45 - 11.15 HS 6, wöchentlich Di 15.00 - 16.30 HS 6, wöchentlich Ausnahme: 25. Nov. wird auf 28. Nov. verschoben (Zeit wird noch angekündigt) Letzter Vorlesungstermin: Di 16.12.2014 • Prüfungstermine: 1) Do 08.01.2015 2) Do 29.01.2015 • Übungsgruppen: Parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis! 2 Tutorium • Tutor: Bernhard Hrobath Do 08.00 - 09.30 HS 3. Besuch des Tutoriums empfehlenswert! 3 E-learning Plattform Moodle Plattform https://moodle.univie.ac.at • Generelle Information • Downloads der Folien • Forum • Noten 4 Inhalt der Vorlesung 1. Einführung (a) Wahrscheinlichkeitsbegriff (b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten 2. Diskrete Verteilungen 3. Stetige Verteilungen 4. Mehrdimensionale Verteilungen 5. Verteilungen von Stichprobenkennzahlen 6. Grenzwertsätze Danksagung: Für Anregungen zum Inhalt danken wir Univ.-Prof. Dr. Karl Schlag! 5 Literatur Die Reihenfolge entspricht dem Grad an Relevanz speziell für diese Lehrveranstaltung • Karl Bosch: Elementare Einführung in die Wahrscheinlichkeitsrechnung • Sheldon Ross: A First Course in Probability Bücher gibt es mindestens 10 mal in Lehrbuchsammlung • Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability • Brannath / Futschik: Statistik für Wirtschaftswissenschafter • John Rice: Mathematical statistics and data analysis • Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik • Walter Oberhofer: Wahrscheinlichkeitstheorie • Jim Pitmann: Probability 6 Einführung Mathematische Modellierung ➢ Deterministisch ➢ Stochastisch (Zufälligkeit, Unsicherheit) Experiment mit verschiedenen möglichen Ausgängen – Ereignisse Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakte Vorhersagen zu liefern Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen 7 Beispiele Konzeptionell einfach: • Münzwurf • Würfelspiele / Kartenspiele / Lotto Konzeptionell etwas schwieriger: • Nicht faire Münze Konzeptionell schwierig: • Wahlprognosen • Kreditrückzahlung (Insolvenzprognoseverfahren ) • Sportwetten Konzeptionell beyond: • Moderne Physik 8 Interpretation von Wahrscheinlichkeit 1. Laplace: Endlich viele Ereignisse Alle Ereignisse gleiche Wahrscheinlichkeit 2. Frequentistisch: Idee: Experiment das beliebig oft wiederholt werden kann Relative Häufigkeit: Anzahl des Auftretens eines Ereignisses bei n Wiederholungen des Experiments Wahrscheinlichkeit: Relative Häufigkeit für n → ∞ 3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontext von beliebig oft wiederholbaren Ereignissen auf Beispiel: Ärztliche Prognose, Sportwetten 9 Wahrscheinlichkeitsrechnung Unabhängig von der Interpretation! Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933) • Ergebnisraum Ω • Menge aller zulässigen Ereignisse A (gewisse) Teilmengen von Ω • Wahrscheinlichkeitsverteilung P (A). Die Funktion A → P (A) hat folgende Eigenschaften 1. 0 ≤ P (A) ≤ 1 2. P (∅) = 0, P (Ω) = 1 3. P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅. 10 Beispiel 1: Münzwurf Ergebnisraum: Ω = {Kopf, Zahl } Ereignisse: {∅, Kopf, Zahl, Kopf oder Zahl } Wahrscheinlichkeitsverteilung: Falls faire Münze P (Kopf) = 1/2, P (Zahl) = 1/2 (Elementarereignisse) P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1 P (weder Kopf noch Zahl) = P (∅) = 0 Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff Elementarereignis: A ⊂ Ω mit |A| = 1 d.h. einelementige Teilmenge 11 Übungen Zwei faire Münzen Ergebnisraum: Ereignisse: Wahrscheinlichkeitsverteilung: Fairer Würfel Ergebnisraum: Ereignisse: Wahrscheinlichkeitsverteilung: 12 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2014/15 1 Grundbegriffe 1. Mengenlehre 2. Rechnen mit Wahrscheinlichkeiten 3. Kombinatorik 4. Bedingte Wahrscheinlichkeit 1 1.1 Mengenlehre Ereignis: Teilmenge von Ω Ac := Ω\A . . . Komplement A ∪ B . . . Vereinigung A ∩ B . . . Durchschnitt A ∩ B = ∅ . . . Disjunkte Mengen Venn Diagramm: ✩ ✬ Ω ✤✜ ✤✜ A B ✣✢ ✣✢ ✫ ✪ A\B := A ∩ B c B ⊆ Ac ⇒ A\B =? Indexschreibweise: Gegeben die Ereignisse A1 , A2 , . . . , An Sn i=1 Ai = A1 ∪ A2 ∪ · · · ∪ An Tn i=1 Ai = A1 ∩ A2 ∩ · · · ∩ An 2 Rechenregeln • Kommutativgesetz: A ∪ B = B ∪ A • Assoziativgesetz: (A ∪ B) ∪ C = A ∪ (B ∪ C) • Distributivgesetz: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) • de Morgan: (A ∪ B)c = Ac ∩ B c Alle Regeln gelten auch wenn man ∪ und ∩ konsequent vertauscht! Weiters gilt (Übung): A ∩ Ac = A ∪ Ac = A∪Ω= A∩Ω= A∪∅= A∩∅= A∪A= A∩A= 3 Übung: Zwei Würfel Es werden ein weisser und ein schwarzer Würfel geworfen. • Ergebnisraum Ω: • Welche Teilmengen entsprechen den folgenden Ereignissen A : = Ein Würfel zeigt 4, der andere 2 B : = der schwarze Würfel zeigt eine gerade Augenzahl der weisse eine ungerade C := die Summe der Augenzahlen beträgt 8 • Welche der genannten Ereignisse sind disjunkt? • Bilde (A ∪ B)c ∩ {C ∪ [A ∩ (B ∪ C)]} 4 1.2 Rechnen mit Wahrscheinlichkeiten 1. 0 ≤ P(A) ≤ 1 2. P(∅) = 0, P(Ω) = 1 3. P(A ∪ B) = P(A) + P(B) falls A ∩ B = ∅. Einfache Folgerungen: • A1 , . . . , An paarweise disjunkt, dann gilt ! n n X [ P(Ai ) Ai = P i=1 i=1 • P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B) • B⊂A ⇒ P(B) ≤ P(A) P(Ac ) = 1 − P(A) • P(A\B) = P(A) − P(B ∩ A) 5 Übung A, B und C seien Ereignisse (Teilmengen von Ω) jeweils mit Wahrscheinlichkeit P(A) = 0.8, P(B) = 0.3, P(C) = 0.7. Weiters gelte A ∪ C = Ω, B ⊂ A, B und C sind disjunkt 1. Berechne P(A ∩ C) 2. Welche der folgenden Aussagen sind richtig (a) A ⊂ C? (b) C ⊂ A? (c) B ∪ C = Ω? (d) B = A\C? 6 Ereignisse mit Wahrscheinlichkeit null Der Formalismus der Wahrscheinlichkeitsrechnung erlaubt auch den Fall, dass ein Ereignis A, obwohl es logisch gesehen möglich ist, dennoch Wahrscheinlichkeit null hat: Aus P(A) = 0 folgt nicht zwingend, dass A = ∅. Beispiel: Wenn wir annehmen, dass ein Punkt X zufällig aus dem Intervall [0, 1] gewählt wird, ohne dass irgendein Teilbereich dieses Intervalls bei der Auswahl bevorzugt wird (wir werden später von Gleichverteilung auf [0, 1] sprechen), hat z.B. das Ereignis X = 0.5 die Wahrscheinlichkeit null. Dennoch ist es nicht logisch unmöglich (sonst wäre überhaupt kein Ergebnis möglich!). Der exakte Aufbau der Wahrscheinlichkeitsrechung wird durch die Berücksichtigung von Ereignissen mit Wahrscheinlichkeit null komplizierter; viele Aussagen brauchen z.B. den Zusatz “mit Wahrscheinlichkeit 1”. 7 Laplace’sche Wahrscheinlichkeit |Ω| = n < ∞ ... Ergebnisraum mit endlich vielen Elementen Alle Elementarereignisse gleiche Wahrscheinlichkeit ⇒ P(A) = |A|/n Berechnung der Wahrscheinlichkeit durch Zählen der Elemente einer Menge ⇒ Kombinatorik Beispiel: Urne mit 5 schwarzen und 6 weißen Bällen Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind? a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975 b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727 8 1.3 Grundbegriffe der Kombinatorik Permutation: Anzahl der möglichen Anordnungen von n verschiedenen Elementen n! = n · (n − 1) · · · · 1 Beispiel: Auf wie viele verschieden Arten kann man abc anordnen? 3! = 3 · 2 · 1 = 6 abc, acb, bac, bca, cab, cba Auf wie viele verschieden Arten kann man abcd anordnen? abcd, acbd, bacd, bcad, cabd, cbad abdc, acdb, badc, bcda, cadb, cbda 4! = 4 · 3 · 2 · 1 = 24 adbc, adcb, bdac, bdca, cdab, cdba dabc, dacb, dbac, dbca, dcab, dcba Man definiert: 0! = 1 9 r - Permutation mit Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Mit zurücklegen, Reihenfolge wesentlich Beispiel: n = 4, r = 2 aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd n Möglichkeiten für jede der r Positionen ⇒ nr Möglichkeiten Übung: Wie viele Zahlen kann man mit allen 10-stelligen Ziffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen? 10 r - Permutation ohne Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Ohne zurücklegen, Reihenfolge wesentlich Beispiel: n = 4, r = 2 Nicht mehr relevant: ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc aa, bb, cc, dd n Möglichkeiten für die erste Position, n − 1 für die zweite, . . . n − r + 1 für die r−te Position ⇒ n · (n − 1) · · · (n − r + 1) = n! (n−r)! Möglichkeiten Bemerkung: Es muss gelten: r ≤ n r = n gibt als Spezialfall die normale Permutation 11 r - Kombination ohne Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Ohne zurücklegen, Reihenfolge egal Beispiel: n = 4, r = 2 Nicht mehr relevant: ab, ac, ad, bc, bd, cd ba, ca, da, cb, db, dc Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppe anzuordnen n·(n−1)···(n−r+1) n n! = Möglichkeiten := ⇒ r! (n−r)!r! r Bemerkung: Es muss klarerweise wieder gelten: r ≤ n 12 r - Kombination mit Wiederholung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Mit zurücklegen, Reihenfolge egal Beispiel: n = 4, r = 2 aa, ab, ac, ad, bb, bc, bd, cc, cd, dd aa, bb, cc, dd Hinzugekommen: Anzahl der Möglichkeiten: (n+r−1)! (n+r−1)···n n+r−1 = = (n−1)! r! r! r n = 4, r = 2 : 5! 3! 2! = 5·4 2 = 10 13 Beispiel: r - Kombination mit Wiederholung Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen? Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C AAAAAAAA | BBBBBBBBBBBB | CCCCCCCCCC Durch die beiden Trennsymbole | wird diese Kombination eindeutig festgelegt Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibt es "zwei Trennwände" zu setzen Wähle 2 (= n − 1) von 32 (= n + r − 1) Positionen, Reihenfolge egal, ohne zurücklegen 32 n+r−1 n+r−1 = 2 = 31 · 16 = 496 = r n−1 14 Zusammenfassung Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n Elementen zu ziehen: Reihenfolge mit Wiederholung ohne Wiederholung (n ≥ r) nr n!/(n − r)! n relevant egal n+r−1 r r Faktorielle (auch Fakultät): n! = n · (n − 1) · · · 1, Binomialkoeffizient: n·(n−1)···(n−r+1) n = r = r! 0! = 1 n! (n−r)! r! 15 Beispiel 8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3 Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibt es, wenn a) 2 Frauen nicht kooperieren wollen? b) 2 Männer nicht kooperieren wollen? c) Ein Mann und eine Frau nicht kooperieren wollen? Lösung: 8 6 Ohne Konflikte: 3 3 = 1120 Kommitees Subtrahiere davon jeweils die Anzahl der unmöglichen Komitees: 6 8 a) 3 3 − 4 = 896 8 6 1000 b) 3 3 − 6 = 7 5 8 6 − c) 2 2 = 910 3 3 16 Übungsaufgabe (etwas schwierig) In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personen wollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dass genau i Frisöre einen Auftrag erhalten. Lösung: • P(i = 1) = 1/64 • P(i = 2) = 21/64 • P(i = 3) = 36/64 • P(i = 4) = 6/64 17 Einschub: Binomischer Lehrsatz n (x + y) = n P k=0 n k xk y n−k Beweis durch vollständige Induktion: 1 1 1−1 1 0 1−0 =x+y + 1 x y 1) n = 1 : 0 x y 2) (n − 1) → n : Angenommen der Satz ist richtig für n − 1. Schreibe (x + y)n = (x + y)(x + y)n−1 , verwende den binomischen Lehrsatz für (x + y)n−1 und zeige damit, dass sich die rechte Seite n P n k n−k schreiben läßt. tatsächlich als k x y k=0 Hilfreiche Identität für den Beweis: n−1 n−1 n + = r r−1 r 18 Einschub: Pascalsches Dreieck Schema der Binomialkoeffizienten: 1 n=0 n=1 1 1 n=2 n=3 1 1 n=4 n=5 1 2 3 4 5 1 1 3 6 10 1 4 10 1 5 1 (x + y)2 = x2 + 2xy + y 2 (x + y)3 = x3 + 3x2 y + 3xy 2 + y 3 (x + y)4 = x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4 19 Übungen Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggon kontrolliert er 2 Personen Einzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen 1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen 2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit den Schwarzfahrern? 3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen Schwarzfahrer, wenn er ihren Waggon kennt? 4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen Schwarzfahrer, wenn er ihren Waggon nicht kennt? 20 1.4 Bedingte Wahrscheinlichkeit Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen. Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind? Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727 In Worten: 6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß 5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß, falls erste Kugel weiß war Formal: A . . . erste Kugel weiß B . . . zweite Kugel weiß B|A . . . B wenn A, oder B unter der Bedingung A, d.h. zweite Kugel weiß falls erste Kugel weiß P(B ∩ A) = P(A)P(B|A) 21 Definition bedingte Wahrscheinlichkeit P(B|A) = P(B ∩ A)/P(A) Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zu Beginn eines Experiments, Ω enthält alle möglichen Ereignisse Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengen von A sind. A wird zum neuen (reduzierten) Ergebnisraum. Die bedingte Wahrscheinlichkeit eines Ereignisses B entspricht dem ‘Anteil’ von B an A. Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einen Wahrscheinlichkeitsraum (Bemerkung: Genaugenommen braucht man auch noch eine sog. σ - Algebra A. Wir betrachten zunächst endliche Wahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.) 22 Fortsetzung: Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit ist tatsächlich eine Wahrscheinlichkeit: Reduzierter Ergebnisraum A P(A|A) = P(A ∩ A)/P(A) = 1 B∩C =∅ ⇒ P(B ∪ C|A) = P(B|A) + P(C|A) Übung: In einer LVA gab es zwei Beurteilungstests. 50% der Studierenden bestanden den ersten Test und 35% bestanden beide Tests. Wieviele Prozent der Studierenden die den ersten Test schafften scheiterten am zweiten Test? 23 Produktformel Manchmal hilfreich: Tn Tn−1 P( i=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An | i=1 Ai ) Beweis: Iteratives Anwenden der Definition von bed. Wahrsch. Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je 13 Karten aufgeteilt Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As Hinweis: Definiere die Ereignisse A1 A2 A3 A4 = { Pik As befindet sich in irgendeinem Stapel } = { Pik As und Herz As in verschiedenen Stapeln } = { Pik, Herz und Karo As in verschiedenen Stapeln } = { Alle Asse in verschiedenen Stapeln } Lösung: 0.1055 24 Satz von der totalen Wahrscheinlichkeit Seien A1 , A2 , . . . , An disjunkte Ereignisse und Ω = n S Ai i=1 Dann gilt P(A) = P(A1 )P(A|A1 ) + · · · + P(An )P(A|An ) Beweis: Rechte Seite: P(A ∩ A1 ) + · · · + P(A ∩ An ) n S (A ∩ Ai ) Ai disjunkt ⇒ R.S. = P i=1 Ai vollständig ⇒ n S (A ∩ Ai ) = A i=1 25 Satz von Bayes Seien A und B Ereignisse mit positiver Wahrscheinlichkeit Dann gilt: P(A|B) = P(A)P(B|A)/P(B) Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩ B) Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch P(A)P(B|A) P(A|B) = P(A)P(B|A) + P(Ac )P(B|Ac ) Typische Anwendung: Bayesianische Statistik 26 Übung Bayes, Totale Wahrscheinlichkeit Versicherung teilt Autofahrer in 3 Klassen Prozent P(Unfall im ersten Jahr) schlecht 30 0.6 mittel 60 0.1 gut 10 0.01 a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigem Autofahrer? Lösung: 0.241 b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfall hat ein guter Autofahrer ist? Lösung: 0.00415 27 Interpretation medizinischer Testergebnisse Gigerenzer et al. (z.B. in “Helping doctors and patients make sense of health statistics”, 2008) zeigen, dass nicht nur Patienten, sondern sogar Ärzte die aus medizinischen Tests abgeleiteten Wahrscheinlichkeiten häufig völlig falsch einschätzen. Beispiel: Ein Labortest auf HIV habe folgende Kennzahlen: 95% Sensitivität (Test positiv falls tatsächlich krank) 99% Spezifität (Test negativ falls gesund) In der untersuchten Region sind 0.5% der Bevölkerung HIV-positiv. a) Schätze die Wahrscheinlichkeit, dass jemand mit einem positiven Test tatsächlich erkrankt ist! b) Berechne die Wahrscheinlichkeit, dass jemand mit einem positiven Test tatsächlich erkrankt ist! 28 Unabhängige Ereignisse Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen. Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind? Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975 Durch das Zurücklegen werden die beiden Ereignisse A = (erste Kugel weiß) und B = (zweite Kugel weiß) voneinander unabhängig: P(B|A) = P(B) = 6/11 Das wissen um A liefert keine Information für B Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls P(A ∩ B) = P(A)P(B) Beispiele: Mehrere Würfel, Münzen, etc. 29 Beispiel Unabhängigkeit In einer Gruppe von Leuten befinden sich 8 Raucher und 12 Raucherinnen, sowie 10 Nichtraucher. Wieviele Nichtraucherinnen sind in der Gruppe, falls bei der zufälligen Wahl einer Person das Geschlecht vom Rauchverhalten unabhängig ist? Lösung: Sei x die Zahl der Nichtraucherinnen P(raucht) = 20/(30 + x) P(männlich) = 18/(30 + x) P(raucht und männlich) = 8/(30 + x) Unabhängigkeit: ⇒ (20/(30 + x)) · (18/(30 + x)) = 8/(30 + x) 18 · 20 = 8 · (30 + x) Somit x = 15 Nichtraucherinnen. 30 ⇒ 45 = 30 + x Multiple Unabhängigkeit Drei Ereignisse A, B und C heissen unabhängig falls 1. alle 3 Ereignisse jeweils paarweise unabhängig 2. P(A ∩ B ∩ C) = P(A)P(B)P(C) Aus paarweiser Unabhängigkeit folgt NICHT multiple Unabhängigkeit! Übung: Zwei faire Würfel Ereignis A: Erster Würfel fällt auf 4 Ereignis B: Zweiter Würfel fällt auf 3 Ereignis C: Summe der Würfel gibt 7 31 Übungen - Wiederholung 1. Urne mit 3 blauen und 2 roten Kugeln, ziehe 3 mal mit zurücklegen Mit welcher Wahrscheinlichkeit • ist die zweite gezogene Kugel blau? • sind alle gezogenen Kugeln rot? • sind alle gezogenen Kugeln blau? • werden 2 rote Kugeln gezogen? 2. Wie 1) aber ziehen ohne zurücklegen! Hinweis: X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable 32 Inverse Fallacy Der falsche Umgang mit bedingten Wahrscheinlichkeiten gehört zu den häufigsten Fehlerquellen in der Anwendung der Wahrscheinlichkeitsrechung. Ein verbreiteter Fehlertyp ist die sogenannte inverse fallacy, die intuitive Gleichsetzung von P (A|B) mit P (B|A) (vgl. auch das obige Beispiel der Interpretation medizinischer Testergebnisse). Beispiel: Bei den meisten Unfällen ist das Unfallsopfer weniger als 25 km von daheim entfernt. (Irrtümliche) Folgerung: Am sichersten ist man, wenn man so weit von daheim weg ist wie möglich. P( Entfernung ≤ 25 | Unfall) > P( Entfernung > 25 | Unfall) ist richtig, nicht aber P( Unfall | Entfernung ≤ 25) > P( Unfall | Entfernung > 25). 33 Das Drei-Türen-Problem Ein weiterer Typ von Fehlern im Zusammenhang mit bedingten Wahrscheinlichkeiten resultiert aus der Vernachlässigung des Einflusses neuer Informationen auf die bedingte Wahrscheinlichkeit. Das Drei-Türen-Problem illustriert diesen Effekt. Marilyn vos Savant stellte in ihrer Kolumne im Magazin Parade im Jahr 1990 folgende Frage: “Angenommen Sie sind in einer Gewinnshow und haben die Wahl zwischen 3 Türen: Hinter einer Tür ist ein Auto, hinter den beiden anderen Türen Ziegen. Sie wählen eine Tür, sagen wir Nr. 1, und der Quizmaster, der weiss, was hinter den Türen ist, öffnet eine andere Tür, sagen wir Nr. 3, die eine Ziege dahinter hat. Er sagt dann zu Ihnen: ‘Wollen Sie Tür Nr. 2?’ Ist es vorteilhaft zu wechseln?” 34 Drei-Türen-Problem – Kontroverse Antwort von vos Savant: Ja, man sollte wechseln. Zahlreiche Leserbriefschreiber bestritten die Korrektheit der Antwort mit dem Argument: Türen 1 und 2 haben dieselbe Wahrscheinlichkeit, auf das Auto zu führen. Was soll sich durch das Öffnen von Tür 3 (hinter der kein Auto steht) daran ändern? Es bringt also nichts, die ursprüngliche Entscheidung zu revidieren. Dieses Argument ist falsch. Unter einschränkenden Voraussetzungen (nächste Folie) kann gezeigt werden, dass die Wahrscheinlichkeit, durch Wechseln das Auto zu erhalten, 2/3 beträgt, durch Beharren auf der ursprünglichen Wahl hingegen nur 1/3. 35 Drei-Türen – Präzisierung Voraussetzungen: 1. Die Wahrscheinlichkeit, mit der das Quiz-Team vor der Show das Auto hinter einer der Türen versteckt, ist für jede Tür dieselbe. 2. Der Quizmaster öffnet in jedem Fall eine Tür, die kein Auto enthält, und wenn er dabei die Wahl zwischen zwei Türen hat, gibt er beiden Türen dieselbe Wahrscheinlichkeit. Ohne diese Voraussetzungen ist das Problem wesentlich komplexer (vgl. etwa Richard Gill 2010). 36 Drei-Türen-Problem – Wahrscheinlichkeiten Angenommen, der Kandidat wählt Tür Nr. 1. A = Nr. der Tür, hinter der das Auto ist B = Nr. der Tür, die der Quizmaster öffnet Voraussetzung 1 besagt: P(A = 1) = P(A = 2) = P(A = 3) = 1/3 Voraussetzung 2 besagt: P(B = 2 | A = 1) = P(B = 3 | A = 1) = 1/2 P(B = 2 | A = 2) = P(B = 3 | A = 3) = 0 P(B = 3 | A = 2) = P(B = 2 | A = 3) = 1 37 Drei-Türen-Problem – Lösung Anwendung des Satzes von Bayes liefert: 1 P(A = 1) 1 3 P(A = 1 | B = 3) = P(B = 3 | A = 1) · = · P(B = 3) 2 P(B = 3) 1 P(A = 2) 3 =1· P(A = 2 | B = 3) = P(B = 3 | A = 2) · P(B = 3) P(B = 3) also ist die Gewinnwahrscheinlichkeit bei Wechseln doppelt so gross wie bei Beharren auf der ersten Wahl. (Anwendung des Satzes von der totalen Wahrscheinlichkeit liefert P(B = 3) = 1/2 und damit die Werte 1/3 bzw. 2/3 für die beiden obigen Wahrscheinlichkeiten.) 38 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2014/15 2 Diskrete Verteilungen 1. Einführung 2. Erwartungswert und Varianz 3. Die Binomialverteilung 4. Die Poissonverteilung 5. Andere diskrete Verteilungen 1 2.1 Einführung Beispiel: Fairer Würfel, Beobachtungen: 1, 2, 3, 4, 5, 6 Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6). Beim Würfeln beobachten wir Realisierungen einer Zufallsvariablen. (Reelle) Zufallsvariable: Abbildung eines Wahrscheinlichkeitsraums in die Menge der reellen Zahlen: X:Ω→R Im Beispiel: Ω = {1, 2, 3, 4, 5, 6} X(i) = i 2 Fortsetzung Beispiel Zwei faire Würfel, X = Summe der Augenzahlen. Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}. Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j). Zufallsvariable X : Ω → R gegeben durch X(i, j) = i + j. P (2) = P (12) = 1/36 P (3) = P (11) = 2/36 P (4) = P (10) = 3/36 P (5) = P (9) = 4/36 P (6) = P (8) = 5/36 P (7) = 6/36 Wertebereich: X = X(Ω) = {2, . . . , 12}. 3 Weiteres Beispiel Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z) Ω = {K, Z} Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust X:Ω→R X(K) = 10, X(Z) = −10, P (10) = P(X = 10) = P(K) = 0.5 P (−10) = P(X = −10) = P(Z) = 0.5 Wertebereich: X = X(Ω) = {−10, 10}. Bemerkung: In den letzten beiden Beispielen wurden die Elementarereignisse in Ω nicht mit den möglichen Werten der Zufallsvariable identifiziert! 4 Diskrete Zufallsvariable Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen, d.h. indizierbar mit 1, 2, . . .: Ω = {ω1 , ω2 , ω3 , . . . } Eine (reelle) Zufallsvariable X ist eine Funktion der Form X:Ω→R Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX wie folgt zugeordnet: P P : X → [0, 1], P (x) = P(X = x) = ω∈Ω:X(ω)=x pω , wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω ist. Wahrscheinlichkeiten der Elementarereignisse beschreiben Verteilung einer diskreten Zufallsvariable vollständig. 5 Verteilungsfunktion Englisch: Cumulative distribution function (cdf) P F : R → [0, 1], F (x) = P(X ≤ x) = xi ≤x P(X = xi ) Beispiel Würfel: 1 F(x) = P(X ≤ x) 0.8 0.6 0.4 0.2 0 −2 0 2 4 x 6 6 8 Gleichverteilung n mögliche Ereignisse mit gleicher Wahrscheinlichkeit Ω = {1, . . . , n} pi = 1/n Wählen X(i) = i, d.h. X = Ω. Verteilungsfunktion: 0, F (x) = i/n, 1, x<1 i ≤ x < i + 1, i = 1, . . . , n − 1 x≥n An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n Auch bei anderer Wahl der pi gilt folgender Zusammenhang zwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion: P (i) = F (i) − F (i − 1), falls i ∈ Ω 7 Eigenschaften der Verteilungsfunktion Für diskrete Zufallsvariablen gilt: Die Verteilungsfunktion ist eine monoton wachsende Treppenfunktion mit Sprungstellen bei Ereignissen mit positiver Wahrscheinlichkeit. Es gilt allgemein für Verteilungsfunktionen: • P (x) = F (x) − F (x− ), wobei F (x− ) = lim h→x,h<x Folgt aus der Definition von F (x) = P(X ≤ x) • P(a < X ≤ b) = F (b) − F (a) • lim F (a) = 0, a→−∞ lim F (b) = 1 b→∞ • F (x) monoton wachsend 8 F (h) Übung Die Verteilungsfunktion einer Zufallsvariablen X sei 0, x < 1 F (x) = 1 − 2−k , k ≤ x < k + 1, k = 1, 2, . . . 1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5] 2. Bestimme die Wahrscheinlichkeitsfunktion von X 3. Mit welcher Wahrscheinlichkeit ist X > 5? 9 2.2 Erwartungswert und Varianz Wesentliche Kenngrößen von Verteilungen Werden in der Praxis häufig verwendet ⇒ Reduktion der Information von Daten Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung, entspricht dem arithmetischen Mittel einer Stichprobe Varianz ist ein Maß für die Streuung einer Verteilung, entspricht den Abweichungen vom Mittelwert die man in einer Stichprobe erwarten kann Beide Kennzahlen basieren auf Momenten der Verteilung, und sind speziell für die Normalverteilung von großer Bedeutung 10 Erwartungswert Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P Definition Erwartungswert: E(X) = P xP (x) x∈X wobei wieder X = X(Ω) = Wertebereich von X. Gewichtete Summe der Werte, Gewichte sind Wahrscheinlichkeiten. µ = E(X) Übliche Notation: Beispiel Würfel: E(X) = = 1 · 1/6 + 2 · 1/6 + · · · + 6 · 1/6 1+2+3+4+5+6 = 21/6 = 3.5 6 11 Median Unter einem Median einer Zufallsvariablen X auf Ω versteht man eine Zahl m mit den Eigenschaften P(X ≤ m) ≥ 1/2, P(X ≥ m) ≥ 1/2. Der Median muss nicht eindeutig sein. Z.B. hat eine auf {1, . . . , 5} gleichverteilte Zufallsvariable einen eindeutigen Median (m = 3). Für eine auf {1, . . . , 6} gleichverteilte Zufallsvariable hingegen ist jede Zahl m mit 3 < m < 4 ein Median. Meist nimmt man in diesem Fall den mittleren Wert (hier 3.5) als Repräsentaten. Der Median kann sich vom Erwartungswert stark unterscheiden (typisches Beispiel: Einkommensverteilung!). Für eine auf {4, 5, 6, 8, 13, 18, 91} gleichverteilte Zufallsvariable etwa ist der Median 8, der Erwartungswert 29. 12 Funktionen von Zufallsvariablen Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einer Funktion g: X : Ω → R, g : R → R. Y (ω) := (g ◦ X)(ω) = g(X(ω)). Y : Ω → R, ist also wieder eine Zufallsvariable. Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildet wie die von X: P PY (y) = PY (Y = y) = ω∈Ω:Y (ω)=y pω . Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ). D.h. die Werte x werden transformiert zu Werten g(x). Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x). 13 Beispiele für Funktionen von Zufallsvariablen 1. Würfel, Ω = {1, . . . , 6}, X(ω) = ω, Funktion g(x) = x2 Die Zufallsvariable Y = X 2 hat Wertebereich Y = {1, 4, 9, 16, 25, 36} und WF PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6 2. Würfel, Ω = {1, . . . , 6}, Funktion ḡ(x) = (x − 3.5)2 . Die Zufallsvariable Z = (X − 3.5)2 hat Wertebereich Z = {2.52 , 1.52 , 0.52 } = {6.25, 2.25, 0.25} und WF P (6.25) = p1 + p6 = 1/3 P (2.25) = p2 + p5 = 1/3 P (0.25) = p3 + p4 = 1/3 Übung: Ω = {−1, 0, 1}, X(ω) = ω, P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2 Berechne WF von Y = X 2 und Z = X 3 14 Erwartungswert von Funktionen Beispiel: Würfel – Fortsetzung: 1) E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · · + 36 · 1/6 1 + 4 + 9 + 16 + 25 + 36 = 91/6 = 15.1667 = 6 2) E(ḡ(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167 Allgemein: Berechnung des Erwartungswerts von g(X): E(g(X)) = P g(x)P (x) x∈X Alternative Darstellung: P g(x)P (x) = x∈X P y∈Y 15 yPY (y) Anwendungsbeispiel: Erwartungsnutzentheorie Wenn die Zufallsvariable X “Gewinn” repräsentiert, kann von einem risikoneutralen Entscheidungsträger vermutet werden, dass er/sie bestrebt ist, E(X) zu maximieren. Menschen sind selten risikoneutral. Was hätten Sie lieber: • 1 000 000 Euro mit Sicherheit, oder • 2 000 001 Euro mit Wahrscheinlichkeit 0.5? Ein klassischer Erklärungsansatz für Risikoaversion liegt in der Annahme, dass der Entscheidungsträger nicht E(X) maximiert, sondern E(g(X)), wobei g eine konkave Nutzenfunktion ist (Expected Utility Theory). 16 Lineare Transformation Allgemein gilt für a, b ∈ R: E(aX + b) = aE(X) + b Beweis: E(aX + b) = X (ax + b)P (x) x∈X = a X xP (x) + b x∈X = aE(X) + b Speziell gilt: E(X − µ) = E(X − E(X)) = 0 17 X x∈X P (x) Varianz Var (X) := E(X − µ)2 Definition: Folgende Formel, die mitunter leichter zu berechnen ist als E(X − µ)2 , ist äquivalent: Var (X) = E(X 2 ) − µ2 Beweis: E(X − µ) 2 = X 2 (x − µ) P (x) = x∈X = X (x2 − 2µx + µ2 )P (x) x∈X 2 x P (x) − 2µ x∈X = X X x∈X xP (x) + µ 2 X P (x) x∈X E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2 Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln 18 Beispiel zur Varianz Drei Zufallsvariablen X1 , X2 , X3 X1 = 0 mit Wahrscheinlichkeit 1 X2 gleichverteilt auf {−1, 0, 1} X3 gleichverteilt auf {−50, −25, 0, 25, 50} Alle drei Zufallsvariabeln haben Erwartungswert 0 Var (X1 ) = 02 · P (0) = 0 Var (X2 ) = (−1)2 · 1/3 + 12 · 1/3 = 2/3 Var (X3 ) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250 Varianz plus MW gibt mehr Information über Verteilung als Mittelwert allein 19 Eigenschaften der Varianz Allgemein gilt für a, b ∈ R: Var (aX + b) = a2 Var (X) Beweis: Var (aX + b) = E(aX + b − aµ − b)2 = a2 E(X − µ)2 Speziell: Var (−X) = Var (X) Var (X + b) = Var (X) Übliche Notation: σ 2 = Var (X) σ . . . Standardabweichung: p SD(X) = Var (X) 20 Warum ist die Varianz ein gutes Maß? Man kann sich fragen, weshalb nicht anstelle der Varianz die mittlere Absolutabweichung E(|X − µ|) als Streuungsmaß genommen wird. Die Varianz hat jedoch mehrere thoretische und praktische Vorteile. Z.B. hätte man gerne, dass das Maß für die Abweichung von einem Wert µ′ dann am niedrigsten ist, wenn µ′ der Erwartungswert µ ist. Dies ist jedoch für die mittlere Absolutabweichung nicht der Fall: Für Gleichverteilung auf {0, 4, 5} etwa ist µ = 3, aber E(|X − 3|) = 2 > 5/3 = E(|X − 4|). Quadrieren der Abweichungen erfüllt die angegebene Forderung, denn E((X − µ′ )2 ) = E([(X − µ) + (µ − µ′ )]2 ) = Var (X) + (µ − µ′ )2 + 2E((X − µ)(µ − µ′ )) = Var (X) + (µ − µ′ )2 . 21 Momente von Verteilungen k-tes Moment einer Zufallsvariable: mk := E(X k ) zk = k-tes zentriertes Moment: E((X − µ)k ) m1 . . . Mittelwert z2 = m2 − m21 . . . Varianz Weiters von Bedeutung sind das dritte und das vierte Moment Schiefe: ν(X) := z3 σ3 = E(X∗3 ) wobei X∗ := (X − µ)/σ • ν(X) = 0 ... symmetrische Verteilung • ν(X) < 0 ... linksschief • ν(X) > 0 ... rechtsschief Kurtosis: z4 σ4 = E(X∗4 ) (auch Wölbung 22 → Normalverteilung) Übung: Schiefe Eine Zufallsvariable X habe folgende Wahrscheinlichkeitsverteilung: P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05 Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion Berechne die Schiefe! Lösung: −0.672 0.843/2 ∼ −0.8729 Wie lautet die Schiefe für die folgende leicht veränderte Verteilung? P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05 23 2.3 Binomialverteilung Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1) P(X = 1) = p, P(X = 0) = q Zum Beispiel faire Münze: wobei q = 1 − p p = 1/2 Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7 Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z? Ω = {0, 1}3 , Wertebereich von Z ist Z = {0, 1, 2} Die beiden Würfe sind voneinander unabhängig! P(Z = 0) = P(X1 = 0, X2 = 0) = P(X1 = 0)P(X2 = 0) = 0.32 = 0.09 P(Z = 1) = P(X1 = 0, X2 = 1) + P(X1 = 1, X2 = 0) = = 2 · P(X1 = 0)P(X2 = 1) = 2 · 0.3 · 0.7 = 0.42 P(Z = 2) = P(X1 = 1, X2 = 1) = P(X1 = 1)P(X2 = 1) = 0.72 = 0.49 24 Binomialverteilung n unabhängige Bernoulli Experimente mit P(X = 1) = p Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt: n k n−k P(Y = k) = k p q Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jede einzelne Sequenz mit k mal 1 und n − k mal 0 (in irgendeiner festen Reihenfolge) ist pk (1 − p)n−k Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohne Wiederholung Notation: Y ∼ B(n, p) Übung: Fünf unabhängige Würfe einer fairen Münze Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe! 25 Beispiel Binomialverteilung Prüfung mit Durchfallsquote von 20% Anzahl der Erfolge beim Antritt von 10 Studierenden? 10 P(X = 7) = · 0.87 · 0.23 = 0.2013 7 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 26 6 7 8 9 10 Beispiele Binomialverteilung: n = 10 p = 0.1 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 p = 0.3 0 1 2 3 4 5 6 7 8 9 0 10 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 4 5 6 7 8 9 0 10 27 p = 0.2 0 1 2 3 4 5 6 7 8 9 10 p = 0.5 0 1 2 3 4 5 6 7 8 9 10 Anwendung: Ziehen mit Zurücklegen Grundgesamtheit mit N Objekten • M der N Objekte erfüllen Eigenschaft E • Ziehe n Objekte mit zurücklegen Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen ist binomialverteilt: X ∼ B(n, M/N ) Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5 Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzen Kugeln • Wahrscheinlichkeitsfunktion von X? • Erwartungswert von X? 28 Erwartungswert der Binomialverteilung X ∼ B(n, p) ⇒ E(X) = np n−1 n Unter Verwendung von k k = n k−1 E(X) = = n n X X n − 1 k−1 n−k n k n−k p q k p q = np k−1 k k=1 k=1 n−1 X n − 1 np pi q n−1−i i i=0 und aufgrund des binomischen Lehrsatzes n−1 X i=0 n − 1 i n−1−i pq = (p + q)n−1 = 1 i Alternativer Beweis: Differenziere (p + q)n nach p 29 Varianz der Binomialverteilung X ∼ B(n, p) ⇒ Wiederum unter Verwendung von E(X 2 ) = = n X Var (X) = npq k n k =n n−1 k−1 n X n − 1 k−1 n−k 2 n k n−k k p q = np k p q k k−1 k=1 k=1 n−1 X n − 1 i n−1−i (i + 1) pq = np {(n − 1)p + 1} np i i=0 und daher Var (X) = E(X 2 ) − µ2 = np {(n − 1)p + 1} − (np)2 = np(1 − p) Alternativer Beweis: Differenziere (p + q)n zwei mal nach p 30 2.4 Die Poissonverteilung X = N0 = {0, 1, 2, · · · } Definition: P(X = k) = λk −λ k! e , λ>0 X ∼ P(λ) Notation: Poisson-verteilte Zufallsvariable kann im Prinzip beliebig große Werte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit Beispiel: λ=2 P(X ≤ 1) = P(X > 4) = = 20 −2 21 −2 e + e = (1 + 2)e−2 = 0.4060 0! 1! 4 8 16 −2 1 − P(X ≤ 4) = 1 − (1 + 2 + + + )e 2 6 24 1 − 0.9473 = 0.0527 31 Beispiele Poissonverteilung λ=1 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 λ=3 0 1 2 3 4 5 6 7 8 9 10 11 λ = 1.5 0 12 0 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 4 5 6 7 8 9 10 11 0 12 32 1 2 3 4 5 6 7 8 9 10 11 12 λ=5 0 1 2 3 4 5 6 7 8 9 10 11 12 Anwendung Modellierung von seltenen Ereignissen Beispiele • Zahl der Kunden innerhalb eines bestimmten Zeitraums • Radioaktiver Zerfall • Zahl von Tippfehlern pro Folie • Zahl von Menschen älter als 100 Jahre (pro 1 000 000) • Zahl von Fehlalarmen an einem Tag • etc. Zusammenhang zwischen Poisson-verteilten Ereignissen und der Wartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung 33 Erwartungswert und Varianz X ∼ P(λ) ⇒ E(X) = λ Beweis: ∞ ∞ ∞ k X X X λ λj λk −λ −λ −λ E(X) = = λe k e =e k! (k − 1)! j! j=0 k=1 k=0 X ∼ P(λ) ⇒ Var (X) = λ Beweis: E(X 2 ) = ∞ X k=0 ∞ ∞ k k X X kλ (j + 1)λj λ −λ −λ −λ 2 e =e = λe = λ(λ+1) k k! (k − 1)! j! j=0 k=1 E(X 2 ) − E(X)2 = λ(λ + 1) − λ2 = λ 34 Approximation der Binomialverteilung X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05) ⇒ X ∼ P(np) approximativ, d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np Motivation: Setze λ := np P(X = k) = n! pk q n−k k! (n − k)! = n(n − 1) · · · (n − k + 1) λk (1 − λ/n)n · k · k! n (1 − λ/n)k Für n groß und moderates λ (d.h. p klein) gilt n(n − 1) · · · (n − k + 1) ≈1 nk und daher P(X = k) ≈ λk k! (1−λ/n)k ≈ 1 e−λ 35 (1−λ/n)n ≈ e−λ Beispiel Poissonapproximation Vergleich Poissonapproximation (λ = 0.5) mit exakter Verteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05) Binomial: 1 P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959 0.95 0.9 + 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957 0.85 0.8 = 0.99897150206211 0.75 0.7 Poissonapproximation: 0.65 0.6 0.55 0 1 2 3 4 Blau: X ∼ B(10, 0.05) Grün: X̃ ∼ P(0.5) 5 6 P(X̃ ≤ 3) = 2 3 0.5 0.5 ≈ 1 + 0.5 + + e−0.5 2 6 = 0.99824837744371 36 2.5 Andere diskrete Verteilungen Wir werden behandeln: • Geometrisch • Hypergeometrisch Weitere Verteilungen (hier nicht behandelt): • Negativ binomial • Verallgemeinerte Poisson • Zetaverteilung • etc. 37 Geometrische Verteilung Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p X . . . Anzahl der Versuche bis zum ersten Erfolg Es gilt: P(X = k) = q k−1 p k − 1 Miserfolge mit Wahrscheinlichkeit q = 1 − p Übung: Urne mit N weißen und M schwarzen Bällen Ziehen mit zurücklegen a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, bis eine schwarze Kugel gezogen wird b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht, bis eine schwarze Kugel gezogen wird 38 Erwartungswert und Varianz ∞ P Beachte: k q = k=0 1 1−q Differenzieren liefert: und daher ∞ P kq k−1 = ∞ X Nochmals Differenzieren: d dq kq k−1 p = k=1 ∞ P ∞ P qk = k=0 2 E(X ) = k=1 Und daher: 2 k−1 k q p = pq ∞ X k(k − 1)q k(k − 1)q k−2 = k−2 +p k=1 =1 1 (1−q)2 d2 dq 2 ∞ X ∞ P qk = k=0 kq k−1 k=1 Var (X) = E(X 2 ) − E(X)2 = 39 p p = 1 p = (1 − q)2 p k=1 ∞ X p 1−q q k−1 p = k=1 k=1 E(X) = ∞ P 2 p2 − 1 p − 1 p2 2 (1−q)3 2pq 1 = 3 + p p = 1−p p2 Beispiel: Iterierte Spiele Für die Theorie der Iterierten Spiele ist folgendes Beispiel grundlegend: Ein Spiel kann mehrere Runden hindurch fortgesetzt werden. Nach jeder Runde kommt es mit einer Wahrscheinlichkeit q < 1 zu einer weiteren Runde; andernfalls wird die Serie abgebrochen. In Runde k (k = 1, 2, . . .) erzielt der Spieler einen Gewinn der Höhe ak . Wie hoch ist der erwartete Gesamtgewinn? Offensichtlich ist die Anzahl der gespielten Runden geometrisch verteilt. Die Wahrscheinlichkeit, dass Runde k zustandekommt, ist q k−1 . ∞ ∞ X X E(Gesamtgewinn) = ak q k−1 = ak−1 q k . k=1 Für ak ≡ a ergibt das z.B. a/(1 − q). 40 k=0 Beispiel: St.-Petersburg-Paradoxon Das folgende klassische Beispiel, das ebenfalls auf der geometrischen Verteilung beruht, weist auf die Grenzen des Konzepts “Erwartungswert” hin: St.-Petersburg-Paradoxon. Ein Casino bietet eine Spielvariante gemäß folgenden Regeln an: Eine Münze wird so lange geworfen, bis zum ersten Mal “Kopf” kommt. Sei K die Anzahl der dafür nötigen Münzwürfe. Der Spieler erhält eine Auszahlung der Höhe X = 2K . Wieviel sollte der Spieler bereit sein zu bezahlen, um dieses Spiel spielen zu dürfen? 41 St.-Petersburg-Paradoxon: Fortsetzung Fair ist das Spiel offenbar dann, wenn der Einsatz des Spielers gerade den Erwartungswert der Auszahlung kompensiert. Dieser ist jedoch E(X) = ∞ X 2k · (1/2)k−1 · (1/2) = k=1 ∞ X 1 = ∞, k=1 denn die Zufallsvariable K ist geometrisch verteilt mit q = 1/2. Obwohl also das Spiel einen unendlich hohen Einsatz wert zu sein scheint, ist die tatsächlich resultierende Auszahlung mit Wahrscheinlichkeit 1 nur endlich! Konsequenz: Der Erwartungswert ist nur dann ein sinnvolles Maß, wenn er endlich ist. 42 Hypergeometrische Verteilung Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß, Ziehe 4 Kugeln mit bzw. ohne Zurücklegen. Berechne jeweils Verteilung der gezogenen schwarzen Kugeln! 0.45 0.45 0.4 0.4 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 0 4 Mit Zurücklegen 0 1 2 3 Ohne Zurücklegen 43 4 Hypergeometrische Verteilung N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n Objekte ohne zurücklegen, X die Anzahl der gezogenen Objekte mit Eigenschaft E. −M (Mk )(Nn−k ) P(X = k) = (Nn ) a Wir verwenden hier die Definition b = 0, falls a < b Klarerweise gilt P(X = k) = 0 falls M < k Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden Ebenfalls klar dass P(X = k) = 0 falls N − M < n − k Ich kann nicht mehr weiße Kugeln ziehen als vorhanden Insgesamt: X = {k : max(0, n − N + M ) ≤ k ≤ min(n, M )} 44 Erwartungswert und Varianz Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich) E(X) = nM N , Var (X) = nM N (1 − M N −n N ) N −1 , Definiere p := M N und betrachte Ähnlichkeit zur Binomialverteilung E(X) = np gleiche Formel wie bei Binomial −n Var (X) = np(1 − p) N N −1 Nämlich limN →∞ N −n N −1 asymptotisch wie bei Binomial =1 Wenn N und M sehr groß im Vergleich zu n, dann gilt (ohne Beweis) näherungsweise X ∼ B(n, M N) 45 Beispiel Hypergeometrische Verteilung Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern, 10 Kartons enthalten zumindest ein zerbrochenes Ei, Stichprobe der Größe 6 • Mit welcher Wahrscheinlichkeit enthalten zwei der sechs entnommenen Kartons kaputte Eier? N = 30, M = 10, n = 6 P(X = 2) = 20 4 10 2 30 6 = 0.3672 • Erwartungswert und Varianz für die Anzahl der Kartons in der Stichprobe mit kaputten Eiern? E(X) = 6 · 10 30 = 2; Var (X) = 6 · 46 1 3 · 2 3 · 24 29 = 1.1034 Übung Approximation durch Binomialverteilung Lotterie mit 1000 Losen, davon 200 Gewinnlose Kaufe 5 Lose 1. Berechne die Wahrscheinlichkeit, dass mindestens ein Los gewinnt Lösung: 0.6731 2. Berechne die Gewinnwahrscheinlichkeit von 1. mittels Binomial-Approximation Lösung: 0.6723 47 Zusammenfassung diskrete Verteilungen • Gleichverteilung: X = {x1 , . . . , xn } , • Binomialverteilung: X ∼ B(n, p), Es gilt E(X) = np, P(X = k) = P(X = k) = pk q n−k λk k! e−λ P(X = k) = p q k−1 Es gilt E(X) = p−1 , Var (X) = q p−2 • Hypergeometrische: M k Es gilt E(X) = np, X = {0, 1, 2 . . . } Var (X) = λ • Geometrische Verteilung: n k X = {0, . . . , n} Var (X) = npq • Poissonverteilung: X ∼ P(λ), Es gilt E(X) = λ, P(X = xk ) = 1/n P(X = k) = X = {1, 2 . . . } N −M n−k / −n Var (X) = np(1 − p) N N −1 , 48 N n p= M N Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2014/15 3 Stetige Verteilungen 1. Einführung 2. Exponentialverteilung 3. Normalverteilung 4. Normalverteilungsapproximation 5. Andere stetige Verteilungen 1 3.1 Einführung Diskrete Zufallsvariable: Ω endlich oder abzählbar Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder ein kartesisches Produkt von Intervallen im Raum Rn ) Beispiele: • Wartezeit auf den nächsten Kunden • Größe bzw. Alter einer Person • Umsatz einer Firma • Gewicht eines Gegenstandes Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelle Zahl beschreiben 2 Verteilungsfunktion Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktion zugeordnet: F (x) = P(X ≤ x) stetig in x Beispiel: Gleichverteilung auf Intervall [0, 1] 2 1.5 F(x) 1 0.5 0 −0.5 −1 −1 −0.5 0 0.5 x 3 1 1.5 2 Berechnung von Wahrscheinlichkeiten Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0: P(X = x) = F (x) − F (x− ) = 0 wegen Stetigkeit von F Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der X einen Wert in einem Intervall [a, b] annimmt: P(a ≤ X ≤ b) = F (b) − F (a) So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls 0 ≤ a < b ≤ 1: P(a < XId < b) = b − a Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b) 4 Dichtefunktion Sei F (x) differenzierbar. Definition: f (x) := F ′ (x) Dichtefunktion der Zufallsvariable X Hauptsatz der Analysis: F (x) = und daher R f (x)dx + c P(a < X ≤ b) = F (b) − F (a) = Zb f (x)dx x=a Zum Vergleich: Bei diskreten Zufallsvariablen ist X P(a < X ≤ b) = F (b) − F (a) = P (x) a<x≤b 5 Eigenschaften der Dichtefunktion Für die Dichtefunktion (kurz Dichte) gilt • f (x) ≥ 0, • • ∀x ∈ R lim f (x) = 0, lim f (x) = 0 x→−∞ R∞ x→∞ f (x)dx = 1 x=−∞ Die Dichtefunktion f (x) ist nicht die Wahrscheinlichkeit dafür, dass X den Wert x annimmt! Für kleines ǫ gilt P(x − ǫ < X ≤ x + ǫ) ≈ f (x) · 2ǫ 6 Beispiele 1) X gleichverteilt auf dem Intervall [0, 1] F (x) = x, x ∈ [0, 1] ⇒ f (x) = 1, x ∈ [0, 1] 2) X gleichverteilt auf dem Intervall [l, r], f (x) = c, x ∈ [l, r] Welchen Wert hat c? cx2 , x ∈ [0, 1] 3) X mit Dichte f (x) = 0 sonst Welchen Wert hat c? Berechne P(0.25 < X < 0.75) 7 l < r, l, r ∈ R Erwartungswert und Varianz von stetigen ZV Analog zur Definition bei diskreten ZV: R∞ E(X) = xf (x)dx x=−∞ und Var (X) = R∞ (x − µ)2 f (x)dx x=−∞ Es gilt wiederum: E(aX + b) = aE(X) + b Var (aX + b) = a2 Var (X) Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert und Varianz! 8 Erwartungswert von Funktionen von ZV Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis): E(g(X)) = R∞ g(x)f (x)dx x=−∞ Daher folgt: Und auch: Z∞ Var (X) = E(X − E(X))2 Var (X) = E(X 2 ) − E(X)2 (x − µ)2 f (x)dx = Z∞ (x2 − 2µx + µ2 )f (x)dx x=−∞ x=−∞ = Z∞ x2 f (x)dx − 2µ Z∞ x=−∞ x=−∞ 9 xf (x)dx + µ2 Funktionen von stetigen Zufallsvariablen Sei g eine reellwertige Funktion g : X → R und g(X ) = Y. Falls g streng monoton wachsend, existiert Umkehrabbildung g −1 : Y → X Verteilungsfunktion von Y = g(X) berechnet man wie folgt: FY (y) = P(g(X) ≤ y) = P(X ≤ g −1 (y)) = F (g −1 (y)) Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX g −1 (y) = ln(y) Y = g(X ) = [e0 , e1 ] = [1, e] FY (y) = P(Y ≤ y) = FX (ln(y)) = ln(y), 10 y ∈ [1, e] Funktionen von stetigen Zufallsvariablen Interpretation: Koordinatenwechsel Die Werte der Zufallsvariable werden transformiert 2 2 1.5 1.5 1 1 F (y) 0.5 Y F(x) Bei streng monotoner Transformation bleiben die Wahrscheinlichkeiten der transformierten Intervalle gleich (vgl. diskrete Zufallsvariable) 0.5 0 0 −0.5 −0.5 −1 −1 −0.5 0 0.5 1 1.5 −1 0.5 2 x 1 1.5 2 y = g(x) 11 2.5 3 Funktionen von stetigen Zufallsvariablen Falls g streng monoton fallend ⇒ g −1 existiert P(g(X) ≤ y) = P(X ≥ g −1 (y)) = 1−P(X < g −1 (y)) = 1−F (g −1 (y)) Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraum von g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 21 )2 √ g −1 (y) = 21 ± y g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1] 2 P((X − µ) ≤ y) = = √ √ P(1/2 − y ≤ X ≤ 1/2 + y) √ √ FX (1/2 + y) − FX (1/2 − y) 12 Dichte von transformierten Zufallsvariablen g streng monoton und differenzierbar Wie lautet Dichte von Y = g(X)? fY (y) = d dy FY (y) = d −1 (y)) dy F (g = fX (g −1 (y)) · d −1 (y) dy g (Differenzieren der transformierten Verteilungsfunktion unter Beachtung der Kettenregel!) Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX FY (y) = ln(y), y ∈ [1, e] Oder mit Formel: ⇒ fY (y) = y1 , y ∈ [1, e] fX (g −1 (y)) = d −1 g (y) = dy 13 1 denn fX (x) ≡ 1 1 y 3.2 Exponentialverteilung Stetige Zufallsvariable X ist exponentialverteilt mit Parameter λ > 0 falls Dichte λe−λx , x ≥ 0 f (x) = 0, x < 0 Zugehörige Verteilungsfunktion 1 − e−λx , F (x) = 0, Beweis: Einfache Integration 14 x≥0 x<0 Plots Exponentialverteilung Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3 3 1 0.9 2.5 0.8 λ=1 λ=2 λ=3 2 0.7 F(x) f(x) 0.6 1.5 0.5 0.4 1 0.3 λ=1 λ=2 λ=3 0.2 0.5 0.1 0 0 0.5 1 1.5 2 2.5 0 3 x 0 0.5 1 1.5 2 2.5 x Je größer λ desto schneller fällt die Dichtefunktion. Wir vermuten daher: Je größer λ desto kleiner µ und auch σ. 15 3 Erwartungswert X exponentialverteilt mit Parameter λ R ′ R ′ Partielle Integration u v = uv| − uv anwenden. E(X) = Z∞ xλe −λx dx = x=0 = 2 E(X ) = −λx ∞ 1 e = 0− λ 0 λ Z∞ x λe 0+ 2 2 E(X) = 2 λ λ 2 −λx dx = x=0 = und daher Var (X) = 2 λ2 − 1 λ2 16 −λx ∞ −xe 0 ∞ −x2 e−λx 0 = 1 λ2 + Z∞ e−λx dx Z∞ 2xe−λx dx x=0 + x=0 Übung Angenommen die Länge eines Telephongespräches in Minuten ist exponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zu einer Telephonzelle wo unmittelbar zuvor jemand ein Gespräch begonnen hat. Wie groß ist die Wahrscheinlichkeit dass du 1. weniger als 10 Minuten 2. genau 10 Minuten 3. zwischen 10 und 20 Minuten 4. länger als 20 Minuten warten mußt bis die Telephonzelle frei wird? 17 Zusammenhang mit Poissonverteilung Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.): • Die Zeit T zwischen dem Eintreffen zweier aufeinanderfolgender Ereignisse ist (unabhängig) exponentialverteilt mit Parameter λ. • Für jedes Zeitintervall [t1 , t2 ] ist die Häufigkeit der während [t1 , t2 ] auftretenden Ereignisse poissonverteilt mit Parameter λ(t2 − t1 ). t1 ✉ x1 T ✉ x2 t2 Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ), λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1. 18 Übung X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraum ausfällt (Maschinen laufen 24h durchgehend) Im Mittel fallen 3 Maschinen pro Tag aus Annahme X poissonverteilt a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht? b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keine Maschine aus? c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stunden zwei Maschinen aus? 19 Gedächtnislosigkeit Die Verteilung von X ist gedächtnislos, wenn P(X > s + t|X > t) = P(X > s) D.h. Vorgeschichte bietet keinerlei Information Exponentialverteilung ist gedächtnislos: Definition ist äquivalent zu P(X > s + t) = P(X > s)P(X > t) und es gilt e−λ(s+t) = e−λs e−λt Exponentialverteilung ist einzige gedächtnislose stetige Verteilung! Übung: Im diskreten Fall geometrische Verteilung gedächtnislos (Diskretes Analogon zur Exponentialverteilung) 20 3.3 Normalverteilung 2 X ∼ N (µ, σ ) −(x−µ)2 /2σ 2 √ 1 e 2π σ falls f (x) = Standardnormalverteilung N (0, 1): 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 1 2 Gaußsche Glockenkurve 21 3 Normalverteilung Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung und Statistik aufgrund des zentralen Grenzwertsatzes! f ist tatsächlich Wahrscheinlichkeitsdichte: 1 √ 2π σ Z∞ x=−∞ −(x−µ)2 /2σ 2 e 1 dx = √ 2π Zunächst Variablensubstitution z ← Z∞ −z 2 /2 e dz = 1 z=−∞ x−µ σ dann verschiedene Möglichkeiten zur Berechnung des uneigentlichen Integrals Rx Verteilungsfunktion F (x) = f (y)dy lässt sich nicht in y=−∞ geschlossener Form darstellen (keine einfache Formel) ⇒ Tabellen für die Normalverteilung 22 Standardnormalverteilung X ∼ N (0, 1), Φ(x) := P(X ≤ x) übliche Notation: 2 1 ϕ(x) := Φ′ (x) = √ e−x /2 2π Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet) Grund: ϕ ist symmetrisch und somit ϕ(−x) = ϕ(x) ⇒ Φ(−x) = 1 − Φ(x) Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt P(−1 ≤ X ≤ 2) = P(X ≤ 2) − P(X < −1) = Φ(2) − {1 − Φ(1)} = 0.9772 − 1 + 0.8413 = 0.8186 Werte von Φ(2) und Φ(1) aus Tabelle 23 Verteilungsfunktion der SNV Einige wesentliche Werte von Φ(x): Φ(0) = 0.5; Φ(1.645) = 0.95; Φ(1.96) = 0.975 Der Graph von Φ(x): 1 0.8 0.6 0.4 0.2 0 −3 −2 −1 0 24 1 2 3 Erwartungswert Sei X ∼ N (µ, σ 2 ) Substitution z ← x−µ σ E(X) = = da g(z) := z e−z und √1 2π R∞ 2 /2 e−z 2 liefert 1 √ 2π σ 1 √ 2π Z∞ −(x−µ)2 /2σ 2 xe dx x=−∞ Z∞ −z 2 /2 (σz + µ)e dz = µ z=−∞ antisymmetrisch (d.h. g(−z) = −g(z)) /2 dz = 1 x=−∞ 25 Varianz Wiederum Substitution z ← Integration liefert Var (X) = = = 1 √ 2π σ σ2 √ 2π x−µ σ Z∞ und anschließend partielle 2 −(x−µ)2 /2σ 2 (x − µ) e x=−∞ Z∞ 2 −z 2 /2 z e dx dz z=−∞ ∞ 2 σ2 √ −ze−z /2 + −∞ 2π Somit gezeigt: X ∼ N (µ, σ 2 ) ⇒ 26 Z∞ z=−∞ e−z 2 /2 dz = σ2 E(X) = µ, Var (X) = σ 2 Lineare Transformation Wesentliche Eigenschaft: X ∼ N (µ, σ 2 ) ⇒ Y := aX + b ∼ N (aµ + b, a2 σ 2 ) Beweis: Nehmen a > 0 an. (Fall a < 0 analog.) Transformationssatz für Dichten: fY (y) = fX (g −1 (y)) · Hier: g(x) = ax + b ⇒ d −1 g (y) dy g −1 (y) = (y − b)/a, d −1 (y) dy g Und somit fY (y) = = fX ((y − a)/b) · 1/a 1 −(y−aµ−b)2 /2a2 σ 2 √ e 2πσa Dies ist die Dichte einer N (aµ + b, a2 σ 2 ) 27 = 1/a Normalisierung Daraus folgt unmittelbar X ∼ N (µ, σ 2 ) ⇒ Z := X−µ σ ∼ N (0, 1) Normalverteilung für verschiedene µ und σ 0.45 µ = −2 µ=0 µ=2 0.4 0.8 0.7 0.35 σ = 1/2 0.6 0.3 0.5 0.25 0.4 σ=1 0.2 0.3 0.15 0.2 σ=2 0.1 0.1 0.05 0 −5 0 −3 −4 −3 −2 −1 0 1 2 3 4 −2 −1 0 1 2 5 σ 2 . . . Varianz µ . . . Mittelwert 28 3 Beispiel Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten: 1. P(2 < X < 5) 2. P(X > 0) 3. P(|X − 3| > 6) Lösungen 1) 2) 3) X −3 5−3 2 1 2−3 < < =Φ −Φ − P 3 3 3 3 3 ≈ 0.7486 − (1 − 0.6293) = 0.3779 0−3 X −3 < P = Φ(1) ≈ 0.8413 3 3 6−3 X −3 < 2·P = 2 · (1 − Φ(2)) ≈ 0.0456 3 3 29 Quantile der Normalverteilung Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eine Wahrscheinlichkeit γ - Quantil xγ jene Zahl für die F (xγ ) = γ xγ = F −1 (γ), wobei F −1 Umkehrabbildung der Verteilungsfunktion Normalverteilung: explizite Berechnung nicht möglich 0.45 0.4 0.35 0.3 0.25 ⇒ Tabellen oder mittels Computer 0.2 γ 0.15 0.1 Standard-NV: xγ = Φ−1 (γ) 0.05 0 −3 −2 30 −1 0 1 x γ 2 3 Symmetrische Intervalle X ∼ N (µ, σ 2 ) ⇒ P(|X − µ| ≤ x) = 2 · Φ( σx ) − 1 Beweis: P(−x + µ ≤ X ≤ x + µ) = 2 · P(X ≤ x + µ) − 1 Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt: P(|X − µ| ≤ zγ ) = γ für zγ = σ Φ Übung: Sei X normalverteilt mit σ 2 = 4 Bestimme x derart, dass P(X − µ ≤ x) = 0.95 bzw. P(|X − µ| ≤ x) = 0.95 31 −1 1+γ 2 3.4 Normalverteilungsapproximation Betrachte für großes n die Wahrscheinlichkeitsfunktion einer Binomialverteilung und vergleiche mit der Dichtefunktion der Normalverteilung 0.09 0.45 0.08 0.4 0.07 0.35 0.06 0.3 0.05 0.25 0.04 0.2 0.03 0.15 0.02 0.1 0.01 0.05 0 30 35 40 45 50 55 60 65 0 70 X ∼ B(100, 0.5) −3 −2 −1 0 1 X ∼ N (0, 1) 32 2 3 Grenzwertsatz nach DeMoivre - Laplace Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mit Erfolgswahrscheinlichkeit p. Dann gilt für a < b: −np ≤ b → Φ(b) − Φ(a) P a ≤ S√nnpq für n → ∞ d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiert gegen Standardnormalverteilung Beweis: Spezialfall des zentralen Grenzwertsatzes. Zentraler Grenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. Ist Sn binomialverteilt, so ist es Summe unabhängiger "Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p). Anwendbarkeit: npq ≥ 9. 33 Stetigkeitskorrektur B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig ⇒ Stetigkeitskorrektur: P (a ≤ Sn ≤ b) ≈ Φ b+0.5−np √ npq −Φ a−0.5−np √ npq 1 0.9 0.8 0.7 blau: B(40, 0.5) grün: N (20, 10) 0.6 0.5 0.4 0.3 0.2 0.1 0 15 16 34 17 18 19 20 21 22 23 24 25 Übung Angenommen 30% der Bevölkerung kennen ein Produkt. Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeit dass 1. genau 55 Personen das Produkt kennen 2. mehr als 55 Personen das Produkt kennen 3. 55 bis 64 Personen das Produkt kennen Löse mit Normalverteilungsapproximation Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen – worin liegt das Problem? 35 Normalverteilungsapproximation für hypergeometrische Verteilung Analog zur Binomialverteilung gilt auch für eine hypergeometrisch verteilte Zufallsvariable mit Parametern N, M und n: a−0.5−µ b+0.5−µ −Φ P (a ≤ Sn ≤ b) ≈ Φ σ σ M 2 wobei hier µ = n M und σ = n N N (1 − Anwendbarkeit: σ2 ≥ 9 M N −n N ) N −1 N ≥ 2n und Übung: Lieferung von 2500 Milchpackungen, 12 % verdorben Zufällige Stichprobe von 100 Packungen, p sei Anteil der entdeckten verdorbenen Packungen Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15% 36 3.5 Andere stetige Verteilungen Große Vielfalt an stetigen Verteilungen Besprechen hier nur zwei wichtige Familien: • Gamma - Verteilung Verallgemeinerung der Exponentialverteilung • Beta - Verteilung Verteilungen mit Träger auf Intervall [0, 1] Sowohl Beta- als auch Gamma - Verteilung hängt von zwei Parametern ab Für unterschiedliche Parameter ganz unterschiedliche Form ⇒ Modellierung von verschiedenen Sachverhalten 37 Gamma - Verteilung Exponentialverteilung ist ein Spezialfall der Gammaverteilung X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte −λx λe (λx)t−1 , x ≥ 0 Γ(t) f (x) = 0, x < 0 wobei Γ(t) = R∞ e−x xt−1 dx x=0 Diese Definition garantiert, dass f tatsächlich Dichtefunktion t=1 ⇒ Exponentialverteilung t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisse aufgetreten sind 38 Eigenschaften von Γ - Funktion und Γ - Verteilung Γ - Funktion: Γ(t) = R∞ e−x xt−1 dx x=0 Partielle Integration liefert: Γ(t) = (t − 1)Γ(t − 1) Spezialfall der Rekursionsformel für t = n ∈ N: Γ(n) = (n − 1)Γ(n − 1) = · · · = (n − 1)(n − 2) · · · Γ(1) = (n − 1)! da ja Γ(1) = 1 Notation: X ∼ Γ(t, λ) . . . Γ-Verteilung mit Parametern t und λ, Mit Hilfe der Rekursionsformel zeigt man leicht E(X) = λt , Var (X) = 39 t λ2 Beispiele für Gamma - Verteilung • Γ(1, λ) . . . Exponentialverteilung Γ(n, λ) . . . Wartezeiten auf n Ereignisse • Γ( n2 , 12 ) . . . χ2 -Verteilung mit n Freiheitsgraden 0.8 0.8 t=1 t=2 t=3 t=4 t=6 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 1 2 3 4 t=1/2 t=1 t=3/2 t=2 t=3 0.7 0 5 0 1 2 3 4 2t ∈ N, λ = 1/2 t ∈ N, λ = 1 40 5 Beispiele für Gamma - Verteilung 2 Γ(t, 1) . . . Standard Γ-Verteilung Es gilt: X ∼ Γ(t, λ) ⇒ λX ∼ Γ(t, 1) Abhängigkeit von λ Abhängigkeit von t 4 4 t=1 t=2 t=3 t=4 t=6 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 0.5 1 λ=1 λ=2 λ=3 λ=4 λ=6 3.5 0 1.5 0 0.5 1 t = 4/3, λ ∈ N t ∈ N, λ = 5 41 1.5 Beta - Verteilung Famile von Verteilungen mit beschränktem Träger X ist B-verteilt mit Parametern a, b > 0 falls Dichte a−1 x (1−x)b−1 , 0 < x < 1 B(a,b) f (x) = 0, sonst wobei B(a, b) = R1 xa−1 (1 − x)b−1 dx x=0 Diese Definition garantiert wiederum, dass f tatsächlich Dichtefunktion Zur Modellierung von Zufallsereignis Y im Bereich [l, r] ⇒ Variablentransformation 0 ← l und 1 ← r 42 d.h. X = Y −l r−l Mittelwert und Varianz Es gilt für die B-Funktion Γ(a)Γ(b) B(a, b) = Γ(a + b) (ohne Beweis) Unter Verwendung der Eigenschaften der Γ-Funktion oder mittels partieller Intergration zeigt man leicht, B(a + 1, b) = a B(a, b) a+b und für X Beta-verteilt mit Parametern a und b gilt: E(X) = a a+b , Var (X) = 43 ab (a+b)2 (a+b+1) Beispiele von Beta - Verteilungen ⇒ Falls a = b symmetrische Verteilung • a = b = 1, . . . Gleichverteilung • a = b > 1, . . . Unimodal • a = b < 1, . . . U - förmig 4 4 a=b=1 a=b=2 a=b=3 a=b=4 a=b=6 3.5 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 a=b=1 a=b=1/2 a=b=1/3 a=b=1/4 a=b=1/6 0 1 a = b ≥ 1, 0 0.1 0.2 0.3 0.4 0.5 0.6 a = b ≤ 1, 44 0.7 0.8 0.9 1 Weitere Beispiele von Beta - Verteilungen b = 1.5 4 4 a=1 a=2 a=3 a=4 a=6 3.5 a≥1 3.5 3 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 1 4 a ≤ 1, 0 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 3 2.5 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 b=1 b=1/2 b=1/3 b=1/4 b=1/6 3.5 3 0 0.1 4 b=1 b=2 b=3 b=4 b=6 3.5 b≥1 a=1 a=1/2 a=1/3 a=1/4 a=1/6 0 1 b≤1 0 a=2 45 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2014/15 4 Mehrdimensionale Verteilungen 1. Einführung 2. Unabhängige Zufallsvariablen 3. Kovarianz, Korrelation 4. Bedingte Verteilung 5. Bivariate Normalverteilung 1 4.1 Einführung Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen zwei Zufallsvariablen . . . bivariat zwei oder mehr ZV . . . multivariat Konzepte: • Gemeinsame Verteilungsfunktion • rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion • rein stetig: Gemeinsame Dichte 2 Gemeinsame Verteilungsfunktion Zunächst bivariat, Zufallsvariablen X und Y Definiere die gemeinsame Verteilungsfunktion als F (x, y) := P(X ≤ x, Y ≤ y), −∞ < x, y < ∞ Bivariate Verteilung dadurch vollständig charakterisiert P(x1<X≤x2 , y1<Y ≤y2 ) = F (x2 , y2 )−F (x1 , y2 )−F (x2 , y1 )+F (x1 , y1 ) für x1 < x2 und y1 < y2 Randverteilung: Idee: Analog FX (x) := P(X ≤ x) = F (x, ∞) P(X ≤ x) = P(X ≤ x, Y < ∞) = lim F (x, y) y→∞ FY (y) := P(Y ≤ y) = F (∞, y) 3 Bivariate stetige Zufallsvariable X und Y heißen gemeinsam stetig falls gemeinsame Dichtefunktion existiert: ∂2 F (x, y) f (x, y) = ∂x ∂y Gemeinsame Verteilungsfunktion ergibt sich mittels Integration F (a, b) = Za Zb f (x, y) dxdy y=−∞ x=−∞ Erhalte Dichte der Randverteilung durch Integrieren über Y: fX (x) = Z∞ f (x, y) dy y=−∞ Werden später speziell bivariate Normalverteilung besprechen 4 Beispiel: Bivariate Gleichverteilung X und Y bivariat gleichverteilt auf [0, 1] × [0, 1] ⇒ Dichte 0 ≤ x, y ≤ 1. f (x, y) = 1, Gemeinsame Verteilungsfunktion F (a, b) = Zb Za f (x, y) dxdy = a b, 0 ≤ a, b ≤ 1. y=0 x=0 Dichte der Randverteilung: fX (x) = Z∞ f (x, y) dy = 1, y=−∞ gibt Dichte der univariaten Gleichverteilung 5 0≤x≤1 Übung: Bivariate Gleichverteilung X und Y bivariat gleichverteilt auf [−1, 1] × [−1, 1] • Berechne die Wahrscheinlichkeit, dass max{|X|, |Y |} < 1/2. • Berechne die Wahrscheinlichkeit, dass X 2 + Y 2 < 1. Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formale Integration nicht wirklich notwendig. Berechnung von Wahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich von Flächen. 6 Bivariate diskrete Zufallsvariable X und Y beide diskret Definiere die gemeinsame Wahrscheinlichkeitsfunktion p(x, y) = P(X = x, Y = y) Es gilt natürlich p(x, y) = F (x, y) − F (x− , y) − F (x, y − ) + F (x− , y − ) Erhalte Wahrscheinlichkeitsfunktion von X durch Summieren über Y: X pX (x) = P(X = x) = p(x, y) y∈Y 7 Beispiel Urne mit 3 roten, 4 weißen und 5 blauen Bällen; ziehe zufällig 3 Bälle ohne Zurücklegen X . . . Anzahl der roten gezogenen Kugeln Y . . . Anzahl der weißen gezogenen Kugeln z. Bsp.: p(0, 1) = P(0R, 1W, 2B) = 3 0 4 5 1 2 / 12 3 = 40/220 j i 0 1 2 3 pX 0 10/220 40/220 30/220 4/220 84/220 1 30/220 60/220 18/220 0 108/220 2 15/220 12/220 0 0 27/220 3 1/220 0 0 0 1/220 pY 56/220 112/220 48/220 4/220 220/220 8 Multivariate Zufallsvariablen Mehr als zwei Zuvallsvariablen Gemeinsame Verteilungsfunktion für n Zufallsvariablen F (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn ) Diskret: Gemeinsame Wahrscheinlichkeitsfunktion: p(x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn ) Randverteilung wiederum durch Summieren über alle Komponenten, die gerade nicht von Interesse, z. Bsp. X X p(x1 , . . . , xn ) ··· pX1 (x1 ) = x2 ∈X2 xn ∈Xn 9 Multinomialverteilung Eine der wichtigsten multivariaten diskreten Verteilungen n unabhängige Experimente mit r möglichen Ausgängen mit Wahrscheinlichkeiten p1 , . . . , pr Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt P(X1 = n1 , . . . , Xr = nr ) = falls Pr i=1 n! n1 !···nr ! pn1 1 · · · pnr r ni = n. Verallgemeinerung der Binomialverteilung (r = 2) Übung: Werfe 5 Würfel, Wahrscheinlichkeit für Strasse, Poker, bzw. Full House 10 4.2 Unabhängige Zufallsvariablen Zwei Zufallsvariablen X und Y heißen unabhängig falls für alle Ereignisse A und B gilt P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B) Information über den Wert von X ändert nicht die Verteilung von Y X und Y genau dann unabhängig falls P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b) d.h. F (a, b) = FX (a) FY (b) für alle a, b. Ebenfalls äquivalent zu f (x, y) = fX (x) fY (y) im stetigen Fall und zu p(x, y) = pX (x) pY (y) im diskreten Fall für alle x, y 11 Einfaches Beispiel Seien X und Y unabhängig X = {0, 1}, P (X = 0) = 1/3, P (X = 1) = 2/3 Y = {−1, 0, 1}, P (Y = −1) = P (Y = 1) = 1/4, P (Y = 0) = 1/2 Die gemeinsame Wahrscheinlichkeitsfunktion lautet: j i −1 0 1 pX 0 1/12 1/6 1/12 1/3 1 2/12 2/6 2/12 2/3 pY 1/4 1/2 1/4 1 Beachte, dass sowohl die Spalten als auch die Zeilen jeweils proportional zueinander sind ⇒ Unabhängigkeit 12 Stetiges Beispiel: Gleichverteilung Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1]. d.h. fX (x) = 1 für 0 ≤ x ≤ 1, fY (y) = 1 für 0 ≤ y ≤ 1, Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1] × [0, 1] Umkehrung X und Y bivariat gleichverteilt auf [0, 1] × [0, 1] ⇒ Dichte 0 ≤ x, y ≤ 1. f (x, y) = 1, Berechne die Randdichten fX (x) und fY (y) Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1], und auch dass die beiden unabhängig sind Bemerkung: Unabhängigkeit gilt für Gleichverteilung auf Rechtecken, nicht jedoch für allgemeinere Bereiche. 13 Beispiel: Zwei Würfel X, Y . . . gleichverteilt auf {1, . . . , 6} Aufgrund der Unabhängigkeit gilt p(x, y) = pX (x) pY (y) = 1 36 Verteilungsfunktion: FX (x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7 F (x, y) = FX (x)FY (y) = ⌊x⌋·⌊y⌋ 36 Welche Verteilung hat X + Y ? P (X + Y = 2) = p(1, 1) = 1/36 P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36 P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36 P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · · + p(k − 1, 1) 14 Summe von unabhängigen Verteilungen Summe von Zufallsvariablen selbst wieder eine ZV Berechnung der Verteilung mittels Faltung Stetige Verteilungen: fX+Y (x) = Z∞ fX (x − y)fY (y)dy y=−∞ Diskrete Verteilungen: X P(X + Y = k) = pX (x)pY (y) x+y=k Übung: X1 ∼ P(λ1 ), X2 ∼ P(λ2 ) unabhängig ⇒ X1 + X2 ∼ P(λ1 + λ2 ) 15 Beispiel (Umkehrung) Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines Manuskripts Lektor findet p Prozent der Fehler X . . . Anzahl der gefundenen Fehler Y . . . Anzahl der nicht gefundenen Fehler Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ Lösung: P(X = i, Y = j) = P(X = i, Y = j|X + Y = i + j)P(X + Y = i + j) Per Definitionem: P(X = i, Y = j|X + Y = i + j) = P(X + Y = i + j) = −λ λi+j e (i+j)! i+j i pi q j Liefert insgesamt: i −λ (λp) j −λp P(X = i, Y = j) = e (λq) = e i!j! 16 (λp)i i! j −λq (λq) e j! Beispiel für Faltung: stetiger Fall X, Y unabhängig, gleichverteilt auf [0, 1] i.e. f (x, y) = 1, (x, y) ∈ [0, 1] × [0, 1] fX (x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1 Berechnung der Dichte Z := X + Y fZ (x) = Z∞ fX (x − y)fY (y)dy y=−∞ = Rx dy = x, y=0 R1 dy = 2 − x, 0<x≤1 1<x≤2 y=x−1 Grund: fY (y) = 1 für 0 ≤ y ≤ 1 fX (x − y) = 1 für 0 ≤ x − y ≤ 1 ⇔ 17 y ≤x≤y+1 Additionstheorem für Γ-Verteilung X, Y unabhängig, Γ−verteilt mit Parametern t1 , t2 und gleichem λ fX (x) = λe−λx (λx)t1 −1 , fY Γ(t1 ) fZ (x) = Z∞ (y) = λe−λy (λy)t2 −1 , Γ(t2 ) x, y ≥ 0, fX (x − y)fY (y)dy y=−∞ = Zx y=0 λe−λ(x−y) (λ(x − y))t1 −1 λe−λy (λy)t2 −1 dy Γ(t1 ) Γ(t2 ) t1 +t2 −λx = = Zx e λ (x − y)t1 −1 y t2 −1 dy Γ(t1 )Γ(t2 ) y=0 y = xz λe−λx (λx)t1 +t2 −1 = dy = xdz Γ(t1 + t2 ) 18 Erwartungswert für bivariate ZV, diskret X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion Wie im eindimensionalen gilt: E(g(X, Y )) = P P g(x, y)p(x, y) x∈X y∈Y Übung: Seien X und Y die Augenzahlen von zwei fairen Würfeln (unabhängig) Berechne den Erwartungswert der Differenz |X − Y | 19 Erwartungswert für bivariate ZV, stetig X und Y stetig mit gemeinsamer Dichte f (x, y) Wie im eindimensionalen gilt: E(g(X, Y )) = R∞ R∞ g(x, y)f (x, y) dx dy y=−∞ x=−∞ Übung (optional): Unfall auf einer Straße der Länge L, Unfallort X und Position Y eines Krankenwagens unabhängig gleichverteilt Berechne den Erwartungswert vom Abstand |X − Y | zwischen Unfallort und Krankenwagen 20 Erwartungswert der Summe zweier ZV X und Y stetig mit gemeinsamer Dichte f (X, Y ) Mit g(x, y) = x + y folgt E(X + Y ) = R∞ R∞ (x + y)f (x, y) dx dy = E(X) + E(Y ) y=−∞ x=−∞ Geht genau so für den diskreten Fall: E(X + Y ) = P P (x + y)p(x, y) dx dy = E(X) + E(Y ) x∈X y∈Y ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig! 21 4.3 Kovarianz und Korrelation Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen Definition Kovarianz: Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))] Man schreibt mitunter σXY := Cov (X, Y ) Es gilt ähnlich wie für die Varianz σXY = E(XY ) − E(X)E(Y ) Definition Korrelation: ρ(X, Y ) := 22 σXY σX σY Beispiel Korrelation 3 2 1.5 2 1 0.5 1 0 ρ = 0.9 0 ρ = −0.6 −0.5 −1 −1 −1.5 −2 −2 −2.5 −3 −4 −3 −2 −1 0 1 2 −3 −3 3 3 −2 −1 0 1 2 3 4 3 2 2 1 1 ρ = 0.3 ρ = 0.0 0 0 −1 −1 −2 −3 −3 −2 −2 −1 0 1 2 3 23 −3 −3 −2 −1 0 1 2 3 4 Beispiel Kovarianz Diskrete bivariate Verteilung (X = Y = {0, 1, 2, 3}) mit j i 0 1 2 3 pX 0 1/20 4/20 3/20 2/20 10/20 1 3/20 2/20 2/20 0 7/20 2 1/20 1/20 0 0 2/20 3 1/20 0 0 0 1/20 pY 6/20 7/20 5/20 2/20 20/20 Berechne Cov (X, Y ) Lösung: Cov (X, Y ) = E(XY ) − E(X)E(Y ) = 24 8 20 − 14 20 · 23 20 162 = − 400 Kovarianz für unabhängige ZV X und Y unabhängig ⇒ σXY = 0 folgt unmittelbar aus σXY = E(XY ) − E(X)E(Y ) RR R R und E(XY ) = xyf (x, y) = xf (x) yf (y) Umkehrung ist falsch: 0, X gleichverteilt auf {−1, 0, 1} und Y = 1, E(X) = 0 XY = 0 ⇒ X 6= 0 X =0 E(XY ) = 0 daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig: z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3 25 Eigenschaften der Kovarianz Offensichtlich gilt Cov (X, Y ) = Cov (Y, X), und Cov (X, X) = Var (X) Die Kovarianz ist eine Bilinearform: Cov (aX, Y ) = a Cov (X, Y ), a∈R und Cov n X i=1 Xi , m X j=1 Yj = Beweis durch ausrechnen . . . 26 m n X X i=1 j=1 Cov (Xi , Yj ) Varianz von Summen Aufgrund der zuvor gezeigten Eigenschaften gilt ! n n X n X X Cov (Xi , Xj ) Xi = Var i=1 j=1 i=1 n X = Var (Xi ) + n X X Cov (Xi , Xj ) i=1 j6=i i=1 Extremfälle: • unabhängige ZV: Var n P Xi i=1 • X1 = X2 = · · · = Xn : Var n P i=1 27 = Xi n P Var (Xi ) i=1 = n2 Var (X1 ) Korrelation Definition: ρ(X, Y ) := σXY σX σY Es gilt: −1 ≤ ρ(X, Y ) ≤ 1 Beweis: 0 0 X Y + σX σY ≤ Var = 2[1 + ρ(X, Y )] X Y − σX σY ≤ Var = 2[1 − ρ(X, Y )] Var (X) Var (Y ) 2Cov (X, Y ) + + = 2 2 σX σY σX σY = Var (X) Var (Y ) 2Cov (X, Y ) + − 2 2 σX σY σX σY 28 Korrelation – Fortsetzung Falls ρ(X, Y ) = 0, heißen X und Y unkorreliert. Dies ist offenbar gleichbedeutend damit, dass Cov (X, Y ) = 0. Somit ist “unabhängig” stärker als “unkorreliert”. Korrelationskoeefizienten, die sich (signifikant) von null unterscheiden, lassen auf einen direkten oder indirekten Zusammenhang zwischen den beiden Variablen schließen. Einfachster Fall: Die beiden Variablen X und Y können zueinander in einer Ursache-Wirkung-Beziehung stehen, wobei offen bleibt, welche Variable auf welche wirkt. Es können aber auch komplexere Beziehungen bestehen, z.B. kann eine dritte Variable Z einen Einfluss sowohl auf X als auch auf Y ausüben. Beispiel: Es besteht eine Korrelation zwischen der Zahl der Kindergeburten und der Zahl der Storchenpaare in einer Region. Ein direkter Kausalzusammenhang ist wohl nicht anzunehmen. 29 Übung Korrelation Seien X und Y unabhängig gleichverteilt auf [0, 1] Berechne die Korrelation zwischen X und Z für 1. Z = X + Y 2. Z = X 2 + Y 2 3. Z = (X + Y )2 30 4.4 Bedingte Verteilungen Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B: P(AB) P(A|B) = P(B) Entsprechende Definitionen für Zufallsvariablen X und Y Diskret: pX|Y (x|y) := P(X = x|Y = y) = p(x,y) pY (y) Übung: Gegeben p(x, y) durch p(0, 0) = 0.4, p(0, 1) = 0.2, p(1, 0) = 0.1, p(1, 1) = 0.3, Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1 31 Diskrete bedingte Verteilungen Bedingte Verteilungsfunktion: FX|Y (x|y) := P(X ≤ x|Y = y) = X pX|Y (k|y) k≤x Sind X und Y unabhängig so gilt pX|Y (x|y) = pX (x) Beweis: Nachrechnen Beispiel: Seien X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig. Berechne bedingte Verteilung von X, wenn X + Y = n P(X = k|X + Y = n) = X + Y ∼ P(λ1 + λ2 ) P(X=k)P(Y =n−k) , P(X+Y =n) ⇒ λ1 X|(X + Y = n) ∼ B n, λ1 +λ2 32 Stetige bedingte Verteilungen Stetig: fX|Y (x|y) := f (x,y) fY (y) für fY (y) > 0 Definition im stetigen Fall läßt sich über diskreten Fall motivieren (Wahrscheinlichkeiten für kleine Umgebungen von x und y) Berechne damit bedingte Wahrscheinlichkeiten: Z P(X ∈ A|Y = y) = fX|Y (x|y) dx A Bedingte Verteilungsfunktion: FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) = Za x=−∞ 33 fX|Y (x|y) dx Beispiel Gemeinsame Dichte von X und Y gegeben durch c x(2 − x − y), x ∈ [0, 1], y ∈ [0, 1], f (x, y) = 0, sonst. Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3) Lösung: fY (y) = c R1 x=0 fX|Y (x|y) = x(2 − x − y) dx = c( 32 − y2 ) f (x,y) fY (y) = x(2−x−y) y 2 3−2 P(X < 1/2|Y = 1/3) = 1/2 R x=0 = 6x(2−x−y) 4−3y 6x(2−x−1/3) dx 4−3/3 34 = · · · = 1/3 Bedingter Erwartungswert Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw. bedingter Dichte E(X|Y = y) = Z∞ xfX|Y (x|y)dx x=−∞ Beispiel: Fortsetzung E(X|Y = y) = Z1 6x2 (2 − x − y) 5/2 − 2y dx = 4 − 3y 4 − 3y x=0 Speziell E(X|Y = 1/3) = 11 18 35 Erwartungswert durch Konditionierung E(X|Y = y) ist eine Funktion von y, kann somit als Zufallsvariable in y betrachtet werden Es gilt: E(X) = E(E(X|Y )) Beweis: E(E(X|Y )) = Z∞ E(X|Y = y)fY (y) dy y=−∞ = Z∞ Z∞ xfX|Y =y (x)fY (y) dx dy Z∞ Z∞ f (x, y) fY (y) dx dy = E(X) x fY (y) y=−∞ x=−∞ = y=−∞ x=−∞ Übung: Verifiziere die Formel für obiges Beispiel 36 Bedingte Varianz Formeln für den diskreten Fall (mit bedingter WF): X E(X|Y = y) = xpX|Y (x|y) x∈X Var (X|Y = y) = X (x − E(X|Y = y))2 pX|Y (x|y) x∈X Übung: Berechne Erwartungswert und Varianz von X wenn Y = j j i 0 1 2 3 pX 0 1/20 4/20 3/20 2/20 10/20 1 3/20 2/20 2/20 0 7/20 2 1/20 1/20 0 0 2/20 3 1/20 0 0 0 1/20 pY 6/20 7/20 5/20 2/20 20/20 37 Varianz mittels Konditionierung Var (X) = E(Var (X|Y )) + Var (E(X|Y )) Beweis: Wegen Var (X|Y ) = E(X 2 |Y ) − (E(X|Y ))2 gilt E(Var (X|Y )) = E(E(X 2 |Y ))−E((E(X|Y ))2 ) = E(X 2 )−E(E(X|Y )2 ) Andererseits Var (E(X|Y )) = E(E(X|Y )2 )−(E(E(X|Y )))2 = E(E(X|Y )2 )−E(X)2 Die Summe beider Ausdrücke liefert das Resultat Formel wesentlich für die Theorie der linearen Regression! 38 4.5 Bivariate Normalverteilung Univariate Normalverteilung: f (x) = φ(x) = Standardnormalverteilung: √ 1 2π σ √1 2π e−x −(x−µ)2 /2σ 2 e 2 /2 X1 und X2 unabhängig, jeweils normalverteilt N (µi , σi2 ), i = 1, 2 ⇒ f (x1 , x2 ) = = wobei x= x1 x2 , µ= µ1 µ2 1 −(x1 −µ1 )2 /2σ12 −(x2 −µ2 )2 /2σ22 e 2π σ1 σ2 1 −(x−µ)T Σ−1 (x−µ)/2 e 1/2 2π |Σ| , Σ= 39 σ12 0 0 σ22 Dichtefunktion allgemein (Vektorform) X = (X1 , X2 ) normalverteilt falls gemeinsame Dichtefunktion f (x) = Kovarianzmatrix: Notation: ρ := 1 2π |Σ|1/2 σ12 σ1 σ2 Σ= e−(x−µ) σ12 σ12 σ12 σ22 T Σ−1 (x−µ)/2 2 • |Σ| = σ12 σ22 − σ12 = σ12 σ22 (1 − ρ2 ) • Σ −1 = 1 2 2 σ1 σ2 (1−ρ2 ) σ22 −ρσ1 σ2 σ12 −ρσ1 σ2 40 Bivariate Normalverteilung X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0: 0.2 0.15 0.1 0.05 0 2 1 2 1 0 0 −1 −1 −2 −2 41 Beispiel bivariate Normalverteilungen s2 = 1, s2 = 1, ρ = 0 x s2 = 1, s2 = 1, ρ = 0.5 x y 2 2 1.5 1.5 1 1 0.5 0.5 0 0 −0.5 −0.5 −1 −1 −1.5 −1.5 −2 −2 −1.5 −1 −0.5 2 0 0.5 1 1.5 −2 −2 2 −1.5 2 1.5 1.5 1 1 0.5 0.5 0 0 −0.5 −0.5 −1 −1 −1.5 −1.5 −1 −0.5 0 0.5 0 0.5 1 1.5 2 1.5 2 2 sx = 4, sy = 1/4, ρ = −0.5 2 −1.5 −0.5 2 2 sx = 4, sy = 1/4, ρ = 0 −2 −2 −1 y 1 1.5 −2 −2 2 42 −1.5 −1 −0.5 0 0.5 1 Beispiel Dichtefunktion (X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) und ρ = 1/2 Berechne die gemeinsame Dichte! 1 1/2 0 Lösung: µ = 0 , Σ = 1/2 1 |Σ| = 1 − 1/4 = 3/4, (x, y)Σ−1 xy Σ −1 = = 4 3 1 −1/2 −1/2 1 2x−y 2 (x, y) −x+2y 3 = 34 (x2 − xy + y 2 ) 1 − 32 (x2 −xy+y 2 ) e f (x, y) = √ 3π Äquivalente Darstellung: (y−x/2)2 1 1 − 1 x2 − e 2·3/4 f (x, y) = √ e 2 p 2π 2π 3/4 43 Beispiel Fortsezung (y−x/2)2 1 − 1 x2 1 − e 2·3/4 f (x, y) = √ e 2 p 2π 2π 3/4 Gemeinsame Dichte ist Produkt der Dichte von Standardnormalverteilung (in x) und Normalverteilung (in y) mit Mittelwert x/2 und Varianz 3/4. Berechne Dichte von X: 1 − 1 x2 fX (x) = √ e 2 2π Z∞ y=−∞ (y−x/2)2 1 − 1 x2 1 − 2·3/4 p dy = √ e 2 e 2π 2π 3/4 fX (x) ist Dichte von Standardnormalverteilung Integral ergibt 1, weil wir über eine Dichte integrieren! 44 Dichtefunktion allgemein Von der Formel in Vektorform erhalten wir o n 2 2 −2ρz z +z z 1 2 1√ 2 1 exp − f (x1 , x2 ) = 2 2(1−ρ ) 2 2πσ1 σ2 wobei z1 = x1 −µ1 σ1 1−ρ z2 = und x2 −µ2 σ2 (vgl. Normalisierung) Notation deutet darauf hin, dass µi und σi2 jeweils Erwartungswert und Varianz von Xi , den beiden Randverteilungen, und dass ρ die Korrelation zwischen X1 und X2 Es gilt: f (x1 , x2 ) = √ 1 2πσ1 z2 − 21 e 1 2π(1−ρ2 )σ2 ·√ − e (ρz1 −z2 )2 2(1−ρ2 ) Ergänzung auf vollständiges Quadrat im Exponenten 45 Bedeutung von µi , σi2 und ρ Allgemein gilt für bivariate Normalverteilung 1. X1 ∼ N (µ1 , σ12 ) und X2 ∼ N (µ2 , σ22 ) ρ(X1 , X2 ) = 2. Korrelationskoeffizient σ12 σ1 σ2 Beweis: 1.Bilde vollst. Quadrat im Exponenten und integriere: 1 e fX1 (x1 )= √ 2πσ1 2 z1 − 2 z2 1 − 21 =√ e 2πσ1 Z∞ x2 =−∞ Z∞ s=−∞ 1 − p e 2 2π(1 − ρ )σ2 1 √ e− 2π √ρz1 −s 1−ρ2 2 !2 (ρz1 −z2 )2 2(1−ρ2 ) dx2 z2 1 − 21 ds = √ e 2πσ1 p p 2 mit Substitution s ← z2 / 1 − ρ = (x2 − µ2 )/( 1 − ρ2 σ2 ) 46 Fortsetzung Beweis 2. Wiederum Formel mit vollst. Quadrat und Substitution z1 ← (x1 − µ1 )/σ1 , z2 ← (x2 − µ2 )/σ2 : Z∞ Cov (X1 , X2 ) = Z∞ (x1 − µ1 )(x2 − µ2 )f (x1 , x2 ) dx2 dx1 x1 =−∞ x2 =−∞ Z∞ = x1 =−∞ = Z z1 φ(z1 ) z2 z1 = σ1 σ2 Z Z Z∞ (ρz1 −z2 )2 x2 − µ2 − 2(1−ρ 2) p dx2 dx1 e 2 2π(1 − ρ )σ2 x2 =−∞ ! z ρz1 − z2 p 2 φ p σ2 dz2 σ1 dz1 2 2 1−ρ 1−ρ x1 − µ1 √ e 2πσ1 z2 − 21 z1 φ(z1 )ρz1 dz1 = σ1 σ2 ρ = σ12 z1 47 Bedingte Verteilung Interpretation für die Formel f (x1 , x2 ) = √ 1 2πσ1 z2 − 21 e ·√ 1 2π(1−ρ2 )σ2 − e (ρz1 −z2 )2 2(1−ρ2 ) f (x1 , x2 ) = f1 (x1 )f2|1 (x2 |x1 ) Aus (ρz1 −z2 )2 (1−ρ2 ) = (µ2 +σ2 ρz1 −x2 )2 σ22 (1−ρ2 ) folgt: Bedingte Verteilung ist wieder normalverteilt mit µ2|1 = µ2 + ρ(x1 − µ1 ) σσ12 , σ2|1 = σ22 (1 − ρ2 ) ρ = 0 ⇒ Unabhängigkeit Für bivariate Normalverteilung: Ist im allgemeinen nicht richtig! 48 Summe von bivariat normalverteilten ZV Sei X1 , X2 bivariat normal mit µ1 , µ2 , σ12 , σ22 , σ12 Dann ist Z = X1 + X2 wieder normalverteilt, mit X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2σ12 ) Beweis: Für die Dichte der Summe gilt fZ (z) = Z∞ f (z − x2 , x2 ) dx2 x2 =−∞ Man erhält das Resultat wieder durch Vervollständigung des Quadrats im Exponenten (etwas längere Rechnung) Intuition: Mittelwert und Varianz von Z entsprechen der allgemeinen Formel! 49 Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2014/15 5 Verteilungen von Stichprobenkennzahlen 1. Stichprobe 2. χ2 - Verteilung 3. t-Verteilung 4. F -Verteilung 1 5.1 Stichprobe X1 , . . . , Xn unabhängige ZV P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An ) für jede beliebige Wahl von Ereignissen A1 , . . . An . Stichprobe . . . n unabhängige Zufallsvariablen, die alle gleich verteilt sind Englisch: identically independently distributed (i.i.d) Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n unabhängigen Bernoulli-Variablen X= n X i=1 wobei Xi ∼ B(1, p) i.i.d. 2 Xi Mittelwert von Stichproben X1 , . . . , Xn i.i.d. wie X, n P 1 Xi Definition: X̄ := n i=1 Mit E(X) = µ und Var (X) = σ 2 gilt: E X̄ = µ, Beweis: n n P P Xi = E(Xi ) E i=1 Var n P i=1 Var (X̄) = σ2 n i=1 Xi = n P Var (Xi ) i=1 Letzte Gleichung wegen Unabhängigkeit der Beobachtungen 3 Normalverteilte Stichproben X1 , . . . , Xn i.i.d. N (µ, σ 2 ) X̄ ∼ N (µ, σ 2 /n) ⇒ Zentraler Grenzwertsatz: Selbst für nicht normalverteilte Stichprobe X1 , . . . , Xn ist X̄ für große n näherungsweise normalverteilt (Siehe Kapitel 6) Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kg bei einer Varianz von 0.1 kg, Annahme das Gewicht ist normalverteilt. Stichprobe von 10 Broten, welche Verteilung hat X̄? Mit welcher Wahrscheinlichkeit liegt X̄ zwischen 0.95 und 1.05? 2 2 = σX /10 = 0.01 σX̄ ⇒ P (0.95 ≤ X̄ ≤ 1.05) = Φ X̄ ∼ N (1, 0.01) 1.05−1 0.1 −Φ 4 0.95−1 0.1 = 2Φ(0.5)−1 = 0.383 5.2 χ2 - Verteilung Motivation: Gegeben Stichprobe X1 , . . . , Xn i.i.d. X̄ kann verwendet werden, um unbekanntes µ zu schätzen. Typische andere statistische Fragestellungen: Wie kann ich unbekanntes σ schätzen? Möglicher Zugang: σ 2 = E(X − µ)2 Somit könnten Quadratsummen der Stichprobe interessant sein: • µ bekannt: n P (Xi − µ)2 i=1 • µ unbekannt: n P (Xi − X̄)2 i=1 Welche Verteilung haben diese Quadratsummen? 5 Mittelwerte von Quadratsummen X1 , . . . , Xn i.i.d. wie X, E(X) = µ, Var (X) = σ 2 Es gilt: E n P (Xi − µ)2 i=1 = nσ 2 Beweis: Vertausche Summe und Erwartungswert Weiters gilt: E n P (Xi − X̄)2 i=1 Beweis: Übung 6 = (n − 1)σ 2 Verteilung von Z 2 Erinnerung: X ∼ Γ(t, λ) . . . f (x) = λe−λx (λx)t−1 , Γ(t) für x ≥ 0 Es gilt: Z ∼ N (0, 1) ⇒ Y = Z 2 ∼ Γ( 21 , 12 ) In Worten: Das Quadrat einer standardnormalverteilten Zufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2. Beweis: ⇒ √ √ √ √ P (Y ≤ y) = P (− y ≤ Z ≤ y) = Φ( y) − Φ(− y) fY (y) = = 1 1 √ √ 1 √ ϕ( y) √ + ϕ(− y) √ = ϕ( y) √ 2 y 2 y y 1 √ e−y/2 = 2πy 7 1 − y2 y 21 −1 (2) 2e , Γ( 12 ) √ 1 weil Γ( ) = π. 2 Additionstheorem für Γ−Verteilung Y1 , . . . , Yn unabhängig, Γ(ti , λ), mit beliebigen ti λe−λy (λy)ti −1 , d.h. fYi (y) = Γ(ti ) dann S := n P für y ≥ 0 Yi auch Γ−verteilt, nämlich S ∼ Γ( n P ti , λ) i=1 i=1 λe−λs (λs)T −1 d.h. fS (s) = , Γ(T ) für s ≥ 0, mit T := n X ti i=1 Beweis: Iteratives Anwenden der Faltungsformel für die Γ−Verteilung (vgl. Beispiel im Kapitel 4) Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi , σi2 ) i.i.d. 8 Definition der χ2 - Verteilung Man bezeichnet Y ∼ Γ( n2 , 21 ) als χ2 -verteilt mit n Freiheitsgraden Notation: Y ∼ χ2n 0.8 0.7 df=1 df=2 df=3 df=4 df=6 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 Dichte der χ2 -Verteilung für verschiedene Freiheitsgrade 9 Verteilung der Quadratsumme, bekanntes µ Wir haben gesehen: Z ∼ N (0, 1) ⇒ Z 2 ∼ Γ( 21 , 21 ) = χ21 Aus dem Additionstheorem folgt unmittelbar: Zi ∼ N (0, 1) i.i.d ⇒ Y := n P i=1 Zi2 ∼ χ2n Damit können wir unsere erste Frage beantworten: Für eine Stichprobe der Größe n von normalverteilten Zufallsvariablen Xi ∼ N (µ, σ 2 ) gilt: n P 2 (Xi − µ) = σ i=1 2 n P i=1 10 (Xi −µ)2 σ2 ∼ σ 2 χ2n Verteilung der Quadratsumme, unbekanntes µ Wenn wir µ durch X̄ ersetzen so gilt (ohne Beweis): n P (Xi − X̄)2 ∼ σ 2 χ2n−1 i=1 Es gilt: Y ∼ χ2n−1 ⇒ E(Y ) = n − 1 Daher üblicher Schätzer für die Varianz S 2 := Interpretation für den Begriff Freiheitsgrad: 1 n−1 n P (Xi − X̄)2 i=1 • µ bekannt: Alle Xi zur Schätzung von σ 2 unabhängig ⇒ daher n Freiheitsgrade • µ unbekannt: Ein Parameter wird aus den Daten geschätzt ⇒ daher n − 1 Freiheitsgrade 11 5.3 t - Verteilung Motivation: 1. Standardisierung für X ∼ N (µ, σ 2 ): Z= X−µ σ 2. Für Stichprobe X1 , . . . , Xn i.i.d. wie X, X̄−µ √ σ/ n Standardisierung für X̄: 2 1 n−1 2 3. Ersetze σ durch S = n P (Xi − X̄)2 i=1 d.h. wir interessieren uns für Es gilt: T = √ 1 n n n P T := 1 n−1 n P i=1 n X̄−µ S Zi i=1 s √ 1 (Zi − n n P j=1 Beweis: Nachrechnen 12 wobei Zj )2 Zi = Xi −µ σ Eigenschaften der T -Statistik T = √ n−1 √1 n s n P n P Zi i=1 1 (Zi − n i=1 n P wobei Zi = N (0, 1) Zj )2 j=1 Wir wissen bereits: n P 1 Zi ∼ N (0, 1), Z := √n i=1 Y := n P (Zi − i=1 Somit insgesamt 1 n n P Zj )2 ∼ χ2n−1 j=1 T = √ n(X̄−µ) S = √ n−1 √Z Y Zusätzlich gilt (ohne Beweis): X̄ und S 2 sind unabhängige ZV, (daher auch Z und Y ) 13 Definition der t-Verteilung Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt √ Z T := n √Y Student- oder t-verteilt mit n Freiheitsgraden Dichte der t-Verteilung für verschiedene Freiheitsgrade 0.45 t=1 t=2 t=3 t=4 t=6 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −3 −2 −1 0 1 Für n groß nahezu standardnormalverteilt 14 2 3 5.4 F - Verteilung Motivation: Häufig in der Statistik von Interesse: Vergleich von Varianzen. Eine Möglichkeit → betrachte Quotienten σ12 /σ22 (1) (1) Zum Beispiel zwei Gruppen, Stichproben X1 , . . . , Xn1 bzw. (2) (2) X1 , . . . , Xn2 . Seien Ỹ1 und Ỹ2 die jeweiligen Quadratsummen der Stichproben, sodass Ỹj = σj2 Yj mit Yj ∼ χ2nj −1 (j = 1, 2). Für Schätzer von σj2 gilt Sj2 = Ỹj nj −1 = σj2 Yj nj −1 . Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten der Schätzer S12 Y1 /(n1 − 1) = S22 Y2 /(n2 − 1) 15 Definition der F -Verteilung Y1 ∼ χ2n1 , Y2 ∼ χ2n2 unabhängig, dann heißt Q := Y1 /n1 Y2 /n2 F -verteilt mit n1 und n2 Freiheitsgraden Dichte der F -Verteilung für verschiedene n1 und für n2 = 25 1.5 n1=1 n1=2 n1=3 n1=4 n1=6 1 0.5 0 0 0.5 1 1.5 16 2 2.5 Eigenschaften der F - Verteilung Sei Q ∼ F(n1 , n2 ) F -verteilt mit Freiheitsgraden n1 , n2 . Dichte der F -Verteilung etwas kompliziert • µF (n1 ,n2 ) = n2 n2 −2 Beweis als Übung. • 1 Q ∼ F(n2 , n1 ) folgt unmittelbar aus Definition • Sei T Student-verteilt mit n Freiheitsgraden: T 2 ∼ F(1, n) √ Z aus der Darstellung T = n √Y , wobei Z ∼ N (0, 1), Y ∼ χ2n folgt 2 T = Z 2 /1 Y /n wobei Z 2 ∼ χ21 17 Quantile In der Praxis werden sehr häufig die Quantile der χ2 -,t- und F -Verteilung benötigt Nicht elementar berechenbar ⇒ Tabellen (oder Computer) Zu beachten: • t-Verteilung mit unendlich vielen Freiheitsgraden entspricht Normalverteilung • γp (n1 , n2 ) sei p-Quantil von F(n1 , n2 ), dann gilt: γp (n1 , n2 ) = Beweis: p = P (Q ≤ γp (n1 , n2 )) 1 γ1−p (n2 ,n1 ) wobei Q= 1 − p = P (Q > γp (n1 , n2 )) = P (Q−1 < 18 Y1 /n1 Y2 /n2 1 γp (n1 ,n2 ) ) Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2014/15 6 Grenzwertsätze 1. Einführung 2. Gesetze der großen Zahlen 3. Der Zentraler Grenzwertsatz 1 6.1 Einführung Grenzwertsätze grundlegend für Wahrscheinlichkeitstheorie Zwei wesentliche Gruppen: 1. Gesetze der großen Zahl Geben Bedingungen unter welchen Mittelwert einer Zahlenfolge gegen theoretischen Erwartungswert konvergieren 2. Zentrale Grenzwertsätze Bedingungen unter welchen die Summe einer großen Zahl von Verteilungen gegen Normalverteilung konvergiert Verschiedene Versionen, je nach Art der Konvergenz 2 Markov Ungleichung X nichtnegative Zufallsvariable, d.h. X ⊂ R+ 0 Dann gilt für jedes a > 0: P (X ≥ a) ≤ a1 E(X) Beweis: Definiere X≥0 ⇒ ⇒ 1, Y := 0, Y ≤ E(Y ) ≤ X≥a X<a X a E(X) a und E(Y ) = P (X ≥ a) 3 Chebyshev Ungleichung X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ 2 < ∞, dann gilt für jedes k > 0 P (|X − µ| ≥ k) ≤ σ2 k2 Beweis: Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k 2 P ((X − µ)2 ≥ k 2 ) ≤ 1 2 E(X − µ) k2 Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ und σ 2 bekannt. 4 6.2 Gesetze der großen Zahl Das schwache Gesetz der großen Zahlen: X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ Dann gilt für jedes ε > 0 X +···+X 1 n P −µ ≥ε →0 n für n → ∞ Beweis: (Verwende zusätzlich Var (Xi ) = σ 2 < ∞ ) σ2 X1 +···+Xn X1 +···+Xn E = µ, Var = n n n Chebyshev Ungleichung: 2 X1 + · · · + Xn σ P − µ ≥ ε ≤ 2 n nε 5 Das starke Gesetz der großen Zahlen X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ Dann gilt mit Wahrscheinlichkeit 1, dass X1 +···+Xn n →µ für n → ∞ Ohne Beweis Starkes Gesetz tatsächlich stärker als schwaches Gesetz: Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N (ε), so dass X +···+X n 1 − µ < ε für alle n > N (ε) n d.h. ab einem gewissen Index N (ε) sind (mit Wahrscheinlichkeit 1) n entsprechend nahe bei µ alle weiteren Mittelwerte X1 +···+X n Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen, n weiter von µ entfernt dass immer wieder ein Mittelwert X1 +···+X n ist, aber mit immer kleiner werdender Wahrscheinlichkeit 6 6.3 Der zentrale Grenzwertsatz X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ, Var (Xi ) = σ 2 , dann gilt X1 +···+X −nµ √ n ≤ a → Φ(a) P σ n für n → ∞ In Worten: Die Summe einer großen Anzahl von unabhängigen identisch verteilten Zufallsvariablen ist approximativ normalverteilt mit Mittelwert nµ und Varianz nσ 2 X1 + · · · + Xn ∼ N (nµ, nσ 2 ) Ohne Beweis! Literatur: Viele verschiedene Möglichkeiten diesen Satz zu beweisen Spezialfall: Normalverteilungsapprox. der Binomialverteilung 7 Annäherung an Normalverteilung 4 2.5 4 x 10 2.5 2 2 1.5 1.5 1 1 0.5 0.5 0 0 10 20 30 40 50 60 70 80 90 0 100 4 2.5 2.5 2 1.5 1.5 1 1 0.5 0.5 0 0 10 20 30 40 50 60 70 80 90 100 10 20 30 40 50 60 70 80 90 100 4 x 10 2 0 x 10 10 20 30 40 50 60 70 80 90 0 100 Verteilungen der (normierten) Summen (oben) und n = 3, 10 (unten). Pn i=1 8 x 10 0 Xi mit Xi gleichverteilt, für n = 1, 2 Konvergenzbegriffe I. Falls P (|Xn − a| ≥ ǫ) → 0 (n → ∞) für jedes ǫ > 0, sagt man, dass die Folge Xn von Zufallsvariablen in Wahrscheinlichkeit p gegen die Zahl a konvergiert. Man schreibt dann Xn → a. Das schwache Gesetz der großen Zahlen besagt somit, dass p X̄n → µ. II. Falls die Verteilungsfunktionen von Xn gegen die Verteilungsfunktion einer bestimmte Verteilung D konvergieren, spricht man von schwacher Konvergenz. Man schreibt dann w Xn → D. Der zentrale Grenzwertsatz besagt somit, dass (unter den angegebenen Voraussetzungen) X̄n − µ √σ n w → N (0, 1). 9