Prof. Dr. Walter Gutjahr Oskar-Morgenstern

Werbung
Univ.-Prof. Dr. Walter Gutjahr
Oskar-Morgenstern-Platz 1
Tel. 4277 38632
[email protected]
Univ.-Doz. Dr. Florian Frommlet
Spitalgasse 21
Tel. 40400 7294
[email protected]
1
Organisatorisches
• Vorlesungstermine:
Mo 09.45 - 11.15 HS 6, wöchentlich
Di 15.00 - 16.30 HS 6, wöchentlich
Ausnahme: 25. Nov. wird auf 28. Nov. verschoben (Zeit wird
noch angekündigt)
Letzter Vorlesungstermin:
Di 16.12.2014
• Prüfungstermine:
1) Do 08.01.2015
2) Do 29.01.2015
• Übungsgruppen:
Parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis!
2
Tutorium
• Tutor: Bernhard Hrobath
Do 08.00 - 09.30 HS 3.
Besuch des Tutoriums empfehlenswert!
3
E-learning Plattform
Moodle Plattform
https://moodle.univie.ac.at
• Generelle Information
• Downloads der Folien
• Forum
• Noten
4
Inhalt der Vorlesung
1. Einführung
(a) Wahrscheinlichkeitsbegriff
(b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten
2. Diskrete Verteilungen
3. Stetige Verteilungen
4. Mehrdimensionale Verteilungen
5. Verteilungen von Stichprobenkennzahlen
6. Grenzwertsätze
Danksagung: Für Anregungen zum Inhalt danken wir Univ.-Prof. Dr. Karl
Schlag!
5
Literatur
Die Reihenfolge entspricht dem Grad an Relevanz speziell für
diese Lehrveranstaltung
• Karl Bosch: Elementare Einführung in die
Wahrscheinlichkeitsrechnung
• Sheldon Ross: A First Course in Probability
Bücher gibt es mindestens 10 mal in Lehrbuchsammlung
• Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability
• Brannath / Futschik: Statistik für Wirtschaftswissenschafter
• John Rice: Mathematical statistics and data analysis
• Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik
• Walter Oberhofer: Wahrscheinlichkeitstheorie
• Jim Pitmann: Probability
6
Einführung
Mathematische Modellierung
➢
Deterministisch
➢
Stochastisch (Zufälligkeit, Unsicherheit)
Experiment mit verschiedenen möglichen Ausgängen – Ereignisse
Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakte
Vorhersagen zu liefern
Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen
7
Beispiele
Konzeptionell einfach:
• Münzwurf
• Würfelspiele / Kartenspiele / Lotto
Konzeptionell etwas schwieriger:
• Nicht faire Münze
Konzeptionell schwierig:
• Wahlprognosen
• Kreditrückzahlung (Insolvenzprognoseverfahren )
• Sportwetten
Konzeptionell beyond:
• Moderne Physik
8
Interpretation von Wahrscheinlichkeit
1. Laplace: Endlich viele Ereignisse
Alle Ereignisse gleiche Wahrscheinlichkeit
2. Frequentistisch:
Idee: Experiment das beliebig oft wiederholt werden kann
Relative Häufigkeit: Anzahl des Auftretens eines Ereignisses
bei n Wiederholungen des Experiments
Wahrscheinlichkeit: Relative Häufigkeit für n → ∞
3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontext
von beliebig oft wiederholbaren Ereignissen auf
Beispiel: Ärztliche Prognose, Sportwetten
9
Wahrscheinlichkeitsrechnung
Unabhängig von der Interpretation!
Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933)
• Ergebnisraum Ω
• Menge aller zulässigen Ereignisse A
(gewisse) Teilmengen von Ω
• Wahrscheinlichkeitsverteilung P (A).
Die Funktion A → P (A) hat folgende Eigenschaften
1. 0 ≤ P (A) ≤ 1
2. P (∅) = 0, P (Ω) = 1
3. P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅.
10
Beispiel 1: Münzwurf
Ergebnisraum: Ω = {Kopf, Zahl }
Ereignisse: {∅, Kopf, Zahl, Kopf oder Zahl }
Wahrscheinlichkeitsverteilung: Falls faire Münze
P (Kopf) = 1/2,
P (Zahl) = 1/2
(Elementarereignisse)
P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1
P (weder Kopf noch Zahl) = P (∅) = 0
Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff
Elementarereignis: A ⊂ Ω mit |A| = 1
d.h. einelementige Teilmenge
11
Übungen
Zwei faire Münzen
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
Fairer Würfel
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
12
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2014/15
1
Grundbegriffe
1. Mengenlehre
2. Rechnen mit Wahrscheinlichkeiten
3. Kombinatorik
4. Bedingte Wahrscheinlichkeit
1
1.1
Mengenlehre
Ereignis: Teilmenge von Ω
Ac := Ω\A . . . Komplement
A ∪ B . . . Vereinigung
A ∩ B . . . Durchschnitt
A ∩ B = ∅ . . . Disjunkte Mengen
Venn Diagramm:
✩
✬
Ω
✤✜
✤✜
A
B
✣✢
✣✢
✫
✪
A\B := A ∩ B c
B ⊆ Ac ⇒ A\B =?
Indexschreibweise: Gegeben die Ereignisse A1 , A2 , . . . , An
Sn
i=1 Ai = A1 ∪ A2 ∪ · · · ∪ An
Tn
i=1 Ai = A1 ∩ A2 ∩ · · · ∩ An
2
Rechenregeln
• Kommutativgesetz: A ∪ B = B ∪ A
• Assoziativgesetz: (A ∪ B) ∪ C = A ∪ (B ∪ C)
• Distributivgesetz: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
• de Morgan: (A ∪ B)c = Ac ∩ B c
Alle Regeln gelten auch wenn man ∪ und ∩ konsequent
vertauscht!
Weiters gilt (Übung):
A ∩ Ac =
A ∪ Ac =
A∪Ω=
A∩Ω=
A∪∅=
A∩∅=
A∪A=
A∩A=
3
Übung: Zwei Würfel
Es werden ein weisser und ein schwarzer Würfel geworfen.
• Ergebnisraum Ω:
• Welche Teilmengen entsprechen den folgenden Ereignissen
A : = Ein Würfel zeigt 4, der andere 2
B : = der schwarze Würfel zeigt eine gerade Augenzahl der
weisse eine ungerade
C := die Summe der Augenzahlen beträgt 8
• Welche der genannten Ereignisse sind disjunkt?
• Bilde (A ∪ B)c ∩ {C ∪ [A ∩ (B ∪ C)]}
4
1.2
Rechnen mit Wahrscheinlichkeiten
1. 0 ≤ P(A) ≤ 1
2. P(∅) = 0, P(Ω) = 1
3. P(A ∪ B) = P(A) + P(B) falls A ∩ B = ∅.
Einfache Folgerungen:
• A1 , . . . , An paarweise disjunkt, dann gilt
!
n
n
X
[
P(Ai )
Ai =
P
i=1
i=1
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B)
• B⊂A
⇒
P(B) ≤ P(A)
P(Ac ) = 1 − P(A)
• P(A\B) = P(A) − P(B ∩ A)
5
Übung
A, B und C seien Ereignisse (Teilmengen von Ω) jeweils mit
Wahrscheinlichkeit P(A) = 0.8, P(B) = 0.3, P(C) = 0.7.
Weiters gelte
A ∪ C = Ω,
B ⊂ A,
B und C sind disjunkt
1. Berechne P(A ∩ C)
2. Welche der folgenden Aussagen sind richtig
(a) A ⊂ C?
(b) C ⊂ A?
(c) B ∪ C = Ω?
(d) B = A\C?
6
Ereignisse mit Wahrscheinlichkeit null
Der Formalismus der Wahrscheinlichkeitsrechnung erlaubt auch
den Fall, dass ein Ereignis A, obwohl es logisch gesehen möglich
ist, dennoch Wahrscheinlichkeit null hat: Aus P(A) = 0 folgt nicht
zwingend, dass A = ∅.
Beispiel: Wenn wir annehmen, dass ein Punkt X zufällig aus dem
Intervall [0, 1] gewählt wird, ohne dass irgendein Teilbereich dieses
Intervalls bei der Auswahl bevorzugt wird (wir werden später von
Gleichverteilung auf [0, 1] sprechen), hat z.B. das Ereignis X = 0.5
die Wahrscheinlichkeit null. Dennoch ist es nicht logisch unmöglich
(sonst wäre überhaupt kein Ergebnis möglich!).
Der exakte Aufbau der Wahrscheinlichkeitsrechung wird durch die
Berücksichtigung von Ereignissen mit Wahrscheinlichkeit null
komplizierter; viele Aussagen brauchen z.B. den Zusatz “mit
Wahrscheinlichkeit 1”.
7
Laplace’sche Wahrscheinlichkeit
|Ω| = n < ∞
...
Ergebnisraum mit endlich vielen Elementen
Alle Elementarereignisse gleiche Wahrscheinlichkeit
⇒ P(A) = |A|/n
Berechnung der Wahrscheinlichkeit durch Zählen der Elemente
einer Menge ⇒ Kombinatorik
Beispiel: Urne mit 5 schwarzen und 6 weißen Bällen
Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weiß
sind?
a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975
b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727
8
1.3
Grundbegriffe der Kombinatorik
Permutation: Anzahl der möglichen Anordnungen von n
verschiedenen Elementen
n! = n · (n − 1) · · · · 1
Beispiel: Auf wie viele verschieden Arten kann man abc anordnen?
3! = 3 · 2 · 1 = 6
abc, acb, bac, bca, cab, cba
Auf wie viele verschieden Arten kann man abcd anordnen?
abcd, acbd, bacd, bcad, cabd, cbad
abdc, acdb, badc, bcda, cadb, cbda
4! = 4 · 3 · 2 · 1 = 24
adbc, adcb, bdac, bdca, cdab, cdba
dabc, dacb, dbac, dbca, dcab, dcba
Man definiert:
0! = 1
9
r - Permutation mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurücklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2
aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd
n Möglichkeiten für jede der r Positionen
⇒
nr Möglichkeiten
Übung: Wie viele Zahlen kann man mit allen 10-stelligen
Ziffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen?
10
r - Permutation ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurücklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2
Nicht mehr relevant:
ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc
aa, bb, cc, dd
n Möglichkeiten für die erste Position, n − 1 für die zweite, . . .
n − r + 1 für die r−te Position
⇒
n · (n − 1) · · · (n − r + 1) =
n!
(n−r)!
Möglichkeiten
Bemerkung: Es muss gelten: r ≤ n
r = n gibt als Spezialfall die normale Permutation
11
r - Kombination ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurücklegen, Reihenfolge egal
Beispiel: n = 4, r = 2
Nicht mehr relevant:
ab, ac, ad, bc, bd, cd
ba, ca, da, cb, db, dc
Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppe
anzuordnen
n·(n−1)···(n−r+1)
n
n!
=
Möglichkeiten
:=
⇒
r!
(n−r)!r!
r
Bemerkung: Es muss klarerweise wieder gelten: r ≤ n
12
r - Kombination mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurücklegen, Reihenfolge egal
Beispiel: n = 4, r = 2
aa, ab, ac, ad, bb, bc, bd, cc, cd, dd
aa, bb, cc, dd
Hinzugekommen:
Anzahl der Möglichkeiten:
(n+r−1)!
(n+r−1)···n
n+r−1
=
=
(n−1)! r!
r!
r
n = 4, r = 2 :
5!
3! 2!
=
5·4
2
= 10
13
Beispiel: r - Kombination mit Wiederholung
Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl
Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen?
Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C
AAAAAAAA | BBBBBBBBBBBB | CCCCCCCCCC
Durch die beiden Trennsymbole | wird diese Kombination eindeutig
festgelegt
Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibt
es "zwei Trennwände" zu setzen
Wähle 2 (= n − 1) von 32 (= n + r − 1) Positionen, Reihenfolge
egal, ohne zurücklegen
32
n+r−1
n+r−1
= 2 = 31 · 16 = 496
=
r
n−1
14
Zusammenfassung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Reihenfolge
mit Wiederholung
ohne Wiederholung (n ≥ r)
nr
n!/(n − r)!
n
relevant
egal
n+r−1
r
r
Faktorielle (auch Fakultät):
n! = n · (n − 1) · · · 1,
Binomialkoeffizient:
n·(n−1)···(n−r+1)
n
=
r =
r!
0! = 1
n!
(n−r)! r!
15
Beispiel
8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3
Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibt
es, wenn
a) 2 Frauen nicht kooperieren wollen?
b) 2 Männer nicht kooperieren wollen?
c) Ein Mann und eine Frau nicht kooperieren wollen?
Lösung:
8 6
Ohne Konflikte: 3 3 = 1120 Kommitees
Subtrahiere davon jeweils die Anzahl der unmöglichen Komitees:
6
8
a)
3 3 − 4 = 896
8
6
1000
b)
3 3 − 6 =
7 5
8 6
−
c)
2 2 = 910
3 3
16
Übungsaufgabe (etwas schwierig)
In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personen
wollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dass
genau i Frisöre einen Auftrag erhalten.
Lösung:
• P(i = 1) = 1/64
• P(i = 2) = 21/64
• P(i = 3) = 36/64
• P(i = 4) = 6/64
17
Einschub: Binomischer Lehrsatz
n
(x + y) =
n
P
k=0
n
k
xk y n−k
Beweis durch vollständige Induktion:
1 1 1−1
1 0 1−0
=x+y
+ 1 x y
1) n = 1 :
0 x y
2) (n − 1) → n :
Angenommen der Satz ist richtig für n − 1.
Schreibe (x + y)n = (x + y)(x + y)n−1 , verwende den binomischen
Lehrsatz für (x + y)n−1 und zeige damit, dass sich die rechte Seite
n
P
n k n−k
schreiben läßt.
tatsächlich als
k x y
k=0
Hilfreiche Identität für den Beweis:
n−1
n−1
n
+
=
r
r−1
r
18
Einschub: Pascalsches Dreieck
Schema der Binomialkoeffizienten:
1
n=0
n=1
1
1
n=2
n=3
1
1
n=4
n=5
1
2
3
4
5
1
1
3
6
10
1
4
10
1
5
1
(x + y)2
=
x2 + 2xy + y 2
(x + y)3
=
x3 + 3x2 y + 3xy 2 + y 3
(x + y)4
=
x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4
19
Übungen
Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggon
kontrolliert er 2 Personen
Einzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen
1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen
2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit den
Schwarzfahrern?
3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen
Schwarzfahrer, wenn er ihren Waggon kennt?
4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen
Schwarzfahrer, wenn er ihren Waggon nicht kennt?
20
1.4
Bedingte Wahrscheinlichkeit
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.
Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?
Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727
In Worten:
6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß
5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß,
falls erste Kugel weiß war
Formal:
A . . . erste Kugel weiß
B . . . zweite Kugel weiß
B|A . . . B wenn A, oder B unter der Bedingung A,
d.h. zweite Kugel weiß falls erste Kugel weiß
P(B ∩ A) = P(A)P(B|A)
21
Definition bedingte Wahrscheinlichkeit
P(B|A) = P(B ∩ A)/P(A)
Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zu
Beginn eines Experiments, Ω enthält alle möglichen Ereignisse
Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengen
von A sind. A wird zum neuen (reduzierten) Ergebnisraum.
Die bedingte Wahrscheinlichkeit eines Ereignisses B entspricht
dem ‘Anteil’ von B an A.
Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einen
Wahrscheinlichkeitsraum
(Bemerkung: Genaugenommen braucht man auch noch eine sog.
σ - Algebra A. Wir betrachten zunächst endliche
Wahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.)
22
Fortsetzung: Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit ist tatsächlich eine
Wahrscheinlichkeit:
Reduzierter Ergebnisraum A
P(A|A) = P(A ∩ A)/P(A) = 1
B∩C =∅
⇒
P(B ∪ C|A) = P(B|A) + P(C|A)
Übung: In einer LVA gab es zwei Beurteilungstests. 50% der
Studierenden bestanden den ersten Test und 35% bestanden
beide Tests. Wieviele Prozent der Studierenden die den ersten
Test schafften scheiterten am zweiten Test?
23
Produktformel
Manchmal hilfreich:
Tn
Tn−1
P( i=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An | i=1 Ai )
Beweis: Iteratives Anwenden der Definition von bed. Wahrsch.
Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je
13 Karten aufgeteilt
Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As
Hinweis: Definiere die Ereignisse
A1
A2
A3
A4
= { Pik As befindet sich in irgendeinem Stapel }
= { Pik As und Herz As in verschiedenen Stapeln }
= { Pik, Herz und Karo As in verschiedenen Stapeln }
= { Alle Asse in verschiedenen Stapeln }
Lösung: 0.1055
24
Satz von der totalen Wahrscheinlichkeit
Seien A1 , A2 , . . . , An disjunkte Ereignisse und Ω =
n
S
Ai
i=1
Dann gilt
P(A) = P(A1 )P(A|A1 ) + · · · + P(An )P(A|An )
Beweis:
Rechte Seite: P(A ∩ A1 ) + · · · + P(A ∩ An )
n
S
(A ∩ Ai )
Ai disjunkt ⇒ R.S. = P
i=1
Ai vollständig
⇒
n
S
(A ∩ Ai ) = A
i=1
25
Satz von Bayes
Seien A und B Ereignisse mit positiver Wahrscheinlichkeit
Dann gilt:
P(A|B) = P(A)P(B|A)/P(B)
Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩ B)
Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch
P(A)P(B|A)
P(A|B) =
P(A)P(B|A) + P(Ac )P(B|Ac )
Typische Anwendung: Bayesianische Statistik
26
Übung Bayes, Totale Wahrscheinlichkeit
Versicherung teilt Autofahrer in 3 Klassen
Prozent
P(Unfall im ersten Jahr)
schlecht
30
0.6
mittel
60
0.1
gut
10
0.01
a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigem
Autofahrer?
Lösung: 0.241
b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfall
hat ein guter Autofahrer ist?
Lösung: 0.00415
27
Interpretation medizinischer Testergebnisse
Gigerenzer et al. (z.B. in “Helping doctors and patients make sense
of health statistics”, 2008) zeigen, dass nicht nur Patienten,
sondern sogar Ärzte die aus medizinischen Tests abgeleiteten
Wahrscheinlichkeiten häufig völlig falsch einschätzen.
Beispiel: Ein Labortest auf HIV habe folgende Kennzahlen:
95% Sensitivität (Test positiv falls tatsächlich krank)
99% Spezifität (Test negativ falls gesund)
In der untersuchten Region sind 0.5% der Bevölkerung HIV-positiv.
a) Schätze die Wahrscheinlichkeit, dass jemand mit einem
positiven Test tatsächlich erkrankt ist!
b) Berechne die Wahrscheinlichkeit, dass jemand mit einem
positiven Test tatsächlich erkrankt ist!
28
Unabhängige Ereignisse
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.
Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?
Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975
Durch das Zurücklegen werden die beiden Ereignisse
A = (erste Kugel weiß) und B = (zweite Kugel weiß)
voneinander unabhängig: P(B|A) = P(B) = 6/11
Das wissen um A liefert keine Information für B
Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls
P(A ∩ B) = P(A)P(B)
Beispiele: Mehrere Würfel, Münzen, etc.
29
Beispiel Unabhängigkeit
In einer Gruppe von Leuten befinden sich 8 Raucher und
12 Raucherinnen, sowie 10 Nichtraucher.
Wieviele Nichtraucherinnen sind in der Gruppe, falls bei der
zufälligen Wahl einer Person das Geschlecht vom Rauchverhalten
unabhängig ist?
Lösung: Sei x die Zahl der Nichtraucherinnen
P(raucht) = 20/(30 + x)
P(männlich) = 18/(30 + x)
P(raucht und männlich) = 8/(30 + x)
Unabhängigkeit:
⇒
(20/(30 + x)) · (18/(30 + x)) = 8/(30 + x)
18 · 20 = 8 · (30 + x)
Somit x = 15 Nichtraucherinnen.
30
⇒
45 = 30 + x
Multiple Unabhängigkeit
Drei Ereignisse A, B und C heissen unabhängig falls
1. alle 3 Ereignisse jeweils paarweise unabhängig
2. P(A ∩ B ∩ C) = P(A)P(B)P(C)
Aus paarweiser Unabhängigkeit folgt NICHT multiple
Unabhängigkeit!
Übung: Zwei faire Würfel
Ereignis A: Erster Würfel fällt auf 4
Ereignis B: Zweiter Würfel fällt auf 3
Ereignis C: Summe der Würfel gibt 7
31
Übungen - Wiederholung
1. Urne mit 3 blauen und 2 roten Kugeln,
ziehe 3 mal mit zurücklegen
Mit welcher Wahrscheinlichkeit
• ist die zweite gezogene Kugel blau?
• sind alle gezogenen Kugeln rot?
• sind alle gezogenen Kugeln blau?
• werden 2 rote Kugeln gezogen?
2. Wie 1) aber ziehen ohne zurücklegen!
Hinweis:
X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable
32
Inverse Fallacy
Der falsche Umgang mit bedingten Wahrscheinlichkeiten gehört zu
den häufigsten Fehlerquellen in der Anwendung der
Wahrscheinlichkeitsrechung. Ein verbreiteter Fehlertyp ist die
sogenannte inverse fallacy, die intuitive Gleichsetzung von P (A|B)
mit P (B|A) (vgl. auch das obige Beispiel der Interpretation
medizinischer Testergebnisse).
Beispiel: Bei den meisten Unfällen ist das Unfallsopfer weniger als
25 km von daheim entfernt. (Irrtümliche) Folgerung: Am sichersten
ist man, wenn man so weit von daheim weg ist wie möglich.
P( Entfernung ≤ 25 | Unfall) > P( Entfernung > 25 | Unfall)
ist richtig, nicht aber
P( Unfall | Entfernung ≤ 25) > P( Unfall | Entfernung > 25).
33
Das Drei-Türen-Problem
Ein weiterer Typ von Fehlern im Zusammenhang mit bedingten
Wahrscheinlichkeiten resultiert aus der Vernachlässigung des
Einflusses neuer Informationen auf die bedingte
Wahrscheinlichkeit.
Das Drei-Türen-Problem illustriert diesen Effekt. Marilyn vos
Savant stellte in ihrer Kolumne im Magazin Parade im Jahr 1990
folgende Frage:
“Angenommen Sie sind in einer Gewinnshow und haben die Wahl zwischen 3
Türen: Hinter einer Tür ist ein Auto, hinter den beiden anderen Türen Ziegen. Sie
wählen eine Tür, sagen wir Nr. 1, und der Quizmaster, der weiss, was hinter den
Türen ist, öffnet eine andere Tür, sagen wir Nr. 3, die eine Ziege dahinter hat. Er
sagt dann zu Ihnen: ‘Wollen Sie Tür Nr. 2?’ Ist es vorteilhaft zu wechseln?”
34
Drei-Türen-Problem – Kontroverse
Antwort von vos Savant: Ja, man sollte wechseln.
Zahlreiche Leserbriefschreiber bestritten die Korrektheit der
Antwort mit dem Argument: Türen 1 und 2 haben dieselbe
Wahrscheinlichkeit, auf das Auto zu führen. Was soll sich durch
das Öffnen von Tür 3 (hinter der kein Auto steht) daran ändern? Es
bringt also nichts, die ursprüngliche Entscheidung zu revidieren.
Dieses Argument ist falsch. Unter einschränkenden
Voraussetzungen (nächste Folie) kann gezeigt werden, dass die
Wahrscheinlichkeit, durch Wechseln das Auto zu erhalten, 2/3
beträgt, durch Beharren auf der ursprünglichen Wahl hingegen
nur 1/3.
35
Drei-Türen – Präzisierung
Voraussetzungen:
1. Die Wahrscheinlichkeit, mit der das Quiz-Team vor der Show
das Auto hinter einer der Türen versteckt, ist für jede Tür
dieselbe.
2. Der Quizmaster öffnet in jedem Fall eine Tür, die kein Auto
enthält, und wenn er dabei die Wahl zwischen zwei Türen hat,
gibt er beiden Türen dieselbe Wahrscheinlichkeit.
Ohne diese Voraussetzungen ist das Problem wesentlich
komplexer (vgl. etwa Richard Gill 2010).
36
Drei-Türen-Problem – Wahrscheinlichkeiten
Angenommen, der Kandidat wählt Tür Nr. 1.
A = Nr. der Tür, hinter der das Auto ist
B = Nr. der Tür, die der Quizmaster öffnet
Voraussetzung 1 besagt:
P(A = 1) = P(A = 2) = P(A = 3) = 1/3
Voraussetzung 2 besagt:
P(B = 2 | A = 1) = P(B = 3 | A = 1) = 1/2
P(B = 2 | A = 2) = P(B = 3 | A = 3) = 0
P(B = 3 | A = 2) = P(B = 2 | A = 3) = 1
37
Drei-Türen-Problem – Lösung
Anwendung des Satzes von Bayes liefert:
1
P(A = 1)
1
3
P(A = 1 | B = 3) = P(B = 3 | A = 1) ·
= ·
P(B = 3)
2 P(B = 3)
1
P(A = 2)
3
=1·
P(A = 2 | B = 3) = P(B = 3 | A = 2) ·
P(B = 3)
P(B = 3)
also ist die Gewinnwahrscheinlichkeit bei Wechseln doppelt so
gross wie bei Beharren auf der ersten Wahl.
(Anwendung des Satzes von der totalen Wahrscheinlichkeit liefert
P(B = 3) = 1/2 und damit die Werte 1/3 bzw. 2/3 für die beiden
obigen Wahrscheinlichkeiten.)
38
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2014/15
2
Diskrete Verteilungen
1. Einführung
2. Erwartungswert und Varianz
3. Die Binomialverteilung
4. Die Poissonverteilung
5. Andere diskrete Verteilungen
1
2.1
Einführung
Beispiel: Fairer Würfel,
Beobachtungen: 1, 2, 3, 4, 5, 6
Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6).
Beim Würfeln beobachten wir Realisierungen einer
Zufallsvariablen.
(Reelle) Zufallsvariable: Abbildung eines
Wahrscheinlichkeitsraums in die Menge der reellen Zahlen:
X:Ω→R
Im Beispiel:
Ω = {1, 2, 3, 4, 5, 6}
X(i) = i
2
Fortsetzung Beispiel
Zwei faire Würfel, X = Summe der Augenzahlen.
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}.
Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j).
Zufallsvariable X : Ω → R gegeben durch X(i, j) = i + j.
P (2) = P (12) = 1/36
P (3) = P (11) = 2/36
P (4) = P (10) = 3/36
P (5) = P (9) = 4/36
P (6) = P (8) = 5/36
P (7) = 6/36
Wertebereich: X = X(Ω) = {2, . . . , 12}.
3
Weiteres Beispiel
Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z)
Ω = {K, Z}
Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust
X:Ω→R
X(K) = 10, X(Z) = −10,
P (10) = P(X = 10) = P(K) = 0.5
P (−10) = P(X = −10) = P(Z) = 0.5
Wertebereich: X = X(Ω) = {−10, 10}.
Bemerkung: In den letzten beiden Beispielen wurden die
Elementarereignisse in Ω nicht mit den möglichen Werten der
Zufallsvariable identifiziert!
4
Diskrete Zufallsvariable
Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen,
d.h. indizierbar mit 1, 2, . . .:
Ω = {ω1 , ω2 , ω3 , . . . }
Eine (reelle) Zufallsvariable X ist eine Funktion der Form
X:Ω→R
Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX
wie folgt zugeordnet:
P
P : X → [0, 1], P (x) = P(X = x) = ω∈Ω:X(ω)=x pω ,
wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω
ist.
Wahrscheinlichkeiten der Elementarereignisse beschreiben
Verteilung einer diskreten Zufallsvariable vollständig.
5
Verteilungsfunktion
Englisch: Cumulative distribution function (cdf)
P
F : R → [0, 1],
F (x) = P(X ≤ x) = xi ≤x P(X = xi )
Beispiel Würfel:
1
F(x) = P(X ≤ x)
0.8
0.6
0.4
0.2
0
−2
0
2
4
x
6
6
8
Gleichverteilung
n mögliche Ereignisse mit gleicher Wahrscheinlichkeit
Ω = {1, . . . , n}
pi = 1/n
Wählen X(i) = i, d.h. X = Ω.
Verteilungsfunktion:



 0,
F (x) =
i/n,



1,
x<1
i ≤ x < i + 1,
i = 1, . . . , n − 1
x≥n
An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n
Auch bei anderer Wahl der pi gilt folgender Zusammenhang
zwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion:
P (i) = F (i) − F (i − 1),
falls i ∈ Ω
7
Eigenschaften der Verteilungsfunktion
Für diskrete Zufallsvariablen gilt:
Die Verteilungsfunktion ist eine monoton wachsende
Treppenfunktion mit Sprungstellen bei Ereignissen mit positiver
Wahrscheinlichkeit.
Es gilt allgemein für Verteilungsfunktionen:
• P (x) = F (x) − F (x− ),
wobei F (x− ) =
lim
h→x,h<x
Folgt aus der Definition von F (x) = P(X ≤ x)
• P(a < X ≤ b) = F (b) − F (a)
•
lim F (a) = 0,
a→−∞
lim F (b) = 1
b→∞
• F (x) monoton wachsend
8
F (h)
Übung
Die Verteilungsfunktion einer Zufallsvariablen X sei


0, x < 1
F (x) =
 1 − 2−k , k ≤ x < k + 1, k = 1, 2, . . .
1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5]
2. Bestimme die Wahrscheinlichkeitsfunktion von X
3. Mit welcher Wahrscheinlichkeit ist X > 5?
9
2.2
Erwartungswert und Varianz
Wesentliche Kenngrößen von Verteilungen
Werden in der Praxis häufig verwendet
⇒ Reduktion der Information von Daten
Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung,
entspricht dem arithmetischen Mittel einer Stichprobe
Varianz ist ein Maß für die Streuung einer Verteilung,
entspricht den Abweichungen vom Mittelwert die man in einer
Stichprobe erwarten kann
Beide Kennzahlen basieren auf Momenten der Verteilung, und sind
speziell für die Normalverteilung von großer Bedeutung
10
Erwartungswert
Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P
Definition Erwartungswert:
E(X) =
P
xP (x)
x∈X
wobei wieder X = X(Ω) = Wertebereich von X.
Gewichtete Summe der Werte, Gewichte sind
Wahrscheinlichkeiten.
µ = E(X)
Übliche Notation:
Beispiel Würfel:
E(X)
=
=
1 · 1/6 + 2 · 1/6 + · · · + 6 · 1/6
1+2+3+4+5+6
= 21/6 = 3.5
6
11
Median
Unter einem Median einer Zufallsvariablen X auf Ω versteht man
eine Zahl m mit den Eigenschaften
P(X ≤ m) ≥ 1/2,
P(X ≥ m) ≥ 1/2.
Der Median muss nicht eindeutig sein. Z.B. hat eine auf {1, . . . , 5}
gleichverteilte Zufallsvariable einen eindeutigen Median (m = 3).
Für eine auf {1, . . . , 6} gleichverteilte Zufallsvariable hingegen ist
jede Zahl m mit 3 < m < 4 ein Median. Meist nimmt man in diesem
Fall den mittleren Wert (hier 3.5) als Repräsentaten.
Der Median kann sich vom Erwartungswert stark unterscheiden
(typisches Beispiel: Einkommensverteilung!). Für eine auf
{4, 5, 6, 8, 13, 18, 91} gleichverteilte Zufallsvariable etwa ist der
Median 8, der Erwartungswert 29.
12
Funktionen von Zufallsvariablen
Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einer
Funktion g:
X : Ω → R,
g : R → R.
Y (ω) := (g ◦ X)(ω) = g(X(ω)).
Y : Ω → R, ist also wieder eine Zufallsvariable.
Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildet
wie die von X:
P
PY (y) = PY (Y = y) = ω∈Ω:Y (ω)=y pω .
Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ).
D.h. die Werte x werden transformiert zu Werten g(x).
Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x).
13
Beispiele für Funktionen von Zufallsvariablen
1. Würfel, Ω = {1, . . . , 6}, X(ω) = ω, Funktion g(x) = x2
Die Zufallsvariable Y = X 2 hat Wertebereich
Y = {1, 4, 9, 16, 25, 36} und WF
PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6
2. Würfel, Ω = {1, . . . , 6}, Funktion ḡ(x) = (x − 3.5)2 .
Die Zufallsvariable Z = (X − 3.5)2 hat Wertebereich
Z = {2.52 , 1.52 , 0.52 } = {6.25, 2.25, 0.25} und WF
P (6.25) = p1 + p6 = 1/3
P (2.25) = p2 + p5 = 1/3
P (0.25) = p3 + p4 = 1/3
Übung: Ω = {−1, 0, 1}, X(ω) = ω,
P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2
Berechne WF von Y = X 2 und Z = X 3
14
Erwartungswert von Funktionen
Beispiel: Würfel – Fortsetzung:
1)
E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · · + 36 · 1/6
1 + 4 + 9 + 16 + 25 + 36
= 91/6 = 15.1667
=
6
2)
E(ḡ(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167
Allgemein: Berechnung des Erwartungswerts von g(X):
E(g(X)) =
P
g(x)P (x)
x∈X
Alternative Darstellung:
P
g(x)P (x) =
x∈X
P
y∈Y
15
yPY (y)
Anwendungsbeispiel: Erwartungsnutzentheorie
Wenn die Zufallsvariable X “Gewinn” repräsentiert, kann von
einem risikoneutralen Entscheidungsträger vermutet werden,
dass er/sie bestrebt ist, E(X) zu maximieren.
Menschen sind selten risikoneutral. Was hätten Sie lieber:
• 1 000 000 Euro mit Sicherheit, oder
• 2 000 001 Euro mit Wahrscheinlichkeit 0.5?
Ein klassischer Erklärungsansatz für Risikoaversion liegt in der
Annahme, dass der Entscheidungsträger nicht E(X) maximiert,
sondern E(g(X)), wobei g eine konkave Nutzenfunktion ist
(Expected Utility Theory).
16
Lineare Transformation
Allgemein gilt für a, b ∈ R:
E(aX + b) = aE(X) + b
Beweis:
E(aX + b)
=
X
(ax + b)P (x)
x∈X
=
a
X
xP (x) + b
x∈X
=
aE(X) + b
Speziell gilt: E(X − µ) = E(X − E(X)) = 0
17
X
x∈X
P (x)
Varianz
Var (X) := E(X − µ)2
Definition:
Folgende Formel, die mitunter leichter zu berechnen ist als
E(X − µ)2 , ist äquivalent:
Var (X) = E(X 2 ) − µ2
Beweis:
E(X − µ)
2
=
X
2
(x − µ) P (x) =
x∈X
=
X
(x2 − 2µx + µ2 )P (x)
x∈X
2
x P (x) − 2µ
x∈X
=
X
X
x∈X
xP (x) + µ
2
X
P (x)
x∈X
E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2
Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln
18
Beispiel zur Varianz
Drei Zufallsvariablen X1 , X2 , X3
X1 = 0 mit Wahrscheinlichkeit 1
X2 gleichverteilt auf {−1, 0, 1}
X3 gleichverteilt auf {−50, −25, 0, 25, 50}
Alle drei Zufallsvariabeln haben Erwartungswert 0
Var (X1 ) = 02 · P (0) = 0
Var (X2 ) = (−1)2 · 1/3 + 12 · 1/3 = 2/3
Var (X3 ) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250
Varianz plus MW gibt mehr Information über Verteilung als
Mittelwert allein
19
Eigenschaften der Varianz
Allgemein gilt für a, b ∈ R:
Var (aX + b) = a2 Var (X)
Beweis:
Var (aX + b) = E(aX + b − aµ − b)2 = a2 E(X − µ)2
Speziell: Var (−X) = Var (X)
Var (X + b) = Var (X)
Übliche Notation:
σ 2 = Var (X)
σ . . . Standardabweichung:
p
SD(X) = Var (X)
20
Warum ist die Varianz ein gutes Maß?
Man kann sich fragen, weshalb nicht anstelle der Varianz die
mittlere Absolutabweichung E(|X − µ|) als Streuungsmaß
genommen wird.
Die Varianz hat jedoch mehrere thoretische und praktische
Vorteile. Z.B. hätte man gerne, dass das Maß für die Abweichung
von einem Wert µ′ dann am niedrigsten ist, wenn µ′ der
Erwartungswert µ ist. Dies ist jedoch für die mittlere
Absolutabweichung nicht der Fall: Für Gleichverteilung auf {0, 4, 5}
etwa ist µ = 3, aber E(|X − 3|) = 2 > 5/3 = E(|X − 4|).
Quadrieren der Abweichungen erfüllt die angegebene Forderung,
denn
E((X − µ′ )2 ) = E([(X − µ) + (µ − µ′ )]2 )
= Var (X) + (µ − µ′ )2 + 2E((X − µ)(µ − µ′ )) = Var (X) + (µ − µ′ )2 .
21
Momente von Verteilungen
k-tes Moment einer Zufallsvariable: mk := E(X k )
zk =
k-tes zentriertes Moment:
E((X − µ)k )
m1 . . . Mittelwert
z2 = m2 − m21 . . . Varianz
Weiters von Bedeutung sind das dritte und das vierte Moment
Schiefe: ν(X) :=
z3
σ3
= E(X∗3 )
wobei
X∗ := (X − µ)/σ
• ν(X) = 0
...
symmetrische Verteilung
• ν(X) < 0
...
linksschief
• ν(X) > 0
...
rechtsschief
Kurtosis:
z4
σ4
= E(X∗4 )
(auch Wölbung
22
→
Normalverteilung)
Übung: Schiefe
Eine Zufallsvariable X habe folgende Wahrscheinlichkeitsverteilung:
P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05
Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion
Berechne die Schiefe!
Lösung:
−0.672
0.843/2
∼ −0.8729
Wie lautet die Schiefe für die folgende leicht veränderte Verteilung?
P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05
23
2.3
Binomialverteilung
Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1)
P(X = 1) = p,
P(X = 0) = q
Zum Beispiel faire Münze:
wobei q = 1 − p
p = 1/2
Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7
Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z?
Ω = {0, 1}3 , Wertebereich von Z ist Z = {0, 1, 2}
Die beiden Würfe sind voneinander unabhängig!
P(Z = 0) = P(X1 = 0, X2 = 0) = P(X1 = 0)P(X2 = 0) = 0.32 = 0.09
P(Z = 1) = P(X1 = 0, X2 = 1) + P(X1 = 1, X2 = 0) =
= 2 · P(X1 = 0)P(X2 = 1) = 2 · 0.3 · 0.7 = 0.42
P(Z = 2) = P(X1 = 1, X2 = 1) = P(X1 = 1)P(X2 = 1) = 0.72 = 0.49
24
Binomialverteilung
n unabhängige Bernoulli Experimente mit P(X = 1) = p
Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt:
n k n−k
P(Y = k) = k p q
Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jede
einzelne Sequenz mit k mal 1 und n − k mal 0 (in irgendeiner
festen Reihenfolge) ist pk (1 − p)n−k
Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohne
Wiederholung
Notation: Y ∼ B(n, p)
Übung: Fünf unabhängige Würfe einer fairen Münze
Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe!
25
Beispiel Binomialverteilung
Prüfung mit Durchfallsquote von 20%
Anzahl der Erfolge beim Antritt von 10 Studierenden?
10
P(X = 7) =
· 0.87 · 0.23 = 0.2013
7
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
26
6
7
8
9
10
Beispiele Binomialverteilung: n = 10
p = 0.1
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
p = 0.3
0
1
2
3
4
5
6
7
8
9
0
10
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
1
2
3
4
5
6
7
8
9
0
10
27
p = 0.2
0
1
2
3
4
5
6
7
8
9
10
p = 0.5
0
1
2
3
4
5
6
7
8
9
10
Anwendung: Ziehen mit Zurücklegen
Grundgesamtheit mit N Objekten
• M der N Objekte erfüllen Eigenschaft E
• Ziehe n Objekte mit zurücklegen
Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen ist
binomialverteilt:
X ∼ B(n, M/N )
Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5
Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzen
Kugeln
• Wahrscheinlichkeitsfunktion von X?
• Erwartungswert von X?
28
Erwartungswert der Binomialverteilung
X ∼ B(n, p) ⇒ E(X) = np
n−1
n
Unter Verwendung von k k = n k−1
E(X)
=
=
n
n X
X
n − 1 k−1 n−k
n k n−k
p
q
k
p q
= np
k−1
k
k=1
k=1
n−1
X n − 1
np
pi q n−1−i
i
i=0
und aufgrund des binomischen Lehrsatzes
n−1
X
i=0
n − 1 i n−1−i
pq
= (p + q)n−1 = 1
i
Alternativer Beweis: Differenziere (p + q)n nach p
29
Varianz der Binomialverteilung
X ∼ B(n, p)
⇒
Wiederum unter Verwendung von
E(X 2 )
=
=
n
X
Var (X) = npq
k
n
k
=n
n−1
k−1
n
X
n − 1 k−1 n−k
2 n
k n−k
k
p q
= np
k
p
q
k
k−1
k=1
k=1
n−1
X
n − 1 i n−1−i
(i + 1)
pq
= np {(n − 1)p + 1}
np
i
i=0
und daher
Var (X) = E(X 2 ) − µ2 = np {(n − 1)p + 1} − (np)2 = np(1 − p)
Alternativer Beweis: Differenziere (p + q)n zwei mal nach p
30
2.4
Die Poissonverteilung
X = N0 = {0, 1, 2, · · · }
Definition:
P(X = k) =
λk −λ
k! e
,
λ>0
X ∼ P(λ)
Notation:
Poisson-verteilte Zufallsvariable kann im Prinzip beliebig große
Werte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit
Beispiel:
λ=2
P(X ≤ 1)
=
P(X > 4)
=
=
20 −2 21 −2
e + e = (1 + 2)e−2 = 0.4060
0!
1!
4 8 16 −2
1 − P(X ≤ 4) = 1 − (1 + 2 + + + )e
2 6 24
1 − 0.9473 = 0.0527
31
Beispiele Poissonverteilung
λ=1
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
λ=3
0
1
2
3
4
5
6
7
8
9
10
11
λ = 1.5
0
12
0
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
1
2
3
4
5
6
7
8
9
10
11
0
12
32
1
2
3
4
5
6
7
8
9
10
11
12
λ=5
0
1
2
3
4
5
6
7
8
9
10
11
12
Anwendung
Modellierung von seltenen Ereignissen
Beispiele
• Zahl der Kunden innerhalb eines bestimmten Zeitraums
• Radioaktiver Zerfall
• Zahl von Tippfehlern pro Folie
• Zahl von Menschen älter als 100 Jahre (pro 1 000 000)
• Zahl von Fehlalarmen an einem Tag
• etc.
Zusammenhang zwischen Poisson-verteilten Ereignissen und der
Wartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung
33
Erwartungswert und Varianz
X ∼ P(λ)
⇒
E(X) = λ
Beweis:
∞
∞
∞
k
X
X
X
λ
λj
λk −λ
−λ
−λ
E(X) =
= λe
k e =e
k!
(k − 1)!
j!
j=0
k=1
k=0
X ∼ P(λ)
⇒
Var (X) = λ
Beweis:
E(X 2 ) =
∞
X
k=0
∞
∞
k
k
X
X
kλ
(j + 1)λj
λ
−λ
−λ
−λ
2
e =e
= λe
= λ(λ+1)
k
k!
(k − 1)!
j!
j=0
k=1
E(X 2 ) − E(X)2 = λ(λ + 1) − λ2 = λ
34
Approximation der Binomialverteilung
X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05)
⇒ X ∼ P(np) approximativ,
d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np
Motivation: Setze λ := np
P(X = k)
=
n!
pk q n−k
k! (n − k)!
=
n(n − 1) · · · (n − k + 1) λk (1 − λ/n)n
· k ·
k!
n (1 − λ/n)k
Für n groß und moderates λ (d.h. p klein) gilt
n(n − 1) · · · (n − k + 1)
≈1
nk
und daher P(X = k) ≈
λk
k!
(1−λ/n)k ≈ 1
e−λ
35
(1−λ/n)n ≈ e−λ
Beispiel Poissonapproximation
Vergleich Poissonapproximation (λ = 0.5) mit exakter
Verteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05)
Binomial:
1
P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959
0.95
0.9
+ 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957
0.85
0.8
= 0.99897150206211
0.75
0.7
Poissonapproximation:
0.65
0.6
0.55
0
1
2
3
4
Blau: X ∼ B(10, 0.05)
Grün: X̃ ∼ P(0.5)
5
6
P(X̃ ≤ 3) =
2
3
0.5
0.5
≈ 1 + 0.5 +
+
e−0.5
2
6
= 0.99824837744371
36
2.5
Andere diskrete Verteilungen
Wir werden behandeln:
• Geometrisch
• Hypergeometrisch
Weitere Verteilungen (hier nicht behandelt):
• Negativ binomial
• Verallgemeinerte Poisson
• Zetaverteilung
• etc.
37
Geometrische Verteilung
Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p
X . . . Anzahl der Versuche bis zum ersten Erfolg
Es gilt:
P(X = k) = q k−1 p
k − 1 Miserfolge mit Wahrscheinlichkeit q = 1 − p
Übung: Urne mit N weißen und M schwarzen Bällen
Ziehen mit zurücklegen
a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, bis
eine schwarze Kugel gezogen wird
b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht,
bis eine schwarze Kugel gezogen wird
38
Erwartungswert und Varianz
∞
P
Beachte:
k
q =
k=0
1
1−q
Differenzieren liefert:
und daher
∞
P
kq
k−1
=
∞
X
Nochmals Differenzieren:
d
dq
kq k−1 p =
k=1
∞
P
∞
P
qk =
k=0
2
E(X ) =
k=1
Und daher:
2 k−1
k q
p = pq
∞
X
k(k − 1)q
k(k − 1)q
k−2
=
k−2
+p
k=1
=1
1
(1−q)2
d2
dq 2
∞
X
∞
P
qk =
k=0
kq
k−1
k=1
Var (X) = E(X 2 ) − E(X)2 =
39
p
p
=
1
p
=
(1 − q)2
p
k=1
∞
X
p
1−q
q k−1 p =
k=1
k=1
E(X) =
∞
P
2
p2
−
1
p
−
1
p2
2
(1−q)3
2pq 1
= 3 +
p
p
=
1−p
p2
Beispiel: Iterierte Spiele
Für die Theorie der Iterierten Spiele ist folgendes Beispiel
grundlegend: Ein Spiel kann mehrere Runden hindurch fortgesetzt
werden. Nach jeder Runde kommt es mit einer Wahrscheinlichkeit
q < 1 zu einer weiteren Runde; andernfalls wird die Serie
abgebrochen. In Runde k (k = 1, 2, . . .) erzielt der Spieler einen
Gewinn der Höhe ak . Wie hoch ist der erwartete Gesamtgewinn?
Offensichtlich ist die Anzahl der gespielten Runden geometrisch
verteilt. Die Wahrscheinlichkeit, dass Runde k zustandekommt, ist
q k−1 .
∞
∞
X
X
E(Gesamtgewinn) =
ak q k−1 =
ak−1 q k .
k=1
Für ak ≡ a ergibt das z.B. a/(1 − q).
40
k=0
Beispiel: St.-Petersburg-Paradoxon
Das folgende klassische Beispiel, das ebenfalls auf der
geometrischen Verteilung beruht, weist auf die Grenzen des
Konzepts “Erwartungswert” hin:
St.-Petersburg-Paradoxon. Ein Casino bietet eine Spielvariante
gemäß folgenden Regeln an: Eine Münze wird so lange geworfen,
bis zum ersten Mal “Kopf” kommt. Sei K die Anzahl der dafür
nötigen Münzwürfe. Der Spieler erhält eine Auszahlung der Höhe
X = 2K .
Wieviel sollte der Spieler bereit sein zu bezahlen, um dieses Spiel
spielen zu dürfen?
41
St.-Petersburg-Paradoxon: Fortsetzung
Fair ist das Spiel offenbar dann, wenn der Einsatz des Spielers
gerade den Erwartungswert der Auszahlung kompensiert. Dieser
ist jedoch
E(X) =
∞
X
2k · (1/2)k−1 · (1/2) =
k=1
∞
X
1 = ∞,
k=1
denn die Zufallsvariable K ist geometrisch verteilt mit q = 1/2.
Obwohl also das Spiel einen unendlich hohen Einsatz wert zu sein
scheint, ist die tatsächlich resultierende Auszahlung mit
Wahrscheinlichkeit 1 nur endlich!
Konsequenz: Der Erwartungswert ist nur dann ein sinnvolles Maß,
wenn er endlich ist.
42
Hypergeometrische Verteilung
Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen
Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß,
Ziehe 4 Kugeln mit bzw. ohne Zurücklegen.
Berechne jeweils Verteilung der gezogenen schwarzen Kugeln!
0.45
0.45
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
1
2
3
0
4
Mit Zurücklegen
0
1
2
3
Ohne Zurücklegen
43
4
Hypergeometrische Verteilung
N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n
Objekte ohne zurücklegen, X die Anzahl der gezogenen Objekte
mit Eigenschaft E.
−M
(Mk )(Nn−k
)
P(X = k) =
(Nn )
a
Wir verwenden hier die Definition b = 0, falls a < b
Klarerweise gilt P(X = k) = 0 falls M < k
Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden
Ebenfalls klar dass P(X = k) = 0 falls N − M < n − k
Ich kann nicht mehr weiße Kugeln ziehen als vorhanden
Insgesamt:
X = {k : max(0, n − N + M ) ≤ k ≤ min(n, M )}
44
Erwartungswert und Varianz
Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich)
E(X) =
nM
N ,
Var (X) =
nM
N (1
−
M N −n
N ) N −1 ,
Definiere p := M
N und betrachte Ähnlichkeit zur
Binomialverteilung
E(X) = np
gleiche Formel wie bei Binomial
−n
Var (X) = np(1 − p) N
N −1
Nämlich
limN →∞
N −n
N −1
asymptotisch wie bei Binomial
=1
Wenn N und M sehr groß im Vergleich zu n, dann gilt
(ohne Beweis)
näherungsweise X ∼ B(n, M
N)
45
Beispiel Hypergeometrische Verteilung
Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern,
10 Kartons enthalten zumindest ein zerbrochenes Ei,
Stichprobe der Größe 6
• Mit welcher Wahrscheinlichkeit enthalten zwei der sechs
entnommenen Kartons kaputte Eier?
N = 30, M = 10, n = 6
P(X = 2) =
20
4
10
2
30
6
= 0.3672
• Erwartungswert und Varianz für die Anzahl der Kartons in der
Stichprobe mit kaputten Eiern?
E(X) = 6 ·
10
30
= 2;
Var (X) = 6 ·
46
1
3
·
2
3
·
24
29
= 1.1034
Übung Approximation durch Binomialverteilung
Lotterie mit 1000 Losen, davon 200 Gewinnlose
Kaufe 5 Lose
1. Berechne die Wahrscheinlichkeit, dass mindestens ein Los
gewinnt
Lösung: 0.6731
2. Berechne die Gewinnwahrscheinlichkeit von 1. mittels
Binomial-Approximation
Lösung: 0.6723
47
Zusammenfassung diskrete Verteilungen
• Gleichverteilung: X = {x1 , . . . , xn } ,
• Binomialverteilung: X ∼ B(n, p),
Es gilt E(X) = np,
P(X = k) =
P(X = k) =
pk q n−k
λk
k!
e−λ
P(X = k) = p q k−1
Es gilt E(X) = p−1 ,
Var (X) = q p−2
• Hypergeometrische:
M
k
Es gilt E(X) = np,
X = {0, 1, 2 . . . }
Var (X) = λ
• Geometrische Verteilung:
n
k
X = {0, . . . , n}
Var (X) = npq
• Poissonverteilung: X ∼ P(λ),
Es gilt E(X) = λ,
P(X = xk ) = 1/n
P(X = k) =
X = {1, 2 . . . }
N −M
n−k
/
−n
Var (X) = np(1 − p) N
N −1 ,
48
N
n
p=
M
N
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2014/15
3
Stetige Verteilungen
1. Einführung
2. Exponentialverteilung
3. Normalverteilung
4. Normalverteilungsapproximation
5. Andere stetige Verteilungen
1
3.1
Einführung
Diskrete Zufallsvariable:
Ω endlich oder abzählbar
Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder ein
kartesisches Produkt von Intervallen im Raum Rn )
Beispiele:
• Wartezeit auf den nächsten Kunden
• Größe bzw. Alter einer Person
• Umsatz einer Firma
• Gewicht eines Gegenstandes
Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelle
Zahl beschreiben
2
Verteilungsfunktion
Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktion
zugeordnet:
F (x) = P(X ≤ x)
stetig in x
Beispiel: Gleichverteilung auf Intervall [0, 1]
2
1.5
F(x)
1
0.5
0
−0.5
−1
−1
−0.5
0
0.5
x
3
1
1.5
2
Berechnung von Wahrscheinlichkeiten
Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0:
P(X = x) = F (x) − F (x− ) = 0 wegen Stetigkeit von F
Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der X
einen Wert in einem Intervall [a, b] annimmt:
P(a ≤ X ≤ b) = F (b) − F (a)
So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls
0 ≤ a < b ≤ 1:
P(a < XId < b) = b − a
Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b)
4
Dichtefunktion
Sei F (x) differenzierbar.
Definition:
f (x) := F ′ (x)
Dichtefunktion der Zufallsvariable X
Hauptsatz der Analysis:
F (x) =
und daher
R
f (x)dx + c
P(a < X ≤ b) = F (b) − F (a) =
Zb
f (x)dx
x=a
Zum Vergleich: Bei diskreten Zufallsvariablen ist
X
P(a < X ≤ b) = F (b) − F (a) =
P (x)
a<x≤b
5
Eigenschaften der Dichtefunktion
Für die Dichtefunktion (kurz Dichte) gilt
• f (x) ≥ 0,
•
•
∀x ∈ R
lim f (x) = 0, lim f (x) = 0
x→−∞
R∞
x→∞
f (x)dx = 1
x=−∞
Die Dichtefunktion f (x) ist nicht die Wahrscheinlichkeit dafür, dass
X den Wert x annimmt!
Für kleines ǫ gilt
P(x − ǫ < X ≤ x + ǫ) ≈ f (x) · 2ǫ
6
Beispiele
1) X gleichverteilt auf dem Intervall [0, 1]
F (x) = x, x ∈ [0, 1]
⇒
f (x) = 1, x ∈ [0, 1]
2) X gleichverteilt auf dem Intervall [l, r],
f (x) = c, x ∈ [l, r]
Welchen Wert hat c?

 cx2 , x ∈ [0, 1]
3) X mit Dichte f (x) =

0 sonst
Welchen Wert hat c?
Berechne P(0.25 < X < 0.75)
7
l < r, l, r ∈ R
Erwartungswert und Varianz von stetigen ZV
Analog zur Definition bei diskreten ZV:
R∞
E(X) =
xf (x)dx
x=−∞
und
Var (X) =
R∞
(x − µ)2 f (x)dx
x=−∞
Es gilt wiederum:
E(aX + b) = aE(X) + b
Var (aX + b) = a2 Var (X)
Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert und
Varianz!
8
Erwartungswert von Funktionen von ZV
Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis):
E(g(X)) =
R∞
g(x)f (x)dx
x=−∞
Daher folgt:
Und auch:
Z∞
Var (X) = E(X − E(X))2
Var (X) = E(X 2 ) − E(X)2
(x − µ)2 f (x)dx
=
Z∞
(x2 − 2µx + µ2 )f (x)dx
x=−∞
x=−∞
=
Z∞
x2 f (x)dx − 2µ
Z∞
x=−∞
x=−∞
9
xf (x)dx + µ2
Funktionen von stetigen Zufallsvariablen
Sei g eine reellwertige Funktion g : X → R und g(X ) = Y.
Falls g streng monoton wachsend, existiert Umkehrabbildung
g −1 : Y → X
Verteilungsfunktion von Y = g(X) berechnet man wie folgt:
FY (y) = P(g(X) ≤ y) = P(X ≤ g −1 (y)) = F (g −1 (y))
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX
g −1 (y) = ln(y)
Y = g(X ) = [e0 , e1 ] = [1, e]
FY (y) = P(Y ≤ y) = FX (ln(y)) = ln(y),
10
y ∈ [1, e]
Funktionen von stetigen Zufallsvariablen
Interpretation: Koordinatenwechsel
Die Werte der Zufallsvariable werden transformiert
2
2
1.5
1.5
1
1
F (y)
0.5
Y
F(x)
Bei streng monotoner Transformation bleiben die
Wahrscheinlichkeiten der transformierten Intervalle gleich
(vgl. diskrete Zufallsvariable)
0.5
0
0
−0.5
−0.5
−1
−1
−0.5
0
0.5
1
1.5
−1
0.5
2
x
1
1.5
2
y = g(x)
11
2.5
3
Funktionen von stetigen Zufallsvariablen
Falls g streng monoton fallend
⇒
g −1 existiert
P(g(X) ≤ y) = P(X ≥ g −1 (y)) = 1−P(X < g −1 (y)) = 1−F (g −1 (y))
Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraum
von g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 21 )2
√
g −1 (y) = 21 ± y
g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1]
2
P((X − µ) ≤ y)
=
=
√
√
P(1/2 − y ≤ X ≤ 1/2 + y)
√
√
FX (1/2 + y) − FX (1/2 − y)
12
Dichte von transformierten Zufallsvariablen
g streng monoton und differenzierbar
Wie lautet Dichte von Y = g(X)?
fY (y) =
d
dy FY
(y) =
d
−1
(y))
dy F (g
= fX (g −1 (y)) ·
d −1
(y)
dy g
(Differenzieren der transformierten Verteilungsfunktion unter
Beachtung der Kettenregel!)
Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX
FY (y) = ln(y), y ∈ [1, e]
Oder mit Formel:
⇒
fY (y) = y1 , y ∈ [1, e]
fX (g −1 (y)) =
d −1
g (y) =
dy
13
1 denn fX (x) ≡ 1
1
y
3.2
Exponentialverteilung
Stetige Zufallsvariable X ist exponentialverteilt mit Parameter
λ > 0 falls Dichte

 λe−λx , x ≥ 0
f (x) =

0, x < 0
Zugehörige Verteilungsfunktion

 1 − e−λx ,
F (x) =

0,
Beweis: Einfache Integration
14
x≥0
x<0
Plots Exponentialverteilung
Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3
3
1
0.9
2.5
0.8
λ=1
λ=2
λ=3
2
0.7
F(x)
f(x)
0.6
1.5
0.5
0.4
1
0.3
λ=1
λ=2
λ=3
0.2
0.5
0.1
0
0
0.5
1
1.5
2
2.5
0
3
x
0
0.5
1
1.5
2
2.5
x
Je größer λ desto schneller fällt die Dichtefunktion.
Wir vermuten daher: Je größer λ desto kleiner µ und auch σ.
15
3
Erwartungswert
X exponentialverteilt mit Parameter λ
R ′
R ′
Partielle Integration u v = uv| − uv anwenden.
E(X)
=
Z∞
xλe
−λx
dx =
x=0
=
2
E(X )
=
−λx ∞
1
e
=
0−
λ 0
λ
Z∞
x λe
0+
2
2
E(X) = 2
λ
λ
2
−λx
dx =
x=0
=
und daher
Var (X) =
2
λ2
−
1
λ2
16
−λx ∞
−xe
0
∞
−x2 e−λx 0
=
1
λ2
+
Z∞
e−λx dx
Z∞
2xe−λx dx
x=0
+
x=0
Übung
Angenommen die Länge eines Telephongespräches in Minuten ist
exponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zu
einer Telephonzelle wo unmittelbar zuvor jemand ein Gespräch
begonnen hat.
Wie groß ist die Wahrscheinlichkeit dass du
1. weniger als 10 Minuten
2. genau 10 Minuten
3. zwischen 10 und 20 Minuten
4. länger als 20 Minuten
warten mußt bis die Telephonzelle frei wird?
17
Zusammenhang mit Poissonverteilung
Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.):
• Die Zeit T zwischen dem Eintreffen zweier
aufeinanderfolgender Ereignisse ist (unabhängig)
exponentialverteilt mit Parameter λ.
• Für jedes Zeitintervall [t1 , t2 ] ist die Häufigkeit der während
[t1 , t2 ] auftretenden Ereignisse poissonverteilt mit Parameter
λ(t2 − t1 ).
t1
✉
x1
T
✉
x2
t2
Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ),
λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1.
18
Übung
X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraum
ausfällt (Maschinen laufen 24h durchgehend)
Im Mittel fallen 3 Maschinen pro Tag aus
Annahme X poissonverteilt
a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht?
b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keine
Maschine aus?
c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stunden
zwei Maschinen aus?
19
Gedächtnislosigkeit
Die Verteilung von X ist gedächtnislos, wenn
P(X > s + t|X > t) = P(X > s)
D.h. Vorgeschichte bietet keinerlei Information
Exponentialverteilung ist gedächtnislos:
Definition ist äquivalent zu P(X > s + t) = P(X > s)P(X > t)
und es gilt e−λ(s+t) = e−λs e−λt
Exponentialverteilung ist einzige gedächtnislose stetige Verteilung!
Übung: Im diskreten Fall geometrische Verteilung gedächtnislos
(Diskretes Analogon zur Exponentialverteilung)
20
3.3
Normalverteilung
2
X ∼ N (µ, σ )
−(x−µ)2 /2σ 2
√ 1
e
2π σ
falls f (x) =
Standardnormalverteilung N (0, 1):
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
1
2
Gaußsche Glockenkurve
21
3
Normalverteilung
Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung und
Statistik aufgrund des zentralen Grenzwertsatzes!
f ist tatsächlich Wahrscheinlichkeitsdichte:
1
√
2π σ
Z∞
x=−∞
−(x−µ)2 /2σ 2
e
1
dx = √
2π
Zunächst Variablensubstitution z ←
Z∞
−z 2 /2
e
dz = 1
z=−∞
x−µ
σ
dann verschiedene Möglichkeiten zur Berechnung des
uneigentlichen Integrals
Rx
Verteilungsfunktion F (x) =
f (y)dy lässt sich nicht in
y=−∞
geschlossener Form darstellen (keine einfache Formel)
⇒
Tabellen für die Normalverteilung
22
Standardnormalverteilung
X ∼ N (0, 1),
Φ(x) := P(X ≤ x)
übliche Notation:
2
1
ϕ(x) := Φ′ (x) = √ e−x /2
2π
Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet)
Grund: ϕ ist symmetrisch und somit
ϕ(−x) = ϕ(x)
⇒
Φ(−x) = 1 − Φ(x)
Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt
P(−1 ≤ X ≤ 2)
=
P(X ≤ 2) − P(X < −1) = Φ(2) − {1 − Φ(1)}
=
0.9772 − 1 + 0.8413 = 0.8186
Werte von Φ(2) und Φ(1) aus Tabelle
23
Verteilungsfunktion der SNV
Einige wesentliche Werte von Φ(x):
Φ(0) = 0.5;
Φ(1.645) = 0.95;
Φ(1.96) = 0.975
Der Graph von Φ(x):
1
0.8
0.6
0.4
0.2
0
−3
−2
−1
0
24
1
2
3
Erwartungswert
Sei X ∼ N (µ, σ 2 )
Substitution z ←
x−µ
σ
E(X)
=
=
da g(z) := z e−z
und
√1
2π
R∞
2
/2
e−z
2
liefert
1
√
2π σ
1
√
2π
Z∞
−(x−µ)2 /2σ 2
xe
dx
x=−∞
Z∞
−z 2 /2
(σz + µ)e
dz = µ
z=−∞
antisymmetrisch (d.h. g(−z) = −g(z))
/2
dz = 1
x=−∞
25
Varianz
Wiederum Substitution z ←
Integration liefert
Var (X) =
=
=
1
√
2π σ
σ2
√
2π
x−µ
σ
Z∞
und anschließend partielle
2 −(x−µ)2 /2σ 2
(x − µ) e
x=−∞
Z∞
2 −z 2 /2
z e
dx
dz
z=−∞


∞
2
σ2
√
−ze−z /2 +
−∞
2π 
Somit gezeigt: X ∼ N (µ, σ 2 )
⇒
26
Z∞
z=−∞
e−z
2
/2
dz


= σ2

E(X) = µ, Var (X) = σ 2
Lineare Transformation
Wesentliche Eigenschaft:
X ∼ N (µ, σ 2 )
⇒
Y := aX + b ∼ N (aµ + b, a2 σ 2 )
Beweis: Nehmen a > 0 an. (Fall a < 0 analog.)
Transformationssatz für Dichten:
fY (y) = fX (g −1 (y)) ·
Hier: g(x) = ax + b
⇒
d −1
g (y)
dy
g −1 (y) = (y − b)/a,
d −1
(y)
dy g
Und somit
fY (y)
=
=
fX ((y − a)/b) · 1/a
1
−(y−aµ−b)2 /2a2 σ 2
√
e
2πσa
Dies ist die Dichte einer N (aµ + b, a2 σ 2 )
27
= 1/a
Normalisierung
Daraus folgt unmittelbar
X ∼ N (µ, σ 2 )
⇒
Z :=
X−µ
σ
∼ N (0, 1)
Normalverteilung für verschiedene µ und σ
0.45
µ = −2
µ=0
µ=2
0.4
0.8
0.7
0.35
σ = 1/2
0.6
0.3
0.5
0.25
0.4
σ=1
0.2
0.3
0.15
0.2
σ=2
0.1
0.1
0.05
0
−5
0
−3
−4
−3
−2
−1
0
1
2
3
4
−2
−1
0
1
2
5
σ 2 . . . Varianz
µ . . . Mittelwert
28
3
Beispiel
Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten:
1. P(2 < X < 5)
2. P(X > 0)
3. P(|X − 3| > 6)
Lösungen
1)
2)
3)
X −3
5−3
2
1
2−3
<
<
=Φ
−Φ −
P
3
3
3
3
3
≈ 0.7486 − (1 − 0.6293) = 0.3779
0−3
X −3
<
P
= Φ(1) ≈ 0.8413
3
3
6−3
X −3
<
2·P
= 2 · (1 − Φ(2)) ≈ 0.0456
3
3
29
Quantile der Normalverteilung
Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eine
Wahrscheinlichkeit
γ - Quantil xγ jene Zahl für die
F (xγ ) = γ
xγ = F −1 (γ), wobei F −1 Umkehrabbildung der Verteilungsfunktion
Normalverteilung:
explizite Berechnung
nicht möglich
0.45
0.4
0.35
0.3
0.25
⇒ Tabellen oder
mittels Computer
0.2
γ
0.15
0.1
Standard-NV:
xγ = Φ−1 (γ)
0.05
0
−3
−2
30
−1
0
1
x
γ
2
3
Symmetrische Intervalle
X ∼ N (µ, σ 2 )
⇒
P(|X − µ| ≤ x) = 2 · Φ( σx ) − 1
Beweis:
P(−x + µ ≤ X ≤ x + µ) = 2 · P(X ≤ x + µ) − 1
Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt:
P(|X − µ| ≤ zγ ) = γ
für
zγ = σ Φ
Übung: Sei X normalverteilt mit σ 2 = 4
Bestimme x derart, dass P(X − µ ≤ x) = 0.95
bzw. P(|X − µ| ≤ x) = 0.95
31
−1
1+γ
2
3.4
Normalverteilungsapproximation
Betrachte für großes n die Wahrscheinlichkeitsfunktion einer
Binomialverteilung und vergleiche mit der Dichtefunktion der
Normalverteilung
0.09
0.45
0.08
0.4
0.07
0.35
0.06
0.3
0.05
0.25
0.04
0.2
0.03
0.15
0.02
0.1
0.01
0.05
0
30
35
40
45
50
55
60
65
0
70
X ∼ B(100, 0.5)
−3
−2
−1
0
1
X ∼ N (0, 1)
32
2
3
Grenzwertsatz nach DeMoivre - Laplace
Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mit
Erfolgswahrscheinlichkeit p.
Dann gilt für a < b:
−np
≤ b → Φ(b) − Φ(a)
P a ≤ S√nnpq
für n → ∞
d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiert
gegen Standardnormalverteilung
Beweis: Spezialfall des zentralen Grenzwertsatzes. Zentraler
Grenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. Ist
Sn binomialverteilt, so ist es Summe unabhängiger
"Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p).
Anwendbarkeit:
npq ≥ 9.
33
Stetigkeitskorrektur
B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion
N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig
⇒
Stetigkeitskorrektur:
P (a ≤ Sn ≤ b) ≈ Φ
b+0.5−np
√
npq
−Φ
a−0.5−np
√
npq
1
0.9
0.8
0.7
blau: B(40, 0.5)
grün: N (20, 10)
0.6
0.5
0.4
0.3
0.2
0.1
0
15
16
34
17
18
19
20
21
22
23
24
25
Übung
Angenommen 30% der Bevölkerung kennen ein Produkt.
Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeit
dass
1. genau 55 Personen das Produkt kennen
2. mehr als 55 Personen das Produkt kennen
3. 55 bis 64 Personen das Produkt kennen
Löse mit Normalverteilungsapproximation
Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen
– worin liegt das Problem?
35
Normalverteilungsapproximation für
hypergeometrische Verteilung
Analog zur Binomialverteilung gilt auch für eine hypergeometrisch
verteilte Zufallsvariable mit Parametern N, M und n:
a−0.5−µ
b+0.5−µ
−Φ
P (a ≤ Sn ≤ b) ≈ Φ
σ
σ
M
2
wobei hier µ = n M
und
σ
=
n
N
N (1 −
Anwendbarkeit:
σ2 ≥ 9
M N −n
N ) N −1
N ≥ 2n
und
Übung: Lieferung von 2500 Milchpackungen, 12 % verdorben
Zufällige Stichprobe von 100 Packungen, p sei Anteil der
entdeckten verdorbenen Packungen
Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15%
36
3.5
Andere stetige Verteilungen
Große Vielfalt an stetigen Verteilungen
Besprechen hier nur zwei wichtige Familien:
• Gamma - Verteilung
Verallgemeinerung der Exponentialverteilung
• Beta - Verteilung
Verteilungen mit Träger auf Intervall [0, 1]
Sowohl Beta- als auch Gamma - Verteilung hängt von zwei
Parametern ab
Für unterschiedliche Parameter ganz unterschiedliche Form
⇒ Modellierung von verschiedenen Sachverhalten
37
Gamma - Verteilung
Exponentialverteilung ist ein Spezialfall der Gammaverteilung
X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte
 −λx
 λe (λx)t−1 , x ≥ 0
Γ(t)
f (x) =

0, x < 0
wobei
Γ(t) =
R∞
e−x xt−1 dx
x=0
Diese Definition garantiert, dass f tatsächlich Dichtefunktion
t=1
⇒
Exponentialverteilung
t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisse
aufgetreten sind
38
Eigenschaften von Γ - Funktion und Γ - Verteilung
Γ - Funktion:
Γ(t) =
R∞
e−x xt−1 dx
x=0
Partielle Integration liefert:
Γ(t) = (t − 1)Γ(t − 1)
Spezialfall der Rekursionsformel für t = n ∈ N:
Γ(n) = (n − 1)Γ(n − 1) = · · · = (n − 1)(n − 2) · · · Γ(1) = (n − 1)!
da ja Γ(1) = 1
Notation:
X ∼ Γ(t, λ) . . . Γ-Verteilung mit Parametern t und λ,
Mit Hilfe der Rekursionsformel zeigt man leicht
E(X) = λt ,
Var (X) =
39
t
λ2
Beispiele für Gamma - Verteilung
• Γ(1, λ) . . . Exponentialverteilung
Γ(n, λ) . . . Wartezeiten auf n Ereignisse
• Γ( n2 , 12 ) . . . χ2 -Verteilung mit n Freiheitsgraden
0.8
0.8
t=1
t=2
t=3
t=4
t=6
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
1
2
3
4
t=1/2
t=1
t=3/2
t=2
t=3
0.7
0
5
0
1
2
3
4
2t ∈ N, λ = 1/2
t ∈ N, λ = 1
40
5
Beispiele für Gamma - Verteilung 2
Γ(t, 1) . . . Standard Γ-Verteilung
Es gilt:
X ∼ Γ(t, λ)
⇒
λX ∼ Γ(t, 1)
Abhängigkeit von λ
Abhängigkeit von t
4
4
t=1
t=2
t=3
t=4
t=6
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
0.5
1
λ=1
λ=2
λ=3
λ=4
λ=6
3.5
0
1.5
0
0.5
1
t = 4/3, λ ∈ N
t ∈ N, λ = 5
41
1.5
Beta - Verteilung
Famile von Verteilungen mit beschränktem Träger
X ist B-verteilt mit Parametern a, b > 0 falls Dichte
 a−1
 x (1−x)b−1 , 0 < x < 1
B(a,b)
f (x) =

0, sonst
wobei
B(a, b) =
R1
xa−1 (1 − x)b−1 dx
x=0
Diese Definition garantiert wiederum, dass f tatsächlich
Dichtefunktion
Zur Modellierung von Zufallsereignis Y im Bereich [l, r]
⇒
Variablentransformation 0 ← l und 1 ← r
42
d.h. X =
Y −l
r−l
Mittelwert und Varianz
Es gilt für die B-Funktion
Γ(a)Γ(b)
B(a, b) =
Γ(a + b)
(ohne Beweis)
Unter Verwendung der Eigenschaften der Γ-Funktion oder mittels
partieller Intergration zeigt man leicht,
B(a + 1, b) =
a
B(a, b)
a+b
und für X Beta-verteilt mit Parametern a und b gilt:
E(X) =
a
a+b ,
Var (X) =
43
ab
(a+b)2 (a+b+1)
Beispiele von Beta - Verteilungen
⇒
Falls a = b
symmetrische Verteilung
• a = b = 1, . . . Gleichverteilung
• a = b > 1, . . . Unimodal
• a = b < 1, . . . U - förmig
4
4
a=b=1
a=b=2
a=b=3
a=b=4
a=b=6
3.5
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
a=b=1
a=b=1/2
a=b=1/3
a=b=1/4
a=b=1/6
0
1
a = b ≥ 1,
0
0.1
0.2
0.3
0.4
0.5
0.6
a = b ≤ 1,
44
0.7
0.8
0.9
1
Weitere Beispiele von Beta - Verteilungen
b = 1.5
4
4
a=1
a=2
a=3
a=4
a=6
3.5
a≥1
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0
1
4
a ≤ 1,
0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
b=1
b=1/2
b=1/3
b=1/4
b=1/6
3.5
3
0
0.1
4
b=1
b=2
b=3
b=4
b=6
3.5
b≥1
a=1
a=1/2
a=1/3
a=1/4
a=1/6
0
1
b≤1
0
a=2
45
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2014/15
4
Mehrdimensionale Verteilungen
1. Einführung
2. Unabhängige Zufallsvariablen
3. Kovarianz, Korrelation
4. Bedingte Verteilung
5. Bivariate Normalverteilung
1
4.1
Einführung
Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen
zwei Zufallsvariablen . . . bivariat
zwei oder mehr ZV . . . multivariat
Konzepte:
• Gemeinsame Verteilungsfunktion
• rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion
• rein stetig: Gemeinsame Dichte
2
Gemeinsame Verteilungsfunktion
Zunächst bivariat, Zufallsvariablen X und Y
Definiere die gemeinsame Verteilungsfunktion als
F (x, y) := P(X ≤ x, Y ≤ y),
−∞ < x, y < ∞
Bivariate Verteilung dadurch vollständig charakterisiert
P(x1<X≤x2 , y1<Y ≤y2 ) = F (x2 , y2 )−F (x1 , y2 )−F (x2 , y1 )+F (x1 , y1 )
für x1 < x2 und y1 < y2
Randverteilung:
Idee:
Analog
FX (x) := P(X ≤ x) = F (x, ∞)
P(X ≤ x) = P(X ≤ x, Y < ∞) = lim F (x, y)
y→∞
FY (y) := P(Y ≤ y) = F (∞, y)
3
Bivariate stetige Zufallsvariable
X und Y heißen gemeinsam stetig falls gemeinsame
Dichtefunktion existiert:
∂2
F (x, y)
f (x, y) =
∂x ∂y
Gemeinsame Verteilungsfunktion ergibt sich mittels Integration
F (a, b) =
Za
Zb
f (x, y) dxdy
y=−∞ x=−∞
Erhalte Dichte der Randverteilung durch Integrieren über Y:
fX (x) =
Z∞
f (x, y) dy
y=−∞
Werden später speziell bivariate Normalverteilung besprechen
4
Beispiel: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [0, 1] × [0, 1]
⇒
Dichte
0 ≤ x, y ≤ 1.
f (x, y) = 1,
Gemeinsame Verteilungsfunktion
F (a, b) =
Zb Za
f (x, y) dxdy = a b,
0 ≤ a, b ≤ 1.
y=0 x=0
Dichte der Randverteilung:
fX (x) =
Z∞
f (x, y) dy = 1,
y=−∞
gibt Dichte der univariaten Gleichverteilung
5
0≤x≤1
Übung: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [−1, 1] × [−1, 1]
• Berechne die Wahrscheinlichkeit, dass max{|X|, |Y |} < 1/2.
• Berechne die Wahrscheinlichkeit, dass X 2 + Y 2 < 1.
Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formale
Integration nicht wirklich notwendig. Berechnung von
Wahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich von
Flächen.
6
Bivariate diskrete Zufallsvariable
X und Y beide diskret
Definiere die gemeinsame Wahrscheinlichkeitsfunktion
p(x, y) = P(X = x, Y = y)
Es gilt natürlich
p(x, y) = F (x, y) − F (x− , y) − F (x, y − ) + F (x− , y − )
Erhalte Wahrscheinlichkeitsfunktion von X durch Summieren
über Y:
X
pX (x) = P(X = x) =
p(x, y)
y∈Y
7
Beispiel
Urne mit 3 roten, 4 weißen und 5 blauen Bällen;
ziehe zufällig 3 Bälle ohne Zurücklegen
X . . . Anzahl der roten gezogenen Kugeln
Y . . . Anzahl der weißen gezogenen Kugeln
z. Bsp.:
p(0, 1) = P(0R, 1W, 2B) =
3
0
4 5
1 2 /
12
3
= 40/220
j
i
0
1
2
3
pX
0
10/220
40/220
30/220
4/220
84/220
1
30/220
60/220
18/220
0
108/220
2
15/220
12/220
0
0
27/220
3
1/220
0
0
0
1/220
pY
56/220
112/220
48/220
4/220
220/220
8
Multivariate Zufallsvariablen
Mehr als zwei Zuvallsvariablen
Gemeinsame Verteilungsfunktion für n Zufallsvariablen
F (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn )
Diskret: Gemeinsame Wahrscheinlichkeitsfunktion:
p(x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn )
Randverteilung wiederum durch Summieren über alle
Komponenten, die gerade nicht von Interesse, z. Bsp.
X
X
p(x1 , . . . , xn )
···
pX1 (x1 ) =
x2 ∈X2
xn ∈Xn
9
Multinomialverteilung
Eine der wichtigsten multivariaten diskreten Verteilungen
n unabhängige Experimente mit r möglichen Ausgängen mit
Wahrscheinlichkeiten p1 , . . . , pr
Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt
P(X1 = n1 , . . . , Xr = nr ) =
falls
Pr
i=1
n!
n1 !···nr !
pn1 1 · · · pnr r
ni = n.
Verallgemeinerung der Binomialverteilung (r = 2)
Übung: Werfe 5 Würfel,
Wahrscheinlichkeit für Strasse, Poker, bzw. Full House
10
4.2
Unabhängige Zufallsvariablen
Zwei Zufallsvariablen X und Y heißen unabhängig falls für alle
Ereignisse A und B gilt
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)
Information über den Wert von X ändert nicht die Verteilung von Y
X und Y genau dann unabhängig falls
P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b)
d.h. F (a, b) = FX (a) FY (b) für alle a, b.
Ebenfalls äquivalent zu f (x, y) = fX (x) fY (y) im stetigen Fall und
zu p(x, y) = pX (x) pY (y) im diskreten Fall für alle x, y
11
Einfaches Beispiel
Seien X und Y unabhängig
X = {0, 1},
P (X = 0) = 1/3, P (X = 1) = 2/3
Y = {−1, 0, 1},
P (Y = −1) = P (Y = 1) = 1/4, P (Y = 0) = 1/2
Die gemeinsame Wahrscheinlichkeitsfunktion lautet:
j
i
−1
0
1
pX
0
1/12
1/6
1/12
1/3
1
2/12
2/6
2/12
2/3
pY
1/4
1/2
1/4
1
Beachte, dass sowohl die Spalten als auch die Zeilen jeweils
proportional zueinander sind ⇒ Unabhängigkeit
12
Stetiges Beispiel: Gleichverteilung
Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1].
d.h. fX (x) = 1 für 0 ≤ x ≤ 1,
fY (y) = 1 für 0 ≤ y ≤ 1,
Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1] × [0, 1]
Umkehrung
X und Y bivariat gleichverteilt auf [0, 1] × [0, 1]
⇒
Dichte
0 ≤ x, y ≤ 1.
f (x, y) = 1,
Berechne die Randdichten fX (x) und fY (y)
Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1],
und auch dass die beiden unabhängig sind
Bemerkung: Unabhängigkeit gilt für Gleichverteilung auf
Rechtecken, nicht jedoch für allgemeinere Bereiche.
13
Beispiel: Zwei Würfel
X, Y . . . gleichverteilt auf {1, . . . , 6}
Aufgrund der Unabhängigkeit gilt p(x, y) = pX (x) pY (y) =
1
36
Verteilungsfunktion:
FX (x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7
F (x, y) = FX (x)FY (y) =
⌊x⌋·⌊y⌋
36
Welche Verteilung hat X + Y ?
P (X + Y = 2) = p(1, 1) = 1/36
P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36
P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36
P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · · + p(k − 1, 1)
14
Summe von unabhängigen Verteilungen
Summe von Zufallsvariablen selbst wieder eine ZV
Berechnung der Verteilung mittels Faltung
Stetige Verteilungen:
fX+Y (x) =
Z∞
fX (x − y)fY (y)dy
y=−∞
Diskrete Verteilungen:
X
P(X + Y = k) =
pX (x)pY (y)
x+y=k
Übung: X1 ∼ P(λ1 ), X2 ∼ P(λ2 ) unabhängig
⇒
X1 + X2 ∼ P(λ1 + λ2 )
15
Beispiel (Umkehrung)
Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines Manuskripts
Lektor findet p Prozent der Fehler
X . . . Anzahl der gefundenen Fehler
Y . . . Anzahl der nicht gefundenen Fehler
Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ
Lösung:
P(X = i, Y = j) = P(X = i, Y = j|X + Y = i + j)P(X + Y = i + j)
Per Definitionem:
P(X = i, Y = j|X + Y = i + j) =
P(X + Y = i + j) =
−λ λi+j
e (i+j)!
i+j
i
pi q j
Liefert insgesamt:
i
−λ (λp)
j
−λp
P(X = i, Y = j) = e
(λq)
=
e
i!j!
16
(λp)i
i!
j
−λq (λq)
e
j!
Beispiel für Faltung: stetiger Fall
X, Y unabhängig, gleichverteilt auf [0, 1]
i.e. f (x, y) = 1, (x, y) ∈ [0, 1] × [0, 1]
fX (x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1
Berechnung der Dichte Z := X + Y
fZ (x)
=
Z∞
fX (x − y)fY (y)dy
y=−∞
=







Rx
dy = x,
y=0
R1
dy = 2 − x,
0<x≤1
1<x≤2
y=x−1
Grund: fY (y) = 1 für 0 ≤ y ≤ 1
fX (x − y) = 1 für 0 ≤ x − y ≤ 1
⇔
17
y ≤x≤y+1
Additionstheorem für Γ-Verteilung
X, Y unabhängig, Γ−verteilt mit Parametern t1 , t2 und gleichem λ
fX (x) =
λe−λx (λx)t1 −1
, fY
Γ(t1 )
fZ (x)
=
Z∞
(y) =
λe−λy (λy)t2 −1
,
Γ(t2 )
x, y ≥ 0,
fX (x − y)fY (y)dy
y=−∞
=
Zx
y=0
λe−λ(x−y) (λ(x − y))t1 −1 λe−λy (λy)t2 −1
dy
Γ(t1 )
Γ(t2 )
t1 +t2 −λx
=
=
Zx
e
λ
(x − y)t1 −1 y t2 −1 dy
Γ(t1 )Γ(t2 )
y=0
y = xz λe−λx (λx)t1 +t2 −1
=
dy = xdz Γ(t1 + t2 )
18
Erwartungswert für bivariate ZV, diskret
X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion
Wie im eindimensionalen gilt:
E(g(X, Y )) =
P P
g(x, y)p(x, y)
x∈X y∈Y
Übung:
Seien X und Y die Augenzahlen von zwei fairen Würfeln
(unabhängig)
Berechne den Erwartungswert der Differenz |X − Y |
19
Erwartungswert für bivariate ZV, stetig
X und Y stetig mit gemeinsamer Dichte f (x, y)
Wie im eindimensionalen gilt:
E(g(X, Y )) =
R∞
R∞
g(x, y)f (x, y) dx dy
y=−∞ x=−∞
Übung (optional):
Unfall auf einer Straße der Länge L, Unfallort X und Position Y
eines Krankenwagens unabhängig gleichverteilt
Berechne den Erwartungswert vom Abstand |X − Y | zwischen
Unfallort und Krankenwagen
20
Erwartungswert der Summe zweier ZV
X und Y stetig mit gemeinsamer Dichte f (X, Y )
Mit g(x, y) = x + y folgt
E(X + Y ) =
R∞
R∞
(x + y)f (x, y) dx dy = E(X) + E(Y )
y=−∞ x=−∞
Geht genau so für den diskreten Fall:
E(X + Y ) =
P P
(x + y)p(x, y) dx dy = E(X) + E(Y )
x∈X y∈Y
ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig!
21
4.3
Kovarianz und Korrelation
Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen
Definition Kovarianz:
Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))]
Man schreibt mitunter σXY := Cov (X, Y )
Es gilt ähnlich wie für die Varianz
σXY = E(XY ) − E(X)E(Y )
Definition Korrelation:
ρ(X, Y ) :=
22
σXY
σX σY
Beispiel Korrelation
3
2
1.5
2
1
0.5
1
0
ρ = 0.9
0
ρ = −0.6
−0.5
−1
−1
−1.5
−2
−2
−2.5
−3
−4
−3
−2
−1
0
1
2
−3
−3
3
3
−2
−1
0
1
2
3
4
3
2
2
1
1
ρ = 0.3
ρ = 0.0
0
0
−1
−1
−2
−3
−3
−2
−2
−1
0
1
2
3
23
−3
−3
−2
−1
0
1
2
3
4
Beispiel Kovarianz
Diskrete bivariate Verteilung (X = Y = {0, 1, 2, 3}) mit
j
i
0
1
2
3
pX
0
1/20
4/20
3/20
2/20
10/20
1
3/20
2/20
2/20
0
7/20
2
1/20
1/20
0
0
2/20
3
1/20
0
0
0
1/20
pY
6/20
7/20
5/20
2/20
20/20
Berechne Cov (X, Y )
Lösung: Cov (X, Y ) = E(XY ) − E(X)E(Y ) =
24
8
20
−
14
20
·
23
20
162
= − 400
Kovarianz für unabhängige ZV
X und Y unabhängig
⇒
σXY = 0
folgt unmittelbar aus σXY = E(XY ) − E(X)E(Y )
RR
R
R
und E(XY ) =
xyf (x, y) = xf (x) yf (y)
Umkehrung ist falsch:

 0,
X gleichverteilt auf {−1, 0, 1} und Y =
 1,
E(X) = 0
XY = 0 ⇒
X 6= 0
X =0
E(XY ) = 0
daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig:
z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3
25
Eigenschaften der Kovarianz
Offensichtlich gilt
Cov (X, Y ) = Cov (Y, X),
und
Cov (X, X) = Var (X)
Die Kovarianz ist eine Bilinearform:
Cov (aX, Y ) = a Cov (X, Y ),
a∈R
und

Cov 
n
X
i=1
Xi ,
m
X
j=1

Yj  =
Beweis durch ausrechnen . . .
26
m
n X
X
i=1 j=1
Cov (Xi , Yj )
Varianz von Summen
Aufgrund der zuvor gezeigten Eigenschaften gilt
!
n
n X
n
X
X
Cov (Xi , Xj )
Xi
=
Var
i=1 j=1
i=1
n
X
=
Var (Xi ) +
n X
X
Cov (Xi , Xj )
i=1 j6=i
i=1
Extremfälle:
• unabhängige ZV:
Var
n
P
Xi
i=1
• X1 = X2 = · · · = Xn :
Var
n
P
i=1
27
=
Xi
n
P
Var (Xi )
i=1
= n2 Var (X1 )
Korrelation
Definition:
ρ(X, Y ) :=
σXY
σX σY
Es gilt:
−1 ≤ ρ(X, Y ) ≤ 1
Beweis:
0
0
X
Y
+
σX
σY
≤
Var
=
2[1 + ρ(X, Y )]
X
Y
−
σX
σY
≤
Var
=
2[1 − ρ(X, Y )]
Var (X) Var (Y ) 2Cov (X, Y )
+
+
=
2
2
σX
σY
σX σY
=
Var (X) Var (Y ) 2Cov (X, Y )
+
−
2
2
σX
σY
σX σY
28
Korrelation – Fortsetzung
Falls ρ(X, Y ) = 0, heißen X und Y unkorreliert. Dies ist offenbar
gleichbedeutend damit, dass Cov (X, Y ) = 0. Somit ist
“unabhängig” stärker als “unkorreliert”.
Korrelationskoeefizienten, die sich (signifikant) von null
unterscheiden, lassen auf einen direkten oder indirekten
Zusammenhang zwischen den beiden Variablen schließen.
Einfachster Fall: Die beiden Variablen X und Y können zueinander
in einer Ursache-Wirkung-Beziehung stehen, wobei offen bleibt,
welche Variable auf welche wirkt. Es können aber auch
komplexere Beziehungen bestehen, z.B. kann eine dritte
Variable Z einen Einfluss sowohl auf X als auch auf Y ausüben.
Beispiel: Es besteht eine Korrelation zwischen der Zahl der
Kindergeburten und der Zahl der Storchenpaare in einer Region.
Ein direkter Kausalzusammenhang ist wohl nicht anzunehmen.
29
Übung Korrelation
Seien X und Y unabhängig gleichverteilt auf [0, 1]
Berechne die Korrelation zwischen X und Z für
1. Z = X + Y
2. Z = X 2 + Y 2
3. Z = (X + Y )2
30
4.4
Bedingte Verteilungen
Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B:
P(AB)
P(A|B) =
P(B)
Entsprechende Definitionen für Zufallsvariablen X und Y
Diskret:
pX|Y (x|y) := P(X = x|Y = y) =
p(x,y)
pY (y)
Übung: Gegeben p(x, y) durch
p(0, 0) = 0.4,
p(0, 1) = 0.2,
p(1, 0) = 0.1,
p(1, 1) = 0.3,
Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1
31
Diskrete bedingte Verteilungen
Bedingte Verteilungsfunktion:
FX|Y (x|y) := P(X ≤ x|Y = y) =
X
pX|Y (k|y)
k≤x
Sind X und Y unabhängig so gilt pX|Y (x|y) = pX (x)
Beweis: Nachrechnen
Beispiel: Seien X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig.
Berechne bedingte Verteilung von X, wenn X + Y = n
P(X = k|X + Y = n) =
X + Y ∼ P(λ1 + λ2 )
P(X=k)P(Y =n−k)
,
P(X+Y =n)
⇒
λ1
X|(X + Y = n) ∼ B n, λ1 +λ2
32
Stetige bedingte Verteilungen
Stetig:
fX|Y (x|y) :=
f (x,y)
fY (y)
für fY (y) > 0
Definition im stetigen Fall läßt sich über diskreten Fall motivieren
(Wahrscheinlichkeiten für kleine Umgebungen von x und y)
Berechne damit bedingte Wahrscheinlichkeiten:
Z
P(X ∈ A|Y = y) = fX|Y (x|y) dx
A
Bedingte Verteilungsfunktion:
FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) =
Za
x=−∞
33
fX|Y (x|y) dx
Beispiel
Gemeinsame Dichte von X und Y gegeben durch

 c x(2 − x − y), x ∈ [0, 1], y ∈ [0, 1],
f (x, y) =

0, sonst.
Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3)
Lösung:
fY (y) = c
R1
x=0
fX|Y (x|y) =
x(2 − x − y) dx = c( 32 − y2 )
f (x,y)
fY (y)
=
x(2−x−y)
y
2
3−2
P(X < 1/2|Y = 1/3) =
1/2
R
x=0
=
6x(2−x−y)
4−3y
6x(2−x−1/3)
dx
4−3/3
34
= · · · = 1/3
Bedingter Erwartungswert
Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw.
bedingter Dichte
E(X|Y = y) =
Z∞
xfX|Y (x|y)dx
x=−∞
Beispiel: Fortsetzung
E(X|Y = y) =
Z1
6x2 (2 − x − y)
5/2 − 2y
dx =
4 − 3y
4 − 3y
x=0
Speziell
E(X|Y = 1/3) =
11
18
35
Erwartungswert durch Konditionierung
E(X|Y = y) ist eine Funktion von y,
kann somit als Zufallsvariable in y betrachtet werden
Es gilt:
E(X) = E(E(X|Y ))
Beweis:
E(E(X|Y ))
=
Z∞
E(X|Y = y)fY (y) dy
y=−∞
=
Z∞
Z∞
xfX|Y =y (x)fY (y) dx dy
Z∞
Z∞
f (x, y)
fY (y) dx dy = E(X)
x
fY (y)
y=−∞ x=−∞
=
y=−∞ x=−∞
Übung: Verifiziere die Formel für obiges Beispiel
36
Bedingte Varianz
Formeln für den diskreten Fall (mit bedingter WF):
X
E(X|Y = y) =
xpX|Y (x|y)
x∈X
Var (X|Y = y)
=
X
(x − E(X|Y = y))2 pX|Y (x|y)
x∈X
Übung: Berechne Erwartungswert und Varianz von X wenn Y = j
j
i
0
1
2
3
pX
0
1/20
4/20
3/20
2/20
10/20
1
3/20
2/20
2/20
0
7/20
2
1/20
1/20
0
0
2/20
3
1/20
0
0
0
1/20
pY
6/20
7/20
5/20
2/20
20/20
37
Varianz mittels Konditionierung
Var (X) = E(Var (X|Y )) + Var (E(X|Y ))
Beweis: Wegen
Var (X|Y ) = E(X 2 |Y ) − (E(X|Y ))2
gilt
E(Var (X|Y )) = E(E(X 2 |Y ))−E((E(X|Y ))2 ) = E(X 2 )−E(E(X|Y )2 )
Andererseits
Var (E(X|Y )) = E(E(X|Y )2 )−(E(E(X|Y )))2 = E(E(X|Y )2 )−E(X)2
Die Summe beider Ausdrücke liefert das Resultat
Formel wesentlich für die Theorie der linearen Regression!
38
4.5
Bivariate Normalverteilung
Univariate Normalverteilung:
f (x) =
φ(x) =
Standardnormalverteilung:
√ 1
2π σ
√1
2π
e−x
−(x−µ)2 /2σ 2
e
2
/2
X1 und X2 unabhängig, jeweils normalverteilt N (µi , σi2 ), i = 1, 2
⇒
f (x1 , x2 )
=
=
wobei
x=
x1
x2
, µ=
µ1
µ2
1
−(x1 −µ1 )2 /2σ12 −(x2 −µ2 )2 /2σ22
e
2π σ1 σ2
1
−(x−µ)T Σ−1 (x−µ)/2
e
1/2
2π |Σ|
, Σ=
39
σ12
0
0 σ22
Dichtefunktion allgemein (Vektorform)
X = (X1 , X2 ) normalverteilt falls gemeinsame Dichtefunktion
f (x) =

Kovarianzmatrix:
Notation:
ρ :=
1
2π |Σ|1/2
σ12
σ1 σ2
Σ=
e−(x−µ)
σ12
σ12
σ12
σ22
T
Σ−1 (x−µ)/2


2
• |Σ| = σ12 σ22 − σ12
= σ12 σ22 (1 − ρ2 )
• Σ
−1
=
1
2
2
σ1 σ2 (1−ρ2 )


σ22
−ρσ1 σ2
σ12
−ρσ1 σ2
40


Bivariate Normalverteilung
X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0:
0.2
0.15
0.1
0.05
0
2
1
2
1
0
0
−1
−1
−2
−2
41
Beispiel bivariate Normalverteilungen
s2 = 1, s2 = 1, ρ = 0
x
s2 = 1, s2 = 1, ρ = 0.5
x
y
2
2
1.5
1.5
1
1
0.5
0.5
0
0
−0.5
−0.5
−1
−1
−1.5
−1.5
−2
−2
−1.5
−1
−0.5
2
0
0.5
1
1.5
−2
−2
2
−1.5
2
1.5
1.5
1
1
0.5
0.5
0
0
−0.5
−0.5
−1
−1
−1.5
−1.5
−1
−0.5
0
0.5
0
0.5
1
1.5
2
1.5
2
2
sx = 4, sy = 1/4, ρ = −0.5
2
−1.5
−0.5
2
2
sx = 4, sy = 1/4, ρ = 0
−2
−2
−1
y
1
1.5
−2
−2
2
42
−1.5
−1
−0.5
0
0.5
1
Beispiel Dichtefunktion
(X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) und
ρ = 1/2
Berechne die gemeinsame Dichte!
1 1/2
0
Lösung: µ = 0 , Σ = 1/2 1
|Σ| = 1 − 1/4 = 3/4,
(x, y)Σ−1 xy
Σ
−1
=
=
4
3
1 −1/2
−1/2 1
2x−y
2
(x,
y)
−x+2y
3
= 34 (x2 − xy + y 2 )
1
− 32 (x2 −xy+y 2 )
e
f (x, y) = √
3π
Äquivalente Darstellung:
(y−x/2)2
1
1 − 1 x2
−
e 2·3/4
f (x, y) = √ e 2 p
2π
2π 3/4
43
Beispiel Fortsezung
(y−x/2)2
1 − 1 x2
1
−
e 2·3/4
f (x, y) = √ e 2 p
2π
2π 3/4
Gemeinsame Dichte ist Produkt der Dichte von
Standardnormalverteilung (in x) und Normalverteilung (in y) mit
Mittelwert x/2 und Varianz 3/4.
Berechne Dichte von X:
1 − 1 x2
fX (x) = √ e 2
2π
Z∞
y=−∞
(y−x/2)2
1 − 1 x2
1
− 2·3/4
p
dy = √ e 2
e
2π
2π 3/4
fX (x) ist Dichte von Standardnormalverteilung
Integral ergibt 1, weil wir über eine Dichte integrieren!
44
Dichtefunktion allgemein
Von der Formel in Vektorform erhalten wir
o
n 2
2
−2ρz
z
+z
z
1 2
1√
2
1
exp
−
f (x1 , x2 ) =
2
2(1−ρ
)
2
2πσ1 σ2
wobei
z1 =
x1 −µ1
σ1
1−ρ
z2 =
und
x2 −µ2
σ2
(vgl. Normalisierung)
Notation deutet darauf hin, dass µi und σi2 jeweils Erwartungswert
und Varianz von Xi , den beiden Randverteilungen,
und dass ρ die Korrelation zwischen X1 und X2
Es gilt:
f (x1 , x2 ) =
√ 1
2πσ1
z2
− 21
e
1
2π(1−ρ2 )σ2
·√
−
e
(ρz1 −z2 )2
2(1−ρ2 )
Ergänzung auf vollständiges Quadrat im Exponenten
45
Bedeutung von µi , σi2 und ρ
Allgemein gilt für bivariate Normalverteilung
1. X1 ∼ N (µ1 , σ12 ) und X2 ∼ N (µ2 , σ22 )
ρ(X1 , X2 ) =
2. Korrelationskoeffizient
σ12
σ1 σ2
Beweis:
1.Bilde vollst. Quadrat im Exponenten und integriere:
1
e
fX1 (x1 )= √
2πσ1
2
z1
− 2
z2
1
− 21
=√
e
2πσ1
Z∞
x2 =−∞
Z∞
s=−∞
1
−
p
e
2
2π(1 − ρ )σ2
1
√
e−
2π
√ρz1 −s
1−ρ2
2
!2
(ρz1 −z2 )2
2(1−ρ2 )
dx2
z2
1
− 21
ds = √
e
2πσ1
p
p
2
mit Substitution s ← z2 / 1 − ρ = (x2 − µ2 )/( 1 − ρ2 σ2 )
46
Fortsetzung Beweis
2. Wiederum Formel mit vollst. Quadrat und Substitution
z1 ← (x1 − µ1 )/σ1 , z2 ← (x2 − µ2 )/σ2 :
Z∞
Cov (X1 , X2 ) =
Z∞
(x1 − µ1 )(x2 − µ2 )f (x1 , x2 ) dx2 dx1
x1 =−∞ x2 =−∞
Z∞
=
x1 =−∞
=
Z
z1 φ(z1 )
z2
z1
= σ1 σ2
Z
Z
Z∞
(ρz1 −z2 )2
x2 − µ2
− 2(1−ρ
2)
p
dx2 dx1
e
2
2π(1 − ρ )σ2
x2 =−∞
!
z
ρz1 − z2
p 2
φ p
σ2 dz2 σ1 dz1
2
2
1−ρ
1−ρ
x1 − µ1
√
e
2πσ1
z2
− 21
z1 φ(z1 )ρz1 dz1 = σ1 σ2 ρ = σ12
z1
47
Bedingte Verteilung
Interpretation für die Formel
f (x1 , x2 ) =
√ 1
2πσ1
z2
− 21
e
·√
1
2π(1−ρ2 )σ2
−
e
(ρz1 −z2 )2
2(1−ρ2 )
f (x1 , x2 ) = f1 (x1 )f2|1 (x2 |x1 )
Aus
(ρz1 −z2 )2
(1−ρ2 )
=
(µ2 +σ2 ρz1 −x2 )2
σ22 (1−ρ2 )
folgt:
Bedingte Verteilung ist wieder normalverteilt mit
µ2|1 = µ2 + ρ(x1 − µ1 ) σσ12 , σ2|1 = σ22 (1 − ρ2 )
ρ = 0 ⇒ Unabhängigkeit
Für bivariate Normalverteilung:
Ist im allgemeinen nicht richtig!
48
Summe von bivariat normalverteilten ZV
Sei X1 , X2 bivariat normal mit µ1 , µ2 , σ12 , σ22 , σ12
Dann ist Z = X1 + X2 wieder normalverteilt, mit
X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2σ12 )
Beweis: Für die Dichte der Summe gilt
fZ (z) =
Z∞
f (z − x2 , x2 ) dx2
x2 =−∞
Man erhält das Resultat wieder durch Vervollständigung des
Quadrats im Exponenten (etwas längere Rechnung)
Intuition: Mittelwert und Varianz von Z entsprechen der
allgemeinen Formel!
49
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2014/15
5
Verteilungen von
Stichprobenkennzahlen
1. Stichprobe
2. χ2 - Verteilung
3. t-Verteilung
4. F -Verteilung
1
5.1
Stichprobe
X1 , . . . , Xn unabhängige ZV
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An )
für jede beliebige Wahl von Ereignissen A1 , . . . An .
Stichprobe . . . n unabhängige Zufallsvariablen, die alle gleich
verteilt sind
Englisch: identically independently distributed (i.i.d)
Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n
unabhängigen Bernoulli-Variablen
X=
n
X
i=1
wobei Xi ∼ B(1, p) i.i.d.
2
Xi
Mittelwert von Stichproben
X1 , . . . , Xn i.i.d. wie X,
n
P
1
Xi
Definition: X̄ := n
i=1
Mit E(X) = µ und Var (X) = σ 2 gilt:
E X̄ = µ,
Beweis:
n
n
P
P
Xi =
E(Xi )
E
i=1
Var
n
P
i=1
Var (X̄) =
σ2
n
i=1
Xi
=
n
P
Var (Xi )
i=1
Letzte Gleichung wegen Unabhängigkeit der Beobachtungen
3
Normalverteilte Stichproben
X1 , . . . , Xn i.i.d. N (µ, σ 2 )
X̄ ∼ N (µ, σ 2 /n)
⇒
Zentraler Grenzwertsatz: Selbst für nicht normalverteilte
Stichprobe X1 , . . . , Xn ist X̄ für große n näherungsweise
normalverteilt (Siehe Kapitel 6)
Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kg
bei einer Varianz von 0.1 kg, Annahme das Gewicht ist
normalverteilt.
Stichprobe von 10 Broten, welche Verteilung hat X̄?
Mit welcher Wahrscheinlichkeit liegt X̄ zwischen 0.95 und 1.05?
2
2
= σX
/10 = 0.01
σX̄
⇒
P (0.95 ≤ X̄ ≤ 1.05) = Φ
X̄ ∼ N (1, 0.01)
1.05−1
0.1
−Φ
4
0.95−1
0.1
= 2Φ(0.5)−1 = 0.383
5.2
χ2 - Verteilung
Motivation: Gegeben Stichprobe X1 , . . . , Xn i.i.d.
X̄ kann verwendet werden, um unbekanntes µ zu schätzen.
Typische andere statistische Fragestellungen:
Wie kann ich unbekanntes σ schätzen?
Möglicher Zugang:
σ 2 = E(X − µ)2
Somit könnten Quadratsummen der Stichprobe interessant sein:
• µ bekannt:
n
P
(Xi − µ)2
i=1
• µ unbekannt:
n
P
(Xi − X̄)2
i=1
Welche Verteilung haben diese Quadratsummen?
5
Mittelwerte von Quadratsummen
X1 , . . . , Xn i.i.d. wie X, E(X) = µ, Var (X) = σ 2
Es gilt:
E
n
P
(Xi − µ)2
i=1
= nσ 2
Beweis: Vertausche Summe und Erwartungswert
Weiters gilt:
E
n
P
(Xi − X̄)2
i=1
Beweis: Übung
6
= (n − 1)σ 2
Verteilung von Z 2
Erinnerung:
X ∼ Γ(t, λ) . . .
f (x) =
λe−λx (λx)t−1
,
Γ(t)
für x ≥ 0
Es gilt:
Z ∼ N (0, 1)
⇒
Y = Z 2 ∼ Γ( 21 , 12 )
In Worten: Das Quadrat einer standardnormalverteilten
Zufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2.
Beweis:
⇒
√
√
√
√
P (Y ≤ y) = P (− y ≤ Z ≤ y) = Φ( y) − Φ(− y)
fY (y)
=
=
1
1
√
√ 1
√
ϕ( y) √ + ϕ(− y) √ = ϕ( y) √
2 y
2 y
y
1
√
e−y/2 =
2πy
7
1 − y2 y 21 −1
(2)
2e
,
Γ( 12 )
√
1
weil Γ( ) = π.
2
Additionstheorem für Γ−Verteilung
Y1 , . . . , Yn unabhängig, Γ(ti , λ), mit beliebigen ti
λe−λy (λy)ti −1
,
d.h. fYi (y) =
Γ(ti )
dann S :=
n
P
für y ≥ 0
Yi auch Γ−verteilt, nämlich S ∼ Γ(
n
P
ti , λ)
i=1
i=1
λe−λs (λs)T −1
d.h. fS (s) =
,
Γ(T )
für s ≥ 0,
mit T :=
n
X
ti
i=1
Beweis: Iteratives Anwenden der Faltungsformel für die
Γ−Verteilung (vgl. Beispiel im Kapitel 4)
Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi , σi2 ) i.i.d.
8
Definition der χ2 - Verteilung
Man bezeichnet Y ∼ Γ( n2 , 21 ) als χ2 -verteilt mit n Freiheitsgraden
Notation: Y ∼ χ2n
0.8
0.7
df=1
df=2
df=3
df=4
df=6
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Dichte der χ2 -Verteilung für verschiedene Freiheitsgrade
9
Verteilung der Quadratsumme, bekanntes µ
Wir haben gesehen: Z ∼ N (0, 1)
⇒
Z 2 ∼ Γ( 21 , 21 ) = χ21
Aus dem Additionstheorem folgt unmittelbar:
Zi ∼ N (0, 1) i.i.d
⇒
Y :=
n
P
i=1
Zi2 ∼ χ2n
Damit können wir unsere erste Frage beantworten:
Für eine Stichprobe der Größe n von normalverteilten
Zufallsvariablen Xi ∼ N (µ, σ 2 ) gilt:
n
P
2
(Xi − µ) = σ
i=1
2
n
P
i=1
10
(Xi −µ)2
σ2
∼ σ 2 χ2n
Verteilung der Quadratsumme, unbekanntes µ
Wenn wir µ durch X̄ ersetzen so gilt (ohne Beweis):
n
P
(Xi − X̄)2 ∼ σ 2 χ2n−1
i=1
Es gilt:
Y ∼ χ2n−1
⇒
E(Y ) = n − 1
Daher üblicher Schätzer für die Varianz
S 2 :=
Interpretation für den Begriff Freiheitsgrad:
1
n−1
n
P
(Xi − X̄)2
i=1
• µ bekannt: Alle Xi zur Schätzung von σ 2 unabhängig
⇒
daher n Freiheitsgrade
• µ unbekannt: Ein Parameter wird aus den Daten geschätzt
⇒
daher n − 1 Freiheitsgrade
11
5.3
t - Verteilung
Motivation:
1. Standardisierung für X ∼ N (µ, σ 2 ):
Z=
X−µ
σ
2. Für Stichprobe X1 , . . . , Xn i.i.d. wie X,
X̄−µ
√
σ/ n
Standardisierung für X̄:
2
1
n−1
2
3. Ersetze σ durch S =
n
P
(Xi − X̄)2
i=1
d.h. wir interessieren uns für
Es gilt:
T =
√
1
n
n
n
P
T :=
1
n−1
n
P
i=1
n
X̄−µ
S
Zi
i=1
s
√
1
(Zi − n
n
P
j=1
Beweis: Nachrechnen
12
wobei
Zj )2
Zi =
Xi −µ
σ
Eigenschaften der T -Statistik
T =
√
n−1
√1
n
s
n
P
n
P
Zi
i=1
1
(Zi − n
i=1
n
P
wobei
Zi = N (0, 1)
Zj )2
j=1
Wir wissen bereits:
n
P
1
Zi ∼ N (0, 1),
Z := √n
i=1
Y :=
n
P
(Zi −
i=1
Somit insgesamt
1
n
n
P
Zj )2 ∼ χ2n−1
j=1
T =
√
n(X̄−µ)
S
=
√
n−1
√Z
Y
Zusätzlich gilt (ohne Beweis):
X̄ und S 2 sind unabhängige ZV, (daher auch Z und Y )
13
Definition der t-Verteilung
Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt
√ Z
T := n √Y
Student- oder t-verteilt mit n Freiheitsgraden
Dichte der t-Verteilung für verschiedene Freiheitsgrade
0.45
t=1
t=2
t=3
t=4
t=6
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
1
Für n groß nahezu standardnormalverteilt
14
2
3
5.4
F - Verteilung
Motivation:
Häufig in der Statistik von Interesse: Vergleich von Varianzen.
Eine Möglichkeit → betrachte Quotienten σ12 /σ22
(1)
(1)
Zum Beispiel zwei Gruppen, Stichproben X1 , . . . , Xn1 bzw.
(2)
(2)
X1 , . . . , Xn2 .
Seien Ỹ1 und Ỹ2 die jeweiligen Quadratsummen der Stichproben,
sodass Ỹj = σj2 Yj mit Yj ∼ χ2nj −1 (j = 1, 2).
Für Schätzer von
σj2
gilt
Sj2
=
Ỹj
nj −1
=
σj2 Yj
nj −1 .
Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten der
Schätzer
S12
Y1 /(n1 − 1)
=
S22
Y2 /(n2 − 1)
15
Definition der F -Verteilung
Y1 ∼ χ2n1 , Y2 ∼ χ2n2 unabhängig, dann heißt
Q :=
Y1 /n1
Y2 /n2
F -verteilt mit n1 und n2 Freiheitsgraden
Dichte der F -Verteilung für verschiedene n1 und für n2 = 25
1.5
n1=1
n1=2
n1=3
n1=4
n1=6
1
0.5
0
0
0.5
1
1.5
16
2
2.5
Eigenschaften der F - Verteilung
Sei Q ∼ F(n1 , n2 ) F -verteilt mit Freiheitsgraden n1 , n2 .
Dichte der F -Verteilung etwas kompliziert
•
µF (n1 ,n2 ) =
n2
n2 −2
Beweis als Übung.
•
1
Q
∼ F(n2 , n1 )
folgt unmittelbar aus Definition
• Sei T Student-verteilt mit n Freiheitsgraden:
T 2 ∼ F(1, n)
√ Z
aus der Darstellung T = n √Y , wobei Z ∼ N (0, 1), Y ∼ χ2n
folgt
2
T =
Z 2 /1
Y /n
wobei
Z 2 ∼ χ21
17
Quantile
In der Praxis werden sehr häufig die Quantile der χ2 -,t- und
F -Verteilung benötigt
Nicht elementar berechenbar
⇒
Tabellen (oder Computer)
Zu beachten:
• t-Verteilung mit unendlich vielen Freiheitsgraden entspricht
Normalverteilung
• γp (n1 , n2 ) sei p-Quantil von F(n1 , n2 ), dann gilt:
γp (n1 , n2 ) =
Beweis: p = P (Q ≤ γp (n1 , n2 ))
1
γ1−p (n2 ,n1 )
wobei
Q=
1 − p = P (Q > γp (n1 , n2 )) = P (Q−1 <
18
Y1 /n1
Y2 /n2
1
γp (n1 ,n2 ) )
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2014/15
6
Grenzwertsätze
1. Einführung
2. Gesetze der großen Zahlen
3. Der Zentraler Grenzwertsatz
1
6.1
Einführung
Grenzwertsätze grundlegend für Wahrscheinlichkeitstheorie
Zwei wesentliche Gruppen:
1. Gesetze der großen Zahl
Geben Bedingungen unter welchen Mittelwert einer
Zahlenfolge gegen theoretischen Erwartungswert konvergieren
2. Zentrale Grenzwertsätze
Bedingungen unter welchen die Summe einer großen Zahl von
Verteilungen gegen Normalverteilung konvergiert
Verschiedene Versionen, je nach Art der Konvergenz
2
Markov Ungleichung
X nichtnegative Zufallsvariable, d.h. X ⊂ R+
0
Dann gilt für jedes a > 0:
P (X ≥ a) ≤ a1 E(X)
Beweis:
Definiere
X≥0
⇒
⇒

 1,
Y :=
 0,
Y ≤
E(Y ) ≤
X≥a
X<a
X
a
E(X)
a
und
E(Y ) = P (X ≥ a)
3
Chebyshev Ungleichung
X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ 2 < ∞,
dann gilt für jedes k > 0
P (|X − µ| ≥ k) ≤
σ2
k2
Beweis:
Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k 2
P ((X − µ)2 ≥ k 2 ) ≤
1
2
E(X
−
µ)
k2
Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ und
σ 2 bekannt.
4
6.2
Gesetze der großen Zahl
Das schwache Gesetz der großen Zahlen:
X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ
Dann gilt für jedes ε > 0
X +···+X
1
n
P
−µ ≥ε →0
n
für n → ∞
Beweis: (Verwende zusätzlich Var (Xi ) = σ 2 < ∞ )
σ2
X1 +···+Xn
X1 +···+Xn
E
= µ,
Var
= n
n
n
Chebyshev Ungleichung:
2
X1 + · · · + Xn
σ
P − µ ≥ ε ≤ 2
n
nε
5
Das starke Gesetz der großen Zahlen
X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ
Dann gilt mit Wahrscheinlichkeit 1, dass
X1 +···+Xn
n
→µ
für n → ∞
Ohne Beweis
Starkes Gesetz tatsächlich stärker als schwaches Gesetz:
Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N (ε), so dass
X +···+X
n
1
− µ < ε für alle n > N (ε)
n
d.h. ab einem gewissen Index N (ε) sind (mit Wahrscheinlichkeit 1)
n
entsprechend nahe bei µ
alle weiteren Mittelwerte X1 +···+X
n
Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen,
n
weiter von µ entfernt
dass immer wieder ein Mittelwert X1 +···+X
n
ist, aber mit immer kleiner werdender Wahrscheinlichkeit
6
6.3
Der zentrale Grenzwertsatz
X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen,
E(Xi ) = µ, Var (Xi ) = σ 2 , dann gilt
X1 +···+X
−nµ
√ n
≤ a → Φ(a)
P
σ n
für n → ∞
In Worten: Die Summe einer großen Anzahl von unabhängigen
identisch verteilten Zufallsvariablen ist approximativ normalverteilt
mit Mittelwert nµ und Varianz nσ 2
X1 + · · · + Xn ∼ N (nµ, nσ 2 )
Ohne Beweis!
Literatur: Viele verschiedene Möglichkeiten diesen Satz zu
beweisen
Spezialfall: Normalverteilungsapprox. der Binomialverteilung
7
Annäherung an Normalverteilung
4
2.5
4
x 10
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
10
20
30
40
50
60
70
80
90
0
100
4
2.5
2.5
2
1.5
1.5
1
1
0.5
0.5
0
0
10
20
30
40
50
60
70
80
90
100
10
20
30
40
50
60
70
80
90
100
4
x 10
2
0
x 10
10
20
30
40
50
60
70
80
90
0
100
Verteilungen der (normierten) Summen
(oben) und n = 3, 10 (unten).
Pn
i=1
8
x 10
0
Xi mit Xi gleichverteilt, für n = 1, 2
Konvergenzbegriffe
I. Falls P (|Xn − a| ≥ ǫ) → 0 (n → ∞) für jedes ǫ > 0, sagt man,
dass die Folge Xn von Zufallsvariablen in Wahrscheinlichkeit
p
gegen die Zahl a konvergiert. Man schreibt dann Xn → a. Das
schwache Gesetz der großen Zahlen besagt somit, dass
p
X̄n → µ.
II. Falls die Verteilungsfunktionen von Xn gegen die
Verteilungsfunktion einer bestimmte Verteilung D konvergieren,
spricht man von schwacher Konvergenz. Man schreibt dann
w
Xn → D. Der zentrale Grenzwertsatz besagt somit, dass (unter
den angegebenen Voraussetzungen)
X̄n − µ
√σ
n
w
→ N (0, 1).
9
Herunterladen