Wahrscheinlichkeitsrechnung für Statistik und VWL WS 2012/2013

Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/2013
Univ.-Prof. Dr. Walter Gutjahr
Universitätsstraße 5
Tel. 4277 38632
[email protected]
http://homepage.univie.ac.at/walter.gutjahr
1
Folien: Dr. Florian Frommlet und ao. Univ.-Prof. Dr. Andreas Futschik
Organisatorisches
• Vorlesungstermine:
Mo 08.15 - 10.00 HS 33, wöchentlich
Do 14.45 - 16.15 Audimax ZfT, Gymnasiumstrasse 50,
wöchentlich
Letzter Vorlesungstermin:
Mo 17.12.2012
• Prüfungstermine:
1) Do 10.01.2013
2) Do 07.02.2013
• Übungsgruppen:
6 parallele Gruppen, Ort und Zeit laut Vorlesungsverzeichnis!
2
Zwei Tutorien
• Julia Gruber
Mo wöchentlich von 08.10.2012 bis 28.01.2013, 19.00-20.30
Ort: Hörsaal 42 Hauptgebäude, 2.Stock, Stiege 7
• Bernhard Hrobath
Mi wöchentlich von 10.10.2012 bis 30.01.2013, 08.00-09.30
Ort: Hörsaal 2 Neues Institutsgebäude
Besuch der Tutorien empfehlenswert!
3
E-learning Plattform
Moodle Plattform
https://moodle.univie.ac.at
• Generelle Information
• Downloads der Folien
• Alte Prüfungsangaben
• Forum
• Noten
Auch erreichbar als Link von meiner Homepage
http://homepage.univie.ac.at/walter.gutjahr
4
Inhalt der Vorlesung
1. Einführung
(a) Wahrscheinlichkeitsbegriff
(b) Einfaches Rechnen mit diskreten Wahrscheinlichkeiten
2. Diskrete Verteilungen
3. Stetige Verteilungen
4. Mehrdimensionale Verteilungen
5. Verteilungen von Stichprobenkennzahlen
6. Grenzwertsätze
5
Literatur
Die Reihenfolge entspricht dem Grad an Relevanz speziell für
diese Lehrveranstaltung
• Karl Bosch: Elementare Einführung in die
Wahrscheinlichkeitsrechnung
• Sheldon Ross: A First Course in Probability
Bücher gibt es mindestens 10 mal in Lehrbuchsammlung
• Dimitri Bertsekas, John Tsitsiklis: Introduction to Probability
• Brannath / Futschik: Statistik für Wirtschaftswissenschafter
• John Rice: Mathematical statistics and data analysis
• Robert Hafner: Wahrscheinlichkeitsrechnung und Statistik
• Walter Oberhofer: Wahrscheinlichkeitstheorie
• Jim Pitmann: Probability
6
Einführung
Mathematische Modellierung
â
Deterministisch
â
Stochastisch (Zufälligkeit, Unsicherheit)
Experiment mit verschiedenen möglichen Ausgängen – Ereignisse
Wahrscheinlichkeitsmodelle haben nicht den Anspruch exakte
Vorhersagen zu liefern
Modell liefert Aussagen über Wahrscheinlichkeit von Ereignissen
7
Beispiele
Konzeptionell einfach:
• Münzwurf
• Würfelspiele / Kartenspiele / Lotto
Konzeptionell etwas schwieriger:
• Nicht faire Münze
Konzeptionell schwierig:
• Wahlprognosen
• Kreditrückzahlung (Insolvenzprognoseverfahren )
• Sportwetten
Konzeptionell beyond:
• Moderne Physik
8
Interpretation von Wahrscheinlichkeit
1. Laplace: Endlich viele Ereignisse
Alle Ereignisse gleiche Wahrscheinlichkeit
2. Frequentistisch:
Idee: Experiment das beliebig oft wiederholt werden kann
Relative Häufigkeit: Anzahl des Auftretens eines Ereignisses
bei n Wiederholungen des Experiments
Wahrscheinlichkeit: Relative Häufigkeit für n → ∞
3. Subjektiv: Nicht immer taucht Wahrscheinlichkeit im Kontext
von beliebig oft wiederholbaren Ereignissen auf
Beispiel: Ärztliche Prognose, Sportwetten
9
Wahrscheinlichkeitsrechnung
Unabhängig von der Interpretation!
Axiomatische Wahrscheinlichkeitstheorie ⇒ Kolmogorov (1933)
• Ergebnisraum Ω
• Menge aller zulässigen Ereignisse A
(gewisse) Teilmengen von Ω
• Wahrscheinlichkeitsverteilung P (A).
Die Funktion A → P (A) hat folgende Eigenschaften
1. 0 ≤ P (A) ≤ 1
2. P (∅) = 0, P (Ω) = 1
3. P (A ∪ B) = P (A) + P (B) falls A ∩ B = ∅.
10
Beispiel 1: Münzwurf
Ergebnisraum: Ω = {Kopf, Zahl }
Ereignisse: {∅, Kopf, Zahl, Kopf oder Zahl }
Wahrscheinlichkeitsverteilung: Falls faire Münze
P (Kopf) = 1/2,
P (Zahl) = 1/2
(Elementarereignisse)
P (Kopf oder Zahl) = P (Kopf) + P (Zahl) = 1/2 + 1/2 = 1
P (weder Kopf noch Zahl) = P (∅) = 0
Interpretation: Laplace’scher Wahrscheinlichkeitsbegriff
Elementarereignis: A ⊂ Ω mit |A| = 1
d.h. einelementige Teilmenge
11
Übungen
Zwei faire Münzen
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
Fairer Würfel
Ergebnisraum:
Ereignisse:
Wahrscheinlichkeitsverteilung:
12
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/13
1 Grundbegriffe
1. Mengenlehre
2. Rechnen mit Wahrscheinlichkeiten
3. Kombinatorik
4. Bedingte Wahrscheinlichkeit
1
1.1 Mengenlehre
Ereignis: Teilmenge von Ω
Ac := Ω\A . . . Komplement
A ∪ B . . . Vereinigung
A ∩ B . . . Durchschnitt
A ∩ B = ∅ . . . Disjunkte Mengen
Venn Diagramm:
'
$
Ω
A
A\B := A ∩ B c
B ⊆ Ac ⇒ A\B =?
B
&
%
Indexschreibweise: Gegeben die Ereignisse A1 , A2 , . . . , An
∪n
i=1 Ai = A1 ∪ A2 ∪ · · · ∪ An
∩n
i=1 Ai = A1 ∩ A2 ∩ · · · ∩ An
2
Rechenregeln
• Kommutativgesetz: A ∪ B = B ∪ A
• Assoziativgesetz: (A ∪ B) ∪ C = A ∪ (B ∪ C)
• Distributivgesetz: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
• de Morgan: (A ∪ B)c = Ac ∩ B c
Alle Regeln gelten auch wenn man ∪ und ∩ konsequent
vertauscht!
Weiters gilt (Übung):
A ∩ Ac =
A ∪ Ac =
A∪Ω=
A∩Ω=
A∪∅=
A∩∅=
A∪A=
A∩A=
3
Übung: Zwei Würfel
Es werden ein weisser und ein schwarzer Würfel geworfen.
• Ergebnisraum Ω:
• Welche Teilmengen entsprechen den folgenden Ereignissen
A : = Ein Würfel zeigt 4, der andere 2
B : = der schwarze Würfel zeigt eine gerade Augenzahl der
weisse eine ungerade
C := die Summe der Augenzahlen beträgt 8
• Welche der genannten Ereignisse sind disjunkt?
• Bilde (A ∪ B)c ∩ {C ∪ [A ∩ (B ∪ C)]}
4
1.2 Rechnen mit Wahrscheinlichkeiten
1. 0 ≤ P(A) ≤ 1
2. P(∅) = 0, P(Ω) = 1
3. P(A ∪ B) = P(A) + P(B) falls A ∩ B = ∅.
Einfache Folgerungen:
• A1 , . . . , An paarweise disjunkt, dann gilt
( n
)
n
∪
∑
P
Ai =
P(Ai )
i=1
i=1
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B)
• B⊂A
⇒
P(B) ≤ P(A)
• P(A\B) = P(A) − P(B ∩ A)
P(Ac ) = 1 − P(A)
5
Übung
A, B und C seien Ereignisse (Teilmengen von Ω) jeweils mit
Wahrscheinlichkeit P(A) = 0.8, P(B) = 0.3, P(C) = 0.7.
Weiters gelte
A ∪ C = Ω,
B ⊂ A,
B und C sind disjunkt
1. Berechne P(A ∩ C)
2. Welche der folgenden Aussagen sind richtig
(a) A ⊂ C?
(b) C ⊂ A?
(c) B ∪ C = Ω?
(d) B = A\C?
6
Laplace’sche Wahrscheinlichkeit
|Ω| = n < ∞
...
Ergebnisraum mit endlich vielen Elementen
Alle Elementarereignisse gleiche Wahrscheinlichkeit
⇒ P(A) = |A|/n
Berechnung der Wahrscheinlichkeit durch Zählen der Elemente
einer Menge ⇒ Kombinatorik
Beispiel: Urne mit 5 schwarzen und 6 weißen Bällen
Wie groß ist die Wahrscheinlichkeit dass zwei gezogene Bälle weiß
sind?
a) Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975
b) Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727
7
1.3 Grundbegriffe der Kombinatorik
Permutation: Anzahl der möglichen Anordnungen von n
verschiedenen Elementen
n! = n · (n − 1) · · · · 1
Beispiel: Auf wie viele verschieden Arten kann man abc anordnen?
3! = 3 · 2 · 1 = 6
abc, acb, bac, bca, cab, cba
Auf wie viele verschieden Arten kann man abcd anordnen?
abcd, acbd, bacd, bcad, cabd, cbad
abdc, acdb, badc, bcda, cadb, cbda
4! = 4 · 3 · 2 · 1 = 24
adbc, adcb, bdac, bdca, cdab, cdba
dabc, dacb, dbac, dbca, dcab, dcba
Man definiert:
0! = 1
8
r - Permutation mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurücklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2
aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd
n Möglichkeiten für jede der r Positionen
⇒
nr Möglichkeiten
Übung: Wie viele Zahlen kann man mit allen 10-stelligen
Ziffernkombinationen im Dualsystem (Ziffern 0 und 1) darstellen?
9
r - Permutation ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurücklegen, Reihenfolge wesentlich
Beispiel: n = 4, r = 2
Nicht mehr relevant:
ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc
aa, bb, cc, dd
n Möglichkeiten für die erste Position, n − 1 für die zweite, . . .
n − r + 1 für die r−te Position
⇒
n · (n − 1) · · · (n − r + 1) =
n!
(n−r)!
Möglichkeiten
Bemerkung: Es muss gelten: r ≤ n
r = n gibt als Spezialfall die normale Permutation
10
r - Kombination ohne Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Ohne zurücklegen, Reihenfolge egal
Beispiel: n = 4, r = 2
Nicht mehr relevant:
ab, ac, ad, bc, bd, cd
ba, ca, da, cb, db, dc
Es gibt r! Möglichkeiten die Elemente innerhalb von einer Gruppe
anzuordnen
(n)
n·(n−1)···(n−r+1)
n!
⇒
:=
=
Möglichkeiten
r
r!
(n−r)!r!
Bemerkung: Es muss klarerweise wieder gelten: r ≤ n
11
Fortsetzung: r - Kombination ohne Wiederholung
Ergebnisraum Ω gegeben durch die Zahlen 1, . . . , n
Eine mögliche Darstellung der r - Kombination ohne Wiederholung:
r-Tupel (a1 , a2 , . . . , ar ) in lexikographischer Ordnung
d.h.
1
≤ a1 ≤ n
a1
< a2 ≤ n
..
.
ar−1
< ar ≤ n
Durch die Festlegung a1 < a2 < · · · < ar greifen wir gerade eine
der r! möglichen Anordnungen von r gegebenen Zahlen heraus!
Übung: Lotto 6 aus 45,
Wahrscheinlichkeit für einen 6-er, bzw. für einen 3-er?
12
r - Kombination mit Wiederholung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Mit zurücklegen, Reihenfolge egal
Beispiel: n = 4, r = 2
Hinzugekommen:
aa, ab, ac, ad, bb, bc, bd, cc, cd, dd
aa, bb, cc, dd
Anzahl der Möglichkeiten:
(n+r−1) (n+r−1)!
(n+r−1)···(n−1)
=
=
r
(n−1)! r!
r!
n = 4, r = 2 :
5!
3! 2!
=
5·4
2
= 10
13
Fortsetzung: r - Kombination mit Wiederholung
Ergebnisraum Ω gegeben durch die Zahlen 1, . . . , n
Suche nach der Anzahl aller r−Tupel mit a1 ≤ a2 ≤ · · · ≤ ar
Äquivalent: Anzahl aller r−Tupel mit b1 < b2 < · · · < br ,
wobei bi = ai + i − 1
1
≤ a1 ≤ n
1
≤ a1 ≤ n
a1
≤ a2 ≤ n
a1
< a2 + 1 ≤ n + 1
a2
≤ a3 ≤ n
..
.
a2
< a3 + 2 ≤ n + 2
..
.
ar−1
≤ ar ≤ n
ar−1
< ar + r − 1 ≤ n + r − 1
Führe Problem zurück auf r-Kombination ohne Wiederholung
14
Beispiel: r - Kombination mit Wiederholung
Hochzeitsgesellschaft, 30 Gäste, 3 Menüs zur Auswahl
Wieviele Möglichkeiten gibt es 30 Menüs zu bestellen?
Eine Möglichkeit: 8 mal Menü A, 12 mal Menü B, 10 mal Menü C
AAAAAAAA | BBBBBBBBBBBB | CCCCCCCCCC
Durch die beiden Trennsymbole | wird diese Kombination eindeutig
festgelegt
Somit Fragestellung äquivalent dazu, wie viele Möglichkeiten gibt
es "zwei Trennwände" zu setzen
Wähle 2 (= n − 1) von 32 (= n + r − 1) Positionen, Reihenfolge
egal, ohne zurücklegen
(n+r−1) (n+r−1) (32)
=
= 2 = 31 · 16 = 496
n−1
r
15
Zusammenfassung
Anzahl der Möglichkeiten r Elemente aus einer Gesamtheit von n
Elementen zu ziehen:
Reihenfolge
mit Wiederholung
ohne Wiederholung (n ≥ r)
nr
(n+r−1)
n!/(n − r)!
(n)
r
r
relevant
egal
Faktorielle (auch Fakultät):
n! = n · (n − 1) · · · 1,
Binomialkoeffizient:
(n) n·(n−1)···(n−r+1)
=
r =
r!
0! = 1
n!
(n−r)! r!
16
Beispiel
8 Männer und 6 Frauen sollen eine Kommitee bestehend aus 3
Männern und 3 Frauen bilden. Wieviele mögliche Kommitees gibt
es, wenn
a) 2 Frauen nicht kooperieren wollen?
b) 2 Männer nicht kooperieren wollen?
c) Ein Mann und eine Frau nicht kooperieren wollen?
Lösung:
(8)(6)
Ohne Konflikte: 3 3 = 1120 Kommitees
Subtrahiere davon jeweils die Anzahl der unmöglichen Komitees:
(8) [(6)
]
a)
− 4 = 896
(36) [(38)
]
b)
− 6 = 1000
(83)(6)3 (7)(5)
c)
3 3 − 2 2 = 910
17
Übungsaufgabe (etwas schwierig)
In einem Dorf gibt es 4 Frisöre, und 4 verschiedene Personen
wollen zu einem Frisör. Wie groß ist die Wahrscheinlichkeit, dass
genau i Frisöre einen Auftrag erhalten.
Lösung:
• P(i = 1) = 1/64
• P(i = 2) = 21/64
• P(i = 3) = 36/64
• P(i = 4) = 6/64
18
Einschub: Binomischer Lehrsatz
n
(x + y) =
n ( )
∑
n
k=0
k
xk y n−k
Beweis durch vollständige Induktion:
(1) 0 1−0 (1) 1 1−1
+ 1 x y
=x+y
1) n = 1 :
0 x y
2) (n − 1) → n :
Angenommen der Satz ist richtig für n − 1.
Schreibe (x + y)n = (x + y)(x + y)n−1 , verwende den binomischen
Lehrsatz für (x + y)n−1 und zeige damit, dass sich die rechte Seite
n ( )
∑
n k n−k
tatsächlich als
schreiben läßt.
k x y
k=0
Hilfreiche Identität für den Beweis:
( ) (
) (
)
n
n−1
n−1
=
+
r
r−1
r
19
Einschub: Pascalsches Dreieck
Schema der Binomialkoeffizienten:
n=0
1
n=1
1
n=2
1
n=3
1
n=4
n=5
1
1
2
3
4
5
1
1
3
6
10
1
4
10
1
5
1
(x + y)2
= x2 + 2xy + y 2
(x + y)3
= x3 + 3x2 y + 3xy 2 + y 3
(x + y)4
= x4 + 4x3 y + 6x2 y 2 + 4xy 3 + y 4
20
Übungen
Zug mit 10 Waggons, Schaffner kontrolliert 2 davon; pro Waggon
kontrolliert er 2 Personen
Einzigen 4 Schwarzfahrer in einem Waggon mit 12 Fahrgästen
1. Wieviele Möglichkeiten hat Schaffner Waggons zu wählen
2. Mit welcher Wahrscheinlichkeit erwischt er Waggon mit den
Schwarzfahrern?
3. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen
Schwarzfahrer, wenn er ihren Waggon kennt?
4. Mit welcher Wahrscheinlichkeit erwischt er mindestens einen
Schwarzfahrer, wenn er ihren Waggon nicht kennt?
21
1.4 Bedingte Wahrscheinlichkeit
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.
Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?
Ohne Zurücklegen: P = 6/11 · 5/10 = 30/110 ∼ 0.2727
In Worten:
6/11 . . . Wahrscheinlichkeit, dass erste Kugel weiß
5/10 . . . Wahrscheinlichkeit, dass zweite Kugel weiß,
falls erste Kugel weiß war
Formal:
A . . . erste Kugel weiß
B . . . zweite Kugel weiß
B|A . . . B wenn A, oder B unter der Bedingung A,
d.h. zweite Kugel weiß falls erste Kugel weiß
P(B ∩ A) = P(A)P(B|A)
22
Definition bedingte Wahrscheinlichkeit
P(B|A) = P(B ∩ A)/P(A)
Interpretation: Ω und P : Ω → [0, 1] repräsentieren Information zu
Beginn eines Experiments, Ω enthält alle möglichen Ereignisse
Zusätzliche Information ⇒ nur Ereignisse möglich, die Teilmengen
von A sind. A wird zum neuen (reduzierten) Ergebnisraum.
Die bedingte Wahrscheinlichkeit eines Ereignisses B entspricht
dem ‘Anteil’ von B an A.
Wir nennen fortan Ω gemeinsam mit P : Ω → [0, 1] einen
Wahrscheinlichkeitsraum
(Bemerkung: Genaugenommen braucht man auch noch eine sog.
σ - Algebra A. Wir betrachten zunächst endliche
Wahrscheinlichkeitsräume, hier ist A die Potenzmenge von Ω.)
23
Fortsetzung: Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit ist tatsächlich eine
Wahrscheinlichkeit:
Reduzierter Ergebnisraum A
P(A|A) = P(A ∩ A)/P(A) = 1
B∩C =∅
⇒
P(B ∪ C|A) = P(B|A) + P(C|A)
Übung: In einer LVA gab es zwei Beurteilungstests. 50% der
Studierenden bestanden den ersten Test und 35% bestanden
beide Tests. Wieviele Prozent der Studierenden die den ersten
Test schafften scheiterten am zweiten Test?
24
Produktformel
Manchmal hilfreich:
∩n
∩n−1
P( i=1 Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 ) · · · P(An | i=1 Ai )
Beweis: Iteratives Anwenden der Definition von bed. Wahrsch.
Übung: Übliches Set von Spielkarten zufällig in vier Stapel zu je
13 Karten aufgeteilt
Berechne Wahrscheinlichkeit, dass in jedem Stapel ein As
Hinweis: Definiere die Ereignisse
A1
A2
A3
A4
= { Pik As befindet sich in irgendeinem Stapel }
= { Pik As und Herz As in verschiedenen Stapeln }
= { Pik, Herz und Karo As in verschiedenen Stapeln }
= { Alle Asse in verschiedenen Stapeln }
Lösung: 0.1055
25
Satz von der totalen Wahrscheinlichkeit
Seien A1 , A2 , . . . , An disjunkte Ereignisse und Ω =
n
∪
Ai
i=1
Dann gilt
P(A) = P(A1 )P(A|A1 ) + · · · + P(An )P(A|An )
Beweis:
Rechte Seite: P(A ∩ A1 ) + · · · + P(A ∩ An )
( n
)
∪
Ai disjunkt ⇒ R.S. = P
(A ∩ Ai )
i=1
Ai vollständig
⇒
n
∪
(A ∩ Ai ) = A
i=1
26
Satz von Bayes
Seien A und B Ereignisse mit positiver Wahrscheinlichkeit
Dann gilt:
P(A|B) = P(A)P(B|A)/P(B)
Beweis: P(A)P(B|A) = P(B)P(A|B) = P(A ∩ B)
Aufgrund des Satzes der totalen Wahrscheinlichkeit gilt auch
P(A)P(B|A)
P(A|B) =
P(A)P(B|A) + P(Ac )P(B|Ac )
Typische Anwendung: Bayesianische Statistik
27
Übung Bayes, Totale Wahrscheinlichkeit
Versicherung teilt Autofahrer in 3 Klassen
Prozent
P(Unfall im ersten Jahr)
schlecht
30
0.6
mittel
60
0.1
gut
10
0.01
a) Wahrscheinlichkeit für Unfall im ersten Jahr von beliebigem
Autofahrer?
Lösung: 0.241
b) Wahrscheinlichkeit, dass jemand der im ersten Jahr einen Unfall
hat ein guter Autofahrer ist?
Lösung: 0.00415
28
Übung Bayes
Labortest für eine bestimmte Krankheit:
95% Sensitivität (Test positiv falls tatsächlich krank)
99% Spezifität (Test negativ falls gesund)
0.5% leiden an dieser Krankheit
a) Schätze die Wahrscheinlichkeit, dass jemand mit einem
positiven Test tatsächlich erkrankt ist!
b) Berechne die Wahrscheinlichkeit, dass jemand mit einem
positiven Test tatsächlich erkrankt ist!
29
Unabhängige Ereignisse
Noch mal Beispiel der Urne mit 5 schwarzen und 6 weißen Bällen.
Wahrscheinlichkeit dass zwei gezogene Bälle weiß sind?
Mit Zurücklegen: P = 6/11 · 6/11 = 36/121 ∼ 0.2975
Durch das Zurücklegen werden die beiden Ereignisse
A = (erste Kugel weiß) und B = (zweite Kugel weiß)
voneinander unabhängig: P(B|A) = P(B) = 6/11
Das wissen um A liefert keine Information für B
Allgemeine Definition: Zwei Ereignisse A und B unabhängig falls
P(A ∩ B) = P(A)P(B)
Beispiele: Mehrere Würfel, Münzen, etc.
30
Beispiel Unabhängigkeit
In einer Gruppe von Leuten befinden sich 8 Raucher und
12 Raucherinnen, sowie 10 Nichtraucher.
Wieviele Nichtraucherinnen sind in der Gruppe, falls bei der
zufälligen Wahl einer Person das Geschlecht vom Rauchverhalten
unabhängig ist?
Lösung: Sei x die Zahl der Nichtraucherinnen
P(raucht) = 20/(30 + x)
P(männlich) = 18/(30 + x)
P(raucht und männlich) = 8/(30 + x)
Unabhängigkeit:
⇒
(20/(30 + x)) · (18/(30 + x)) = 8/(30 + x)
18 · 20 = 8 · (30 + x)
Somit x = 15 Nichtraucherinnen.
31
⇒
45 = 30 + x
Multiple Unabhängigkeit
Drei Ereignisse A, B und C heissen unabhängig falls
1. alle 3 Ereignisse jeweils paarweise unabhängig
2. P(A ∩ B ∩ C) = P(A)P(B)P(C)
Aus paarweiser Unabhängigkeit folgt NICHT multiple
Unabhängigkeit!
Übung: Zwei faire Würfel
Ereignis A: Erster Würfel fällt auf 4
Ereignis B: Zweiter Würfel fällt auf 3
Ereignis C: Summe der Würfel gibt 7
32
Übungen - Wiederholung
1. Urne mit 3 blauen und 2 roten Kugeln,
ziehe 3 mal mit zurücklegen
Mit welcher Wahrscheinlichkeit
• ist die zweite gezogene Kugel blau?
• sind alle gezogenen Kugeln rot?
• sind alle gezogenen Kugeln blau?
• werden 2 rote Kugeln gezogen?
2. Wie 1) aber ziehen ohne zurücklegen!
Hinweis:
X . . . Anzahl der gezogenen roten Kugeln ist eine Zufallsvariable
33
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/13
2 Diskrete Verteilungen
1. Einführung
2. Erwartungswert und Varianz
3. Die Binomialverteilung
4. Die Poissonverteilung
5. Andere diskrete Verteilungen
1
2.1 Einführung
Beispiel: Fairer Würfel,
Beobachtungen: 1, 2, 3, 4, 5, 6
Jede Augenzahl hat Wahrscheinlichkeit pi = 1/6 (i = 1, . . . , 6).
Beim Würfeln beobachten wir Realisierungen einer
Zufallsvariablen.
(Reelle) Zufallsvariable: Abbildung eines
Wahrscheinlichkeitsraums in die Menge der reellen Zahlen:
X:Ω→R
Im Beispiel:
Ω = {1, 2, 3, 4, 5, 6}
X(i) = i
2
Fortsetzung Beispiel
Zwei faire Würfel, X = Summe der Augenzahlen.
Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}.
Wahrscheinlichkeit pij für (i, j) ist 1/36 für jedes Paar (i, j).
Zufallsvariable X : Ω → R gegeben durch X(i, j) = i + j.
P (2) = P (12) = 1/36
P (3) = P (11) = 2/36
P (4) = P (10) = 3/36
P (5) = P (9) = 4/36
P (6) = P (8) = 5/36
P (7) = 6/36
Wertebereich: X = X(Ω) = {2, . . . , 12}.
3
Weiteres Beispiel
Faire Münze: Werfe entweder Kopf (K) oder Zahl (Z)
Ω = {K, Z}
Spiel: Bei Kopf Gewinn von 10 Euro, sonst 10 Euro Verlust
X:Ω→R
X(K) = 10, X(Z) = −10,
P (10) = P(X = 10) = P(K) = 0.5
P (−10) = P(X = −10) = P(Z) = 0.5
Wertebereich: X = X(Ω) = {−10, 10}.
Bemerkung: In den letzten beiden Beispielen wurden die
Elementarereignisse in Ω nicht mit den möglichen Werten der
Zufallsvariable identifiziert!
4
Diskrete Zufallsvariable
Ergebnisraum Ω mit endlich oder abzählbar vielen Elementen,
d.h. indizierbar mit 1, 2, . . .:
Ω = {ω1 , ω2 , ω3 , . . . }
Eine (reelle) Zufallsvariable X ist eine Funktion der Form
X:Ω→R
Der Zufallsvariablen X ist die Wahrscheinlichkeitsfunktion P = PX
wie folgt zugeordnet:
∑
P : X → [0, 1], P (x) = P(X = x) = ω∈Ω:X(ω)=x pω ,
wobei pω die Wahrscheinlichkeit des Elementarereignisses ω ∈ Ω
ist.
Wahrscheinlichkeiten der Elementarereignisse beschreiben
Verteilung einer diskreten Zufallsvariable vollständig.
5
Verteilungsfunktion
Englisch: Cumulative distribution function (cdf)
∑
F : R → [0, 1],
F (x) = P(X ≤ x) = xi ≤x P(X = xi )
Beispiel Würfel:
1
F(x) = P(X ≤ x)
0.8
0.6
0.4
0.2
0
−2
0
2
4
x
6
6
8
Gleichverteilung
n mögliche Ereignisse mit gleicher Wahrscheinlichkeit
Ω = {1, . . . , n}
pi = 1/n
Wählen X(i) = i, d.h. X = Ω.
Verteilungsfunktion:



 0, x < 1
F (x) =
i/n, i ≤ x < i + 1,



1, x ≥ n
i = 1, . . . , n − 1
An den Stellen x ∈ Ω springt Verteilungsfunktion um den Wert 1/n
Auch bei anderer Wahl der pi gilt folgender Zusammenhang
zwischen Verteilungsfunktion und Wahrscheinlichkeitsfunktion:
P (i) = F (i) − F (i − 1),
falls i ∈ Ω
7
Eigenschaften der Verteilungsfunktion
Für diskrete Zufallsvariablen gilt:
Die Verteilungsfunktion ist eine monoton wachsende
Treppenfunktion mit Sprungstellen bei Ereignissen mit positiver
Wahrscheinlichkeit.
Es gilt allgemein für Verteilungsfunktionen:
• P (x) = F (x) − F (x− ),
wobei F (x− ) =
lim
h→x,h<x
Folgt aus der Definition von F (x) = P(X ≤ x)
• P(a < X ≤ b) = F (b) − F (a)
•
lim F (a) = 0,
a→−∞
lim F (b) = 1
b→∞
• F (x) monoton wachsend
8
F (h)
Übung
Die Verteilungsfunktion einer Zufallsvariablen X sei


0, x < 1
F (x) =
 1 − 2−k , k ≤ x < k + 1, k = 1, 2, . . .
1. Zeiche die Verteilungsfunktion im Bereich x ∈ [0, 5]
2. Bestimme die Wahrscheinlichkeitsfunktion von X
3. Mit welcher Wahrscheinlichkeit ist X > 5?
9
2.2 Erwartungswert und Varianz
Wesentliche Kenngrößen von Verteilungen
Werden in der Praxis häufig verwendet
⇒ Reduktion der Information von Daten
Erwartungswert ist ein Maß für die zentrale Lage einer Verteilung,
entspricht dem arithmetischen Mittel einer Stichprobe
Varianz ist ein Maß für die Streuung einer Verteilung,
entspricht den Abweichungen vom Mittelwert die man in einer
Stichprobe erwarten kann
Beide Kennzahlen basieren auf Momenten der Verteilung, und sind
speziell für die Normalverteilung von großer Bedeutung
10
Erwartungswert
Diskrete Zufallsvariable X auf Ω mit Wahrscheinlichkeitsfunktion P
Definition Erwartungswert:
E(X) =
∑
xP (x)
x∈X
wobei wieder X = X(Ω) = Wertebereich von X.
Gewichtete Summe der Werte, Gewichte sind
Wahrscheinlichkeiten.
Übliche Notation:
µ = E(X)
Beispiel Würfel:
1 · 1/6 + 2 · 1/6 + · · · + 6 · 1/6
1+2+3+4+5+6
= 21/6 = 3.5
=
6
E(X) =
11
Funktionen von Zufallsvariablen
Erweitern eine Zufallsvariable X auf Ω durch Verknüpfung mit einer
Funktion g:
X : Ω → R,
g : R → R.
Y (ω) := (g ◦ X)(ω) = g(X(ω)).
Y : Ω → R, ist also wieder eine Zufallsvariable.
Die Wahrscheinlichkeitsfunktion von Y wird ganz analog gebildet
wie die von X:
∑
PY (y) = PY (Y = y) = ω∈Ω:Y (ω)=y pω .
Der Wertebereich Y von Y ist Y = Y (Ω) = g(X(Ω)) = g(X ).
D.h. die Werte x werden transformiert zu Werten g(x).
Wahrscheinlichkeiten addiert für alle x mit gleichem Wert g(x).
12
Beispiele für Funktionen von Zufallsvariablen
1. Würfel, Ω = {1, . . . , 6}, X(ω) = ω, Funktion g(x) = x2
Die Zufallsvariable Y = X 2 hat Wertebereich
Y = {1, 4, 9, 16, 25, 36} und WF
PY (1) = PY (4) = PY (9) = PY (16) = PY (25) = PY (36) = 1/6
2. Würfel, Ω = {1, . . . , 6}, Funktion ḡ(x) = (x − 3.5)2 .
Die Zufallsvariable Z = (X − 3.5)2 hat Wertebereich
Z = {2.52 , 1.52 , 0.52 } = {6.25, 2.25, 0.25} und WF
P (6.25) = p1 + p6 = 1/3
P (2.25) = p2 + p5 = 1/3
P (0.25) = p3 + p4 = 1/3
Übung: Ω = {−1, 0, 1}, X(ω) = ω,
P(X = −1) = P(X = 1) = 1/4, P(X = 0) = 1/2
Berechne WF von Y = X 2 und Z = X 3
13
Erwartungswert von Funktionen
Beispiel: Würfel – Fortsetzung:
1)
E(g(X)) = E(Y ) = 1 · 1/6 + 4 · 1/6 + · · · + 36 · 1/6
1 + 4 + 9 + 16 + 25 + 36
=
= 91/6 = 15.1667
6
2)
E(ḡ(X)) = E(Z) = 6.25/3 + 2.25/3 + 0.25/3 = 2.9167
Allgemein: Berechnung des Erwartungswerts von g(X):
E(g(X)) =
∑
g(x)P (x)
x∈X
Alternative Darstellung:
∑
g(x)P (x) =
x∈X
∑
y∈Y
14
yPY (y)
Lineare Transformation
Allgemein gilt für a, b ∈ R:
E(aX + b) = aE(X) + b
Beweis:
E(aX + b)
=
∑
(ax + b)P (x)
x∈X
= a
∑
xP (x) + b
x∈X
= aE(X) + b
Speziell gilt: E(X − µ) = E(X − E(X)) = 0
15
∑
x∈X
P (x)
Varianz
Var (X) := E(X − µ)2
Definition:
Folgende Formel, die mitunter leichter zu berechnen ist als
E(X − µ)2 , ist äquivalent:
Var (X) = E(X 2 ) − µ2
Beweis:
E(X − µ)
2
=
∑
(x − µ) P (x) =
2
x∈X
=
∑
∑
(x2 − 2µx + µ2 )P (x)
x∈X
x P (x) − 2µ
2
x∈X
∑
x∈X
xP (x) + µ
∑
2
P (x)
x∈X
= E(X 2 ) − 2µ2 + µ2 = E(X 2 ) − µ2
Übung: Varianz Augenzahl Würfelwurf mit beiden Formeln
16
Beispiel zur Varianz
Drei Zufallsvariablen X1 , X2 , X3
X1 = 0 mit Wahrscheinlichkeit 1
X2 gleichverteilt auf {−1, 0, 1}
X3 gleichverteilt auf {−50, −25, 0, 25, 50}
Alle drei Zufallsvariabeln haben Erwartungswert 0
Var (X1 ) = 02 · P (0) = 0
Var (X2 ) = (−1)2 · 1/3 + 12 · 1/3 = 2/3
Var (X3 ) = (−50)2 · 1/5 + (−25)2 · 1/5 + 252 · 1/5 + 502 · 1/5 = 1250
Varianz plus MW gibt mehr Information über Verteilung als
Mittelwert allein
17
Eigenschaften der Varianz
Allgemein gilt für a, b ∈ R:
Var (aX + b) = a2 Var (X)
Beweis:
Var (aX + b) = E(aX + b − aµ − b)2 = a2 E(X − µ)2
Speziell: Var (−X) = Var (X)
Var (X + b) = Var (X)
Übliche Notation:
σ 2 = Var (X)
σ . . . Standardabweichung:
√
SD(X) = Var (X)
18
Momente von Verteilungen
k-tes Moment einer Zufallsvariable: mk := E(X k )
k-tes zentriertes Moment:
zk =
E((X − µ)k )
m1 . . . Mittelwert
z2 = m2 − m21 . . . Varianz
Weiters von Bedeutung sind das dritte und das vierte Moment
Schiefe: ν(X) :=
z3
σ3
= E(X∗3 )
wobei
X∗ := (X − µ)/σ
• ν(X) = 0
...
symmetrische Verteilung
• ν(X) < 0
...
linksschief
• ν(X) > 0
...
rechtsschief
Kurtosis:
z4
σ4
= E(X∗4 )
(auch Wölbung
19
→
Normalverteilung)
Übung: Schiefe
Eine Zufallsvariable X habe folgende Wahrscheinlichkeitsverteilung:
P (1) = 0.05, P (2) = 0.1, P (3) = 0.3, P (4) = 0.5, P (5) = 0.05
Zeichne Wahrscheinlichkeitsfunktion und Verteilungsfunktion
Berechne die Schiefe!
Lösung:
−0.672
0.843/2
∼ −0.8729
Wie lautet die Schiefe für die folgende leicht veränderte Verteilung?
P (1) = 0.05, P (2) = 0.3, P (3) = 0.3, P (4) = 0.3, P (5) = 0.05
20
2.3 Binomialverteilung
Bernoulli - Experiment: Zwei mögliche Ergebnisse (0 oder 1)
P(X = 1) = p,
P(X = 0) = q
Zum Beispiel faire Münze:
wobei
q =1−p
p = 1/2
Beispiel: Werfe unfaire Münze zwei mal. P(Kopf) = p = 0.7
Wahrscheinlichkeitsverteilung der Anzahl der Köpfe Z?
Ω = {0, 1}3 , Wertebereich von Z ist Z = {0, 1, 2}
Die beiden Würfe sind voneinander unabhängig!
P(Z = 0) = P(X1 = 0, X2 = 0) = P(X1 = 0)P(X2 = 0) = 0.32 = 0.09
P(Z = 1) = P(X1 = 0, X2 = 1) + P(X1 = 1, X2 = 0) =
= 2 · P(X1 = 0)P(X2 = 1) = 2 · 0.3 · 0.7 = 0.42
P(Z = 2) = P(X1 = 1, X2 = 1) = P(X1 = 1)P(X2 = 1) = 0.72 = 0.49
21
Binomialverteilung
n unabhängige Bernoulli Experimente mit P(X = 1) = p
Y := Anzahl der Experimente mit Ausgang 1 binomialverteilt:
(n) k n−k
P(Y = k) = k p q
Beweis: Unabhängigkeit ⇒ Wahrscheinlichkeit für jede
einzelne Sequenz mit k mal 1 und n − k mal 0 (in irgendeiner
festen Reihenfolge) ist pk (1 − p)n−k
Anzahl der Sequenzen mit dieser Eigenschaft: k-Kombination ohne
Wiederholung
Notation: Y ∼ B(n, p)
Übung: Fünf unabhängige Würfe einer fairen Münze
Berechne Wahrscheinlichkeitsfunktion der Anzahl der Köpfe!
22
Beispiel Binomialverteilung
Prüfung mit Durchfallsquote von 20%
Anzahl der Erfolge beim Antritt von 10 Studierenden?
( )
10
P(X = 7) =
· 0.87 · 0.23 = 0.2013
7
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0
1
2
3
4
5
23
6
7
8
9
10
Beispiele Binomialverteilung: n = 10
p = 0.1
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
p = 0.3
0
1
2
3
4
5
6
7
8
9
0
10
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
1
2
3
4
5
6
7
8
9
0
10
24
p = 0.2
0
1
2
3
4
5
6
7
8
9
10
p = 0.5
0
1
2
3
4
5
6
7
8
9
10
Anwendung: Ziehen mit Zurücklegen
Grundgesamtheit mit N Objekten
• M der N Objekte erfüllen Eigenschaft E
• Ziehe n Objekte mit zurücklegen
Die Zahl X der gezogenen Objekte, die Eigenschaft E erfüllen ist
binomialverteilt:
X ∼ B(n, M/N )
Übung: Urne mit 3 schwarzen und 9 weißen Kugeln; ziehe 5
Kugeln mit zurücklegen, X . . . Zahl der gezogenen schwarzen
Kugeln
• Wahrscheinlichkeitsfunktion von X?
• Erwartungswert von X?
25
Erwartungswert der Binomialverteilung
X ∼ B(n, p) ⇒ E(X) = np
(n)
(n−1)
Unter Verwendung von k k = n k−1
E(X)
( )
)
n
n (
∑
∑
n k n−k
n − 1 k−1 n−k
k
p q
= np
p
q
=
k
k−1
k=1
k=1
n−1
∑ (n − 1)
= np
pi q n−1−i
i
i=0
und aufgrund des binomischen Lehrsatzes
n−1
∑(
i=0
)
n − 1 i n−1−i
pq
= (p + q)n−1 = 1
i
Alternativer Beweis: Differenziere (p + q)n nach p
26
Varianz der Binomialverteilung
X ∼ B(n, p)
⇒
Wiederum unter Verwendung von
E(X 2 ) =
=
Var (X) = npq
k
(n)
k
=n
(n−1)
k−1
( )
(
)
n
∑
n
n
−
1
k2
pk q n−k = np
k
pk−1 q n−k
k
k−1
k=1
k=1
(
)
n−1
∑
n − 1 i n−1−i
np
(i + 1)
pq
= np {(n − 1)p + 1}
i
i=0
n
∑
und daher
Var (X) = E(X 2 ) − µ2 = np {(n − 1)p + 1} − (np)2 = np(1 − p)
Alternativer Beweis: Differenziere (p + q)n zwei mal nach p
27
2.4 Die Poissonverteilung
Definition:
X = N0 = {0, 1, 2, · · · }
P(X = k) =
Notation:
λk −λ
k! e
,
λ>0
X ∼ P(λ)
Poisson-verteilte Zufallsvariable kann im Prinzip beliebig große
Werte annehmen, allerdings mit sehr geringer Wahrscheinlichkeit
Beispiel:
λ=2
20 −2 21 −2
P(X ≤ 1) =
e + e = (1 + 2)e−2 = 0.4060
0!
1!
4 8 16 −2
P(X > 4) = 1 − P(X ≤ 4) = 1 − (1 + 2 + + + )e
2 6 24
= 1 − 0.9473 = 0.0527
28
Beispiele Poissonverteilung
λ=1
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
λ=3
0
1
2
3
4
5
6
7
8
9
10
11
λ = 1.5
0
12
0
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
1
2
3
4
5
6
7
8
9
10
11
0
12
29
1
2
3
4
5
6
7
8
9
10
11
12
λ=5
0
1
2
3
4
5
6
7
8
9
10
11
12
Anwendung
Modellierung von seltenen Ereignissen
Beispiele
• Zahl der Kunden innerhalb eines bestimmten Zeitraums
• Radioaktiver Zerfall
• Zahl von Tippfehlern pro Folie
• Zahl von Menschen älter als 100 Jahre (pro 1 000 000)
• Zahl von Fehlalarmen an einem Tag
• etc.
Zusammenhang zwischen Poisson-verteilten Ereignissen und der
Wartezeit zwischen zwei Ereignissen ⇒ Exponentialverteilung
30
Erwartungswert und Varianz
X ∼ P(λ)
⇒
E(X) = λ
Beweis:
∞
∞
∞
k
∑
∑
∑
λk −λ
λ
λj
−λ
−λ
k e =e
E(X) =
= λe
k!
(k − 1)!
j!
j=0
k=0
k=1
X ∼ P(λ)
⇒
Var (X) = λ
Beweis:
E(X 2 ) =
∞
∑
k=0
∞
∞
k
k
∑
∑
kλ
(j + 1)λj
λ
2
−λ
−λ
−λ
k
e =e
= λe
= λ(λ+1)
k!
(k − 1)!
j!
j=0
k=1
E(X 2 ) − E(X)2 = λ(λ + 1) − λ2 = λ
31
Approximation der Binomialverteilung
X ∼ B(n, p), wobei n groß und p klein (z. Bsp. n > 10 und p < 0.05)
⇒ X ∼ P(np) approximativ,
d.h. X ist näherungsweise Poisson-verteilt mit Parameter λ = np
Motivation: Setze λ := np
P(X = k)
=
n!
pk q n−k
k! (n − k)!
=
n(n − 1) · · · (n − k + 1) λk (1 − λ/n)n
· k ·
k!
n (1 − λ/n)k
Für n groß und moderates λ (d.h. p klein) gilt
n(n − 1) · · · (n − k + 1)
≈1
nk
und daher P(X = k) ≈
λk
k!
(1−λ/n)k ≈ 1
e−λ
32
(1−λ/n)n ≈ e−λ
Beispiel Poissonapproximation
Vergleich Poissonapproximation (λ = 0.5) mit exakter
Verteilungsfunktion einer Binomialverteilung (n = 10, p = 0.05)
Binomial:
1
P(X ≤ 3) = 0.9510 + 10 · 0.05 · 0.959
0.95
0.9
+ 45 · 0.052 · 0.958 + 120 · 0.053 · 0.957
0.85
0.8
= 0.99897150206211
0.75
0.7
Poissonapproximation:
0.65
0.6
0.55
0
1
2
3
4
Blau: X ∼ B(10, 0.05)
Grün: X̃ ∼ P(0.5)
5
6
P(X̃ ≤ 3) =
(
)
2
3
0.5
0.5
≈ 1 + 0.5 +
+
e−0.5
2
6
= 0.99824837744371
33
2.5 Andere diskrete Verteilungen
Wir werden behandeln:
• Geometrisch
• Hypergeometrisch
Weitere Verteilungen (hier nicht behandelt):
• Negativ binomial
• Verallgemeinerte Poisson
• Zetaverteilung
• etc.
34
Geometrische Verteilung
Unabhängige Bernoulli - Experimente mit Wahrscheinlichkeit p
X . . . Anzahl der Versuche bis zum ersten Erfolg
Es gilt:
P(X = k) = q k−1 p
k − 1 Miserfolge mit Wahrscheinlichkeit q = 1 − p
Übung: Urne mit N weißen und M schwarzen Bällen
Ziehen mit zurücklegen
a) Wahrscheinlichkeit, dass man exakt k Versuche braucht, bis
eine schwarze Kugel gezogen wird
b) Wahrscheinlichkeit, dass man höchstens k Versuche braucht,
bis eine schwarze Kugel gezogen wird
35
Erwartungswert und Varianz
∞
∑
Beachte:
k
q =
k=0
1
1−q
und daher
kq
k−1
=
k=1
E(X) =
q k−1 p =
k=1
∞
∑
Differenzieren liefert:
∞
∑
∞
∑
kq
k−1
k=1
Nochmals Differenzieren:
∞
∑
d
dq
∞
∑
qk =
k=0
E(X 2 ) =
k=1
Und daher:
k 2 q k−1 p = pq
∞
∑
p
p
=
=1
1
(1−q)2
p
1
p=
=
(1 − q)2
p
k(k − 1)q
k−2
=
k=1
∞
∑
p
1−q
k(k − 1)q k−2 + p
k=1
d2
dq 2
∞
∑
∞
∑
qk =
k=0
kq k−1 =
k=1
Var (X) = E(X 2 ) − E(X)2 =
36
2
p2
−
1
p
−
1
p2
=
2
(1−q)3
2pq 1
+
3
p
p
1−p
p2
Hypergeometrische Verteilung
Binomialverteilung: Ziehen aus einer Urne mit Zurücklegen
Übung: Urne, 3 Kugeln schwarz, 5 Kugeln weiß,
Ziehe 4 Kugeln mit bzw. ohne Zurücklegen.
Berechne jeweils Verteilung der gezogenen schwarzen Kugeln!
0.45
0.45
0.4
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
1
2
3
0
4
Mit Zurücklegen
0
1
2
3
Ohne Zurücklegen
37
4
Hypergeometrische Verteilung
N Objekte von denen M eine Eigenschaft E erfüllen. Ziehe n
Objekte ohne zurücklegen, X die Anzahl der gezogenen Objekte
mit Eigenschaft E.
−M
(Mk )(Nn−k
)
P(X = k) =
(Nn )
(a)
Wir verwenden hier die Definition b = 0, falls a < b
Klarerweise gilt P(X = k) = 0 falls M < k
Ich kann nicht mehr schwarze Kugeln ziehen als vorhanden
Ebenfalls klar dass P(X = k) = 0 falls N − M < n − k
Ich kann nicht mehr weiße Kugeln ziehen als vorhanden
Insgesamt:
X = {k : max(0, n − N + M ) ≤ k ≤ min(n, M )}
38
Erwartungswert und Varianz
Ohne Beweis gilt (Berechnungen nicht schwierig aber länglich)
E(X) =
nM
N ,
Var (X) =
nM
N (1
−
M N −n
N ) N −1 ,
Definiere p := M
N und betrachte Ähnlichkeit zur
Binomialverteilung
E(X) = np
gleiche Formel wie bei Binomial
−n
Var (X) = np(1 − p) N
N −1
Nämlich
limN →∞
N −n
N −1
asymptotisch wie bei Binomial
=1
Wenn N und M sehr groß im Vergleich zu n, dann gilt
(ohne Beweis)
näherungsweise X ∼ B(n, M
N)
39
Beispiel Hypergeometrische Verteilung
Qualitätskontrolle: Lieferung von 30 Kartons mit Eiern,
10 Kartons enthalten zumindest ein zerbrochenes Ei,
Stichprobe der Größe 6
• Mit welcher Wahrscheinlichkeit enthalten zwei der sechs
entnommenen Kartons kaputte Eier?
N = 30, M = 10, n = 6
(10)(20)
(30)4
P(X = 2) =
2
= 0.3672
6
• Erwartungswert und Varianz für die Anzahl der Kartons in der
Stichprobe mit kaputten Eiern?
E(X) = 6 ·
10
30
= 2;
Var (X) = 6 ·
40
1
3
·
2
3
·
24
29
= 1.1034
Übung Approximation durch Binomialverteilung
Lotterie mit 1000 Losen, davon 200 Gewinnlose
Kaufe 5 Lose
1. Berechne die Wahrscheinlichkeit, dass mindestens ein Los
gewinnt
Lösung: 0.6731
2. Berechne die Gewinnwahrscheinlichkeit von 1. mittels
Binomial-Approximation
Lösung: 0.6723
41
Zusammenfassung diskrete Verteilungen
• Gleichverteilung: X = {x1 , . . . , xn } ,
(n) k n−k
P(X = k) = k p q
• Binomialverteilung: X ∼ B(n, p),
Es gilt E(X) = np,
• Hypergeometrische:
Es gilt E(X) = np,
P(X = k) =
Var (X) = λ
• Geometrische Verteilung:
Es gilt E(X) = p−1 ,
X = {0, . . . , n}
Var (X) = npq
• Poissonverteilung: X ∼ P(λ),
Es gilt E(X) = λ,
P(X = xk ) = 1/n
λk
k!
e−λ
X = {0, 1, 2 . . . }
P(X = k) = p q k−1
Var (X) = q p−2
X = {1, 2 . . . }
(M )(N −M ) (N )
P(X = k) = k n−k / n
−n
Var (X) = np(1 − p) N
N −1 ,
42
p=
M
N
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/13
3 Stetige Verteilungen
1. Einführung
2. Exponentialverteilung
3. Normalverteilung
4. Normalverteilungsapproximation
5. Andere stetige Verteilungen
1
3.1 Einführung
Diskrete Zufallsvariable:
Ω endlich oder abzählbar
Stetige Zufallsvariable: Ω ist ein Intervall des Raums R (oder ein
kartesisches Produkt von Intervallen im Raum Rn )
Beispiele:
• Wartezeit auf den nächsten Kunden
• Größe bzw. Alter einer Person
• Umsatz einer Firma
• Gewicht eines Gegenstandes
Reelle (auch: metrische) Variable: Wert lässt sich durch eine reelle
Zahl beschreiben
2
Verteilungsfunktion
Einer stetigen Zufallsvariable ist eine stetige Verteilungsfunktion
zugeordnet:
F (x) = P(X ≤ x) stetig in x
Beispiel: Gleichverteilung auf Intervall [0, 1]
2
1.5
F(x)
1
0.5
0
−0.5
−1
−1
−0.5
0
0.5
x
3
1
1.5
2
Berechnung von Wahrscheinlichkeiten
Wahrscheinlichkeit für bestimmtes Ereignis immer gleich 0:
P(X = x) = F (x) − F (x− ) = 0 wegen Stetigkeit von F
Es macht mehr Sinn, nach Wahrscheinlichkeit zu fragen, mit der X
einen Wert in einem Intervall [a, b] annimmt:
P(a ≤ X ≤ b) = F (b) − F (a)
So gilt für eine gleichverteilte Zufallsvariable XId auf [0, 1], falls
0 ≤ a < b ≤ 1:
P(a < XId < b) = b − a
Beachte: P(X ≤ b) = P(X < b) + P(X = b) = P(X < b)
4
Dichtefunktion
Sei F (x) differenzierbar.
Definition:
f (x) := F ′ (x)
Dichtefunktion der Zufallsvariable X
Hauptsatz der Analysis:
F (x) =
∫
f (x)dx + c
und daher
∫b
P(a < X ≤ b) = F (b) − F (a) =
f (x)dx
x=a
Zum Vergleich: Bei diskreten Zufallsvariablen ist
∑
P (x)
P(a < X ≤ b) = F (b) − F (a) =
a<x≤b
5
Eigenschaften der Dichtefunktion
Für die Dichtefunktion (kurz Dichte) gilt
• f (x) ≥ 0,
•
•
∀x ∈ R
lim f (x) = 0, lim f (x) = 0
x→−∞
∫∞
x→∞
f (x)dx = 1
x=−∞
Die Dichtefunktion f (x) ist nicht die Wahrscheinlichkeit dafür, dass
X den Wert x annimmt!
Für kleines ϵ gilt
P(x − ϵ < X ≤ x + ϵ) ≈ f (x) · 2ϵ
6
Beispiele
1) X gleichverteilt auf dem Intervall [0, 1]
F (x) = x, x ∈ [0, 1]
⇒
f (x) = 1, x ∈ [0, 1]
2) X gleichverteilt auf dem Intervall [l, r],
f (x) = c, x ∈ [l, r]
Welchen Wert hat c?

 cx2 , x ∈ [0, 1]
3) X mit Dichte f (x) =

0 sonst
Welchen Wert hat c?
Berechne P(0.25 < X < 0.75)
7
l < r, l, r ∈ R
Erwartungswert und Varianz von stetigen ZV
Analog zur Definition bei diskreten ZV:
∫∞
E(X) =
xf (x)dx
x=−∞
und
Var (X) =
∫∞
(x − µ)2 f (x)dx
x=−∞
Es gilt wiederum:
E(aX + b) = aE(X) + b
Var (aX + b) = a2 Var (X)
Übung: X gleichverteilt auf [0, 1]. Berechne Erwartungswert und
Varianz!
8
Erwartungswert von Funktionen von ZV
Analog zum Fall von diskreten ZV gilt für stetige ZV (ohne Beweis):
∫∞
E(g(X)) =
g(x)f (x)dx
x=−∞
Daher folgt:
Und auch:
Var (X) = E(X − E(X))2
Var (X) = E(X 2 ) − E(X)2
∫∞
∫∞
(x − µ)2 f (x)dx =
x=−∞
(x2 − 2µx + µ2 )f (x)dx
x=−∞
∫∞
∫∞
x2 f (x)dx − 2µ
=
x=−∞
x=−∞
9
xf (x)dx + µ2
Funktionen von stetigen Zufallsvariablen
Sei g eine reellwertige Funktion g : X → R und g(X ) = Y.
Falls g streng monoton wachsend, existiert Umkehrabbildung
g −1 : Y → X
Verteilungsfunktion von Y = g(X) berechnet man wie folgt:
FY (y) = P(g(X) ≤ y) = P(X ≤ g −1 (y)) = F (g −1 (y))
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = eX
g −1 (y) = ln(y)
Y = g(X ) = [e0 , e1 ] = [1, e]
FY (y) = P(Y ≤ y) = FX (ln(y)) = ln(y),
10
y ∈ [1, e]
Funktionen von stetigen Zufallsvariablen
Interpretation: Koordinatenwechsel
Die Werte der Zufallsvariable werden transformiert
2
2
1.5
1.5
1
1
FY(y)
F(x)
Bei streng monotoner Transformation bleiben die
Wahrscheinlichkeiten der transformierten Intervalle gleich
(vgl. diskrete Zufallsvariable)
0.5
0.5
0
0
−0.5
−0.5
−1
−1
−0.5
0
0.5
1
1.5
−1
0.5
2
x
1
1.5
2
y = g(x)
11
2.5
3
Funktionen von stetigen Zufallsvariablen
Falls g streng monoton fallend
⇒
g −1 existiert
P(g(X) ≤ y) = P(X ≥ g −1 (y)) = 1−P(X < g −1 (y)) = 1−F (g −1 (y))
Im allgemeinen Fall (keine Monotonie von g) wird der Urbildraum
von g zerlegt in Intervalle wo g monoton fällt bzw. monoton wächst
Beispiel: X gleichverteilt auf [0, 1], Y := g(X) = (X − 12 )2
√
g ist m.f. auf [0, 12 ], m.w. auf [ 12 , 1]
g −1 (y) = 12 ± y
P((X − µ)2 ≤ y)
√
√
y ≤ X ≤ 1/2 + y)
√
√
= FX (1/2 + y) − FX (1/2 − y)
=
P(1/2 −
12
Dichte von transformierten Zufallsvariablen
g streng monoton und differenzierbar
Wie lautet Dichte von Y = g(X)?
fY (y) =
d
dy FY
(y) =
d
−1
(y))
dy F (g
= fX (g −1 (y)) ·
d −1
(y)
dy g
(Differenzieren der transformierten Verteilungsfunktion unter
Beachtung der Kettenregel!)
Beispiel: (Fortsetzung) X gleichverteilt auf [0, 1], Y = g(X) = eX
FY (y) = ln(y), y ∈ [1, e]
Oder mit Formel:
⇒
fY (y) = y1 , y ∈ [1, e]
fX (g −1 (y)) = 1 denn fX (x) ≡ 1
d −1
1
g (y) =
dy
y
13
3.2 Exponentialverteilung
Stetige Zufallsvariable X ist exponentialverteilt mit Parameter
λ > 0 falls Dichte

 λe−λx , x ≥ 0
f (x) =

0, x < 0
Zugehörige Verteilungsfunktion

 1 − e−λx ,
F (x) =

0,
Beweis: Einfache Integration
14
x≥0
x<0
Plots Exponentialverteilung
Dichte und Verteilungsfunktion für Parameter λ = 1, 2 und 3
3
1
0.9
2.5
0.8
λ=1
λ=2
λ=3
2
0.7
F(x)
f(x)
0.6
1.5
0.5
0.4
1
0.3
λ=1
λ=2
λ=3
0.2
0.5
0.1
0
0
0.5
1
1.5
2
2.5
0
3
x
0
0.5
1
1.5
2
2.5
x
Je größer λ desto schneller fällt die Dichtefunktion.
Wir vermuten daher: Je größer λ desto kleiner µ und auch σ.
15
3
Erwartungswert
X exponentialverteilt mit Parameter λ
∫ ′
∫ ′
Partielle Integration u v = uv| − uv anwenden.
∫∞
E(X)
−λx
xλe
=
−λx ∞
−xe
0
dx =
x=0
=
2
2
E(X ) =
−λx
x λe
dx =
2 −λx ∞
−x e
0
x=0
= 0+
und daher
+
∫∞
+
x=0
2
2
E(X) = 2
λ
λ
Var (X) =
2
λ2
−
1
λ2
16
=
e−λx dx
x=0
−λx ∞
e
1
0−
=
λ 0
λ
∫∞
∫∞
1
λ2
2xe−λx dx
Übung
Angenommen die Länge eines Telephongespräches in Minuten ist
exponentialverteilt und dauert im Mittel 10 Minuten. Du kommst zu
einer Telephonzelle wo unmittelbar zuvor jemand ein Gespräch
begonnen hat.
Wie groß ist die Wahrscheinlichkeit dass du
1. weniger als 10 Minuten
2. genau 10 Minuten
3. zwischen 10 und 20 Minuten
4. länger als 20 Minuten
warten mußt bis die Telephonzelle frei wird?
17
Zusammenhang mit Poissonverteilung
Die folgenden beiden Eigenschaften sind äquivalent (o. Bew.):
• Die Zeit T zwischen dem Eintreffen zweier
aufeinanderfolgender Ereignisse ist (unabhängig)
exponentialverteilt mit Parameter λ.
• Für jedes Zeitintervall [t1 , t2 ] ist die Häufigkeit der während
[t1 , t2 ] auftretenden Ereignisse poissonverteilt mit Parameter
λ(t2 − t1 ).
t1
u
x1
T
u
x2
t2
Wartezeit zwischen zwei Ereignissen T ∼ Exp (λ),
λ . . . erwartete Anzahl von Ereignissen für Zeitraum der Länge 1.
18
Übung
X Häufigkeit wie oft eine Maschine in bestimmtem Zeitraum
ausfällt (Maschinen laufen 24h durchgehend)
Im Mittel fallen 3 Maschinen pro Tag aus
Annahme X poissonverteilt
a) Verteilung der Zeit, die zwischen 2 Ausfällen vergeht?
b) Mit welcher Wahrscheinlichkeit fällt für mehr als 5 Stunden keine
Maschine aus?
c) Mit welcher Wahrscheinlichkeit fallen innerhalb von 5 Stunden
zwei Maschinen aus?
19
Gedächtnislosigkeit
Die Verteilung von X ist gedächtnislos, wenn
P(X > s + t|X > t) = P(X > s)
D.h. Vorgeschichte bietet keinerlei Information
Exponentialverteilung ist gedächtnislos:
Definition ist äquivalent zu P(X > s + t) = P(X > s)P(X > t)
und es gilt e−λ(s+t) = e−λs e−λt
Exponentialverteilung ist einzige gedächtnislose stetige Verteilung!
Übung: Im diskreten Fall geometrische Verteilung gedächtnislos
(Diskretes Analogon zur Exponentialverteilung)
20
3.3 Normalverteilung
X ∼ N (µ, σ )
2
−(x−µ)2 /2σ 2
√ 1
e
2π σ
falls f (x) =
Standardnormalverteilung N (0, 1):
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
1
2
Gaußsche Glockenkurve
21
3
Normalverteilung
Wesentliche Bedeutung in Wahrscheinlichkeitsrechnung und
Statistik aufgrund des zentralen Grenzwertsatzes!
f ist tatsächlich Wahrscheinlichkeitsdichte:
1
√
2π σ
∫∞
e
x=−∞
−(x−µ)2 /2σ 2
1
dx = √
2π
Zunächst Variablensubstitution z ←
∫∞
e
−z 2 /2
dz = 1
z=−∞
x−µ
σ
dann verschiedene Möglichkeiten zur Berechnung des
uneigentlichen Integrals
∫x
Verteilungsfunktion F (x) =
f (y)dy lässt sich nicht in
y=−∞
geschlossener Form darstellen (keine einfache Formel)
⇒
Tabellen für die Normalverteilung
22
Standardnormalverteilung
X ∼ N (0, 1),
Φ(x) := P(X ≤ x)
übliche Notation:
2
1
φ(x) := Φ′ (x) = √ e−x /2
2π
Tabellen von Φ(x) für x ∈ (0, 4) (z.B. Bosch-Buch oder Internet)
Grund: φ ist symmetrisch und somit
φ(−x) = φ(x)
⇒
Φ(−x) = 1 − Φ(x)
Beispiel: Wahrscheinlichkeit dass X zwischen -2 und 1 liegt
P(−1 ≤ X ≤ 2)
= P(X ≤ 2) − P(X < −1) = Φ(2) − {1 − Φ(1)}
=
0.9772 − 1 + 0.8413 = 0.8186
Werte von Φ(2) und Φ(1) aus Tabelle
23
Verteilungsfunktion der SNV
Einige wesentliche Werte von Φ(x):
Φ(0) = 0.5;
Φ(1.645) = 0.95;
Φ(1.96) = 0.975
Der Graph von Φ(x):
1
0.8
0.6
0.4
0.2
0
−3
−2
−1
0
24
1
2
3
Erwartungswert
Sei X ∼ N (µ, σ 2 )
Substitution z ←
x−µ
σ
E(X) =
=
da g(z) := z e−z
und
√1
2π
∫∞
2
/2
e−z
2
liefert
1
√
2π σ
1
√
2π
∫∞
−(x−µ)2 /2σ 2
xe
x=−∞
∫∞
(σz + µ)e
−z 2 /2
dx
dz = µ
z=−∞
antisymmetrisch (d.h. g(−z) = −g(z))
/2
dz = 1
x=−∞
25
Varianz
Wiederum Substitution z ←
Integration liefert
Var (X) =
=
1
√
2π σ
σ2
√
2π
x−µ
σ
und anschließend partielle
∫∞
2 −(x−µ)2 /2σ 2
(x − µ) e
x=−∞
∫∞
2 −z 2 /2
z e
dz
z=−∞


=
dx
∞
2
σ2
√
+
−ze−z /2 −∞
2π 
Somit gezeigt: X ∼ N (µ, σ 2 )
⇒
26
∫∞
z=−∞
e−z
2
/2


dz

= σ2
E(X) = µ, Var (X) = σ 2
Lineare Transformation
Wesentliche Eigenschaft:
X ∼ N (µ, σ 2 )
⇒
Y := aX + b ∼ N (aµ + b, a2 σ 2 )
Beweis: Nehmen a > 0 an. (Fall a < 0 analog.)
Transformationssatz für Dichten:
fY (y) = fX (g −1 (y)) ·
Hier: g(x) = ax + b
⇒
d −1
g (y)
dy
g −1 (y) = (y − b)/a,
d −1
(y)
dy g
Und somit
fY (y)
fX ((y − a)/b) · 1/a
1
−(y−aµ−b)2 /2a2 σ 2
= √
e
2πσa
=
Dies ist die Dichte einer N (aµ + b, a2 σ 2 )
27
= 1/a
Normalisierung
Daraus folgt unmittelbar
X ∼ N (µ, σ 2 )
⇒
Z :=
X−µ
σ
∼ N (0, 1)
Normalverteilung für verschiedene µ und σ
0.45
µ = −2
µ=0
µ=2
0.4
0.8
0.7
0.35
σ = 1/2
0.6
0.3
0.5
0.25
0.4
σ=1
0.2
0.3
0.15
0.2
σ=2
0.1
0.1
0.05
0
−5
0
−3
−4
−3
−2
−1
0
1
2
3
4
−2
−1
0
1
2
5
σ 2 . . . Varianz
µ . . . Mittelwert
28
3
Beispiel
Sei X ∼ N (3, 9), berechne folgende Wahrscheinlichkeiten:
1. P(2 < X < 5)
2. P(X > 0)
3. P(|X − 3| > 6)
Lösungen
1)
2)
3)
(
)
( )
(
)
X −3
5−3
2−3
2
1
<
<
P
=Φ
−Φ −
3
3
3
3
3
≈ 0.7486 − (1 − 0.6293) = 0.3779
(
)
0−3
X −3
P
<
= Φ(1) ≈ 0.8413
3
3
(
)
X −3
6−3
<
2·P
= 2 · (1 − Φ(2)) ≈ 0.0456
3
3
29
Quantile der Normalverteilung
Definition: X habe Verteilungsfunktion F und γ ∈ [0, 1] sei eine
Wahrscheinlichkeit
γ - Quantil xγ jene Zahl für die
F (xγ ) = γ
xγ = F −1 (γ), wobei F −1 Umkehrabbildung der Verteilungsfunktion
Normalverteilung:
explizite Berechnung
nicht möglich
⇒ Tabellen oder
mittels Computer
0.45
0.4
0.35
0.3
0.25
0.2
γ
0.15
0.1
Standard-NV:
xγ = Φ−1 (γ)
0.05
0
−3
−2
30
−1
0
1
xγ
2
3
Symmetrische Intervalle
X ∼ N (µ, σ 2 )
⇒
P(|X − µ| ≤ x) = 2 · Φ( σx ) − 1
Beweis:
P(−x + µ ≤ X ≤ x + µ) = 2 · P(X ≤ x + µ) − 1
Sei γ eine vorgegebene Wahrscheinlichkeit, dann gilt:
(
)
−1 1+γ
P(|X − µ| ≤ zγ ) = γ für zγ = σ Φ
2
Übung: Sei X normalverteilt mit σ 2 = 4
Bestimme x derart, dass P(X − µ ≤ x) = 0.95
bzw. P(|X − µ| ≤ x) = 0.95
31
3.4 Normalverteilungsapproximation
Betrachte für großes n die Wahrscheinlichkeitsfunktion einer
Binomialverteilung und vergleiche mit der Dichtefunktion der
Normalverteilung
0.09
0.45
0.08
0.4
0.07
0.35
0.06
0.3
0.05
0.25
0.04
0.2
0.03
0.15
0.02
0.1
0.01
0.05
0
30
35
40
45
50
55
60
65
0
70
X ∼ B(100, 0.5)
−3
−2
−1
0
1
X ∼ N (0, 1)
32
2
3
Grenzwertsatz nach DeMoivre - Laplace
Sn . . . Anzahl der Erfolge bei n unabhängigen Versuchen mit
Erfolgswahrscheinlichkeit p.
Dann gilt für a < b:
)
(
−np
P a ≤ S√nnpq
≤ b → Φ(b) − Φ(a)
für
n→∞
d.h. standardisierte Binomialverteilung (Sn − µ)/σ konvergiert
gegen Standardnormalverteilung
Beweis: Spezialfall des zentralen Grenzwertsatzes. Zentraler
Grenzwertsatz gilt für Summen unabhängiger Zufallsvariablen. Ist
Sn binomialverteilt, so ist es Summe unabhängiger
"Bernoulli-Variablen", d.h. Variablen X ∼ B(1, p).
Anwendbarkeit:
npq ≥ 9.
33
Stetigkeitskorrektur
B(n, p) diskret, d.h. Verteilungsfunktion ist eine Treppenfunktion
N (0, 1) stetig, d.h. Verteilungsfunktion ist stetig
⇒
Stetigkeitskorrektur:
P (a ≤ Sn ≤ b) ≈ Φ
(
b+0.5−np
√
npq
)
−Φ
(
a−0.5−np
√
npq
)
1
0.9
0.8
0.7
blau: B(40, 0.5)
grün: N (20, 10)
0.6
0.5
0.4
0.3
0.2
0.1
0
15
16
34
17
18
19
20
21
22
23
24
25
Übung
Angenommen 30% der Bevölkerung kennen ein Produkt.
Befragung von 200 Personen. Wie groß ist Wahrscheinlichkeit
dass
1. genau 55 Personen das Produkt kennen
2. mehr als 55 Personen das Produkt kennen
3. 55 bis 64 Personen das Produkt kennen
Löse mit Normalverteilungsapproximation
Versuche 1. auch unmittelbar mit Binomialverteilung zu berechnen
– worin liegt das Problem?
35
Normalverteilungsapproximation für
hypergeometrische Verteilung
Analog zur Binomialverteilung gilt auch für eine hypergeometrisch
verteilte Zufallsvariable mit Parametern N, M und n:
(
)
( a−0.5−µ )
b+0.5−µ
P (a ≤ Sn ≤ b) ≈ Φ
−Φ
σ
σ
M
2
wobei hier µ = n M
und
σ
=
n
N
N (1 −
Anwendbarkeit:
σ2 ≥ 9
M N −n
N ) N −1
N ≥ 2n
und
Übung: Lieferung von 2500 Milchpackungen, 12 % verdorben
Zufällige Stichprobe von 100 Packungen, p sei Anteil der
entdeckten verdorbenen Packungen
Mit welcher Wahrscheinlichkeit liegt p zwischen 5% und 15%
36
3.5 Andere stetige Verteilungen
Große Vielfalt an stetigen Verteilungen
Besprechen hier nur zwei wichtige Familien:
• Gamma - Verteilung
Verallgemeinerung der Exponentialverteilung
• Beta - Verteilung
Verteilungen mit Träger auf Intervall [0, 1]
Sowohl Beta- als auch Gamma - Verteilung hängt von zwei
Parametern ab
Für unterschiedliche Parameter ganz unterschiedliche Form
⇒ Modellierung von verschiedenen Sachverhalten
37
Gamma - Verteilung
Exponentialverteilung ist ein Spezialfall der Gammaverteilung
X ist Γ-verteilt mit Parametern t > 0 und λ > 0 falls Dichte
 −λx
 λe (λx)t−1 , x ≥ 0
Γ(t)
f (x) =

0, x < 0
wobei
Γ(t) =
∫∞
e−x xt−1 dx
x=0
Diese Definition garantiert, dass f tatsächlich Dichtefunktion
t=1
⇒
Exponentialverteilung
t = n ∈ N ⇒ Verteilung der Wartezeit bis n Ereignisse
aufgetreten sind
38
Eigenschaften von Γ - Funktion und Γ - Verteilung
Γ - Funktion:
Γ(t) =
∫∞
e−x xt−1 dx
x=0
Partielle Integration liefert:
Γ(t) = (t − 1)Γ(t − 1)
Spezialfall der Rekursionsformel für t = n ∈ N:
Γ(n) = (n − 1)Γ(n − 1) = · · · = (n − 1)(n − 2) · · · Γ(1) = (n − 1)!
da ja Γ(1) = 1
Notation:
X ∼ Γ(t, λ) . . . Γ-Verteilung mit Parametern t und λ,
Mit Hilfe der Rekursionsformel zeigt man leicht
E(X) = λt ,
Var (X) =
39
t
λ2
Beispiele für Gamma - Verteilung
• Γ(1, λ) . . . Exponentialverteilung
Γ(n, λ) . . . Wartezeiten auf n Ereignisse
• Γ( n2 , 12 ) . . . χ2 -Verteilung mit n Freiheitsgraden
0.8
0.8
t=1
t=2
t=3
t=4
t=6
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
0
1
2
3
4
t=1/2
t=1
t=3/2
t=2
t=3
0.7
5
0
1
2
3
4
2t ∈ N, λ = 1/2
t ∈ N, λ = 1
40
5
Beispiele für Gamma - Verteilung 2
Γ(t, 1) . . . Standard Γ-Verteilung
Es gilt:
X ∼ Γ(t, λ)
⇒
λX ∼ Γ(t, 1)
Abhängigkeit von λ
Abhängigkeit von t
4
4
t=1
t=2
t=3
t=4
t=6
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
0
0.5
1
λ=1
λ=2
λ=3
λ=4
λ=6
3.5
1.5
0
0.5
1
t = 4/3, λ ∈ N
t ∈ N, λ = 5
41
1.5
Beta - Verteilung
Famile von Verteilungen mit beschränktem Träger
X ist B-verteilt mit Parametern a, b > 0 falls Dichte
 a−1
 x (1−x)b−1 , 0 < x < 1
B(a,b)
f (x) =

0, sonst
wobei
B(a, b) =
∫1
xa−1 (1 − x)b−1 dx
x=0
Diese Definition garantiert wiederum, dass f tatsächlich
Dichtefunktion
Zur Modellierung von Zufallsereignis Y im Bereich [l, r]
⇒
Variablentransformation 0 ← l und 1 ← r
42
d.h. X =
Y −l
r−l
Mittelwert und Varianz
Es gilt für die B-Funktion
Γ(a)Γ(b)
B(a, b) =
Γ(a + b)
(ohne Beweis)
Unter Verwendung der Eigenschaften der Γ-Funktion oder mittels
partieller Intergration zeigt man leicht,
B(a + 1, b) =
a
B(a, b)
a+b
und für X Beta-verteilt mit Parametern a und b gilt:
E(X) =
a
a+b ,
Var (X) =
43
ab
(a+b)2 (a+b+1)
Beispiele von Beta - Verteilungen
⇒
Falls a = b
symmetrische Verteilung
• a = b = 1, . . . Gleichverteilung
• a = b > 1, . . . Unimodal
• a = b < 1, . . . U - förmig
4
4
a=b=1
a=b=2
a=b=3
a=b=4
a=b=6
3.5
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
a=b=1
a=b=1/2
a=b=1/3
a=b=1/4
a=b=1/6
0
1
a = b ≥ 1,
0
0.1
0.2
0.3
0.4
0.5
0.6
a = b ≤ 1,
44
0.7
0.8
0.9
1
Weitere Beispiele von Beta - Verteilungen
b = 1.5
4
4
a=1
a=2
a=3
a=4
a=6
3.5
a≥1
3.5
3
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0
1
4
a ≤ 1,
0
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
3
2.5
2.5
2
2
1.5
1.5
1
1
0.5
0.5
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
b=1
b=1/2
b=1/3
b=1/4
b=1/6
3.5
3
0
0.1
4
b=1
b=2
b=3
b=4
b=6
3.5
b≥1
a=1
a=1/2
a=1/3
a=1/4
a=1/6
0
1
b≤1
0
a=2
45
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/13
4 Mehrdimensionale Verteilungen
1. Einführung
2. Unabhängige Zufallsvariablen
3. Kovarianz, Korrelation
4. Bedingte Verteilung
5. Bivariate Normalverteilung
1
4.1 Einführung
Wahrscheinlichkeitsrechnung mit mehr als einer Zufallsvariablen
zwei Zufallsvariablen . . . bivariat
zwei oder mehr ZV . . . multivariat
Konzepte:
• Gemeinsame Verteilungsfunktion
• rein diskret: Gemeinsame Wahrscheinlichkeitsfunktion
• rein stetig: Gemeinsame Dichte
2
Gemeinsame Verteilungsfunktion
Zunächst bivariat, Zufallsvariablen X und Y
Definiere die gemeinsame Verteilungsfunktion als
F (x, y) := P(X ≤ x, Y ≤ y),
−∞ < x, y < ∞
Bivariate Verteilung dadurch vollständig charakterisiert
P(x1<X≤x2 , y1<Y ≤y2 ) = F (x2 , y2 )−F (x1 , y2 )−F (x2 , y1 )+F (x1 , y1 )
für x1 < x2 und y1 < y2
Randverteilung:
Idee:
Analog
FX (x) := P(X ≤ x) = F (x, ∞)
P(X ≤ x) = P(X ≤ x, Y < ∞) = lim F (x, y)
y→∞
FY (y) := P(Y ≤ y) = F (∞, y)
3
Bivariate stetige Zufallsvariable
X und Y heißen gemeinsam stetig falls gemeinsame
Dichtefunktion existiert:
∂2
f (x, y) =
F (x, y)
∂x ∂y
Gemeinsame Verteilungsfunktion ergibt sich mittels Integration
∫b
∫a
F (a, b) =
f (x, y) dxdy
y=−∞ x=−∞
Erhalte Dichte der Randverteilung durch Integrieren über Y:
∫∞
fX (x) =
f (x, y) dy
y=−∞
Werden später speziell bivariate Normalverteilung besprechen
4
Beispiel: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [0, 1] × [0, 1]
⇒
Dichte
0 ≤ x, y ≤ 1.
f (x, y) = 1,
Gemeinsame Verteilungsfunktion
∫b ∫a
F (a, b) =
f (x, y) dxdy = a b,
0 ≤ a, b ≤ 1.
y=0 x=0
Dichte der Randverteilung:
∫∞
fX (x) =
f (x, y) dy = 1,
y=−∞
gibt Dichte der univariaten Gleichverteilung
5
0≤x≤1
Übung: Bivariate Gleichverteilung
X und Y bivariat gleichverteilt auf [−1, 1] × [−1, 1]
• Berechne die Wahrscheinlichkeit, dass max{|X|, |Y |} < 1/2.
• Berechne die Wahrscheinlichkeit, dass X 2 + Y 2 < 1.
Hinweis: Im Falle der bivariaten Gleichverteilung ist eine formale
Integration nicht wirklich notwendig. Berechnung von
Wahrscheinlichkeiten ergibt sich unmittelbar durch Vergleich von
Flächen.
6
Bivariate diskrete Zufallsvariable
X und Y beide diskret
Definiere die gemeinsame Wahrscheinlichkeitsfunktion
p(x, y) = P(X = x, Y = y)
Es gilt natürlich
p(x, y) = F (x, y) − F (x− , y) − F (x, y − ) + F (x− , y − )
Erhalte Wahrscheinlichkeitsfunktion von X durch Summieren
über Y:
∑
pX (x) = P(X = x) =
p(x, y)
y∈Y
7
Beispiel
Urne mit 3 roten, 4 weißen und 5 blauen Bällen;
ziehe zufällig 3 Bälle ohne Zurücklegen
X . . . Anzahl der roten gezogenen Kugeln
Y . . . Anzahl der weißen gezogenen Kugeln
z. Bsp.:
(3)(4)(5) (12)
p(0, 1) = P(0R, 1W, 2B) = 0 1 2 / 3 = 40/220
j
i
0
1
2
3
pX
0
10/220
40/220
30/220
4/220
84/220
1
30/220
60/220
18/220
0
108/220
2
15/220
12/220
0
0
27/220
3
1/220
0
0
0
1/220
pY
56/220
112/220
48/220
4/220
220/220
8
Multivariate Zufallsvariablen
Mehr als zwei Zuvallsvariablen
Gemeinsame Verteilungsfunktion für n Zufallsvariablen
F (x1 , . . . , xn ) = P(X1 ≤ x1 , . . . , Xn ≤ xn )
Diskret: Gemeinsame Wahrscheinlichkeitsfunktion:
p(x1 , . . . , xn ) = P(X1 = x1 , . . . , Xn = xn )
Randverteilung wiederum durch Summieren über alle
Komponenten, die gerade nicht von Interesse, z. Bsp.
∑
∑
pX1 (x1 ) =
···
p(x1 , . . . , xn )
x2 ∈X2
xn ∈Xn
9
Multinomialverteilung
Eine der wichtigsten multivariaten diskreten Verteilungen
n unabhängige Experimente mit r möglichen Ausgängen mit
Wahrscheinlichkeiten p1 , . . . , pr
Sei Xi die Anzahl der Experimente mit Ausgang i, dann gilt
P(X1 = n1 , . . . , Xr = nr ) =
falls
∑r
i=1
n!
n1 !···nr !
pn1 1 · · · pnr r
ni = n.
Verallgemeinerung der Binomialverteilung (r = 2)
Übung: Werfe 5 Würfel,
Wahrscheinlichkeit für Strasse, Poker, bzw. Full House
10
4.2 Unabhängige Zufallsvariablen
Zwei Zufallsvariablen X und Y heißen unabhängig falls für alle
Ereignisse A und B gilt
P(X ∈ A, Y ∈ B) = P(X ∈ A)P(Y ∈ B)
Information über den Wert von X ändert nicht die Verteilung von Y
X und Y genau dann unabhängig falls
P(X ≤ a, Y ≤ b) = P(X ≤ a)P(Y ≤ b)
d.h. F (a, b) = FX (a) FY (b) für alle a, b.
Ebenfalls äquivalent zu f (x, y) = fX (x) fY (y) im stetigen Fall und
zu p(x, y) = pX (x) pY (y) im diskreten Fall für alle x, y
11
Einfaches Beispiel
Seien X und Y unabhängig
X = {0, 1},
P (X = 0) = 1/3, P (X = 1) = 2/3
Y = {−1, 0, 1},
P (Y = −1) = P (Y = 1) = 1/4, P (Y = 0) = 1/2
Die gemeinsame Wahrscheinlichkeitsfunktion lautet:
j
i
−1
0
1
pX
0
1/12
1/6
1/12
1/3
1
2/12
2/6
2/12
2/3
pY
1/4
1/2
1/4
1
Beachte, dass sowohl die Spalten als auch die Zeilen jeweils
proportional zueinander sind ⇒ Unabhängigkeit
12
Stetiges Beispiel: Gleichverteilung
Seien X und Y unabhängig, jeweils gleichverteilt auf [0, 1].
d.h. fX (x) = 1 für 0 ≤ x ≤ 1,
fY (y) = 1 für 0 ≤ y ≤ 1,
Dann offensichtlich X und Y bivariat gleichverteilt auf [0, 1] × [0, 1]
Umkehrung
X und Y bivariat gleichverteilt auf [0, 1] × [0, 1]
⇒
Dichte
0 ≤ x, y ≤ 1.
f (x, y) = 1,
Berechne die Randdichten fX (x) und fY (y)
Es folgt unmittelbar, dass X und Y jeweils gleichverteilt auf [0, 1],
und auch dass die beiden unabhängig sind
Bemerkung: Unabhängigkeit gilt für Gleichverteilung auf
Rechtecken, nicht jedoch für allgemeinere Bereiche.
13
Beispiel: Zwei Würfel
X, Y . . . gleichverteilt auf {1, . . . , 6}
Aufgrund der Unabhängigkeit gilt p(x, y) = pX (x) pY (y) =
1
36
Verteilungsfunktion:
FX (x) = FY (x) = ⌊x⌋/6, falls 0 < x < 7
F (x, y) = FX (x)FY (y) =
⌊x⌋·⌊y⌋
36
Welche Verteilung hat X + Y ?
P (X + Y = 2) = p(1, 1) = 1/36
P (X + Y = 3) = p(1, 2) + p(2, 1) = 2/36
P (X + Y = 4) = p(1, 3) + p(2, 2) + p(3, 1) = 3/36
P (X + Y = k) = p(1, k − 1) + p(2, k − 2) + · · · + p(k − 1, 1)
14
Summe von unabhängigen Verteilungen
Summe von Zufallsvariablen selbst wieder eine ZV
Berechnung der Verteilung mittels Faltung
Stetige Verteilungen:
∫∞
fX (x − y)fY (y)dy
fX+Y (x) =
y=−∞
Diskrete Verteilungen:
∑
P(X + Y = k) =
pX (x)pY (y)
x+y=k
Übung: X1 ∼ P(λ1 ), X2 ∼ P(λ2 ) unabhängig
⇒
X1 + X2 ∼ P(λ1 + λ2 )
15
Beispiel (Umkehrung)
Z ∼ P(λ) . . . Anzahl der Tippfehler pro Seite eines Manuskripts
Lektor findet p Prozent der Fehler
X . . . Anzahl der gefundenen Fehler
Y . . . Anzahl der nicht gefundenen Fehler
Es gilt: X, Y unabhängig poissonverteilt mit Parameter pλ bzw. qλ
Lösung:
P(X = i, Y = j) = P(X = i, Y = j|X + Y = i + j)P(X + Y = i + j)
Per Definitionem:
(i+j ) i j
P(X = i, Y = j|X + Y = i + j) = i p q
P(X + Y = i + j) =
−λ λi+j
e (i+j)!
Liefert insgesamt:
i
−λ (λp)
j
−λp
P(X = i, Y = j) = e
(λq)
=
e
i!j!
16
(λp)i
i!
j
−λq (λq)
e
j!
Beispiel für Faltung: stetiger Fall
X, Y unabhängig, gleichverteilt auf [0, 1]
i.e. f (x, y) = 1, (x, y) ∈ [0, 1] × [0, 1]
fX (x) = 1, 0 ≤ x ≤ 1, fY (y) = 1, 0 ≤ y ≤ 1
Berechnung der Dichte Z := X + Y
∫∞
fX (x − y)fY (y)dy
fZ (x) =
y=−∞




=



∫x
dy = x,
y=0
∫1
dy = 2 − x,
0<x≤1
1<x≤2
y=x−1
Grund: fY (y) = 1 für 0 ≤ y ≤ 1
fX (x − y) = 1 für 0 ≤ x − y ≤ 1
⇔
17
y ≤x≤y+1
Additionstheorem für Γ-Verteilung
X, Y unabhängig, Γ−verteilt mit Parametern t1 , t2 und gleichem λ
fX (x) =
λe−λx (λx)t1 −1
, fY
Γ(t1 )
(y) =
λe−λy (λy)t2 −1
,
Γ(t2 )
x, y ≥ 0,
∫∞
fX (x − y)fY (y)dy
fZ (x) =
y=−∞
∫x
=
λe−λ(x−y) (λ(x − y))t1 −1 λe−λy (λy)t2 −1
dy
Γ(t1 )
Γ(t2 )
y=0
t1 +t2 −λx
∫x
λ
e
=
(x − y)t1 −1 y t2 −1 dy
Γ(t1 )Γ(t2 )
y=0
y = xz λe−λx (λx)t1 +t2 −1
= =
dy = xdz Γ(t1 + t2 )
18
Erwartungswert für bivariate ZV, diskret
X und Y diskret mit gemeinsamer Wahrscheinlichkeitsfunktion
Wie im eindimensionalen gilt:
E(g(X, Y )) =
∑ ∑
g(x, y)p(x, y)
x∈X y∈Y
Übung:
Seien X und Y die Augenzahlen von zwei fairen Würfeln
(unabhängig)
Berechne den Erwartungswert der Differenz |X − Y |
19
Erwartungswert für bivariate ZV, stetig
X und Y stetig mit gemeinsamer Dichte f (x, y)
Wie im eindimensionalen gilt:
E(g(X, Y )) =
∫∞
∫∞
g(x, y)f (x, y) dx dy
y=−∞ x=−∞
Übung (optional):
Unfall auf einer Straße der Länge L, Unfallort X und Position Y
eines Krankenwagens unabhängig gleichverteilt
Berechne den Erwartungswert vom Abstand |X − Y | zwischen
Unfallort und Krankenwagen
20
Erwartungswert der Summe zweier ZV
X und Y stetig mit gemeinsamer Dichte f (X, Y )
Mit g(x, y) = x + y folgt
∫∞
E(X + Y ) =
∫∞
(x + y)f (x, y) dx dy = E(X) + E(Y )
y=−∞ x=−∞
Geht genau so für den diskreten Fall:
E(X + Y ) =
∑ ∑
(x + y)p(x, y) dx dy = E(X) + E(Y )
x∈X y∈Y
ACHTUNG: Additivität für Varianzen im allgemeinen nicht richtig!
21
4.3 Kovarianz und Korrelation
Maßzahlen für die Beziehung zwischen zwei Zufallsvariablen
Definition Kovarianz:
Cov (X, Y ) = E[(X − E(X))(Y − E(Y ))]
Man schreibt mitunter σXY := Cov (X, Y )
Es gilt ähnlich wie für die Varianz
σXY = E(XY ) − E(X)E(Y )
Definition Korrelation:
ρ(X, Y ) :=
22
σXY
σX σY
Beispiel Korrelation
3
2
1.5
2
1
0.5
1
0
ρ = 0.9
ρ = −0.6
−0.5
0
−1
−1
−1.5
−2
−2
−2.5
−3
−4
−3
−2
−1
0
1
2
−3
−3
3
3
−2
−1
0
1
2
3
4
3
2
2
1
1
ρ = 0.3
ρ = 0.0
0
0
−1
−1
−2
−3
−3
−2
−2
−1
0
1
2
3
23
−3
−3
−2
−1
0
1
2
3
4
Beispiel Kovarianz
Diskrete bivariate Verteilung (X = Y = {0, 1, 2, 3}) mit
j
i
0
1
2
3
pX
0
1/20
4/20
3/20
2/20
10/20
1
3/20
2/20
2/20
0
7/20
2
1/20
1/20
0
0
2/20
3
1/20
0
0
0
1/20
pY
6/20
7/20
5/20
2/20
20/20
Berechne Cov (X, Y )
Lösung: Cov (X, Y ) = E(XY ) − E(X)E(Y ) =
24
8
20
−
14
20
·
23
20
= − 162
400
Kovarianz für unabhängige ZV
X und Y unabhängig
⇒
σXY = 0
folgt unmittelbar aus σXY = E(XY ) − E(X)E(Y )
∫∫
∫
∫
und E(XY ) =
xyf (x, y) = xf (x) yf (y)
Umkehrung ist falsch:

 0, X ̸= 0
X gleichverteilt auf {−1, 0, 1} und Y =
 1, X = 0
E(X) = 0
XY = 0 ⇒
E(XY ) = 0
daher Cov (X, Y ) = 0, obwohl X und Y nicht unabhängig:
z.Bsp. P(X = 1, Y = 0) = P(X = 1) = 1/3, P(Y = 0) = 2/3
25
Eigenschaften der Kovarianz
Offensichtlich gilt
Cov (X, Y ) = Cov (Y, X),
und
Cov (X, X) = Var (X)
Die Kovarianz ist eine Bilinearform:
Cov (aX, Y ) = a Cov (X, Y ),
und
a∈R


n
m
n ∑
m
∑
∑
∑
Cov 
Xi ,
Yj  =
Cov (Xi , Yj )
i=1
j=1
i=1 j=1
Beweis durch ausrechnen . . .
26
Varianz von Summen
Aufgrund der zuvor gezeigten Eigenschaften gilt
( n
)
n ∑
n
∑
∑
Var
Xi
=
Cov (Xi , Xj )
i=1
i=1 j=1
n
∑
=
Var (Xi ) +
n ∑
∑
i=1
Extremfälle:
• unabhängige ZV:
i=1 j̸=i
(
Var
)
n
∑
Xi
(
Var
Var (Xi )
i=1
n
∑
i=1
27
n
∑
=
i=1
• X1 = X2 = · · · = Xn :
Cov (Xi , Xj )
)
Xi
= n2 Var (X1 )
Korrelation
Definition:
ρ(X, Y ) :=
σXY
σX σY
Es gilt:
−1 ≤ ρ(X, Y ) ≤ 1
Beweis:
0 ≤
(
Var
Y
X
+
σX
σY
)
=
Var (X) Var (Y ) 2Cov (X, Y )
+
+
2
2
σX
σY
σX σY
=
Var (X) Var (Y ) 2Cov (X, Y )
+
−
2
2
σX
σY
σX σY
= 2[1 + ρ(X, Y )]
(
0 ≤
Var
X
Y
−
σX
σY
)
= 2[1 − ρ(X, Y )]
28
Übung Korrelation
Seien X und Y unabhängig gleichverteilt auf [0, 1]
Berechne die Korrelation zwischen X und Z für
1. Z = X + Y
2. Z = X 2 + Y 2
3. Z = (X + Y )2
29
4.4 Bedingte Verteilungen
Bedingte Wahrscheinlichkeit für zwei Ereignisse A und B:
P(AB)
P(A|B) =
P(B)
Entsprechende Definitionen für Zufallsvariablen X und Y
Diskret:
pX|Y (x|y) := P(X = x|Y = y) =
p(x,y)
pY (y)
Übung: Gegeben p(x, y) durch
p(0, 0) = 0.4,
p(0, 1) = 0.2,
p(1, 0) = 0.1,
p(1, 1) = 0.3,
Berechne bedingte Wahrscheinlichkeitsfunktion von X wenn Y = 1
30
Diskrete bedingte Verteilungen
Bedingte Verteilungsfunktion:
FX|Y (x|y) := P(X ≤ x|Y = y) =
∑
pX|Y (k|y)
k≤x
Sind X und Y unabhängig so gilt pX|Y (x|y) = pX (x)
Beweis: Nachrechnen
Beispiel: Seien X ∼ P(λ1 ) und Y ∼ P(λ2 ) unabhängig.
Berechne bedingte Verteilung von X, wenn X + Y = n
P(X = k|X + Y = n) =
X + Y ∼ P(λ1 + λ2 )
P(X=k)P(Y =n−k)
,
P(X+Y =n)
⇒
(
1
X|(X + Y = n) ∼ B n, λ1λ+λ
2
31
)
Stetige bedingte Verteilungen
Stetig:
fX|Y (x|y) :=
f (x,y)
fY (y)
für fY (y) > 0
Definition im stetigen Fall läßt sich über diskreten Fall motivieren
(Wahrscheinlichkeiten für kleine Umgebungen von x und y)
Berechne damit bedingte Wahrscheinlichkeiten:
∫
P(X ∈ A|Y = y) = fX|Y (x|y) dx
A
Bedingte Verteilungsfunktion:
∫a
FX|Y (a|y) := P(X ∈ (−∞, a)|Y = y) =
fX|Y (x|y) dx
x=−∞
32
Beispiel
Gemeinsame Dichte von X und Y gegeben durch

 c x(2 − x − y), x ∈ [0, 1], y ∈ [0, 1],
f (x, y) =

0, sonst.
Berechne fX|Y (x|y) und die P(X < 1/2|Y = 1/3)
Lösung:
fY (y) = c
∫1
x=0
fX|Y (x|y) =
x(2 − x − y) dx = c( 23 − y2 )
f (x,y)
fY (y)
=
x(2−x−y)
y
2
3−2
P(X < 1/2|Y = 1/3) =
1/2
∫
x=0
=
6x(2−x−y)
4−3y
6x(2−x−1/3)
dx
4−3/3
33
= · · · = 1/3
Bedingter Erwartungswert
Berechnung mittels bedingter Wahrscheinlichkeitsfunktion bzw.
bedingter Dichte
∫∞
E(X|Y = y) =
xfX|Y (x|y)dx
x=−∞
Beispiel: Fortsetzung
∫1
E(X|Y = y) =
x=0
Speziell
E(X|Y = 1/3) =
6x2 (2 − x − y)
5/2 − 2y
dx =
4 − 3y
4 − 3y
11
18
34
Erwartungswert durch Konditionierung
E(X|Y = y) ist eine Funktion von y,
kann somit als Zufallsvariable in y betrachtet werden
Es gilt:
E(X) = E(E(X|Y ))
Beweis:
E(E(X|Y ))
∫∞
=
E(X|Y = y)fY (y) dy
y=−∞
∫∞
∫∞
=
xfX|Y =y (x)fY (y) dx dy
y=−∞ x=−∞
∫∞
∫∞
f (x, y)
x
fY (y) dx dy = E(X)
fY (y)
=
y=−∞ x=−∞
Übung: Verifiziere die Formel für obiges Beispiel
35
Bedingte Varianz
Formeln für den diskreten Fall (mit bedingter WF):
∑
E(X|Y = y) =
xpX|Y (x|y)
x∈X
Var (X|Y = y)
=
∑
(x − E(X|Y = y))2 pX|Y (x|y)
x∈X
Übung: Berechne Erwartungswert und Varianz von X wenn Y = j
j
i
0
1
2
3
pX
0
1/20
4/20
3/20
2/20
10/20
1
3/20
2/20
2/20
0
7/20
2
1/20
1/20
0
0
2/20
3
1/20
0
0
0
1/20
pY
6/20
7/20
5/20
2/20
20/20
36
Varianz mittels Konditionierung
Var (X) = E(Var (X|Y )) + Var (E(X|Y ))
Beweis: Wegen
Var (X|Y ) = E(X 2 |Y ) − (E(X|Y ))2
gilt
E(Var (X|Y )) = E(E(X 2 |Y ))−E((E(X|Y ))2 ) = E(X 2 )−E(E(X|Y )2 )
Andererseits
Var (E(X|Y )) = E(E(X|Y )2 )−(E(E(X|Y )))2 = E(E(X|Y )2 )−E(X)2
Die Summe beider Ausdrücke liefert das Resultat
Formel wesentlich für die Theorie der linearen Regression!
37
4.5 Bivariate Normalverteilung
Univariate Normalverteilung:
Standardnormalverteilung:
f (x) =
ϕ(x) =
√ 1
2π σ
√1
2π
e−x
e
2
−(x−µ)2 /2σ 2
/2
X1 und X2 unabhängig, jeweils normalverteilt N (µi , σi2 ), i = 1, 2
⇒
f (x1 , x2 ) =
=
wobei
x=
(x1 )
x2
, µ=
1
−(x1 −µ1 )2 /2σ12 −(x2 −µ2 )2 /2σ22
e
2π σ1 σ2
1
−(x−µ)T Σ−1 (x−µ)/2
e
1/2
2π |Σ|
(µ1 )
µ2
, Σ=
(σ 2
38
1
0
0)
σ22
Dichtefunktion allgemein (Vektorform)
X = (X1 , X2 ) normalverteilt falls gemeinsame Dichtefunktion
f (x) =
1
2π |Σ|1/2
e−(x−µ)

Σ=
Kovarianzmatrix:
Notation:
ρ :=
T
Σ−1 (x−µ)/2

σ12
σ12
σ12
σ22

σ12
σ1 σ2
2
• |Σ| = σ12 σ22 − σ12
= σ12 σ22 (1 − ρ2 )

• Σ
−1
=
1
2
2
σ1 σ2 (1−ρ2 )

σ22
−ρσ1 σ2
−ρσ1 σ2
σ12
39


Bivariate Normalverteilung
X und Y jeweils standardnormalverteilt N (0, 1), ρ = 0:
0.2
0.15
0.1
0.05
0
2
1
2
1
0
0
−1
−1
−2
−2
40
Beispiel bivariate Normalverteilungen
s2 = 1, s2 = 1, ρ = 0
x
s2 = 1, s2 = 1, ρ = 0.5
x
y
2
2
1.5
1.5
1
1
0.5
0.5
0
0
−0.5
−0.5
−1
−1
−1.5
−1.5
−2
−2
−1.5
−1
−0.5
0
0.5
1
1.5
−2
−2
2
−1.5
s2 = 4, s2 = 1/4, ρ = 0
x
x
2
1.5
1.5
1
1
0.5
0.5
0
0
−0.5
−0.5
−1
−1
−1.5
−1.5
−1.5
−1
−0.5
0
0.5
−0.5
0
0.5
1
1.5
2
1.5
2
s2 = 4, s2 = 1/4, ρ = −0.5
y
2
−2
−2
−1
y
1
1.5
−2
−2
2
41
−1.5
−1
y
−0.5
0
0.5
1
Beispiel Dichtefunktion
(X, Y ) bivariat normalverteilt mit µi = 0, σi = 1 (i = 1, 2) und
ρ = 1/2
Berechne die gemeinsame Dichte!
(0)
( 1 1/2)
Lösung: µ = 0 , Σ = 1/2 1
( 1 −1/2)
4
−1
|Σ| = 1 − 1/4 = 3/4,
Σ = 3 −1/2 1
( ) 2
( 2x−y ) 4 2
−1 x
2
(x, y)Σ
y = 3 (x, y) −x+2y = 3 (x − xy + y )
1
− 23 (x2 −xy+y 2 )
f (x, y) = √
e
3π
Äquivalente Darstellung:
(y−x/2)2
1 − 1 x2
1
−
f (x, y) = √ e 2 √
e 2·3/4
2π
2π 3/4
42
Beispiel Fortsezung
(y−x/2)2
1 − 1 x2
1
−
f (x, y) = √ e 2 √
e 2·3/4
2π
2π 3/4
Gemeinsame Dichte ist Produkt der Dichte von
Standardnormalverteilung (in x) und Normalverteilung (in y) mit
Mittelwert x/2 und Varianz 3/4.
Berechne Dichte von X:
1 − 1 x2
fX (x) = √ e 2
2π
∫∞
y=−∞
1
√
e
2π 3/4
−
(y−x/2)2
2·3/4
1 − 1 x2
dy = √ e 2
2π
fX (x) ist Dichte von Standardnormalverteilung
Integral ergibt 1, weil wir über eine Dichte integrieren!
43
Dichtefunktion allgemein
Von der Formel in Vektorform erhalten wir
{ 2
}
2
z
−2ρz
z
+z
1 2
1√
1
2
f (x1 , x2 ) =
exp
−
2
2(1−ρ )
2
2πσ1 σ2
wobei
z1 =
x1 −µ1
σ1
und
1−ρ
z2 =
x2 −µ2
σ2
(vgl. Normalisierung)
Notation deutet darauf hin, dass µi und σi2 jeweils Erwartungswert
und Varianz von Xi , den beiden Randverteilungen,
und dass ρ die Korrelation zwischen X1 und X2
Es gilt:
f (x1 , x2 ) =
√ 1
2πσ1
e
z2
− 21
·√
1
2π(1−ρ2 )σ2
e
−
(ρz1 −z2 )2
2(1−ρ2 )
Ergänzung auf vollständiges Quadrat im Exponenten
44
Bedeutung von µi , σi2 und ρ
Allgemein gilt für bivariate Normalverteilung
1. X1 ∼ N (µ1 , σ12 ) und X2 ∼ N (µ2 , σ22 )
2. Korrelationskoeffizient
ρ(X1 , X2 ) =
σ12
σ1 σ2
Beweis:
1.Bilde vollst. Quadrat im Exponenten und integriere:
1
fX1 (x1 )= √
e
2πσ1
1
=√
e
2πσ1
2
z1
− 2
∫∞
x2 =−∞
z2
− 21
∫∞
s=−∞
1
√
e
2
2π(1 − ρ )σ2
(
1
√
e−
2π
√
ρz1
1−ρ2
2
−
(ρz1 −z2 )2
2(1−ρ2 )
dx2
)2
−s
z2
1
− 21
e
ds = √
2πσ1
√
√
2
mit Substitution s ← z2 / 1 − ρ = (x2 − µ2 )/( 1 − ρ2 σ2 )
45
Fortsetzung Beweis
2. Wiederum Formel mit vollst. Quadrat und Substitution
z1 ← (x1 − µ1 )/σ1 , z2 ← (x2 − µ2 )/σ2 :
∫∞
∫∞
(x1 − µ1 )(x2 − µ2 )f (x1 , x2 ) dx2 dx1
Cov (X1 , X2 ) =
x1 =−∞ x2 =−∞
∫∞
x1 − µ1
√
e
2πσ1
=
x1 =−∞
∫
=
∫
z1 ϕ(z1 )
z1
= σ1 σ2
z2
∫
z2
− 21
∫∞
x2 − µ2
−
(ρz1 −z2 )2
2(1−ρ2 )
√
e
2
2π(1 − ρ )σ2
x2 =−∞
(
)
z
ρz1 − z2
√ 2
ϕ √
σ2 dz2 σ1 dz1
2
2
1−ρ
1−ρ
z1 ϕ(z1 )ρz1 dz1 = σ1 σ2 ρ = σ12
z1
46
dx2 dx1
Bedingte Verteilung
Interpretation für die Formel
f (x1 , x2 ) =
√ 1
2πσ1
z2
− 21
e
·√
1
2π(1−ρ2 )σ2
e
−
(ρz1 −z2 )2
2(1−ρ2 )
f (x1 , x2 ) = f1 (x1 )f2|1 (x2 |x1 )
Aus
(ρz1 −z2 )2
(1−ρ2 )
=
(µ2 +σ2 ρz1 −x2 )2
σ22 (1−ρ2 )
folgt:
Bedingte Verteilung ist wieder normalverteilt mit
µ2|1 = µ2 + ρ(x1 − µ1 ) σσ21 , σ2|1 = σ22 (1 − ρ2 )
ρ = 0 ⇒ Unabhängigkeit
Für bivariate Normalverteilung:
Ist im allgemeinen nicht richtig!
47
Summe von bivariat normalverteilten ZV
Sei X1 , X2 bivariat normal mit µ1 , µ2 , σ12 , σ22 , σ12
Dann ist Z = X1 + X2 wieder normalverteilt, mit
X1 + X2 ∼ N (µ1 + µ2 , σ12 + σ22 + 2σ12 )
Beweis: Für die Dichte der Summe gilt
∫∞
f (z − x2 , x2 ) dx2
fZ (z) =
x2 =−∞
Man erhält das Resultat wieder durch Vervollständigung des
Quadrats im Exponenten (etwas längere Rechnung)
Intuition: Mittelwert und Varianz von Z entsprechen der
allgemeinen Formel!
48
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/13
5 Verteilungen von
Stichprobenkennzahlen
1. Stichprobe
2. χ2 - Verteilung
3. t-Verteilung
4. F -Verteilung
1
5.1 Stichprobe
X1 , . . . , Xn unabhängige ZV
P (X1 ∈ A1 , . . . , Xn ∈ An ) = P (X1 ∈ A1 ) · · · P (Xn ∈ An )
für jede beliebige Wahl von Ereignissen A1 , . . . An .
Stichprobe . . . n unabhängige Zufallsvariablen, die alle gleich
verteilt sind
Englisch: identically independently distributed (i.i.d)
Beispiel: Binomialverteilung B(n, p) erhalte ich als Summe von n
unabhängigen Bernoulli-Variablen
X=
n
∑
i=1
wobei Xi ∼ B(1, p) i.i.d.
2
Xi
Mittelwert von Stichproben
X1 , . . . , Xn i.i.d. wie X,
n
∑
1
Definition: X̄ := n
Xi
i=1
Mit E(X) = µ und Var (X) = σ 2 gilt:
( )
E X̄ = µ,
Var (X̄) =
σ2
n
Beweis:
( n
)
n
∑
∑
E
Xi =
E(Xi )
i=1
(
Var
n
∑
i=1
)
Xi
i=1
=
n
∑
Var (Xi )
i=1
Letzte Gleichung wegen Unabhängigkeit der Beobachtungen
3
Normalverteilte Stichproben
X1 , . . . , Xn i.i.d. N (µ, σ 2 )
⇒
X̄ ∼ N (µ, σ 2 /n)
Zentraler Grenzwertsatz: Selbst für nicht normalverteilte
Stichprobe X1 , . . . , Xn ist X̄ für große n näherungsweise
normalverteilt (Siehe Kapitel 6)
Beispiel: Gewicht X von Brotlaib einer Bäckerei hat im Mittel 1kg
bei einer Varianz von 0.1 kg, Annahme das Gewicht ist
normalverteilt.
Stichprobe von 10 Broten, welche Verteilung hat X̄?
Mit welcher Wahrscheinlichkeit liegt X̄ zwischen 0.95 und 1.05?
2
2
= σX
/10 = 0.01
σX̄
⇒
P (0.95 ≤ X̄ ≤ 1.05) = Φ
X̄ ∼ N (1, 0.01)
( 1.05−1 )
0.1
−Φ
4
( 0.95−1 )
0.1
= 2Φ(0.5)−1 = 0.383
5.2 χ2 - Verteilung
Motivation: Gegeben Stichprobe X1 , . . . , Xn i.i.d.
X̄ kann verwendet werden, um unbekanntes µ zu schätzen.
Typische andere statistische Fragestellungen:
Wie kann ich unbekanntes σ schätzen?
Möglicher Zugang:
σ 2 = E(X − µ)2
Somit könnten Quadratsummen der Stichprobe interessant sein:
• µ bekannt:
n
∑
(Xi − µ)2
i=1
• µ unbekannt:
n
∑
(Xi − X̄)2
i=1
Welche Verteilung haben diese Quadratsummen?
5
Mittelwerte von Quadratsummen
X1 , . . . , Xn i.i.d. wie X, E(X) = µ, Var (X) = σ 2
Es gilt:
(
E
n
∑
)
(Xi − µ)2
= nσ 2
i=1
Beweis: Vertausche Summe und Erwartungswert
Weiters gilt:
(
E
n
∑
)
(Xi − X̄)2
i=1
Beweis: Übung
6
= (n − 1)σ 2
Verteilung von Z 2
Erinnerung:
X ∼ Γ(t, λ) . . .
f (x) =
λe−λx (λx)t−1
,
Γ(t)
für x ≥ 0
Es gilt:
Z ∼ N (0, 1)
⇒
Y = Z 2 ∼ Γ( 21 , 12 )
In Worten: Das Quadrat einer standardnormalverteilten
Zufallsvariable ist Γ-verteilt mit Parametern t = 1/2 und λ = 1/2.
Beweis:
⇒
√
√
√
√
P (Y ≤ y) = P (− y ≤ Z ≤ y) = Φ( y) − Φ(− y)
fY (y) =
=
1
1
√
√
√ 1
φ( y) √ + φ(− y) √ = φ( y) √
2 y
2 y
y
1
√
e−y/2 =
2πy
7
1 − y2 y 12 −1
(2)
2e
,
Γ( 12 )
√
1
weil Γ( ) = π.
2
Additionstheorem für Γ−Verteilung
Y1 , . . . , Yn unabhängig, Γ(ti , λ), mit beliebigen ti
λe−λy (λy)ti −1
d.h. fYi (y) =
,
Γ(ti )
dann S :=
n
∑
für y ≥ 0
Yi auch Γ−verteilt, nämlich S ∼ Γ(
n
∑
ti , λ)
i=1
i=1
λe−λs (λs)T −1
d.h. fS (s) =
,
Γ(T )
für s ≥ 0,
mit T :=
n
∑
ti
i=1
Beweis: Iteratives Anwenden der Faltungsformel für die
Γ−Verteilung (vgl. Beispiel im Kapitel 4)
Bemerkung: Vergleiche Additionstheorem für Xi ∼ N (µi , σi2 ) i.i.d.
8
Definition der χ2 - Verteilung
Man bezeichnet Y ∼ Γ( n2 , 12 ) als χ2 -verteilt mit n Freiheitsgraden
Notation: Y ∼ χ2n
0.8
0.7
df=1
df=2
df=3
df=4
df=6
0.6
0.5
0.4
0.3
0.2
0.1
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Dichte der χ2 -Verteilung für verschiedene Freiheitsgrade
9
Verteilung der Quadratsumme, bekanntes µ
Wir haben gesehen: Z ∼ N (0, 1)
⇒
Z 2 ∼ Γ( 12 , 12 ) = χ21
Aus dem Additionstheorem folgt unmittelbar:
Zi ∼ N (0, 1) i.i.d
⇒
Y :=
n
∑
i=1
Zi2 ∼ χ2n
Damit können wir unsere erste Frage beantworten:
Für eine Stichprobe der Größe n von normalverteilten
Zufallsvariablen Xi ∼ N (µ, σ 2 ) gilt:
n
∑
i=1
(Xi − µ) = σ
2
2
n
∑
i=1
10
(Xi −µ)2
σ2
∼ σ 2 χ2n
Verteilung der Quadratsumme, unbekanntes µ
Wenn wir µ durch X̄ ersetzen so gilt (ohne Beweis):
n
∑
(Xi − X̄)2 ∼ σ 2 χ2n−1
i=1
Es gilt:
Y ∼ χ2n−1
⇒
E(Y ) = n − 1
Daher üblicher Schätzer für die Varianz
2
S :=
1
n−1
n
∑
(Xi − X̄)2
i=1
Interpretation für den Begriff Freiheitsgrad:
• µ bekannt: Alle Xi zur Schätzung von σ 2 unabhängig
⇒
daher n Freiheitsgrade
• µ unbekannt: Ein Parameter wird aus den Daten geschätzt
⇒
daher n − 1 Freiheitsgrade
11
5.3 t - Verteilung
Motivation:
1. Standardisierung für X ∼ N (µ, σ 2 ):
Z=
X−µ
σ
2. Für Stichprobe X1 , . . . , Xn i.i.d. wie X,
X̄−µ
√
σ/ n
Standardisierung für X̄:
2
1
n−1
2
3. Ersetze σ durch S =
n
∑
(Xi − X̄)2
i=1
d.h. wir interessieren uns für
Es gilt:
T =
√
n
1
n
√
1
n−1
n
∑
i=1
n
∑
T :=
√
n
X̄−µ
S
Zi
i=1
1
(Zi − n
n
∑
j=1
Beweis: Nachrechnen
12
wobei
Zj )2
Zi =
Xi −µ
σ
Eigenschaften der T -Statistik
√
T = n−1
√
√1
n
n
∑
i=1
n
∑
Zi
i=1
1
(Zi − n
n
∑
wobei
Zi = N (0, 1)
Zj ) 2
j=1
Wir wissen bereits:
n
∑
1
Zi ∼ N (0, 1),
Z := √n
i=1
Y :=
n
∑
(Zi −
i=1
1
n
n
∑
Zj )2 ∼ χ2n−1
j=1
Somit insgesamt
√
T =
n(X̄−µ)
S
√
= n−1
√Z
Y
Zusätzlich gilt (ohne Beweis):
X̄ und S 2 sind unabhängige ZV, (daher auch Z und Y )
13
Definition der t-Verteilung
Seien Z ∼ N (0, 1), Y ∼ χ2n unabhängig, dann heißt
√ Z
T := n √Y
Student- oder t-verteilt mit n Freiheitsgraden
Dichte der t-Verteilung für verschiedene Freiheitsgrade
0.45
t=1
t=2
t=3
t=4
t=6
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
−3
−2
−1
0
1
Für n groß nahezu standardnormalverteilt
14
2
3
5.4 F - Verteilung
Motivation:
Häufig in der Statistik von Interesse: Vergleich von Varianzen.
Eine Möglichkeit → betrachte Quotienten σ12 /σ22
(1)
(1)
Zum Beispiel zwei Gruppen, Stichproben X1 , . . . , Xn1 bzw.
(2)
(2)
X1 , . . . , Xn2 .
Seien Ỹ1 und Ỹ2 die jeweiligen Quadratsummen der Stichproben,
sodass Ỹj = σj2 Yj mit Yj ∼ χ2nj −1 (j = 1, 2).
Für Schätzer von
σj2
gilt
Sj2
=
Ỹj
nj −1
=
σj2 Yj
nj −1 .
Falls σ1 = σ2 (“Nullhypothese”), gilt also für den Quotienten der
Schätzer
S12
Y1 /(n1 − 1)
=
S22
Y2 /(n2 − 1)
15
Definition der F -Verteilung
Y1 ∼ χ2n1 , Y2 ∼ χ2n2 unabhängig, dann heißt
Q :=
Y1 /n1
Y2 /n2
F -verteilt mit n1 und n2 Freiheitsgraden
Dichte der F -Verteilung für verschiedene n1 und für n2 = 25
1.5
n1=1
n =2
1
n =3
1
n1=4
n1=6
1
0.5
0
0
0.5
1
1.5
16
2
2.5
Eigenschaften der F - Verteilung
Sei Q ∼ F(n1 , n2 ) F -verteilt mit Freiheitsgraden n1 , n2 .
Dichte der F -Verteilung etwas kompliziert
•
µF (n1 ,n2 ) =
n2
n2 −2
Beweis als Übung.
•
1
Q
∼ F(n2 , n1 )
folgt unmittelbar aus Definition
• Sei T Student-verteilt mit n Freiheitsgraden:
T 2 ∼ F(1, n)
√ Z
aus der Darstellung T = n √Y , wobei Z ∼ N (0, 1), Y ∼ χ2n
folgt
2
T =
Z 2 /1
Y /n
wobei
Z 2 ∼ χ21
17
Quantile
In der Praxis werden sehr häufig die Quantile der χ2 -,t- und
F -Verteilung benötigt
Nicht elementar berechenbar
⇒
Tabellen (oder Computer)
Zu beachten:
• t-Verteilung mit unendlich vielen Freiheitsgraden entspricht
Normalverteilung
• γp (n1 , n2 ) sei p-Quantil von F(n1 , n2 ), dann gilt:
γp (n1 , n2 ) =
Beweis: p = P (Q ≤ γp (n1 , n2 ))
1
γ1−p (n2 ,n1 )
wobei
Q=
1 − p = P (Q > γp (n1 , n2 )) = P (Q−1 <
18
Y1 /n1
Y2 /n2
1
γp (n1 ,n2 ) )
Wahrscheinlichkeitsrechnung
für Statistik und VWL
WS 2012/13
6 Grenzwertsätze
1. Einführung
2. Gesetze der großen Zahlen
3. Der Zentraler Grenzwertsatz
1
6.1 Einführung
Grenzwertsetze grundlegend für Wahrscheinlichkeitstheorie
Zwei wesentliche Gruppen:
1. Gesetze der großen Zahl
Geben Bedingungen unter welchen Mittelwert einer
Zahlenfolge gegen theoretischen Erwartungswert konvergieren
2. Zentrale Grenzwertsätze
Bedingungen unter welchen die Summe einer großen Zahl von
Verteilungen gegen Normalverteilung konvergiert
Verschiedene Versionen, je nach Art der Konvergenz
2
Markov Ungleichung
X nichtnegative Zufallsvariable, d.h. X ⊂ R+
0
Dann gilt für jedes a > 0:
P (X ≥ a) ≤ a1 E(X)
Beweis:

 1, X ≥ a
Y :=
 0, X < a
Definiere
X≥0
⇒
⇒
Y ≤
E(Y ) ≤
X
a
E(X)
a
und
E(Y ) = P (X ≥ a)
3
Chebyshev Ungleichung
X Zufallsvariable mit E(X) = µ ∈ R und Var (X) = σ 2 < ∞,
dann gilt für jedes k > 0
P (|X − µ| ≥ k) ≤
σ2
k2
Beweis:
Anwendung der Markov Ungleichung für (X − µ)2 ≥ 0 und a = k 2
P ((X − µ)2 ≥ k 2 ) ≤
1
2
E(X
−
µ)
k2
Verwendung: Abschätzungen für Zufallsvariablen, wenn nur µ und
σ 2 bekannt.
4
6.2 Gesetze der großen Zahl
Das schwache Gesetz der großen Zahlen:
X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ
Dann gilt für jedes ε > 0
( X1 +···+Xn
)
P
−µ ≥ε →0
n
für n → ∞
Beweis: (Verwende zusätzlich Var (Xi ) = σ 2 < ∞ )
( X1 +···+Xn )
( X1 +···+Xn ) σ2
E
= µ,
Var
= n
n
n
Chebyshev Ungleichung:
)
(
2
X1 + · · · + Xn
σ
P − µ ≥ ε ≤ 2
n
nε
5
Das starke Gesetz der großen Zahlen
X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen, E(Xi ) = µ
Dann gilt mit Wahrscheinlichkeit 1, dass
X1 +···+Xn
n
→µ
für n → ∞
Ohne Beweis
Starkes Gesetz tatsächlich stärker als schwaches Gesetz:
Mit Wahrscheinlichkeit 1 gibt es für jedes ε ein N (ε), so dass
X +···+X
n
1
− µ < ε für alle n > N (ε)
n
d.h. ab einem gewissen Index N (ε) sind (mit Wahrscheinlichkeit 1)
n
entsprechend nahe bei µ
alle weiteren Mittelwerte X1 +···+X
n
Im Vergleich dazu läßt das schwache Gesetz die Möglichkeit offen,
n
dass immer wieder ein Mittelwert X1 +···+X
weiter von µ entfernt
n
ist, aber mit immer kleiner werdender Wahrscheinlichkeit
6
6.3 Der zentrale Grenzwertsatz
X1 , X2 , . . . i.i.d. Folge von Zufallsvariablen,
E(Xi ) = µ, Var (Xi ) = σ 2 , dann gilt
)
(
X1 +···+X
−nµ
√ n
≤ a → Φ(a)
P
σ n
für n → ∞
In Worten: Die Summe einer großen Anzahl von unabhängigen
identisch verteilten Zufallsvariablen ist approximativ normalverteilt
mit Mittelwert nµ und Varian nσ 2
X1 + · · · + Xn ∼ N (nµ, nσ 2 )
Ohne Beweis!
Literatur: Viele verschiedene Möglichkeiten diesen Satz zu
beweisen
Spezialfall: Normalverteilungsapprox. der Binomialverteilung
7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Wahrscheinlichkeitsrechnung
Foliensatz 7
Andreas Futschik
Institut für Statistik, Univ. Wien
12/2011
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Inhalt . . .
1
Wahrscheinlichkeitserzeugende Funktion
2
Momenterzeugende Funktion
3
Abschließendes Beispiel
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Wahrscheinlichkeitserzeugende Funktion (generating
function)
Für diskrete Zufallsvariablen mit Werten i = 0, 1, 2, . . .
definiert als:
∞
X
pi · u i
GX (u) :=
i=0
Beispiel:
X =
0
1
2
Wahrscheinlichkeit
1/3
1/3
1/3
GX (u) =
1
(1 + u + u 2 )
3
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Eigenschaften der wahrscheinlichkeitserzeugenden
Funktion
Satz
G(k ) (0)
k!
0
00
Falls GX (1) und GX (1) existieren, dann
∂
GX (u)|u=1
E(X ) = GX0 (1) = ∂u
Var(X ) = GX00 (1) + E(X ) − [E(X )]2
P(X = k ) =
Für E(X ) leicht zu sehen, für Var (X ):
2
2
2
Var(X ) = E[(X −E(X )) ] = E(X )−[E(X )] =
∞
X
i 2 ·pi −[E(X )]2 .
i=0
Weiters: GX00 (1) =
P∞
i=0 i(i
− 1)pi =
Andreas Futschik
P∞
i=0 i
2p
i
− GX0 (1).
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Beispiele
Erwartungswert und Varianz im letzten Beispiel:
1
2
GX0 (u) = (1 + 2u), GX00 (u) =
3
3
2
E(X ) = 1, Var (X ) =
3
Erwartungswert der Binomialverteilung X ∼ B(n, p):
n
P
n i
n−i · u i =
GX (u) =
i p (1 − p)
i=0
=
E(X )
=
GX00 (u) =
Var(X ) =
=
=
(1 − p + up)n
GX0 (1) = n(1 − p + up)n−1 p|u=1 = n · p
n(n − 1)(1 − p + up)n−2 · p2 |u=1 = n(n − 1) · p2
GX00 (1) + E(X ) − [E(X )]2 =
n(n − 1)p2 + np − n2 p2 =
np − np2 = np(1 − p)
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Übung
Erzeugende Funktion, Erwartungswert und Varianz der
Poissonverteilung mit Wahrscheinlichkeitsfunktion
k
P(X = k ) = λk ! e−λ ?
Lösung: GX (u) = eλ(u−1) , E(X ) = λ, Var(X ) = λ
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Momenterzeugende Funktion
Im Unterschied zur wahrscheinlichkeitserzeugenden
Funktion auch für stetige Zufallsvariablen anwendbar.
Die momenterzeugende Funktion kann nicht für jede
Verteilung berechnet werden, charakteristische Funktion
als Alternative im Raum der komplexen Zahlen.
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Momenterzeugende Funktion
Definition (Momenterzeugende Funktion)
Falls
Z
∞
MX (t) = E(exp(tX )) =
etx f (x) dx
−∞
auf einem Intervall [0, a] (a > 0) existiert, so nennen wir MX (t)
momenterzeugende Funktion der Zufallsvariablen X .
Beispiel: Sei X gleichverteilt im Intervall [c, d]. Dann ist
Z
MX (t) =
c
d
1
1
etx dx =
edt − ect
d −c
(d − c)t
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Eigenschaften der momenterzeugenden Funktion
Satz
Sei X eine Zufallsvariable mit momenterzeugender Funktion
MX (t). Dann gilt:
E(X ) = MX0 (0)
(k )
E(X 2 ) = MX00 (0) und E(X k ) = MX (0) für k ≥ 0.
Var (X ) = MX00 (0) − [MX0 (0)]2
Gegeben, die momenterzeugenden Funktionen existieren:
Zwei Zufallsvariablen X und Y haben genau dann die
gleiche Verteilung, wenn MX (t) = MY (t).
Gegeben dass für die zwei unabhängigen Zufallsvariablen
X und Y momenterzeugende Funktionen existieren, gilt
MX +Y (t) = MX (t) · MY (t).
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Übung
Wie lautet momenterzeugende Funktion, Erwartungswert
und Varianz für eine exponentialverteilte Zufallsvariable X
mit Dichte f (x) = λe−λx ? Auf welchem Intervall ist MX (t)
definiert?
Lösungen:
MX (t) =
MX0 (t) =
MX00 (t) =
λ
λ−t , definiert für t <
λ
, E(X ) = λ1 .
(λ−t)2
2λ
, Var (X ) = λ12 .
(λ−t)3
Andreas Futschik
λ.
Wahrscheinlichkeitsrechnung - FS 7
Wahrscheinlichkeitserzeugende Funktion
Momenterzeugende Funktion
Abschließendes Beispiel
Abschließendes Beispiel
Eine Raupe kriecht auf einem
Drahtwürfel und startet vom Punkt A.
An jedem Eckpunkt kriecht die Raupe
zufällig mit gleicher Wahrscheinlichkeit
in eine der drei möglichen Richtungen.
Am Punkt F befindet sich Futter und am
Punkt G Klebstoff (“glue”). Wenn die
Raupe einen dieser beiden Punkte
erreicht, bleibt sie dort und kriecht nicht
weiter.
Mit welcher Wahrscheinlichkeit endet
die Expedition der Raupe beim Futter
und nicht beim Klebstoff?
(Lösung: 4/7)
Andreas Futschik
Wahrscheinlichkeitsrechnung - FS 7