Einführung in die Bayes

Werbung
Mainz, 25. Juni 2013
Statistics, Data Analysis, and
Simulation – SS 2013
08.128.730 Statistik, Datenanalyse und
Simulation
Dr. Michael O. Distler
<[email protected]>
8. Einführung in die Bayes-Statistik
Wiederholung von: 1.1 Theory of probability
Probability theory, mathematics:
−→ Kolmogorov axioms
Classical interpretation, frequentist probability:
Pragmatical definition of probability:
n
N→∞ N
p(E) = lim
n(E) = number of events E
N = number of trials (experiments)
Experiments have to be repeatable (in principle).
Disadvantage: Strictly speaking one cannot make
statements on the probability of any true value. Only upper
and lower limits are possible given a certain confidence
level.
1.1 Theory of probability
Probability theory, mathematics
Classical interpretation, frequentist probability
Bayesian statistics, subjective probability:
Prior subjective assumptions enter into the calculation of
probabilities of a hypotheses H.
p(H) = degree of belief that H is true
Metaphorically speaking: Probabilities are the ratio of the
(maximum) wager and the anticipated prize in a bet.
1.1 Theory of probability
Probability theory, mathematics
Classical interpretation, frequentist probability
Bayesian statistics, subjective probability:
Disadvantage: Prior hypotheses influence the probability.
Advantages for rare and one-time events, like noisy signals
or catastrophe modeling.
1.1 Theory of probability
Probability theory, mathematics
Classical interpretation, frequentist probability
Bayesian statistics, subjective probability:
Disadvantage: Prior hypotheses influence the probability.
Advantages for rare and one-time events, like noisy signals
or catastrophe modeling.
In this lecture we will focus on the classical
statistics, e.g. error estimates have to be
understood as confidence regions.
Bayes–Theorem
Aus der Gleichung
p(A und B) = p(A) · p(B|A) = p(B) · p(A|B)
erhält man das Bayes-Theorem:
p(A|B) = p(B|A) ·
p(A)
p(B)
Bayes–Theorem für diskrete Ereignisse
p(A|B) = p(B|A) ·
p(A)
p(B)
Beispiel: In einem Experiment soll der leptonische Zerfall der
K0 -Mesonen studiert werden. Es ist geplant, einen ČerenkovDetektor zu verwenden, um die Leptonen nachzuweisen. Dazu muss
untersucht werden, ob ein Detektor ausreicht, um die leptonischen
Ereignisse von dem kleinen Untergrund abzutrennen, der ebenfalls
den Detektor auslösen kann.
p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis den
Čerenkov-Detektor auslöst.
p(A) ≡ Wahrscheinlichkeit, dass sich ein echter
leptonischer Zerfall ereignet.
p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches
Ereignis den Čerenkov-Detektor auslöst
p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis
um einen echten leptonischen Zerfall handelt, unter der
Voraussetzung, dass der Čerenkov-Detektor auslöst.
Bayes–Theorem für diskrete Ereignisse
p(A|B) = p(B|A) ·
p(B)
≡
p(A)
p(B)
Wahrscheinlichkeit, dass ein Ereignis den
Čerenkov-Detektor auslöst.
p(A) ≡ Wahrscheinlichkeit, dass sich ein echter
leptonischer Zerfall ereignet.
p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches
Ereignis den Čerenkov-Detektor auslöst
p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis
um einen echten leptonischen Zerfall handelt, unter der
Voraussetzung, dass der Čerenkov-Detektor auslöst.
p(B) kann gemessen werden. p(A) ergibt sich aus früheren
Messungen bzw. Theorie. p(B|A) wird aus einer Simulation bestimmt.
,→ p(A|B)
Bayes-Theorem für Bayesianer
Wenn es sich bei A und B nicht um Ereignisklassen sondern
um Hypothesen handelt, dann wird der Unterschied zwischen
den beiden Statistik-Schulen offensichtlich. Als frequentist kann
man einer Hypothese keine Wahrscheinlichkeit zuweisen. Der
bayesian interpretiert p(H) als Grad des Vertrauens in die
Hypothese.
p(H|E) =
p(H)
≡
p(H|E)
p(E|H)
p(E)
≡
≡
≡
p(H) · p(E|H)
p(E)
prior Wahrscheinlichkeit
Wissen (Grad des Vertrauens) vor der Datennahme
posterior Wahrscheinlichkeit
likelihood
Normalisierungsfaktor
Das Ergebnis (Erwartungswert, Varianz, . . . ) einer
Bayes-Analyse wird allein dem posterior entnommen.
Cookie-Problem
Stellen Sie sich 2 gefüllte Keksdosen vor. Dose 1 enthält 10
Chocolate Chip Cookies und 30 Plain Cookies. Bei Dose 2 ist
des Verhältnis 20/20. Unser Freund Fred wählt zunächst
zufällig eine Keksdose aus und entnimmt dann zufällig einen
Cookie. Es ist ein Plain Cookie. Mit welcher Wahrscheinlichkeit
stammt er aus Dose 1?
Hypothesen: H1 : der Keks stammt aus Dose 1.
H2 : der Keks stammt aus Dose 2.
Prior:
p(H1 ) = p(H2 ) = 1/2
Ereignis:
E: der Keks ist ein Plain Cookie.
Likelihood: p(E|H1 ) = 3/4
p(E|H2 ) = 1/2
Bayes-Theorem:
p(H1 |E) =
3
p(H1 ) × p(E|H1 )
=
p(H1 ) · p(E|H1 ) + p(H2 ) · p(E|H2 )
5
Betaverteilung
Wahrscheinlichkeitsdichte der Betaverteilung
f (x) =
1
x p−1 (1 − x)q−1
B(p, q)
x ∈ [0, 1]
mit der Eulerschen Betafunktion
Z 1
Γ(p)Γ(q)
B(p, q) =
=
u p−1 (1 − u)q−1 du
Γ(p + q)
0
Extremum:
xextrem
p−1
q − 1 −1
= 1+
=
p−1
p+q−2
Erwartungswert und Varianz:
E(X ) =
p
p+q
Var(X ) =
pq
(p + q + 1)(p + q)2
Betaverteilung
beta(.5,.5)
0
0.5
beta(.5,1.)
1
0
beta(1.,.5)
0
0.5
0.5
1
0
0.5
0
0.5
1
0
0.5
1
0
0
0.5
1
0
0.5
1
0
0.5
1
0
0
0.5
1
0.5
1
beta(2.,3.)
1
0
beta(3.,2.)
1
0.5
beta(1.,3.)
beta(2.,2.)
beta(3.,1.)
1
0.5
beta(.5,3.)
beta(1.,2.)
beta(2.,1.)
beta(3.,.5)
0
1
beta(1.,1.)
beta(2.,.5)
0
0.5
beta(.5,2.)
0.5
1
beta(3.,3.)
1
0
0.5
1
Referendum
Beispiel: Es steht ein Referendum wegen eines Bauvorhabens
in Ihrer Stadt aus. Da Sie im Bekanntenkreis das Thema
bereits diskutiert haben, gehen Sie von einer knappen
Entscheidung aus, wobei Sie sich sicher sind (C.L.: 95%), dass
weder Befürworter noch Gegner mehr als 60% der Stimmen
erreichen werden.
Aus Ihrem Vorwissen konstruieren Sie Prior (Betaverteilung):
E(X ) =
Var(X ) =
p
= 0.5
p+q
pq
(p +
q)2 (p
+ q + 1)
⇒
=
p=q
1
= (0.05)2
4(2p + 1)
Nähert man also die Betaverteilung mit der Normalverteilung
und setzt 95%C.L. ' 2σ ' ±10% so ergibt sich
p = q ' 50
(die exakte Rechnung ergibt p = q = 47.3).
Referendum (Teil 2)
In einer repräsentativen Umfrage haben sich von N = 1500
Betroffenen nur k = 720 Personen für das Bauvorhaben
ausgesprochen. Ermitteln Sie die Wahrscheinlichkeit, dass im
Referendum die Gegner eine Mehrheit erzielen.
Die posterior Dichte g(x) ergibt sich aus:
prior × likelihood
Betaverteilung(x; p, q) × Binomialverteilung(x; N, k )
Γ(p)Γ(q) p−1
N!
k
N−k
(1 − x)q−1 × k ! (N−k
Γ(p+q) x
)! x (1 − x)
Im Falle eines Beta-Priors ergibt sich einfach:
g(x) = Beta(x; p + k , q + N − k ) = Beta(x; 770, 830)
Referendum (Teil 3)
prior
12
posterior
45
Beta(x,50,50)
Beta(x,30,70)
Beta(x,0.5,0.5)
Beta(x,1.,1.)
10
40
35
8
30
25
6
20
4
15
10
2
0
Beta(x,770,830)
Beta(x,750,850)
Beta(x,720.5,780.5)
Beta(x,721,781)
5
0
0.2
0.4
0.6
0.8
1
0
0.42 0.44 0.46 0.48
0.5
0.52 0.54
Aus der roten Kurve (rechts) ermitteln wir unser Ergebis:
Z 0.5
Beta(x; 770, 830)dx = 0.933
0
Das Referendum wird also mit einer Wahrscheinlichkeit von
93.3% abgelehnt.
Referendum (Teil 4)
35
Beta(x,50,50)
Beta(x,30,70)
Beta(x,0.5,0.5)
Beta(x,1.,1.)
Beta(x,770,830)
Beta(x,750,850)
Beta(x,720.5,780.5)
Beta(x,721,781)
30
25
20
15
10
5
0
0.2
0.3
0.4
0.5
0.6
Das Bild zeigt noch einmal deutlich, dass das Ergebnis nur
schwach von der Wahl des Priors abhängt.
0.7
Vorsichtsmaßnahmen bei Verwendung eines
konjugierten Priors
z.B. Beta-Prior bei Binomialverteilungen
1
Plotten Sie Ihren Beta(p, q)-Prior. Passen Sie notfalls
Mittelwert π0 und Varianz σ02 an, bis diese Ihren
Vorstellungen entsprechen.
2
Berechnen Sie die äquivalente Stichprobengröße. Für
den Fall, dass diese unrealistisch groß ist, vergrößern Sie
die Varianz Ihres Priors und berechnen diesen neu.
Für eine Binomialverteilung mit Trefferwahrscheinlichkeit π und
Versuchsanzahl n ist die Varianz π(1 − π)/n. Dies setzen wir
der Prior-Varianz gleich:
pq
π0 (1 − π0 )
=
neq
(p + q + 1)(p + q)2
Mit π0 =
p
p+q
und (1 − π0 ) =
q
p+q
ergibt sich
neq = p + q + 1
Nichtinformative Priori-Dichten
Ein nichtinformativer (engl. uninformative or objective) Prior
drückt eine vage bzw. unbestimmte Kenntnis der gesuchten
Größe aus. Die einfachste und älteste Methode einen
nichtinformativen Prior zu konstruieren stellt das
Indifferenzprinzip dar. Demnach wird allen Möglichkeiten die
gleiche Wahrscheinlichkeit zugewiesen.
Dabei kann leicht ein uneigentlicher (engl. improper) Prior
entstehen, d.h. der Prior ist nicht normiert und damit auch keine
Wahrscheinlichkeitsdichte. Das stellt jedoch im allgemeinen kein
Problem dar, da sich die Posterior-Dichte meist normieren lässt.
Der “flache” Prior ist jedoch nicht wirklich “objektiv”, wovon man
sich leicht überzeugen kann, wenn man eine (nicht-lineare)
Variablentransformation durchführt. Nach der Transformation ist
der flache Prior nicht mehr flach.
Bessere Eigenschaften besitzt der Jeffreys Prior, der ebenfalls
als nichtinformativer Prior bezeichnet wird.
Eine Bayes-Analyse mit einem nichtinformativen Prior liefert
meist ähnliche oder identische Ergebnisse wie die klassische
Maximum Likelihood Methode.
Die Gammaverteilung
Wahrscheinlichkeitsdichte der Gammaverteilung
 p
 b x p−1 e−bx x > 0
f (x) = Γ(p)
0
x ≤0
Maximum (für p > 1):
xmax =
p−1
b
Erwartungswert:
E(X ) =
Varianz:
Var(X ) =
p
b
p
b2
1.0
Gammaverteilung
0.6
0.5,
0.5,
1, b
1, b
2, b
2, b
b=2
b=1
=2
=1
=2
=1
0.2
0.4
=
=
=
=
=
=
0.0
Ɣ(p,b)
0.8
p
p
p
p
p
p
0
1
2
3
x
4
5
Bayes-Theorem für Poisson Parameter
Wir betrachten eine Stichprobe y1 , . . . , yn aus einer Poisson(µ)
Verteilung. Die Proportionalitätsform des Bayes-Theorems
lautet:
posterior ∝ prior × likelihood
g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ)
Durch Normierung erhalten wir die tatsächliche Posterior
Dichte:
g(µ|y1 , . . . , yn ) = R ∞
0
g(µ) × f (y1 , . . . , yn |µ)
g(µ) × f (y1 , . . . , yn |µ) dµ
Likelihood für Poisson Parameter
Die Likelihood für eine einmalige Ziehung von einer
Poisson-Verteilung ist bekannt:
f (y |µ) =
µy e−µ
y!
Die Form wird dabei festgelegt durch
f (y |µ) ∝ µy e−µ
Für eine größere Stichprobe werden die ursprünglichen
Likelihoods multipliziert:
f (y1 , . . . , yn |µ) =
n
Y
i=1
P
∝ µ
f (yi |µ)
yi
e−nµ
Gleichverteilte Prior Dichte
Wenn wir keine Information über µ haben, bevor wir die Daten
betrachten, dann wäre ein gleichverteilter Prior eine mögliche
Wahl:
g(µ) = 1
für µ > 0
Dies ist ein uneigentlicher (improper) Prior!
g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ)
∝ 1×µ
P
yi
e−nµ
P
Dies entspricht einer gamma(p, b) Verteilung mit p = y + 1
und b = n. Somit erhalten wir einen normierten Posterior,
obwohl wir mit einem improper Prior gestartet waren.
Jeffreys Prior für Poisson
Ein Jeffreys Prior ist objektiv in dem Sinne, dass er invariant ist
unter bestimmten Transformationen des Parameters. Der
Jeffreys Prior für Poisson lautet:
1
g(µ) ∝ √
µ
für µ > 0
Dies ist ebenfalls ein uneigentlicher (improper) Prior!
g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ)
P
1
∝ √ × µ yi e−nµ
µ
P
∝ µ
yi −1/2
e−nµ
P
Dies entspricht einer gamma(p, b) Verteilung mit p = y + 21
und b = n. Wiederum erhalten wir einen normierten Posterior,
obwohl wir mit einem improper Prior gestartet waren.
Konjugierte Priors für Poisson
Die Gammaverteilung bildet die Familie von konjugierten Priors
für Poisson, d.h. sowohl Prior als auch Posterior stammen aus
der gleichen Familie. Für eine Stichprobe y1 , . . . , yn aus einer
Poissonverteilung und einer Prior gamma(p, b) ergibt sich der
Posterior:
X
gamma(p0 , b0 )
mit p0 = p +
y , b0 = b + n
Der Prior lässt sich leicht aus einer Kenntnis von Mittelwert µ
und Varianz s2 konstruieren. Aus
µ=
p
b
und s2 =
p
b2
p=
µ2
s2
und b =
µ
s2
folgt
press any key
Herunterladen