Statistics, Data Analysis, and Simulation – SS 2017

Werbung
Mainz, 19. Juni 2017
Statistics, Data Analysis, and
Simulation – SS 2017
08.128.730 Statistik, Datenanalyse und
Simulation
Dr. Michael O. Distler
<[email protected]>
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
1 / 28
6. Einführung in die Bayes-Statistik
Wiederholung von: 1.1 Wahrscheinlichkeitstheorie
Wahrscheinlichkeitstheorie, Mathematik:
−→ Axiome von Kolmogorov
Klassische Interpretation, frequentist probability:
Pragmatische Interpretation der Wahrscheinlichkeit:
n
N→∞ N
p(E) = lim
n(E) = Zahl der Ereignisse E
N = Zahl der Versuche (Experimente)
Experimente müssen (im Prinzip) wiederholbar sein.
Nachteil: Genaugenommen können wir keine Aussagen
über die Wahrscheinlichkeit eines wahren Wertes machen.
Nur untere und obere Grenzen können mit einer
bestimmten Konfidenz festgelegt werden.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
2 / 28
Theory of probability
Wahrscheinlichkeitstheorie, Mathematik
Klassische Interpretation, frequentist probability
Bayesian Statistik, subjektive Wahrscheinlichkeit:
Subjektive Vorurteile gehen in die Berechnung der
Wahrscheinlichkeit einer Hypothese H ein.
p(H) = Grad des Vertrauens, dass H wahr ist
Bildlich gesprochen: Wahrscheinlichkeiten ergeben sich
aus dem Verhältnis von (maximalen) Einsatz und
angenommenem Gewinn bei einer Wette.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
3 / 28
Theory of probability
Wahrscheinlichkeitstheorie, Mathematik
Klassische Interpretation, frequentist probability
Bayesian Statistik, subjektive Wahrscheinlichkeit:
Nachteil: Die Vorurteile beeinflussen die
Wahrscheinlichkeit.
Vorteil für seltene und einmalige Ereignisse, wie
verrauschte Signale oder Katastrophen-Modelle.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
3 / 28
Theory of probability
Wahrscheinlichkeitstheorie, Mathematik
Klassische Interpretation, frequentist probability
Bayesian Statistik, subjektive Wahrscheinlichkeit:
Nachteil: Die Vorurteile beeinflussen die
Wahrscheinlichkeit.
Vorteil für seltene und einmalige Ereignisse, wie
verrauschte Signale oder Katastrophen-Modelle.
In dieser Vorlesung hatten wir uns zunächst
auf die klassische Statistik konzentriert,
d.h. Fehlerabschätzungen werden als
Konfidenzintervalle verstanden.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
3 / 28
Theory of probability
Wahrscheinlichkeitstheorie, Mathematik
Klassische Interpretation, frequentist probability
Bayesian Statistik, subjektive Wahrscheinlichkeit:
Nachteil: Die Vorurteile beeinflussen die
Wahrscheinlichkeit.
Vorteil für seltene und einmalige Ereignisse, wie
verrauschte Signale oder Katastrophen-Modelle.
In diesem Kapitel werden wir die Bayes Statistik behandeln. Statistische Rückschlüsse
(z.B. Mittelwert, Varianz) werden ausschließlich den posterior Verteilungen entnommen.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
3 / 28
Bayes–Theorem
Aus der Gleichung
p(A und B) = p(A) · p(B|A) = p(B) · p(A|B)
erhält man das Bayes-Theorem:
p(A|B) = p(B|A) ·
Dr. Michael O. Distler <[email protected]>
p(A)
p(B)
Statistics, Data Analysis, and Simulation – SS 2017
4 / 28
Bayes–Theorem für diskrete Ereignisse
p(A|B) = p(B|A) ·
p(A)
p(B)
Beispiel: In einem Experiment soll der leptonische Zerfall der
K0 -Mesonen studiert werden. Es ist geplant, einen ČerenkovDetektor zu verwenden, um die Leptonen nachzuweisen. Dazu muss
untersucht werden, ob ein Detektor ausreicht, um die leptonischen
Ereignisse von dem kleinen Untergrund abzutrennen, der ebenfalls
den Detektor auslösen kann.
p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis den
Čerenkov-Detektor auslöst.
p(A) ≡ Wahrscheinlichkeit, dass sich ein echter
leptonischer Zerfall ereignet.
p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches
Ereignis den Čerenkov-Detektor auslöst
p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis
um einen echten leptonischen Zerfall handelt, unter der
Voraussetzung, dass der Čerenkov-Detektor auslöst.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
5 / 28
Bayes–Theorem für diskrete Ereignisse
p(A|B) = p(B|A) ·
p(B)
p(A)
p(B)
≡
Wahrscheinlichkeit, dass ein Ereignis den
Čerenkov-Detektor auslöst.
p(A) ≡ Wahrscheinlichkeit, dass sich ein echter
leptonischer Zerfall ereignet.
p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches
Ereignis den Čerenkov-Detektor auslöst
p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis
um einen echten leptonischen Zerfall handelt, unter der
Voraussetzung, dass der Čerenkov-Detektor auslöst.
p(B) kann gemessen werden. p(A) ergibt sich aus früheren
Messungen bzw. Theorie. p(B|A) wird aus einer Simulation bestimmt.
,→ p(A|B)
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
6 / 28
Bayes-Theorem für Bayesianer
Wenn es sich bei A und B nicht um Ereignisklassen sondern
um Hypothesen handelt, dann wird der Unterschied zwischen
den beiden Statistik-Schulen offensichtlich. Als frequentist kann
man einer Hypothese keine Wahrscheinlichkeit zuweisen. Der
bayesian interpretiert p(H) als Grad des Vertrauens in die
Hypothese.
p(H|E) =
p(H)
≡
p(H|E)
p(E|H)
p(E)
≡
≡
≡
p(H) · p(E|H)
p(E)
prior Wahrscheinlichkeit
Wissen (Grad des Vertrauens) vor der Datennahme
posterior Wahrscheinlichkeit
likelihood
Normalisierungsfaktor
Das Ergebnis (Erwartungswert, Varianz, . . . ) einer
Bayes-Analyse wird allein dem posterior entnommen.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
7 / 28
Cookie-Problem
Stellen Sie sich 2 gefüllte Keksdosen vor. Dose 1 enthält 10
Chocolate Chip Cookies und 30 Plain Cookies. Bei Dose 2 ist
des Verhältnis 20/20. Unser Freund Fred wählt zunächst
zufällig eine Keksdose aus und entnimmt dann zufällig einen
Cookie. Es ist ein Plain Cookie. Mit welcher Wahrscheinlichkeit
stammt er aus Dose 1?
Hypothesen: H1 : der Keks stammt aus Dose 1.
H2 : der Keks stammt aus Dose 2.
Prior:
p(H1 ) = p(H2 ) = 1/2
Ereignis:
E: der Keks ist ein Plain Cookie.
Likelihood: p(E|H1 ) = 3/4
p(E|H2 ) = 1/2
Bayes-Theorem:
p(H1 |E) =
3
p(H1 ) × p(E|H1 )
=
p(H1 ) · p(E|H1 ) + p(H2 ) · p(E|H2 )
5
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
8 / 28
Bayessche Inferenz∗ für Binomialexperimente
Häufig hat man es mit großen Populationen zu tun, von der ein
Anteil p ein gewisse Eigenschaft aufweist. Beispiel: Für die
Bevölkerung einer Stadt könnte die Eigenschaft lauten „plant
Kandidat A bei der Bürgermeisterwahl zu wählen“.
Wir zählen die Anzahl von “Erfolgen” in n unabhängigen
Versuchen, wobei jeder Versuch nur zwei mögliche Ergebnisse
haben kann: Erfolg oder Miserfolg. Erfolg bedeutet, dass bei
dem i-ten Versuch die geforderte Eigenschaft auftrat.
Die Anzahl von Erfolgen in n Versuchen, die
Erfolgswahrscheinlichkeit bei jedem einzelnen Versuch sei p, ist
binomialverteilt. Die bedingte Wahrscheinlichkeit ist:
n
f (k |p) =
pk (1 − p)n−k
k ∈ [1, n]
k
∗
Dr. Michael O. Distler <[email protected]>
Inferenz = Schlussfolgerung
Statistics, Data Analysis, and Simulation – SS 2017
9 / 28
Betaverteilung
Wahrscheinlichkeitsdichte der Betaverteilung
f (x; a, b) =
1
x a−1 (1 − x)b−1
B(a, b)
x ∈ [0, 1]
mit der Eulerschen Betafunktion
Z 1
Γ(a)Γ(b)
B(a, b) =
=
u a−1 (1 − u)b−1 du
Γ(a + b)
0
Extremum:
xextrem
b − 1 −1
a−1
= 1+
=
a−1
a+b−2
Erwartungswert und Varianz:
E(X ) =
a
a+b
Var(X ) =
Dr. Michael O. Distler <[email protected]>
a·b
(a + b + 1)(a + b)2
Statistics, Data Analysis, and Simulation – SS 2017
10 / 28
Betaverteilung
beta(.5,.5)
0
0.5
beta(.5,1.)
1
0
beta(1.,.5)
0
0.5
0.5
1
0
0.5
0
0.5
1
0
0.5
1
0
0
0.5
Dr. Michael O. Distler <[email protected]>
1
0
0.5
1
0
0.5
1
0
0
0.5
1
0.5
1
beta(2.,3.)
1
0
beta(3.,2.)
1
0.5
beta(1.,3.)
beta(2.,2.)
beta(3.,1.)
1
0.5
beta(.5,3.)
beta(1.,2.)
beta(2.,1.)
beta(3.,.5)
0
1
beta(1.,1.)
beta(2.,.5)
0
0.5
beta(.5,2.)
0.5
1
beta(3.,3.)
1
0
0.5
1
Statistics, Data Analysis, and Simulation – SS 2017
11 / 28
Referendum
Beispiel: Es steht ein Referendum wegen eines Bauvorhabens
in Ihrer Stadt aus. Da Sie im Bekanntenkreis das Thema
bereits diskutiert haben, gehen Sie von einer knappen
Entscheidung aus, wobei Sie sich sicher sind (C.L.: 95%), dass
weder Befürworter noch Gegner mehr als 60% der Stimmen
erreichen werden.
Aus Ihrem Vorwissen konstruieren Sie den Prior:
a
E(X ) =
= 0.5 ⇒ a = b
a+b
Var(X ) =
(a +
1
ab
= (0.05)2
=
4(2a + 1)
+ b + 1)
b)2 (a
Nähert man also die Betaverteilung mit der Normalverteilung
und setzt 95%c.l. ' 2σ ' ±10% so ergibt sich
a = b ' 50
(die exakte Rechnung ergibt a = b = 47.2998).
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
12 / 28
Referendum (exakte Berechnung der Betaverteilung)
zu lösen ist:
Z
0.6
f (x; a, a) dx = 0.95
0.4
Mathematica:
f [α_] :=
NIntegrate[PDF[BetaDistribution[α, α], x], {x, 0.4, 0.6}]
FindRoot[f [α] == 0.95, {α, 50}]
Python:
from scipy.stats import beta
from scipy.optimize import newton
def f(x):
return (beta.cdf(0.6,x,x)
-beta.cdf(0.4,x,x)-0.95)
print(newton(f, 50))
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
13 / 28
Referendum (Teil 2)
In einer repräsentativen Umfrage haben sich von N = 1500
Betroffenen nur k = 720 Personen für das Bauvorhaben
ausgesprochen. Ermitteln Sie die Wahrscheinlichkeit, dass im
Referendum die Gegner eine Mehrheit erzielen.
Die posterior Dichte g(x) ergibt sich aus:
prior × likelihood
Betaverteilung(x; a, b) × Binomialverteilung(x; N, k )
Γ(a+b) a−1
N!
k
N−k
(1 − x)b−1 × k ! (N−k
Γ(a)Γ(b) x
)! x (1 − x)
Im Falle eines Beta-Priors ergibt sich einfach:
g(x) = Beta(x; a + k , b + N − k ) = Beta(x; 770, 830)
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
14 / 28
Referendum (Teil 3)
prior
12
posterior
45
Beta(x,50,50)
Beta(x,30,70)
Beta(x,0.5,0.5)
Beta(x,1.,1.)
10
40
35
8
30
25
6
20
4
15
10
2
0
Beta(x,770,830)
Beta(x,750,850)
Beta(x,720.5,780.5)
Beta(x,721,781)
5
0
0.2
0.4
0.6
0.8
1
0
0.42 0.44 0.46 0.48
0.5
0.52 0.54
Aus der roten Kurve (rechts) ermitteln wir unser Ergebnis:
Z 0.5
Beta(x; 770, 830)dx = 0.933
0
Das Referendum wird also mit einer Wahrscheinlichkeit von
93.3% abgelehnt.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
15 / 28
Referendum (Teil 4)
35
Beta(x,50,50)
Beta(x,30,70)
Beta(x,0.5,0.5)
Beta(x,1.,1.)
Beta(x,770,830)
Beta(x,750,850)
Beta(x,720.5,780.5)
Beta(x,721,781)
30
25
20
15
10
5
0
0.2
0.3
0.4
0.5
0.6
0.7
Das Bild zeigt noch einmal deutlich, dass das Ergebnis nur
schwach von der Wahl des Priors abhängt.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
16 / 28
Vorsichtsmaßnahmen bei Verwendung eines
konjugierten Priors
z.B. Beta-Prior bei Binomialverteilungen
1
Plotten Sie Ihren Beta(a, b)-Prior. Passen Sie notfalls
Mittelwert π0 und Varianz σ02 an, bis diese Ihren
Vorstellungen entsprechen.
2
Berechnen Sie die äquivalente Stichprobengröße. Für
den Fall, dass diese unrealistisch groß ist, vergrößern Sie
die Varianz Ihres Priors und berechnen diesen neu.
Für eine Binomialverteilung mit Trefferwahrscheinlichkeit π und
Versuchsanzahl n ist die Varianz π(1 − π)/n. Dies setzen wir
der Prior-Varianz gleich:
π0 (1 − π0 )
ab
=
neq
(a + b + 1)(a + b)2
Mit π0 =
a
a+b
und (1 − π0 ) =
b
a+b
ergibt sich
neq = a + b + 1
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
17 / 28
Nichtinformative Priori-Dichten
Ein nichtinformativer (engl. uninformative or objective)
Prior drückt eine vage bzw. unbestimmte Kenntnis der
gesuchten Größe aus. Die einfachste und älteste Methode
einen nichtinformativen Prior zu konstruieren stellt das
Indifferenzprinzip dar. Demnach wird allen Möglichkeiten
die gleiche Wahrscheinlichkeit zugewiesen.
Dabei kann leicht ein uneigentlicher (engl. improper) Prior
entstehen, d.h. der Prior ist nicht normiert und damit auch
keine Wahrscheinlichkeitsdichte. Das stellt jedoch im
allgemeinen kein Problem dar, da sich die Posterior-Dichte
meist normieren lässt.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
18 / 28
Nichtinformative Priori-Dichten
Der “flache” Prior ist jedoch nicht wirklich “objektiv”, wovon
man sich leicht überzeugen kann, wenn man eine
(nicht-lineare) Variablentransformation durchführt. Nach
der Transformation ist der flache Prior nicht mehr flach.
Bessere Eigenschaften besitzt der Jeffreys Prior, der
ebenfalls als nichtinformativer Prior bezeichnet wird.
Eine Bayes-Analyse mit einem nichtinformativen Prior
liefert meist ähnliche oder identische Ergebnisse wie die
klassische Maximum Likelihood Methode.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
19 / 28
Bayessche Inferenz für Poisson
Die Poisson-Verteilung wird verwendet, um das Auftreten von
seltenen Ereignissen zu zählen. Die Ereignisse treten zufällig in
Zeit (oder Raum) auf, jedoch mit einer konstanten mittleren
Rate.
Die Poisson-Verteilung kann etwa verwendet werden, um die
Anzahl der Unfälle auf einer Autobahn innerhalb eines Monats
zu modellieren. Allerdings kann es nicht verwendet werden, um
die Zahl der Todesopfer auf der Autobahn zu modellieren, da
einige Unfälle mehrere Todesopfer aufweisen können.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
20 / 28
Die Gammaverteilung
Wahrscheinlichkeitsdichte der Gammaverteilung
 p
 b x p−1 e−bx x > 0
f (x) = Γ(p)
0
x ≤0
Maximum (für p > 1):
xmax =
p−1
b
Erwartungswert:
E(X ) =
Varianz:
Var(X ) =
Dr. Michael O. Distler <[email protected]>
p
b
p
b2
Statistics, Data Analysis, and Simulation – SS 2017
21 / 28
1.0
Gammaverteilung
0.6
0.5,
0.5,
1, b
1, b
2, b
2, b
b=2
b=1
=2
=1
=2
=1
0.4
=
=
=
=
=
=
0.0
0.2
Ɣ(p,b)
0.8
p
p
p
p
p
p
0
1
2
3
4
5
x
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
22 / 28
Bayes-Theorem für Poisson Parameter
Wir betrachten eine Stichprobe y1 , . . . , yn aus einer Poisson(µ)
Verteilung. Die Proportionalitätsform des Bayes-Theorems
lautet:
posterior ∝ prior × likelihood
g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ)
Durch Normierung erhalten wir die tatsächliche Posterior
Dichte:
g(µ|y1 , . . . , yn ) = R ∞
0
Dr. Michael O. Distler <[email protected]>
g(µ) × f (y1 , . . . , yn |µ)
g(µ) × f (y1 , . . . , yn |µ) dµ
Statistics, Data Analysis, and Simulation – SS 2017
23 / 28
Likelihood für Poisson Parameter
Die Likelihood für eine einmalige Ziehung von einer
Poisson-Verteilung ist bekannt:
f (y |µ) =
µy e−µ
y!
Die Form wird dabei festgelegt durch
f (y |µ) ∝ µy e−µ
Für eine größere Stichprobe werden die ursprünglichen
Likelihoods multipliziert:
f (y1 , . . . , yn |µ) =
n
Y
i=1
P
∝ µ
Dr. Michael O. Distler <[email protected]>
f (yi |µ)
yi
e−nµ
Statistics, Data Analysis, and Simulation – SS 2017
24 / 28
Gleichverteilte Prior Dichte
Wenn wir keine Information über µ haben, bevor wir die Daten
betrachten, dann wäre ein gleichverteilter Prior eine mögliche
Wahl:
g(µ) = 1
für µ > 0
Dies ist ein uneigentlicher (improper) Prior!
g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ)
∝ 1×µ
P
yi
e−nµ
P
Dies entspricht einer gamma(p, b) Verteilung mit p = y + 1
und b = n. Somit erhalten wir einen normierten Posterior,
obwohl wir mit einem improper Prior gestartet waren.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
25 / 28
Jeffreys Prior für Poisson
Ein Jeffreys Prior ist objektiv in dem Sinne, dass er invariant ist
unter bestimmten Transformationen des Parameters. Der
Jeffreys Prior für Poisson lautet:
1
g(µ) ∝ √
µ
für µ > 0
Dies ist ebenfalls ein uneigentlicher (improper) Prior!
g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ)
P
1
∝ √ × µ yi e−nµ
µ
P
∝ µ
yi −1/2
e−nµ
P
Dies entspricht einer gamma(p, b) Verteilung mit p = y + 21
und b = n. Wiederum erhalten wir einen normierten Posterior,
obwohl wir mit einem improper Prior gestartet waren.
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
26 / 28
Konjugierte Priors für Poisson
Die Gammaverteilung bildet die Familie von konjugierten Priors
für Poisson, d.h. sowohl Prior als auch Posterior stammen aus
der gleichen Familie. Für eine Stichprobe y1 , . . . , yn aus einer
Poissonverteilung und einer Prior gamma(p, b) ergibt sich der
Posterior:
X
gamma(p0 , b0 )
mit p0 = p +
y , b0 = b + n
Der Prior lässt sich leicht aus einer Kenntnis von Mittelwert µ
und Varianz s2 konstruieren. Aus
µ=
p
b
und s2 =
p
b2
p=
µ2
s2
und b =
µ
s2
folgt
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
27 / 28
press any key
Dr. Michael O. Distler <[email protected]>
Statistics, Data Analysis, and Simulation – SS 2017
28 / 28
Herunterladen