Mainz, 25. Juni 2013 Statistics, Data Analysis, and Simulation – SS 2013 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <[email protected]> 8. Einführung in die Bayes-Statistik Wiederholung von: 1.1 Theory of probability Probability theory, mathematics: −→ Kolmogorov axioms Classical interpretation, frequentist probability: Pragmatical definition of probability: n N→∞ N p(E) = lim n(E) = number of events E N = number of trials (experiments) Experiments have to be repeatable (in principle). Disadvantage: Strictly speaking one cannot make statements on the probability of any true value. Only upper and lower limits are possible given a certain confidence level. 1.1 Theory of probability Probability theory, mathematics Classical interpretation, frequentist probability Bayesian statistics, subjective probability: Prior subjective assumptions enter into the calculation of probabilities of a hypotheses H. p(H) = degree of belief that H is true Metaphorically speaking: Probabilities are the ratio of the (maximum) wager and the anticipated prize in a bet. 1.1 Theory of probability Probability theory, mathematics Classical interpretation, frequentist probability Bayesian statistics, subjective probability: Disadvantage: Prior hypotheses influence the probability. Advantages for rare and one-time events, like noisy signals or catastrophe modeling. 1.1 Theory of probability Probability theory, mathematics Classical interpretation, frequentist probability Bayesian statistics, subjective probability: Disadvantage: Prior hypotheses influence the probability. Advantages for rare and one-time events, like noisy signals or catastrophe modeling. In this lecture we will focus on the classical statistics, e.g. error estimates have to be understood as confidence regions. Bayes–Theorem Aus der Gleichung p(A und B) = p(A) · p(B|A) = p(B) · p(A|B) erhält man das Bayes-Theorem: p(A|B) = p(B|A) · p(A) p(B) Bayes–Theorem für diskrete Ereignisse p(A|B) = p(B|A) · p(A) p(B) Beispiel: In einem Experiment soll der leptonische Zerfall der K0 -Mesonen studiert werden. Es ist geplant, einen ČerenkovDetektor zu verwenden, um die Leptonen nachzuweisen. Dazu muss untersucht werden, ob ein Detektor ausreicht, um die leptonischen Ereignisse von dem kleinen Untergrund abzutrennen, der ebenfalls den Detektor auslösen kann. p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis den Čerenkov-Detektor auslöst. p(A) ≡ Wahrscheinlichkeit, dass sich ein echter leptonischer Zerfall ereignet. p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches Ereignis den Čerenkov-Detektor auslöst p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis um einen echten leptonischen Zerfall handelt, unter der Voraussetzung, dass der Čerenkov-Detektor auslöst. Bayes–Theorem für diskrete Ereignisse p(A|B) = p(B|A) · p(B) ≡ p(A) p(B) Wahrscheinlichkeit, dass ein Ereignis den Čerenkov-Detektor auslöst. p(A) ≡ Wahrscheinlichkeit, dass sich ein echter leptonischer Zerfall ereignet. p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches Ereignis den Čerenkov-Detektor auslöst p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis um einen echten leptonischen Zerfall handelt, unter der Voraussetzung, dass der Čerenkov-Detektor auslöst. p(B) kann gemessen werden. p(A) ergibt sich aus früheren Messungen bzw. Theorie. p(B|A) wird aus einer Simulation bestimmt. ,→ p(A|B) Bayes-Theorem für Bayesianer Wenn es sich bei A und B nicht um Ereignisklassen sondern um Hypothesen handelt, dann wird der Unterschied zwischen den beiden Statistik-Schulen offensichtlich. Als frequentist kann man einer Hypothese keine Wahrscheinlichkeit zuweisen. Der bayesian interpretiert p(H) als Grad des Vertrauens in die Hypothese. p(H|E) = p(H) ≡ p(H|E) p(E|H) p(E) ≡ ≡ ≡ p(H) · p(E|H) p(E) prior Wahrscheinlichkeit Wissen (Grad des Vertrauens) vor der Datennahme posterior Wahrscheinlichkeit likelihood Normalisierungsfaktor Das Ergebnis (Erwartungswert, Varianz, . . . ) einer Bayes-Analyse wird allein dem posterior entnommen. Cookie-Problem Stellen Sie sich 2 gefüllte Keksdosen vor. Dose 1 enthält 10 Chocolate Chip Cookies und 30 Plain Cookies. Bei Dose 2 ist des Verhältnis 20/20. Unser Freund Fred wählt zunächst zufällig eine Keksdose aus und entnimmt dann zufällig einen Cookie. Es ist ein Plain Cookie. Mit welcher Wahrscheinlichkeit stammt er aus Dose 1? Hypothesen: H1 : der Keks stammt aus Dose 1. H2 : der Keks stammt aus Dose 2. Prior: p(H1 ) = p(H2 ) = 1/2 Ereignis: E: der Keks ist ein Plain Cookie. Likelihood: p(E|H1 ) = 3/4 p(E|H2 ) = 1/2 Bayes-Theorem: p(H1 |E) = 3 p(H1 ) × p(E|H1 ) = p(H1 ) · p(E|H1 ) + p(H2 ) · p(E|H2 ) 5 Betaverteilung Wahrscheinlichkeitsdichte der Betaverteilung f (x) = 1 x p−1 (1 − x)q−1 B(p, q) x ∈ [0, 1] mit der Eulerschen Betafunktion Z 1 Γ(p)Γ(q) B(p, q) = = u p−1 (1 − u)q−1 du Γ(p + q) 0 Extremum: xextrem p−1 q − 1 −1 = 1+ = p−1 p+q−2 Erwartungswert und Varianz: E(X ) = p p+q Var(X ) = pq (p + q + 1)(p + q)2 Betaverteilung beta(.5,.5) 0 0.5 beta(.5,1.) 1 0 beta(1.,.5) 0 0.5 0.5 1 0 0.5 0 0.5 1 0 0.5 1 0 0 0.5 1 0 0.5 1 0 0.5 1 0 0 0.5 1 0.5 1 beta(2.,3.) 1 0 beta(3.,2.) 1 0.5 beta(1.,3.) beta(2.,2.) beta(3.,1.) 1 0.5 beta(.5,3.) beta(1.,2.) beta(2.,1.) beta(3.,.5) 0 1 beta(1.,1.) beta(2.,.5) 0 0.5 beta(.5,2.) 0.5 1 beta(3.,3.) 1 0 0.5 1 Referendum Beispiel: Es steht ein Referendum wegen eines Bauvorhabens in Ihrer Stadt aus. Da Sie im Bekanntenkreis das Thema bereits diskutiert haben, gehen Sie von einer knappen Entscheidung aus, wobei Sie sich sicher sind (C.L.: 95%), dass weder Befürworter noch Gegner mehr als 60% der Stimmen erreichen werden. Aus Ihrem Vorwissen konstruieren Sie Prior (Betaverteilung): E(X ) = Var(X ) = p = 0.5 p+q pq (p + q)2 (p + q + 1) ⇒ = p=q 1 = (0.05)2 4(2p + 1) Nähert man also die Betaverteilung mit der Normalverteilung und setzt 95%C.L. ' 2σ ' ±10% so ergibt sich p = q ' 50 (die exakte Rechnung ergibt p = q = 47.3). Referendum (Teil 2) In einer repräsentativen Umfrage haben sich von N = 1500 Betroffenen nur k = 720 Personen für das Bauvorhaben ausgesprochen. Ermitteln Sie die Wahrscheinlichkeit, dass im Referendum die Gegner eine Mehrheit erzielen. Die posterior Dichte g(x) ergibt sich aus: prior × likelihood Betaverteilung(x; p, q) × Binomialverteilung(x; N, k ) Γ(p)Γ(q) p−1 N! k N−k (1 − x)q−1 × k ! (N−k Γ(p+q) x )! x (1 − x) Im Falle eines Beta-Priors ergibt sich einfach: g(x) = Beta(x; p + k , q + N − k ) = Beta(x; 770, 830) Referendum (Teil 3) prior 12 posterior 45 Beta(x,50,50) Beta(x,30,70) Beta(x,0.5,0.5) Beta(x,1.,1.) 10 40 35 8 30 25 6 20 4 15 10 2 0 Beta(x,770,830) Beta(x,750,850) Beta(x,720.5,780.5) Beta(x,721,781) 5 0 0.2 0.4 0.6 0.8 1 0 0.42 0.44 0.46 0.48 0.5 0.52 0.54 Aus der roten Kurve (rechts) ermitteln wir unser Ergebis: Z 0.5 Beta(x; 770, 830)dx = 0.933 0 Das Referendum wird also mit einer Wahrscheinlichkeit von 93.3% abgelehnt. Referendum (Teil 4) 35 Beta(x,50,50) Beta(x,30,70) Beta(x,0.5,0.5) Beta(x,1.,1.) Beta(x,770,830) Beta(x,750,850) Beta(x,720.5,780.5) Beta(x,721,781) 30 25 20 15 10 5 0 0.2 0.3 0.4 0.5 0.6 Das Bild zeigt noch einmal deutlich, dass das Ergebnis nur schwach von der Wahl des Priors abhängt. 0.7 Vorsichtsmaßnahmen bei Verwendung eines konjugierten Priors z.B. Beta-Prior bei Binomialverteilungen 1 Plotten Sie Ihren Beta(p, q)-Prior. Passen Sie notfalls Mittelwert π0 und Varianz σ02 an, bis diese Ihren Vorstellungen entsprechen. 2 Berechnen Sie die äquivalente Stichprobengröße. Für den Fall, dass diese unrealistisch groß ist, vergrößern Sie die Varianz Ihres Priors und berechnen diesen neu. Für eine Binomialverteilung mit Trefferwahrscheinlichkeit π und Versuchsanzahl n ist die Varianz π(1 − π)/n. Dies setzen wir der Prior-Varianz gleich: pq π0 (1 − π0 ) = neq (p + q + 1)(p + q)2 Mit π0 = p p+q und (1 − π0 ) = q p+q ergibt sich neq = p + q + 1 Nichtinformative Priori-Dichten Ein nichtinformativer (engl. uninformative or objective) Prior drückt eine vage bzw. unbestimmte Kenntnis der gesuchten Größe aus. Die einfachste und älteste Methode einen nichtinformativen Prior zu konstruieren stellt das Indifferenzprinzip dar. Demnach wird allen Möglichkeiten die gleiche Wahrscheinlichkeit zugewiesen. Dabei kann leicht ein uneigentlicher (engl. improper) Prior entstehen, d.h. der Prior ist nicht normiert und damit auch keine Wahrscheinlichkeitsdichte. Das stellt jedoch im allgemeinen kein Problem dar, da sich die Posterior-Dichte meist normieren lässt. Der “flache” Prior ist jedoch nicht wirklich “objektiv”, wovon man sich leicht überzeugen kann, wenn man eine (nicht-lineare) Variablentransformation durchführt. Nach der Transformation ist der flache Prior nicht mehr flach. Bessere Eigenschaften besitzt der Jeffreys Prior, der ebenfalls als nichtinformativer Prior bezeichnet wird. Eine Bayes-Analyse mit einem nichtinformativen Prior liefert meist ähnliche oder identische Ergebnisse wie die klassische Maximum Likelihood Methode. Die Gammaverteilung Wahrscheinlichkeitsdichte der Gammaverteilung p b x p−1 e−bx x > 0 f (x) = Γ(p) 0 x ≤0 Maximum (für p > 1): xmax = p−1 b Erwartungswert: E(X ) = Varianz: Var(X ) = p b p b2 1.0 Gammaverteilung 0.6 0.5, 0.5, 1, b 1, b 2, b 2, b b=2 b=1 =2 =1 =2 =1 0.2 0.4 = = = = = = 0.0 Ɣ(p,b) 0.8 p p p p p p 0 1 2 3 x 4 5 Bayes-Theorem für Poisson Parameter Wir betrachten eine Stichprobe y1 , . . . , yn aus einer Poisson(µ) Verteilung. Die Proportionalitätsform des Bayes-Theorems lautet: posterior ∝ prior × likelihood g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ) Durch Normierung erhalten wir die tatsächliche Posterior Dichte: g(µ|y1 , . . . , yn ) = R ∞ 0 g(µ) × f (y1 , . . . , yn |µ) g(µ) × f (y1 , . . . , yn |µ) dµ Likelihood für Poisson Parameter Die Likelihood für eine einmalige Ziehung von einer Poisson-Verteilung ist bekannt: f (y |µ) = µy e−µ y! Die Form wird dabei festgelegt durch f (y |µ) ∝ µy e−µ Für eine größere Stichprobe werden die ursprünglichen Likelihoods multipliziert: f (y1 , . . . , yn |µ) = n Y i=1 P ∝ µ f (yi |µ) yi e−nµ Gleichverteilte Prior Dichte Wenn wir keine Information über µ haben, bevor wir die Daten betrachten, dann wäre ein gleichverteilter Prior eine mögliche Wahl: g(µ) = 1 für µ > 0 Dies ist ein uneigentlicher (improper) Prior! g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ) ∝ 1×µ P yi e−nµ P Dies entspricht einer gamma(p, b) Verteilung mit p = y + 1 und b = n. Somit erhalten wir einen normierten Posterior, obwohl wir mit einem improper Prior gestartet waren. Jeffreys Prior für Poisson Ein Jeffreys Prior ist objektiv in dem Sinne, dass er invariant ist unter bestimmten Transformationen des Parameters. Der Jeffreys Prior für Poisson lautet: 1 g(µ) ∝ √ µ für µ > 0 Dies ist ebenfalls ein uneigentlicher (improper) Prior! g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ) P 1 ∝ √ × µ yi e−nµ µ P ∝ µ yi −1/2 e−nµ P Dies entspricht einer gamma(p, b) Verteilung mit p = y + 21 und b = n. Wiederum erhalten wir einen normierten Posterior, obwohl wir mit einem improper Prior gestartet waren. Konjugierte Priors für Poisson Die Gammaverteilung bildet die Familie von konjugierten Priors für Poisson, d.h. sowohl Prior als auch Posterior stammen aus der gleichen Familie. Für eine Stichprobe y1 , . . . , yn aus einer Poissonverteilung und einer Prior gamma(p, b) ergibt sich der Posterior: X gamma(p0 , b0 ) mit p0 = p + y , b0 = b + n Der Prior lässt sich leicht aus einer Kenntnis von Mittelwert µ und Varianz s2 konstruieren. Aus µ= p b und s2 = p b2 p= µ2 s2 und b = µ s2 folgt press any key