Mainz, 19. Juni 2017 Statistics, Data Analysis, and Simulation – SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <[email protected]> Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 1 / 28 6. Einführung in die Bayes-Statistik Wiederholung von: 1.1 Wahrscheinlichkeitstheorie Wahrscheinlichkeitstheorie, Mathematik: −→ Axiome von Kolmogorov Klassische Interpretation, frequentist probability: Pragmatische Interpretation der Wahrscheinlichkeit: n N→∞ N p(E) = lim n(E) = Zahl der Ereignisse E N = Zahl der Versuche (Experimente) Experimente müssen (im Prinzip) wiederholbar sein. Nachteil: Genaugenommen können wir keine Aussagen über die Wahrscheinlichkeit eines wahren Wertes machen. Nur untere und obere Grenzen können mit einer bestimmten Konfidenz festgelegt werden. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 2 / 28 Theory of probability Wahrscheinlichkeitstheorie, Mathematik Klassische Interpretation, frequentist probability Bayesian Statistik, subjektive Wahrscheinlichkeit: Subjektive Vorurteile gehen in die Berechnung der Wahrscheinlichkeit einer Hypothese H ein. p(H) = Grad des Vertrauens, dass H wahr ist Bildlich gesprochen: Wahrscheinlichkeiten ergeben sich aus dem Verhältnis von (maximalen) Einsatz und angenommenem Gewinn bei einer Wette. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 3 / 28 Theory of probability Wahrscheinlichkeitstheorie, Mathematik Klassische Interpretation, frequentist probability Bayesian Statistik, subjektive Wahrscheinlichkeit: Nachteil: Die Vorurteile beeinflussen die Wahrscheinlichkeit. Vorteil für seltene und einmalige Ereignisse, wie verrauschte Signale oder Katastrophen-Modelle. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 3 / 28 Theory of probability Wahrscheinlichkeitstheorie, Mathematik Klassische Interpretation, frequentist probability Bayesian Statistik, subjektive Wahrscheinlichkeit: Nachteil: Die Vorurteile beeinflussen die Wahrscheinlichkeit. Vorteil für seltene und einmalige Ereignisse, wie verrauschte Signale oder Katastrophen-Modelle. In dieser Vorlesung hatten wir uns zunächst auf die klassische Statistik konzentriert, d.h. Fehlerabschätzungen werden als Konfidenzintervalle verstanden. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 3 / 28 Theory of probability Wahrscheinlichkeitstheorie, Mathematik Klassische Interpretation, frequentist probability Bayesian Statistik, subjektive Wahrscheinlichkeit: Nachteil: Die Vorurteile beeinflussen die Wahrscheinlichkeit. Vorteil für seltene und einmalige Ereignisse, wie verrauschte Signale oder Katastrophen-Modelle. In diesem Kapitel werden wir die Bayes Statistik behandeln. Statistische Rückschlüsse (z.B. Mittelwert, Varianz) werden ausschließlich den posterior Verteilungen entnommen. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 3 / 28 Bayes–Theorem Aus der Gleichung p(A und B) = p(A) · p(B|A) = p(B) · p(A|B) erhält man das Bayes-Theorem: p(A|B) = p(B|A) · Dr. Michael O. Distler <[email protected]> p(A) p(B) Statistics, Data Analysis, and Simulation – SS 2017 4 / 28 Bayes–Theorem für diskrete Ereignisse p(A|B) = p(B|A) · p(A) p(B) Beispiel: In einem Experiment soll der leptonische Zerfall der K0 -Mesonen studiert werden. Es ist geplant, einen ČerenkovDetektor zu verwenden, um die Leptonen nachzuweisen. Dazu muss untersucht werden, ob ein Detektor ausreicht, um die leptonischen Ereignisse von dem kleinen Untergrund abzutrennen, der ebenfalls den Detektor auslösen kann. p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis den Čerenkov-Detektor auslöst. p(A) ≡ Wahrscheinlichkeit, dass sich ein echter leptonischer Zerfall ereignet. p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches Ereignis den Čerenkov-Detektor auslöst p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis um einen echten leptonischen Zerfall handelt, unter der Voraussetzung, dass der Čerenkov-Detektor auslöst. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 5 / 28 Bayes–Theorem für diskrete Ereignisse p(A|B) = p(B|A) · p(B) p(A) p(B) ≡ Wahrscheinlichkeit, dass ein Ereignis den Čerenkov-Detektor auslöst. p(A) ≡ Wahrscheinlichkeit, dass sich ein echter leptonischer Zerfall ereignet. p(B|A) ≡ Wahrscheinlichkeit, dass ein echtes leptonisches Ereignis den Čerenkov-Detektor auslöst p(A|B) ≡ Wahrscheinlichkeit, dass es sich bei einem Ereignis um einen echten leptonischen Zerfall handelt, unter der Voraussetzung, dass der Čerenkov-Detektor auslöst. p(B) kann gemessen werden. p(A) ergibt sich aus früheren Messungen bzw. Theorie. p(B|A) wird aus einer Simulation bestimmt. ,→ p(A|B) Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 6 / 28 Bayes-Theorem für Bayesianer Wenn es sich bei A und B nicht um Ereignisklassen sondern um Hypothesen handelt, dann wird der Unterschied zwischen den beiden Statistik-Schulen offensichtlich. Als frequentist kann man einer Hypothese keine Wahrscheinlichkeit zuweisen. Der bayesian interpretiert p(H) als Grad des Vertrauens in die Hypothese. p(H|E) = p(H) ≡ p(H|E) p(E|H) p(E) ≡ ≡ ≡ p(H) · p(E|H) p(E) prior Wahrscheinlichkeit Wissen (Grad des Vertrauens) vor der Datennahme posterior Wahrscheinlichkeit likelihood Normalisierungsfaktor Das Ergebnis (Erwartungswert, Varianz, . . . ) einer Bayes-Analyse wird allein dem posterior entnommen. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 7 / 28 Cookie-Problem Stellen Sie sich 2 gefüllte Keksdosen vor. Dose 1 enthält 10 Chocolate Chip Cookies und 30 Plain Cookies. Bei Dose 2 ist des Verhältnis 20/20. Unser Freund Fred wählt zunächst zufällig eine Keksdose aus und entnimmt dann zufällig einen Cookie. Es ist ein Plain Cookie. Mit welcher Wahrscheinlichkeit stammt er aus Dose 1? Hypothesen: H1 : der Keks stammt aus Dose 1. H2 : der Keks stammt aus Dose 2. Prior: p(H1 ) = p(H2 ) = 1/2 Ereignis: E: der Keks ist ein Plain Cookie. Likelihood: p(E|H1 ) = 3/4 p(E|H2 ) = 1/2 Bayes-Theorem: p(H1 |E) = 3 p(H1 ) × p(E|H1 ) = p(H1 ) · p(E|H1 ) + p(H2 ) · p(E|H2 ) 5 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 8 / 28 Bayessche Inferenz∗ für Binomialexperimente Häufig hat man es mit großen Populationen zu tun, von der ein Anteil p ein gewisse Eigenschaft aufweist. Beispiel: Für die Bevölkerung einer Stadt könnte die Eigenschaft lauten „plant Kandidat A bei der Bürgermeisterwahl zu wählen“. Wir zählen die Anzahl von “Erfolgen” in n unabhängigen Versuchen, wobei jeder Versuch nur zwei mögliche Ergebnisse haben kann: Erfolg oder Miserfolg. Erfolg bedeutet, dass bei dem i-ten Versuch die geforderte Eigenschaft auftrat. Die Anzahl von Erfolgen in n Versuchen, die Erfolgswahrscheinlichkeit bei jedem einzelnen Versuch sei p, ist binomialverteilt. Die bedingte Wahrscheinlichkeit ist: n f (k |p) = pk (1 − p)n−k k ∈ [1, n] k ∗ Dr. Michael O. Distler <[email protected]> Inferenz = Schlussfolgerung Statistics, Data Analysis, and Simulation – SS 2017 9 / 28 Betaverteilung Wahrscheinlichkeitsdichte der Betaverteilung f (x; a, b) = 1 x a−1 (1 − x)b−1 B(a, b) x ∈ [0, 1] mit der Eulerschen Betafunktion Z 1 Γ(a)Γ(b) B(a, b) = = u a−1 (1 − u)b−1 du Γ(a + b) 0 Extremum: xextrem b − 1 −1 a−1 = 1+ = a−1 a+b−2 Erwartungswert und Varianz: E(X ) = a a+b Var(X ) = Dr. Michael O. Distler <[email protected]> a·b (a + b + 1)(a + b)2 Statistics, Data Analysis, and Simulation – SS 2017 10 / 28 Betaverteilung beta(.5,.5) 0 0.5 beta(.5,1.) 1 0 beta(1.,.5) 0 0.5 0.5 1 0 0.5 0 0.5 1 0 0.5 1 0 0 0.5 Dr. Michael O. Distler <[email protected]> 1 0 0.5 1 0 0.5 1 0 0 0.5 1 0.5 1 beta(2.,3.) 1 0 beta(3.,2.) 1 0.5 beta(1.,3.) beta(2.,2.) beta(3.,1.) 1 0.5 beta(.5,3.) beta(1.,2.) beta(2.,1.) beta(3.,.5) 0 1 beta(1.,1.) beta(2.,.5) 0 0.5 beta(.5,2.) 0.5 1 beta(3.,3.) 1 0 0.5 1 Statistics, Data Analysis, and Simulation – SS 2017 11 / 28 Referendum Beispiel: Es steht ein Referendum wegen eines Bauvorhabens in Ihrer Stadt aus. Da Sie im Bekanntenkreis das Thema bereits diskutiert haben, gehen Sie von einer knappen Entscheidung aus, wobei Sie sich sicher sind (C.L.: 95%), dass weder Befürworter noch Gegner mehr als 60% der Stimmen erreichen werden. Aus Ihrem Vorwissen konstruieren Sie den Prior: a E(X ) = = 0.5 ⇒ a = b a+b Var(X ) = (a + 1 ab = (0.05)2 = 4(2a + 1) + b + 1) b)2 (a Nähert man also die Betaverteilung mit der Normalverteilung und setzt 95%c.l. ' 2σ ' ±10% so ergibt sich a = b ' 50 (die exakte Rechnung ergibt a = b = 47.2998). Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 12 / 28 Referendum (exakte Berechnung der Betaverteilung) zu lösen ist: Z 0.6 f (x; a, a) dx = 0.95 0.4 Mathematica: f [α_] := NIntegrate[PDF[BetaDistribution[α, α], x], {x, 0.4, 0.6}] FindRoot[f [α] == 0.95, {α, 50}] Python: from scipy.stats import beta from scipy.optimize import newton def f(x): return (beta.cdf(0.6,x,x) -beta.cdf(0.4,x,x)-0.95) print(newton(f, 50)) Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 13 / 28 Referendum (Teil 2) In einer repräsentativen Umfrage haben sich von N = 1500 Betroffenen nur k = 720 Personen für das Bauvorhaben ausgesprochen. Ermitteln Sie die Wahrscheinlichkeit, dass im Referendum die Gegner eine Mehrheit erzielen. Die posterior Dichte g(x) ergibt sich aus: prior × likelihood Betaverteilung(x; a, b) × Binomialverteilung(x; N, k ) Γ(a+b) a−1 N! k N−k (1 − x)b−1 × k ! (N−k Γ(a)Γ(b) x )! x (1 − x) Im Falle eines Beta-Priors ergibt sich einfach: g(x) = Beta(x; a + k , b + N − k ) = Beta(x; 770, 830) Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 14 / 28 Referendum (Teil 3) prior 12 posterior 45 Beta(x,50,50) Beta(x,30,70) Beta(x,0.5,0.5) Beta(x,1.,1.) 10 40 35 8 30 25 6 20 4 15 10 2 0 Beta(x,770,830) Beta(x,750,850) Beta(x,720.5,780.5) Beta(x,721,781) 5 0 0.2 0.4 0.6 0.8 1 0 0.42 0.44 0.46 0.48 0.5 0.52 0.54 Aus der roten Kurve (rechts) ermitteln wir unser Ergebnis: Z 0.5 Beta(x; 770, 830)dx = 0.933 0 Das Referendum wird also mit einer Wahrscheinlichkeit von 93.3% abgelehnt. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 15 / 28 Referendum (Teil 4) 35 Beta(x,50,50) Beta(x,30,70) Beta(x,0.5,0.5) Beta(x,1.,1.) Beta(x,770,830) Beta(x,750,850) Beta(x,720.5,780.5) Beta(x,721,781) 30 25 20 15 10 5 0 0.2 0.3 0.4 0.5 0.6 0.7 Das Bild zeigt noch einmal deutlich, dass das Ergebnis nur schwach von der Wahl des Priors abhängt. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 16 / 28 Vorsichtsmaßnahmen bei Verwendung eines konjugierten Priors z.B. Beta-Prior bei Binomialverteilungen 1 Plotten Sie Ihren Beta(a, b)-Prior. Passen Sie notfalls Mittelwert π0 und Varianz σ02 an, bis diese Ihren Vorstellungen entsprechen. 2 Berechnen Sie die äquivalente Stichprobengröße. Für den Fall, dass diese unrealistisch groß ist, vergrößern Sie die Varianz Ihres Priors und berechnen diesen neu. Für eine Binomialverteilung mit Trefferwahrscheinlichkeit π und Versuchsanzahl n ist die Varianz π(1 − π)/n. Dies setzen wir der Prior-Varianz gleich: π0 (1 − π0 ) ab = neq (a + b + 1)(a + b)2 Mit π0 = a a+b und (1 − π0 ) = b a+b ergibt sich neq = a + b + 1 Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 17 / 28 Nichtinformative Priori-Dichten Ein nichtinformativer (engl. uninformative or objective) Prior drückt eine vage bzw. unbestimmte Kenntnis der gesuchten Größe aus. Die einfachste und älteste Methode einen nichtinformativen Prior zu konstruieren stellt das Indifferenzprinzip dar. Demnach wird allen Möglichkeiten die gleiche Wahrscheinlichkeit zugewiesen. Dabei kann leicht ein uneigentlicher (engl. improper) Prior entstehen, d.h. der Prior ist nicht normiert und damit auch keine Wahrscheinlichkeitsdichte. Das stellt jedoch im allgemeinen kein Problem dar, da sich die Posterior-Dichte meist normieren lässt. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 18 / 28 Nichtinformative Priori-Dichten Der “flache” Prior ist jedoch nicht wirklich “objektiv”, wovon man sich leicht überzeugen kann, wenn man eine (nicht-lineare) Variablentransformation durchführt. Nach der Transformation ist der flache Prior nicht mehr flach. Bessere Eigenschaften besitzt der Jeffreys Prior, der ebenfalls als nichtinformativer Prior bezeichnet wird. Eine Bayes-Analyse mit einem nichtinformativen Prior liefert meist ähnliche oder identische Ergebnisse wie die klassische Maximum Likelihood Methode. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 19 / 28 Bayessche Inferenz für Poisson Die Poisson-Verteilung wird verwendet, um das Auftreten von seltenen Ereignissen zu zählen. Die Ereignisse treten zufällig in Zeit (oder Raum) auf, jedoch mit einer konstanten mittleren Rate. Die Poisson-Verteilung kann etwa verwendet werden, um die Anzahl der Unfälle auf einer Autobahn innerhalb eines Monats zu modellieren. Allerdings kann es nicht verwendet werden, um die Zahl der Todesopfer auf der Autobahn zu modellieren, da einige Unfälle mehrere Todesopfer aufweisen können. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 20 / 28 Die Gammaverteilung Wahrscheinlichkeitsdichte der Gammaverteilung p b x p−1 e−bx x > 0 f (x) = Γ(p) 0 x ≤0 Maximum (für p > 1): xmax = p−1 b Erwartungswert: E(X ) = Varianz: Var(X ) = Dr. Michael O. Distler <[email protected]> p b p b2 Statistics, Data Analysis, and Simulation – SS 2017 21 / 28 1.0 Gammaverteilung 0.6 0.5, 0.5, 1, b 1, b 2, b 2, b b=2 b=1 =2 =1 =2 =1 0.4 = = = = = = 0.0 0.2 Ɣ(p,b) 0.8 p p p p p p 0 1 2 3 4 5 x Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 22 / 28 Bayes-Theorem für Poisson Parameter Wir betrachten eine Stichprobe y1 , . . . , yn aus einer Poisson(µ) Verteilung. Die Proportionalitätsform des Bayes-Theorems lautet: posterior ∝ prior × likelihood g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ) Durch Normierung erhalten wir die tatsächliche Posterior Dichte: g(µ|y1 , . . . , yn ) = R ∞ 0 Dr. Michael O. Distler <[email protected]> g(µ) × f (y1 , . . . , yn |µ) g(µ) × f (y1 , . . . , yn |µ) dµ Statistics, Data Analysis, and Simulation – SS 2017 23 / 28 Likelihood für Poisson Parameter Die Likelihood für eine einmalige Ziehung von einer Poisson-Verteilung ist bekannt: f (y |µ) = µy e−µ y! Die Form wird dabei festgelegt durch f (y |µ) ∝ µy e−µ Für eine größere Stichprobe werden die ursprünglichen Likelihoods multipliziert: f (y1 , . . . , yn |µ) = n Y i=1 P ∝ µ Dr. Michael O. Distler <[email protected]> f (yi |µ) yi e−nµ Statistics, Data Analysis, and Simulation – SS 2017 24 / 28 Gleichverteilte Prior Dichte Wenn wir keine Information über µ haben, bevor wir die Daten betrachten, dann wäre ein gleichverteilter Prior eine mögliche Wahl: g(µ) = 1 für µ > 0 Dies ist ein uneigentlicher (improper) Prior! g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ) ∝ 1×µ P yi e−nµ P Dies entspricht einer gamma(p, b) Verteilung mit p = y + 1 und b = n. Somit erhalten wir einen normierten Posterior, obwohl wir mit einem improper Prior gestartet waren. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 25 / 28 Jeffreys Prior für Poisson Ein Jeffreys Prior ist objektiv in dem Sinne, dass er invariant ist unter bestimmten Transformationen des Parameters. Der Jeffreys Prior für Poisson lautet: 1 g(µ) ∝ √ µ für µ > 0 Dies ist ebenfalls ein uneigentlicher (improper) Prior! g(µ|y1 , . . . , yn ) ∝ g(µ) × f (y1 , . . . , yn |µ) P 1 ∝ √ × µ yi e−nµ µ P ∝ µ yi −1/2 e−nµ P Dies entspricht einer gamma(p, b) Verteilung mit p = y + 21 und b = n. Wiederum erhalten wir einen normierten Posterior, obwohl wir mit einem improper Prior gestartet waren. Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 26 / 28 Konjugierte Priors für Poisson Die Gammaverteilung bildet die Familie von konjugierten Priors für Poisson, d.h. sowohl Prior als auch Posterior stammen aus der gleichen Familie. Für eine Stichprobe y1 , . . . , yn aus einer Poissonverteilung und einer Prior gamma(p, b) ergibt sich der Posterior: X gamma(p0 , b0 ) mit p0 = p + y , b0 = b + n Der Prior lässt sich leicht aus einer Kenntnis von Mittelwert µ und Varianz s2 konstruieren. Aus µ= p b und s2 = p b2 p= µ2 s2 und b = µ s2 folgt Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 27 / 28 press any key Dr. Michael O. Distler <[email protected]> Statistics, Data Analysis, and Simulation – SS 2017 28 / 28