– – MCMC 1 – 2 – 3 Prior 1 2 3 – – BAYESianische Statistik für Einsteiger MCMC Verteilungen a priori Dr. rer. pol. R. VONTHEIN, Dipl. Statistiker (Univ.) Institut für Medizinische Biometrie und Statistik, Universitätsklinikum Schleswig-Holstein, Campus Lübeck, Universität zu Lübeck Dr. sc. hum. J. KÖNIG, Dipl. Mathematiker Inst. für Med. Biometrie, Epidemiologie und Informatik, Universitätsmedizin Mainz 54. GMDS, Essen 09.09.2009 1 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Inhalt MCMC 1. GIBBS Sampler und METROPOLIS-HASTINGS-Schritte 2. Reparametrisierung und „Blockbildung“ 3. Konvergenzdiagnose Verteilungen a priori 1. Konjugierte Verteilungen 2. Uneigentliche Verteilungen 3. Elizitieren 54. GMDS, Essen 09.09.2009 2 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – MCMC Idee: Aus Vorschlagsverteilungen werden Werte für die Parameter generiert („Monte-Carlo-Methode“). Die Vorschlagsverteilungen werden aufdatiert, so dass die Parameterwerte eine azyklische MARKOV-Kette bilden und die Verteilung der generierten Werte gegen die Verteilung a posteriori konvergiert. Die Startverteilung ist die a-priori-Verteilung. 1. GIBBS Sampler und METROPOLIS-HASTINGS-Schritte 2. Reparametrisierung und „Blockbildung“ 3. Konvergenzdiagnose 54. GMDS, Essen 09.09.2009 3 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – GIBBS Sampler q fq x qq X x q Lq ; x q fq xdq Algorithmus 1. Vollständig bedingte Verteilungen für die Parameter Q(qj | x,q1, .. ,qj-1, qj+1, .. ,qJ) 2. Iterieren bis zur Konvergenz 3. 4. 1. generiere einen m-ten Wert qj(m) aus 2. datiere die nächste vollständig bedingte Verteilung auf Q(qj(m) | x,q1(m), .. ,qj-1(m), qj+1(m-1), .. ,qJ(m-1)) Simulieren aus der Verteilung a posteriori Parameter schätzen aus der generierten Stichprobe Geman S, Geman, D. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images. IEEE-PARMI 1984;6:721-741 Gelfand AE, Smith, AFN. Sampling-based approaches to calculating marginal densities. JASA 1990;85:398-409 54. GMDS, Essen 09.09.2009 4 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – METROPOLIS-HASTINGS-Schritte 1. 2. 3. 4. generiere Wert qj(m) aus einfacher Vorschlagsdichte g, welche aber auch aufdatiert wird akzeptiere mit Wahrscheinlichkeit a sonst bleibe bei qj(m) qj(m-1) a hängt davon ab, ob die vollständig bedingte Dichte ansteigt q ( m ) | x gq q ( m -1) | q ( m ) a min 1, ( m -1) (m) ( m -1) q | x gq q | q Metropolis N, Rosenbluth A, Rosenbluth M, Teller A, Teller E. Equation of state calculation by fast computing machines. J Chem Physics 1953;21:1087-92 Hastings WK. Monte Carlo sampling methods using Markov chains and their applications. Biometrika 1970;57:97-109 54. GMDS, Essen 09.09.2009 5 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Reparametrisierung q2 q2* q1 q1* Korrelierte Parameter führen zu Autokorrelation der Iterationen, langsamer Konvergenz, geringem effektivem Stichprobenumfang 54. GMDS, Essen 09.09.2009 6 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – „Blockbildung“ q2 q2 q1 q1 q1 und q2 werden aus einer gemeinsamen multivariaten Verteilung gleichzeitig generiert 54. GMDS, Essen 09.09.2009 7 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Konvergenzdiagnose q2 q2* q1 q1* Autokorrelationsfunktion fällt exponentiell Korrelation zwischen Parametern ist gering rapid mixing der MARKOV-Ketten im Graph, per ANOVA Einschwingen (burn in) des Polygonzugs ist beendet 54. GMDS, Essen 09.09.2009 8 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Verteilungen a priori Idee: Vorinformation formulieren 1. Konjugierte Verteilungen (s. Einleitung) 2. Uneigentliche Verteilungen als nicht-informative Verteilungen 3. Elizitieren Quantile, Momente, mit Elicitor 54. GMDS, Essen 09.09.2009 9 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Konjugierte Verteilungen 1. 2. 3. 4. Konjugierte Verteilungen (s. Einleitung) z.B. Exponentialfamilien; s. neuesten TAS Information in Anzahl Beobachtungen messbar, z.B. im Beta-Binomial-Modell die Summe der Parameter der Beta-Verteilung Sichern Existenz der Parameter der a-posteriori-Verteilung 54. GMDS, Essen 09.09.2009 10 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Uneigentliche Verteilungen als nicht-informative Verteilungen: minimiere FISHER-Information (maximiere Varianz), SHANNON-Information (maximiere Entropie) a popsteriori Konstante Dichte bedeutet Unfug: fq(0) = fq(10100) Translations- und Skalen-Invarianz für verschiedene Parameter erfordern verschiedene a-priori-Verteilungen uneigentliche a-posteriori-Verteilung leichter möglich 54. GMDS, Essen 09.09.2009 11 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Elizitieren „Herauslocken“ und formulieren der Vorinformation Lange Diskussion der Literatur! Diskontiere historische Kontrollen! Wahl der Verteilung nach Träger und Konjugiertheit Hyperparameter bestimmen über Quantile („unwahrscheinlich“, „gleichwahrscheinlich“) über Momente (Erwartung, Median) mit Programm Elicitor (WinBUGS für logistische Regression) 54. GMDS, Essen 09.09.2009 12 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Beispiel: historische Kontrolle Fauchére J-C, Dame C, Vonthein R, Koller B, Arri S, Wolf M, Bucher HU. An approach to using recombinant erythropoietin for neuroprotection in very preterm infants. Pediatrics 2008:122:375-82 54. GMDS, Essen 09.09.2009 13 – – MCMC 1 – 2 – 3 Prior 1 2 3 – – Beispiel: historische Kontrolle … 54. GMDS, Essen 09.09.2009 14