Einführung in die Bayes-Statistik Helga Wagner Ludwig-Maximilians-Universität München WS 2010/11 Helga Wagner Bayes Statistik WS 2010/11 1 Organisatorisches • Termine: Montag: 16.00-18.00 AU115 Dienstag: 10.00-12.00: CIP-0042 • ab 2.11. am Dienstag Übung und Vorlesung wöchentlich abwechselnd • Homepage: http://www.statistik.lmu.de/ thomas/Lehre/wise1011/Bayes 1011/index.html • Folien zur Vorlesung werden über die Homepage zur Verfügung gestellt. Die Folien sind kein Skriptum, sie sollen Ihnen das Mitschreiben erleichtern! • Beurteilung: Klausur Helga Wagner Bayes Statistik WS 2010/11 2 Übersicht • Einleitung • Konjugierte Analysen einfacher Modelle – Poissondaten – Binärdaten – Normalverteilte Daten • Modellkritik • Modellwahl Helga Wagner Bayes Statistik WS 2010/11 3 Übersicht • Besondere Themen der Bayesianische Inferenz – Wahl der priori-Verteilung – Asymptotische Inferenz – Empirische Bayes-Verfahren • MCMC Verfahren – Gibbs Sampling – Metropolis-Hastigs-Algortihmus – Auxiliary Mixture Sampling Helga Wagner Bayes Statistik WS 2010/11 4 Literatur • Carlin, Bradley P. and Louis, Thomas A. (2009). Bayesian Method for Data Analysis. Chapman and Hall. • Gelman A., Carlin J.B., Stern H.S. and Rubin, D.R. (1995). Bayesian Data Analysis. Chapman and Hall, London • Held, Leonhard (2008). Methoden der statistischen Inferenz. Likelihood und Bayes. Spektrum Verlag, Heidelberg. • Hoff, Peter D. (2009). A first Course in Bayesian Statistics. Springer, New York. • Lee, Peter M. (2004). Bayesian Statistics, Oxford University Press, New York • Robert, Christian (2001). The Bayesian Choice, New York International Society for Bayesian Analysis (ISBA): http:www.bayesian.org Helga Wagner Bayes Statistik WS 2010/11 5 Einleitung Von der Bayes Regel zur Bayes Statistik Helga Wagner Bayes Statistik WS 2010/11 6 Thomas Bayes In Essay Towards solving a Problem in the Doctrine of Chances (1763) löst Bayes das Problem der inver” sen“Wahrscheinlichkeiten. =⇒ Bayes Regel Reverend Thomas Bayes (*1702 in London, †1761) Helga Wagner Bayes Statistik WS 2010/11 7 Beispiel: Screening-Test Vorhandene Information • Prävalenz der Krankheit in der Bevölkerung P (A) • Eigenschaften des Screening-Tests – Sensitiviät P (T + |A) – Spezifität: P (T − |AC ) Mit welcher Wahrscheinlichkeit ist eine Person erkrankt, wenn der Test positiv ausfällt, d.h. wie groß ist der positive Vorhersagewert P (A|T +) ? Helga Wagner Bayes Statistik WS 2010/11 8 Die Bayes-Regel Für zwei Ereignisse A und B gibt die Bayes-Regel gibt an, wie die Information über das Eintreffen von B die Wahrscheinlichkeit von A verändert: Bayes Regel: P (A|B) = P (B|A)P (A) . P (B) Berechnung: Nach dem Satz von der totalen Wahrscheinlichkeit ist P (B) = P (B|A)P (A) + P (B|AC )P (AC ) Helga Wagner Bayes Statistik WS 2010/11 9 Die Bayes-Regel Die Wahrscheinlichkeit dass sowohl A als auch B eintritt, kann auf zwei Arten geschrieben werden: P (A ∩ B) = P (A|B)P (B), P (A ∩ B) = P (B|A)P (A). Daher ist P (A|B)P (B) = P (A ∩ B) = P (B|A)P (A). und die Bayes-Regel folgt unmittelbar. Helga Wagner Bayes Statistik WS 2010/11 10 Aktualisieren der Information Sind A und B stochastisch u.a., d.h. P (A ∩ B) = P (A)P (B), dann ergibt sich aus der Bayes Regel P (A|B) = P (A) und P (A|B C ) = P (A). Aus der Kenntnis von B lernen wir also nichts über A. Sind A und B stochastisch abhängig, dann ist entweder P (A ∩ B) > P (A)P (B) or P (A ∩ B) < P (A)P (B). Ist P (A ∩ B) > P (A)P (B), dann folgt aus der Bayes Regel P (A|B) > P (A). Das Eintreten von B erhöht die Wahrscheinlichkeit, dass A eintrifft; Nichteintreffen von B verringert die Wahrscheinlichkeit, dass A eintritt! Helga Wagner Bayes Statistik WS 2010/11 11 Beispiel: Screening-Test • Prävalenz: 2 von 1000 • Sensitivität: 98%; Spezifität: 93.5% T+ T− Summe P (∼ |A) 0.980 0.020 1.000 P (∼ |Ac) 0.065 T+ =⇒ 0.935 T− 1.000 ohne Test P (A|T +) ≈ 15P (A) Helga Wagner Bayes Statistik P (A| ∼) 0.02933 0.00004 0.002 P (AC | ∼) 0.97067 0.99996 0.998 Summe 1.000 1.000 1 P (A|T −) ≈ P (A) 50 WS 2010/11 12 Beispiel: Qualitätskontrolle Ein Los von Stücken wurde mit Wahrscheinlichkeit 0.7 in Firma A und mit Wahrscheinlichkeit 0.3 in Firma B produziert. Die Ausschußquote beträgt 1% in Firma A 5% in Firma B Die Information über den Produzenten ist verlorengegangen. Bei einer Kontrolle von n Stücken werden y Ausschußstücke entdeckt. Ist aus diesem Ergebnis ein Rückschluß auf den Produzenten möglich? Helga Wagner Bayes Statistik WS 2010/11 13 Beispiel: Qualitätskontrolle Definition der Ereignisse A and AC : A : Firma A ist Produzent des Loses. AC : Firma B ist Produzent des Loses. Die a priori Wahrscheinlichkeiten dieser Ereignisse sind bekannt: P (A) = 0.7 und P (AC ) = 0.3 Gesucht sind die posteriori Wahrscheinlichkeiten von A und AC , wenn das Ergebnis der Stichprobenkontrolle bekannt ist. Helga Wagner Bayes Statistik WS 2010/11 14 Beispiel: Qualitätskontrolle • Beobachtet wird eine diskrete Zufallsvariable Y , die Werte aus einem Stichprobenraum Y annimmt • Die Stichprobenverteilung von Y hängt davon ab, ob A oder AC vorliegt. • Die möglichen Ergebnisse der Kontrolle sind die Elementarereignisse Y = y. Helga Wagner Bayes Statistik WS 2010/11 15 Beispiel: Qualitätskontrolle • Für die posteriori-Wahrscheinlichkeiten P (A|{Y = y}) und P (AC |{Y = y}) = 1 − P (A|{Y = y}) gilt: P (A|y) ∝ P (y|A)P (A), P (AC |y) ∝ P (y|AC )P (AC ). • Die (normalisierte) posteriori-Wahrscheinlichkeit ist gegeben als P (A|y) = P (A|y) = Helga Wagner Bayes Statistik P (y|A)P (A) . C C P (y|A)P (A) + P (y|A )P (A ) WS 2010/11 16 Beispiel: Qualitätskontrolle Y zählt die Anzahl der defekten Stücke in einer Stichprobe vom Umfang n: Y ∼ BiNom (n, π) . π ist die Ausschußwahrscheinlichkeit =⇒ p(y|A) = C p(y|A ) = Helga Wagner n y ! 0.01y · 0.99n−y y = 0, 1, . . . , n n y ! 0.05y · 0.95n−y y = 0, 1, . . . , n Bayes Statistik WS 2010/11 17 Beispiel: Qualitätskontrolle Für die posteriori Wahrscheinlichkeiten gilt P (A|y) ∝ p(y|A)P (A) ∝ 0.01y · 0.99n−y · 0.7, P (AC |y) ∝ p(y|AC )P (AC ) ∝ 0.05y · 0.95n−y · 0.3, Die Normierungskonstante p(y) ist p(y) = p(y|A)p(A) + p(y|AC )p(AC ) = = 0.01y · 0.99n−y · 0.7 + 0.05y · 0.95n−y · 0.3. Helga Wagner Bayes Statistik WS 2010/11 18 Beispiel: Qualitätskontrolle Bei einem Stichprobenumfang von n = 100 ergeben sich folgende posteriori Wahrscheinlichkeiten dafür, dass das Los in Firma A bzw. B produziert wurde: y P (A|y) P (AC |y) 0 0.993 0.007 1 0.965 0.035 2 0.842 0.158 3 0.505 0.495 4 0.164 0.836 5 0.036 0.964 6 0.007 0.993 Eine Änderung der a-priori Wahrscheinlichkeit für Firma A auf P (A) = 0.5 führt zu folgenden posteriori Wahrscheinlichkeiten: y P (A|y) P (AC |y) Helga Wagner 0 0.984 0.016 1 0.922 0.077 Bayes Statistik 2 0.695 0.305 3 0.304 0.696 4 0.077 0.923 WS 2010/11 5 0.016 0.984 6 0.003 0.997 19 Beispiel: Qualitätskontrolle Schlussfolgerungen: • die Information, die über den Produzenten in den Daten enthalten ist, hängt vom beobachteten Wert y ab • die a-priori Verteilung spielt dann eine Rolle, wenn die Information in den Daten gering ist Helga Wagner Bayes Statistik WS 2010/11 20 Bayes-Inferenz Inferenzproblem der Statistik: • Beobachtet werden Daten y = (y1, . . . , yn) aus dem Stichprobenraum Y. • Die Daten y werden durch ein stochastisches Modell mit unbekanntem Parameter ϑ ∈ Θ beschrieben. • Welche Information enthalten die Daten über den Parameter ϑ ? Klassischer Ansatz: • Spezifikation der Stichprobenverteilung p(y|ϑ) • Inferenz basierend auf der Likelihoodfunktion L(ϑ|y) Helga Wagner Bayes Statistik WS 2010/11 21 Der Bayes Ansatz Im Bayes Ansatz wird Wahrscheinlichkeit“als Maß der Unsicherheit verwendet. ” (Subjektive) Unsicherheit bzw. Vorwissen wird durch Wahrscheinlichkeitsverteilungen quantifiziert. Bestandteile eines statistischen Modells sind • die beobachtbaren Größen, die Daten y • die interessierenden unbeobachtbaren Größen, der unbekannte Parameter ϑ Helga Wagner Bayes Statistik WS 2010/11 22 Der Bayes Ansatz Bevor Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher =⇒ gemeinsames stochastisches Modell für (y, ϑ) • Die Unsicherheit über ϑ wird durch die Priori-Verteilung p(ϑ) quantifiziert. • Das stochastische Modell p(y|ϑ) beschreibt für alle ϑ ∈ Θ und y ∈ Y die Vorstellungen über die Generierung der Daten, wenn der Parameter den Wert ϑ hat. Helga Wagner Bayes Statistik WS 2010/11 23 Der Satz von Bayes Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert: Die gesamte verfügbare Information über ϑ wird durch die posterioriVerteilung p(ϑ|y) beschrieben. Diese ist nach dem Satz von Bayes gegeben als p(ϑ|y) = p(y|ϑ)p(ϑ) . p(y) (1) Der Satz von Bayes beschreibt, wie die Information in den Daten die Unsicherheit über den Parameter ändert. Helga Wagner Bayes Statistik WS 2010/11 24 Der Satz von Bayes p(ϑ|y) ∝ p(y|ϑ)p(ϑ). (2) posteriori-Dichte ∝ likelihood × priori-Dichte Der Satz von Bayes gilt für stetige und diskrete Zufallsvariable y and ϑ. p(∼) bezeichnet • die Wahrscheinlichkeitsdichte für stetige Zufallsvariable • die Wahrscheinlichkeitsfunktion für diskrete Zufallsvariable Helga Wagner Bayes Statistik WS 2010/11 25 Die Normierungskonstante Für die Normierungskonstante p(y) gilt: • Ist ϑ diskret mit mehr als zwei Ausprägungen aus dem Parameterraum Θ, dann ist p(y) = X p(y|ϑ)p(ϑ). ϑ∈Θ • Ist ϑ eine stetige Zufallsgröße mit Parameterraum Θ, dann ist p(y) = Z p(y|ϑ)p(ϑ)dϑ. Θ Helga Wagner Bayes Statistik WS 2010/11 26 Beispiel: Bayes (1763) • Eine Billard-Kugel wird auf eine Gerade der Länge 1 gerollt. Die Wahrscheinlichkeit dafür, dass sie an einem Punkt π zu liegen kommt, ist konstant für alle π ∈ [0, 1] • Eine zweite Kugel wird unter denselben Bedingungen n-mal gerollt. y gibt die Zahl der Versuche an, in denen die zweite Kugel links von π zu liegen kommt. Welche Information über π erhalten wir aus den Daten y? • Priori-Verteilung: p(π) = I{[0,1]}(π) • Likelihood: p(y|π) = Helga Wagner n y ! Bayes Statistik π y (1 − π)n−y WS 2010/11 27 Beispiel: Bayes (1763) Posteriori-Verteilung: p(y|π)p(π) π y (1 − π)n−y I{[0,1]}(π) p(π|y) = = R1 p(y) π y (1 − π)n−y dπ 0 Wegen ist Z 1 π y (1 − π)n−y dπ = B(y + 1, n − y + 1) 0 π y (1 − π)n−y I{[0,1]}(π) p(π|y) = , B(y + 1, n − y + 1) d.h. die posteriori-Verteilung von π ist die B (y + 1, n − y + 1)-Verteilung. Helga Wagner Bayes Statistik WS 2010/11 28 Beispiel: Bayes (1763) 0 2 4 6 f(π|y) 8 10 12 n = 10, y = 1 n = 20, y = 2 n = 100, y = 10 0.0 0.2 0.4 0.6 0.8 1.0 π Die Posteriori-Verteilung enthält die gesamte (nach Beobachtung der Daten) zur Verfügung stehende Information über π. Helga Wagner Bayes Statistik WS 2010/11 29 Beispiel: Bayes (1763) Aus der Posteriori-Verteilung ergibt sich: • P (0.08 < π < 0.012|y) = 0.169 für n = 10 und y = 1 bzw. P (0.08 < π < 0.012|y) = 0.495 für n = 100 und y = 10 • P (π < 0.15|y) = 0.508 für n = 10, y = 1 bzw. P (π < 0.15|y) = 0.907 für n = 100, y = 10. Damit ist Helga Wagner P (π < 0.15|y) = 1.03 P (π > 0.15|y) für n = 10, y = 1 P (π < 0.15|y) = 9.78 P (π > 0.15|y) für n = 100, y = 10 Bayes Statistik WS 2010/11 30