Einführung in die Bayes-Statistik Helga Wagner Ludwig

Werbung
Einführung in die Bayes-Statistik
Helga Wagner
Ludwig-Maximilians-Universität München
WS 2010/11
Helga Wagner
Bayes Statistik
WS 2010/11
1
Organisatorisches
• Termine:
Montag: 16.00-18.00 AU115
Dienstag: 10.00-12.00: CIP-0042
• ab 2.11. am Dienstag Übung und Vorlesung wöchentlich abwechselnd
• Homepage:
http://www.statistik.lmu.de/ thomas/Lehre/wise1011/Bayes 1011/index.html
• Folien zur Vorlesung werden über die Homepage zur Verfügung gestellt. Die
Folien sind kein Skriptum, sie sollen Ihnen das Mitschreiben erleichtern!
• Beurteilung: Klausur
Helga Wagner
Bayes Statistik
WS 2010/11
2
Übersicht
• Einleitung
• Konjugierte Analysen einfacher Modelle
– Poissondaten
– Binärdaten
– Normalverteilte Daten
• Modellkritik
• Modellwahl
Helga Wagner
Bayes Statistik
WS 2010/11
3
Übersicht
• Besondere Themen der Bayesianische Inferenz
– Wahl der priori-Verteilung
– Asymptotische Inferenz
– Empirische Bayes-Verfahren
• MCMC Verfahren
– Gibbs Sampling
– Metropolis-Hastigs-Algortihmus
– Auxiliary Mixture Sampling
Helga Wagner
Bayes Statistik
WS 2010/11
4
Literatur
• Carlin, Bradley P. and Louis, Thomas A. (2009). Bayesian Method for Data
Analysis. Chapman and Hall.
• Gelman A., Carlin J.B., Stern H.S. and Rubin, D.R. (1995). Bayesian Data
Analysis. Chapman and Hall, London
• Held, Leonhard (2008). Methoden der statistischen Inferenz. Likelihood und
Bayes. Spektrum Verlag, Heidelberg.
• Hoff, Peter D. (2009). A first Course in Bayesian Statistics. Springer, New
York.
• Lee, Peter M. (2004). Bayesian Statistics, Oxford University Press, New York
• Robert, Christian (2001). The Bayesian Choice, New York
International Society for Bayesian Analysis (ISBA): http:www.bayesian.org
Helga Wagner
Bayes Statistik
WS 2010/11
5
Einleitung
Von der Bayes Regel zur Bayes Statistik
Helga Wagner
Bayes Statistik
WS 2010/11
6
Thomas Bayes
In Essay Towards solving a Problem
in the Doctrine of Chances (1763)
löst Bayes das Problem der inver”
sen“Wahrscheinlichkeiten.
=⇒ Bayes Regel
Reverend Thomas Bayes
(*1702 in London, †1761)
Helga Wagner
Bayes Statistik
WS 2010/11
7
Beispiel: Screening-Test
Vorhandene Information
• Prävalenz der Krankheit in der Bevölkerung P (A)
• Eigenschaften des Screening-Tests
– Sensitiviät P (T + |A)
– Spezifität: P (T − |AC )
Mit welcher Wahrscheinlichkeit ist eine Person erkrankt, wenn der Test positiv
ausfällt, d.h. wie groß ist der positive Vorhersagewert P (A|T +) ?
Helga Wagner
Bayes Statistik
WS 2010/11
8
Die Bayes-Regel
Für zwei Ereignisse A und B gibt die Bayes-Regel gibt an, wie die Information
über das Eintreffen von B die Wahrscheinlichkeit von A verändert:
Bayes Regel:
P (A|B) =
P (B|A)P (A)
.
P (B)
Berechnung: Nach dem Satz von der totalen Wahrscheinlichkeit ist
P (B) = P (B|A)P (A) + P (B|AC )P (AC )
Helga Wagner
Bayes Statistik
WS 2010/11
9
Die Bayes-Regel
Die Wahrscheinlichkeit dass sowohl A als auch B eintritt, kann auf zwei Arten
geschrieben werden:
P (A ∩ B) = P (A|B)P (B),
P (A ∩ B) = P (B|A)P (A).
Daher ist
P (A|B)P (B) = P (A ∩ B) = P (B|A)P (A).
und die Bayes-Regel folgt unmittelbar.
Helga Wagner
Bayes Statistik
WS 2010/11
10
Aktualisieren der Information
Sind A und B stochastisch u.a., d.h. P (A ∩ B) = P (A)P (B), dann ergibt sich
aus der Bayes Regel
P (A|B) = P (A)
und
P (A|B C ) = P (A).
Aus der Kenntnis von B lernen wir also nichts über A.
Sind A und B stochastisch abhängig, dann ist entweder P (A ∩ B) > P (A)P (B)
or P (A ∩ B) < P (A)P (B).
Ist P (A ∩ B) > P (A)P (B), dann folgt aus der Bayes Regel
P (A|B) > P (A).
Das Eintreten von B erhöht die Wahrscheinlichkeit, dass A eintrifft; Nichteintreffen von B verringert die Wahrscheinlichkeit, dass A eintritt!
Helga Wagner
Bayes Statistik
WS 2010/11
11
Beispiel: Screening-Test
• Prävalenz: 2 von 1000
• Sensitivität: 98%; Spezifität: 93.5%
T+
T−
Summe
P (∼ |A)
0.980
0.020
1.000
P (∼ |Ac)
0.065
T+
=⇒
0.935
T−
1.000
ohne Test
P (A|T +) ≈ 15P (A)
Helga Wagner
Bayes Statistik
P (A| ∼)
0.02933
0.00004
0.002
P (AC | ∼)
0.97067
0.99996
0.998
Summe
1.000
1.000
1
P (A|T −) ≈ P (A)
50
WS 2010/11
12
Beispiel: Qualitätskontrolle
Ein Los von Stücken wurde mit Wahrscheinlichkeit 0.7 in Firma A und mit
Wahrscheinlichkeit 0.3 in Firma B produziert.
Die Ausschußquote beträgt
1% in Firma A
5% in Firma B
Die Information über den Produzenten ist verlorengegangen.
Bei einer Kontrolle von n Stücken werden y Ausschußstücke entdeckt. Ist aus
diesem Ergebnis ein Rückschluß auf den Produzenten möglich?
Helga Wagner
Bayes Statistik
WS 2010/11
13
Beispiel: Qualitätskontrolle
Definition der Ereignisse A and AC :
A : Firma A ist Produzent des Loses.
AC : Firma B ist Produzent des Loses.
Die a priori Wahrscheinlichkeiten dieser Ereignisse sind bekannt:
P (A) = 0.7
und P (AC ) = 0.3
Gesucht sind die posteriori Wahrscheinlichkeiten von A und AC , wenn das
Ergebnis der Stichprobenkontrolle bekannt ist.
Helga Wagner
Bayes Statistik
WS 2010/11
14
Beispiel: Qualitätskontrolle
• Beobachtet wird eine diskrete Zufallsvariable Y , die Werte aus einem Stichprobenraum Y annimmt
• Die Stichprobenverteilung von Y hängt davon ab, ob A oder AC vorliegt.
• Die möglichen Ergebnisse der Kontrolle sind die Elementarereignisse Y = y.
Helga Wagner
Bayes Statistik
WS 2010/11
15
Beispiel: Qualitätskontrolle
• Für die posteriori-Wahrscheinlichkeiten
P (A|{Y = y})
und P (AC |{Y = y}) = 1 − P (A|{Y = y})
gilt:
P (A|y) ∝ P (y|A)P (A),
P (AC |y) ∝ P (y|AC )P (AC ).
• Die (normalisierte) posteriori-Wahrscheinlichkeit ist gegeben als
P (A|y) = P (A|y) =
Helga Wagner
Bayes Statistik
P (y|A)P (A)
.
C
C
P (y|A)P (A) + P (y|A )P (A )
WS 2010/11
16
Beispiel: Qualitätskontrolle
Y zählt die Anzahl der defekten Stücke in einer Stichprobe vom Umfang n:
Y ∼ BiNom (n, π) .
π ist die Ausschußwahrscheinlichkeit =⇒
p(y|A) =
C
p(y|A ) =
Helga Wagner
n
y
!
0.01y · 0.99n−y
y = 0, 1, . . . , n
n
y
!
0.05y · 0.95n−y
y = 0, 1, . . . , n
Bayes Statistik
WS 2010/11
17
Beispiel: Qualitätskontrolle
Für die posteriori Wahrscheinlichkeiten gilt
P (A|y) ∝ p(y|A)P (A) ∝ 0.01y · 0.99n−y · 0.7,
P (AC |y) ∝ p(y|AC )P (AC ) ∝ 0.05y · 0.95n−y · 0.3,
Die Normierungskonstante p(y) ist
p(y) = p(y|A)p(A) + p(y|AC )p(AC ) =
= 0.01y · 0.99n−y · 0.7 + 0.05y · 0.95n−y · 0.3.
Helga Wagner
Bayes Statistik
WS 2010/11
18
Beispiel: Qualitätskontrolle
Bei einem Stichprobenumfang von n = 100 ergeben sich folgende posteriori
Wahrscheinlichkeiten dafür, dass das Los in Firma A bzw. B produziert wurde:
y
P (A|y)
P (AC |y)
0
0.993
0.007
1
0.965
0.035
2
0.842
0.158
3
0.505
0.495
4
0.164
0.836
5
0.036
0.964
6
0.007
0.993
Eine Änderung der a-priori Wahrscheinlichkeit für Firma A auf P (A) = 0.5 führt
zu folgenden posteriori Wahrscheinlichkeiten:
y
P (A|y)
P (AC |y)
Helga Wagner
0
0.984
0.016
1
0.922
0.077
Bayes Statistik
2
0.695
0.305
3
0.304
0.696
4
0.077
0.923
WS 2010/11
5
0.016
0.984
6
0.003
0.997
19
Beispiel: Qualitätskontrolle
Schlussfolgerungen:
• die Information, die über den Produzenten in den Daten enthalten ist, hängt
vom beobachteten Wert y ab
• die a-priori Verteilung spielt dann eine Rolle, wenn die Information in den
Daten gering ist
Helga Wagner
Bayes Statistik
WS 2010/11
20
Bayes-Inferenz
Inferenzproblem der Statistik:
• Beobachtet werden Daten y = (y1, . . . , yn) aus dem Stichprobenraum Y.
• Die Daten y werden durch ein stochastisches Modell mit unbekanntem Parameter ϑ ∈ Θ beschrieben.
• Welche Information enthalten die Daten über den Parameter ϑ ?
Klassischer Ansatz:
• Spezifikation der Stichprobenverteilung p(y|ϑ)
• Inferenz basierend auf der Likelihoodfunktion L(ϑ|y)
Helga Wagner
Bayes Statistik
WS 2010/11
21
Der Bayes Ansatz
Im Bayes Ansatz wird Wahrscheinlichkeit“als Maß der Unsicherheit verwendet.
”
(Subjektive) Unsicherheit bzw. Vorwissen wird durch Wahrscheinlichkeitsverteilungen quantifiziert.
Bestandteile eines statistischen Modells sind
• die beobachtbaren Größen, die Daten y
• die interessierenden unbeobachtbaren Größen, der unbekannte Parameter ϑ
Helga Wagner
Bayes Statistik
WS 2010/11
22
Der Bayes Ansatz
Bevor Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher
=⇒ gemeinsames stochastisches Modell für (y, ϑ)
• Die Unsicherheit über ϑ wird durch die Priori-Verteilung p(ϑ) quantifiziert.
• Das stochastische Modell p(y|ϑ) beschreibt für alle ϑ ∈ Θ und y ∈ Y die
Vorstellungen über die Generierung der Daten, wenn der Parameter den Wert
ϑ hat.
Helga Wagner
Bayes Statistik
WS 2010/11
23
Der Satz von Bayes
Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert: Die gesamte verfügbare Information über ϑ wird durch die posterioriVerteilung p(ϑ|y) beschrieben.
Diese ist nach dem Satz von Bayes gegeben als
p(ϑ|y) =
p(y|ϑ)p(ϑ)
.
p(y)
(1)
Der Satz von Bayes beschreibt, wie die Information in den Daten die Unsicherheit
über den Parameter ändert.
Helga Wagner
Bayes Statistik
WS 2010/11
24
Der Satz von Bayes
p(ϑ|y) ∝ p(y|ϑ)p(ϑ).
(2)
posteriori-Dichte ∝ likelihood × priori-Dichte
Der Satz von Bayes gilt für stetige und diskrete Zufallsvariable y and ϑ.
p(∼) bezeichnet
• die Wahrscheinlichkeitsdichte für stetige Zufallsvariable
• die Wahrscheinlichkeitsfunktion für diskrete Zufallsvariable
Helga Wagner
Bayes Statistik
WS 2010/11
25
Die Normierungskonstante
Für die Normierungskonstante p(y) gilt:
• Ist ϑ diskret mit mehr als zwei Ausprägungen aus dem Parameterraum Θ,
dann ist
p(y) =
X
p(y|ϑ)p(ϑ).
ϑ∈Θ
• Ist ϑ eine stetige Zufallsgröße mit Parameterraum Θ, dann ist
p(y) =
Z
p(y|ϑ)p(ϑ)dϑ.
Θ
Helga Wagner
Bayes Statistik
WS 2010/11
26
Beispiel: Bayes (1763)
• Eine Billard-Kugel wird auf eine Gerade der Länge 1 gerollt. Die Wahrscheinlichkeit dafür, dass sie an einem Punkt π zu liegen kommt, ist konstant für
alle π ∈ [0, 1]
• Eine zweite Kugel wird unter denselben Bedingungen n-mal gerollt. y gibt die
Zahl der Versuche an, in denen die zweite Kugel links von π zu liegen kommt.
Welche Information über π erhalten wir aus den Daten y?
• Priori-Verteilung: p(π) = I{[0,1]}(π)
• Likelihood: p(y|π) =
Helga Wagner
n
y
!
Bayes Statistik
π y (1 − π)n−y
WS 2010/11
27
Beispiel: Bayes (1763)
Posteriori-Verteilung:
p(y|π)p(π) π y (1 − π)n−y I{[0,1]}(π)
p(π|y) =
= R1
p(y)
π y (1 − π)n−y dπ
0
Wegen
ist
Z
1
π y (1 − π)n−y dπ = B(y + 1, n − y + 1)
0
π y (1 − π)n−y I{[0,1]}(π)
p(π|y) =
,
B(y + 1, n − y + 1)
d.h. die posteriori-Verteilung von π ist die B (y + 1, n − y + 1)-Verteilung.
Helga Wagner
Bayes Statistik
WS 2010/11
28
Beispiel: Bayes (1763)
0
2
4
6
f(π|y)
8
10
12
n = 10, y = 1
n = 20, y = 2
n = 100, y = 10
0.0
0.2
0.4
0.6
0.8
1.0
π
Die Posteriori-Verteilung enthält die gesamte (nach Beobachtung der Daten) zur
Verfügung stehende Information über π.
Helga Wagner
Bayes Statistik
WS 2010/11
29
Beispiel: Bayes (1763)
Aus der Posteriori-Verteilung ergibt sich:
• P (0.08 < π < 0.012|y) = 0.169 für n = 10 und y = 1 bzw.
P (0.08 < π < 0.012|y) = 0.495 für n = 100 und y = 10
• P (π < 0.15|y) = 0.508 für n = 10, y = 1 bzw.
P (π < 0.15|y) = 0.907 für n = 100, y = 10.
Damit ist
Helga Wagner
P (π < 0.15|y)
= 1.03
P (π > 0.15|y)
für n = 10, y = 1
P (π < 0.15|y)
= 9.78
P (π > 0.15|y)
für n = 100, y = 10
Bayes Statistik
WS 2010/11
30
Herunterladen