Bayes`sche Statistik

BAYES’SCHE STATISTIK
FELIX RUBIN
EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007
1. Einführung
Die Bayes’sche Statistik gibt eine weitere Methode, um einen unbekannten Parameter θ ∈ Θ zu schätzen. Bisher sind wir davon ausgegangen, dass der wahre
Wert θ∗ der zu schätzenden Grösse fix ist. Nun ist es aber möglich, dass θ eine Zufallsgrösse ist, deren Verteilung zum Beispiel unsere Unsicherheit über den wahren
Wert θ∗ des Parameters ausdrückt. Es ist auch denkbar, dass wir uns in einer
Situation befinden, in der wir ein Experiment nicht unter denselben Umständen
wiederholen können. In einem solchen Falle verlieren Charakterisierungen des Parameters wie Erwartungstreue oder Mean Square Error ihren Sinn. Hier ist die
Bayes’sche Statistik ebenfalls hilfreich. Das folgende Beispiel zeigt eine solche Situation.
Beispiel 1.1. Man hat eine Münze und ist sich nicht sicher, ob die Münze fair
ist, also auf der einen Seite Kopf und auf der anderen Zahl hat, oder ob sie auf
beiden Seiten Zahl hat. Wir können jetzt aufgrund gewisser Einschätzungen a
priori annehmen, dass πfair = πunfair = 1/2 gilt. Nun wird die Münze einmal
geworfen, und man fragt sich, a posteriori, wie dieser Wurf die Wahrscheinlichkeit
beeinflusst, dass die Münze gefälscht ist. Nun gilt:
P [unfair|Zahl] =
0.5
2
P [Zahl|unfair]πunfair
=
= .
P [Zahl|unfair]πunfair + P [Zahl|fair]πfair
0.5 + 0.25
3
Wir ändern also unsere Einschätung aufgrund der Realisierung des Münzenwurfes.
2. A priori und a posteriori Verteilungen
Wie schon einführend erwähnt, wollen wir einen Parameter θ ∈ Θ schätzen
mit Hilfe von y1 , ..., yn unabhängig beobachteten Realisationen einer Zufallsvariable
Y : (Ω, F, P ) −→ (Y, E). Nun ist aber der Parameter θ nicht mehr fix, sondern
besitzt eine Verteilung mit der Dichte π(θ). Da dies bestimmt wird, bevor die
Beobachtungen yi gemacht werden, nennt man diese a priori Verteilung.
Die Zufallsvariable Y folgt wie schon früher für gegebenes θ der Modellverteilung
Fθ (y) auf (Y, E). Diese Verteilung kann jetzt als eine bedingte Verteilung gegeben
die Variable θ aufgefasst werden. Aus der a priori Verteilung und der Information
aus den Realisationen yi , i = 1, ..., n, kann nun eine a posteriori Verteilung π∗ (θ)
für den Parameter konstruiert werden:
π∗ (θ) ∝ π(θ) × pθ (y),
Qn
wobei fθ die Dichte von Fθ ist und pθ (y) = ( i=1 fθ (yi )) die Likelihood von θ ist.
Dieser Ausdruck wird noch normalisiert und wir erhalten:
(2.1)
π∗ (θ) = R
π(θ)pθ (y)
.
π(θ0 )pθ0 (y)dθ0
Date: December 17, 2007.
1
2
FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007
Bemerkung 2.1. π∗ (θ) ist eine Funktion des Likelihoodquotienten
pθ (y)
pθ0 (y) .
Beispiel 2.2. Y folge einer N (µ, 1)-Verteilung, wobei der Parameter µ einer Normalverteilung N (ν, τ 2 ) folgt. Dies entspricht einem Modell, in dem Y = µ + ist,
wobei hier sowohl der Fehler unbekannt normalverteilt ist, wie auch der Parameter
µ, von dem wir nur die a priori Verteilung kennen. Je grösser τ ist, desto unsicherer
sind wir uns, was der wahre Wert von µ ist. Die Likelihood für die Beobachtungen
y1 , ..., yn ist hier gegeben durch:
!
n
X
2
pµ (y) = const · exp −
(yi − µ) /2
i=1
2
= const · exp −(nµ − 2
n
X
!
yi µ)/2
i=1
n
= const · exp − µ2 + nyµ .
2
Bemerke, dass die Konstante nicht in jeder Zeile gleich sein muss und auch zum
Beispiel die yi ’s oder in der nächste Rechnung τ und ν enthalten kann. Nach der
Formel 2.1 gilt nun:
n
(µ − ν)2
π∗ (µ) = const · exp − µ2 + nyµ exp −
2
2τ 2
1
= const · exp − µ2 (n + 1/τ 2 ) + µ(ny + ν/τ 2 )
2
1
ny + ν/τ 2
2
2
= const · exp − (n + 1/τ )(µ − 2µ
) .
2
n + 1/τ 2
Die a posteriori Verteilung von µ ist also eine Normalverteilung mit Erwartungswert
ny+ν/τ 2
1
n+1/τ 2 und Varianz n+1/τ 2 . Man sieht hier sofort, dass falls τ klein ist, die Masse
der a posteriori Verteilung um ν konzentriert ist und die yi ’s fast keine Rolle spielen,
während für grosse τ die a priori Verteilung fast keine Rolle mehr spielt und die a
posteriori Verteilung ungefähr einer N (y, 1/n)-Verteilung entspricht.
3. Die Bayes’sche Methode für die Punktschätzung
Um den wahren Wert des Parameters θ zu schätzen, müssen wir aus der a posteriori Verteilung einen einzigen Wert θ̂ wählen. Dies geschieht wie üblich mit einer
(messbaren) Entscheidungsfunktion d : Y −→ Θ, d ∈ D, welche wir in diesem Falle
so wählen, dass das a priori Risiko minimiert wird:
Definition 3.1. Die Verlustfunktion ist eine Funktion L : Θ × A −→ R+ , wobei
in unserem Falle der Aktionsraum A = Θ ist. Typischerweise ist L(θ, θ̂) = L(θ − θ̂).
Die Risikofunktion is eine Funktion R : Θ × D −→ R+ definiert durch
Z
R(θ, d) = Eθ [L(θ, d(Y ))] =
L(θ, d(y1 , ..., yn ))fθ (y1 , ..., yn )dy1 ...dyn ,
Y
wobei fθ (y1 , ..., yn ) die gemeinsame (bedingte) Dichte der Beobachtungen ist.
Für eine gegebene Verlustfunktion definieren wir also:
Definition 3.2. Das Bayes’sche Risiko einer Entscheidungsfunktion d ∈ D ist
definiert als:
Z
rπ (d) = Eπ [R(θ, d)] =
R(θ, d)π(θ)dθ.
Ω
Der Bayes’sche Schätzer ist diejenige Entscheidungsfunktion d, welche das
Risiko r minimiert.
BAYES’SCHE STATISTIK
3
Bemerkung 3.3. Wegen Bemerkung 2.1 respektiert dieser Schätzer das Likelihoodprinzip.
Wir können diese Definition auch folgendermassen umschreiben: Nehmen wir
an, ein Statistiker möchte die Güte eines Schätzers (Entscheidungsfunktion) bestimmen, bevor er die Daten y1 , ..., yn seines Experimentes kennt. Er kann sein
mittleres a priori Risiko wie folgt ausrechnen:
Z
R(θ, d)π(θ)dθ
Θ
Z
Z
=
L(θ, d(y1 , ..., yn ))
Y
Θ
Z
n
Y
!
fθ (yi )dy1 ...dyn
Z
=
L(θ, d(y1 , ..., yn ))π(θ)
Y
π(θ)dθ
i=1
Θ
m
Y
!
fθ (yi )dθ dy1 ...dyn .
i=1
Die letzte Gleichung zeigt, dass der Bayes’sche Schätzer, der das a priori Risiko
minimiert genau derselbe ist, wie der Schätzer, welcher den a posteriori Verlust
minimiert. Wir können also die folgende Proposition schreiben:
Proposition 3.4. Der Bayes’sche SchätzerR ist diejenige Entscheidungsfunktion d,
welche den erwarteten a posteriori Verlust Θ L(θ, d)π∗ (θ)dθ minimiert.
Theorem 3.5. Im Falle, dass L(θ, θ̂) = (θ − θ̂)2 , ist der Bayes’sche Schätzer der
Erwartungswert der a posteriori Verteilung.
Im Falle, dass L(θ, θ̂) = |θ − θ̂|, ist der Bayes’sche Schätzer der Median der a
posteriori Verteilung.
(Beweis: Uebung)
Beispiel 3.6. Unter den Voraussetzungen von Beispiel 2.2 folgen y1 , ..., yn einer
Normalverteilung N (µ, 1) und µ ∼ N (ν, τ 2 ). Die a posteriori Verteilung von µ ist
ebenfalls eine Normalverteilung
N
1
ny + ν/τ 2
,
n + 1/τ 2 n + 1/τ 2
.
Der Bayes’sche Schätzer ist in diesem Falle d(y1 , ..., yn ) = (ny + ν/τ 2 )/(n + 1/τ 2 )
für die beiden Verlustfunktionen (θ − θ̂)2 und |θ − θ̂|, wobei θ̂ = d(y1 , ..., yn ) ist.
Beispiel 3.7. Seien y1 , ..., yn unabhängige Beobachtungen einer Bernoulli(θ)Pverteiln
ten Zufallsvariablen Y . Wir möchten den Parameter θ schätzen. Sei y = i=1 yi .
y
n−y
Die bedingte Verteilung von y1 , ..., yn ist dann fθ (y1 , ..., yn ) = θ (1 − θ)
. Die a
Γ(α+β) α−1
priori Verteilung von θ sei gegeben als π(θ) = Γ(α)Γ(β)
θ
(1 − θ)β−1 , für 0 < θ < 1
und 0 sonst (Beta(α, β)-Verteilung). Die Randverteilung von y1 , ..., yn ist dann:
Z
m(y1 , ..., yn )
=
1
π(θ)fθ (y1 , ..., yn )dθ
0
=
=
Z
Γ(α + β) 1 y+α−1
θ
(1 − θ)n−y+β−1 dθ
Γ(α)Γ(β) 0
Γ(α + β)Γ(α + y)Γ(n + β − y)
.
Γ(α)Γ(β)Γ(n + α + β)
4
FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007
Schlussendlich gilt für die a posteriori Verteilung von θ (auf den Punkten y =
0, 1, 2, ..., n mit positiven Gewichten):
π∗ (θ)
=
=
π(θ)fθ (y1 , ..., yn )
m(y1 , ..., yn )
Γ(n + α + β)
θα+y−1 (1 − θ)β+n−y−1 ,
Γ(α + y)Γ(n + β − y)
0 < θ < 1.
Wir wählen nun die Verlustfunktion L(θ, θ̂) = (θ − θ̂)2 . Der Bayes’sche Schätzer
d(y1 , ..., yn ) ist dann die Erwartung der a posteriori Verteilung:
Z 1
d(y1 , ..., yn ) =
θπ∗ (θ)dθ
0
=
=
Z 1
Γ(n + α + β)
θα+y (1 − θ)β+n−y−1 dθ
Γ(α + y)Γ(n + β − y) 0
α+y
,
y = 0, 1, ..., n.
α+β+n
4. Intervallschätzung
Sei wie üblich Y : (Ω, F, P ) −→ (Y, E) eine Zufallsvariable, deren Verteilung
auf Y von einem (zufälligen) Parameter θ ∈ Θ abhängt. Wir betrachten wieder
y1 , ..., yn n unabhängige Realisationen der Zuvallsvariable Y und möchten anhand
der a priori Verteilung π(θ), der bedingten Verteilung fθ (y1 , ..., yn ) von y1 , ..., yn
und den beobachteten Realisationen ein Intervall in Θ abschätzen, in dem sich der
Parameter θ mit Wahrscheinlichkeit 1 − α (typischerweise ist α = 0.05 oder 0.01)
befindet.
Die a posteriori Verteilung von θ ist gegeben durch:
Qn
π(θ) i=1 fθ (yi )
Qn
.
π∗ (θ) = R
π(θ) i=1 fθ (yi )dθ
Θ
Damit lassen sich zwei Funktionen u(y1 , ..., yn ) sowie v(y1 , ..., yn ) finden, so dass
Z v(y1 ,...,yn )
P [u(y1 , ..., yn ) < θ < v(y1 , ..., yn )|y1 , ..., yn ] =
π∗ (θ)dθ = 1 − α
u(y1 ,...,yn )
ist. Bemerke, dass die Funktionen u und v nicht eindeutig sind.
5. Bayes’sche Tests
Im Falle eines Tests möchten wir zwei Hypothesen bezüglich des uns unbekannten
Parameters θ gegeneinander testen. Wir nehmen an, dass θ nur die zwei Werte
θ0 oder θ1 annehmen kann, also Θ = {θ0 , θ1 }. Die sogenannte 0-Hypothese H0
ist dann: θ = θ0 und die Alternative dazu ist H1 : θ = θ1 . Wir brauchen eine
Entscheidungsfunktion d ∈ D der beobachteten Werte y1 , ..., yn , welche uns angibt,
welche der zwei Hypothesen anzunehmen ist. Wir bezeichnen mit a0 die Aktion
’H0 ist anzunehmen’ und mit a1 die Aktion ’H1 ist anzunehmen’, so dass A =
{a0 , a1 } ist. Dann schreiben wir d = a0 falls H0 anzunehmen ist und d = a1
sonst. Die Verlustfunktion sei definiert durch L(θ0 , a0 ) = 0, L(θ1 , a1 ) = 0 und
L(θ0 , a1 ) = c0 , L(θ1 , a0 ) = c1 , wobei c0 , c1 zwei positive Konstanten sind. Wir
schreiben pθ (y) für die Likelihood der Daten y1 , ..., yn . Die gemeinsame Verteilung
der Daten y1 , ..., yn und θ ist dann gebeben durch π(θ)pθ (y), wobei θ eine diskrete
Zufallsvariable ist und deshalb π(θ0 ) + π(θ1 ) = 1. Die Randverteilung von y1 , ..., yn
ist π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) und damit gilt für die a posteriori Verteilung von θ:
π∗ (θ) =
π(θ)pθ (y)
.
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
BAYES’SCHE STATISTIK
5
Die Bayes’sche Lösung für die Entscheidungsfunktion d(y1 , ..., yn ) war gegeben
als diejenige Funktion, die den erwarteten a posteriori Verlust minimiert (siehe
Proposition 3.4). Hier ist der erwartete a posteriori Verlust im Falle von d = a0
gegeben durch:
1
X
i=0
L(θi , a0 )π∗ (θi ) =
L(θ1 , a0 )π(θ1 )pθ1 (y)
,
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
da L(θ0 , a0 ) = 0 ist und entsprechend im Falle von d = a1 , da dann L(θ1 , a1 ) = 0
ist,
1
X
L(θ0 , a1 )π(θ0 )pθ0 (y)
L(θi , a1 )π∗ (θi ) =
.
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
i=0
Daraus folgt, dass wir die Entscheidung d = a1 (also die H1 -Hypothese annehmen) wählen, falls
L(θ1 , a0 )π(θ1 )pθ1 (y)
L(θ0 , a1 )π(θ0 )pθ0 (y)
<
,
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
oder äquivalent dazu, falls für den Likelihoodquotienten gilt:
pθ1 (y)
L(θ0 , a1 )π(θ0 )
>
.
pθ0 (y)
L(θ1 , a0 )π(θ1 )
Falls die Ungleichung in die andere Richtung geht, wird die Entscheidung d = a0
gewählt. Bei Gleichheit kann eine zufällige Wahl getroffen werden.
References
[1] A. Craig, R. Hogg. Introduction to mathematical statistics. Collier Macmillan International
Editions. Macmillan Publishing Co., New York and Collier Macmillan Publishers, London,
third edition, 1970.
[2] A. Bérod, St. Morgenthaler. Introduction à la statistique mathématique. Polycopié. Ecole Polytechnique Fédérale de Lausanne, Chaire de statistique appliquée, 2004.