Bayes`sche Statistik

Werbung
BAYES’SCHE STATISTIK
FELIX RUBIN
EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007
1. Einführung
Die Bayes’sche Statistik gibt eine weitere Methode, um einen unbekannten Parameter θ ∈ Θ zu schätzen. Bisher sind wir davon ausgegangen, dass der wahre
Wert θ∗ der zu schätzenden Grösse fix ist. Nun ist es aber möglich, dass θ eine Zufallsgrösse ist, deren Verteilung zum Beispiel unsere Unsicherheit über den wahren
Wert θ∗ des Parameters ausdrückt. Es ist auch denkbar, dass wir uns in einer
Situation befinden, in der wir ein Experiment nicht unter denselben Umständen
wiederholen können. In einem solchen Falle verlieren Charakterisierungen des Parameters wie Erwartungstreue oder Mean Square Error ihren Sinn. Hier ist die
Bayes’sche Statistik ebenfalls hilfreich. Das folgende Beispiel zeigt eine solche Situation.
Beispiel 1.1. Man hat eine Münze und ist sich nicht sicher, ob die Münze fair
ist, also auf der einen Seite Kopf und auf der anderen Zahl hat, oder ob sie auf
beiden Seiten Zahl hat. Wir können jetzt aufgrund gewisser Einschätzungen a
priori annehmen, dass πfair = πunfair = 1/2 gilt. Nun wird die Münze einmal
geworfen, und man fragt sich, a posteriori, wie dieser Wurf die Wahrscheinlichkeit
beeinflusst, dass die Münze gefälscht ist. Nun gilt:
P [unfair|Zahl] =
0.5
2
P [Zahl|unfair]πunfair
=
= .
P [Zahl|unfair]πunfair + P [Zahl|fair]πfair
0.5 + 0.25
3
Wir ändern also unsere Einschätung aufgrund der Realisierung des Münzenwurfes.
2. A priori und a posteriori Verteilungen
Wie schon einführend erwähnt, wollen wir einen Parameter θ ∈ Θ schätzen
mit Hilfe von y1 , ..., yn unabhängig beobachteten Realisationen einer Zufallsvariable
Y : (Ω, F, P ) −→ (Y, E). Nun ist aber der Parameter θ nicht mehr fix, sondern
besitzt eine Verteilung mit der Dichte π(θ). Da dies bestimmt wird, bevor die
Beobachtungen yi gemacht werden, nennt man diese a priori Verteilung.
Die Zufallsvariable Y folgt wie schon früher für gegebenes θ der Modellverteilung
Fθ (y) auf (Y, E). Diese Verteilung kann jetzt als eine bedingte Verteilung gegeben
die Variable θ aufgefasst werden. Aus der a priori Verteilung und der Information
aus den Realisationen yi , i = 1, ..., n, kann nun eine a posteriori Verteilung π∗ (θ)
für den Parameter konstruiert werden:
π∗ (θ) ∝ π(θ) × pθ (y),
Qn
wobei fθ die Dichte von Fθ ist und pθ (y) = ( i=1 fθ (yi )) die Likelihood von θ ist.
Dieser Ausdruck wird noch normalisiert und wir erhalten:
(2.1)
π∗ (θ) = R
π(θ)pθ (y)
.
π(θ0 )pθ0 (y)dθ0
Date: December 17, 2007.
1
2
FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007
Bemerkung 2.1. π∗ (θ) ist eine Funktion des Likelihoodquotienten
pθ (y)
pθ0 (y) .
Beispiel 2.2. Y folge einer N (µ, 1)-Verteilung, wobei der Parameter µ einer Normalverteilung N (ν, τ 2 ) folgt. Dies entspricht einem Modell, in dem Y = µ + ist,
wobei hier sowohl der Fehler unbekannt normalverteilt ist, wie auch der Parameter
µ, von dem wir nur die a priori Verteilung kennen. Je grösser τ ist, desto unsicherer
sind wir uns, was der wahre Wert von µ ist. Die Likelihood für die Beobachtungen
y1 , ..., yn ist hier gegeben durch:
!
n
X
2
pµ (y) = const · exp −
(yi − µ) /2
i=1
2
= const · exp −(nµ − 2
n
X
!
yi µ)/2
i=1
n
= const · exp − µ2 + nyµ .
2
Bemerke, dass die Konstante nicht in jeder Zeile gleich sein muss und auch zum
Beispiel die yi ’s oder in der nächste Rechnung τ und ν enthalten kann. Nach der
Formel 2.1 gilt nun:
n
(µ − ν)2
π∗ (µ) = const · exp − µ2 + nyµ exp −
2
2τ 2
1
= const · exp − µ2 (n + 1/τ 2 ) + µ(ny + ν/τ 2 )
2
1
ny + ν/τ 2
2
2
= const · exp − (n + 1/τ )(µ − 2µ
) .
2
n + 1/τ 2
Die a posteriori Verteilung von µ ist also eine Normalverteilung mit Erwartungswert
ny+ν/τ 2
1
n+1/τ 2 und Varianz n+1/τ 2 . Man sieht hier sofort, dass falls τ klein ist, die Masse
der a posteriori Verteilung um ν konzentriert ist und die yi ’s fast keine Rolle spielen,
während für grosse τ die a priori Verteilung fast keine Rolle mehr spielt und die a
posteriori Verteilung ungefähr einer N (y, 1/n)-Verteilung entspricht.
3. Die Bayes’sche Methode für die Punktschätzung
Um den wahren Wert des Parameters θ zu schätzen, müssen wir aus der a posteriori Verteilung einen einzigen Wert θ̂ wählen. Dies geschieht wie üblich mit einer
(messbaren) Entscheidungsfunktion d : Y −→ Θ, d ∈ D, welche wir in diesem Falle
so wählen, dass das a priori Risiko minimiert wird:
Definition 3.1. Die Verlustfunktion ist eine Funktion L : Θ × A −→ R+ , wobei
in unserem Falle der Aktionsraum A = Θ ist. Typischerweise ist L(θ, θ̂) = L(θ − θ̂).
Die Risikofunktion is eine Funktion R : Θ × D −→ R+ definiert durch
Z
R(θ, d) = Eθ [L(θ, d(Y ))] =
L(θ, d(y1 , ..., yn ))fθ (y1 , ..., yn )dy1 ...dyn ,
Y
wobei fθ (y1 , ..., yn ) die gemeinsame (bedingte) Dichte der Beobachtungen ist.
Für eine gegebene Verlustfunktion definieren wir also:
Definition 3.2. Das Bayes’sche Risiko einer Entscheidungsfunktion d ∈ D ist
definiert als:
Z
rπ (d) = Eπ [R(θ, d)] =
R(θ, d)π(θ)dθ.
Ω
Der Bayes’sche Schätzer ist diejenige Entscheidungsfunktion d, welche das
Risiko r minimiert.
BAYES’SCHE STATISTIK
3
Bemerkung 3.3. Wegen Bemerkung 2.1 respektiert dieser Schätzer das Likelihoodprinzip.
Wir können diese Definition auch folgendermassen umschreiben: Nehmen wir
an, ein Statistiker möchte die Güte eines Schätzers (Entscheidungsfunktion) bestimmen, bevor er die Daten y1 , ..., yn seines Experimentes kennt. Er kann sein
mittleres a priori Risiko wie folgt ausrechnen:
Z
R(θ, d)π(θ)dθ
Θ
Z
Z
=
L(θ, d(y1 , ..., yn ))
Y
Θ
Z
n
Y
!
fθ (yi )dy1 ...dyn
Z
=
L(θ, d(y1 , ..., yn ))π(θ)
Y
π(θ)dθ
i=1
Θ
m
Y
!
fθ (yi )dθ dy1 ...dyn .
i=1
Die letzte Gleichung zeigt, dass der Bayes’sche Schätzer, der das a priori Risiko
minimiert genau derselbe ist, wie der Schätzer, welcher den a posteriori Verlust
minimiert. Wir können also die folgende Proposition schreiben:
Proposition 3.4. Der Bayes’sche SchätzerR ist diejenige Entscheidungsfunktion d,
welche den erwarteten a posteriori Verlust Θ L(θ, d)π∗ (θ)dθ minimiert.
Theorem 3.5. Im Falle, dass L(θ, θ̂) = (θ − θ̂)2 , ist der Bayes’sche Schätzer der
Erwartungswert der a posteriori Verteilung.
Im Falle, dass L(θ, θ̂) = |θ − θ̂|, ist der Bayes’sche Schätzer der Median der a
posteriori Verteilung.
(Beweis: Uebung)
Beispiel 3.6. Unter den Voraussetzungen von Beispiel 2.2 folgen y1 , ..., yn einer
Normalverteilung N (µ, 1) und µ ∼ N (ν, τ 2 ). Die a posteriori Verteilung von µ ist
ebenfalls eine Normalverteilung
N
1
ny + ν/τ 2
,
n + 1/τ 2 n + 1/τ 2
.
Der Bayes’sche Schätzer ist in diesem Falle d(y1 , ..., yn ) = (ny + ν/τ 2 )/(n + 1/τ 2 )
für die beiden Verlustfunktionen (θ − θ̂)2 und |θ − θ̂|, wobei θ̂ = d(y1 , ..., yn ) ist.
Beispiel 3.7. Seien y1 , ..., yn unabhängige Beobachtungen einer Bernoulli(θ)Pverteiln
ten Zufallsvariablen Y . Wir möchten den Parameter θ schätzen. Sei y = i=1 yi .
y
n−y
Die bedingte Verteilung von y1 , ..., yn ist dann fθ (y1 , ..., yn ) = θ (1 − θ)
. Die a
Γ(α+β) α−1
priori Verteilung von θ sei gegeben als π(θ) = Γ(α)Γ(β)
θ
(1 − θ)β−1 , für 0 < θ < 1
und 0 sonst (Beta(α, β)-Verteilung). Die Randverteilung von y1 , ..., yn ist dann:
Z
m(y1 , ..., yn )
=
1
π(θ)fθ (y1 , ..., yn )dθ
0
=
=
Z
Γ(α + β) 1 y+α−1
θ
(1 − θ)n−y+β−1 dθ
Γ(α)Γ(β) 0
Γ(α + β)Γ(α + y)Γ(n + β − y)
.
Γ(α)Γ(β)Γ(n + α + β)
4
FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007
Schlussendlich gilt für die a posteriori Verteilung von θ (auf den Punkten y =
0, 1, 2, ..., n mit positiven Gewichten):
π∗ (θ)
=
=
π(θ)fθ (y1 , ..., yn )
m(y1 , ..., yn )
Γ(n + α + β)
θα+y−1 (1 − θ)β+n−y−1 ,
Γ(α + y)Γ(n + β − y)
0 < θ < 1.
Wir wählen nun die Verlustfunktion L(θ, θ̂) = (θ − θ̂)2 . Der Bayes’sche Schätzer
d(y1 , ..., yn ) ist dann die Erwartung der a posteriori Verteilung:
Z 1
d(y1 , ..., yn ) =
θπ∗ (θ)dθ
0
=
=
Z 1
Γ(n + α + β)
θα+y (1 − θ)β+n−y−1 dθ
Γ(α + y)Γ(n + β − y) 0
α+y
,
y = 0, 1, ..., n.
α+β+n
4. Intervallschätzung
Sei wie üblich Y : (Ω, F, P ) −→ (Y, E) eine Zufallsvariable, deren Verteilung
auf Y von einem (zufälligen) Parameter θ ∈ Θ abhängt. Wir betrachten wieder
y1 , ..., yn n unabhängige Realisationen der Zuvallsvariable Y und möchten anhand
der a priori Verteilung π(θ), der bedingten Verteilung fθ (y1 , ..., yn ) von y1 , ..., yn
und den beobachteten Realisationen ein Intervall in Θ abschätzen, in dem sich der
Parameter θ mit Wahrscheinlichkeit 1 − α (typischerweise ist α = 0.05 oder 0.01)
befindet.
Die a posteriori Verteilung von θ ist gegeben durch:
Qn
π(θ) i=1 fθ (yi )
Qn
.
π∗ (θ) = R
π(θ) i=1 fθ (yi )dθ
Θ
Damit lassen sich zwei Funktionen u(y1 , ..., yn ) sowie v(y1 , ..., yn ) finden, so dass
Z v(y1 ,...,yn )
P [u(y1 , ..., yn ) < θ < v(y1 , ..., yn )|y1 , ..., yn ] =
π∗ (θ)dθ = 1 − α
u(y1 ,...,yn )
ist. Bemerke, dass die Funktionen u und v nicht eindeutig sind.
5. Bayes’sche Tests
Im Falle eines Tests möchten wir zwei Hypothesen bezüglich des uns unbekannten
Parameters θ gegeneinander testen. Wir nehmen an, dass θ nur die zwei Werte
θ0 oder θ1 annehmen kann, also Θ = {θ0 , θ1 }. Die sogenannte 0-Hypothese H0
ist dann: θ = θ0 und die Alternative dazu ist H1 : θ = θ1 . Wir brauchen eine
Entscheidungsfunktion d ∈ D der beobachteten Werte y1 , ..., yn , welche uns angibt,
welche der zwei Hypothesen anzunehmen ist. Wir bezeichnen mit a0 die Aktion
’H0 ist anzunehmen’ und mit a1 die Aktion ’H1 ist anzunehmen’, so dass A =
{a0 , a1 } ist. Dann schreiben wir d = a0 falls H0 anzunehmen ist und d = a1
sonst. Die Verlustfunktion sei definiert durch L(θ0 , a0 ) = 0, L(θ1 , a1 ) = 0 und
L(θ0 , a1 ) = c0 , L(θ1 , a0 ) = c1 , wobei c0 , c1 zwei positive Konstanten sind. Wir
schreiben pθ (y) für die Likelihood der Daten y1 , ..., yn . Die gemeinsame Verteilung
der Daten y1 , ..., yn und θ ist dann gebeben durch π(θ)pθ (y), wobei θ eine diskrete
Zufallsvariable ist und deshalb π(θ0 ) + π(θ1 ) = 1. Die Randverteilung von y1 , ..., yn
ist π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) und damit gilt für die a posteriori Verteilung von θ:
π∗ (θ) =
π(θ)pθ (y)
.
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
BAYES’SCHE STATISTIK
5
Die Bayes’sche Lösung für die Entscheidungsfunktion d(y1 , ..., yn ) war gegeben
als diejenige Funktion, die den erwarteten a posteriori Verlust minimiert (siehe
Proposition 3.4). Hier ist der erwartete a posteriori Verlust im Falle von d = a0
gegeben durch:
1
X
i=0
L(θi , a0 )π∗ (θi ) =
L(θ1 , a0 )π(θ1 )pθ1 (y)
,
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
da L(θ0 , a0 ) = 0 ist und entsprechend im Falle von d = a1 , da dann L(θ1 , a1 ) = 0
ist,
1
X
L(θ0 , a1 )π(θ0 )pθ0 (y)
L(θi , a1 )π∗ (θi ) =
.
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
i=0
Daraus folgt, dass wir die Entscheidung d = a1 (also die H1 -Hypothese annehmen) wählen, falls
L(θ1 , a0 )π(θ1 )pθ1 (y)
L(θ0 , a1 )π(θ0 )pθ0 (y)
<
,
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y)
oder äquivalent dazu, falls für den Likelihoodquotienten gilt:
pθ1 (y)
L(θ0 , a1 )π(θ0 )
>
.
pθ0 (y)
L(θ1 , a0 )π(θ1 )
Falls die Ungleichung in die andere Richtung geht, wird die Entscheidung d = a0
gewählt. Bei Gleichheit kann eine zufällige Wahl getroffen werden.
References
[1] A. Craig, R. Hogg. Introduction to mathematical statistics. Collier Macmillan International
Editions. Macmillan Publishing Co., New York and Collier Macmillan Publishers, London,
third edition, 1970.
[2] A. Bérod, St. Morgenthaler. Introduction à la statistique mathématique. Polycopié. Ecole Polytechnique Fédérale de Lausanne, Chaire de statistique appliquée, 2004.
Herunterladen