BAYES’SCHE STATISTIK FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007 1. Einführung Die Bayes’sche Statistik gibt eine weitere Methode, um einen unbekannten Parameter θ ∈ Θ zu schätzen. Bisher sind wir davon ausgegangen, dass der wahre Wert θ∗ der zu schätzenden Grösse fix ist. Nun ist es aber möglich, dass θ eine Zufallsgrösse ist, deren Verteilung zum Beispiel unsere Unsicherheit über den wahren Wert θ∗ des Parameters ausdrückt. Es ist auch denkbar, dass wir uns in einer Situation befinden, in der wir ein Experiment nicht unter denselben Umständen wiederholen können. In einem solchen Falle verlieren Charakterisierungen des Parameters wie Erwartungstreue oder Mean Square Error ihren Sinn. Hier ist die Bayes’sche Statistik ebenfalls hilfreich. Das folgende Beispiel zeigt eine solche Situation. Beispiel 1.1. Man hat eine Münze und ist sich nicht sicher, ob die Münze fair ist, also auf der einen Seite Kopf und auf der anderen Zahl hat, oder ob sie auf beiden Seiten Zahl hat. Wir können jetzt aufgrund gewisser Einschätzungen a priori annehmen, dass πfair = πunfair = 1/2 gilt. Nun wird die Münze einmal geworfen, und man fragt sich, a posteriori, wie dieser Wurf die Wahrscheinlichkeit beeinflusst, dass die Münze gefälscht ist. Nun gilt: P [unfair|Zahl] = 0.5 2 P [Zahl|unfair]πunfair = = . P [Zahl|unfair]πunfair + P [Zahl|fair]πfair 0.5 + 0.25 3 Wir ändern also unsere Einschätung aufgrund der Realisierung des Münzenwurfes. 2. A priori und a posteriori Verteilungen Wie schon einführend erwähnt, wollen wir einen Parameter θ ∈ Θ schätzen mit Hilfe von y1 , ..., yn unabhängig beobachteten Realisationen einer Zufallsvariable Y : (Ω, F, P ) −→ (Y, E). Nun ist aber der Parameter θ nicht mehr fix, sondern besitzt eine Verteilung mit der Dichte π(θ). Da dies bestimmt wird, bevor die Beobachtungen yi gemacht werden, nennt man diese a priori Verteilung. Die Zufallsvariable Y folgt wie schon früher für gegebenes θ der Modellverteilung Fθ (y) auf (Y, E). Diese Verteilung kann jetzt als eine bedingte Verteilung gegeben die Variable θ aufgefasst werden. Aus der a priori Verteilung und der Information aus den Realisationen yi , i = 1, ..., n, kann nun eine a posteriori Verteilung π∗ (θ) für den Parameter konstruiert werden: π∗ (θ) ∝ π(θ) × pθ (y), Qn wobei fθ die Dichte von Fθ ist und pθ (y) = ( i=1 fθ (yi )) die Likelihood von θ ist. Dieser Ausdruck wird noch normalisiert und wir erhalten: (2.1) π∗ (θ) = R π(θ)pθ (y) . π(θ0 )pθ0 (y)dθ0 Date: December 17, 2007. 1 2 FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007 Bemerkung 2.1. π∗ (θ) ist eine Funktion des Likelihoodquotienten pθ (y) pθ0 (y) . Beispiel 2.2. Y folge einer N (µ, 1)-Verteilung, wobei der Parameter µ einer Normalverteilung N (ν, τ 2 ) folgt. Dies entspricht einem Modell, in dem Y = µ + ist, wobei hier sowohl der Fehler unbekannt normalverteilt ist, wie auch der Parameter µ, von dem wir nur die a priori Verteilung kennen. Je grösser τ ist, desto unsicherer sind wir uns, was der wahre Wert von µ ist. Die Likelihood für die Beobachtungen y1 , ..., yn ist hier gegeben durch: ! n X 2 pµ (y) = const · exp − (yi − µ) /2 i=1 2 = const · exp −(nµ − 2 n X ! yi µ)/2 i=1 n = const · exp − µ2 + nyµ . 2 Bemerke, dass die Konstante nicht in jeder Zeile gleich sein muss und auch zum Beispiel die yi ’s oder in der nächste Rechnung τ und ν enthalten kann. Nach der Formel 2.1 gilt nun: n (µ − ν)2 π∗ (µ) = const · exp − µ2 + nyµ exp − 2 2τ 2 1 = const · exp − µ2 (n + 1/τ 2 ) + µ(ny + ν/τ 2 ) 2 1 ny + ν/τ 2 2 2 = const · exp − (n + 1/τ )(µ − 2µ ) . 2 n + 1/τ 2 Die a posteriori Verteilung von µ ist also eine Normalverteilung mit Erwartungswert ny+ν/τ 2 1 n+1/τ 2 und Varianz n+1/τ 2 . Man sieht hier sofort, dass falls τ klein ist, die Masse der a posteriori Verteilung um ν konzentriert ist und die yi ’s fast keine Rolle spielen, während für grosse τ die a priori Verteilung fast keine Rolle mehr spielt und die a posteriori Verteilung ungefähr einer N (y, 1/n)-Verteilung entspricht. 3. Die Bayes’sche Methode für die Punktschätzung Um den wahren Wert des Parameters θ zu schätzen, müssen wir aus der a posteriori Verteilung einen einzigen Wert θ̂ wählen. Dies geschieht wie üblich mit einer (messbaren) Entscheidungsfunktion d : Y −→ Θ, d ∈ D, welche wir in diesem Falle so wählen, dass das a priori Risiko minimiert wird: Definition 3.1. Die Verlustfunktion ist eine Funktion L : Θ × A −→ R+ , wobei in unserem Falle der Aktionsraum A = Θ ist. Typischerweise ist L(θ, θ̂) = L(θ − θ̂). Die Risikofunktion is eine Funktion R : Θ × D −→ R+ definiert durch Z R(θ, d) = Eθ [L(θ, d(Y ))] = L(θ, d(y1 , ..., yn ))fθ (y1 , ..., yn )dy1 ...dyn , Y wobei fθ (y1 , ..., yn ) die gemeinsame (bedingte) Dichte der Beobachtungen ist. Für eine gegebene Verlustfunktion definieren wir also: Definition 3.2. Das Bayes’sche Risiko einer Entscheidungsfunktion d ∈ D ist definiert als: Z rπ (d) = Eπ [R(θ, d)] = R(θ, d)π(θ)dθ. Ω Der Bayes’sche Schätzer ist diejenige Entscheidungsfunktion d, welche das Risiko r minimiert. BAYES’SCHE STATISTIK 3 Bemerkung 3.3. Wegen Bemerkung 2.1 respektiert dieser Schätzer das Likelihoodprinzip. Wir können diese Definition auch folgendermassen umschreiben: Nehmen wir an, ein Statistiker möchte die Güte eines Schätzers (Entscheidungsfunktion) bestimmen, bevor er die Daten y1 , ..., yn seines Experimentes kennt. Er kann sein mittleres a priori Risiko wie folgt ausrechnen: Z R(θ, d)π(θ)dθ Θ Z Z = L(θ, d(y1 , ..., yn )) Y Θ Z n Y ! fθ (yi )dy1 ...dyn Z = L(θ, d(y1 , ..., yn ))π(θ) Y π(θ)dθ i=1 Θ m Y ! fθ (yi )dθ dy1 ...dyn . i=1 Die letzte Gleichung zeigt, dass der Bayes’sche Schätzer, der das a priori Risiko minimiert genau derselbe ist, wie der Schätzer, welcher den a posteriori Verlust minimiert. Wir können also die folgende Proposition schreiben: Proposition 3.4. Der Bayes’sche SchätzerR ist diejenige Entscheidungsfunktion d, welche den erwarteten a posteriori Verlust Θ L(θ, d)π∗ (θ)dθ minimiert. Theorem 3.5. Im Falle, dass L(θ, θ̂) = (θ − θ̂)2 , ist der Bayes’sche Schätzer der Erwartungswert der a posteriori Verteilung. Im Falle, dass L(θ, θ̂) = |θ − θ̂|, ist der Bayes’sche Schätzer der Median der a posteriori Verteilung. (Beweis: Uebung) Beispiel 3.6. Unter den Voraussetzungen von Beispiel 2.2 folgen y1 , ..., yn einer Normalverteilung N (µ, 1) und µ ∼ N (ν, τ 2 ). Die a posteriori Verteilung von µ ist ebenfalls eine Normalverteilung N 1 ny + ν/τ 2 , n + 1/τ 2 n + 1/τ 2 . Der Bayes’sche Schätzer ist in diesem Falle d(y1 , ..., yn ) = (ny + ν/τ 2 )/(n + 1/τ 2 ) für die beiden Verlustfunktionen (θ − θ̂)2 und |θ − θ̂|, wobei θ̂ = d(y1 , ..., yn ) ist. Beispiel 3.7. Seien y1 , ..., yn unabhängige Beobachtungen einer Bernoulli(θ)Pverteiln ten Zufallsvariablen Y . Wir möchten den Parameter θ schätzen. Sei y = i=1 yi . y n−y Die bedingte Verteilung von y1 , ..., yn ist dann fθ (y1 , ..., yn ) = θ (1 − θ) . Die a Γ(α+β) α−1 priori Verteilung von θ sei gegeben als π(θ) = Γ(α)Γ(β) θ (1 − θ)β−1 , für 0 < θ < 1 und 0 sonst (Beta(α, β)-Verteilung). Die Randverteilung von y1 , ..., yn ist dann: Z m(y1 , ..., yn ) = 1 π(θ)fθ (y1 , ..., yn )dθ 0 = = Z Γ(α + β) 1 y+α−1 θ (1 − θ)n−y+β−1 dθ Γ(α)Γ(β) 0 Γ(α + β)Γ(α + y)Γ(n + β − y) . Γ(α)Γ(β)Γ(n + α + β) 4 FELIX RUBIN EINFÜHRUNG IN DIE STATISTIK, A.D. BARBOUR, HS 2007 Schlussendlich gilt für die a posteriori Verteilung von θ (auf den Punkten y = 0, 1, 2, ..., n mit positiven Gewichten): π∗ (θ) = = π(θ)fθ (y1 , ..., yn ) m(y1 , ..., yn ) Γ(n + α + β) θα+y−1 (1 − θ)β+n−y−1 , Γ(α + y)Γ(n + β − y) 0 < θ < 1. Wir wählen nun die Verlustfunktion L(θ, θ̂) = (θ − θ̂)2 . Der Bayes’sche Schätzer d(y1 , ..., yn ) ist dann die Erwartung der a posteriori Verteilung: Z 1 d(y1 , ..., yn ) = θπ∗ (θ)dθ 0 = = Z 1 Γ(n + α + β) θα+y (1 − θ)β+n−y−1 dθ Γ(α + y)Γ(n + β − y) 0 α+y , y = 0, 1, ..., n. α+β+n 4. Intervallschätzung Sei wie üblich Y : (Ω, F, P ) −→ (Y, E) eine Zufallsvariable, deren Verteilung auf Y von einem (zufälligen) Parameter θ ∈ Θ abhängt. Wir betrachten wieder y1 , ..., yn n unabhängige Realisationen der Zuvallsvariable Y und möchten anhand der a priori Verteilung π(θ), der bedingten Verteilung fθ (y1 , ..., yn ) von y1 , ..., yn und den beobachteten Realisationen ein Intervall in Θ abschätzen, in dem sich der Parameter θ mit Wahrscheinlichkeit 1 − α (typischerweise ist α = 0.05 oder 0.01) befindet. Die a posteriori Verteilung von θ ist gegeben durch: Qn π(θ) i=1 fθ (yi ) Qn . π∗ (θ) = R π(θ) i=1 fθ (yi )dθ Θ Damit lassen sich zwei Funktionen u(y1 , ..., yn ) sowie v(y1 , ..., yn ) finden, so dass Z v(y1 ,...,yn ) P [u(y1 , ..., yn ) < θ < v(y1 , ..., yn )|y1 , ..., yn ] = π∗ (θ)dθ = 1 − α u(y1 ,...,yn ) ist. Bemerke, dass die Funktionen u und v nicht eindeutig sind. 5. Bayes’sche Tests Im Falle eines Tests möchten wir zwei Hypothesen bezüglich des uns unbekannten Parameters θ gegeneinander testen. Wir nehmen an, dass θ nur die zwei Werte θ0 oder θ1 annehmen kann, also Θ = {θ0 , θ1 }. Die sogenannte 0-Hypothese H0 ist dann: θ = θ0 und die Alternative dazu ist H1 : θ = θ1 . Wir brauchen eine Entscheidungsfunktion d ∈ D der beobachteten Werte y1 , ..., yn , welche uns angibt, welche der zwei Hypothesen anzunehmen ist. Wir bezeichnen mit a0 die Aktion ’H0 ist anzunehmen’ und mit a1 die Aktion ’H1 ist anzunehmen’, so dass A = {a0 , a1 } ist. Dann schreiben wir d = a0 falls H0 anzunehmen ist und d = a1 sonst. Die Verlustfunktion sei definiert durch L(θ0 , a0 ) = 0, L(θ1 , a1 ) = 0 und L(θ0 , a1 ) = c0 , L(θ1 , a0 ) = c1 , wobei c0 , c1 zwei positive Konstanten sind. Wir schreiben pθ (y) für die Likelihood der Daten y1 , ..., yn . Die gemeinsame Verteilung der Daten y1 , ..., yn und θ ist dann gebeben durch π(θ)pθ (y), wobei θ eine diskrete Zufallsvariable ist und deshalb π(θ0 ) + π(θ1 ) = 1. Die Randverteilung von y1 , ..., yn ist π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) und damit gilt für die a posteriori Verteilung von θ: π∗ (θ) = π(θ)pθ (y) . π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) BAYES’SCHE STATISTIK 5 Die Bayes’sche Lösung für die Entscheidungsfunktion d(y1 , ..., yn ) war gegeben als diejenige Funktion, die den erwarteten a posteriori Verlust minimiert (siehe Proposition 3.4). Hier ist der erwartete a posteriori Verlust im Falle von d = a0 gegeben durch: 1 X i=0 L(θi , a0 )π∗ (θi ) = L(θ1 , a0 )π(θ1 )pθ1 (y) , π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) da L(θ0 , a0 ) = 0 ist und entsprechend im Falle von d = a1 , da dann L(θ1 , a1 ) = 0 ist, 1 X L(θ0 , a1 )π(θ0 )pθ0 (y) L(θi , a1 )π∗ (θi ) = . π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) i=0 Daraus folgt, dass wir die Entscheidung d = a1 (also die H1 -Hypothese annehmen) wählen, falls L(θ1 , a0 )π(θ1 )pθ1 (y) L(θ0 , a1 )π(θ0 )pθ0 (y) < , π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) π(θ0 )pθ0 (y) + π(θ1 )pθ1 (y) oder äquivalent dazu, falls für den Likelihoodquotienten gilt: pθ1 (y) L(θ0 , a1 )π(θ0 ) > . pθ0 (y) L(θ1 , a0 )π(θ1 ) Falls die Ungleichung in die andere Richtung geht, wird die Entscheidung d = a0 gewählt. Bei Gleichheit kann eine zufällige Wahl getroffen werden. References [1] A. Craig, R. Hogg. Introduction to mathematical statistics. Collier Macmillan International Editions. Macmillan Publishing Co., New York and Collier Macmillan Publishers, London, third edition, 1970. [2] A. Bérod, St. Morgenthaler. Introduction à la statistique mathématique. Polycopié. Ecole Polytechnique Fédérale de Lausanne, Chaire de statistique appliquée, 2004.