Kapitel 10 Bayes’sche Verfahren 10.1 Einführung Alle bislang besprochenen Konzepte und Methoden (einschließlich der Grundstudiumsinhalte), können unter der Überschrift ”Klassische Methoden” eingeordnet werden. Es existiert ferner eine alternative Idee statistische Analysen durchzuführen. Diese Idee ist in den sogenannten ”Bayes’schen Methoden” verankert, die eine andere Art des Denkens verfolgen, wenn es um die Gewinnung von Informationen aus Daten geht. Insbesondere ist mit den Bayes’schen Methoden das Konzept der Apriori–Informationen verbunden, d.h. in die Datenanalyse werden Informationen einbezogen, die bereits vor der Erhebung von Daten vorliegen. Das Ziel der Bayes’schen Methoden ist die Kombination der beiden Informationsquellen, d.h. der Apriori–Informationen und der Daten. Ziel dieses Abschnitts ist es, einen Einblick in die elementaren Konzepte und Vorgehensweisen der Bayes’schen Verfahren zu geben. Ein unter praktischen Gesichtspunkten bedeutender Aspekt der Verfahren ist die Notwendigkeit der Anwendung anspruchsvoller numerischer Verfahren. Es gibt jedoch auch einige einfache Beispiele, in denen auf rechenintensive Verfahren verzichtet werden kann, weil einfache Lösungen vorliegen. Die folgenden Ausführungen konzentrieren sich in erster Linie auf diese einfachen Fälle. Auf die komplizierteren Fälle werden im letzten Abschnitt des Kapitel kurz angesprochen. Eine tiefere Diskussion der Bayes’schen Idee findet man bei Lee (1997), Gelman et al. (1995) oder Wickmann (1990). French and Smith (1997) zeigen eine Auswahl umfangreicher Fallstudien, in denen die Bayes’schen Verfahren angewendet werden. 10.2 Das Theorem von Bayes Definition 10.1 Die Ereignisse menge , wenn sie a) disjunkt sind, d.h. B1 ; B2 ; : : : ; Bk heißen eine Zerlegung der Ergebnis- Bi \ Bj = ; für alle i 6= j , b) die ganze Ergebnismenge ausschöpfen, d.h. 186 B1 [ B2 [ : : : [ Bk = . 10.2. DAS THEOREM VON BAYES 187 Beispiel 10.1 Sei = f1; 2; : : : ; 6g die Ergebnismenge beim Würfel. a) b) c) B1 = f1g B2 = f2; 3; 4g B3 = f5; 6g B1 = f1; 2; 3g B2 = f4; 5g ist eine Zerlegung. ist keine Zerlegung, da B1 [ B2 6 : = B1 = f1; 2; 3g B2 = f3; 4; 5; 6g ist keine Zerlegung, da B1 \ B2 6= ; : Satz 10.1 (Formel der totalen Wahrscheinlichkeit) Sei A B1 ; B2 ; : : : ; Bk eine Zerlegung der Ergebnismenge mit P (Bi) Dann gilt P (A) = k X i=1 ein Ereignis und > 0 für i = 1; 2; : : : k. P (AjBi ) P (Bi ) : Beweis: Es gilt A = A\ = A \ (B1 [ B2 [ : : : [ Bk ) = (A \ B1) [ (A \ B2) [ : : : [ (A \ Bk ) : Da die Ereignisse Bi ; i = 1; 2; : : : ; k disjunkt sind, sind auch die Ereignisse A \ Bi ; i = 1; 2; : : : ; k disjunkt. Damit gilt P (A) = P (A \ B1 ) + P (A \ B2 ) + : : : + P (A \ Bk ) = P (AjB1)P (B1) + P (AjB2)P (B2) + : : : + P (AjBk )P (Bk ) = k X i=1 P (AjBi ) P (Bi) : Dabei wurde die Definition der bedingten Wahrscheinlichkeiten P (AjBi ) = und die Folgerung P (A \ Bi ) P (Bi) P (A \ Bi ) = P (AjBi)P (Bi ) } benutzt. Satz 10.2 (Theorem von Bayes) Sei A ein Ereignis und B1 ; B2 ; : : : ; Bk eine Zerlegung der Ergebnismenge mit P (Bi ) > 0 für i = 1; 2; : : : k . Dann gilt P (Bj jA) = P (AjBj )P (Bj ) k P i=1 P (AjBi )P (Bi) : 188 KAPITEL 10. BAYES’SCHE VERFAHREN Beweis: Durch zweimalige Anwendung der Definition der bedingten Wahrscheinlichkeit und des Satzes der totalen Wahrscheinlichkeit erhält man P (Bj jA) = = P (Bj \ A) P (A) P (AjBj )P (Bj ) k P i=1 : P (AjBi)P (Bi ) } Beispiel 10.2 (Aus Hartung u.a., 1993) Durch einen zu spät erkannten Fabrikationsfehler sind in einer Automobilproduktion genau 20 defekte Lenkgetriebe eingebaut worden. In einer Rückrufaktion wurden 200 000 Wagen dieser Serie überprüft und alle als fehlerhaft identifizierten Lenkgetriebe wurden ausgetauscht. Dabei wird die Überprüfung mit 99%-iger Sicherheit zu einem korrekten Ergebnis führen. Wie groß ist die Wahrscheinlichkeit, dass ein ausgewechseltes Lenkgetriebe auch defekt war? Wir verwenden die folgenden Bezeichnungen: B1 sei das Ereignis eines defekten Lenkgetriebes. B2 sei das Ereignis eines nicht defekten Lenkgetriebes. A sei das Ereignis eines ausgewechselten Lenkgetriebes. Die folgenden Informationen sind uns gegeben: P (B1 ) = 20 = 0:0001 200 000 P (AjB1 ) = 0:99 P (AjB2 ) = 0:01 Gesucht ist die Wahrscheinlichkeit P (B1 jA) = P (fLenkgetriebe defektgjfLenkgetriebe ausgewechselt g) : Mit dem Theorem von Bayes folgt P (B1 jA) = P (AjB1 )P (B1 ) 2 P i=1 = P (AjBi )P (Bi ) 0:99 0:0001 0:99 0:0001 + 0:01 0:9999 0:0098 : Fast alle ausgewechselten Lenkgetriebe waren demnach nicht defekt. Beispiel 10.3 Es sei bekannt, dass in einer Familie die Großmutter und ein Sohn der Großmutter die Bluterkrankheit (Hämophilie) haben. Die Großmutter habe auch eine Tochter, von der es unbekannt ist, ob sie die Bluterkrankheit hat. Wir betrachten dann die Ereignisse B1 = fTochter hat Hämophilieg, B2 = fTochter hat nicht Hämophilieg. 10.2. DAS THEOREM VON BAYES Es gilt dann 189 P (B1 ) = 0:5 und P (B2 ) = 0:5 : Nun gebe es die zusätzliche Information, dass die Tochter zwei Söhne hat, die nicht eineiige Zwillinge sind. Beide Söhne haben keine Hämophilie. Wir betrachten die Ereignisse a) A1 = fSohn 1 hat nicht Hämopholieg, b) A2 = fSohn 2 hat nicht Hämopholieg, c) A = A1 \ A2 = fKein Sohn hat Hämopholieg. Es gilt P (A1 jB1 ) = 0:5 ; P (A2 jB1 ) = 0:5 : Da die Söhne nicht eineiige Zwillinge sind, gilt P (AjB1 ) = P (A1 jB1 ) P (A2 jB1 ) = 0:5 0:5 = 0:25 und P (AjB2 ) = 1 : Wie hoch ist die Wahrscheinlichkeit, dass die Tochter (die Mutter der beiden Söhne) Hämophilie hat (gegeben, dass beide Söhne keine Hämophilie haben)? Gesucht ist die Wahrscheinlichkeit P (B1 jA) : Nach dem Theorem von Bayes gilt P (AjB1 )P (B1 ) P (AjB1 )P (B1 ) + P (AjB2 )P (B2 ) (0:25)(0:5) = (0:25)(0:5) + 1 (0:5) 0:125 = = 0:2 : 0:625 P (B1 jA) = Für Dichtefunktion gibt es eine zum Bayes-Theorem analoge Formel. Man kann dabei an eine stetige Zerlegung des Ergebnisraums denken. Satz 10.3 Die gemeinsame Dichtefunktion der Zufallsvariablen Dann gilt f (y jx) = R1 1 f (xjy )f (y ) : f (xjy )f (y )dy X und Y sei f (x; y ). 190 KAPITEL 10. BAYES’SCHE VERFAHREN Beweis: Durch zweimalige Anwendung der Definition einer bedingten Dichtefunktion (siehe Definition 6.13) erhält man f (y jx) = f (x; y ) f (xjy )f (y ) = f (x) : f (x) Nun gilt für die Randdichtefunktion im Nenner f (x) = Z1 1 f (x; y )dy = Z1 1 f (xjy )f (y )dy : } Damit hat man das gewünschte Ergebnis. Wir werden das Bayes-Theorem auch in dem Fall benutzen, in dem eine Zufallsvariable, z.B. Y , stetig und die andere diskret ist. Es gilt dann f (y jX = x) = 1 R 1 P (fX = xgjy )f (y ) : P (fX = xgjy )f (y )dy (10.1) 10.3 Bayes’sche Verfahren Beispiel 10.4 Man möchte für eine Münze die Wahrscheinlichkeit schätzen, mit der sie beim Wurf mit ,,Kopf” auftrifft, d.h. = P (f,,Kopf”g) : FRAGE: Wie interpretiert man diese Wahrscheinlichkeit ? Wir betrachten zwei mögliche Interpretationen. a) Das klassische Verfahren interpretiert diese Wahrscheinlichkeit als relative Häufigkeit. Die Wahrscheinlichkeit eines Ereignisses ist der Wert, gegen den die relative Häufigkeit des Ereignisses konvergiert, wenn man das Experiment unendlich oft unter gleichen Bedingungen ausführte. Diese Interpretation wird nicht von allen akzeptiert. An dieser Vorstellung wird kritisiert, dass man solche Experimente nicht unendlich oft durchführen kann. b) Bei der subjektiven Interpretation von Wahrscheinlichkeiten wird ,,Wahrscheinlichkeit” als ein subjektiver Begriff aufgefasst. Er beschreibt quantitativ unsere Vorstellung, dass ein Ereignis vorkommen wird. Man kann die Ergebnisse eines Experiments verwenden, um die bisherige Vorstellung der Wahrscheinlichkeit eines gegebenen Ereignisses zu ändern oder zu präzisieren. Wir betrachten das folgende EXPERIMENT: Wir werfen dreimal eine Münze. Sei X die Anzahl der ,,Köpfe”. Wenn die drei Versuche unabhängig sind, ist die Wahrscheinlichkeitsfunktion von X (gegeben ) P (xj) = ( 3 x x (1 0 )3 x x = 0; 1; 2; 3 sonst : 10.3. BAYES’SCHE VERFAHREN 191 Wir nehmen an, dass X = 2 beobachtet wurde. Wir wollen die klassische Vorgehensweise der Bayes’schen Vorgehensweise gegenüberstellen. a) In der typisch klassischen Vorgehensweise betrachtet man als Konstante, und X = 2 ist die Realisation einer Zufallsvariablen. Man kann z.B. die Maximum-Likelihood-Methode verwenden, um zu schätzen, d.h. es ist ! 3 2 L(; X = 2) = (1 )3 2 2 zu maximieren. Dies führt zum Schätzer 2 ^ = : 3 Würden Sie diesem Wert glauben? Oder etwa dem noch extremeren Wert ^ = 1 X=3? falls b) In der typischen Bayes’schen Vorgehensweise ist wohl eine Konstante, aber sie ist unbekannt. Das Ergebnis X = 2 ist bekannt. Bevor man das Experiment durchführt, hat man eine Vorstellung des Wertes von . Diese Vorstellung kann man als Apriori-Dichtefunktion darstellen, etwa wie in Abbildung 10.1. 2.0 f(π) 1.5 1.0 0.5 0.0 0.0 0.5 1.0 π Abbildung 10.1: Apriori-Verteilung von (subjektive Vorstellung) Dabei wird als Zufallsvariable betrachtet. Wir wissen, dass X , gegeben , binomialverteilt ist, d.h. ! 3 2 P (fX = 2gj) = (1 )3 2 : 2 Wir können jetzt das Theorem von Bayes verwenden, um unsere Apriori-Vorstellung (d.h. unsere Vorstellung vor der Durchführung des Experiments) von der Verteilung von zu präzisieren. Jetzt haben wir den Fall, dass eine Zufallsvariable (X ) diskret ist, während die andere ( ) stetig ist. Nach Formel (10.1) gilt, wenn f ( ) die Dichtefunktion der Apriori-Verteilung von bezeichne, f (jX = 2) = R1 0 P (fX = 2gj)f () P (fX = 2gj)f ()d : 192 KAPITEL 10. BAYES’SCHE VERFAHREN Das ist die bedingte Dichtefunktion von , gegeben X = 2. Sie enthält also unser korrigiertes Wissen über die Verteilung von nach Durchführung des Experiments. Sie heißt die Posteriori-Verteilung von (gegeben die Beobachtungen). Abbildung 10.2 verdeutlicht den Zusammenhang zwischen Apriori- und Posteriori-Verteilung. Vor der Beobachtung haben wir nur eine vage Vorstellung über die Verteilung des Parameters . Mit Hilfe eines Modells (hier die Binomialverteilung) und der Beobachtungen wird diese vage Vorstellung zu einer genaueren Posteriori-Vorstellung über den Parameter präzisiert. Diese Vorstellung soll durch die Stärke des Grautons in den Abbildungen unterstrichen werden. Apriori Posteriori 8 8 6 Beobachtungen f(π) f(π) 6 4 Modell 2 0 4 2 0 0.0 0.2 0.4 π 0.6 0.8 1.0 0.0 0.2 0.4 π 0.6 0.8 1.0 Abbildung 10.2: Apriori-Verteilung und Posteriori-Verteilung von Die eben geschilderte Vorgehensweise bei den Bayes’schen Verfahren wirft die beiden folgenden Probleme auf: 1.) Wie soll man die Apriori-Verteilung bestimmen? 2.) Wie berechnet man die Posteriori-Verteilung? Das erste Problem ist ein Hauptkritikpunkt an den Bayes’schen Verfahren. Die subjektive Bestimmung der Apriori-Verteilung gilt als unwissenschaftlich. Das zweite Problem kann sehr kompliziert sein. Es geht darum, das Integral Z1 0 P (fX = 2gj )f ( )d zu bestimmen. Das Problem ist jedoch leicht zu lösen, wenn man für die Apriori-Verteilung eine Verteilung verwendet die zu einer leicht integrierbaren Funktion führt, wenn man sie mit P (fX = 2gj ) multipliziert, d.h. die Apriori-Verteilung muss in geeigneter Weise zu der Binomialverteilung passen. Das Problem ist dann leicht zu lösen, wenn man eine konjugierte Verteilung für f ( ) verwendet. Die Definition einer konjugierten Verteilung werden wir später betrachten. Jetzt sei gesagt, dass die Beta-Verteilung die konjugierte Verteilung einer Binomialverteilung ist, d.h. das zweite Problem ist einfach zu lösen, wenn wir für die Apriori-Verteilung von eine Betaverteilung verwenden. Wir nehmen also an, dass Be(; ) ; 10.3. BAYES’SCHE VERFAHREN d.h. f ( ) = ( 193 1 1 (1 B (; ) 0 ) 1 0<<1 sonst : Abbildung 10.3 zeigt einige Beta-Apriori-Verteilungen. 12 Be(100,100) 10 f(π) 8 Be(50,20) 6 4 2 Be(10,10) 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.3: Einige Beta-Apriori-Verteilungen Wir nehmen auch weiterhin an, dass X j b(n; ) : Dann ist f ( jX = x) = R1 0 P (fX = xgj )f ( ) P (fX = xgj )f ( )d : Das Integral im Nenner ist Z1 0 P (fX = xgj )f ( )d = = Z1 0 ! n x 1 (1 ) 1 (1 )n x d x B (; ) ! 1 n 1 Z x+ 1(1 )n x B (; ) 0 | = ! x+ 1 d {z B (+x; +n x) } n B ( + x; + n x) : x B (; ) (Beachten Sie, dass wir dieses Integral schon in Kapitel 12 bei der Herleitung der BetaBinomial-Verteilung berechnet haben. Es handelt sich um die Bestimmung einer Mischverteilung. Die Binomialverteilung wird gemäß einer Betaverteilung gemischt.) Damit ist die Posteriori-Dichte f ( jX = x) = n x (1 )n x 1 (1 x n B ( + x; + n x x + 1 (1 )n x+ 1 = B ( + x; + n x) ; ) 1 =B (; ) x)=B (; ) 194 KAPITEL 10. BAYES’SCHE VERFAHREN d.h. die Posteriori-Verteilung von gegeben X tern + x und + n x, d.h. = x ist eine Betaverteilung mit den Parame- jX Be( + x; + n x) : (10.2) Wir haben gesehen, dass die Posteriori-Verteilung zu der gleichen Familie von Verteilungen gehört wie die Apriori-Verteilung. Beispiel 10.5 Nehmen wir Be(10; 10) als Apriori-Verteilung an und, dass wie in Beispiel 10.4 n = 3 und X = 2 beobachtet wurde. Die Posteriori-Verteilung ist dann Be(10 + 2; 10 + 3 2) = Be(12; 11) : Abbildung 10.4 zeigt die Apriori und Posteriori Verteilung. 4 Posteriori: B(12,11) f(π) 3 Apriori: B(10,10) 2 n=3; x=2 1 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.4: Apriori-Verteilung (Be(10;10)) und Posteriori-Verteilung (Be(12;11)) Hätten wir Be(100; 100) als Apriori-Verteilung verwendet, so wäre die Posteriori-Verteilung Be(102; 101). Die beiden Verteilungen sind kaum zu unterscheiden. Beispiel 10.6 Nehmen wir an, dass n = 100 und X = 30 beobachtet wurde. Die Apriori-Verteilung sei Be(100; 100). Die Posteriori-Verteilung wäre dann Be(130; 170). Abbildung 10.5 zeigt diese beiden Verteilungen, während Abbildung 10.6 die Apriori- und Posteriori-Verteilungen für den Fall n = 1 000 und x = 300 zeigt. Besonders die Abbildung 10.6 zeigt, dass die Apriori-Vorstellung durch die Beobachtungen sehr stark korrigiert wird. Zusammenfassend lässt sich sagen: a) Die Posteriori-Verteilung hängt von i) der Apriori-Verteilung und ii) dem Ergebnis x ab. b) Mit zunehmender Stichprobeninformation (hier n) wird der Einfluss der Apriori-Verteilung immer geringer. 10.3. BAYES’SCHE VERFAHREN 195 14 Posteriori: B(130,170) 12 f(π) 10 Apriori: B(100,100) 8 6 4 n=100; x=30 2 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.5: Apriori-Verteilung (Be(100;100)) und Posteriori-Verteilung (Be(130;170)) 30 Posteriori: B(400,800) 25 f(π) 20 n=1000; x=300 15 10 Apriori: B(100,100) 5 0 0.0 0.2 0.4 0.6 0.8 1.0 π Abbildung 10.6: Apriori-Verteilung (Be(100;100)) und Posteriori-Verteilung (Be(400;800)) Bei den Bayes’schen Verfahren setzt man die Beobachtungen X = x ( z.B. X = 2 in Beispiel 10.4) als bekannt voraus. Unbekannt sind die oder der Parameter ( in Beispiel 10.4). Die gemeinsame Verteilung der Beobachtungen und der unbekannten Parameter wird in der folgenden Weise angegeben f (; x) = f (xj)f () falls X stetig ist. Dabei ist f (xj ) die Verteilung der Beobachtungen bei gegebenem . Man berechnet dann die bedingte Verteilung der unbekannten Parameter, gegeben die bekannten Beobachtungen. Dafür verwendet man das Theorem von Bayes. f (jX = x) = 1 R 1 f (xj)f () : f (xj)f ()d Ist X eine diskrete Zufallsvariable, so ist die folgende Gleichung zu verwenden. (10.3) 196 KAPITEL 10. BAYES’SCHE VERFAHREN f (jX = x) = R1 1 P (xj)f () : P (xj)f ()d (10.4) Definition 10.2 Sei f (xj ) die bedingte Dichtefunktion der Zufallsvariablen X bei gegebenem Parameter und f ( ) die Apriori-Verteilung des Parameters . Die PosterioriVerteilung von , gegeben X = x ist dann durch Gleichung (10.3) gegeben. Ist X eine diskrete Zufallsvariable mit der Wahrscheinlichkeitsfunktion P (xj ), so ist die PosterioriVerteilung von , gegeben X = x durch Gleichung (10.4) gegeben. Wir wollen jetzt besprechen, wie man die Posteriori-Verteilung einfach bestimmen kann, wenn man konjugierte Verteilungen verwendet. Definition 10.3 Die Verteilung f ( ) heißt die (natürliche) konjugierte Verteilung für f (xj), wenn f (jx) und f () dieselbe Form haben, d.h. wenn die Apriori- und Posteriori-Verteilung zu derselben Familie von Verteilungen gehören. Beispiel 10.7 Die Betaverteilung ist die konjugierte Verteilung für den Parameter = einer Bi- nomialverteilung. Wir hatten weiter oben angenommen, dass die bedingte Verteilung von X gegeben eine Binomialverteilung ist, d.h. X j b(n; ) : Als Apriori-Verteilung von hatten wir eine Betaverteilung angenommen, d.h. Be(; ) : Wir konnten zeigen, dass die bedingte Verteilung von gegeben (siehe Gleichung (10.2) X eine Betaverteilung ist, genauer jX = x Be( + x; + n x) : Die Apriori-Dichte f ( ) und die Posteriori-Dichte f ( jX = x) sind jeweils Betaverteilungen. Wie verwendet man die Posteriori-Verteilung? Der Modalwert kann als Schätzer des Parameters aufgefasst werden. Mit Hilfe der Verteilung kann ein Vertrauensbereich für den Parameter angegeben werden. Betrachten wir die Situation in Abbildung 10.5. Die Posteriori-Verteilung ist die Betaverteilung mit den Parametern 130 und 170. Sie hat den Modalwert an der Stelle (130 1)=(300 2) = 0:43, d.h. ^ = 0:43 schätzen. Um einen 90%-Vertrauensbereich zu bestimmen, berechnet man würde durch man mit Hilfe der Umkehrfunktion der Verteilungsfunktion den 5%- und 95%-Punkt der Betaverteilung. In diesem Fall ergibt sich das Intervall (0:387; 0:481). 10.3. BAYES’SCHE VERFAHREN 197 Beispiel 10.8 Die Gammaverteilung ist die konjugierte Verteilung für den Parameter einer Poissonverteilung. Sei X j poissonverteilt mit dem Parameter , d.h. P (fX = xgj) = ( x e x! für x = 0; 1; 2; : : : sonst : 0 Die Apriori-Verteilung von sei eine Gammaverteilung, d.h. G( ; ) ; d.h. 8 < f () = : 1 e ( ) 0 Dann ist die Posteriori-Verteilung von , gegeben X f (jX = x) = 1 R 0 0 sonst : =x P (fX = xgj)f () : P (fX = xgj)f ()d Wir bestimmen zunächst den Zähler dieses Ausdrucks und bemerken, dass der Nenner das Integral über den Ausdruck im Zähler ist. P (fX = xgj)f () = x e x! 1 (e) = x+ 1 e x! ( ) (1+) (10.5) Den Nenner hatten wir bereits in Kapitel 9 bestimmt, als wir die Mischung der Poissonverteilung bezüglich der Gammaverteilung betrachtet haben (siehe Seite 178). Als Zwischenergebnis hatten wir dort erhalten: Z1 0 P (X = xj)f ()d = (x + ) : x! ( )(1 + )x+ (10.6) Dividieren wir Gleichung (10.5) durch Gleichung 10.6, so erhalten wir: f (jX = x) = ( + 1) +x +x 1 e ( + x) (+1) ; d.h. die Dichtefunktion einer Gammaverteilung mit den Parametern + x und + 1. Wir fassen das Ergebnis des letzten Beispiels in folgendem Satz zusammen. Satz 10.4 Die Zufallsvariable X sei bei gegebenem poissonverteilt mit dem Parameter (d.h. X j P o()). Die Aprioriverteilung von sei G( ; ). Dann ist die PosterioriVerteilung von , gegeben die Beobachtung x G( + x; + 1) : 198 KAPITEL 10. BAYES’SCHE VERFAHREN Wir können dieses Verfahren auf die folgende Weise verallgemeinern: Wenn man zwei Beobachtungen hat, wird die Posteriori-Verteilung nach Betrachtung der ersten Beobachtung als Apriori-Verteilung für den zweiten Schritt verwendet (siehe Abbildung 10.7). Apriori Posteriori 0.30 0.30 0.25 0.25 Beobachtung: 0.20 0.15 0.20 0.15 0.10 x1=6 0.05 0.10 0.05 0.0 0.0 0 5 10 15 µ 20 25 30 0 5 Apriori 10 15 µ 20 25 30 Posteriori 0.30 0.30 0.25 0.25 Beobachtung: 0.20 0.15 0.20 0.15 0.10 x2=4 0.05 0.10 0.05 0.0 0.0 0 5 10 15 µ 20 25 30 0 5 Apriori 10 15 µ 20 25 30 Posteriori 0.30 0.30 0.25 0.25 Beobachtung: 0.20 0.15 0.20 0.15 0.10 x3=8 0.05 0.10 0.05 0.0 0.0 0 5 10 15 µ 20 25 30 0 5 10 15 µ 20 25 30 Abbildung 10.7: Apriori und Posteriori-Verteilungen nach Eingang von neuen Beobachtungen Wenn man drei oder mehr Beobachtungen hat, führt man das einfach weiter. Seien x1 ; x2 ; ; xn unabhängige Beobachtungen aus einer Poissonverteilung mit unbekanntem Parameter . Sei G( ; ). Apriori-Verteilung Beobachtung Posteriori-Verteilung .. . .. . .. . G( ; ) G( + x1 ; + 1) x1 x2 G( + x1 + + xn 1 ; + n 1) xn G( + x1 ; + 1) G( + x1 + x2 ; + 2) G( + n P i=1 xi ; + n) 10.3. BAYES’SCHE VERFAHREN 199 Beispiel 10.9 Wie bisher sei die Zufallsvariable bei bekanntem poissonverteilt mit dem Parameter . Die Apriori-Verteilung von sei G(1; 0:1) : Es seien die folgenden Beobachtungen gegeben: 9; 7; 13; 10; 6 Die Anzahl der Beobachtungen ist 5, die Summe der Beobachtungen ist 45. Dann ist die PosterioriVerteilung G(1 + 45; 0:1 + 5) : Abbildung 10.8 zeigt die Apriori- und die Posteriori-Verteilung. Apriori 0.35 Posteriori 0.35 0.30 0.30 0.25 0.25 Beobachtungen: f(µ ) 0.20 f(µ ) 0.20 0.15 0.15 x1+x2+x3+x4+x5=45 0.10 0.10 0.05 0.05 0.0 0.0 0 10 20 µ 30 40 0 10 20 µ 30 40 Abbildung 10.8: Apriori- (G(1; 0:1)) und Posteriori-Verteilung (G(46; 5:1)) Bei n unabhängigen Beobachtungen x1 ; x2 ; ; xn hat man die Posteriori-Verteilung G( + n X i=1 xi ; + n) : Beispiel 10.10 Die Zufallsvariable X sei exponentialverteilt mit dem Parameter , d.h. f (xj) = ( e x 0 x0 sonst : Der Parameter besitze eine Gammaverteilung mit den Parametern und , d.h. G( ; ) ; d.h. 8 < f ( ) = : 1 e ( ) 0 0 sonst : Man kann dann zeigen (es sei Ihnen als Übung empfohlen), dass die Posteriori-Verteilung von gegeben die Beobachtung X = x wieder eine Gammaverteilung ist, und zwar jx G( + 1; + x) : 200 KAPITEL 10. BAYES’SCHE VERFAHREN Die Gammaverteilung ist also die konjugierte Verteilung für die Exponentialverteilung. Nach Eingang der Beobachtungen x1 ; x2 ; : : : ; xn ist die Posterioriverteilung G( + n; + n X i=1 xi ) : n P als Hazardrate und T = xi i=1 total time on test. Die Dichtefunktion von , gegeben die Beobachtungen x1 ; x2 ; : : : ; xn ist dann In der Zuverlässigkeitstheorie bezeichnet man den Parameter f (jx1 ; x2 ; :::; xn ) = ( 1 +n +n 1 e (+T ) ( ) ( + T ) 0 0 sonst als : Man kann dann schätzen durch den Erwartungswert dieser Verteilung, d.h durch ( + n)=( + T ) : In der Zuverlässigkeitstheorie wird es häufig als gefährlich angesehen, wenn die Hazardrate einen bestimmten Wert 0 übersteigt. Diese Wahrscheinlichkeit kann durch Integation der Posteriori-Dichtefunktion von bestimmt werden. Unsere bisherigen Resultate können wir so zusammenfassen: a) Die Betaverteilung ist die konjugierte Verteilung für die Binomialverteilung. Apriori-Vert. Modell Be(; ) X j b(n; ) Beobacht. X=x Posteriori-Vert. jX = x Be( + x; + n x) b) Die Gammaverteilung ist die konjugierte Verteilung für die Poisson-Verteilung. Apriori-Vert. Modell G( ; ) X j P0 () Beobacht. X =x Posteriori-Vert. jX G( + x; + 1) c) Die Gammaverteilung ist die konjugierte Verteilung für die Exponentialverteilung. Apriori-Vert. G( ; ) Modell Beobacht. X j Exp() X = x Posteriori-Vert. jX G( + 1; + x) Nachdem wir unsere Verteilung über den Parameter durch die Posteriori-Verteilung korrigiert haben, wollen wir uns fragen: Wie sind weitere zukünftige Werte der Zufallsvariablen X verteilt? Definition 10.4 Die prädiktive Verteilung von X. X ist die Randverteilung eines zukünftigen Wertes von 10.3. BAYES’SCHE VERFAHREN 201 Satz 10.5 Die prädiktive Verteilung einer binomialverteilten Zufallsvariablen (X b(n; )), deren Parameter betaverteilt (Be(; )) ist, ist die Beta-Binomialverteilung mit den Parametern n ~ ; + x und + n x. Dabei ist x der zuvor beobachtete Wert von X und n~ ist die Anzahl der weiteren Bernoulli-Experimente. Bevor wir diesen Satz beweisen, wollen wir die Situation in der folgenden Übersicht zusammenfassen: Apriori Be(; ) Modell X j b(n; ) Posteriori jX Be( + x; + n x) Die Apriori-Vorstellungen über den Parameter seien in einer Betaverteilung ausgedrückt. Das Modell für die Beobachtungen bei gegebenem Parameter sei eine Binomialverteilung. Nach Eingang von Beobachtungen wird die Apriori-Vorstellung über in eine PosterioriVorstellung über modifiziert. Dies ist wieder eine Betaverteilung. Die Frage, die Satz 10.5 beantwortet, ist die nach der Verteilung weiterer zukünftiger Werte unter Berücksichtigung der bisher gewonnenen Erkenntnisse. Es werden weitere n ~ Bernoulli-Versuche durchgeführt. Sei diesen weiteren Versuchen. Die Behauptung des Satzes ist X~ die Anzahl der Erfolge in X~ Beta-Binomial(~n; + x; + n x) : Beispiel 10.11 Wir betrachten das Münzwurfexperiment aus Beispiel 10.4. Be(; ) z.B. Be(5; 5) X j b(n; ) z.B. b(3; ) jX Be( + x; n x + ) Be(7; 6) (falls x = 2) ~ -mal. Sei X~ die Anzahl der ,,Köpfe” in diesen weiteren Versuchen. Wir werfen die Münze noch n ~ . Sie heißt die prädiktive Verteilung. Gesucht ist die Verteilung von X Apriori-Verteilung Modell Posteriori-Verteilung Wie groß ist z.B. P (fX~ = x~gjx = 2) ? Es ist X~ j b(~n; ) : Aber ist nicht bekannt. Beweis des Satzes: P (fX~ = x~gjX = x) = = Z1 0 Z1 0 P (fX~ = x~gjX = x; )f ( jx)d ! n~ x~ +x 1 (1 )+n x 1 (1 )n~ x~ d x~ B ( + x; + n x) 202 KAPITEL 10. BAYES’SCHE VERFAHREN = = ! 1 Z n~ 1 +x+~x 1 (1 )+n x~ B ( + x; + n x) 0 ! n~ B ( + x + x~; + (n x) + (~n x~)) x~ B ( + x; + n x) Das ist die Beta-Binomialverteilung mit den Parametern n ~ ; + x und + n x 1+~n x~ d x. } Beachten Sie, dass wir wieder die Mischverteilung einer Binomialverteilung bezüglich einer Betaverteilung berechnet haben (siehe Herleitung der Beta-Binomialverteilung auf Seite 175). Beispiel 10.12 Wir betrachten folgende Situation: Die Apriori-Verteilung des Parameters einer Binomialverteilung sei eine Be(5; 5)-Verteilung. In n = 3 Versuchen wurden X = 2 Erfolge beobachtet, d.h. x = 2. Die Posteriori-Verteilung des Parameters ist dann eine Be(7; 6)-Verteilung. Es werden n ~ = 5 weitere Bernoulli-Versuche durchgeführt. Gesucht ist die prädiktive Vertei~ , der Anzahl der Erfolge in diesen fünf weiteren Versuchen. lung von X ~ Beta-Binomial-verteilt mit den Parametern Nach Satz 10.5 ist X (~n; + x; + n x) = (5; 5 + 2; 5 + 3 2) : 0.30 0.25 0.20 0.15 0.10 0.05 0.0 0 1 2 3 4 5 Abbildung 10.9: Prädiktive Verteilung: Beta-Binomial (5; 7; 6) ~. Abbildung 10.9 zeigt die Wahrscheinlichkeitsfunktion der prädiktiven Verteilung von X Beispiel 10.13 Wir wollen jetzt die prädiktive Verteilung einer poissonverteilten Zufallsvariablen, deren Parameter gammaverteilt ist, bestimmen, d.h. wir gehen von der folgenden Situation aus: Die Apriori-Verteilung des Parameters einer Poissonverteilung sei G( ; ). Die bedingte Verteilung von X , gegeben , sei P o(). 10.3. BAYES’SCHE VERFAHREN 203 Es liegen die Beobachtungen x1 ; x2 ; :::; xn vor. Die Posteriori-Verteilung des Parameters nach den Beobachtungen ist n X G( + xi ; + n) : i=1 Abbildung 10.10 zeigt eine mögliche Posteriori-Verteilung. 0.4 0.3 0.2 0.1 0.0 0 5 10 15 20 Abbildung 10.10: Dichte f (jx) der Posteriori-Verteilung von . FRAGE: Welche Verteilung besitzt die nächste Beobachtung, d.h. welches ist die prädiktive Verteilung? ~ die nächste Beobachtung. Die bedingte Verteilung von X~ gegeben ist die Poissonverteilung Sei X mit dem Parameter , d.h. e P (fX~ = x~gj) = x~ ; x~ = 0; 1; 2; : : : : x~! Die (aktuelle) Verteilung von ist f (jx) = wobei zur Vereinfachung der Schreibweise n X 0 = + i=1 0 0 0 (0 ) 1 e ; ( 0 ) xi und 0 = + n gesetzt wurde. Es ist folgendes Integral zu bestimmen: P (fX~ = x~g) = Z1 0 P (fX~ = x~gj)f (jx)d ; d.h. es ist die Mischung einer Poissonverteilung bezüglich einer Gammaverteilung zu bestimmen. Als Lösung erhalten wir die Wahrscheinlichkeitsfunktion der negativen Binomialverteilung (siehe Seite 178) mit den Parametern ( 0 ; 0 =(0 + 1)). Wir formulieren das Ergebnis als Satz 204 KAPITEL 10. BAYES’SCHE VERFAHREN Satz 10.6 Die prädiktive Verteilung der Poissonverteilung, deren Parameter gammaverteilt ist, ist eine negative Binomialverteilung. Wir betrachten abschließend in diesem Abschnitt die Normalverteilung für den Fall, dass die Varianz 2 bekannt ist. Der unbekannte Parameter ist der Erwartungswert , so dass ein Modell für die Beobachtungen durch X j N (; 2 ) : beschrieben werden kann. Es gilt dann: Satz 10.7 Die konjugierte Verteilung für den Parameter der Normalverteilung ist die Normalverteilung. Zunächst wird der Fall betrachtet, bei dem eine Apriori–Verteilung durch eine Beobachtung präzisiert wird. Sei N (0 ; 02 ) die Apriori–Verteilung und x die Beobachtung, dann ist die Posteriori–Verteilung durch jx N (1 ; 12 ) mit 1 = 0 + (x 0 ) 02 2 + 02 und 1 = 1+ 1 12 02 2 gegeben. Zunächst wird der Erwartungswert 1 der Posteriori–Verteilung betrachtet. Dieser stellt einen Kompromiss zwischen dem Erwartungswert der Apriori–Verteilung und der Beobachtung dar: Das Ausmaß der Aktualisierung hängt davon ab, wie weit der ursprünglich angenommene Erwartungswert und die Beobachtung auseinander liegen. Ferner ist zu erkennen, dass die Varianz der Posteriori–Verteilung in jedem Fall kleiner ist als die der Apriori–Verteilung. In der oben gegebenen Formel wird der Kehrwert der Varianz verwendet, der als Präzision der Verteilung interpretiert werden kann. Wie zu sehen ist, steigt die Präzision um den Summand 1= 2 Beispiel 10.14 Angenommen es liegt eine Apriori–Verteilung Beobachtung x = 10 gemacht. Sei ferner 2 = gegebenen Formeln für die Posteriori–Verteilung: N (1; 4) vor und es wird eine 8, dann erhält man durch Anwendung der oben jx N (4; 8=3) Vergleicht man dieses Ergebnis mit dem Fall, in dem eine Beobachtung gemacht wird, die näher am Erwartungswert der Apriori–Verteilung liegt, erkennt man dass die Posteriori– Verteilung im ersten Fall stärker von der Apriori–Verteilung abweicht. Wäre beispielsweise x = 2 beobachtet worden, so lautete die Posterioriverteilung jx N (4=3; 8=3). Bemerkenswert ist auch, dass die Verringerung der Varianz unabhängig von der Beobachtung ist. Dies gilt allerdings nur für den hier betrachteten Fall einer bekannten Varianz. 10.4. BEMERKUNGEN ZU KONJUGIERTEN VERTEILUNGEN 205 Es wird jetzt der Fall betrachtet, bei dem eine Apriori–Verteilung durch n Beobachtungen präzisiert wird. Sei N (0 ; 02 ) die Apriori–Verteilung und x1 ; : : : ; xn die Beobachtungen, dann ist Posteriori–Verteilung durch jx1 ; : : : ; xn N (n ; n2 ) mit n = 0 + (x 0 ) 02 2 =n + 02 und 1 = 1+n n2 02 2 gegeben. Der Erwartungswert der Posteriori–Verteilung ist jetzt ein Kompromiss zwischen dem Erwartungswert der Apriori–Verteilung und dem Mittelwert der Beobachtungen. Ferner ist zu sehen, dass die Varianz mit zunehmender Anzahl von Beobachtungen kleiner wird. Mit Hilfe der Posteriori–Verteilung kann jetzt die prädiktive Verteilung beschrieben werden: Satz 10.8 Die prädiktive Verteilung einer Normalverteilung, deren Parameter falls normalverteilt ist, lautet: eben- X~ N (n ; 2 + n2 ) : Beispiel 10.15 Angenommen es liegt eine Apriori–Verteilung N (1; 4) vor und es werden zwei Beobachtungen gemacht: Beobachtung x1 = 11 und x2 = 1. Sei ferner 2 = 8, dann erhält man durch Berechnung der oben gegebenen Formeln für die Posteriori–Verteilung: jx N (3; 2) und die prädiktive Verteilung ist: X~ N (3; 10) : Im Fall der Normalverteilung ist es auch denkbar, dass der Parameter bekannt ist und die Varianz durch eine Verteilung beschrieben wird. Die konjugierte Verteilung der Varianz einer Normalverteilung (bei bekanntem Erwartungswert) ist die inverse 2 –Verteilung (siehe dazu Lee, 1997, Appendix A.5). Der Fall unbekannter Varianz ist kompliziert und wird daher im Rahmen dieser Veranstaltung nicht näher diskutiert. Für Interessierte sei auf Lee (1997, Kap. 2.7) oder Gelman et al. (1996, S. 46–48) verwiesen. 10.4 Bemerkungen zu konjugierten Verteilungen Bei den Bayes’schen Verfahren beschreibt die Apriori–Verteilung das Wissen eines ”Experten” über den Parameter. Die Verwendung der konjugierten Verteilung (wegen der einfachen mathematischen Handhabbarkeit) schränkt die Freiheit, seine Vorstellungen über den Parameter zu quantifizieren, ein. Somit ist es beispielsweise möglich, dass man weiß, dass ein Anteil einer Grundgesamtheit größer ist als 0.1. Die konjugierte Verteilung für die Binomialverteilung ist die Betaverteilung, für die aber in jedem Fall P ( < 0:1) > 0 gilt. Mit anderen Worten gibt es keine Betaverteilung, die in der Lage ist, das Wissen über den Parameter korrekt wiederzugeben. 206 KAPITEL 10. BAYES’SCHE VERFAHREN Auf der anderen Seite sind die in der Praxis verwendeten konjugierten Verteilungen flexibel genug um eine Verteilung zu bestimmen, die sehr nah an den Apriori–Vorstellungen liegt. Findet man aber keine Verteilung zur Beschreibung des Parameterwissens, kann man die Bayes’schen Verfahren trotzdem anwenden, wenngleich damit ein höherer Rechenaufwand (Einsatz numerischer Verfahren) erforderlich wird. Im folgenden Beispiel wird das Vorgehen für diesen Fall erläutert. Beispiel 10.16 Betrachtet wird eine Binomialverteilung mit unbekannter Erfolgswahrscheinlichkeit (beispielsweise ”Kauft ein Produkt”, ”besitzt ein Auto”,. . . ). Sei die Apriori–Verteilung durch 8 > < f ( ) = > : 100( 0:4) 0:4 < 0:5 100(0:6 ) 0:5 0:6 0 sonst 0 2 4 f(π) 6 8 10 gegeben. Die Dichte ist in Abbildung 10.11 dargestellt. 0.40 0.45 0.50 0.55 0.60 π Abbildung 10.11: Apriori-Verteilung von (subjektive Vorstellung) Zur Präzisierung der Apriorivorstellung wird nun eine Stichprobe der Größe n gezogen und die Anzahl der Erfolge sei mit x bezeichnet. (Die Stichprobe wurde mit Zurücklegen gezogen, so dass x als binomialverteilt betrachtet werden kann.) Unter diesen Bedingungen ist die Posteriori–Verteilung durch ! n x f (jx) = (1 )n x f () x gegeben, wobei eine Normierungskonstante darstellt, die gewährleistet, das die Fläche unter der Posteriori–Verteilung eins ist. Man erhält die Konstante durch Berechnung des Integrals 1= = + 0R:5 0:4 0R:6 0:5 n x (1 x )n x 100( n x (1 x )n x 100(0:6 )d 0:4)d Die Berechnung des komplizierten Ausdrucks mit Hilfe der Standardregeln ist sehr aufwendig. Es gibt auch Situationen, in denen das entsprechende Integral gar nicht analytisch zu lösen ist. Man kann aber die Lösung mit Hilfe numerischer Methoden immer approximieren und somit die Posteriori– Verteilung bestimmen. Abbildung 10.12 zeigt die Posteriori–Verteilung für n = 100 und verschiedene 10.4. BEMERKUNGEN ZU KONJUGIERTEN VERTEILUNGEN 207 Beobachtungen: x = 50 (links), x = 40 (Mitte) und x = 20 (rechts). Zum Vergleich ist jeweils die Apriori–Verteilung gezeichnet. Zu beachten ist, dass die Posteriori–Verteilung nur den Bereich beschreibt, in dem auch die Aprioriverteilung definiert ist. Im Beispiels ist dies das Intervall [0.4,0.6]. Auch für x = 20 nimmt die Posteriori–Verteilung nur für diesen Bereich Werte größer null an. x=40 x=20 0.40 0.45 0.50 π 0.55 0.60 10 5 0 0 0 2 2 4 4 15 6 6 20 8 8 25 10 10 30 12 12 35 x=50 0.40 0.45 0.50 π 0.55 0.60 0.40 0.45 0.50 0.55 0.60 π Abbildung 10.12: Apriori-Verteilung und Posteriori–Verteilungen im Vergleich Komplizierter wird der Fall, wenn mehrere Parameter unbekannt sind (beispielsweise die Elemente der Kovarianzmatrix einer multivariaten Normalverteilung). Es ist dann notwendig Simulationen (sogenannte Monte Carlo–Methoden) anzuwenden, um die Normierungskonstante zu bestimmen. Ein kurzer Einblick hierzu findet sich bei Lee (1997, Kapitel 9). Eine detailliertere Beschreibung von Simulationsmethoden im Rahmen der Bayes’schen Verfahren ist beispielsweise bei Gamerman (1997) gegeben.